Canonical Tag für PDF Datei erstellen

  17. Oktober 2018

Canonical Tags werden verwendet, um Suchmaschinen auf Kopien einer Seite hinzuweisen. Technische Fehlkonfigurationen oder die Bereitstellung einer HTML Seite in einem weiteren Dateiformat (gleicher Inhalt von HTML Seite und PDF-Datei) sind typische Anwendungsfälle. Wie Canonical Tags für PDF Dateien richtig erstellt werden, das erkläre ich in diesem Blog-Beitrag.

Um Ranking-Probleme durch Keyword-Kannibalisierung aufgrund von Duplicate Content zu vermeiden, nutzt man in der Suchmaschinenoptimierung gern Canonical Tags. Diese werden im Head-Bereich vom HTML Quellcode hinterlegt und verweisen auf die bevorzugte URL. Canonical Tags können auch für PDF Dateien definiert werden. Sie werden in der .htaccess Datei vom Apache Webserver konfiguriert. Dafür ist kein Programmierwissen erforderlich.

Warum können PDF Dateien Probleme machen?

Teilweise kollidieren PDF Dateien mit Webseiten, wenn beide den selben oder identischen Inhalt besitzen. Das tritt auf, wenn Suchmaschinen-Bots beide URLs verarbeiten dürfen und keine bevorzugte URL festgelegt ist. Das führt meist zu einer Keyword-Kannibalisierung. Als Folge brechen Keyword-Rankings in den Suchergebnissen ein oder besitzen Schwankungen, sogenannte Auf- und Abwärtsgaps.

Das folgende Beispiel zeigt anschaulich eine Keyword-Kannibalisierung zwischen einer HTML Seite (rot) und einer PDF Datei (blau) aufgrund identischer Inhalte:

Keyword-Kannibalisierung durch PDF-Datei // SISTRIX Toolbox
Keyword-Kannibalisierung durch fehlendes Canonical Tag // SISTRIX Toolbox

PDF Datei kanonisieren

Im Rahmen einer technischen Suchmaschinenoptimierung sollte also konfiguriert werden, welche URL bevorzugt wird, also in den Suchergebnissen ranken soll. Grundsätzlich bietet es sich an, die HTML Seite zu bevorzugen, denn PDF Dateien stellen einen Bruch zwischen der Website und der Datei dar: Wie gelangt der Nutzer barrierefrei und leicht von der PDF-Datei auf eine themenrelvante Seite der Website?

Lösung

In meinem Beispiel erhält die PDF Datei ein Canonical Tag, welches auf die HTML Seite mit identischem Inhalt verweist. Die HTML Seite darf durch keine Anweisung in der robots.txt-Datei von der Verarbeitung ausgeschlossen werden, muss indexierbar sein (Robots Meta Tag) und sollte keine andere URL kanonisieren. Zur Konfiguration wird das Apache Modul „mod_headers“ verwendet und eine Anweisung in die .htaccess Datei auf dem Webserver geschrieben:

Dieses Beispiel informiert Suchmaschinen-Bots darüber, dass die Webseite mit der URL „https://www.indexlift.com/de/test-zielseite“ gegenüber der PDF-Datei „test.pdf“ bevorzugt werden soll. Dadurch wird eine Keyword-Kannibalisierung vermieden.

  • „test.pdf“ muss durch den Dateinamen der PDF Datei ersetzt werden.
  • „https://www.indexlift.com/de/test-zielseite“ wird durch die absolute URL der HTML Seite ersetzt, die Google bevorzugen soll.
  • Für jede PDF Datei muss eine Anweisung innerhalb des „mod_headers“ erstellt werden.

Canonical Tag der PDF Datei prüfen

Wenn die Anweisung in der .htaccess-Datei auf dem Webserver gespeichert ist, empfehle ich den Canonical Tags zu prüfen. Das ist mit der Rendern-Funktion der Google Search Console möglich:

Canonical Tag überprüfen // Google Search Console
Canonical Tag überprüfen // Google Search Console

Oder Du verwendest den Canonical Tag URL Location Checker von seoreviewtools.com, der sich hervorragend zur Validierung eignet.

Canonical Tag URL Location Checker // seoreviewtools.com
Canonical Tag URL Location Checker // seoreviewtools.com

Kommentare(2)

  • Chris
    29. Juli 2016, 14:18  Antworten

    Danke für den Tipp!
    Wird denn kein Pfad mitgegeben, also wo das test.pdf liegt?

    • Jens Fröhlich
      29. Juli 2016, 14:32

      Hallo Chris, das ist nicht erforderlich, probiere es aus.

      Beste Grüße
      Jens

Komentar verfassen