Wenn Inhalte auf mehreren URLs verfügbar sind, kann Duplicate Content entstehen. Suchmaschinen-Crawler wissen nicht, welche Adresse in den Suchergebnissen bevorzugt werden soll. Um das zu vermeiden, sollten Canonical Tags verwendet werden. Sie legen die bevorzugte Adresse fest. Duplicate Content besteht auch, wenn HTML Seiten und PDF-Dateien die selben Inhalte besitzen. Erfahre jetzt, wie Du Duplicate Content durch Canonical Tags von PDF-Dateien beheben kannst.
Für HTML-Seiten werden Canonical Tags am einfachsten im Head-Bereich vom HTML-Quellcode hinterlegt. Sie verweisen auf die bevorzugte URL. (Weitere Informationen im SEO-Glossar: Canonical Tags) Canonical Tags können auch für PDF Dateien festgelegt werden. Die Konfiguration erfolgt in der .htaccess Datei vom Apache-Webserver. Du benötigst dafür etwas technisches Verständnis aber kein Programmierwissen.
Inhaltsverzeichnis
Warum können PDF-Dateien Probleme machen?
Besitzt eine PDF-Datei den selben/identischen Inhalt, wie eine andere PDF-Datei oder eine HTML-Seite, kann Duplicate Content bestehen. Welche URL in den Suchmaschinen-Ergebnissen (SERPs) bevorzugt wird, erfolgt meist willkürlich. Das ist nicht optimal. Also sollten Canonical Tags regeln, welche Version die bevorzugte für Suchmaschinen ist. Das folgende Beispiel beschreibt eine Keyword-Kannibalisierung zwischen einer HTML-Seite (rot) und einer PDF-Datei (blau), die beide den selben Inhalt besitzen. Das ist ungünstig und muss vermieden werden.

PDF-Datei kanonisieren
Die Optimierung der Indexierungslogik zählt in das Fachgebiet Technisches SEO. In den meisten Fällen wird die HTML-Seite bevorzugt, denn PDF-Dateien stellen immer einen Bruch zur der Website dar. Häufig befinden sich in der PDF-Datei keine Links zur Website, so dass der Besucher einer PDF-Datei von der Website isoliert ist – und damit auch von weiteren Inhalten und Kontaktmöglichkeiten.
✅ Lösung
In meinem Beispiel erhält die PDF-Datei ein Canonical Tag, das die HTML-Seite mit identischem Inhalt bevorzugt. Die HTML-Seite darf durch keine Anweisung in der robots.txt-Datei von der Verarbeitung ausgeschlossen werden und muss indexierbar sein (Robots Meta Tag). Zur Konfiguration wird das Apache-Modul mod_headers verwendet und folgende Regel in der .htaccess-Datei auf dem Webserver notiert:
1 2 3 4 5 | <IfModule mod_expires.c> <Files test.pdf> Header append Link "<https://www.indexlift.com/de/test-zielseite>; rel=\"canonical\"" </Files> </IfModule> |
Der Crawler wird angewiesen, die HTML-Seite „test-zielseite“ gegenüber der PDF-Datei „test.pdf“ zu bevorzugen. Dadurch kann Duplicate Content vermieden werden.
- test.pdf muss durch den Dateinamen Deiner PDF-Datei ersetzt werden. Es wird kein absoluter/relativer Pfad notiert.
- https://www.indexlift.com/de/test-zielseite wird durch die absolute URL Deiner HTML-Seite ersetzt, die Google bevorzugen soll.
- Für jede PDF-Datei muss eine weitere Regel innerhalb des mod_headers erstellt werden.
Canonical Tag der PDF-Datei prüfen
Das erstellte Canonical Tag solltest Du validieren, zum Beispiel mit dem Canonical Tag URL Location Checker von seoreviewtools.com.

Danke für den Tipp!
Wird denn kein Pfad mitgegeben, also wo das test.pdf liegt?
Hallo Chris, das ist nicht erforderlich, probiere es aus.
Beste Grüße
Jens
Hallo Jens,
Sie sind der einzige Lichtblick heute mit meinem PDF-canonical Problem.
Wie sieht der Befehl aus, wenn ich MEHR als eine PDF canonisieren will? Muss dann der komplette Text wiederholt werden (mit den Zeile und
oder nur diese Info:
Header append Link „; rel=\“canonical\““
Merci!
Ich denke, es kommt an die Menge an. Wenn die Anzahl an Regeln überschaubar ist, dann die Anweisung erneut notieren und anpassen:
Sollen mehrere PDF-Dateien auf die selbe HTML-Seite verweisen, dann kann dies mit der Lösung erfolgen, die auf dieser Seite direkt über „PRO Tips“ notiert ist: https://geoffkenyon.com/how-to-add-canonical-tag-http-headers/. Ich wünsche maximale Erfolge.
Hallo Jens,
es klappt ganz vorzüglich, mit den PDFs… Nochmals Danke für Ihre Lösung. Könnte man eigentlich auf diese Weise…. grübel … grübel… auch die canonicals der einzelnen .htm Seiten reinschreiben, anstatt diese im header der Dateien zu erfassen?
hab was vergessen…. kann man auch auf einen Anker canonisieren:
Header append Link „; rel=\“canonical\““
Also es wirft keinen Fehlercode aus, aber ist das sinnvoll?
Google crawlt URLs mit Hashtag bzw. Hashbang aber ignoriert diese Anker. Deshalb rate ich davon ab, Canonical-URLs zu bilden, die ein Hashtag bzw. Hashbang besitzen. Weiterhin viel Erfolg.