Wenn Inhalte über mehrere URLs erreichbar sind, kann Duplicate Content entstehen. Dadurch könnten Suchmaschinen die falsche Version bevorzugen. Durch Canonical Tags kann man das vermeiden. Duplicate Content entsteht auch, wenn HTML Seiten und PDF-Dateien die selben Inhalte besitzen. In diesem Beitrag erkläre ich, wie man Canonical Tags für PDF-Dateien festlegt.
Für HTML-Seiten werden Canonical Tags am einfachsten im Head-Bereich vom HTML-Code festgelegt. Sie verweisen auf die bevorzugte Adresse. Canonical Tags können auch für PDF Dateien festgelegt werden. Bei Apache-Webservern erfolgt die Konfiguration in der .htaccess-Datei. Man benötigt dafür nur ein wenig technisches Verständnis.
Inhaltsverzeichnis
Warum können PDF-Dateien Probleme machen?
Besitzt eine PDF-Datei den selben/identischen Inhalt, wie eine andere PDF-Datei oder eine HTML-Seite, kann Duplicate Content entstehen. Welche URL in den Suchmaschinen-Ergebnissen (SERPs) bevorzugt wird, erfolgt meist willkürlich. Das ist nicht optimal. Also sollten Canonical Tags festlegen, welche Version von Suchmaschinen bevorzugt werden soll. In der SEO bezeichnen wir das als: Kanonisierung.
Das folgende Beispiel beschreibt eine Keyword-Kannibalisierung von drei URLs mit dem selben Seiteninhalt, darunter eine PDF-Datei. Ich habe die URL-Wechsel orange eingekreist. So wird ersichtlich, dass sich drei URLs gegenseitig behindern.
Kanonische URL festlegen
Die Optimierung der Indexierungslogik zählt in das Fachgebiet Technisches SEO. In den meisten Fällen bevorzugt man die HTML-Seite, denn PDF-Dateien stellen immer einen Bruch zur der Website dar. Häufig fehlen in der PDF-Datei Links zurück Website, so dass der Besucher einer PDF-Datei von der Website isoliert wird.
✅ Lösung: Canonical Tag in .htaccess
In meinem Beispiel erhält die PDF-Datei ein Canonical Tag, das die HTML-Seite mit dem selben Seiteninhalt bevorzugt. Die HTML-Seite darf durch keine Anweisung in der robots.txt-Datei von der Verarbeitung ausgeschlossen werden und muss indexierbar sein (Robots Meta Tag). Zur Konfiguration wird das Apache-Modul “mod_headers” verwendet und folgende Regel in der .htaccess-Datei auf dem Webserver notiert:
1 2 3 4 5 |
<IfModule mod_expires.c> <Files test.pdf> Header append Link "<https://www.indexlift.com/de/test-zielseite>; rel=\"canonical\"" </Files> </IfModule> |
Der Crawler wird angewiesen, die HTML-Seite “test-zielseite” gegenüber der PDF-Datei “test.pdf” zu bevorzugen. Dadurch kann Duplicate Content vermieden werden.
- “test.pdf” muss durch den Dateinamen Deiner PDF-Datei ersetzt werden. Es wird kein absoluter/relativer Pfad notiert.
- “https://www.indexlift.com/de/test-zielseite” wird durch die absolute URL Deiner HTML-Seite ersetzt, die Google bevorzugen soll.
- Für jede PDF-Datei muss eine eigenständige Regel innerhalb des “mod_headers” erstellt werden.
Canonical Tag der PDF-Datei prüfen
Das erstellte Canonical Tag sollte anschließend geprüft werden. Zum Beispiel mit dem Canonical Tag URL Location Checker von seoreviewtools.com.
Danke für den Tipp!
Wird denn kein Pfad mitgegeben, also wo das test.pdf liegt?
Hallo Chris, das ist nicht erforderlich, probiere es aus.
Beste Grüße
Jens
Hallo Jens,
Sie sind der einzige Lichtblick heute mit meinem PDF-canonical Problem.
Wie sieht der Befehl aus, wenn ich MEHR als eine PDF canonisieren will? Muss dann der komplette Text wiederholt werden (mit den Zeile und
oder nur diese Info:
Header append Link “; rel=\”canonical\””
Merci!
Ich denke, es kommt an die Menge an. Wenn die Anzahl an Regeln überschaubar ist, dann die Anweisung erneut notieren und anpassen:
Ich wünsche maximale Erfolge.
Hallo Jens,
es klappt ganz vorzüglich, mit den PDFs… Nochmals Danke für Ihre Lösung. Könnte man eigentlich auf diese Weise…. grübel … grübel… auch die canonicals der einzelnen .htm Seiten reinschreiben, anstatt diese im header der Dateien zu erfassen?
hab was vergessen…. kann man auch auf einen Anker canonisieren:
Header append Link “; rel=\”canonical\””
Also es wirft keinen Fehlercode aus, aber ist das sinnvoll?
Google crawlt URLs mit Hashtag bzw. Hashbang aber ignoriert diese Anker. Deshalb rate ich davon ab, Canonical-URLs zu bilden, die ein Hashtag bzw. Hashbang besitzen. Weiterhin viel Erfolg.