Duplicate Content

Duplicate Content (dt. duplizierter Content; doppelter Inhalt) liegt vor, wenn der gleiche Inhalt durch mehrere URLs verfügbar ist oder sich stark ähnelt.

Interner Duplicate Content

Duplicate Content kann innerhalb einer Domain oder Domain-übergreifend auftreten. Interner Duplicate Content entsteht häufig durch technische Fehljustierungen des CMS oder Shopsystem, zum Beispiel:

  • Web-Ressourcen sind über HTTPS und HTTP erreichbar.
  • Web-Ressourcen sind durch www und non-www erreichbar.
  • Web-Ressourcen sind auf mehreren Subdomains (Hosts) verfügbar.
  • Web-Ressourcen sind durch lowercase URLs (Kleinbuchstaben) und uppercase URLs (Großbuchstaben) erreichbar.
  • Web-Ressourcen sind mit Dateityp (.html oder .php) und ohne Dateityp erreichbar.
  • Web-Ressourcen sind mit und ohne Trailing Slashes (Schrägstrich am Ende der URL) erreichbar.
  • Web-Ressourcen sind mit und ohne Session-ID erreichbar.
  • Web-Ressourcen sind mit und ohne Get-Parameter erreichbar.
  • Web-Ressourcen sind durch unterschiedliche Sortierung der Get-Parameter in der URL erreichbar.
  • Web-Ressourcen stellen zusätzlich eine Printversion zur Verfügung.

Diese und weitere technischen Fehljustierungen lassen sich meist schnell beheben – durch Weiterleitungen, Canonical Tags und Anweisungen in der robots.txt-Datei. Die genannten Ursachen führen nicht zu einer Abstrafung durch Google, können die Crawlability jedoch massiv verschlechtern und sollten deshalb vermieden werden.

Beispiel für internen Duplicate Content
Beispielhaft für internen Duplicate Content ist leider das Stadtportal der Landeshauptstadt Dresden unter dresden.de. Inhalte sind durch HTTPS (roter Graph) und HTTP (blauer Graph) erreichbar. Ursache dafür scheint ein Relaunch im Juli 2015 zu sein, bei dem offensichtlich nicht auf technisches SEO geachtet wurde. Das Ergebnis: Die Online Reichweite unter Google.de bricht Anfang Juli 2017 leider massiv ein:

Duplicate Content: Beispiel dresden.de
Duplicate Content: Beispiel dresden.de

Externer Duplicate Content

Externer Duplicate Content kann durch unterschiedliche Ursachen erzeugt werden, tritt in der Praxis aber deutlich seltener auf. Domain-übergreifende doppelte Inhalte treten oft durch technische Fehler bei fehlenden oder falschen hreflang Tags von mehrsprachigen, multiregionalen Websites auf.

  • Duplizierte Web-Ressourcen werden auf verschiedenen (Sub-) Domains veröffentlicht, um mehrere geografische Regionen zu erschließen.
  • Inhalte werden exakt übersetzt aber durch technische Fehler konkurrieren die Sprachversionen im selben Suchindex.

Auswirkungen doppelter Inhalte

Keyword-Kannibalisierung

Durch Duplicate Content können wichtige Keyword-Rankings in der Websuche nicht wie gewünscht aufgebaut werden. Suchmaschinen sind nicht in der Lage, eine URL zu bevorzugen und diese stabil in der Websuche auszuliefern. Statt dessen weisen sie die Rankings den konkurrierenden URLs im Wechsel zu. Das führt zu instabilen Rankingverläufen.

Das folgende Diagramm zeigt die Auswirkung von internem Duplicate Content. Zwei Web-Ressourcen konkurrieren miteinander für ein Keyword. Google weist das Ranking mal URL A (roter Graph) und URL B (blauer Graph) zu. Dadurch werden die Ranking-Potenziale des Keywords nicht ausgeschöpft:

Keyword-Kannibalisierung durch internen Duplicate Content
Keyword-Kannibalisierung durch internen Duplicate Content

Abstrafung bei unfairen Verhaltensweisen möglich

Es ist durchaus möglich, dass Websites bei offensichtlicher Täuschungsabsicht abgestraft werden können, zum Beispiel wenn illegale Kopien von Inhalten publiziert werden oder wenn ein Website-Betreiber umfangreiche Inhalte auf mehrere Websites spiegelt, um mehr Suchmaschinen-Traffic zu generieren. Bei „üblichen“ Duplicate-Content-Ursachen, die keine Täuschungsabsicht implizieren, ist die Wahrscheinlichkeit einer Abstrafung gering. Viele Content-Management-Systeme und Shop-Systeme beherrschen das Thema bis heute nicht vollständig. Das ist auch Google & Co. bekannt.

Aufschluss einer möglichen Abstrafung (Manuelle Maßnahme) verschafft eine regelmäßige Prüfung in der Google Search Console. Google informiert Website-Betreiber beispielsweise bei Vollzug einer Manuellen Maßnahme und benennt die Gründe. Korrelationen mit Algorithmus-Updates, wie dem Google Panda Update, werden jedoch nicht kommuniziert. Darüber informiert zum Beispiel die SISTRIX Toolbox.

Mehrsprachige Websites

Werden Inhalte in mehreren Sprachen auf einer oder mehreren Domains publiziert, stellt das keinen Duplicate Content dar, wenn den Suchmaschinen mitgeteilt wird, welche Sprachversion für welchen Suchindex relevant ist. Hierfür empfiehlt Google die Verwendung von hreflang Tags. Anderenfalls könnten die Sprachversionen im selben Suchindex konkurrieren.

Desktop versus Mobil

Wird eine Website in zwei Varianten bereitgestellt, eine für Desktop-Geräte und eine für mobile Geräte, stellt das keinen Duplicate Content dar. Google nutzt unterschiedliche Crawler zur Indexierung von Inhalten: Googlebot für den Desktop Index und Googlebot-Mobile für den Mobilen Index. Erkennt Googlebot-Mobile die mobile Version der Website, wird sie für den mobilen Suchindex präferiert und Duplicate Content ist kein Thema. Allerdings muss den Suchmaschinen-Bots mitgeteilt werden, welche Variante für Mobilgeräte optimiert ist.

Duplicate Content bei großen Websites/Online Shops

Handelt es sich nicht um Spam-Maßnahmen, ist Duplicate Content für viele Suchmaschinen kein Problem. Es droht auch keine Abstrafung. Allerdings kann Duplicate Content bei großen Websites und Online Shops mit mehreren Millionen Seiten schnell zu einem Problem werden, nämlich bei der Crawlablity. Denn eine Website erhält von Suchmaschinen je nach Relevanz ein gewisses Crawl-Kontingent. Crawlt der User-agent tausende Duplicate Content-URLs besteht die Gefahr, dass wichtige Ressourcen nicht oder selten verarbeitet werden. Das führt oft zu veralteten Inhalten im Suchindex, besonders bei Produktseiten.

Duplicate Content von Produktseiten

Ein typisches Problem von Online Shops hinsichtlich doppelter Inhalte sind Produktseiten. Denn viele Hersteller bieten ihren Online Händlern bereits vorproduzierte Produktinformationen, oft auch als Datenfeed. Shop-Betreiber nutzen diese Informationen als Produktbeschreibung. Das führt häufig zu externem Duplicate Content – nicht selten für tausende Produktseiten. Deshalb sollten Shop-Betreiber mindestens für ihre Absatz-Artikel eigene Produktbeschreibungen verfassen, vor allem für erklärungsbedürftige Produkte.

Thin Content

Vor wenigen Jahren waren Websites in den Suchmaschinen-Ergebnissen zu finden, die nichts anderes als gesammelte Informationen von anderen Websites publizierten. Häufig wurden Unmengen von Daten automatisiert gesammelt, logisch zusammengestellt und nach Schema X aufbereitet. Teilweise waren diese Websites für Internet-Nutzer sogar hilfreich. Dennoch schob Suchmaschinen-Gigant Google dem einen Riegel vor und strafte diese Domains via Manuelle Maßnahme oder durch Algorithmus-Updates (Panda) ab. Die Gründe waren Thin Content und „Datenklau“, weil die Inhalte der Websites nicht einzigartig waren, Nutzern keine Mehrwerte boten und weil die Daten massenhaft kopiert wurden. Einzigartige Inhalte mit hohem Nutzen sind heute essentiell für stabile Suchmaschinen-Rankings. Werden allerdings Zitate kopiert und diese im Quellcode semantisch hervorgehoben, führt das selbstverständlich nicht zu einer Abstrafung aufgrund von Duplicate Content.

Als Thin Content bezeichnet man im allgemeinen Seiten, die nur dünne Inhalte besitzen und den Qualitätsrichtlinien der Suchmaschinen nicht gerecht werden. Diese Seiten bieten den Nutzern keinen Mehrwert und werden folglich entwertet. Zu viele Thin Content-Seiten können sich allerdings negativ auf die gesamte Website auswirken.

Wie geht Google mit Duplicate Content um?

How does Google handle duplicate content?

In dem Video erklärt Matt Cutts von Google, dass etwa 25 bis 30 aller Web-Inhalte duplizierter Content ist. Häufig entsteht dieser unbewusst und stellt damit nicht grundsätzlich Spam dar. Dieser lässt sich teilweise auch nicht vermeiden, zum Beispiel wenn man Absätze zitiert. Allerdings stellt Google oft fest, dass viele duplizierte Inhalte keine Mehrwerte für Nutzer darstellen. Diese Ressourcen werden dann von Google ignoriert.

Was versteht Google unter: Near Duplicate Content?

Am 11. Juni 2017 erklärte Gary Illyes von Google hier auf Twitter, dass Near Duplicate Content leicht geänderte Inhalte oder exakt duplizierte Inhalte beschreibt, wobei sich der boilerplate Content unterscheidet. Mit boilerplate sind globale Links in Navigation und Footer gemeint aber auch spezielle Links, zum Beispiel im blogroll. (hier mehr) Das bedeutet:

  • Jemand kopiert einen Stück Inhalt von einer Seite, ändert ihn leicht ab und veröffentlicht ihn auf der eigenen Website.
  • Jemand kopiert den kompletten Inhalt einer Seite und veröffentlicht ihn auf der eigenen Website, wobei sich der boilerplate Content unterscheidet.

Weiterführende Informationen

Synonyme
Doppelter Inhalt, Duplizierter Content
Zum Glossar