Die Crawlbarkeit einer HTML Ressource (Webseite, Bild, CSS-/JS-Datei, …) wird durch robots.txt-Anweisungen deklariert. Um zu bewerten, ob eine Ressource von Suchmaschinen-Bots gecrawlt werden kann, eignen sich diverse robots.txt Tester. In diesem Beitrag stelle ich verschiedene Tools vor, um blockierte URLs zu ermitteln.
Inhaltsverzeichnis
Unterschied Crawlbarkeit und Indexierbarkeit
Zwischen der Crawl- und Indexierbarkeit liegt ein wesentlicher Unterschied: Crawlbarkeit bedeutet, dass eine Crawl-Software, zum Beispiel Googlebot, eine bestimmte Ressource verarbeiten darf. Diese Anweisungen werden in der robots.txt-Datei definiert.
Die Indexierbarkeit legt fest, dass eine crawlbare Ressource von Suchmaschinen in deren Suchindex aufgenommen werden kann/nicht aufgenommen werden kann. Grundsätzlich werden diese Anweisungen im HTML Quellcode durch das Robots Meta Tag und optional Canonical Tag festgelegt. Nicht-crawlbare Webseiten können keine Keyword-Rankings in Suchmaschinen aufbauen. Deshalb ist es wichtig zu bewerten, welche Ressourcen nicht gecrawlt werden können.
Tipp! robots.txt Tester vom Screaming Frog SEO Spider
Der Screaming Frog SEO Spider ist beliebte eine Desktop-Software, mit der tiefgründige technische und OnPage SEO-Audits durchgeführt werden können. Die Spider-Software bietet einen robots.txt Tester den ich sehr gern verwende. Um die Crawlbarkeit von einer Ressource zu prüfen, muss kein Crawl durchgeführt werden.
Im Screaming Frog SEO Spider klickt man im Hauptmenü auf „Configuration“ und wählt „robots.txt“ > „Custom“.

Im robots.txt Tester klickt man auf den „Add“-Button (1) und bestätigt die vom Screaming Frog ermittelte robots.txt-URL oder gibt diese manuell an. Nun lädt die Software die Anweisungen der robots.txt-Datei. In der Zeile darunter (2) kann nun die relative URL einer Web-Ressorce angegeben werden, um zu prüfen, ob diese durch eine Anweisung blockiert wird.

Alternativ kann man auch die durch einen Crawl identifizierten blockierten URLs mit dem robots.txt-Tester genauer bewerten und vorhandene Regeln modifizieren. Achtung: Wird die robots.txt modifiziert, gilt das nur der Simulation im Screaming Frog SEO Spider. Die modifizierten Regeln müssen anschließend in der robots.txt-Datei auf dem Webserver bereitgestellt werden.

URL-Prüfung mit der Google Search Console
Die neue Google Search Console stellt den bewährten robots.txt Tester leider nicht mehr bereit. Allerdings kann mit der Funktion URL-Prüfung bewertet werden, ob der Googlebot eine Webseite crawlen und indexieren kann.
Zunächst wählt man „URL-Prüfung“ links in der Navigation aus (1). Anschließend gibt man im Suchfeld (2) die absolute URL der Webseite ein, die getestet werden soll. Stehen die Daten bereit, klickt man rechts auf „Live-URL testen“ (3).

Sobald der Live-URL Test abgeschlossen ist, erhält man eine Information, ob die Webseite für URL verfügbar ist, bzw. indexiert werden kann. Wenn die Indexierung ausgeschlossen ist, erhält man durch Klicken auf das Inhaltselement „Verfügbarkeit“ (4) Informationen.

robots.txt Generatoren
Im Internet gibt es zahlreiche Anbieter von robots.txt Generatoren. Für die Erstellung einer simplen robots.txt-Datei sind diese Generatoren durchaus empfehlenswert. Werden jedoch fortgeschrittene Anweisungen erforderlich, ist die Validierung und Feinjustierung mit dem Screaming Frog robots.txt Tester nach meiner Erfahrung die beste Wahl.
- https://seo-ranking-tools.de/seo-tools/robots-txt-generator/
- http://tools.seobook.com/robots-txt/generator/
Hallo Jens,
vielen Dank für diesen informativen Artikel! Vielleicht noch ein Zusatzinfo, da hier oft eine falsche Annahme besteht. Ausschluss der robots.txt bedeutet nicht automatisch, dass die Seite nicht indexiert wird. Es kann trotzdem sein, dass die Suchmaschinen die Seite in deren Index aufnehmen.
Das ist richtig. Manche Suchmaschinen (und Scraper) halten sich prinzipiell nicht an das Robots Exclusion Protocol (REP) und verarbeiten alles, was gefunden wird. Google hält sich daran. Stellt Google fest, dass Seiten von der Verarbeitung/Indexierung ausgeschlossen werden, die Google selbst als relevant bewertet, dann indexiert sie Google willkürlich.