Der Screaming Frog SEO Spider ist eines der mächtigsten Scraper auf dem Markt. Mit ihm können nicht nur Websites gecrawlt, sondern auch zwei Crawls miteinander verglichen werden. Das macht den Screaming Frog zu eines der besten Werkzeuge für tiefgründige SEO Audits.
Inhaltsverzeichnis
Was ist Screaming Frog SEO Spider?
Warum heißt es Screaming Frog?
Der Name Screaming Frog wurde von einem Frosch inspiriert, der sich wehrte, nachdem er von zwei Katzen in Dan Sharps (Mitbegründer von Screaming Frog) Garten in die Enge getrieben worden war. Hier gibt es die komplette Story.
Screaming Frog Bewertung
Der Screaming Frog ist der Benchmark für alle SEO Crawler auf dem Markt und ein Must-have für jeden technisch-versierten SEO-Berater.
Gesamt | 4.5/5 | |
Benutzerfreundlichkeit | 3.5/5 | |
Funktionsumfang | 5/5 | |
Dokumentation (FAQ) | 4/5 | |
Preis-Leistungs-Verhältnis | 5/5 | |
Empfehlungswahrscheinlichkeit | 5/5 |
Was macht Screaming Frog besonders gut?
Der größte Vorteil vom Screaming Frog ist seine Komplexität hinsichtlich technischer SEO Audits. Er ist aus meiner Sicht der beste SEO Crawler, um eine Website umfassend technisch zu bewerten.
- Viele Konfigurationsmöglichkeiten (Crawling, Indexierung, Custom Search, …)
- Unterstützung von JS-Rendering
- Optimal für tiefgründige SEO Audits mit technischem Schwerpunkt
- Schnittstellen zu anderen Diensten (Google Analytics, Google Search Console, PageSpeed Insights, ahrefs, …)
- Scheduling: Regelmäßige Crawls automatisiert planen
Was sind die Defizite/Potenziale vom Screaming Frog?
Der größte Nachteil ist der Ressourcen-Verbrauch. Möchte man mit dem Screaming Frog große Websites (> 500.000 URLs) crawlen, benötigt einen leistungsstarken PC. Denn die Software wird lokal installiert. Crawl-Daten können bei wenig Arbeitsspeicher auch auf die HDD geschrieben werden (Database Storage), idealerweise eine SSD. Allerdings hat man das Problem bei der Verwendung von Online-Spider-Tools nicht, wie Audisto oder Sitebulb.
- Lokale Installation: Ressourcen-hungrig (Arbeitsspeicher/SSD)
- Eher für technisch versierte SEO-Berater/Webmaster geeignet
- Tabellen-basierte Benutzeroberfläche
Funktionsumfang vom Screaming Frog
- Defekte Links, Fehler und Weiterleitungen identifizier
- Analyse von Seitentiteln und Metadaten
- Daten mit XPath extrahieren
- XML-Sitemaps generieren
- JavaScript-Webseiten crawlen
- Zeitplan für Audits
- Weiterleitungen (-schleifen) auswerten
- Duplizierte Inhalte ermitteln
- Überprüfung von Robotern & Direktiven
- Integration mit GA, GSC und PSI
- Visualisierung der Site-Architektur
- Crawls & Staging vergleichen
- Überprüfung Meta Robots & Richtlinien
- XML-Sitemaps bewerten
- Validierung von strukturierten Daten
- Rechtschreib- und Grammatikprüfung
- Benutzerdefinierte Quellcode-Suche
- Benutzerdefinierte Extraktion
- Formularbasierte Authentifizierung (Staging)
- Rohes und gerendertes HTML speichern und anzeigen
- Individuelle robots.txt-Konfiguration (robots.txt Check)
- AMP Crawling & Validierung
Zielgruppen
Vor allem technisch versierte Suchmaschinenoptimierer erhalten mit dem Spider Tool eine Vielzahl von Möglichkeiten, um ausführliche SEO Audits zu erstellen. Für technisch unerfahrene Website-Betreiber sind die komplexen Konfigurationsmenüs und Berichte sicher unübersichtlich. Es erfordert etwas Interesse, um sich mit der Benutzeroberfläche auseinander zu setzen. Denn fast alle Daten liefert der Screaming Frog in Tabellenform. Spalten lassen sich ein- und ausblenden, die Sortierung kann man ändern und alle Daten können gefiltert und exportiert werden.
Wer auf eine moderne, übersichtliche Benutzeroberfläche nicht verzichten kann, sollte sich als Alternative Audisto oder Sitebulb anschauen.
Mode-Funktionen
Bei der ersten Anwendung fragt man sich meist, wie der Screaming Frog funktioniert. Er bietet vier verschiedene Modi:
Mode | Beschreibung |
Crawl-Mode | Die populärste Funktion ist der Crawl-Mode, mit dem man eine URL als Ausgangspunkt für das Crawling festlegt. Das ist meist die Startseite einer Website. Der Screaming Frog spidert diese URL und folgt den Links im HTML-Code und weiterer Quellen entsprechend der Crawl-Konfiguration. Die gesammelten Daten werden in Form von Tabellen und Diagrammen dargestellt. |
List-Mode | Mit dem List-Mode wird eine URL-Liste gecrawlt. Die URL-Liste wird als Excel-Datei importiert oder aus der Zwischenablage eingefügt. Damit kann man die HTTP-Statuscodes der URLs schnell und einfach ermitteln. |
SERP-Mode | Der SERP-Mode bietet die Möglichkeit, die Länge von Seitentitel und Seitenbeschreibung zu bewerten. Beide Meta Tags sind wichtige Bestandteile vom SERP Snippet einer Seite. Es erfolgt kein Crawling. Seitentitel und Seitenbeschreibungen werden via Excel-Datei importiert. |
Compare (Vergleichen) | Der Compare-Mode ermöglicht es, zwei Crawls miteinander zu vergleichen. Das bietet sich vor allem bei einem Relaunch an, um das Testsystem mit der live-Website zu vergleichen. |
Crawl-Mode Konfiguration
Im Folgenden stelle ich die wichtigsten Konfigurationsfunktionen für den Screaming Frog vor, die für ein SEO Audit im Crawl-Mode vorgenommen werden sollten.
Configuration | Beschreibung |
Spider | Das Konfigurationsmenü vom SEO Spider ist umfangreich und mächtig. In den Basic-Settings wird das Crawler-Verhalten grundlegend festgelegt. Mit den Limit-Settings kann der Crawl begrenzt werden. Die Rendering-Settings dienen der Auswahl der Spider-Technologie und des Spider. (Empfehlung: JavaScript für Googlebot Mobile Smartphone) Im Advanced-Reiter finden vor allem technisch-versierte Optimierer wichtige Möglichkeiten zur Konfiguration des Crawl-Verhaltens. Schließlich können im Reiter Preferences diverse Standardisierungen für Page Title, Meta Description, Headlines und Bilder-Attribute gewählt werden. |
Robots.txt | Hier hat der Anwender die Möglichkeit, die Anweisungen der robots.txt-Datei auf dem Webserver zu ignorieren bzw. zu bestimmen, wie die Daten ausgeschlossener Ressourcen in den Screaming Frog-Reports dargestellt werden sollen. Hilfreich kann die Option sein, eine temporäre robots.txt-Datei für den Crawl zu erstellen und damit die Anweisungen auf dem Webserver zu ignorieren. (Details weiter unten) |
CDNs | Werden verschiedene Ressourcen (zum Beispiel Bilder) per CDN eingebunden, kann hier eine Liste von Subdomains und Verzeichnissen notiert werden, damit diese Ressourcen beim Crawlen erfasst werden. |
Include | Hier können Regular Expressions für URLs definiert werden, die beim Crawling zu beachten sind. |
Exclude | Hier können Regular Expressions für auszuschließende URLs festgelegt werden. Sollen zum Beispiel alle URLs mit dem Zeichen # beim Crawl ausgeschlossen werden, erreicht man das mit der Regular Expression: .*#.* |
Speed | Diese Einstellungen konfigurieren den Crawl-Speed vom Spider. |
Custom | Search ist eine einfache Suchfunktion im Quellcode von HTML Seiten. Damit können einfache Regular Expressions festgelegt werden – zum Beispiel um auszugeben, auf welchen HTML Seiten im Quellcode der Begriff „Inhaltsverzeichnis“ vorkommt. Hingegen sind die Extraction-Settings sehr mächtig, denn damit können teils komplexe Filter erstellt werden. Mehr Informationen in meinem Blog-Beitrag: XPath Custom Extraction-Filter mit Screaming Frog. |
API Access | Screaming Frog bietet Möglichkeiten, URL-Daten verschiedener Dienste per API zu beziehen und die URLs zu spidern. Ich nutze diese Funktion oft nach einem Relaunch für die Abfrage von Google Analytics- und Search Console-Daten. |
System | Diese Optionen sind besonders für das Crawling von großen Websites und Shops hilfreich, wenn 500.000+ URLs gecrawlt werden sollen. Unter „Memory“ und „Storage“ können System-relevante Settings vorgenommen werden. |
Ich verwende mehrere Konfigurationen, die ich als Konfigurationsdateien extern gespeichert habe. Je nach Bedarf lade ich die gewünschte Konfiguration vor einem Crawl. Das Speichern und Laden individueller Konfigurationen ist unter „File“ > „Configuration“ möglich.
Reports
Sobald ein Crawl abgeschlossen ist, können die gesammelten Daten exportiert werden. Am einfachsten können sie im Overview-Filter (im Screenshot orange hervorgehoben) exportiert werden. Hierzu klickt man einfach auf „Export“ (roter Rahmen), um die Daten der Tabelle zu speichern.
Zusätzlich bietet Screaming Frog vordefinierte Reports an. Diese können durch Auswahl im Hauptmenü unter „Reports“ ausgewählt werden. Der Datenexport erfolgt als CSV-, XLS- oder XLSX-Datei.
Bulk Exports
Analog zu den Reports können verschiedene vordefinierte Bulk Exports erstellt werden, um die Crawl-Daten in Excel oder einem anderen Programm (Apple Numbers) weiter zu bearbeiten. Bulk Exports (Massenexports) können im Hauptmenü unter „Bulk Export“ aufgerufen werden.
Ich nutze diese Bulk Exports selten, denn zum Großteil liefern sie die selben Daten, wie die Export-Funktion der Overview-Filter.
🔥 Screaming Frog SEO Spider-Tipps
Diese einfachen Tipps für den Screaming Frog helfen, um SEO effektiv zu verbessern:
- Nicht crawlbare URLs auffinden
- Nicht indexierbarre URLs ermitteln
- Client Error (4xx) enttarnen
- Canonicalized URLs nicht erfassen/crawlen
- Insecure Content aufdecken
- Strukturdaten (Structured Data) auswerten
- SERP Snippets optimieren
- Externe Dienste per API einbinden
- Orphan URLs ermitteln
- Testumgebung crawlen
- Interne Suche verwenden
- Include und Exclude Filter notieren
- Custom Extraction-Filter verwenden
- URL-Liste exakt crawlen (List-Mode)
Nicht crawlbare URLs auffinden
Bei jedem professionellen SEO-Audit wird die Crawlbarkeit interner URLs geprüft. Vor einem Website-Crawl empfehle ich also eine Konfiguration zu wählen, dass die robots.txt-Anweisungen beachtet werden: „Configuration“ > „robots.txt“ > „Settings“ > „Show Internal URLs Blocked by robots.txt“ anhaken. Die betreffenden URLs werden im Overview-Filter „Response Codes“ > „Blocked by Robots.txt“ inkl. der Anweisung („Line:…“) dokumentiert. Fehlkonfigurationen können so schnell enttarnt werden.
Ein Tipp ist das Custom Robots Configuration-Tool – zu finden unter „Configuration“ > „robots.txt“ > „Custom“. Damit können verschiedene Tests durchgeführt werden:
- robots.txt-Datei vom Webserver laden und temporär modifizieren, um What-if-Crawls durchzuführen.
- robots.txt-Datei vom Webserver laden und eine URL zu prüfen und ermitteln, durch welche Anweisungen sie blockiert wird. Hierfür ist kein Crawling erforderlich.
In meinem Blog-Beitrag robots.txt Tester stelle ich verschiedene Möglichkeiten vor, um blockierte URLs zu ermitteln.
Nicht indexierbarre URLs ermitteln
Alle crawlbaren URLs sollten bei einem SEO-Audit bezüglich deren Indexierbarkeit analysiert werden, um zu ermitteln, ob wichtige HTML Seiten durch technische Fehlkonfigurationen (Robots Meta Tag/Canonical Tag) vom Indexieren ausgeschlossen werden. Diese Daten lassen sich leicht im Crawl-Mode ermitteln. Ich empfehle im Overview-Filter „Internal“ > „HTML“ die folgenden Spalten darzustellen:
- Adress
- Status Code
- Status
- Indexability
- Indexability Status
- Meta Robots
- Canonical Link Element
Anhand dieser Daten erhält man für jede URL-Zeile eine Information, ob die HTML Seite indexierbar ist, oder nicht. Zunächst werden alle Zeilen ignoriert, die in der Zelle „Status Code“ keinen Wert „200“ besitzen. Die Spalte „Indexability“ informiert über die Indexierbarkeit der URL: „Non-Indexable“ URLs sollten bewertet werden, warum sie nicht indexierbar sind. Das erfolgt über die Spalten „Meta Robots“ (noindex gesetzt?) und „Canonical Link Element“ (wird eine andere URL bevorzugt?).
Die Tabellen-Spalten können durch Klicken auf das „+“-Symbol (roter Rahmen im Screenshot) aktiviert/deaktiviert werden. Auch die Reihenfolge der Spalten lässt sich individuell justieren.
Client Error (4xx) enttarnen
Der Overview-Filter „Client Error (4xx)“ unter „Response Codes“ listet alle URLs auf, die nicht verfügbar sind und einen HTTP Statuscode 4xx generieren. Auf diesen Seiten ist die Absprungrate (Bounce Rate) sehr hoch. Deshalb sollten interne Verlinkungsfehler grundsätzlich vermieden werden. Bei jedem Crawling sollten diese Daten analysiert und Fehler korrigiert werden.
Im Reiter „Inlinks“ (untere horizontale Reiter-Navigation) werden wichtige Informationen zu den 404-URLs aufgelistet. Man erfährt, von welchem Typ der Link zu der fehlerhaften URL ist, auf welchen Seiten die URL verlinkt ist und ggf. den Linktext. Damit kann man sehr gut arbeiten.
Canonicalized URLs nicht erfassen/crawlen
Wenn große Websites gecrawlt werden und die Daten-Tabellen nur die wichtigsten Informationen liefern sollen, hilft die Screaming Frog-Funktion Respect Canonical – zu finden über das Hauptmenü > „Configuration“ > „Spider“ > „Advanced“. Wird der Haken entfernt, dann werden durch Canonical Tags entwertete URLs (Canonicalized URLs) im Screaming Frog nicht erfasst. Besonders Shop-Systeme, die viele Get-Parameter erzeugen und durch Canonicals entwerten, spart man viele Zeilen in den Exports.
Sind die Get-Parameter der Website oder des Online Shops bekannt, die aufgrund von Canonical Tags nicht gecrawlt werden brauchen, bietet sich die Verwendung der Funktion URL Rewriting an. (Hauptnavigation > „Configuration“ > „URL Rewriting“ > „Remove Parameters“) Pro Zeile kann ein Parameter notiert werden, den der Spider Frog beim Crawlen ignorieren soll. Ein Beispiel hierfür ist der Parameter „?c=“ der oft im Shopsystem Shopware gesichtet wird. Sollen diese URLs beim Spidern nicht erfasst werden, dann braucht nur „c“ hinterlegt zu werden.
Insecure Content aufdecken
Dass HTTPS heute Standard für jede Website ist, sollte bekannt sein. Screaming Frog bietet einen Filter, um URLs zu identifizieren, die intern nicht per HTTPS verlinkt sind und korrigiert werden sollten. Dieser Filter befindet sich unter „SEO Elements“ > „Protocol“ > „HTTP“.
Alternativ kann man auch im Hauptmenü „Reports“ und „Insecure Content“ auswählen. Die Export-Datei lässt sich mit Excel öffnen und listet alle URLs ohne HTTPS auf.
Strukturdaten (Structured Data) auswerten
Seit Version 11 liest der Screaming Frog Structured Data aus. Diese Filter sind dann interessant, wenn der technische und OnPage Optimierungsgrad der Website hoch ist, keine internen Fehler bestehen, Seitentitel, Seitenbeschreibung, Headlines und Images optimiert sind und natürlich die Indexierungslogik optimal ausgerichtet ist. Eher würde ich mich damit nicht befassen, außer es liegen massive Fehler vor.
Die Overview-Filter sind zu finden unter „SEO Elements“ > „Structured Data“. Es können vorhandene Strukturdaten bewertet aber auch Seiten ohne Strukturdaten ermittelt werden. Besonders hilfreich sind die Filter, um Validierungsfehler zu ermitteln. Auch Warnungen werden dokumentiert.
SERP Snippets optimieren
SERP Snippets sind der erste Kontaktpunkt mit dem Suchmaschinen-Nutzer. Deshalb sollten wichtige Seiten einen optimalen Seitentitel und eine optimale -beschreibung besitzen. Mit dem Screaming Frog lassen sich diese Daten auswerten. Ich verwende dafür gern den Overview-Filter „SEO Elements“ > „Response Codes“ > „Success (2xx)“. Die Daten sortiere absteigend nach „Inlinks“, so dass ich mich von den meist verlinkten Seiten abwärts arbeite.
In der unteren Reiter-Navigation befindet sich unter „SERP Snippet“ ein SERP Snippet Tool, mit dem der Seitentitel und die Seitenbeschreibung einer HTML Seite bewertet werden kann. Man kann temporär ein besseres SERP Snippet zusammen basteln und verschiedene Möglichkeiten testen.
Externe Dienste per API einbinden
Screaming Frog kann im Crawl-Mode zusätzliche Daten per API von verschiedenen Diensten einbinden, aktuell: Google Analytics, Google Search Console, Majestic, Ahrefs, Mozcape. Bei jedem Dienst gewünschten Dienst müssen die vorhandenen Login-Daten hinterlegt werden. Anschließend werden die Kennzahlen gewählt und automatisch werden die Daten beim Crawlen eingebunden. Besonders hilfreich finde ich die Prüfung der Google Analytics-Daten. Zum Beispiel können nach einem Relaunch die HTTP Statuscodes der Top-Seiten ermittelt werden. Ähnlich kann man Search Console-Daten verwenden, um nicht erreichbare Seiten oder Orphan Pages zu ermitteln.
Orphan URLs ermitteln
Als Orphan URLs (Orphan Pages) werden in der Suchmaschinenoptimierung Webseiten bezeichnet, die durch eine schlechte interne Verlinkung nicht von Suchmaschinen-Bots gefunden und nicht verarbeitet werden können. Mit dem Screaming Frog SEO Spider können Orphan URLs enttarnt werden. Voraussetzung hierfür ist die Verwendung der Google Analytics-API oder der Search Console-API, sowie nach dem abgeschlossenen Crawl die Durchführung einer Crawl-Analyse (Crawl Analysis). Einige Filter erfordern eine separate Crawl-Analyse zur Berechnung der Metriken, wie Orphan URLs.
Zunächst muss ein Crawl der Website oder des Verzeichnisses durchgeführt werden. Dabei ist eine Verbindung zur Google Analytics- oder Search Console-API erforderlich. Sobald der Crawl abgeschlossen ist, klickt man in der Hauptnavigation auf „Crawl Analysis“ > „Configure“ und stellt sicher, dass „Orphan URLs“ für Analytics und Search Console aktiviert ist.
Die Analyse wird nun über „Crawl Analysis“ > „Start“ aktiviert. Sobald die Berechnung abgeschlossen ist, stehen die Daten im Overview-Filter unter „SEO Elements“ > „Analytics“ > „Orphan URLs“ bzw. „SEO Elements“ > „Search Console“ > „Orphan URLs“ bereit.
Testumgebung crawlen
Mit einem einfachen Trick können per .htaccess-passwortgeschützte Testumgebungen gecrawlt werden. Im Hauptmenü wählt man „Configuration“ > „Authentication“ und setzt im Reiter „Standards Based“ den Haken. Sobald der Crawl gestartet wird, fragt Screaming Frog nach den Verifizierungsdaten.
Interne Suche verwenden
Die interne Suchfunktion ist ein mächtiges Feature vom Screaming Frog. Hier können allgemeine Daten gesucht werden, zum Beispiel alle Adressen, die einen bestimmten Begriff besitzen. Im Suchfeld können sogar reguläre Ausdrücke (Regular Expression) verwendet werden – ein paar Beispiele:
Regulärer Ausdruck | Haken bei | Funktion |
.html$ | Address | Alle URLs, die mit „.html“ enden |
(?i)LTE(?-i) | Address | Alle URLs mit dem regulären Ausdruck „LTE“ (Großbuchstaben) |
^4 | Status Code | Alle URLs, deren Statuscode mit „4“ beginnt |
Include und Exclude Filter notieren
Include Filter eignen sich immer dann, wenn bestimmte Teilbereiche einer Website gecrawlt werden sollen. Angenommen eine Website wird in mehreren Sprachen bereitgestellt. Jede Sprachversion befindet sich in einem Verzeichnis (z. B. „/de/“ und „/en/“ und „/fr/“). Soll nur eine bestimmte Sprachversion der Website untersucht werden, hinterlegt man vor dem Crawl einen Include-Filter – zum Beispiel für „/de/“.
Im Gegensatz können für einen Crawl auch Exclude-Filter definiert werden, sodass bestimmte URLs beim Crawlen ignoriert werden. In meinem Beispiel werden PDF-Dateien ignoriert (.*.pdf). Es können mehrere Excludes festgelegt werden. Pro Zeile wird ein Exclude-Filter notiert.
Custom Extraction-Filter verwenden
Durch Custom Extraction Filter können individuelle Filter für einen Crawl definiert werden. Diese mächtige Funktion befindet sich im Hauptmenü unter „Configuration“ > „Custom“ > „Extraction“. Wer technisch versiert ist, kann sehr hilfreiche Filter erstellen, um spezifische Daten zu ermitteln. In meinem Blog-Beitrag XPath Custom Extraction-Filter mit Screaming Frog dokumentiere ich viele XPath-Beispiele zum ausprobieren.
Die Ergebnisse werden im Overview-Filter „Custom“ > „Extraction“ dokumentiert. Diese Daten lassen sich exportieren und per Excel weiter bearbeiten.
URL-Liste exakt crawlen (List-Mode)
Soll eine URL-Liste gecrawlt werden, bei der ausschließlich die angegebenen URLs gecrawlt werden sollen, dann hilft folgender Tipp:
- Liste-Mode auswählen
- „File“ > „Configuration“ > „Clear Default Configuration“
- „Upload“ auswählen und URL-Liste hochladen oder aus Zwischenablage einfügen
- Start
„Clear Default Configuration“ löscht alle individuellen Konfigurationen. Zuvor sollte ein Backup der eigenen Default-Settings erfolgen: „File“ > „Configuration“ > „Safe As…“
Dieser Beitrag wird von Screaming Frog empfohlen
Das Screaming Frog-Team ist auf diesen Beitrag aufmerksam geworden und findet ihn sehr empfehlenswert:
Excellent @screamingfrog SEO Spider guide and overview (in German) – https://t.co/PcP71UgCX1 from @Jens_Froehlich
— Screaming Frog (@screamingfrog) 10. April 2019
Kommentar verfassen