Screaming Frog SEO Spider

 > SEO Blog > Screaming Frog SEO Spider
Interesse?
Rufen Sie an
0351 31446588

oder schreiben Sie
  17. April 2019

Du möchtest erfahren, wie Google Deine Website oder Deinen Online Shop sieht? Mit dem Screaming Frog SEO Spider ist das möglich – und das Spider-Tool kann noch viel mehr. Erfahre jetzt, welche Daten und Konfigurationen der Screaming Frog bietet und mit welchen Tricks ein tiefgründiges SEO-Audit gelingt.

Screaming Frog SEO Spider - Der User Guide für SEO-Audits

Was ist Screaming Frog SEO Spider?

Screaming Frog SEO Spider ist eine Desktop-Software zur Durchführung tiefgründiger SEO Audits von Websites und Online Shops. Die Spider-Software wird kostenfrei unter https://www.screamingfrog.co.uk/seo-spider/ zum Download für Windows, MacOS und Ubuntu angeboten. Die Paid-Version für £149.00 (ca. 173,00 EUR) pro Jahr bietet jedoch deutlich mehr Konfigurationsmöglichkeiten, Reports und hebt das Crawl-Limit auf.

Screaming Frog wird für verschiedene Systeme angeboten
Screaming Frog wird für verschiedene Systeme angeboten
Du kennst Screaming Frog SEO Spider und möchtest direkt zu den SEO-Tipps springen? Klick hier!

Funktionen (Paid-Version)

Zielgruppen

Vor allem technisch versierte Suchmaschinenoptimierer und Web-Entwickler erhalten mit dem Spider Tool eine Vielzahl von Möglichkeiten, um ausführliche OnSite Audits zu erstellen. Doch selbst der Webmaster einer kleinen Website oder der Inhouse Social Media-Manager erhalten mit Screaming Frog ein hervorragendes Werkzeug.

Im Vergleich zu Online-Spider-Tools (Audisto, Deepcrawl, Ryte, …) bietet der Screaming Frog bisher noch keine übersichtlichen Dashboards, ggf. mit Handlungsempfehlungen. Die meisten Crawldaten liefert Screaming Frog in Tabellenform. Spalten lassen sich ein- und ausblenden, die Sortierung kann man ändern und alle Daten können exportiert werden. Wem das reicht und für wem Daten die wichtigste Anforderung sind, der wird Screaming Frog zu schätzen wissen.

Wer den Screaming Frog einsetzt und große Websites ( >500.000 URLs) crawlen möchte, benötigt ein performantes System, denn die Software wird lokal installiert und kann bei einem großen Crawl spürbar Systemlast erzeugen. Zwar können bei wenig RAM die Crawl-Daten auch auf die HDD geschrieben werden (Database Storage), jedoch sollte diese kurze Lade- und Speicherzeiten besitzen – idealerweise eine SSD. Das kann also ein Nachteil im Vergleich zu Online-Spider-Tools sein, bei denen man sich keine Gedanken über Systemressourcen machen braucht. Ich verwende 16 GB Arbeitsspeicher und eine SSD zum Schreiben der Daten. Damit ist das Crawlen großer Websites und Shops kein Problem.

Memory Configuration- und Storage Mode-Settings // Screaming Frog SEO Spider
Memory Configuration- und Storage Mode-Settings // Screaming Frog SEO Spider

Nutzen für SEO

Der Screaming Frog zählt zu den meist genutzten Tools bei meiner täglichen SEO-Arbeit, neben der Sistrix Toolbox. Nicht nur die überschaubaren Lizenzkosten der Paid-Version (£149.00 pro Jahr, ca. 173,00 EUR) wissen zu überzeugen, sondern auch die zahlreichen Konfigurationsmöglichkeiten und die Export-Optionen. Natürlich setze ich je nach Bedarf auch andere Spider-Tools ein, wie Audisto. Doch keines dieser Tools bietet einen solchen Funktionsumfang, wie der Screaming Frog SEO Spider. Richtig konfiguriert, lassen sich Websites und Online Shops mit mehreren Millionen URLs crawlen.

Der folgende Screenshot zeigt, welcher Zuwachs der Online Reichweite durch OnSite Optimierungen mit Screaming Frog möglich ist. Für die Website konnte ich die Nutzer (Google Analytics) innerhalb von nur fünf Monaten mehr als verdoppeln. 🚀

Google Analytics: Anstieg der Nutzer
Google Analytics: Anstieg der Nutzer

Mode-Funktionen

Bei der ersten Anwendung fragt man sich meist, wie der Screaming Frog SEO Spider funktioniert. Die Software bietet drei verschiedene Modi für unterschiedliche Analysen. Zu 90 Prozent verwende ich den Crawl-Mode.

Mode-Menü zur Auswahl der Analyse-Funktionen
Mode-Menü zur Auswahl der Analyse-Funktionen
ModeBeschreibung
Crawl-ModeDie populärste Funktion vom Screaming Frog SEO Spider ist der Crawl-Mode. Hierbei wird eine URL als Ausgangspunkt für das Crawling festgelegt. Das ist meist die Startseite einer Website. Die Software spidert diese URL und folgt den Links im HTML Quellcode, entsprechend der gewählten Crawl-Konfiguration. Die gesammelten Daten werden in Form von Tabellen und Diagrammen dargestellt.
List-ModeMit dem List-Mode kann eine URL-Liste gecrawlt werden. Die URLs werden als Excel-Datei importiert oder aus der Zwischenablage eingefügt. So können zum Beispiel HTTP Statuscodes schnell und bequem ermittelt werden.
SERP-ModeDer SERP-Mode bietet die Möglichkeit, die Länge von Seitentitel und Seitenbeschreibung zu bewerten. Beide Meta Tags sind wichtige Bestandteile vom SERP Snippet. In diesem Mode erfolgt kein Crawling. Seitentitel und Seitenbeschreibungen werden via Excel-Datei in den Screaming Frog importiert. Mit dem SERP-Mode können Optimierungen bequem bewertet werden: Die durch ein Crawling (Crawl-Mode) ermittelten Seitentitel und Seitenbeschreibungen von HTML Seiten können exportiert und mit Excel optimiert werden. Durch einen Import dieser Tabelle (erforderliche Kopfzeilen: „URL“, „Titel“, „Beschreibung“) in den Screaming Frog können die Veränderungen vor dem Go live geprüft werden. Das Vorgehen bietet sich bei einer Massenbearbeitung in Excel von mehreren tausend Zeilen an.

Crawl-Mode Konfiguration

Im Folgenden stelle ich die wichtigsten Konfigurationsfunktionen für den Screaming Frog SEO Spider vor, die für ein Website SEO Audit im Crawl-Mode vorgenommen werden sollten.

Konfigurationsmenü zur Feinjustierung der Crawl-Anforderungen
Konfigurationsmenü zur Feinjustierung der Crawl-Anforderungen
ConfigurationBeschreibung
SpiderDas Konfigurationsmenü vom SEO Spider ist umfangreich und mächtig. In den Basic-Settings wird das Crawler-Verhalten grundlegend festgelegt. Mit den Limit-Settings kann der Crawl begrenzt werden. Die Rendering-Settings dienen der Auswahl der Spider-Technologie und des Spider. (Empfehlung: JavaScript für Googlebot Mobile Smartphone) Im Advanced-Reiter finden vor allem technisch-versierte Optimierer wichtige Möglichkeiten zur Konfiguration des Crawl-Verhaltens. Schließlich können im Reiter Preferences diverse Standardisierungen für Page Title, Meta Description, Headlines und Bilder-Attribute gewählt werden.
Robots.txtHier hat der Anwender die Möglichkeit, die Anweisungen der robots.txt-Datei auf dem Webserver zu ignorieren bzw. zu bestimmen, wie die Daten ausgeschlossener Ressourcen in den Screaming Frog-Reports dargestellt werden sollen. Hilfreich kann die Option sein, eine temporäre robots.txt-Datei für den Crawl zu erstellen und damit die Anweisungen auf dem Webserver zu ignorieren. (Details weiter unten)
CDNsWerden verschiedene Ressourcen (zum Beispiel Bilder) per CDN eingebunden, kann hier eine Liste von Subdomains und Verzeichnissen notiert werden, damit diese Ressourcen beim Crawlen erfasst werden.
IncludeHier können Regular Expressions für URLs definiert werden, die beim Crawling zu beachten sind.
ExcludeHier können Regular Expressions für auszuschließende URLs festgelegt werden. Sollen zum Beispiel alle URLs mit dem Zeichen # beim Crawl ausgeschlossen werden, erreicht man das mit der Regular Expression: .*#.*
SpeedDiese Einstellungen konfigurieren den Crawl-Speed vom Spider. Ich crawle meist 3 Threads mit einem URL-Limit von 2.0. Bei einem performanten Webserver, erhöhe ich den Speed.
CustomSearch ist eine einfache Suchfunktion im Quellcode von HTML Seiten. Damit können einfache Regular Expressions festgelegt werden – zum Beispiel um auszugeben, auf welchen HTML Seiten im Quellcode der Begriff „Inhaltsverzeichnis“ vorkommt. Hingegen sind die Extraction-Settings sehr mächtig, denn damit können teils komplexe Filter erstellt werden. Mehr Informationen in meinem Blog-Beitrag: XPath Custom Extraction-Filter mit Screaming Frog.
API AccessScreaming Frog bietet Möglichkeiten, URL-Daten verschiedener Dienste per API zu beziehen und die URLs zu spidern. Ich nutze diese Funktion oft nach einem Relaunch für die Abfrage von Google Analytics- und Search Console-Daten.
SystemDiese Optionen sind besonders für das Crawling von großen Websites und Shops hilfreich, wenn 500.000+ URLs gecrawlt werden sollen. Unter „Memory“ und „Storage“ können System-relevante Settings vorgenommen werden.

Ich verwende mehrere Konfigurationen, die ich als Konfigurationsdateien extern gespeichert habe. Je nach Bedarf lade ich die gewünschte Konfiguration vor einem Crawl. Das Speichern und Laden individueller Konfigurationen ist unter „File“ > „Configuration“ möglich.

Reports

Sobald ein Crawl abgeschlossen ist, können die gesammelten Daten exportiert werden. Am einfachsten können sie im Overview-Filter (im Screenshot orange hervorgehoben) exportiert werden. Hierzu klickt man einfach auf „Export“ (roter Rahmen), um die Daten der Tabelle zu speichern.

Export-Funktion der Daten-Tabelle vom gewünschten Overview-Filter
Export-Funktion der Daten-Tabelle vom gewünschten Overview-Filter

Zusätzlich bietet Screaming Frog vordefinierte Reports an. Diese können durch Auswahl im Hauptmenü unter „Reports“ ausgewählt werden. Der Datenexport erfolgt als CSV-, XLS- oder XLSX-Datei.

Das Reports-Menü bietet viele vordefinierte Export-Möglichkeiten
Das Reports-Menü bietet viele vordefinierte Export-Möglichkeiten

Verfügbare Reports

  • Crawl Overview
  • Redirect & Canonical Chains
  • Non-Indexable Canonicals
  • Pagination
    • Non-200 Pagination- URLs
    • Unlinked Pagination URLs
  • Hreflang
    • All hreflang URLs
    • Non-200 hreflang URLs
    • Unlinked hreflang URLs
    • Missing Confirmation Links
    • Inconsistent Language & Region Confirmation Links
    • Non Canonical Confirmation Links
    • Noindex Confirmation Links
  • Insecure Content
  • SERP Summary
  • Orphan Pages
  • Structured Data
    • Validation Errors & Warnings Summary
    • Validation Errors & Warnings

Die meisten Reports können eher als Fehlerberichte betrachtet werden. Besitzt die Export-Datei keine Inhalte, liegen zu diesem Sachverhalt keine Fehler vor.

Bulk Exports

Analog zu den Reports können verschiedene vordefinierte Bulk Exports erstellt werden, um die Crawl-Daten in Excel oder einem anderen Programm (Apple Numbers) weiter zu bearbeiten. Bulk Exports (Massenexports) können im Hauptmenü unter „Bulk Export“ aufgerufen werden.

Bulk Export-Menü zum Massenexport verschiedener Daten
Bulk Export-Menü zum Massenexport verschiedener Daten

Ich nutze diese Bulk Exports selten, denn zum Großteil liefern sie die selben Daten, wie die Export-Funktion der Overview-Filter.

🔥 Screaming Frog SEO Spider-Tipps

Hier stelle ich hilfreiche Tipps und Tricks für den Screaming Frog zur Verfügung, um wirklich alles aus dem Spider-Tool rauszuholen. Die SEO-Tipps beziehen sich auf den Crawl-Mode.


Nicht crawlbare URLs auffinden

Bei jedem professionellen SEO-Audit wird die Crawlbarkeit interner URLs geprüft. Vor einem Website-Crawl empfehle ich also eine Konfiguration zu wählen, dass die robots.txt-Anweisungen beachtet werden: „Configuration“ > „robots.txt“ > „Settings“ > „Show Internal URLs Blocked by robots.txt“ anhaken. Die betreffenden URLs werden im Overview-Filter „Response Codes“ > „Blocked by Robots.txt“ inkl. der Anweisung („Line:…“) dokumentiert. Fehlkonfigurationen können so schnell enttarnt werden.

Durch robots.txt-Anweisungen blockierte URLs identifizieren
Durch robots.txt-Anweisungen blockierte URLs identifizieren

Ein Tipp ist das Custom Robots Configuration-Tool – zu finden unter „Configuration“ > „robots.txt“ > „Custom“. Damit können verschiedene Tests durchgeführt werden:

  1. robots.txt-Datei vom Webserver laden und temporär modifizieren, um What-if-Crawls durchzuführen.
  2. robots.txt-Datei vom Webserver laden und eine URL zu prüfen und ermitteln, durch welche Anweisungen sie blockiert wird. Hierfür ist kein Crawling erforderlich.
Custom Robots Configuration-Tool für Crawlability-Tests
Custom Robots Configuration-Tool für Crawlability-Tests

In meinem Blog-Beitrag robots.txt Tester stelle ich verschiedene Möglichkeiten vor, um blockierte URLs zu ermitteln. Das könnte von Interesse sein?


Nicht indexierbarre URLs ermitteln

Alle crawlbaren URLs sollten bei einem SEO-Audit bezüglich deren Indexierbarkeit analysiert werden, um zu ermitteln, ob wichtige HTML Seiten durch technische Fehlkonfigurationen (Robots Meta Tag/Canonical Tag) vom Indexieren ausgeschlossen werden. Diese Daten lassen sich leicht im Crawl-Mode ermitteln. Ich empfehle im Overview-Filter „Internal“ > „HTML“ die folgenden Spalten darzustellen:

  1. Adress
  2. Status Code
  3. Status
  4. Indexability
  5. Indexability Status
  6. Meta Robots
  7. Canonical Link Element

Anhand dieser Daten erhält man für jede URL-Zeile eine Information, ob die HTML Seite indexierbar ist, oder nicht. Zunächst werden alle Zeilen ignoriert, die in der Zelle „Status Code“ keinen Wert „200“ besitzen. Die Spalte „Indexability“ informiert über die Indexierbarkeit der URL: „Non-Indexable“ URLs sollten bewertet werden, warum sie nicht indexierbar sind. Das erfolgt über die Spalten „Meta Robots“ (noindex gesetzt?) und „Canonical Link Element“ (wird eine andere URL bevorzugt?).

Indexierbarkeit von HTML Seiten analysieren
Indexierbarkeit von HTML Seiten analysieren

Die Tabellen-Spalten können durch Klicken auf das „+“-Symbol (roter Rahmen im Screenshot) aktiviert/deaktiviert werden. Auch die Reihenfolge der Spalten lässt sich individuell justieren.

Tabellen-Spalten im Overview-
Filter auswählen
Tabellen-Spalten im Overview-Filter auswählen

Client Error (4xx) enttarnen

Der Overview-Filter „Client Error (4xx)“ unter „Response Codes“ listet alle URLs auf, die nicht verfügbar sind und einen HTTP Statuscode 4xx generieren. Auf diesen Seiten ist die Absprungrate (Bounce Rate) sehr hoch. Deshalb sollten interne Verlinkungsfehler grundsätzlich vermieden werden. Bei jedem Crawling sollten diese Daten analysiert und Fehler korrigiert werden.

Im Reiter „Inlinks“ (untere horizontale Reiter-Navigation) werden wichtige Informationen zu den 404-URLs aufgelistet. Man erfährt, von welchem Typ der Link zu der fehlerhaften URL ist, auf welchen Seiten die URL verlinkt ist und ggf. den Linktext. Damit kann man sehr gut arbeiten.

Client Error (4xx) - nicht erreichbare URLs ermitteln
Client Error (4xx) – nicht erreichbare URLs ermitteln

Canonicalized URLs nicht erfassen/crawlen

Wenn große Websites gecrawlt werden und die Daten-Tabellen nur die wichtigsten Informationen liefern sollen, hilft die Screaming Frog-Funktion Respect Canonical – zu finden über das Hauptmenü > „Configuration“ > „Spider“ > „Advanced“. Wird der Haken entfernt, dann werden durch Canonical Tags entwertete URLs (Canonicalized URLs) im Screaming Frog nicht erfasst. Besonders Shop-Systeme, die viele Get-Parameter erzeugen und durch Canonicals entwerten, spart man viele Zeilen in den Exports.

Respect Canonical-Funktion vom Screaming Frog
Respect Canonical-Funktion vom Screaming Frog

Sind die Get-Parameter der Website oder des Online Shops bekannt, die aufgrund von Canonical Tags nicht gecrawlt werden brauchen, bietet sich die Verwendung der Funktion URL Rewriting an. (Hauptnavigation > „Configuration“ > „URL Rewriting“ > „Remove Parameters“) Pro Zeile kann ein Parameter notiert werden, den der Spider Frog beim Crawlen ignorieren soll. Ein Beispiel hierfür ist der Parameter „?c=“ der oft im Shopsystem Shopware gesichtet wird. Sollen diese URLs beim Spidern nicht erfasst werden, dann braucht nur „c“ hinterlegt zu werden.

URL Rewriting - Remove Parameters
URL Rewriting – Remove Parameters

Insecure Content aufdecken

Dass HTTPS heute Standard für jede Website ist, sollte bekannt sein. Screaming Frog bietet einen Filter, um URLs zu identifizieren, die intern nicht per HTTPS verlinkt sind und korrigiert werden sollten. Dieser Filter befindet sich unter „SEO Elements“ > „Protocol“ > „HTTP“.

Interne Verlinkungen ohne HTTPS aufdecken
Interne Verlinkungen ohne HTTPS aufdecken

Alternativ kann man auch im Hauptmenü „Reports“ und „Insecure Content“ auswählen. Die Export-Datei lässt sich mit Excel öffnen und listet alle URLs ohne HTTPS auf.


Strukturdaten (Structured Data) auswerten

Seit Version 11 liest der Screaming Frog Structured Data aus. Diese Filter sind dann interessant, wenn der technische und OnPage Optimierungsgrad der Website hoch ist, keine internen Fehler bestehen, Seitentitel, Seitenbeschreibung, Headlines und Images optimiert sind und natürlich die Indexierungslogik optimal ausgerichtet ist. Eher würde ich mich damit nicht befassen, außer es liegen massive Fehler vor.

Die Overview-Filter sind zu finden unter „SEO Elements“ > „Structured Data“. Es können vorhandene Strukturdaten bewertet aber auch Seiten ohne Strukturdaten ermittelt werden. Besonders hilfreich sind die Filter, um Validierungsfehler zu ermitteln. Auch Warnungen werden dokumentiert.

Strukturdaten (Structured Data) analysieren und validieren
Strukturdaten (Structured Data) analysieren und validieren

SERP Snippets optimieren

SERP Snippets sind der erste Kontaktpunkt mit dem Suchmaschinen-Nutzer. Deshalb sollten wichtige Seiten einen optimalen Seitentitel und eine optimale -beschreibung besitzen. Mit dem Screaming Frog lassen sich diese Daten auswerten. Ich verwende dafür gern den Overview-Filter „SEO Elements“ > „Response Codes“ > „Success (2xx)“. Die Daten sortiere absteigend nach „Inlinks“, so dass ich mich von den meist verlinkten Seiten abwärts arbeite.

In der unteren Reiter-Navigation befindet sich unter „SERP Snippet“ ein SERP Snippet Tool, mit dem der Seitentitel und die Seitenbeschreibung einer HTML Seite bewertet werden kann. Man kann temporär ein besseres SERP Snippet zusammen basteln und verschiedene Möglichkeiten testen.

Mit dem SERP Snippet-Tool können verschiedene Optimierungen getestet werden
Mit dem SERP Snippet-Tool können verschiedene Optimierungen getestet werden

Externe Dienste per API einbinden

Screaming Frog kann im Crawl-Mode zusätzliche Daten per API von verschiedenen Diensten einbinden, aktuell: Google Analytics, Google Search Console, Majestic, Ahrefs, Mozcape. Bei jedem Dienst gewünschten Dienst müssen die vorhandenen Login-Daten hinterlegt werden. Anschließend werden die Kennzahlen gewählt und automatisch werden die Daten beim Crawlen eingebunden. Besonders hilfreich finde ich die Prüfung der Google Analytics-Daten. Zum Beispiel können nach einem Relaunch die HTTP Statuscodes der Top-Seiten ermittelt werden. Ähnlich kann man Search Console-Daten verwenden, um nicht erreichbare Seiten oder Orphan Pages zu ermitteln.

Wichtige URLs von externen Diensten per API einbinden und crawlen
Wichtige URLs von externen Diensten per API einbinden und crawlen

Orphan URLs ermitteln

Als Orphan URLs (Orphan Pages) werden in der Suchmaschinenoptimierung Webseiten bezeichnet, die durch eine schlechte interne Verlinkung nicht von Suchmaschinen-Bots gefunden und nicht verarbeitet werden können. Mit dem Screaming Frog SEO Spider können Orphan URLs enttarnt werden. Voraussetzung hierfür ist die Verwendung der Google Analytics-API oder der Search Console-API, sowie nach dem abgeschlossenen Crawl die Durchführung einer Crawl-Analyse (Crawl Analysis). Einige Filter erfordern eine separate Crawl-Analyse zur Berechnung der Metriken, wie Orphan URLs.

Zunächst muss ein Crawl der Website oder des Verzeichnisses durchgeführt werden. Dabei ist eine Verbindung zur Google Analytics- oder Search Console-API erforderlich. Sobald der Crawl abgeschlossen ist, klickt man in der Hauptnavigation auf „Crawl Analysis“ > „Configure“ und stellt sicher, dass „Orphan URLs“ für Analytics und Search Console aktiviert ist.

Crawl Analysis-Configuration
Crawl Analysis-Configuration

Die Analyse wird nun über „Crawl Analysis“ > „Start“ aktiviert. Sobald die Berechnung abgeschlossen ist, stehen die Daten im Overview-Filter unter „SEO Elements“ > „Analytics“ > „Orphan URLs“ bzw. „SEO Elements“ > „Search Console“ > „Orphan URLs“ bereit.

Orphan URLs durch eine Crawl-Analyse ermitteln
Orphan URLs durch eine Crawl-Analyse ermitteln

Testumgebung crawlen

Mit einem einfachen Trick können per .htaccess-passwortgeschützte Testumgebungen gecrawlt werden. Im Hauptmenü wählt man „Configuration“ > „Authentication“ und setzt im Reiter „Standards Based“ den Haken. Sobald der Crawl gestartet wird, fragt Screaming Frog nach den Verifizierungsdaten.

Authentifizierung zum Crawlen von von geschützten Testumgebungen aktivieren
Authentifizierung zum Crawlen von von geschützten Testumgebungen aktivieren
Authentication Required: Zugangsdaten eingeben
Authentication Required: Zugangsdaten eingeben

Interne Suche verwenden

Die interne Suchfunktion ist ein mächtiges Feature vom Screaming Frog. Hier können allgemeine Daten gesucht werden, zum Beispiel alle Adressen, die einen bestimmten Begriff besitzen. Im Suchfeld können sogar reguläre Ausdrücke (Regular Expression) verwendet werden – ein paar Beispiele:

Regulärer AusdruckHaken beiFunktion
.html$AddressAlle URLs, die mit „.html“ enden
(?i)LTE(?-i)AddressAlle URLs mit dem regulären Ausdruck „LTE“ (Großbuchstaben)
^4Status CodeAlle URLs, deren Statuscode mit „4“ beginnt
Interne Suchfunktion vom Screaming Frog
Interne Suchfunktion vom Screaming Frog

Include und Exclude Filter notieren

Include Filter eignen sich immer dann, wenn bestimmte Teilbereiche einer Website gecrawlt werden sollen. Angenommen eine Website wird in mehreren Sprachen bereitgestellt. Jede Sprachversion befindet sich in einem Verzeichnis (z. B. „/de/“ und „/en/“ und „/fr/“). Soll nur eine bestimmte Sprachversion der Website untersucht werden, hinterlegt man vor dem Crawl einen Include-Filter – zum Beispiel für „/de/“.

Include-Filter für den Crawl
Include-Filter für den Crawl

Im Gegensatz können für einen Crawl auch Exclude-Filter definiert werden, sodass bestimmte URLs beim Crawlen ignoriert werden. In meinem Beispiel werden PDF-Dateien ignoriert (.*.pdf). Es können mehrere Excludes festgelegt werden. Pro Zeile wird ein Exclude-Filter notiert.

Exclude-Filter für den Crawl
Exclude-Filter für den Crawl

Custom Extraction-Filter verwenden

Durch Custom Extraction Filter können individuelle Filter für einen Crawl definiert werden. Diese mächtige Funktion befindet sich im Hauptmenü unter „Configuration“ > „Custom“ > „Extraction“. Wer technisch versiert ist, kann sehr hilfreiche Filter erstellen, um spezifische Daten zu ermitteln. In meinem Blog-Beitrag XPath Custom Extraction-Filter mit Screaming Frog dokumentiere ich viele XPath-Beispiele zum ausprobieren.

Durch Custom Extraction-Filter können individuelle Daten-Filter erstellt werden
Durch Custom Extraction-Filter können individuelle Daten-Filter erstellt werden

Die Ergebnisse werden im Overview-Filter „Custom“ > „Extraction“ dokumentiert. Diese Daten lassen sich exportieren und per Excel weiter bearbeiten.

Die definierten Custom Extraction-Filter können im Overview-Filter analysiert werden
Die definierten Custom Extraction-Filter können im Overview-Filter analysiert werden

URL-Liste exakt crawlen (List-Mode)

Soll eine URL-Liste gecrawlt werden, bei der ausschließlich die angegebenen URLs gecrawlt werden sollen, dann hilft folgender Tipp:

  1. Liste-Mode auswählen
  2. „File“ > „Configuration“ > „Clear Default Configuration“
  3. „Upload“ auswählen und URL-Liste hochladen oder aus Zwischenablage einfügen
  4. Start

„Clear Default Configuration“ löscht alle individuellen Konfigurationen. Zuvor sollte ein Backup der eigenen Default-Settings erfolgen: „File“ > „Configuration“ > „Safe As…“

Weitere Screaming Frog SEO-Tipps

Die Macher vom Screaming Frog sind auf diesen Beitrag aufmerksam geworden und finden ihn sehr empfehlenswert. Es wäre toll, wenn Du diesen Beitrag auch in deinem Netzwerk teilst, damit mehr Leser darauf aufmerksam werden.

Kommentare(0)

    Komentar verfassen