Screaming Frog SEO Spider

 > SEO Blog > Screaming Frog SEO Spider
Interesse?
Rufen Sie an
0351 31446588

oder schreiben Sie
  19. Februar 2024

Der Screaming Frog SEO Spider ist eines der mächtigsten Scraper auf dem Markt. Mit ihm können nicht nur Websites gecrawlt, sondern auch zwei Crawls miteinander verglichen werden. Das macht den Screaming Frog zu eines der besten Werkzeuge für tiefgründige SEO Audits.

Was ist Screaming Frog SEO Spider?

Screaming Frog Markenzeichen
Der Screaming Frog SEO Spider ist eine Software zur Durchführung tiefgründiger SEO Audits. Sie wird hier kostenfrei zum Download für Windows, MacOS und Ubuntu angeboten. Die kostenfreie Version eignet sich allerdings nur zum testen. Eine Einzel-Lizenz pro User kostet 239,00 EUR für ein Jahr. Sie entsperrt alle Funktionen und hebt das Crawl-Limit von 500 URLs auf. Werden mehrere Lizenzen gekauft, wird Rabatt gewährt.

Screaming Frog Bewertung

Der Screaming Frog ist der Benchmark für alle SEO Crawler auf dem Markt und ein Must-have für jeden technisch-versierten SEO-Berater.

Gesamt Four and a half yellow rating stars 4.5/5
Benutzerfreundlichkeit Three and a half yellow rating stars 3.5/5
Funktionsumfang Five yellow rating stars 5/5
Dokumentation (FAQ) - Four yellow rating stars 4/5
Preis-Leistungs-Verhältnis Five yellow rating stars 5/5
Empfehlungswahrscheinlichkeit Five yellow rating stars 5/5

Woher hat der Screaming Frog seinen Namen?

Der Name Screaming Frog wurde von einem Frosch 🐸 inspiriert, der sich wehrte, nachdem er von zwei Katzen in Dan Sharps (Mitbegründer von Screaming Frog) Garten in die Enge getrieben wurde. Hier gibt es die komplette Story.

Was macht Screaming Frog besonders gut?

Der größte Vorteil vom Screaming Frog ist sein Funktionsumfang. Er ist aus meiner Sicht der beste SEO Crawler, um eine Website umfassend technisch zu analysieren.

  • Umzählige Konfigurationsmöglichkeiten (Crawling, Indexierung, Custom Search, …)
  • Unterstützung von JavaScript-Crawling und -Rendering
  • Optimal für tiefgründige SEO Audits mit technischem Schwerpunkt
  • API-Zugang zu anderen Diensten (Google Analytics 4, Google Search Console, PageSpeed Insights, Ahrefs, Majaestic, Moz)
  • Scheduling: Crawls automatisiert planen und durchführen
  • Crawl-Berichte in Looker Studio automatisieren (hier)

Was sind die Defizite/Potenziale vom Screaming Frog?

Der größte Nachteil ist der Ressourcen-Verbrauch. Möchte man mit dem Screaming Frog große Websites (> 500.000 URLs) crawlen, benötigt man einen leistungsstarken PC. Denn die Software wird lokal installiert. Crawl-Daten können bei wenig Arbeitsspeicher auch auf die HDD geschrieben werden (Database Storage), idealerweise eine SSD. Allerdings hat man das Problem bei der Verwendung von Online-Spider-Tools nicht, wie Audisto oder Sitebulb.

Memory Configuration- und Storage Mode-Settings // Screaming Frog SEO Spider
Memory Configuration- und Storage Mode-Settings // Screaming Frog SEO Spider
  • Lokale Installation: Ressourcen-hungrig (Arbeitsspeicher/SSD)
  • Eher für technisch versierte SEO-Berater/Webmaster geeignet
  • Tabellen-basierte Benutzeroberfläche (großer Monitor empfohlen)

Funktionsumfang vom Screaming Frog

  • Defekte Links, Fehler und Weiterleitungen identifizier
  • Analyse von Seitentiteln und Metadaten
  • Daten mit XPath extrahieren
  • XML-Sitemaps generieren
  • JavaScript-Webseiten crawlen
  • Zeitplan für Audits
  • Weiterleitungen (-schleifen) auswerten
  • Duplizierte Inhalte ermitteln
  • Überprüfung von Robotern & Direktiven
  • Integration mit GA, GSC und PSI
  • Visualisierung der Site-Architektur
  • Crawls & Staging vergleichen
  • Überprüfung Meta Robots & Richtlinien
  • XML-Sitemaps bewerten
  • Validierung von strukturierten Daten
  • Rechtschreib- und Grammatikprüfung
  • Benutzerdefinierte Quellcode-Suche
  • Benutzerdefinierte Extraktion
  • Formularbasierte Authentifizierung (Staging)
  • Rohes und gerendertes HTML speichern und anzeigen
  • Individuelle robots.txt-Konfiguration (robots.txt Check)
  • AMP Crawling & Validierung

Zielgruppen

Vor allem technisch versierte Suchmaschinenoptimierer erhalten mit dem Spider Tool eine Vielzahl von Möglichkeiten, um ausführliche SEO Audits zu erstellen. Für technisch unerfahrene Website-Betreiber sind die komplexen Konfigurationsmenüs und Berichte sicher unübersichtlich. Es erfordert etwas Interesse, um sich mit der Benutzeroberfläche auseinander zu setzen. Denn fast alle Daten liefert der Screaming Frog in Tabellenform. Spalten lassen sich ein- und ausblenden, die Sortierung kann man ändern und alle Daten können gefiltert und exportiert werden.

Wer auf eine moderne, übersichtliche Benutzeroberfläche nicht verzichten kann, sollte sich als Alternative Audisto oder Sitebulb anschauen.

Mode-Funktionen

Bei der ersten Anwendung fragt man sich meist, wie der Screaming Frog funktioniert. Er bietet vier verschiedene Modi:

Mode Beschreibung
Crawl-Mode Die populärste Funktion ist der Crawl-Mode, mit dem man eine URL als Ausgangspunkt für das Crawling festlegt. Das ist meist die Startseite einer Website. Der Screaming Frog spidert diese URL und folgt den Links im HTML-Code und weiterer Quellen entsprechend der Crawl-Konfiguration. Die gesammelten Daten werden in Form von Tabellen und Diagrammen dargestellt.
List-Mode Mit dem List-Mode wird eine URL-Liste gecrawlt. Die URL-Liste wird als Excel-Datei importiert oder aus der Zwischenablage eingefügt. Damit kann man die HTTP-Statuscodes der URLs schnell und einfach ermitteln.
SERP-Mode Der SERP-Mode bietet die Möglichkeit, die Länge von Seitentitel und Seitenbeschreibung zu bewerten. Beide Meta Tags sind wichtige Bestandteile vom SERP Snippet einer Seite. Es erfolgt kein Crawling. Seitentitel und Seitenbeschreibungen werden via Excel-Datei importiert.
Compare (Vergleichen) Der Compare-Mode ermöglicht es, zwei Crawls miteinander zu vergleichen. Das bietet sich vor allem bei einem Relaunch an, um das Testsystem mit der live-Website zu vergleichen.

Crawl-Mode Konfiguration

Im Folgenden stelle ich die wichtigsten Konfigurationsfunktionen für den Screaming Frog vor, die für ein SEO Audit im Crawl-Mode vorgenommen werden sollten.

Konfigurationsmenü zur Feinjustierung der Crawl-Anforderungen
Konfigurationsmenü zur Feinjustierung der Crawl-Anforderungen
Configuration Beschreibung
Spider Das Konfigurationsmenü vom SEO Spider ist umfangreich und mächtig. In den Basic-Settings wird das Crawler-Verhalten grundlegend festgelegt. Mit den Limit-Settings kann der Crawl begrenzt werden. Die Rendering-Settings dienen der Auswahl der Spider-Technologie und des Spider. (Empfehlung: JavaScript für Googlebot Mobile Smartphone) Im Advanced-Reiter finden vor allem technisch-versierte Optimierer wichtige Möglichkeiten zur Konfiguration des Crawl-Verhaltens. Schließlich können im Reiter Preferences diverse Standardisierungen für Page Title, Meta Description, Headlines und Bilder-Attribute gewählt werden.
Robots.txt Hier hat der Anwender die Möglichkeit, die Anweisungen der robots.txt-Datei auf dem Webserver zu ignorieren bzw. zu bestimmen, wie die Daten ausgeschlossener Ressourcen in den Screaming Frog-Reports dargestellt werden sollen. Hilfreich kann die Option sein, eine temporäre robots.txt-Datei für den Crawl zu erstellen und damit die Anweisungen auf dem Webserver zu ignorieren. (Details weiter unten)
CDNs Werden verschiedene Ressourcen (zum Beispiel Bilder) per CDN eingebunden, kann hier eine Liste von Subdomains und Verzeichnissen notiert werden, damit diese Ressourcen beim Crawlen erfasst werden.
Include Hier können Regular Expressions für URLs definiert werden, die beim Crawling zu beachten sind.
Exclude Hier können Regular Expressions für auszuschließende URLs festgelegt werden. Sollen zum Beispiel alle URLs mit dem Zeichen # beim Crawl ausgeschlossen werden, erreicht man das mit der Regular Expression: .*#.*
Speed Diese Einstellungen konfigurieren den Crawl-Speed vom Spider.
Custom Search ist eine einfache Suchfunktion im Quellcode von HTML Seiten. Damit können einfache Regular Expressions festgelegt werden – zum Beispiel um auszugeben, auf welchen HTML Seiten im Quellcode der Begriff “Inhaltsverzeichnis” vorkommt. Hingegen sind die Extraction-Settings sehr mächtig, denn damit können teils komplexe Filter erstellt werden. Mehr Informationen in meinem Blog-Beitrag: XPath Custom Extraction-Filter mit Screaming Frog.
API Access Screaming Frog bietet Möglichkeiten, URL-Daten verschiedener Dienste per API zu beziehen und die URLs zu spidern. Ich nutze diese Funktion oft nach einem Relaunch für die Abfrage von Google Analytics- und Search Console-Daten.
System Diese Optionen sind besonders für das Crawling von großen Websites und Shops hilfreich, wenn 500.000+ URLs gecrawlt werden sollen. Unter “Memory” und “Storage” können System-relevante Settings vorgenommen werden.

Ich verwende mehrere Konfigurationen, die ich als Konfigurationsdateien extern gespeichert habe. Je nach Bedarf lade ich die gewünschte Konfiguration vor einem Crawl. Das Speichern und Laden individueller Konfigurationen ist unter “File” > “Configuration” möglich.

Reports

Sobald ein Crawl abgeschlossen ist, können die gesammelten Daten exportiert werden. Am einfachsten können sie im Overview-Filter (im Screenshot orange hervorgehoben) exportiert werden. Hierzu klickt man einfach auf “Export” (roter Rahmen), um die Daten der Tabelle zu speichern.

Export-Funktion der Daten-Tabelle vom gewünschten Overview-Filter
Export-Funktion der Daten-Tabelle vom gewünschten Overview-Filter

Zusätzlich bietet Screaming Frog vordefinierte Reports an. Diese können durch Auswahl im Hauptmenü unter “Reports” ausgewählt werden. Der Datenexport erfolgt als CSV-, XLS- oder XLSX-Datei.

Das Reports-Menü bietet viele vordefinierte Export-Möglichkeiten
Das Reports-Menü bietet viele vordefinierte Export-Möglichkeiten

Bulk Exports

Analog zu den Reports können verschiedene vordefinierte Bulk Exports erstellt werden, um die Crawl-Daten in Excel oder einem anderen Programm (Apple Numbers) weiter zu bearbeiten. Bulk Exports (Massenexports) können im Hauptmenü unter “Bulk Export” aufgerufen werden.

Bulk Export-Menü zum Massenexport verschiedener Daten
Bulk Export-Menü zum Massenexport verschiedener Daten

Ich nutze diese Bulk Exports selten, denn zum Großteil liefern sie die selben Daten, wie die Export-Funktion der Overview-Filter.

🔥 Screaming Frog SEO Spider-Tipps

Diese einfachen Tipps für den Screaming Frog helfen, um SEO effektiv zu verbessern:


Nicht crawlbare URLs auffinden

Bei jedem professionellen SEO-Audit wird die Crawlbarkeit interner URLs geprüft. Vor einem Website-Crawl empfehle ich also eine Konfiguration zu wählen, dass die robots.txt-Anweisungen beachtet werden: “Configuration” > “robots.txt” > “Settings” > “Show Internal URLs Blocked by robots.txt” anhaken. Die betreffenden URLs werden im Overview-Filter “Response Codes” > “Blocked by Robots.txt” inkl. der Anweisung (“Line:…”) dokumentiert. Fehlkonfigurationen können so schnell enttarnt werden.

Durch robots.txt-Anweisungen blockierte URLs identifizieren
Durch robots.txt-Anweisungen blockierte URLs identifizieren

Ein Tipp ist das Custom Robots Configuration-Tool – zu finden unter “Configuration” > “robots.txt” > “Custom”. Damit können verschiedene Tests durchgeführt werden:

  1. robots.txt-Datei vom Webserver laden und temporär modifizieren, um What-if-Crawls durchzuführen.
  2. robots.txt-Datei vom Webserver laden und eine URL zu prüfen und ermitteln, durch welche Anweisungen sie blockiert wird. Hierfür ist kein Crawling erforderlich.
Custom Robots Configuration-Tool für Crawlability-Tests
Custom Robots Configuration-Tool für Crawlability-Tests

In meinem Blog-Beitrag robots.txt Tester stelle ich verschiedene Möglichkeiten vor, um blockierte URLs zu ermitteln.


Nicht indexierbarre URLs ermitteln

Alle crawlbaren URLs sollten bei einem SEO-Audit bezüglich deren Indexierbarkeit analysiert werden, um zu ermitteln, ob wichtige HTML Seiten durch technische Fehlkonfigurationen (Robots Meta Tag/Canonical Tag) vom Indexieren ausgeschlossen werden. Diese Daten lassen sich leicht im Crawl-Mode ermitteln. Ich empfehle im Overview-Filter “Internal” > “HTML” die folgenden Spalten darzustellen:

  1. Adress
  2. Status Code
  3. Status
  4. Indexability
  5. Indexability Status
  6. Meta Robots
  7. Canonical Link Element

Anhand dieser Daten erhält man für jede URL-Zeile eine Information, ob die HTML Seite indexierbar ist, oder nicht. Zunächst werden alle Zeilen ignoriert, die in der Zelle “Status Code” keinen Wert “200” besitzen. Die Spalte “Indexability” informiert über die Indexierbarkeit der URL: “Non-Indexable” URLs sollten bewertet werden, warum sie nicht indexierbar sind. Das erfolgt über die Spalten “Meta Robots” (noindex gesetzt?) und “Canonical Link Element” (wird eine andere URL bevorzugt?).

Indexierbarkeit von HTML Seiten analysieren
Indexierbarkeit von HTML Seiten analysieren

Die Tabellen-Spalten können durch Klicken auf das “+”-Symbol (roter Rahmen im Screenshot) aktiviert/deaktiviert werden. Auch die Reihenfolge der Spalten lässt sich individuell justieren.

Tabellen-Spalten im Overview-
Filter auswählen
Tabellen-Spalten im Overview-Filter auswählen

Client Error (4xx) enttarnen

Der Overview-Filter “Client Error (4xx)” unter “Response Codes” listet alle URLs auf, die nicht verfügbar sind und einen HTTP Statuscode 4xx generieren. Auf diesen Seiten ist die Absprungrate (Bounce Rate) sehr hoch. Deshalb sollten interne Verlinkungsfehler grundsätzlich vermieden werden. Bei jedem Crawling sollten diese Daten analysiert und Fehler korrigiert werden.

Im Reiter “Inlinks” (untere horizontale Reiter-Navigation) werden wichtige Informationen zu den 404-URLs aufgelistet. Man erfährt, von welchem Typ der Link zu der fehlerhaften URL ist, auf welchen Seiten die URL verlinkt ist und ggf. den Linktext. Damit kann man sehr gut arbeiten.

Client Error (4xx) - nicht erreichbare URLs ermitteln
Client Error (4xx) – nicht erreichbare URLs ermitteln

Canonicalized URLs nicht erfassen/crawlen

Wenn große Websites gecrawlt werden und die Daten-Tabellen nur die wichtigsten Informationen liefern sollen, hilft die Screaming Frog-Funktion Respect Canonical – zu finden über das Hauptmenü > “Configuration” > “Spider” > “Advanced”. Wird der Haken entfernt, dann werden durch Canonical Tags entwertete URLs (Canonicalized URLs) im Screaming Frog nicht erfasst. Besonders Shop-Systeme, die viele Get-Parameter erzeugen und durch Canonicals entwerten, spart man viele Zeilen in den Exports.

Respect Canonical-Funktion vom Screaming Frog
Respect Canonical-Funktion vom Screaming Frog

Sind die Get-Parameter der Website oder des Online Shops bekannt, die aufgrund von Canonical Tags nicht gecrawlt werden brauchen, bietet sich die Verwendung der Funktion URL Rewriting an. (Hauptnavigation > “Configuration” > “URL Rewriting” > “Remove Parameters”) Pro Zeile kann ein Parameter notiert werden, den der Spider Frog beim Crawlen ignorieren soll. Ein Beispiel hierfür ist der Parameter “?c=” der oft im Shopsystem Shopware gesichtet wird. Sollen diese URLs beim Spidern nicht erfasst werden, dann braucht nur “c” hinterlegt zu werden.

URL Rewriting - Remove Parameters
URL Rewriting – Remove Parameters

Insecure Content aufdecken

Dass HTTPS heute Standard für jede Website ist, sollte bekannt sein. Screaming Frog bietet einen Filter, um URLs zu identifizieren, die intern nicht per HTTPS verlinkt sind und korrigiert werden sollten. Dieser Filter befindet sich unter “SEO Elements” > “Protocol” > “HTTP”.

Interne Verlinkungen ohne HTTPS aufdecken
Interne Verlinkungen ohne HTTPS aufdecken

Alternativ kann man auch im Hauptmenü “Reports” und “Insecure Content” auswählen. Die Export-Datei lässt sich mit Excel öffnen und listet alle URLs ohne HTTPS auf.


Strukturdaten (Structured Data) auswerten

Seit Version 11 liest der Screaming Frog Structured Data aus. Diese Filter sind dann interessant, wenn der technische und OnPage Optimierungsgrad der Website hoch ist, keine internen Fehler bestehen, Seitentitel, Seitenbeschreibung, Headlines und Images optimiert sind und natürlich die Indexierungslogik optimal ausgerichtet ist. Eher würde ich mich damit nicht befassen, außer es liegen massive Fehler vor.

Die Overview-Filter sind zu finden unter “SEO Elements” > “Structured Data”. Es können vorhandene Strukturdaten bewertet aber auch Seiten ohne Strukturdaten ermittelt werden. Besonders hilfreich sind die Filter, um Validierungsfehler zu ermitteln. Auch Warnungen werden dokumentiert.

Strukturdaten (Structured Data) analysieren und validieren
Strukturdaten (Structured Data) analysieren und validieren

SERP Snippets optimieren

SERP Snippets sind der erste Kontaktpunkt mit dem Suchmaschinen-Nutzer. Deshalb sollten wichtige Seiten einen optimalen Seitentitel und eine optimale -beschreibung besitzen. Mit dem Screaming Frog lassen sich diese Daten auswerten. Ich verwende dafür gern den Overview-Filter “SEO Elements” > “Response Codes” > “Success (2xx)”. Die Daten sortiere absteigend nach “Inlinks”, so dass ich mich von den meist verlinkten Seiten abwärts arbeite.

In der unteren Reiter-Navigation befindet sich unter “SERP Snippet” ein SERP Snippet Tool, mit dem der Seitentitel und die Seitenbeschreibung einer HTML Seite bewertet werden kann. Man kann temporär ein besseres SERP Snippet zusammen basteln und verschiedene Möglichkeiten testen.

Mit dem SERP Snippet-Tool können verschiedene Optimierungen getestet werden
Mit dem SERP Snippet-Tool können verschiedene Optimierungen getestet werden

Externe Dienste per API einbinden

Screaming Frog kann im Crawl-Mode zusätzliche Daten per API von verschiedenen Diensten einbinden, aktuell: Google Analytics, Google Search Console, Majestic, Ahrefs, Mozcape. Bei jedem Dienst gewünschten Dienst müssen die vorhandenen Login-Daten hinterlegt werden. Anschließend werden die Kennzahlen gewählt und automatisch werden die Daten beim Crawlen eingebunden. Besonders hilfreich finde ich die Prüfung der Google Analytics-Daten. Zum Beispiel können nach einem Relaunch die HTTP Statuscodes der Top-Seiten ermittelt werden. Ähnlich kann man Search Console-Daten verwenden, um nicht erreichbare Seiten oder Orphan Pages zu ermitteln.

Wichtige URLs von externen Diensten per API einbinden und crawlen
Wichtige URLs von externen Diensten per API einbinden und crawlen

Orphan URLs ermitteln

Als Orphan URLs (Orphan Pages) werden in der Suchmaschinenoptimierung Webseiten bezeichnet, die durch eine schlechte interne Verlinkung nicht von Suchmaschinen-Bots gefunden und nicht verarbeitet werden können. Mit dem Screaming Frog SEO Spider können Orphan URLs enttarnt werden. Voraussetzung hierfür ist die Verwendung der Google Analytics-API oder der Search Console-API, sowie nach dem abgeschlossenen Crawl die Durchführung einer Crawl-Analyse (Crawl Analysis). Einige Filter erfordern eine separate Crawl-Analyse zur Berechnung der Metriken, wie Orphan URLs.

Zunächst muss ein Crawl der Website oder des Verzeichnisses durchgeführt werden. Dabei ist eine Verbindung zur Google Analytics- oder Search Console-API erforderlich. Sobald der Crawl abgeschlossen ist, klickt man in der Hauptnavigation auf “Crawl Analysis” > “Configure” und stellt sicher, dass “Orphan URLs” für Analytics und Search Console aktiviert ist.

Crawl Analysis-Configuration
Crawl Analysis-Configuration

Die Analyse wird nun über “Crawl Analysis” > “Start” aktiviert. Sobald die Berechnung abgeschlossen ist, stehen die Daten im Overview-Filter unter “SEO Elements” > “Analytics” > “Orphan URLs” bzw. “SEO Elements” > “Search Console” > “Orphan URLs” bereit.

Orphan URLs durch eine Crawl-Analyse ermitteln
Orphan URLs durch eine Crawl-Analyse ermitteln

Testumgebung crawlen

Mit einem einfachen Trick können per .htaccess-passwortgeschützte Testumgebungen gecrawlt werden. Im Hauptmenü wählt man “Configuration” > “Authentication” und setzt im Reiter “Standards Based” den Haken. Sobald der Crawl gestartet wird, fragt Screaming Frog nach den Verifizierungsdaten.

Authentifizierung zum Crawlen von von geschützten Testumgebungen aktivieren
Authentifizierung zum Crawlen von von geschützten Testumgebungen aktivieren
Authentication Required: Zugangsdaten eingeben
Authentication Required: Zugangsdaten eingeben

Interne Suche verwenden

Die interne Suchfunktion ist ein mächtiges Feature vom Screaming Frog. Hier können allgemeine Daten gesucht werden, zum Beispiel alle Adressen, die einen bestimmten Begriff besitzen. Im Suchfeld können sogar reguläre Ausdrücke (Regular Expression) verwendet werden – ein paar Beispiele:

Regulärer Ausdruck Haken bei Funktion
.html$ Address Alle URLs, die mit “.html” enden
(?i)LTE(?-i) Address Alle URLs mit dem regulären Ausdruck “LTE” (Großbuchstaben)
^4 Status Code Alle URLs, deren Statuscode mit “4” beginnt

(Weitere Beispiele)

Interne Suchfunktion vom Screaming Frog
Interne Suchfunktion vom Screaming Frog

Include und Exclude Filter notieren

Include Filter eignen sich immer dann, wenn bestimmte Teilbereiche einer Website gecrawlt werden sollen. Angenommen eine Website wird in mehreren Sprachen bereitgestellt. Jede Sprachversion befindet sich in einem Verzeichnis (z. B. “/de/” und “/en/” und “/fr/”). Soll nur eine bestimmte Sprachversion der Website untersucht werden, hinterlegt man vor dem Crawl einen Include-Filter – zum Beispiel für “/de/”.

Include-Filter für den Crawl
Include-Filter für den Crawl

Im Gegensatz können für einen Crawl auch Exclude-Filter definiert werden, sodass bestimmte URLs beim Crawlen ignoriert werden. In meinem Beispiel werden PDF-Dateien ignoriert (.*.pdf). Es können mehrere Excludes festgelegt werden. Pro Zeile wird ein Exclude-Filter notiert.

Exclude-Filter für den Crawl
Exclude-Filter für den Crawl

Custom Extraction-Filter verwenden

Durch Custom Extraction Filter können individuelle Filter für einen Crawl definiert werden. Diese mächtige Funktion befindet sich im Hauptmenü unter “Configuration” > “Custom” > “Extraction”. Wer technisch versiert ist, kann sehr hilfreiche Filter erstellen, um spezifische Daten zu ermitteln. In meinem Blog-Beitrag XPath Custom Extraction-Filter mit Screaming Frog dokumentiere ich viele XPath-Beispiele zum ausprobieren.

Durch Custom Extraction-Filter können individuelle Daten-Filter erstellt werden
Durch Custom Extraction-Filter können individuelle Daten-Filter erstellt werden

Die Ergebnisse werden im Overview-Filter “Custom” > “Extraction” dokumentiert. Diese Daten lassen sich exportieren und per Excel weiter bearbeiten.

Die definierten Custom Extraction-Filter können im Overview-Filter analysiert werden
Die definierten Custom Extraction-Filter können im Overview-Filter analysiert werden

URL-Liste exakt crawlen (List-Mode)

Soll eine URL-Liste gecrawlt werden, bei der ausschließlich die angegebenen URLs gecrawlt werden sollen, dann hilft folgender Tipp:

  1. Liste-Mode auswählen
  2. “File” > “Configuration” > “Clear Default Configuration”
  3. “Upload” auswählen und URL-Liste hochladen oder aus Zwischenablage einfügen
  4. Start

“Clear Default Configuration” löscht alle individuellen Konfigurationen. Zuvor sollte ein Backup der eigenen Default-Settings erfolgen: “File” > “Configuration” > “Safe As…”

Dieser Beitrag wird von Screaming Frog empfohlen

Das Screaming Frog-Team ist auf diesen Beitrag aufmerksam geworden und findet ihn sehr empfehlenswert:

  19. Februar 2024   Jens Fröhlich  

Kommentare(0)

Kommentar verfassen

Google Bewertung
5.0
×
js_loader
Google Bewertung
5.0
×
js_loader