XPath Filter für Screaming Frog

 > SEO Blog > XPath Filter für Screaming Frog
Interesse?
Rufen Sie an
0351 31446588

oder schreiben Sie
  14. Mai 2020

XPath ist eine Abfragesprache, um Teile von XML-Dateien zu adressieren und auszuwerten. So kann XPath beim populären SEO Spider Screaming Frog verwendet werden. Individuelle XPath-Filter ermöglichen vielseitige Analysen im HTML Quellcode. In diesem Blog-Beitrag stelle ich hilfreiche XPath-Filter vor, die Du für Deine SEO-Analysen verwenden kannst. Das erspart Dir viel Zeit. Erfahre jetzt, wie Du XPath mit dem Screaming Frog verwendest.

XPath Custom Extraction 2 - Header

Mit dem Screaming Frog SEO Spider kannst Du HTML-Quellcode und Textinhalte beim Crawling extrahieren. Screaming Frog bietet eine Custom Search-Funktion, die einfache Textsuchen erlaubt. Viel mächtiger sind die Custom Extraction-Funktionen, denn neben XPath bietet Screaming Frog außerdem „CSS Path“ und „Regex“ für tiefgründige Analysen.

So erstellst Du XPath Custom Extraction-Filter

  1. Öffne Screaming Frog SEO Spider
  2. Wähle im Menü „Configuration“ > „Custom“ und klicke auf „Extraction“
  3. Nun kannst Du individuelle XPath Custom Extraction-Filter definieren

Für jeden Filter kannst Du festlegen, welche Informationen du wünschst:

  • Extract Inner HTML: Der HTML-Inhalt des ausgewählten Elements. Wenn das ausgewählte Element, enthaltene HTML-Elemente eingeschlossen.
  • Extract HTML Element: Das ausgewählte Element und dessen HTML-Inhalt.
  • Extract Text: Der Textinhalt des ausgewählten Elements, sowie der Textinhalt aller Unterelemente.
  • Function Value: Das Ergebnis der angegebenen Funktion, z. B. count(//h1), um die Anzahl der h1-Tags auf einer Seite zu ermitteln.
XPath Custom Extraction Beispiel // Screaming Frog
XPath Custom Extraction Beispiel // Screaming Frog

Allgemeine XPath-Beispiele

Die folgenden Beispiele zeigen Dir allgemeine Filter. Du kannst die Syntax kopieren und im Screaming Frog einfügen:

XPath Custom ExtractionBeschreibung
//h1Alle H1 Headlines
/descendant::h3[1]Die erste H3 Headline einer Seite ( [1] beschränkt das Ergebnis auf den ersten gefundenen Treffer)
/descendant::h3[position() >= 0 and position() <= 5]Die ersten fünf H3 Headlines einer Seite
//div/spanAlle span-Elemente, die sich in einem div-Container befinden
//@hrefAlle Links in einem Dokument ( @ bestimmt ein Attribut)
//*[@class='underline']Alle Elemente mit der Klasse „underline“ ( * bestimmt eine Wildcard)
//ul/li[1]Das erste Listenelement (li) einer ungeordneten Liste (ul) ( [1] beschränkt das Ergebnis auf den ersten gefundenen Treffer)
//ul/li[last()]Das letzte Listenelement (li) einer ungeordneten Liste (ul)
//ul[@class='big-list']/liAlle Listenelemente (li) einer ungeordneten Liste (ul) mit der Klasse „big-list“
//a[contains(., 'Weiterlesen')]/@hrefAlle Zielseiten mit dem Linktext „Weiterlesen“
//h1[contains(., '2018')]Alle H1 Headlines die „2018“ enthalten
//meta[(@name|@content)]Meta Tags mit dem Attribut „name“ oder „content“ ( | entspricht dem Operator „oder“)
//a[starts-with(@href, 'mailto')]Alle verlinkten (unverschlüsselten) E-Mail-Adressen
//iframe/@srcAlle iFrames-URLs
//div[@class="main-section"]//aAlle Linktexte (Extract Inner HTML) der Links im div-Container mit der Klasse „main-section“
//div[@class="main-section"]//a/@hrefAlle URLs (Extract Inner HTML) der Links im div-Container mit der Klasse „main-section“
//div[@class="main-section"]//aHTML Quellode der Links (Extract HTML Element) im div-Container mit der Klasse „main-section“
//html/@langAttribute der Seitensprache ausgeben, zum Beispiel von: <html lang=“de-DE“>

XPath-Beispiele für SEO-Filter

XPath Custom ExtractionBeschreibung
//div[contains(@class,'main-content')]//a[.='click here']Alle Linkelemente mit dem Linktext „click here“ die sich in einem div-Container mit der Klasse „main-content“ befinden
//div[contains(@class,'main-content')]//a[@href='url']Alle Linkelemente mit einer exakten Ziel-URL die sich in einem div-Container mit der Klasse „main-content“ befinden
(//*[@hreflang])Alle hreflang-Anmerkungen
(//*[@hreflang])[1]
(//*[@hreflang])[2]
(//*[@hreflang])[3]
Die erste hreflang-Anmerkung im HTML Quellcode (Werden mehrere hreflang-Anmerkungen auf einer Seite verwendet, müssen weitere Filter gesetzt werden: … [2]; … [3], usw.)
//*[@hreflang]/@hreflangAlle hreflang-Werte (Sprache-Region)
//head/link[@rel='amphtml']/@hrefAlle AMP-URLs

XPath-Beispiele für Strukturdaten-Filter

XPath Custom ExtractionBeschreibung
//meta[starts-with(@property, 'og:title')]/@contentOpen Graph Title (Facebook)
//meta[starts-with(@property, 'og:description')]/@contentOpen Graph Description (Facebook)
//meta[starts-with(@property, 'og:image')]/@contentURL des Open Graph Image (Facebook)
//meta[@name='twitter:title']/@contentTwittercard Title
//meta[@name='twitter:description']/@contentTwittercard Description
//meta[@name='twitter:image']/@contentTwittercard Image
//*[@itemtype]/@itemtypeExtrahieren aller Arten von Schema-Markups einer Seite
//*[@itemprop='streetAddress']schema.org Strukturdaten für „streetAdress“
//*[@itemprop='addressLocality']schema.org Strukturdaten für „addressLocality“
//*[@itemprop='addressRegion']schema.org Strukturdaten für „addressRegion“
//*[@itemprop='name']/@contentProduktname extrahieren
//*[@itemprop='description']/@contentProduktbeschreibung extrahieren
//*[@itemprop='price']/@contentProduktpreis extrahieren

XPath testen mit Scraper

Um XPath-Filter zu testen, empfehle ich die Scraper Chrome-Extension aus dem chrome web store. Nach der Installation öffnest Du eine Webseite, dann Rechtsklick und „Scrape Similiar“ wählen. Hier kannst Du verschiedene Filter testen, bevor Du sie im Screaming Frog einfügst.

Scraper Chrome Extension - XPath
Scraper Chrome Extension – XPath

Optional: Beispiele für Regex-Filter

XPath Custom ExtractionBeschreibung
["'](UA-.*?)["']Google Analytics ID der URL extrahieren
["'](GTM-.*?)["']Google Tag Manager ID der URL extrahieren
Screaming Frog Regex-Beispiele
Screaming Frog Regex-Beispiele

Übrigens kann man im Screaming Frog auch kombinierte Filter aus XPath und Regex erstellen.

Weiterführende Literatur

  14. Mai 2020   Jens Fröhlich   Gepostet in: Technisches SEO, Tools   Schlagwörter: , , ,  

Kommentare(1)

  • Marvin
    31. Oktober 2019, 09:56  Antworten

    Danke für die gute Übersicht! Sind gerade dabei, URLs auf Basis von Artikelnummern mit dem Screaming-Frog zu filtern. Funktioniert damit sehr gut! 🙂

Kommentar verfassen