XPath Filter für Screaming Frog

 > SEO Blog > XPath Filter für Screaming Frog
Interesse?
Rufen Sie an
0351 31446588

oder schreiben Sie
  10. Oktober 2019

XPath ist eine Abfragesprache, um Teile von XML-Dateien zu adressieren und auszuwerten. So kann XPath beim populären SEO Spider Screaming Frog verwendet werden. Individuelle XPath-Filter ermöglichen vielseitige Analysen im HTML Quellcode. In diesem Blog-Beitrag stelle ich hilfreiche XPath-Filter vor, die Du für Deine SEO-Analysen verwenden kannst. Das erspart Dir viel Zeit. Erfahre jetzt, wie Du XPath mit dem Screaming Frog verwendest.

XPath Custom Extraction 2 - Header

Mit dem Screaming Frog SEO Spider kannst Du HTML-Quellcode und Textinhalte beim Crawling extrahieren. Screaming Frog bietet eine Custom Search-Funktion, die einfache Textsuchen erlaubt. Viel mächtiger sind die Custom Extraction-Funktionen, denn neben XPath bietet Screaming Frog außerdem „CSS Path“ und „Regex“ für tiefgründige Analysen.

So erstellst Du XPath Custom Extraction-Filter

  1. Öffne Screaming Frog SEO Spider
  2. Wähle im Menü „Configuration“ > „Custom“ und klicke auf „Extraction“
  3. Nun kannst Du individuelle XPath Custom Extraction-Filter definieren

Für jeden Filter kannst Du festlegen, welche Daten ausgegeben werden sollen:

  • Extract Inner HTML
  • Extract HTML Element
  • Extract Text
  • Function Value
XPath Custom Extraction Beispiel // Screaming Frog
XPath Custom Extraction Beispiel // Screaming Frog

Allgemeine XPath-Beispiele

Die folgenden Beispiele zeigen Dir allgemeine Filter. Du kannst die Syntax kopieren und im Screaming Frog einfügen:

XPath Custom ExtractionBeschreibung
//h1Alle H1 Headlines
/descendant::h3[1]Das erste H3 Headline einer Seite ([1] beschränkt das Ergebnis auf den ersten gefundenen Treffer)
/descendant::h3[position() >= 0 and position() <= 5]Die ersten fünf H3 Headlines einer Seite
//div/spanAlle span-Elemente, die sich in einem div-Container befinden
//@hrefAlle Links in einem Dokument ( @ bestimmt ein Attribut)
//*[@class='underline']Alle Elemente mit der Klasse „underline“ (* bestimmt eine Wildcard)
//ul/li[1]Das erste Listenelement (li) einer ungeordneten Liste (ul) ([1] beschränkt das Ergebnis auf den ersten gefundenen Treffer)
//ul/li[last()]Letztes Listenelement (li) einer ungeordneten Liste (ul)
//ul[@class='big-list']/liAlle Listenelemente (li) einer ungeordneten Liste (ul) mit der Klasse „big-list“
//a[contains(., 'Weiterlesen')]/@hrefAlle Zielseiten mit dem Linktext „Weiterlesen“
//h1[contains(., '2018')]Alle H1 Headlines die „2018“ enthalten
//meta[(@name|@content)]Meta Tags mit dem Attribut „name“ oder „content“ ( | entspricht dem Operator „oder“)
//a[starts-with(@href, 'mailto')]Alle verlinkten (unverschlüsselten) E-Mail-Adressen
//iframe/@srcAlle iFrames URLs
//div[@class="main-section"]//aAlle Linktexte (Extract Inner HTML) der Links im div-Container mit der Klasse „main-section“
//div[@class="main-section"]//a/@hrefAlle URLs (Extract Inner HTML) der Links im div-Container mit der Klasse „main-section“
//div[@class="main-section"]//aHTML Quellode der Links (Extract HTML Element) im div-Container mit der Klasse „main-section“
//html/@langAttribute der Seitensprache ausgeben, zum Beispiel von: <html lang=“de-DE“>
["'](UA-.*?)["']Google Analytics ID
["'](GTM-.*?)["']Google Tag Manager ID

XPath-Beispiele für SEO-Filter

XPath Custom ExtractionBeschreibung
//div[contains(@class,'main-content')]//a[.='click here']Alle Linkelemente mit dem Linktext „click here“ die sich in einem div-Container mit der Klasse „main-content“ befinden
//div[contains(@class,'main-content')]//a[@href='url']Alle Linkelemente mit einer exakten Ziel-URL die sich in einem div-Container mit der Klasse „main-content“ befinden
(//*[@hreflang])Alle hreflang-Anmerkungen
(//*[@hreflang])[1]
(//*[@hreflang])[2]
(//*[@hreflang])[3]
Die erste hreflang-Anmerkung im HTML Quellcode (Werden mehrere hreflang-Anmerkungen auf einer Seite verwendet, müssen weitere Filter gesetzt werden: …[2]; …[3], usw.)
//*[@hreflang]/@hreflangAlle hreflang-Werte (Sprache-Region)
//head/link[@rel='amphtml']/@hrefAlle AMP-URLs

XPath-Beispiele für Strukturdaten-Filter

XPath Custom ExtractionBeschreibung
//meta[starts-with(@property, 'og:title')]/@contentOpen Graph Title (Facebook)
//meta[starts-with(@property, 'og:description')]/@contentOpen Graph Description (Facebook)
//meta[starts-with(@property, 'og:image')]/@contentURL des Open Graph Image (Facebook)
//meta[@name='twitter:title']/@contentTwittercard Title
//meta[@name='twitter:description']/@contentTwittercard Description
//meta[@name='twitter:image']/@contentTwittercard Image
//*[@itemprop='streetAddress']schema.org Strukturdaten für „streetAdress“
//*[@itemprop='addressLocality']schema.org Strukturdaten für „addressLocality“
//*[@itemprop='addressRegion']schema.org Strukturdaten für „addressRegion“
//*[@itemtype]/@itemtypeStrukturdaten-Arten einer Seite („Webpage“, „Product“, „Offer“, „ImageObject“, usw.)

XPath testen mit Scraper

Um XPath-Filter zu testen, empfehle ich die Scraper Chrome-Extension aus dem chrome web store. Nach der Installation öffnest Du eine Webseite, dann Rechtsklick und „Scrape Similiar“ wählen. Hier kannst Du verschiedene Filter testen, bevor Du sie im Screaming Frog einfügst.

Scraper Chrome Extension - XPath
Scraper Chrome Extension – XPath

Weiterführende Literatur

  10. Oktober 2019   Jens Fröhlich   Gepostet in: Technisches SEO, Tools   Schlagwörter: , , ,  

Kommentare(1)

  • Marvin
    31. Oktober 2019, 09:56  Antworten

    Danke für die gute Übersicht! Sind gerade dabei, URLs auf Basis von Artikelnummern mit dem Screaming-Frog zu filtern. Funktioniert damit sehr gut! 🙂

Kommentar verfassen