XPath Custom Extraction-Filter für Screaming Frog

XPath ist eine Abfragesprache, um Teile eines XML-Dokuments zu adressieren und auszuwerten. So kann XPath beim populären SEO Spider Screaming Frog verwendet werden. Individuelle XPath-Filter ermöglichen vielseitige Analysen im HTML Quellcode. In diesem Blog-Beitrag stelle ich hilfreiche XPath-Filter vor, die Du für Deine SEO-Analysen verwenden kannst. Das erspart Dir viel Zeit und Nerven.

XPath Custom Extraction - Header

Screaming Frog SEO Spider Logo

Mit dem Screaming Frog kannst Du HTML Quellcode und Textinhalte aus Crawl-Ergebnissen filtern. Zum einen steht Dir dafür eine Custom Search-Funktion zur Verfügung, die einfache Textsuchen erlaubt. („Contains“/“Does Not Contain“) Weit mächtiger sind die Custom Extraction-Funktionen, denn neben XPath bietet der Screaming Frog außerdem: „Incactive“, „CSS Path“ sowie „Regex“. Das ermöglicht Dir vielseitige Analysemöglichkeiten, wie etwa die Prüfung auf welchen Seiten keine H1 Headline bereit gestellt wird oder auf welchen Seiten fehlerhafte hreflang-Anmerkungen verwendet werden und vieles mehr. Erfahre jetzt, wie Du XPath mit Screaming Frog verwendest und nutze meine praxiserprobten XPath-Beispiel-Filter für Deine SEO Analysen.

So erstellst Du XPath Custom Extraction-Filter

  1. Öffne Screaming Frog SEO Spider
  2. Wähle im Menü „Configuration“ > „Custom“ und klicke auf „Extraction“
  3. Nun kannst Du individuelle XPath Custom Extraction-Filter definieren

Für jeden Filter kannst Du festlegen, welche Daten ausgegeben werden sollen:

  • Extract Inner HTML
  • Extract HTML Element
  • Extract Text
  • Function Value
XPath Custom Extraction Beispiel // Screaming Frog
XPath Custom Extraction Beispiel // Screaming Frog

Allgemeine Syntax-Beispiele

Die folgenden Beispiele zeigen Dir allgemeine Filter. Du kannst die Syntax kopieren und im Screaming Frog hinterlegen – auf Wunsch auch modifizieren:

XPath Custom ExtractionBeschreibung
//h1Alle H1 Headlines
/descendant::h3[1]Das erste H3 Headline einer Seite ([1] beschränkt das Ergebnis auf den ersten gefundenen Treffer)
/descendant::h3[position() >= 0 and position() <= 5]Die ersten fünf H3 Headlines einer Seite
//div/spanAlle span-Elemente, die sich in einem div-Container befinden
//@hrefAlle Links in einem Dokument ( @ bestimmt ein Attribut)
//*[@class='underline']Alle Elemente mit der Klasse „underline“ (* bestimmt eine Wildcard)
//ul/li[1]Das erste Listenelement (li) einer ungeordneten Liste (ul) ([1] beschränkt das Ergebnis auf den ersten gefundenen Treffer)
//ul/li[last()]Letztes Listenelement (li) einer ungeordneten Liste (ul)
//ul[@class='big-list']/liAlle Listenelemente (li) einer ungeordneten Liste (ul) mit der Klasse „big-list“
//a[contains(., 'Weiterlesen')]/@hrefAlle Zielseiten mit dem Linktext „Weiterlesen“
//meta[(@name|@content)]Meta Tags mit dem Attribut „name“ oder „content“ ( | entspricht dem Operator „oder“)
//a[starts-with(@href, 'mailto')]Alle verlinkten (unverschlüsselten) E-Mail-Adressen
//iframe/@srcAlle iFrames URLs
//div[@class="main-section"]//aAlle Linktexte (Extract Inner HTML) der Links im div-Container mit der Klasse „main-section“
//div[@class="main-section"]//a/@hrefAlle URLs (Extract Inner HTML) der Links im div-Container mit der Klasse „main-section“
//div[@class="main-section"]//aHTML Quellode der Links (Extract HTML Element) im div-Container mit der Klasse „main-section“

XPath-Syntax für SEO-Filter

XPath Custom ExtractionBeschreibung
(//*[@hreflang])Alle hreflang-Anmerkungen
(//*[@hreflang])[1]
(//*[@hreflang])[2]
(//*[@hreflang])[3]
Die erste hreflang-Anmerkung im HTML Quellcode (Werden mehrere hreflang-Anmerkungen auf einer Seite verwendet, müssen weitere Filter gesetzt werden: …[2]; …[3], usw.)
//*[@hreflang]/@hreflangAlle hreflang-Werte (Sprache-Region)
//head/link[@rel='amphtml']/@hrefAlle AMP-URLs (Accelerated Mobile Pages)

XPath-Syntax für Strukturdaten-Filter

XPath Custom ExtractionBeschreibung
//meta[starts-with(@property, 'og:title')]/@contentOpen Graph Title (Facebook)
//meta[starts-with(@property, 'og:description')]/@contentOpen Graph Description (Facebook)
//meta[starts-with(@property, 'og:image')]/@contentURL des Open Graph Image (Facebook)
//meta[@name='twitter:title']/@contentTwittercard-Title
//meta[@name='twitter:description']/@contentTwittercard-Description
//*[@itemprop='streetAddress']schema.org Strukturdaten für „streetAdress“
//*[@itemprop='addressLocality']schema.org Strukturdaten für „addressLocality“
//*[@itemprop='addressRegion']schema.org Strukturdaten für „addressRegion“
//*[@itemtype]/@itemtypeStrukturdaten-Arten einer Seite („Webpage“, „Product“, „Offer“, „ImageObject“, usw.)

XPather Browser-Extension

Chrome-Nutzer (hier) und Firefox-Nutzer (hier) können die Extension XPather installieren und XPath-Filter erzeugen, ohne die Syntax selbst formulieren zu müssen. Ich stelle das mit der Chrome-Extension vor: Nach der Installation öffnest Du eine HTML Seite deiner Wahl und markierst Inhalt der Dich interessiert, zum Beispiel die H1 Headline. Nun Rechtsklick und Auswahl vom „Untersuchen“. In der blau markierten Zeile des HTML Quellcode machst Du einen Rechtsklick > Copy > Copy XPath.

Die XPath Syntax für den HTML Code befindet sich nun in der Zwischenablage: //*[@id="top"]/section[1]/h1 Du kannst sie in Screaming Frog einfügen und anforderungsspezifisch anpassen.

XPather Chrome Extension
XPather Chrome Extension

Welche Erfahrungen hast Du mit XPath gesammelt? Vermisst Du Syntax, die Du im Screaming Frog häufig nutzt? Ich freue mich auf Deinen Kommentar.

Kommentare(0)

    Komentar verfassen