XPath Filter für Screaming Frog

 > SEO Blog > XPath Filter für Screaming Frog
Interesse?
Rufen Sie an
0351 31446588

oder schreiben Sie
  25. Juni 2019

XPath ist eine Abfragesprache, um Teile von XML-Dateien zu adressieren und auszuwerten. So kann XPath beim populären SEO Spider Screaming Frog verwendet werden. Individuelle XPath-Filter ermöglichen vielseitige Analysen im HTML Quellcode. In diesem Blog-Beitrag stelle ich hilfreiche XPath-Filter vor, die Du für Deine SEO-Analysen verwenden kannst. Das erspart Dir viel Zeit. Erfahre jetzt, wie Du XPath mit dem Screaming Frog verwendest.

XPath Custom Extraction 2 - Header

Mit dem Screaming Frog SEO Spider kannst Du HTML-Quellcode und Textinhalte beim Crawling extrahieren. Screaming Frog bietet eine Custom Search-Funktion, die einfache Textsuchen erlaubt. Viel mächtiger sind die Custom Extraction-Funktionen, denn neben XPath bietet Screaming Frog außerdem „CSS Path“ und „Regex“ für tiefgründige Analysen.

So erstellst Du XPath Custom Extraction-Filter

  1. Öffne Screaming Frog SEO Spider
  2. Wähle im Menü „Configuration“ > „Custom“ und klicke auf „Extraction“
  3. Nun kannst Du individuelle XPath Custom Extraction-Filter definieren

Für jeden Filter kannst Du festlegen, welche Daten ausgegeben werden sollen:

  • Extract Inner HTML
  • Extract HTML Element
  • Extract Text
  • Function Value
XPath Custom Extraction Beispiel // Screaming Frog
XPath Custom Extraction Beispiel // Screaming Frog

Allgemeine XPath-Beispiele

Die folgenden Beispiele zeigen Dir allgemeine Filter. Du kannst die Syntax kopieren und im Screaming Frog einfügen:

XPath Custom ExtractionBeschreibung
//h1Alle H1 Headlines
/descendant::h3[1]Das erste H3 Headline einer Seite ([1] beschränkt das Ergebnis auf den ersten gefundenen Treffer)
/descendant::h3[position() >= 0 and position() <= 5]Die ersten fünf H3 Headlines einer Seite
//div/spanAlle span-Elemente, die sich in einem div-Container befinden
//@hrefAlle Links in einem Dokument ( @ bestimmt ein Attribut)
//*[@class='underline']Alle Elemente mit der Klasse „underline“ (* bestimmt eine Wildcard)
//ul/li[1]Das erste Listenelement (li) einer ungeordneten Liste (ul) ([1] beschränkt das Ergebnis auf den ersten gefundenen Treffer)
//ul/li[last()]Letztes Listenelement (li) einer ungeordneten Liste (ul)
//ul[@class='big-list']/liAlle Listenelemente (li) einer ungeordneten Liste (ul) mit der Klasse „big-list“
//a[contains(., 'Weiterlesen')]/@hrefAlle Zielseiten mit dem Linktext „Weiterlesen“
//h1[contains(., '2018')]Alle H1 Headlines die „2018“ enthalten
//meta[(@name|@content)]Meta Tags mit dem Attribut „name“ oder „content“ ( | entspricht dem Operator „oder“)
//a[starts-with(@href, 'mailto')]Alle verlinkten (unverschlüsselten) E-Mail-Adressen
//iframe/@srcAlle iFrames URLs
//div[@class="main-section"]//aAlle Linktexte (Extract Inner HTML) der Links im div-Container mit der Klasse „main-section“
//div[@class="main-section"]//a/@hrefAlle URLs (Extract Inner HTML) der Links im div-Container mit der Klasse „main-section“
//div[@class="main-section"]//aHTML Quellode der Links (Extract HTML Element) im div-Container mit der Klasse „main-section“
//html/@langAttribute der Seitensprache ausgeben, zum Beispiel von: <html lang=“de-DE“>
["'](UA-.*?)["']Google Analytics ID
["'](GTM-.*?)["']Google Tag Manager ID

XPath-Beispiele für SEO-Filter

XPath Custom ExtractionBeschreibung
//div[contains(@class,'main-content')]//a[.='click here']Alle Linkelemente mit dem Linktext „click here“ die sich in einem div-Container mit der Klasse „main-content“ befinden
//div[contains(@class,'main-content')]//a[@href='url']Alle Linkelemente mit einer exakten Ziel-URL die sich in einem div-Container mit der Klasse „main-content“ befinden
(//*[@hreflang])Alle hreflang-Anmerkungen
(//*[@hreflang])[1]
(//*[@hreflang])[2]
(//*[@hreflang])[3]
Die erste hreflang-Anmerkung im HTML Quellcode (Werden mehrere hreflang-Anmerkungen auf einer Seite verwendet, müssen weitere Filter gesetzt werden: …[2]; …[3], usw.)
//*[@hreflang]/@hreflangAlle hreflang-Werte (Sprache-Region)
//head/link[@rel='amphtml']/@hrefAlle AMP-URLs

XPath-Beispiele für Strukturdaten-Filter

XPath Custom ExtractionBeschreibung
//meta[starts-with(@property, 'og:title')]/@contentOpen Graph Title (Facebook)
//meta[starts-with(@property, 'og:description')]/@contentOpen Graph Description (Facebook)
//meta[starts-with(@property, 'og:image')]/@contentURL des Open Graph Image (Facebook)
//meta[@name='twitter:title']/@contentTwittercard Title
//meta[@name='twitter:description']/@contentTwittercard Description
//meta[@name='twitter:image']/@contentTwittercard Image
//*[@itemprop='streetAddress']schema.org Strukturdaten für „streetAdress“
//*[@itemprop='addressLocality']schema.org Strukturdaten für „addressLocality“
//*[@itemprop='addressRegion']schema.org Strukturdaten für „addressRegion“
//*[@itemtype]/@itemtypeStrukturdaten-Arten einer Seite („Webpage“, „Product“, „Offer“, „ImageObject“, usw.)

XPather Browser-Extension

Chrome-Nutzer können die Erweiterung XPather installieren und XPath-Filter erzeugen, ohne die Syntax selbst formulieren zu müssen. Ich stelle das mit der Chrome-Extension vor: Nach der Installation öffnest Du eine HTML Seite deiner Wahl und markierst Inhalt der Dich interessiert, zum Beispiel die H1 Headline. Nun Rechtsklick und Auswahl vom „Untersuchen“. In der blau markierten Zeile vom HTML Quellcode machst Du einen Rechtsklick > Copy > Copy XPath.

XPather Chrome Extension
XPather Chrome Extension
  25. Juni 2019   Jens Fröhlich   Gepostet in: Technisches SEO, Tools   Schlagwörter: , , ,  

Kommentare(0)

    Komentar verfassen