TF-IDF Termgewichtung

 > SEO Blog > TF-IDF Termgewichtung
Interesse?
Rufen Sie an
0351 31446588

oder schreiben Sie
  6. November 2020

Wenn Du erfahren möchtest, wie Du überzeugende Webseiten-Texte schreibst, die bessere Suchmaschinen-Rankings erzielen, dann bist du hier richtig. Dieser Beitrag beschreibt, was Du bei der Textoptimierung beachten musst. Du lernst die TF-IDF Termgewichtung kennen – eine Methode, die viele erfahrene SEO’s und Redakteure anwenden.

TF-IDF Termgewichtung - Titelbild

Einführung in die TF-IDF

Webseiten-Texte dienen der Information. Sie sollen für echte Besucher geschrieben werden und Mehrwerte bieten. Hilfreiche Texte honoriert der Besucher, indem er länger auf der Seite verweilt, interne Links anklickt, eine Anfrage stellt, Produkte kauft, etc. Suchmaschinen versuchen menschliches Verhalten zu erfassen (User Experience)/zu simulieren, um bessere Suchergebnisse zu liefern.

Nur die besten Seiten generieren Top-Rankings in den SERPs. Das wird maßgeblich von der Suchintention des Besuchers bestimmt. Bei der Suche nach einem lokalen Fotografen, werden andere Inhalte erwartet, als wenn etwa wahre Fakten zu einem aktuellen Thema gesucht werden.

Damit eine Seite in der Google Suche auffindbar ist, muss sie crawlbar (kanonisch) und indexierbar sein. Das ist die technische Voraussetzung. (Mehr Informationen dazu in meinem Beitrag: robots.txt erstellen und optimieren.)

Google interessiert auf einer Webseite vor allem eines: der Main-Content. Er entspricht dem Kerninhalt einer Seite. Hauptnavigation, Footer und alle weiteren Inhaltselemente der Seite werden dabei „ausgeblendet“. Natürlich spielen die Website-Architektur, die interne Verlinkung, das gewählte Content-Modell und strukturelle/technische Sachverhalte für Google eine Rolle. Trotzdem besitzt der Main-Content eine starke Gewichtung, wenn Google die Seitenqualität bestimmen möchte.

Durch Verarbeitung und Bewertung des Main-Contents erfährt Google das Thema einer Seite und bestimmt, ob und wie gut die Seite zu einer Suchanfrage passt.

Was musst Du beim Texten für Webseiten beachten?

Dein Main-Content muss ein unmissverständliches Signal besitzen. Anders: „Um was geht es auf der Seite?“ Diese Information muss primär durch die Hauptüberschrift (h1) und durch Zwischenüberschriften (h2/h3/…) erfolgen.

Der Besucher muss das Thema der Seite bereits beim ersten Überfliegen (Scannen) des Main-Contents erfassen können.

Nun solltest Du den Main-Content genauer unter die Lupe nehmen. Die Frage lautet: „Kann der Text seinen thematischen Fokus beweisen?“ An dieser Stelle greifen viele SEO’s und Redakteure auf eine Methode zur Content-Optimierung zurück: TF-IDF. Sie ist das Hauptthema dieses Beitrags.

Was bedeutet TF-IDF Termgewichtung?

Die TF-IDF Termgewichtung hat seinen Ursprung in der Informationsbeschaffung, um zu bewerten, wie wichtig ein Ausdruck für ein Dokument in einer Dokumentensammlung ist.

Es wird vermutet, dass Google selbst TF-IDF anwendet, um bessere Suchergebnisse zu liefern. Deshalb hat sich die TF-IDF in der Suchmaschinenoptimierung etabliert und den ursprünglichen Optimierungsansatz der Keyworddichte ersetzt.

Wie funktioniert TF-IDF?

Die Berechnung erfolgt in zwei Teilen: Bei der „TF“ (Term Frequency/Termfrequenz) wird berechnet, welche Terme in einem Dokument am häufigsten vorkommen. Ergänzend dazu berechnet die „IDF“ (Inverse Document Frequency/Inverse Dokumenthäufigkeit) die Besonderheit eines Terms für die Gesamtmenge der betrachteten Dokumente.

Berechnung der Termfrequenz

Erstmals erwähnte Donna Harman die Berechnung dieses Maßes im Jahre 1992 in ihrem Beitrag „Ranking Algorithms“. Er ist Teil des Sammelbandes „Information Retrieval: Data Structures & Algorithms“.

Ziel der Berechnung dieser Häufigkeit ist, einem Ausdruck (Term) innerhalb eines Dokuments eine Gewichtung zu geben. Ein frühes Praxis-Beispiel dafür sind Bibliotheken, deren große digitale Datenbestände so leichter und effizienter durchsucht werden konnten.

Formel zur Berechnung der Termfrequenz (TF)
Formel zur Berechnung der Termfrequenz (TF)

Berechnung der Inversen Dokumenthäufigkeit (IDF)

Mathematisch betrachtet wird für einen Term (IDFt) die Anzahl der Dokumente der Dokumentensammlung (ND) durch die Anzahl der Dokumente derselben Sammlung geteilt, die diesen Term enthalten (ft):

Inversen Dokumenthäufigkeit (IDF)
Inversen Dokumenthäufigkeit (IDF)

Welchen Nutzen hat TF-IDF in der SEO?

Adaptieren wir die Erkenntnisse in die SEO: Durch eine TF-IDF Termgewichtung erfährst Du, welche Terme in Deinem Dokument die größte Bedeutung besitzen. Wenn Du zum Beispiel die Top-10 Suchergebnisse für das Hauptkeyword als Dokumentensammlung definierst, dann erfährst Du, welche Terme bei den Konkurrenzseiten bedeutend sind. Diese Daten miteinander verglichen, zeigen Dir, welche Terme in Deinem Dokument fehlen, bzw. zu häufig/zu selten vorkommen. So kannst Du Dein Dokument zielführend optimieren und die Mehrwerte für echte Besucher steigern.

Wie wird eine TF-IDF Termgewichtung durchgeführt?

Im Internet gibt es eine Vielzahl kostenfreier und -pflichtiger Tools. Sehr viele davon habe ich getestet. Das Problem: Statt nur den Main-Content der Seite zu berechnen, fliest der komplette HTML Quellcode bei der Berechnung ein. Somit werden Wörter aus der Hauptnavigation, dem Footer, usw. gezählt. Dadurch entstehen nutzlose Ergebnisse.

Um eine professionelle TF-IDF Termgewichtung durchzuführen, darf die Software zur Berechnung der Term Frequency (TF) ausschließlich den Main-Content bewerten. Dafür empfehle ich Termlabs.io, denn die Software erfüllt diese Anforderung.

Wie funktioniert eine Termgewichtung mit Termlabs.io?

Termlabs.io bietet eine Vielzahl von Tools zur Content-Optimierung, unter anderem die klassische TF-IDF Termgewichtung.

Termlabs.io Logo

Zunächst bestimmst Du die Anforderungen der Analyse, d. h. Du gibst das Hauptkeyword an, für das die Seite bei Google ranken soll. Als Referenz hinterlegst Du die URL der Seite oder Du kopierst den HTML Quellcode in das Textfeld oder aber du hinterlegst nur den Text, falls Du die Seite noch nicht erstellt hast. Nun kannst Du weitere Einstellungen vornehmen, wie den „Fetching Mode“ ändern und bestimmen, welche Suchergebnisse für die Berechnung der IDF relevant sind. Als Source empfehle ich immer „Main-Content (MC)“ zu wählen.

TF-IDF Termanalyse erstellen | Termlabs.io
TF-IDF Termanalyse erstellen | Termlabs.io

Die Ergebnisse der TF-IDF Termgewichtung sind bei Termlabs.io komplex. Der Support gibt eine sehr umfangreiche Einführung, wenn das gewünscht ist.

Der Screenshot zeigt eine Tabelle mit allen Ergebnissen, die gefiltert und sortiert werden können. Die Terme sind auf Basis einer durchschnittlichen Gewichtung absteigend sortiert. Das heißt, je weiter oben ein Term steht, desto wichtiger scheint er zu sein. Für jeden Term kannst Du ablesen, wie gut er optimiert ist und ob eine Feinjustierung erforderlich ist.

Beispiel einer TF-IDF Termgewichtung | Termlabs.io
Beispiel einer TF-IDF Termgewichtung | Termlabs.io

Abschlussbemerkungen

Webseiten-Texte ins Blaue zu schreiben und zu hoffen, dass sie bei Google Top-Rankings erzielen, ist illusorisch. Ein TF-IDF optimierter Text besitzt ebenfalls keine Garantie, in der Google-Suche beste Platzierungen zu generieren. Denn neben der Content-Qualität sind viele weitere Qualitätsfaktoren wichtig. Trotzdem empfehle ich Dir TF-IDF zu nutzen. Für alle Seiten Deiner Website, mit denen Du Top-Rankings aufbauen möchtest. Einfach weil Du bessere Texte schreibst. Ich wünsche Dir dabei maximale Erfolge.

  6. November 2020   Jens Fröhlich   Gepostet in: OnPage SEO, Tools   Schlagwörter: , , , ,  

Kommentare(0)

    Kommentar verfassen