TF-IDF Termgewichtung

 > SEO Blog > TF-IDF Termgewichtung
Interesse?
Rufen Sie an
0351 31446588

oder schreiben Sie
  12. April 2022

Wenn Du erfahren möchtest, wie Du überzeugende Webseiten-Texte schreibst, die bessere Suchmaschinen-Rankings erzielen, dann bist du hier richtig. Dieser Beitrag beschreibt, was Du bei der Textoptimierung beachten solltest. Du lernst die TF-IDF Termgewichtung kennen – eine Methode, die viele erfahrene SEO’s und Redakteure anwenden.

TF-IDF Termgewichtung - Titelbild

Einführung in die TF-IDF

Digitale Inhalte dienen der Beschreibung und Information. Sie sollen für menschliche Besucher erstellt werden und Mehrwerte bieten. Hilfreichen Inhalt honoriert der Besucher: Er verweilt länger auf der Seite, klickt auf interne Links und besucht weitere Seiten, stellt eine Anfrage, kauft ein Produkt, abonniert den Newsletter, teilt die Seite in sozialen Medien, etc. Moderne Suchmaschinen versuchen menschliches Verhalten zu simulieren, um die Seite granularer bewerten zu können und um bessere Suchergebnisse zu liefern.

Nur die besten Seiten generieren Top-Rankings in den SERPs. Dabei ist nicht zwingend der Umfang des digitalen Inhalts relevant, sondern die thematische Relevanz einer Seite zur Suchanfrage, der Informationsgehalt und Mehrwert für den Besucher, die Autorität von Website und Autor, usw. (siehe: Google Quality Rater Guidelines) Beispielsweise erwartet ein Google-Nutzer bei der Suche nach einem lokalen Fotografen andere Inhalte, als bei der Recherche nach erwiesenen, wahrheitsgemäßen Fakten zu einem medizinischen Thema, etwa zum Covid-19-Virus.

Damit Suchmaschinen eine Seite in den Suchindex aufnehmen können, muss sie crawlbar (robots.txt) und indexierbar (kanonisch) sein – und der Suchcrawler muss die Seite durch interne Links finden können.

Google interessiert auf einer Seite vor allem der Main-Content, also der individuelle Kerninhalt. Hauptnavigation, Footer, Widgets und weitere Inhaltselemente der Seite spielen für die Content-Bewertung eine untergeordnete Rolle. Moderne Suchmaschinen versuchen den thematischen Inhalt der Seite also isoliert zu betrachten. Ein sauberer HTML-Code und die richtige Verwendung von JavaScript helfen der Suchmaschine dabei, den Main-Content einer Seite richtig extrahieren zu können.

Durch Verarbeitung und Bewertung vom Main-Content erfährt Google das Thema einer Seite und bestimmt, ob und wie gut die Seite zu einer Suchanfrage passt.

Was musst Du beim Texten für Webseiten beachten?

Der Main-Content (Kerninhalt) der Seite muss ein unmissverständliches Signal besitzen: Was ist der thematische Fokus der Seite?

Der Besucher muss das Thema der Seite bereits beim Überfliegen (Scannen) erfassen können.

Steht der thematische Fokus fest, empfehle ich zu ermitteln, wie der Main-Content aufgebaut sein sollte: Kann der digitale Inhalt seinen thematischen Fokus beweisen? Dafür eignet sich eine populäre Methode der Suchmaschinenoptimierung: Die TF-IDF Termgewichtung.

Was bedeutet TF-IDF Termgewichtung?

Die TF-IDF Termgewichtung hat seinen Ursprung in der Informationsbeschaffung, um zu bewerten, wie wichtig ein Ausdruck für ein Dokument in einer Dokumentensammlung ist.

Es wird vermutet, dass Google selbst TF-IDF anwendet, um bessere Suchergebnisse zu liefern. Deshalb hat sich die TF-IDF in der Suchmaschinenoptimierung etabliert und die ursprüngliche Methode der Keyworddichte ersetzt.

Wie funktioniert TF-IDF?

Die Berechnung erfolgt in zwei Teilen: Bei der TF (Term Frequency/Termfrequenz) wird berechnet, welche Terme in einem Dokument am häufigsten vorkommen. Ergänzend dazu berechnet die IDF (Inverse Document Frequency/Inverse Dokumenthäufigkeit) die Besonderheit eines Terms für die Gesamtmenge der betrachteten Dokumente.

Berechnung der Termfrequenz

Erstmals erwähnte Donna Harman die Berechnung dieses Maßes im Jahre 1992 in ihrem Beitrag „Ranking Algorithms“. Er ist Teil des Sammelbandes „Information Retrieval: Data Structures & Algorithms“.

Ziel der Berechnung dieser Häufigkeit ist, einem Ausdruck (Term) innerhalb eines Dokuments eine Gewichtung zu geben. Ein frühes Praxis-Beispiel dafür sind Bibliotheken, deren große digitale Datenbestände so leichter und effizienter durchsucht werden konnten.

Formel zur Berechnung der Termfrequenz (TF)
Formel zur Berechnung der Termfrequenz (TF)


i = Term
j = Dokument
L = Gesamtzahl aller Terme im Dokument j
Freq(i,j) = Häufigkeit des Terms i im Dokument j

Berechnung der Inversen Dokumenthäufigkeit (IDF)

Mathematisch betrachtet wird für einen Term (IDFt) die Anzahl der Dokumente der Dokumentensammlung (ND) durch die Anzahl der Dokumente derselben Sammlung geteilt, die diesen Term enthalten (ft):

Inverse Dokumenthäufigkeit (IDF)
Inverse Dokumenthäufigkeit (IDF)


ND = Anzahl aller Dokumente
ft = Anzahl aller Dokumente in denen der Term "t" vorkommt

Welchen Nutzen hat TF-IDF in der SEO?

Adaptieren wir die Erkenntnisse in die SEO: Durch eine TF-IDF Termgewichtung erfährst Du, welche Terme in Deinem Dokument die größte Bedeutung besitzen. Wenn Du zum Beispiel die Top-10 Suchergebnisse für das Hauptkeyword als Dokumentensammlung definierst, dann erfährst Du, welche Terme bei den Konkurrenzseiten bedeutend sind. Diese Daten miteinander verglichen, zeigen Dir, welche Terme in Deinem Dokument fehlen, bzw. zu häufig/zu selten vorkommen. So kannst Du Dein Dokument zielführend optimieren und die Mehrwerte für Deine Besucher steigern.

Beispiel: Reise nach Paris

Stell Dir vor: Du planst mit Deiner Familie eine Reise nach Paris. Du möchtest Dich vorab über den Eiffelturm informieren. Was bietet sich besser an, als Google zu befragen? Du suchst nach: Eiffelturm Paris. Auf der ersten Suchergebnisseite klickst Du spontan auf einen Treffer. Du landest auf einer sehr einfach gestalteten Seite mit wenig Text:

Der Eiffelturm ist das höchste Bauwerk in Paris. Er besteht aus Eisen und zählt jährlich viele Millionen Besucher aus aller Welt.

Diese Informationen sind nicht hilfreich. Der Informationsgehalt ist viel zu gering. Du erfährst nichts Neues.

Also kehrst Du zu den Suchergebnissen zurück und klickst auf einen anderen Treffer. Die Zielseite besitzt ein ansprechendes, modernes Design und der Main-Content wirkt auf den ersten Blick gut strukturiert. Im Seiteninhalt erfährst Du beispielsweise:

Der Eiffelturm ist mit einer Höhe von 324 Metern das größte Bauwerk von Paris. Er befindet sich im 7. Arrondissement am Ufer der Seine. Seine Bauzeit dauerte etwas über zwei Jahre an – von 1887 bis 1889. Er wurde ursprünglich als Aussichtsturm für die Weltausstellung zur Erinnerung an den 100. Jahrestag der Französischen Revolution errichtet.

Wer das erste Stockwerk des 10.100 Tonnen schweren Wahrzeichens erklimmen möchte, muss genau 364 Stufen überwinden. Weitere 381 Stufen und man erreicht das zweite Stockwerk. Agile Besucher müssen also insgesamt 745 Stufen bis zur zweiten Aussichtsplattform steigen. Die Aufzüge halten übrigens nicht im ersten Stockwerk, sondern fahren vom Boden direkt in das 2. Stockwerk …

Diese und viele weitere Informationen auf der Seite beweisen nicht nur, dass der Kerninhalt thematisch für den Eiffelturm optimiert ist. Du als Besucher der Seite bestätigst unbewusst auch Dir bereits bekannte Informationen (Eiffelturm = Paris) und schenkst automatisch neuen Informationen auf dieser Seite Vertrauen. Dadurch erhöht sich Deine Besuchsdauer und Du schaust Dir vielleicht weitere Seiten der Website an.

Google möchte hilfreiche Seiten mit Mehrwert in den Top-Suchergebnissen platzieren. Dein digitaler Inhalt sollte also ein unmissverständliches Signal (Eiffelturm Paris) besitzen und den thematischen Fokus beweisen (Paris, Wahrzeichen, Weltausstellung, usw.) können. Durch eine TF-IDF Termgewichtung erfährst Du, wie Du den digitalen Inhalt optimieren solltest.

TF-IDF Termgewichtung: Eiffelturm Paris (Termlabs.io)
TF-IDF Termgewichtung: Eiffelturm Paris (Termlabs.io)

Wie wird eine TF-IDF Termgewichtung durchgeführt?

Im Internet gibt es eine Vielzahl kostenfreier und kostenpflichtiger TF-IDF-Tools. Viele habe ich getestet. Das Problem: Statt den Main-Content einer Seite zu extrahieren und nur diesen digitalen Inhalt für die TF-IDF Termgewichtung zu nutzen, fliest häufig der komplette HTML-Code der Seite bei der Berechnung ein. So werden Wörter aus der Hauptnavigation, dem Footer, aus Widgets, usw. mit gewertet und die Berechnung enorm verzerrt.

Um eine professionelle TF-IDF Termgewichtung durchzuführen, sollte die Software für die Berechnung der Term Frequency (TF) ausschließlich den Main-Content bewerten. Ich empfehle Termlabs.io, auch wenn die Software hin und wieder Probleme damit hat, den Main-Content einer Seite korrekt auszulesen. Oft liegt das an einem verschachtelten, komplizierten HTML-Code der Seite.

Wie funktioniert eine Termgewichtung mit Termlabs.io?

Termlabs.io bietet eine Vielzahl von Tools zur Content-Optimierung, unter anderem eine klassische TF-IDF Termgewichtung.

Termlabs.io Logo

Zunächst bestimmst Du die Anforderungen Deiner TF-IDF-Analyse: Du gibst also das Hauptkeyword der Seite an (thematischer Fokus) und optional als Referenz die URL Deiner Seite oder den HTML-Code oder den digitalen Inhalt, falls Du die Seite noch nicht erstellt hast.

Die Ergebnisse der TF-IDF Termgewichtung sind bei Termlabs.io komplex. Bei Bedarf erhältst Du vom Support eine umfangreiche Einführung über die Tools und deren Verwendung.

Der Screenshot (s. u.) zeigt ein Beispiel einer TF-IDF Termgewichtung für die Suchanfrage bilder seo. Die Terme sind auf Basis einer durchschnittlichen Gewichtung (Avg) absteigend sortiert. Das heißt, je weiter oben ein Term in der Tabelle notiert ist, desto wichtiger scheint er zu sein (Relevanz). Ich empfehle als „Score Term Count“ den Wert „Termgewichtung“ zu wählen und die Top-50 Zeilen darzustellen. Für jeden Term kannst Du nun ermitteln, ob er in Deinem digitalen Inhalt seltener bzw. häufiger vorkommen sollte. Ist ein Term nicht relevant für Dich, dann ignoriere ihn einfach. Besitzt ein Term den Score „good“ oder „perfect“, kannst Du von einer Optimierung absehen.

TF-IDF Termgewichtung: Bilder SEO (Termlabs.io)
TF-IDF Termgewichtung: Bilder SEO (Termlabs.io)

Abschlussbemerkungen

Digitale Inhalte ins Blaue zu schreiben und zu hoffen, dass sie bei Google Top-Rankings erzielen, ist illusorisch. Ein TF-IDF optimierter Text besitzt ebenfalls keine Garantie, in der Google-Suche beste Platzierungen zu generieren. Denn neben der Content-Qualität sind viele weitere Qualitätsfaktoren wichtig. Trotzdem empfehle ich Dir für wichtige Seiten eine TF-IDF Termgewichtung durchzuführen. Ich wünsche Dir dabei maximale Erfolge.

  12. April 2022   Jens Fröhlich   Gepostet in: OnPage SEO, Tools   Schlagwörter: , , , ,  

Kommentare(0)

Kommentar verfassen

Google Bewertung
5.0
Basierend auf 15 Rezensionen
js_loader