Was WDF*IDF bedeutet, wie man damit umgeht und welche Tools verwendbar sind

Die vermeintliche Zauberformel „WDF*IDF“ ist viel mehr als eine Spinnerei von SEO-Textern. Dahinter steht ein vernünftiges Prinzip und nicht nur Suchmaschinenoptimierer sollten sich damit auseinander setzen. Ich stelle in vielen Texter-Seminaren fest, wie scharf die Teilnehmer auf diese Analyse sind – auch, wenn sie mit SEO nichts am Hut haben. Doch Vorsicht! Man sollte wissen, was dahinter steckt…

within document frequeny - inverse dockument frequency

Eines vorab: Nein, auch WDF*IDF ist NICHT der eine Stein der Weisen, der alles gut macht. Und es ist auch keine Formel, die einfach angewendet aber ganz schnell unfassbare Erfolge verspricht. Es ist einfach eine Formel, die – richtig angewendet – Texte „googelkonformer“ und auch für den User umfassender macht. Hier eine Übersicht.

Was sind denn nun WDFs und IDFs?

Gehen wir das langsam an. Zunächt einmal, zur Erklärung ein paar andere Begriffe:

  • Termfrequenz: Das ist die Häufigkeit, mit der ein Term (vulgo „Wort“) in einem Dokument (vulgo „Webseite“) erscheint. Dieser Wert ist einfach messbar – aber sagt wenig über das Dokument aus. Denn wenn ich 2000 Wörter über „Kitesurfen“ geschrieben habe, könnte der Begriff „Welle“ zufällig drei mal darin auftauchen. Deshalb ist dieses Dokument trotzdem nicht so relevant für den Begriff „Welle“ wie eine Webseite mit 20 Wörtern, in denen der Begriff nur zwei mal steht.
  • Keyword-Density: Die Keyworddichte ist da ein wenig besser. Sie beschreibt die Häufigkeit des Wortes in Bezug auf die Gesamtzahl aller Begriffe: Keyword-Density=Häufigkeit*100/alle Wörter des Dokuments. Die Keyword-Dichte im ersten Fall läge also bei 0,15 % und im zweiten Fall bei 20 %. Das macht soweit schon einmal mehr Sinn. ABER: Die Keyword-Density ist sehr leicht manipulierbar. UND: Wieso sollte es Sinn machen, die Keyword-Density für einen häufigen Begriff wie „Internet“ genauso zu berechnen, wie für einen sehr seltenen Begriff wie „htaccess“? „Deshalb sollte sie für Suchmaschinen kein Faktor sein, der den Index bewertet.

Nun zur WDF (Within Document Frequency)

  • Das ist auch (!) eine dokumentspezifische Gewichtung eines Wortes innerhalb eines Dokuments. Die Formel ist viel komplizierter – vor allem, weil darin gleich zwei mal ein Logarithmus auftaucht:

    Aber was steht da genau dahinter? Wenn man die mathematische Komplexität, die über die Lograithmen drin steckt, weg nimmt gilt: Die WDF ist nichts anderes als die Keyworddichte aber durch den Logarithmus „gestaucht“. Das ist notwendig, damit unterschiedlich lange Texte miteinander verglichen werden können, Extremwerte nicht so extrem ins Gewicht fallen und wir den Wert nachher mit der IDF multiplizieren können.

Interessant wird nun übrigens der Umgang mit der WDF: Diese wird nicht für das vermeintliche Keyword berechnet sondern für jedes sinntragende Wort (aka Keyword) im Text des Dokumentes. Dadurch bekommt eine schöne Ansicht, welcher Begriff denn das Dokument am stärksten beschreibt, welcher am am zweitstärksten ist u.s.w.. Wir ahnen es schon: DAS beschreibt die Webseite schon mal viel besser. Wir erhalten damit so etwas wie die DNA des Textes. Auch hier allerdings ein „ABER“: Häufige Wörter (wie z.B. „Stopwörter“ wie „der“, „und“ u.s.w. die keine sinntragende sondern eher eine grammatikalische oder syntaktische Funktion im Text haben) werden hier überwiegen. Stopwörter brauchen wir für die semantische Betrachtung von Texten überhaupt nicht und es ist schlicht ungerecht, dass in einem Text über die „htaccess“ dieser exotische Begriff genauso gewertet wird, wie das „Internet“. Oder?

Jetzt kommt die IDF (Inverse Document Frequency):

  • Das ist der zweite, viel größere Schritt, um das Dokument *wirklich* gut zu erklären. Die IDF beschreibt nämlich, wie viel es überhaupt „wert“ ist, dass ein Wort häufig im Text steht. Merke: Ein seltenes Wort beschreibt den Inhalt eines Textes viel besser, als ein häufiges Wort. Wenn ich in einem Text das Wort „Internet“ (häufig) schreibe, ist der Sinn des Textes nicht sonderlich gut beschrieben. Wenn aber das Wort „htaccess“ erscheint, bekommt der Inhalt eine technische Note. Es geht in der IDF also darum, wie häufig Wörter ÜBERHAUPT verwendet werden. Wir beenden also die Nabelschau unseres eigenen Dokuments und blicken in die große Welt. Die Formel dazu sieht so aus:
    IDF
    Lasst euch auch hier nicht von den mathematischen Feinheiten stören: Eigentlich geht es um den einfachen Bruch in dem die Zahl aller Dokumente, die überhaupt bekannt sind, durch die Zahl der Dokumente geteilt wird, die den Term, äh, das Wort, enthalten. Kennt die Suchmaschine eine Million Dokumente und findet in 100.000 davon den Begriff, wäre das Ergebnis des Bruchs also 10. Je weniger Dokumente es mit dem Wort gibt, umso höher wird also der Wert, die IDF wird größer und durch die Multiplikation mit der WDF (also der Häufigkeit des Wortes in DEINEM Text) wird dieser Begriff wichtiger.
    Noch einmal anders gesagt: Steht in deinem Text der sehr häufige Begriff „Internet“ trägt er weniger zur semantischen Identifizierung des Dokumentes bei wie der eher spezielle Begriff „htaccess“. Sind beide Wörter gleich häufig im Dokument (WDF), dann wird durch die hohe IDF von „htaccess“ dessen Wert viel höher sein, als der von „Internet“. Alles klar?

Nun könnte man einwenden, dass ja kein Mensch weiß, wie viele Text-Dokumente es auf dieser Welt gibt und man deshalb so was gar nicht ausrechnen kann. Das ist wahr. Man müsste genau wissen, wie viele Dokumente es zu jedem Term (also Keyword) im Index (also bei Google) gibt. Das könnte man mit der Angabe auf Google über den Suchergebnissen („Ungefähr 884.000 Ergebnisse“) noch halbwegs abschätzen. Aber wir brauchen auch die „Vereinigungsmenge“: Wie viele Dokumente sind insgesammt im „Korpus“ – also wie viele Dokumente gibt es überhaupt, in der mindestens EINER unserer Terme steht? Da ja auch mehr als ein Termin auf jedem Dokument stehen kann, müssten wir uns eigentlich alle anschauen und sie dann zählen. Nun, zum Glück gibt es dafür ja Tools 😉

Die Formel lautet also: WDF*IDF

Falls ich das noch nicht deutlich gemacht habe: Wir berechnen diesen WDF*IDF-Wert nicht für unser Keyword, sondern für jeden einzelenen Begriff in eurem Dokument. Dank der Zauberkräfte der Mathematik haben wir dann eine Liste von allen Wörtern mit Zahlen dran:

  1. Die Begriffe, die relativ häufig vorkommen und die grundsätzlich selten sind, haben den höchsten Wert.
  2. Die Begriffe, die relativ häufig vorkommen und die sehr häufig sind (z.B. „und“) haben einen extrem geringen Wert.
  3. Die Begriffe die relativ selten vorkommen und die grundsätzlich sehr selten sind, bekommen immer noch einen guten Mittelplatz.

Alles klar?

So sieht die WDF*IDF-Kurve des WDF-Beitrags der Wikipedia aus...

So sieht die WDF*IDF-Kurve des WDF-Beitrags der Wikipedia aus…

DAS ist die DNA eines Dokuments. Und wenn die Suchmaschine zusätzlich noch ein paar semantische Dinge weiß über die Suchanfrage (z.B. der User, der gerade nach „Internet“ sucht, hat schon einmal nach „htaccess“ gesucht) und über die anderen Dokumente (z.B. dass dort „Internet“ ziemlich häufig, aber „htaccess“ selten steht), tja dann ist schnell das inhaltlich beste Ergebnis gefunden.

Nun zu den Schwächen dieser Rechnerei

  • WDF*P*IDF macht vor allem in „großen“ Dokumenten Sinn – also auf Webseiten mit viel Text. Das heißt nicht (!) dass viel Text gut für SEO ist (es gibt Suchbegriffe, bei denen das eben nicht der Fall ist). Das heißt nur, dass die Suchmaschinen etwa bei Shop-Detailseiten ein wenig anders rechnen müssen…
  • Man muss die IDF kennen (also eine Schätzung über die Zahl aller Dokumente haben und derjenigen, die den Begriff enthalten). Ich würde sagen, dass viele Tools darunter leiden, dass sie nur ein paar Webseiten durchgezählt haben und deshalb den WDF*IDF-Wert nicht ordentlich auf die Ketten bekommen..
  • Die Metrik beschreibt einen ganzen Haufen anderer semantischer Faktoren rund ums Keyword nicht: Verteilung der Begriffe über das Dokument hinweg, Stemming, Synonyme u.s.w..
  • Ein Ergebnis ist in einer normalen redaktionellen Optimierung schwer operationalisierbar. Es ist zwar möglich, dem Texter die wichtigsten Begriffe aus der WDF*IDF-Analyse vorzulegen. Aber es ist nervenaufreibendes Wörter-Schach, wenn versucht wird, diese wirklich in einem Text abzubilden.
  • Neue Aspekte könnten dadurch vermieden werden: Das ist ein häufiges Argument in meinem Seminaren. Wenn wir auf diese Weise per WDF*IDF schreiben, wird es schwierig, neue Aspekte (und damit neue Aspekte) in den Inhalt aufzunehmen.


Der beste Umgang mit den WDF*IDF-Tools

Wir brauchen uns von der Formel nicht verrückt machen zu lassen: Es reicht, wenn wir uns bei der Optimierung damit beschäftigen, gute Texte schreiben und dabei die Themen/Begriffe mitverwenden, die auch in den anderen Seiten beschrieben wurden. Mehr können wir eh nicht leisten. Denn in einer Woche sind die SERPs eh schon wieder anders – wer würde dann schon wieder seinen Text anpassen? Ich empfehle den Einsatz der Tools auf diese Weise:

  1. Kläre dein Thema aka Keyword, für das dein Beitrag vermutlich ranken wird. Checke dies in einem WDF*IDF-Tool.
  2. Notiere dir die Begriffe der Analyse, die für dich Sinn machen. Zum Beispiel die Namen von Konkurrenten oder sinnlose Begriffe wie „Datenschutz“ (taucht immer wieder auf) ignorierst du einfach. Merke: Es geht darum, sich einer WDF*IDF-Kurve anzunähern – nicht, sie zu erreichen.
  3. Schreibe mit dieser Inspiration deinen Text und verwende die Wörter so, wie es sich im Text gut liest.
  4. Prüfe den Text danach im Tool, das können die meisten mittlerweile. Dann wirst du von machen Tools auf Begriffe hingewiesen, die etwas „spammig“ verwendet wurden. Diese kannst du reduzieren. Checke aber auch, ob die Begriffe, die dir wichtig waren, auch wirklich im Text stehen.
  5. Mache deine letzten Anpassungen im Text.

Bonus-Tipp: Sehr erfolgsversprechend ist, sich die WDF*IDF-Analyse eines Textes anzuschauen, der gerade bei Google in den Rankings verloren hat. Denn häufig ist das der Fall, weil sich neue, aktuelle Aspekte in diesem Thema ergeben haben. Diese kannst du dann in dem bestehenden Text ergänzen – und wirst sehen, dass schon allein dies dein Ranking wieder verbessert. Probiere es mal.

Die WDF*IDF-Tools

Es gibt, grob geschätzt, viele WDF*IDF-Tools für Texter auf dem Markt. Schon seit Monaten habe ich den Wunsch diese alle mal zu testen. Aber dazu kam es leider noch nicht. Deshalb ist das hier auch der Punkt, an dem ich alle erfahrenen WDF*IDF-Schreiber um ihren Input bitte.

Karls Core: Das vermutlich ausgereifteste Tool ist ein Teil von Karls Core. Hier gibt es aber nur begrenzten Zutritt. Frag Karl…

Onpage.org: Die Münchner haben ihr Tool unter der Schirmherrschaft von Karl Kratz gebaut. Es ist ein Teil ihrer Onpage-Analyse und ist gut verwendbar. Die Ergebnisse erscheinen mir sehr plausibel und die Anwendung ist – fast – intuitiv. Darin können auch Texte vor der Veröffentlichung geprüft werden. Wer allerdings nur ein WDF*IDF-Tool braucht, kauft bei Onpage.org eine ganze Menge anderer Technik mit.

Searchmetrics: Auch die Berliner Toolanbieter bieten mit ihrem Content Optimizer ein sehr umfangreiches Tool mit vielen sinnvollen Funktionen. Es werden noch weitere Werte des Textes geprüft und die Analysen werden auch für eine spätere Review gespeichert. Natürlich können Texte auch vor der Veröffentlichung geprüft werden. Allerdings gilt auch hier: Die WDF*IDF-Prüfung ist ein Teil einer ganzen Suite.

SEOlyze.com: Bei SEOlyse konzentriert man sich ganz auf die Text-Optimierung. Neben WDF*IDF-Analyse gibt es noch ein gutes W-Fragen-Tool. Außerdem noch einige Funktionen, die für das Teamwork an Texten recht gut geeignet sind. SEOlyse wird offenbar von vielen Textern eingesetzt, nach einer Anmeldung kann man es auch testen. Und der Preis ist natürlich deutlich geringer als bei den SEO-Suite.

Seobility: Das Monitoring-Tool hat seinen Kunden auch eine WDF-IDF-Analyse spendiert. Sieht gut aus – und es lassen sich auch einige kostenlose Abfragen machen.

Xovi: Auch hier gibt es im eher allgemeinen SEO-Tool ein WDF*IDF-Prüftool. Leider habe ich damit keine Erfahrung gesammelt.

OnpageDoc: Gehört in die OnpageDoc-Suite hinein, die 14 Tage kostenlos getestet werden kann. Fall jemand Erfahrung damit hat, freue ich mich über einen Kommentar.

wdfif-tool.com: Ein kostenloses Tool. Sehr einfach gebaut. Und, um ehrlich zu sein: Ich habe es einmal in einem Seminar eingesetzt und war über die Ergebnisse enttäuscht. Die Teilnehmer waren danach sehr, sehr verwirrt.

Meine Empfehlung: Wer „nur“ textet, wird mit SEOlyse sicherlich am besten bedient sein. Und wer noch viele andere SEO-Aufgaben zu lösen hat, der wird sich ohnehin Searchmetrics oder onpage.org anschauen. In beiden Fällen sind die Tools eine echte Bereicherung des Funktionsumfangs.

Und nun?

Ich denke nicht, dass WDF*IDF die Zauberformel für Texter ist. Aber sie ist eine gute Unterstützung und nach unserer Erfahrung, funktionieren entsprechend optimierte Texte in den Suchergebnissen im Durchschnitt besser als nicht optimierte Texte. Warum also nicht damit arbeiten?

Übrigens: Auf dem Contentman habe ich auch über WDF*IDF geschrieben.

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Durch die weitere Nutzung der Seite stimmst du der Verwendung von Cookies zu. Weitere Informationen

Die Cookie-Einstellungen auf dieser Website sind auf "Cookies zulassen" eingestellt, um das beste Surferlebnis zu ermöglichen. Wenn du diese Website ohne Änderung der Cookie-Einstellungen verwendest oder auf "Akzeptieren" klickst, erklärst du sich damit einverstanden.

Schließen