Fr 17 Okt 2008
Themenrelevanz – wo ist die Grenze?
Geschrieben von Zerstreuter unter Allgemein
Das Thema ‚themenrelevante Verlinkung’ wird in SEO-Kreisen zum Teil kontroverse diskutiert. Während die einen die feste Meinung vertreten, das thematisch passende Links von Google höher bewertet werden stempeln andere dies als absoluten Quatsch ab - Link ist Link. Eines der Argumente der Kontraseite ist meistens: Wo soll die Grenze sein? Wann gilt ein Link als thematisch passend und wann nicht?
Ich selbst verlinke i.d.R. nur themenrelevant. Ob Google dies in der Bewertung mit einfließen lässt oder nicht ist mir in diesem Zusammenhang relativ egal. Ich erstelle Seiten in erster Linie für menschliche Besucher. Dies gilt nicht nur für den Content, sondern auch für die dort verlinkten Seiten. Deshalb muss für mich ein Link von meiner Seite zu einer anderen für den Besucher auch irgendeinen Sinn ergeben. Nennt es von mir aus ‚Altersstarrsinn’. Aus diesem Grund möchte ich mir auch nicht anmaßen zu beurteilen, ob themenrelevante Links derzeit einen höheren Stellenwert genießen als thematisch unpassende. Dazu fehlt es an Erfahrungswerten und selbst wenn, wäre die Beurteilung höchstwahrscheinlich sehr subjektiv geprägt.
Wo die Grenze zwischen einem themenrelevanten Link und einem themenfremden Link ist, lässt sich hingegen relativ objektiv beantworten: Es gibt keine Grenze. Und warum dies so ist wird jedem klar werden, sobald man weis, wie ein Algorithmus zwei Seiten thematisch miteinander vergleichen kann.
Ein klein wenig Vorarbeit ist dazu allerdings nötig. Im ersten Schritt definiert man ein gutes Duzend Kategorien, in die man die Webseiten unterteilen kann, ähnlich wie bei einem Webkatalog. Danach sucht man möglichst viele Textdokumente, die man eindeutig einem der Kategorien zuordnet. Im letzten Schritt werden für jede Kategorie die Wortverteilungen ermittelt d.h. welche Worte kommen wie oft in den einzelnen Kategorien vor. Damit wären die Vorbereitungen abgeschlossen.
Um ein Dokument später mit einem anderen Dokument vergleichen zu können, wird auch hier wieder die Wortverteilung ermittelt und anschließend mit der Wortverteilung der einzelnen Kategorien verglichen. Das Ergebnis ist ein Wert zwischen 0% und 100% für jeden der vorhandenen Kategorien. Das Ganze nennt sich übrigens: Termvektor.
Mit einem Termvektor kann man für sich alleine relativ wenig anfangen, aber man kann hübsche Sachen mit Vektoren anstellen. Jeder Vektor hat eine Länge und eine Richtung und wenn zwei Dinge eine Richtung haben, dann kann man den Winkel dazwischen relativ einfach berechnen. Und genau dieser Winkel ist es, der die thematische Verwandtschaft zweier Dokumente angibt. Je größer der Winkel zwischen den Termvektoren umso weiter sind die Themen der beiden Dokumente voneinander entfernt.
Um die Themenrelevanz eines Links, d.h. die Themenverwandtschaft der verlinkten Webseiten zu bestimmen bedarf es ein bischen Wörter zählen, diese ins Verhältnis zu setzen und ein Blick in die Formelsammlung Gymnasium 12. Schuljahr.


17. Oktober 2008 um 16:08
Hallo,
mich würde mal Interessieren wie genau Du das gemacht hast. Kannst Du mir bitte ein Stück Code oder auch einen Formel zuschicken?
Vielen Dank
Gruß Matthias
17. Oktober 2008 um 17:03
@Matthias: Also nicht das hier ein falscher Eindruck entsteht. Das Ganze ist nicht auf meinem Mist gewachsen sondern die Grundidee stammt aus den 70er Jahren von einem gewissen Gerard Salton. Aufbauend davon gab es einige Veröffentlichungen von Krishna Bharat, Farzin Maghoul und Raymie Stata. Besonder der erste Name könnte eventuell dem ein oder anderen schonmal über den Weg gelaufen sein. Der derzeitige Arbeitgeber von Krishna Bharat ist Google höchstpersönlich. Krishna Bharat gilt als Vater der Google News.
Das Grundprinzip habe ich selbst bislang in einem Projekten nutzen können; allerdings aufgrund des Anwendungsfalles nur in vereinfachter Form. Dabei ging es, ähnlich wie bei Google News, um das Clustern von Nachrichtentexten. Da die Anwendung doch relativ spezifisch war bezweifel ich stark, das dir ein Code-Schnipsel daraus helfen würde.
31. Oktober 2008 um 09:42
Prima, sehr schön verständlich zusammengefasst. Die leidige Diskussion der Themenrelevanz gleitet ja ohnehin oft nur in rechthaberische Besserwisserei.
Ein für Menschen gemachter Link ist ohnehin - mit wenigen Ausnehmen - immer themenrelevant.
5. November 2008 um 03:03
Man muss sich bei Google nur mal die semantische Suche ansehen. Diese ist technisch bereits so ausgereift, dass das erkennen von themenrelevanten Links kein Problem wäre. Allerdings habe ich nicht das Gefühl, dass dies ein großer Faktor im Google Algorithmus ist.
Themenrelevanz spielt eher eine untergeordnete Rolle, obwohl es genau wie du es schreibst, technisch recht einfach zu realisieren ist.