Einsichten in den Google Ranking-Algorithmus 10


Anand Rajaraman hat ein Interview mit Googles Forschungsleiter Peter Norvig geführt, und dabei interessante Einblicke in Googles Bewertungsalgorithmus bekommen. Das Ranking bei einer Google Suche besteht aus zwei Phasen:

Während einer Offline Phase werden die vom Googlebot indizierten Webseiten analysiert, und daraus 200 sogenannte Signale extrahiert. Solche Signale sind etwa der Pagerank oder die Backlinkstruktur eines Dokumentes. Hierzu werden riesige Datenmengen analysiert, was sehr zeit- und rechenaufwändig ist.

Die Online Phase des Ranking-Algorithmus findet erst statt, wenn ein Google Nutzer eine Suche ausführt. Hier wird zunächst anhand der Suchbegriffe eine Menge an Dokumenten erstellt, in denen die gewünschten Schlüsselworte vorkommen. Diese werden dann mittels eines sehr schnellen Algorithmus anhand der in der Offline Phase extrahierten Signale geranked.

Interessant dabei ist, dass das regelmässig erforderliche Finetuning der Online Phase noch immer durch menschliche Mitarbeiter erfolgt, obwohl es sich quasi Aufdrängt, hier Algorithmen für maschinelles Lernen einzusetzen. Laut Norvig verfüge man zwar über maschinelle Lernalgorithmen, die ebenso gute, teilweise sogar bessere Resultate als von Menschen optimierte Algorithmen liefern. Es wird jedoch befürchtet, dass diese maschinengenerierten Algorithmen für bestimmte Suchen, die in den Trainingsdaten für den Algorithmus nicht vorkamen, katastrophale Fehlresultate liefern könnten.

In einem Folgeposting erfahren wir auch, dass Google riesige Mengen an Daten darüber speichert, wie Benutzer mit den Suchergebnissen umgehen, so zum Beispiel auf welche Ergebnisse tatsächlich geklickt wird. Das ist prinzipiell nichts neues. Erstaunlich ist aber, dass diese Daten laut Norvig noch nicht ins Ranking einfliessen! Anstatt die Daten realer User zum Tuning des Rankings zu verwenden, verlässt man sich hier immer noch auf die Bewertungen sogenannter Rater.

Bei Versuchen, die Userdaten in die Algorithmen einfliessen zu lassen, kam es offenbar nur zu sehr geringfügigen Änderungen der Ergebnisse. Ein Grund scheint zu sein, dass die meisten Nutzer ohnehin auf das erste Ergebnis klicken, so dass gut gerankte Ergebnisse auch unter Berücksichtigung des Nutzerverhaltens ihre starke Position behaupten können, unabhängig von deren tatsächlichen Qualität. Auch haben Seiten, die auf den Folgeseiten der Suchergebnisse stehen, nur geringe Chancen, von realen Nutzern entdeckt zu werden. Googles Ranker dagegen sind angehalten, Suchergebnisse jenseits der ersten zehn Treffer zu betrachten, so dass auch deren Charakteristika in verbesserte Rankingalgorithmen einfliessen können.

[via SEO Book.com]


Hinterlasse einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

10 Gedanken zu “Einsichten in den Google Ranking-Algorithmus

  • SEOnaut

    Danke Dir. Eine wirklich gute Zusammenfassung. Bestätigt mich zu mindest in meinen aktuellen Ansichten, dass personal search reel zur Zeit kein wirkliches Thema ist.

  • Juicy

    Ich hab gedacht, dass eventuell Daten aus Google Analytics mit in die Rankings einfließen (wer bleibt wie lange auf einer Seite), aber selbst da ist es wohl schlecht zu trennen, ob der User nicht weiterklickt, weil er seine Infos gefunden hat oder weil die Seite einfach Schrott ist..

  • mtbeat

    So viel Daten sammeln und dann nicht nutzen? Oder hat man Angst vor manipulationen? Ich kann kuam glauben, dass das Surfverhalten kein einfluß haben soll, besser als der Suchende kann doch keiner entscheiden ob ein Ergebnis zutreffend ist oder nicht. Ist bestimmt wie mit allem im Netz, glaube was du willst.

  • Olaf

    @mtbeat: Die vielen Daten werden mit Sicherheit genutzt. Sie dürften sich in den mehr als 200 Parametern wiederfinden, die für jeden Eintrag errechnet werden. Da wird auch sicher die Verweildauer usw. mit eine Rolle spielen. Dass natürlich die Leute zu 90+% auf das erste Ergebnis klicken ist logisch und wäre, wenn man das als „Beweis“ für Relevanz nehmen würde, ein sich selbst erhaltendes System und würde für jede Seite gelten, die auf dem ersten Platz gelistet werden würde.

  • Chio

    Alle Algorithmen, die mit Text/Sprache/Inhalt (und darum geht es ja hier) zu tun haben, sind _sehr_ anfällig für spontane Blödheiten. Selbst wenn die Trefferquote 99.9999% ist: Irgendjemand bekommt eine Entgleisung zu Gesicht und postet sie in den Foren. Schlimmer noch: Jemand kommt drauf, wie man Fehler gezielt provozieren kann und das „Best of Lustig“ wird dann in den Medien breitgetreten.
    Sowas kann sich Google nicht leisten, schließlich ist das Eis _sehr_ dünn.