Link Spam erkennen
Spätestens seit der Erfindung des PageRank sind Suchmaschinen bemüht, die Qualität einer Website, beziehungsweise deren Inhalte, algorithmisch auszuwerten. Bisher bekannte Algorithmen wie PageRank, Hilltop, Hits oder TrustRank versuchen hochwertige Sites anhand deren Verlinkung zu erkennen. Da jedoch eine bei Suchmaschinen gut platzierte Website viel Geld wert ist, wird gerne versucht, diese Algorithmen mit Hilfe selbst geschaffener Links zu manipulieren. Kommentar- und Trackbackspam sind unangenehme Auswüchse solcher Bemühungen.
In dem Paper Link Spam Detection Based on Mass Estimation wird nun eine Methode beschrieben, solche Manipulationen zu erkennen und die durch Spamlinks gepushten Sites entsprechend abzuwerten. Die grundlegende Vorgehensweise ist dabei, den PageRank einer Site zweimal zu berechnen: Einmal ganz normal, und einmal mit stärkerer Berücksichtigung von Links, die aus als »vertrauenswürdig« kategorisierten Quellen stammen. Überschreiten die Differenzen der beiden Berechnungen einen bestimmten Schwellenwert, so geht der Algorithmus davon aus, dass die Site durch Linkspam gepusht wird und wertet sie entsprechend ab.
Ob und wie weit diese Methode bereits bei den Suchmaschinen verwendet wird ist natürlich nicht bekannt. Langfristig könnten derartige Algorithmen aber dazu führen, dass tatsächlich nur Websites mit authentischen, guten Inhalten bei Suchmaschinen gut abschneiden, oder dass sich zumindest der Aufwand für Linkspam nicht mehr lohnt. Eine detailliertere Analyse des Algorithmus (auf englisch) gibt es bei Aaron Wall.






November 15th, 2005 at 12:22
Linkspam beginnt nicht beim User, der will nur nicht dumm dastehen, während zig Big-Websites wie z.B. craiglist etc. sich überall durch Freunde aus Ministerien, Universitäten etc. mit hohem PR verlinken lassen. Genauere Backlink-Prüfungen zeigen da recht fragwürdige Verknüpfungen.