Wie kommt der IA Archiver an seine URLs?
Woher bezieht eigentlich der Spider des Internet Archive die URLs, die er spidert? Ich frage mich das deshalb, weil dieser laut meinen Logfiles gestern und heute Nacht bei mir einige Seiten abgegrast hat, die nirgendwo auf der Welt bekannt, geschweige denn verlinkt sein dürften. Klar, ich kann ihn und andere unerwünschte Gäste per .htaccess aussperren, aber ich wüsste mal gerne, wie der da dran gekommen ist.






März 17th, 2006 at 8:30
das interessiert mich auch
März 17th, 2006 at 9:04
Er erhält die URLs über die Alexa Toolbar für den IE (ob auch die Firefox Erweiterung Search Status die URLs, die angesurft werden, übermittelt, weiß ich allerdings nicht)
März 17th, 2006 at 9:44
Sieht fast so aus, die betroffenen Seiten habe ich nur mit dem Firefox besucht.
März 17th, 2006 at 14:55
Das ist nicht das einzige, was mich bei Google verwirrt. Ich habe mich bei Google Sitemaps angemeldet
und für meine Website meckert er bei HTTP-Fehlern rum, dass
http://www.sk-downloading.d…
nicht zu finden ist (404). Diesen Link hat es aber noch nie gegeben und er steht erst recht nicht in der Sitemap.
Den kann höchstens jemand von Hand eingegeben haben – sieht aus wie eine Mischung aus verschiedenen Links,
die tatsächlich auf meiner Seite existieren. Aber auf jeden Fall steht er nicht in meiner Sitemap.
Ähnlich ist das mit dem Google PageRank.
Während http://www.sk-downloading.de einen Rank von 5 hat, hat
http://www.sk-downloading.d… einen Rank von 0.
Da ich meine Seiten dynamisch erzeuge und stets nur index.php mit
anderen Parametern aufgerufen wird, haben alle Seiten somit den PageRank 0.
Steht vielleicht irgendwo mehr zu solche n Phänomenen?