Googlebot lernt Ajax 18


Vor einiger Zeit wunderte ich mich, als der Googlebot auf einer meiner Sites Javascript Dateien anforderte:

crawl-66-249-65-101.googlebot.com – – [15/May/2006:14:37:38 +0200] „GET /scripts/lib/prototype.js HTTP/1.1“ 200 55149 „-“ „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“
crawl-66-249-65-101.googlebot.com – – [15/May/2006:14:37:38 +0200] „GET /scripts/stadtplan.js HTTP/1.1“ 200 630 „-“ „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“
crawl-66-249-65-101.googlebot.com – – [15/May/2006:14:37:38 +0200] „GET /scripts/src/scriptaculous.js HTTP/1.1“ 200 2247 „-“ „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

Vereinzelt hatte ich schon von solchen Fällen gehört, aber dies war das erste mal, dass ich selbst dieses Phänomen registrieren konnte. Gestern sah ich dann mal wieder in die Logs und wurde vollends verblüfft:

crawl-66-249-65-101.googlebot.com – – [22/May/2006:09:07:45 +0200] „GET /ajax/suggest.php HTTP/1.1“ 200 5 „-“ „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“
crawl-66-249-66-142.googlebot.com – – [29/May/2006:00:17:29 +0200] „GET /ajax/suggest.php HTTP/1.1“ 200 5 „-“ „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

Das Faszinierende: Die suggest.php ist nirgendwo normal verlinkt, sondern wird nur über eine die Ajax.Autocompleter Methode von Scriptaculous aufgerufen. So langsam beginnt dieser Bot sich wie ein menschlicher Benutzer zu verhalten.


Hinterlasse einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

18 Gedanken zu “Googlebot lernt Ajax

  • Benni

    erschreckend oder?
    Wo führt das ganze hin, ich wills mir (noch) nicht ausmalen.

  • seekXL

    Wart ab, das ist erst der Anfang. Aber schön zu sehen, das endlich der javaSpam damit bekämpft werden kann.

  • Chris Heilmann

    Google indiziert schon seit laengerem JavaScript links und analysiert JavaScripts auf links.

    Das Problem dabei ist das man normalerweise eben in JS dann auch noch parameter hinzufuegt die eben nicht mitgeschickt werden, daher indiziert Google die falschen Seiten und stellt die richtigen in den hintergrund – das gleiche Problem das mehrere URLs haben (mit und ohne www.).

    Daher ist es sinnig die Seiten die das Ajax Skript ohne Parameter erhaelt auf eine statische Seite umzuleiten.

  • christian

    hat jemand schon mal die ip des bots überprüft, hab mal gehört das manche spam bots sich als google bot ausgeben…naja kann mich auch irren :)

  • Marc

    Ich hatte den crawl-66-249-65-139.googlebot.com eben auch auch auf einer neuen Seite, bei pphlogger wird ja auch alles mit javascript gemacht, da hba ich mich auch ziemlich gewundert…

  • Marco

    Hab den Javascript Crawler auch bemerkt, ist aber auch langsam Zeit, daß die ganzen Seiten die ausgelagertes JS benutzen um auf die Hauptseite weiterzuleiten rausfliegen…

  • Volker

    Mal weiter gedacht: Wäre es nicht besser, ganz altmodische statische html-Seiten mit einfachen internen Textlinks ins Netz zu stellen.

    Man behält so die Kontrolle – mehr oder weniger.

  • Dean

    Vereinzelt hatte ich schon von solchen Fällen gehört, aber dies war das erste mal, dass ich selbst dieses Phänomen registrieren konnte.“ Ist mir auch schon aufgefallen, dass er Javascript-Dateien ausliest. Ist doch nicht verwunderlich, zum einen um Java-Spam zu bekämpfen, zum anderen ist das einfach zu gängig, um es zu ignorieren.
    „Das Problem dabei ist das man normalerweise eben in JS dann auch noch parameter hinzufuegt die eben nicht mitgeschickt werden, daher indiziert Google die falschen Seiten und stellt die richtigen in den Hintergrund.“ Das wird sich auch noch geben.
    Viele Grüße!

  • Mirko

    Wie unheimlich! Aber eigentlich ist das okay, je “menschlicher“ der sich verhält, desto besser werden die Suchergebnisse. Eines Tages wird er den Inhalt komplett verstehen, aber viel nützen wird’s ja doch nicht, denn immer noch sind es die User, die die Relevanz der Inhalte wirklich bewerten. Aber wenn er jetzt schon Javascript kann, wird das sicher ein Forschritt in Bezug auf Webdesign geben!

  • Simone

    Ja, der kleine Kerl lernt dazu und ist nicht mehr so leicht auszutricksen. Unheimlich finde ich es nicht, man kann seine Seite ja von der Indexierung ausschließen.;-)

  • Torben

    „…man kann seine Seite ja von der Indexierung ausschließen.“

    Hatte ich früher auch gedacht, bis Google mich eines Besseren belehrt hat. In der robots.txt die Seite auf „Disallow“ gesetzt und die Seite selber auf „noindex“ – Ergebniss: Die Seite wir zumindest unter „zusätzliche Ergebnisse“ gelistet. Ich traue dem Spider alles zu. In der CSS Spam Techniken anzuwenden kann man vergessen. Google macht alles um alles zu kontrollieren.

  • Chris

    Ich find das wird auch langsam mal zeit das der Bot JS bzw. Ajax kapiert und interpretiert. Fast jede Web 2.0 Seite baut auf Ajax auf. Wenn man sich an die Crawling Methode von Google hält kann man immer weiter HTML Seite machen :) Google sollte auch mal was tun anstatt nur die Filterungsmethode im Ranking auf Oldschool anzupassen.

    Gruß Chris