Googlebot lernt Ajax
Vor einiger Zeit wunderte ich mich, als der Googlebot auf einer meiner Sites Javascript Dateien anforderte:
crawl-66-249-65-101.googlebot.com – - [15/May/2006:14:37:38 +0200] “GET /scripts/lib/prototype.js HTTP/1.1″ 200 55149 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
crawl-66-249-65-101.googlebot.com – - [15/May/2006:14:37:38 +0200] “GET /scripts/stadtplan.js HTTP/1.1″ 200 630 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
crawl-66-249-65-101.googlebot.com – - [15/May/2006:14:37:38 +0200] “GET /scripts/src/scriptaculous.js HTTP/1.1″ 200 2247 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
Vereinzelt hatte ich schon von solchen Fällen gehört, aber dies war das erste mal, dass ich selbst dieses Phänomen registrieren konnte. Gestern sah ich dann mal wieder in die Logs und wurde vollends verblüfft:
crawl-66-249-65-101.googlebot.com – - [22/May/2006:09:07:45 +0200] “GET /ajax/suggest.php HTTP/1.1″ 200 5 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
crawl-66-249-66-142.googlebot.com – - [29/May/2006:00:17:29 +0200] “GET /ajax/suggest.php HTTP/1.1″ 200 5 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
Das Faszinierende: Die suggest.php ist nirgendwo normal verlinkt, sondern wird nur über eine die Ajax.Autocompleter Methode von Scriptaculous aufgerufen. So langsam beginnt dieser Bot sich wie ein menschlicher Benutzer zu verhalten.






Mai 30th, 2006 at 10:48
erschreckend oder?
Wo führt das ganze hin, ich wills mir (noch) nicht ausmalen.
Mai 30th, 2006 at 19:15
Wieso erschreckend? Find ich gut. Vielleicht werden dann Javarcript-Links auch gewertet?
Mai 31st, 2006 at 11:07
Wart ab, das ist erst der Anfang. Aber schön zu sehen, das endlich der javaSpam damit bekämpft werden kann.
November 3rd, 2006 at 17:33
ja, das wäre einfach genial wenn der ganze spam schnell raus fliegen würde
Dezember 4th, 2006 at 12:10
Google indiziert schon seit laengerem JavaScript links und analysiert JavaScripts auf links.
Das Problem dabei ist das man normalerweise eben in JS dann auch noch parameter hinzufuegt die eben nicht mitgeschickt werden, daher indiziert Google die falschen Seiten und stellt die richtigen in den hintergrund – das gleiche Problem das mehrere URLs haben (mit und ohne www.).
Daher ist es sinnig die Seiten die das Ajax Skript ohne Parameter erhaelt auf eine statische Seite umzuleiten.
Juli 7th, 2007 at 23:43
hat jemand schon mal die ip des bots überprüft, hab mal gehört das manche spam bots sich als google bot ausgeben…naja kann mich auch irren
Oktober 26th, 2007 at 17:40
Ich hatte den crawl-66-249-65-139.googlebot.com eben auch auch auf einer neuen Seite, bei pphlogger wird ja auch alles mit javascript gemacht, da hba ich mich auch ziemlich gewundert…
November 28th, 2007 at 11:19
Jap, kann seekxl auch nur zustimmen. Das ist erst der Anfang, mittlerweile kann Google auch Flash auslesen. Nicht bei Seiten, aber bei vielen schon festgestellt.
Dezember 10th, 2007 at 9:59
Hab den Javascript Crawler auch bemerkt, ist aber auch langsam Zeit, daß die ganzen Seiten die ausgelagertes JS benutzen um auf die Hauptseite weiterzuleiten rausfliegen…
Februar 3rd, 2008 at 15:17
seit neuestem versucht der googlebot sogar flashs zu indexieren indem er den inhalt ausliest… (s. sistrix.de)
Februar 5th, 2008 at 3:30
Mal weiter gedacht: Wäre es nicht besser, ganz altmodische statische html-Seiten mit einfachen internen Textlinks ins Netz zu stellen.
Man behält so die Kontrolle – mehr oder weniger.
April 28th, 2008 at 22:22
Vereinzelt hatte ich schon von solchen Fällen gehört, aber dies war das erste mal, dass ich selbst dieses Phänomen registrieren konnte.“ Ist mir auch schon aufgefallen, dass er Javascript-Dateien ausliest. Ist doch nicht verwunderlich, zum einen um Java-Spam zu bekämpfen, zum anderen ist das einfach zu gängig, um es zu ignorieren.
„Das Problem dabei ist das man normalerweise eben in JS dann auch noch parameter hinzufuegt die eben nicht mitgeschickt werden, daher indiziert Google die falschen Seiten und stellt die richtigen in den Hintergrund.“ Das wird sich auch noch geben.
Viele Grüße!
April 29th, 2008 at 9:55
Wie unheimlich! Aber eigentlich ist das okay, je “menschlicher“ der sich verhält, desto besser werden die Suchergebnisse. Eines Tages wird er den Inhalt komplett verstehen, aber viel nützen wird’s ja doch nicht, denn immer noch sind es die User, die die Relevanz der Inhalte wirklich bewerten. Aber wenn er jetzt schon Javascript kann, wird das sicher ein Forschritt in Bezug auf Webdesign geben!
Mai 28th, 2008 at 17:43
Ja, der kleine Kerl lernt dazu und ist nicht mehr so leicht auszutricksen. Unheimlich finde ich es nicht, man kann seine Seite ja von der Indexierung ausschließen.;-)
Juli 12th, 2008 at 1:03
“…man kann seine Seite ja von der Indexierung ausschließen.”
Hatte ich früher auch gedacht, bis Google mich eines Besseren belehrt hat. In der robots.txt die Seite auf “Disallow” gesetzt und die Seite selber auf “noindex” – Ergebniss: Die Seite wir zumindest unter “zusätzliche Ergebnisse” gelistet. Ich traue dem Spider alles zu. In der CSS Spam Techniken anzuwenden kann man vergessen. Google macht alles um alles zu kontrollieren.
März 22nd, 2009 at 12:02
Ich find das wird auch langsam mal zeit das der Bot JS bzw. Ajax kapiert und interpretiert. Fast jede Web 2.0 Seite baut auf Ajax auf. Wenn man sich an die Crawling Methode von Google hält kann man immer weiter HTML Seite machen
Google sollte auch mal was tun anstatt nur die Filterungsmethode im Ranking auf Oldschool anzupassen.
Gruß Chris
April 26th, 2009 at 10:29
[...] 5. Na und das Argument der Plugin-Anbieter, daß man die Suchmaschinenrobots mit zusätzlichen maschinell lesbaren Inhalten füttern kann, möchte ich angesichts der per Javascript im normalen HTML-Quelltext integrierten Maschinen-Infos in meinem Bild-Vorlagen-Experiment, zumindet bis auf Weiteres – da die wenigsten Suchmaschinen-Robots Javascript lesen, bzw. interpretieren können, stark in Frage stellen. Nachtrag: daß einige der Googlebots bereits Javascripte lesen können ist kein großes Geheimnis mehr (inwieweit davon etwas in den Google-Index einfliesst schon
), daß Google-Robots mittlerweile auch AJAX können, ist noch sehr neu – siehe Googlebot lernt Ajax… [...]
April 26th, 2009 at 10:30
[...] Unter Webmaster Blog “Erzählungen aus dem Netz” – schreibt Thomas Fruetel aus Essen über seine Beobachtungen & Erfahrungen zu Google & SEO. Er “treibt” seit Juni 2003 immer wieder coole Themen & Infos auf – zuletzt z.B. der Artikel “Googlebot lernt AJAX“ [...]