Googlebot

Grundsätzliches

Der Googlebot ist ein Webcrawler der Suchmaschine Google; der Wortbestandteil „bot“ steht dabei für „Roboter“. Der Googlebot durchsucht das Internet automatisch nach Webseiten und legt deren Inhalte im Google-Index ab. Diese indexierten Inhalte stellen die Grundlage für die Suchanfragen von Usern dar. Dabei gleicht die Suchmaschine die Suchanfrage des Users mit den indexierten Inhalten ab und generiert dann eine möglichst relevante Ergebnisseite. Um den Index aktuell zu halten, ist der Googlebot ständig damit beschäftigt, neue Webseiten zu finden und bereits besuchte Webseiten auf neue Inhalte, Änderungen und veraltete Links zu überprüfen. Dieser Vorgang erfordert eine extrem hohe Rechenleistung, die Google durch ein riesiges Netzwerk von Rechenzentren gewährleistet.

Arten von Googlebots

Neben dem Googlebot für die Websuche gibt es auch noch andere, spezialisierte Googlebots. Beispielsweise gibt es einen Googlebot nur für News, einen Googlebot für Videos, einen Googlebot-Mobile für Smartphone-Webseiten usw. Die verschiedenen Googlebots tauschen auch Informationen miteinander aus: Crawlt ein Bot eine Seite, legt er diese für andere Bots verfügbar im sog. Cache ab.

Vorgehen

Um sich von Webseite zu Webseite zu bewegen, folgt der Googlebot Links. Dafür erkennt der Bot SRC- und HREF-Links . Lange Zeit war der Googlebot nicht in der Lage, Javascript-Links zu folgen; das hat sich in der Zwischenzeit geändert. Der Googlebot kann parallel mehrere Crawling-Prozesse steuern, sich also simultan durch verschiedene Linkstrukturen fortbewegen; man bezeichnet dies als Multi-Threading.

Bewegt der Bot sich auf eine neue Seite vor, stellt er zunächst eine Anfrage an den Server, für die er sich mit der User-Agent-Kennung „Googlebot“ vorstellt. Die Anfragen des Crawlers werden in den Logfiles des Servers protokolliert und erlauben es Webmastern, nachzuvollziehen, wer Anfragen an den Server stellt.

Nach Googles eigenen Aussagen greift der Bot im Durchschnitt einmal alle paar Sekunden auf eine bestimmte Website zu. Die Frequenz ist u.a. abhängig von der Anzahl der externen Links, die auf eine Seite verweisen bzw. vom PageRank der Seite. Weniger stark verlinkte Webseiten werden u.U. nur alle paar Tage oder noch seltener vom Bot besucht.

Den Googlebot aussperren

Weil der Googlebot Links folgt, könnte man annehmen, dass Webseiten, auf die nicht verlinkt wird, nicht gefunden werden können. Tatsächlich ist es fast unmöglich, Webseiten auf diese Weise geheim zu halten: Sobald ein Link von der „geheimen“ Seite auf einen externen Server verweist, kann durch das Verweisprotokoll des externen Servers auch der geheime Server ausgemacht werden.

Man kann dem Googlebot aber aktiv den Zutritt zu verwehren. Eine Möglichkeit besteht darin, dem Stammverzeichnis der eigenen Webseiten eine sog. robots.txt-Datei hinzuzufügen. Diese Datei weist den Bot an, welche Bereiche der Webseite gecrawlt werden dürfen und welche nicht.

Die Verwendung einer robots.txt-Datei bietet jedoch keine 100%ige Garantie dafür, dass eine Webseite nicht in der Google-Suche erscheint. Dafür platziert man besser das Robots-Meta-Tag

im Head-Element einer Webseite. Es weist alle Crawler an, die betreffende Seite nicht in den Suchergebnissen darzustellen. Möchte man nur den Googlebot ausschließen, muss man im name-Attribut „robots“ durch „googlebot“ ersetzen.

Außerdem kann man das Meta-Tag „nofollow“ verwenden; damit unterbindet man die Verfolgung von jeglichen Links auf der eigenen Webseite durch den Bot. Soll der Bot dagegen nur bestimmten Links nicht folgen, fügt man das Attribut rel=“nofollow“ nur zum jeweiligen Link hinzu.

Die Crawling-Frequenz ändern

Der Googlebot greift beim Besuch einer Webseite mit einer bestimmten Taktrate auf die Seite zu; z.B. stellt er standardmäßig fünf Anfragen pro Sekunde an eine bestimmte Seite. Man kann den Googlebot aber auch anweisen, wie viele Anfragen pro Sekunde er durchführen soll. Das macht z.B. bei sehr umfangreichen Webseiten Sinn, die besonders oft vom Bot gecrawlt werden. Hier können sich Bandbreiten-Engpässe ergeben – die Webseite ist dann schlechter zu erreichen ist und lädt langsamer. In diesem Fall sollten Webmaster den Bot in der sog. Search Console von Google anweisen, weniger Anfragen pro Sekunde zu stellen. Die Crawling-Frequenz kann nur herabgesetzt, aber nicht über das normale Maß angehoben werden.

Missbrauch

In den letzten Jahren kommt es verstärkt vor, dass sich User oder Crawler gegenüber Webservern als Googlebot ausgeben, um z.B. die Verfügbarkeit des Servers zu kompromittieren. Um falsche Googlebots identifizieren zu können, empfiehlt Google Seitenbetreibern, Anfragen ggf. via DNS zu überprüfen. Dafür müssen Webmaster die IP-Adresse eines Besuchers mittels einer umgekehrten DNS-Anfrage in einen Domain-Namen übersetzen. Handelt es sich wirklich um den Bot, sollte der Name auf „googlebot.com“ enden. Im zweiten Schritt wird dann eine reguläre DNS-Anfrage durchgeführt, um herauszufinden, ob man wieder die ursprüngliche IP-Adresse erhält. Ist dies der Fall, kann man davon ausgehen, dass es sich bei dem Besucher wirklich um den Googlebot handelt.

Bedeutung für die Suchmaschinenoptimierung

Für die Suchmaschinenoptimierung (SEO) ist es wichtig, sich mit der Funktionsweise des Googlebots auszukennen, z.B. um neue Inhalte möglichst schnell „seeden“ zu können. Damit ist gemeint, wie man neue Inhalte möglichst schnell im Google-Index unterbringt, um sie dem User verfügbar zu machen.

Eine Möglichkeit besteht darin, die URL mit den neuen Inhalten in der Search Console zu hinterlegen. So geht man sicher, dass die neuen Seiten beim nächsten Crawl-Vorgang berücksichtigt werden. Eine zweite Möglichkeit ist, einen Link von einer externen Seite auf die neuen Inhalte zu setzen. Da der Googlebot wie beschrieben Links folgt, wird er in absehbarer Zeit auf der neuen Seite vorbeikommen.

Um den Crawling-Vorgang zu begünstigen und eine korrekte Indexierung zu erreichen, empfiehlt sich außerdem das Anlegen einer Sitemap. Bei einer Sitemap handelt es sich um eine hierarchisch strukturiere Darstellung aller Einzelseiten einer Webseite. Der Crawler sieht so die Struktur einer Webseite auf einen Blick vor sich und weiß, welchen Links er als nächstes folgen kann. Außerdem kann man Einzelseiten mithilfe eines Wertes zwischen 0 – 1 individuell priorisieren und so erreichen, dass der Crawler diese hervorgehobenen Seiten häufiger besucht. Der Einsatz einer Sitemap macht besonders Sinn, wenn eine große Seite neu aufgesetzt wurde. Man kann dem Googlebot die Sitemap per robots.txt zur Verfügung stellen und / oder sie in der Search Console einreichen.

Ein weiterer wichtiger Punkt für die Suchmaschinenoptimierung: Der Googlebot kann nur eingeschränkt mit Flash, Ajax und dynamischen Inhalten umgehen. Auch wenn die Entwicklung darauf hindeutet, dass sich dies in Zukunft ändern könnte, empfiehlt es sich zurzeit noch, in Sachen SEO primär auf statische Webseitenformate zu setzen. Mit diesen Formaten kann der Googlebot zuverlässig interagieren.

Auch interessant: