Was viele Website Betreiber nach wie vor nicht wissen – nicht jede Seite einer Website wird immer automatisch gecrawlt, geschweige denn indexiert. Man muss den Google Crawler hier etwas an die (virtuelle) Hand nehmen und ihn (oder sie, oder es, um politisch korrekt zu sein) an die virtuelle Hand nehmen. Dies kann durch einen klugen Aufbau der Website ebenso geschehen sowie durch die Beachtung einiger einfacher Grundregeln. Der Crawler bringt pro Website ein (nicht pauschal definierbares) Crawling-Kontingent mit. Es werden also nur so viele URLs gecrawlt, bis das Kontingent erschöpft ist. Dann verabschiedet sich der Crawler wieder. Da man nicht genau weiß, wie hoch das Crawling-Budget für die eigene ist, sollte man also versuchen, den Crawler so zu leiten, dass zuerst vor allem die wichtigen Seiten gefunden und indexiert werden. Weniger wichtige können nachrangig behandelt werden.
Die Website als Kaufhaus
Am besten stellt man sich seine Website als Haus vor. Je größer die Internetpräsenz, desto größer ist das “Haus”. Im Falle von größeren Websites (z. B. Onlineshops etc.) dürfte es sich eher um ein Kaufhaus handeln. Beim Friseur von nebenan ist es wohl die 3-Zimmer-Wohnung. Je größer also das Haus, desto intensiver muss der Besucher (Crawler) geführt werden. Bei kleineren Websites wird in der Regel jede Seite ohne größere Probleme gefunden, sofern die Voraussetzungen stimmen (keine relevanten Seiten durch robots.txt oder per noindex von der Indexierung ausgeschlossen etc.). Nachfolgende Abschnitte konzentrieren sich daher also eher auf die Kaufhaus-Variante.
In einem Kaufhaus gibt es Schilder mit Geschäfts- und Abteilungs-Bezeichnungen (Kleidung, Spielzeug, Schmuck, Nahrungsmittel…), die den Kunden durch das Geschäft “leiten” und ihm zeigen, wo er was findet (alternativ gibts auch die Ikea-Variante, bei der man linear durch jede Abteilung geleitet wird). Bei einer Website können dies z. B. eine gute Navigation und eine durchdachte interne Verlinkung sein.
XML Sitemap
Dann gibt es in jedem guten Kaufhaus auch Tafeln mit Übersichten über alle Stockwerke und den entsprechenden Geschäften, optimaler-weise auch noch mit Wegbeschreibung. Diese Funktion übernimmt bei einer Website die XML-Sitemap. Sie zeigt dem Crawler also eine Komplett-Übersicht. Bei größeren Websites mit mehreren Sprachen können hier zusätzlich auch noch die jeweils zugehörigen Sprachversionen derselben URL angegeben werden (“hreflang”). Bei Websites mit vielen Bildern & Videos können auch hierfür separate Sitemaps angelegt werden. Wenns nicht ganz so viele sind, können diese auch in die normale Sitemap mit aufgenommen werden.
Leider werden auf vielen Websites die Sitemaps nur spärlich oder gar nicht regelmäßig gepflegt. Dabei ist diese einfache Liste ein sehr mächtiges Werkzeug für eine vernünftige Indexierung der eigenen Website. Vor allem bei Websites, die öfter eine Änderung erfahren, sollte die Sitemap mehrmals pro Woche angepasst werden.
Da man sich nicht darauf verlassen sollte, das Google die Sitemap von alleine findet, sollte diese unbedingt nach jeder Aktualisierung über die Webmaster Tools hochgeladen werden: Praktischerweise liefert Google hier auch noch gleich entsprechende Hinweise, sofern die Sitemap fehlerhaft ist. Zusätzlich wird angezeigt, wie viele der eingereichten URLs indexiert wurden. Wenn die Zahl der eingereichten und indexierten URLs zu stark voneinander abweicht, könnte evtl. auch ein Problem vorhanden sein.

Eingereichte XML Sitemap in den WMT
robots.txt
Bei einigen Kaufhäusern gibt es dann noch die Schildchen vor der Tür “wir müssen draußen bleiben” (mit einem kleinen Bildchen eines süßen Hundes nebendran) und im Gebäude selbst Türen, die mit “privat” oder “nur für Personal” beschriftet sind. Diese “du kommst hier net rein” Funktionen übernehmen bei einer Website die robots.txt bzw. das noindex-Metatag. Über die robots.txt sollte dann wiederum auch die Sitemap verlinkt werden, um dem Crawler direkt auf die Gesamt-Übersicht zu leiten.
Abnehmendes Crawling-Kontigent
Nun können Sie sich den Google-Crawler als ganz normalen Mann vorstellen, der mit seiner Frau durch das Kaufhaus marschiert. Am Anfang ist er noch gut zu haben (volles Crawling-Kontingent), mit der Zeit und der steigenden Anzahl der besuchten Klamotten-Läden wird dieses Kontingent aber immer mehr erschöpft. Spätestens nach dem achten Mode-Geschäft ist das Kontingent dann erschöpft und der Mann verlässt das Gebäude (wenn die Frau nicht will bleibt sie eben dort und muss sehen wie sie nach Hause kommt :D). Wurde der Mann dann zwischenzeitlich auch noch irgendwo zwischen geparkt, z. B. beim Würstchen-Stand, während die Frau schonmal das nächste Mode-Geschäft besucht hat… danach musste der Mann dann vermutlich einige Geschäfte abklappern (404 Error), bis er seine Frau gefunden hat. Dadurch hat sich das Crawling-Kontingent (Geduld) des Mannes weiter dramatisch reduziert, so dass definitiv nach dem achten Geschäft Schluss ist (eigene Erfahrungswerte sind in den Abschnitt mit eingeflossen).
So ist es auch mit dem Google-Crawler. Mit jeder besuchten Seite nimmt das Crawl-Budget (oder Crawling-Kontingent – egal) ab. Wird der Crawler dann zwischenzeitlich auch noch auf 404-Seiten geschickt (= verschwundene Frau), nimmt das Kontingent weiter ab, auch wenn keine existierende Seite dahinter steht. Bei sehr vielen 404-Seiten (und es gibt einige Websites mit unglaublich vielen 404-Seiten) kann man sich also vorstellen, was das bedeutet. Man sollte also die eigene Seite regelmäßig auf 404-Seiten überprüfen (z. B. über die Webmaster Tools unter Crawling -> Crawling-Fehler).
Regelmäßiger Check der Webmaster Tools
Selbstverständlich sollte es für jeden Admin sein (sofern er mit seiner Website in Google gefunden werden will), regelmäßig einen Blick in die Webmaster Tools zu werfen. Dort lässt sich recht schnell erkennen, wenn Probleme bei der Indexierung vorliegen. Zusätzlich sollte man die eigene Website auch hin und wieder in Google “suchen”, z. B. mit der Site-Abfrage. Auch hier lassen sich oftmals Probleme erkennen bzw. Seiten finden, die eigentlich nicht in den Index gehören.
Zum Schluss allen noch ein gutes & erfolgreiches neues Jahr 2015, bleiben Sie uns gewogen! 🙂