Durch die robots.txt bzw. meta robots tags hat ein Webmaster eine wichtige Möglichkeit zur Hand, das Crawling auf der Webseite zu steuern. Es können Zugriffoptionen auf Seiten festgelegt und dadurch die Indexierung von Webseiten beeinflusst werden. Zudem kann festgelegt werden, ob Links verfolgt und gewertet werden oder nicht. Ziel ist es, nur relevante HTML Seite im Index der Suchmaschine zu platzieren.
Inhaltsverzeichnis
Crawling einer Seite über Meta Robots steuern
Nicht alle Seiten einer Webseite sollen von Suchmaschinen-Bots gecrawlt werden. Beispielsweise können dies systemspezifische Verzeichnisse oder Bereiche mit sensiblen Dateien sein. Hauptsächlich muss man bedenken, dass das „Crawling-Budget“ selbst von Google begrenzt ist. Das mag für die kompakte Firmenwebsite eines kleinen Unternehmens nicht so wichtig sein, aber bei großen Online-Shops oder Nachrichtenportalen mit Millionen URLs hört der Crawler dann einfach mal auf, ohne Rücksicht auf die Inhalte der noch nicht gecrawlten Seiten. Realistische Schätzungen gehen davon aus, dass alleine das Crawling um die 10 Milliarden USD an Kosten für Google verursacht. Um das für die eigene Website zur Verfügung stehende „Crawl-Budget“ zu steuern, schließt man unwichtige Seiten vom Crawling aus, damit sich der Google Bot auf die Seiten und Verzeichnisse konzentriert, die tatsächlich relevant sind.
Die Funktion einer robots.txt Datei
Die robots.txt ist eine Textdatei, mit der ein Webmaster festlegen kann, auf welche Bereiche der Domain der Suchmaschinen Crawler Zugriff hat. Es kann ein Zugriffsverbot für einzelne Dateien, ganze Verzeichnisse oder die Domain festgelegt werden. Die robots.txt Datei hat somit die Funktion eines „Türstehers“.
Der Aufbau einer robots.txt
Es werden im Wesentlichen zwei Anweisungen in der robots.txt Datei verwendet:
User-Agent
Hier wir bestimmt für welchen Crawler die Anweisungen gelten.
Es kann ein bestimmter Crawler angesprochen werden:
- Googlebot (Google Suchmaschine)
- Googlebot-Image (Google-Bildersuche)
- Adsbot-Google (Google AdWords)
- Slurp (Yahoo)
- bingbot (Bing)
- oder es werden alle alle Suchmaschinen Crawler mit * angesprochen.
Allow / Disallow
Hier kann ein spezielles Verzeichnis vom Crawling ausgeschlossen oder erlaubt werden.
Beispiel von otto.de:
User-agent: bingbot Disallow: /ts-rcv/ Disallow: /*%5C%22$ Disallow: /wp-admin/ Disallow: /suche/ User-agent: * Disallow: /ts-rcv/ Disallow: /*%5C%22$ Disallow: /wp-admin/ Sitemap: https://www.otto.de/product/sitemap_index.xml Sitemap: https://www.otto.de/san/sitemap_index.xml
Wichtig: die Anweisungsblöcke müssen immer mit einem Leerzeichen getrennt werden. Von den Crawlern wird immer der erste passende Anweisungsblock zuerst gelesen. Will man einen speziellen Bot ansprechen, sollte diese Anweisung oben stehen. Alle „allgemein gültigen“ Anweisungen dahinter. Mit der Anweisung Disallow: / sperrt man alle Crawler aus. Somit kann es passieren, dass die Seite in der organischen Suche nicht erscheint. Neben den Zugriffsrechten sollte auch der Pfad zur XML-Sitemap mit aufgenommen werden.
Was ist beim Einsatz einer robots.txt Datei zu beachten?
Die in der robots.txt Datei festgelegten Anweisungen dienen lediglich als Richtlinien und erzwingen kein bestimmtes Crawler-Verhalten. Es gibt keine Garantie dafür, dass sich alle Suchmaschinen / Personen mit bösen Absichten daran halten. Um zu verhindern, dass Crawler auf spezielle Informationen nicht zugreifen können, sollten sensible Inhalte Passwortgeschützt sein. Unter Umständen kann es auch sein, dass eine Seite trotz Ausschluss in der robots.txt im Index erscheint. Der Grund dafür sind Links von Seiten, die Google zugänglich sind und auf die eigene Webseite verweisen.
Eine Robots.txt Datei ist eine einfache Textdatei, die Sie mit jedem simplen Editor selbst erstellen können.
Indexierung einer Seite und der Umgang mit Links
Nicht alle Seiten einer Webseite sollen im Index, also der Suchergebnisseite von Google, erscheinen. Die Gründe dafür sind vielfältig, meist ähnlich wie bei der Steuerung des Crawlings mittels Robots.txt Datei. Oder schlicht für die Suchmaschine irrelevante Seiten, wie Impressum und AGB.
Meta robots tags sind dafür da, um individuell die Indexierung und die weiter Verfolgung von Links auf der Seite zu steuern.
Was sind meta robots tags?
Mit dem meta robots tag kann einem Crawler mitgeteilt werden, ob:
• die Seite indexiert werden soll
• allen Links auf der Seite (interne wie ausgehende Links) Pagerank vererbt werden soll („Linkjuice“)
• und ob die Seite archiviert / gecached werden darf.
Zudem kann für jede Seite festgelegt werden, ob die Linkkraft über das follow / nofollow Attribut, weitergegeben werden darf. Denn der Meta Robots Tag ist ein HTML Tag im <head> Bereich jeder Seite, im Gegensatz zur Robots.txt Datei, die zentral abgelegt wird.
Wie ist der Aufbau von meta robots tags?
Mit den folgenden Anweisungen können Crawler über die meta robots tags gesteuert werden:
<META NAME="ROBOTS" CONTENT="INDEX, FOLLOW, ARCHIVE">
oder das Gegenteil:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE, NOODP">
So kann der Crawler direkt auf jeder HTML Seite angesprochen werden. Weitere Anweisungen sind im Bild aufgeführt.
Verwendet man keinen meta robots tag, ist die „Standardeinstellung“: Indexieren, archivieren und Linkjuice vererben.
Alternativ zum meta robots tag kann man in der Konfiguration des Webservers die Anweisungen NoIndex, NoFollow usw. global einstellen. Das nennt sich dann „X-Robots Tag“. Sollte dies gewünscht sein, sind die Anweisungen nicht mehr im Quelltext der Seite, sondern im HTTP-Response-Header enthalten. Genauere Informationen dazu hier: http://noarchive.net/xrobots/ Ein Beispiel wäre, dass man sämtliche PDF Dateien von der Indexierung ausschließt.
Fazit
Die Robots.txt steuert das Crawling, der meta-robots-tag die Indexierung. Man kann mit einem Disallow in der robots.txt erreichen, dass Seiten nicht im Index erscheinen, aber wirklich sicher ausschließen kann man das nur mit dem meta-tag „noindex“. Und dafür muss das Crawling der Seite in der Robots.txt sogar erlaubt sein! Denn der Google Bot muss den noindex robot tag ja erst einmal auslesen. Das ginge nicht, wenn der Crawler ausgesperrt wird.
Um mit einer großen Webseite gute Ergebnisse im organischen Suchbereich zu erzielen, ist die Verwendung einer robots.txt Datei und meta robots tags unumgänglich. Beide Methoden helfen dabei, ein optimales Indexierungsmanagement zu gewährleisten und das Crawling auf der Webseite zu steuern.
✔ Mehr Traffic ✔ mehr Kunden ✔ Mehr Umsatz 👉 kostenlose SEO Ersteinschätzung