Die optimierte Robots.txt-Datei wird in der Suchmaschinenoptimierung trotz ihrer Bedeutung häufig noch unterschützt. Wir haben im Beitrag zusammengefasst, welche Bestandteile unverzichtbar sind und warum die Robots.txt Datei immer individuell pro Webprojekt konfiguriert werden sollte.
Eine eher unscheinbare Datei im Textformat entscheidet mit darüber, wie Websites durch User-Agents indexiert werden. Fehlt sie, kann das die Aufnahme in Suchmaschinenverzeichnisse negativ beeinträchtigen. Sind harte Restriktionen in ihr enthalten, werden unter Umständen kaum oder sogar gar keine Seiten aufgenommen – auch dann, wenn die restliche Website bewusst suchmaschinenfreundlich optimiert wurde. Die Robots.txt gehört zur OnPage Optimierung.
Inhaltsverzeichnis
Was ist die Robots.txt?
Robots.txt ist eine Textdatei im Stammverzeichnis eines Webverzeichnisses enthält Anweisungen an User-Agents und Crawler, wie die Inhalte der Website zu behandeln sind. Sprich: Dürfen bestimmte Verzeichnisse indexiert werden, welche Seiten sollten aus dem Suchmaschinenindex herausgehalten werden? Die Hauptbefehle lauten: „useragent“, „allow“ und „disallow“.
Die robots-Datei kann über den Browser geprüft werden, indem an die aktuell gültige Domain /robots.txt angehängt wird.
Beispiel: https://www.seonative.de/robots.txt
Ist die angezeigte Datei leer oder übermittelt der Server eine Fehlermeldung? Dann besteht Handlungsbedarf!
Hinweis: In der Wettbewerbsanalyse kann es hilfreich sein, einen Blick auf die Robots.txt-Einträge der Mitbewerber zu werfen. So ergeben sich möglicherweise Handlungsansätze für eigene Projekte, insbesondere bei größeren eCommerce-Projekten oder umfangreichen Websites.
Aufgabe und Format der Robots.txt-Datei
Die Textdatei hat zwei konkrete Aufgaben:
- Unerwünschte/doppelte/inhaltsleere Seiten aus dem Index heraushalten und
- das Crawlbudget pro Website beeinflussen.
Dieser Zweck wurde erstmals 1994 definiert und später weiter erweitert. Er findet seitdem rege Anwendung. Das Robots Exlusion Protocol (REP) zählt allerdings nicht zu den offiziellen Internet Standards. Suchmaschinen beachten in der Regel die Crawlhinweise der Robots.txt, sind aber frei in der Umsetzung und durchaus in der Lage, davon abweichende Crawlprozesse durchzuführen. Google als User Agent hält sich in der Regel an die Vorgaben der Datei, bei einigen anderen User Agents sieht das allerdings anders aus.
Gängige CMS erstellen in der Regel eine robots.txt-Datei während der Grundkonfiguration. Fehlt die Datei nach einem Relaunch oder CMS-Wechsel, lässt sie sich mit einem simplen Texteditor leer erstellen und in das Stammverzeichnis der Website hochladen.
Der Inhalt kann jederzeit bearbeitet und ergänzt werden und sollte regelmäßig auf notwendige Anpassungen geprüft werden.
Google stellt ein Testtool bereit, in dem Änderungen an der Datei vor Umsetzung geprüft werden können. Aber auch Bing hat einen Robots.txt Tester.
Wichtig: Das Tool prüft nur die Eingaben für den User-Agent GoogleBot und die an GoogleBot angeschlossenen Dienste, also:
- GoogleBot-News
- GoogleBot-Image
- GoogleBot-Video
- GoogleBot-Mobile
- Mediapartners-Google
- Adsbot-Google
Beispiel für eine Robots.txt Datei
Der Aufbau der Datei ist vergleichsweise simpel:
Sitemap: [URL location of sitemap]
User-agent: [bot identifier]
[directive 1]
[directive 2]
[directive …]
# zweiten Crawler ansprechen
User-agent: [another bot identifier]
[directive 1]
[directive 2]
[directive …]
Eine aufs Wesentliche reduzierte Robots.txt Datei kann auch nur aus diesen Codezeilen bestehen:
User-agent: *
Disallow: /wp-admin/
Letzteres ist für kleinere Webprojekte oft ausreichend, wenn Nofollow-Indizes für einzelne Webseiten direkt im Head-Bereich der jeweiligen Seite hinterlegt sind.
UserAgents
Um allen Crawlern und User-Agents die Indexierung zu erlauben, sollte mindestens der Standardbefehl: „useragent: *“ enthalten sein.
Wenn spezifische Freigaben pro User Agent erfolgen sollen, müssen die Angaben auch pro Crawler ausformuliert hinterlegt werden. Wie im Beispiel oben, lassen sich so konkret einzelne User Agents ansprechen, um einzelne Verzeichnisse und Bereiche aus ihren Indexen herauszuhalten oder gezielt aufzunehmen.
Beispiele für typischerweise adressierte User Agents:
- Google: Googlebot
- Google Images: Googlebot-Image
- Bing: Bingbot
- Yahoo: Slurp
- Baidu: Baiduspider
- DuckDuckGo: DuckDuckBot
Online finden sich umfangreiche Liste mit weiteren Crawlern.
Anweisungen: Allow und Disallow
Über die Codezeile „disallow: /beispielseite/“ erhält der angesprochene User-Agent die Anweisung, das Verzeichnis oder konkrete Webseiten bei der Indexierung zu überspringen. Diese Anweisung gilt immer nur für den im „useragent: “ angesprochenen Crawler! Gleiches gilt für den expliziten Befehl „allow: /beispielsweise/“.
„Allow“ kann darüber hinaus spezifische Medien- oder Verzeichnisstränge ausdrücklich erlauben, auch wenn Hauptpfade per „disallow“ ausgeschlossen wurde.
Beispiel für eine Robots.txt Datei, der zufolge nur der GoogleBot als User-Agent Inhalte indexieren darf:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Crawler werden sich in aller Regel an diese Anweisung halten, um das Crawlbudget nicht unnötig zu belasten und die Website-Performance zu erhalten.
Tipp: Über „# “ können Bereiche auskommentiert werden. Vor allem bei großen Webprojekten ist die Unterteilung unterschiedlicher Segmente innerhalb der Datei empfehlenswert.
Crawling optimieren mit der robots.txt
Eine optimale Indexierung zahlt sich positiv auf das Ranking und die weitere Suchmaschinenoptimierung aus. Deshalb gilt:
- Veraltete Befehle und Anweisungen, insbesondere „noindex: “ und „nofollow: “ sollten aus der Datei entfernt werden. Noindex- und Nofollow-Anweisungen werden explizit von Google nicht befolgt, wenn sie in der Robots.txt-Datei hinterlegt sind.
- Bei größeren eCommerce-Projekten und umfangreichen Websites können Plugins den Ausschluss konkreter Seiten übernehmen, indem sie die robots.txt-Datei direkt beschreiben.
- Insgesamt ist eine klare Webseitennavigation vorteilhaft, um die Anweisungen in der Datei umzusetzen.
- Auf eine saubere, sehr gute interne Verlinkung für wichtige Unterseiten setzen, um die Chance auf tiefergehends Crawling zu erhöhen.
- Eine XML-Sitemap mit wichtigsten Unterseiten anbieten, um die Navigation für User-Agents und Bots zu erleichtern.
Auf diese Weise wird das Crawl Budget geschont – und die Suchmaschinen präfrieren Website-Projekte, die schnell, ressourcenschonend und user-optimiert sind.
Definition Crawl Budget: Das Crawl Budget legt fest, in welcher Tiefe der User-Agent eine Website crawlt, wie oft er zurückkehrt und welche Hauptseiten mehrfach aufgesucht werden.
Ausgeschlossen werden sollten optimalerweise alle Seiten, die wahlweise nicht indexiert werden sollten oder im Index keinen tieferen Zweck erfüllen würden, beispielsweise:
- Dankesseiten (Formulare, Lead-/Newsletterabschlussseiten)
- reine Kontaktformular-Seiten
- Bilder (bzw. Zuweisung an den GoogleBot-Image)
- 404- und 402-Seiten
- vorhandener, aber notwendiger Duplicate Content (druckoptimierte Darstellung von Inhalten, Transkripte etc.)
Nachdem Noindex- und Nofollow-Anweisungen in der Robots.txt-Datei keine Beachtung finden (sollen), müssen entsprechende Vermerke direkt im Head-Bereich der jeweiligen (Unter)-Seite enthalten sein.
Checkliste Robtos.txt
Vor einer Optimierung der robots-Datei lohnt sich ein Blick auf diese Checkliste, um die Überarbeitung systematisch zu starten:
- Ist die robots.txt im Stammverzeichnis des Webprojekts enthalten?
- Verweist die Datei auf das aktuelle Projekt (wichtig nach Relaunch oder Wartungsarbeiten)?
- Ist das Crawling für alle relevanten Crawler und Bots freigegeben?
- Ist der Inhalt auf das aktuelle Webprojekt abgestimmt, was nicht zu indexierende Seiten oder Verzeichnisse angeht?
- Sind CSS- oder JavaScript-Prozesse von der Indexierung ausgeschlossen?
- Sind die Parameter auf das aktuell verwendete CMS und aktuelle Web-Standards abgestimmt?
- Sind – mit Fokus auf das aktuelle Projekt – veraltete Anweisungen enthalten?
Fazit
Die robots-Datei bietet reichlich Möglichkeiten, um Ihren Webprojekten in der Suchmaschinenoptimierung zu einem besseren Ranking zu verhelfen. Wir bei seonative sind eine SEO Agentur mit langjähriger Erfahrung in der Suchmaschinenoptimierung. Kontaktieren Sie uns für eine kostenlose SEO-Einschätzung!
Keine News mehr verpassen!
Mit dem netzgefährten Newsletter jeden Montag alle wichtigen News aus ✓ SEO ✓ SEA, ✓ Webdesign und ✓ Influencer Marketing erhalten.