Lädt...
Home /  Lexikon /  Robots.txt

Robots.txt allgemein

Die Robots.txt einer Webseite ist so etwas wie das Regelbuch für die Crawler von Google und anderen Seiten. Mit diesem Dokument, das einfach auf dem Webspace einer Seite hinterlegt wird, können verschiedene Anweisungen an die Bots gegeben werden. Dazu gehören unter anderem Hinweise darauf, welche Unterseiten nicht angesteuert werden sollen, welche Inhalte blockiert sind oder wie häufig ein Besuch der Crawler erwünscht ist. Im Laufe der Zeit wurden zwar verschiedene Einstellungen durch die internen Werkzeuge von Google selbst übernommen, noch heute ist die robots.txt aber die sicherste Möglichkeit, die Bewegungen der Bots auf den eigenen Seiten zu kontrollieren.

  • Robots.txt

Die Geschichte der Robots.txt und ihre heutige Bedeutung

Mit dem Aufkommen der ersten Suchmaschinen begann auch das Zeitalter der Bots im Internet. Zwar gab es schon zu Zeiten des Usenet entsprechende Bots, diese haben sich aber meist innerhalb klar definierter Grenzen bewegt. Bei den Bots - oder Crawlern - der Suchmaschinen war es hingegen so, dass sie auch ohne eine klare Aufforderung auf jeder beliebigen Seite landen konnten. Nicht jeder Betreiber von Webseiten wollte aber, dass die eigene Seite im Index einer Suchmaschine auftaucht. Andere wollten zumindest einige Unterseiten davor schützen, in einem so öffentlichen Index aufzutauchen. Das hat sich bis heute nicht geändert.

Die Entwickler der meisten populären Browser bauten daraufhin das sogenannte Robots-Exclusion-Standard-Protokoll in ihre Programme ein. Das sorgte dafür, dass die Bots sich künftig an der robots.txt auf den Webservern orientierten. Wichtig ist dabei zu wissen, dass es sich nicht um ein verbindliches Protokoll für alle bestehenden Bots handelt. Während die meisten Suchmaschinen diesen Standard nutzen und ihre Crawler entsprechend konfiguriert haben, ist es kein allgemeingültiger Schutz um Geheimnisse im Internet zu bewahren. Es gibt durchaus Crawler von fragwürdigen Seiten, die unter Umständen keine Bindung an dieses Protokoll haben und sich daher auch nicht von einer Robots.txt abhalten lassen würden.

Für das grundsätzliche Listing in den SERPs gibt es heute eine Vielzahl von Möglichkeiten für die Konfiguration der Robots.txt. Die unterschiedlichen Befehle geben dem Webmaster eine umfassende Kontrolle darüber, wie die Bots der großen Suchmaschinen mit ihren Seiten interagieren. Darüber hinaus stellt Google beispielsweise die Möglichkeit zur Verfügung, mit der robots.txt eine Identifizierung der Seite zu erledigen. Einmal verifiziert können verschiedene Einstellungen dann auch direkt über die Google Search Console Konfiguration getestet und optimiert werden.

Aufbau und Erstellung der Robots.txt auf dem eigenen Webspace

Bevor die verschiedenen Anweisungen für die Robots eingegeben werden können, muss die Robots.txt erst einmal in den Grundordner des Webspace gelegt werden. In dem Ordner, in dem sich also die Index-Seite (meistens index.php oder index.html) befindet, muss auch die Robots.txt gepackt werden. Bei der Erstellung können verschiedene Tools aus dem Internet helfen, es reicht aber auch ein einfacher Texteditor, der Dokumente als Textdatei speichern kann. Wer auf Nummer sicher gehen möchte, der kann die entsprechende Datei auch einfach über die Search Console von Google erstellen lassen. Das bringt den Vorteil mit, dass hier bei Bedarf die Robots.txt direkt mit allen nötigen Befehlen geprüft werden kann. Eventuelle Fehler werden also erkannt, bevor die Datei das erste Mal auf den Webspace geladen wird. Und eine umfassende Prüfung sollte im eigenen Sinn sein, besonders wenn bestimmte Unterseiten bei den Crawlern ausgeschlossen werden sollen.

Generell beginnt der Aufbau einer Robots.txt mit der Definition der Bots, die angesprochen werden sollen. Da ohnehin nur die Suchmaschinen von wirklicher Bedeutung sind, sollte sicher sein, welche in der eigenen Optimierung eine Rolle spielen. In der Regel ist das Google, manche Optimierungen werden auch noch für Bing durchgeführt. Das würde so aussehen:

User-agent: Googlebot Disallow:

In diesem Beispiel wäre es den Crawlern von Google erlaubt, die gesamte Webseite zu durchsuchen und entsprechend auch jede Unterseite zu betrachten. Wird ein "/" hinter das Disallow gesetzt, wäre ein kompletter Ausschluss des Bots erreicht.

Die Robots.txt muss im Anschluss mit den Befehlen gefüttert werden, die für die eigene Seite von Bedeutung sind. Dabei sollte sich der Betreiber der Seite klar machen, ob bestimmte Unterseiten oder sogar ganze Pfade seiner Seite nicht von den Suchmaschinen nicht erfasst werden sollen. Hier eine Liste der gängigsten Befehle, die für die Robots-Datei zur Verfügung stehen:

  • User-Agent: Hier wird der Bot der Suchmaschine angesprochen. Neben dem Googlebot wäre beispielsweise der "bingbot" noch von entsprechender Bedeutung.
  • * = Der Stern ist eine Wildcard-Funktion und kann dabei helfen, bestimmte Ordnerpfade komplett in die Robots.txt aufzunehmen.
  • Allow = Der Standard-Befehl ist in der Date grundsätzlich Allow. Das bedeutet, dass ein Besuch einer Unterseite immer möglich ist, sofern sie nicht ausdrücklich in der Robots.txt ausgeschlossen wurde.
  • Disallow = Das ist das genaue Gegenteil des Allow-Begriffs. Für jeden Bereich, der nicht von den Crawlern erfasst werden soll, muss angegeben werden, dass keine Erlaubnis vorhanden ist.
  • Sitemap = Der Verweis auf die Sitemap der Seite ist auch in der Robots möglich. Inzwischen ist es für die Benutzer aber auch möglich, die entsprechende Sitemap einfach in der Search Console zu hinterlegen. In jedem Fall sorgt es dafür, dass wirklich alle relevanten Seiten erfasst werden.
Eine klassische Robots.txt, mit der die wichtigsten Crawler erfasst werden und darüber hinaus verschiedene Pfade schützen würde, würde etwa wie folgt aussehen. Dabei sollte beachtet werden, dass die Pfade sich natürlich von Seite zu Seite unterscheiden und sie auch einfach aus dem Beispiel gelöscht werden könnten, wenn es keine verbotene Pfade gibt.

#robots.txt für die Seite angelbedarf.tld = Dies ist ein Kommentar. Mit # können Kommentare in die Robots.txt eingefügt werden, die nicht von den Crawlern erkannt werden und für Anmerkungen nützlich sind.
User-Agent: googlebot = hier wird Google der Zugriff auf die Seite erlaubt.
User-Agent: bingbot = ergänzend wird auch noch den Crawlern von Bing Zugriff gegeben.
Disallow: /privat/impressum/ = in diesem Fall würde beispielsweise der Ordner für das Impressum für die Crawler ausgeschlossen.
User-Agent: * = der Stern steht in diesem Fall als eine Wildcard, mit der alle Bots erfasst werden.
Disallow: /hochseefische/ = kein Bot hätte damit Zugriff auf die Dateien aus dem Pfad Hochseefische.

Natürlich kann es durchaus sein, dass gar kein Ordner von der Suche ausgeschlossen werden soll. In diesem Fall ist es heute nicht mehr unbedingt notwendig, eine eigene Robots.txt anzulegen. Allerdings kann es sich noch immer lohnen auf die Sitemap zu verweisen. Dafür gibt es gerade mit den internen Tools von Google inzwischen aber auch andere Möglichkeiten, die bequemer und einfacher sind.

Optimierung, Kontrolle und externe Tools für die Arbeit mit der Robots.txt

Die Robots.txt ist ein empfindlicher Teil der eigenen Webseite und sollte auch so behandelt werden. Wer sich mit dieser Arbeit beschäftigen möchte und daher auf eine eigene Robots.txt auf dem Webspace setzt, sollte verschiedene externe Tools zur Verbesserung und zur Wartung benutzen. Im Laufe der Zeit verändern sich die Ansprüche an Seiten, nicht jeder Artikel und nicht jede Unterseite soll im Index auftauchen. Es gibt beispielsweise bestimmte Inhalte, die Webseiten nicht unbedingt als Teil ihres Linknetzwerkes im Google Index haben möchten. Daher ist es wichtig, von Zeit zu Zeit eine Überprüfung durchzuführen. Google selbst stellt das wichtigste Werkzeug zur Verfügung mit dem kontrolliert werden kann, ob die eigene Robots tatsächlich den technischen Ansprüchen genügt.

Überhaupt sind die Google Tools die beste Variante, um die volle Macht der Robots.txt für die eigene Seite zu nutzen. Die Suchmaschine selbst bietet viele hilfreiche Anleitungen und sorgt dafür, dass die eigene Seite stets bestens ausgerichtet ist. Dabei muss auch noch einmal die Sitemap erwähnt werden: Sie gehört inzwischen zu den Standards für eine gut optimierte Seite. Sie sollte im besten Fall also nicht nur eine Erwähnung in der Robots-Datei finden, sondern sich im besten Fall auch noch als eigene Verlinkung in der Google Search Console befinden.

Die Bedeutung der Robots.txt für die eigene Suchmaschinenoptimierung

Der Einfluss der Robots.txt auf die Suchmaschinenoptimierung sollte nicht unterschätzt werden. Zwar ist die Technik inzwischen beinahe so alt wie die Webentwicklung selbst und sogar älter als Google, das bedeutet aber nicht, dass sie als wichtiges Werkzeug für SEO ausgedient hat. Wichtig ist dabei vor allem die Frage, wie viel Spielraum den Suchmaschinen eingeräumt wird. Wer sich dazu entscheidet, bestimmte Seiten aus dem Index auszuschließen, muss am Ende auch ein entsprechend negtiven Einfluss auf das Ranking hinnehmen. Die Seiten werden in der Regel nicht gefunden oder sie werden mit Platzhaltern angezeigt, sollten sie es doch in den Index der Suchmaschine schaffen. Daher ist es wichtig genau abzuwägen, welche Seiten und aus welchem Grund in der Robots.txt von der Indexierung durch die Crawler der Suchmaschinen ausgeschlossen werden. Ein zu breiter Fächer an Verboten für die Bots könnte am Ende zu einem Problem für das eigene Ranking werden.

Eine direkte Auswirkung auf die Position innerhalb der SERPs hat die Robots-Datei nicht. Stattdessen ist sie ein hilfreiches Werkzeug dafür, die Bots bei ihrer Arbeit zu unterstützen und dafür zu sorgen, dass alle relevanten Bereiche einer Webseite eine Chance haben, im Index aufzutauchen. Der wichtigste Verweis ist dabei die erwähnte Sitemap, die inzwischen aber auch an anderen Stellen eingereicht werden kann, damit die Crawler sie aufnehmen.

Die Robots.txt mag in der modernen Suchmaschinenoptimierung und bei der immer stärkeren Verknüpfung mit der Google Search Console an Bedeutung verlieren. Besonders diejenigen, die ihre Webseiten vor bestimmten Crawlern der Suchmaschinen abschirmen möchten, ist sie aber immer noch die wichtigste Datei für die Konfiguration und der einzige Einfluss auf die Bots von Google und anderen Suchmaschinen.