Die Crawler - manchmal auch Webcrawler oder Spider - sind automatisierte Programme, die bestimmte Inhalte im Internet durchsuchen, überprüfen, analysieren und schließlich indexieren. In den meisten Fällen dürfte der Begriff vor allem durch die Arbeit mit Suchmaschinen bekannt sein. Die Crawler durchsuchen im Auftrag von Google das Internet und bauen den Index für die SERPs auf. Tatsächlich gibt es aber auch einige privat eingesetzt Crawler mit unterschiedlichen Aufgaben. In jedem Fall sind es die Crawler von Google, deren analysierte Daten darüber entscheiden, wie gut das Ranking der eigenen Seite in den Suchmaschinen aussieht.
Der Begriff Crawler ist noch ein Relikt aus den frühen Zeiten des Internets. Damals entstand mit
dem "Webcrawler" die erste Suchmaschine, die auch nach heutigen Ansprüchen so bezeichnet werden
kann. 1994 begann daher die Arbeit, die verschiedenen Seiten im Internet in einer Volltext-Version
zu indexieren. Der Aufwand war dabei natürlich geringer aber es zeigte auch recht schnell, mit was
für einer Geschwindigkeit das Internet am wachsen war. In einer alten Tradition werden die Programme
noch heute genannt. Neben dem "Crawler" sind aber auch die Begriffe Robots oder Spider üblich.
Angesichts dessen, dass sich die Crawler wie eine Spinne durch das "Web", also das Netz, bewegen,
ist der Name auch durchaus passend.
Die Funktionsweise ist vergleichsweise einfach: Ein Crawler wird mit klaren Aufgaben programmiert,
die er im Anschluss ohne Hilfe und ohne weitere Eingaben bewältigen kann. In der Regel ist das Ziel
eines solchen Programmes, verschiedene Informationen zu sammeln. Im Fall von Google werden beispielsweise
Inhalte und andere Parameter abgefragt, die für den Google Index und den Algorithmus von Bedeutung sind.
Die Besonderheit liegt darin, dass der Crawler in der Regel jedem Link folgen kann, den er auf einer
entsprechenden Seite entdeckt. Die Grenzen werden dabei alleine vom Programmierer gesetzt. Da die Periode
des Durchsuchens und die Zahl der maximalen Seiten vollkommen individuell einstellbar ist, kann es schon
einmal passieren, dass das Programm mehrere Tage unterwegs ist. So passiert es manchmal, dass bereits
durchsuchte Seiten wieder neue Inhalte haben, bevor der "Spider" wieder bei ihnen ankommt.
Angeblich machen die verschiedenen Formen der Crawler heute rund 30% des Traffic im Internet aus.
Angesichts der Vielzahl an Suchmaschinen, der unterschiedlichen privaten Anwender und der reinen
Zahl von Webseiten, die jeden Tag durchsucht werden müssen, ist das vermutlich keine abwegige Schätzung.
Der Einsatz der Crawler-Technologie ist natürlich längst nicht mehr auf die Suchmaschinen und erst recht nicht auf Google begrenzt. Viele private und kommerzielle Projekte nutzen die automatisierte Technik dahinter zur Analyse und zur Erfassung unterschiedlicher Daten. Dabei agieren sie in der Regel in einem kleineren Umfeld und müssen keine Milliarden von Webseiten jeden Tag untersuchen. Dabei gibt es Crawler-Techniken, die sich auf bestimmte Bereiche konzentrieren. Mit einem Focus ist es beispielsweise möglich, dass die Robots nur Themen mit dynamischen Inhalten oder einem bestimmten Content-Bereich untersuchen. Das erlaubt eine gründlichere Analyse oder eben eine schnellere Überprüfung. Darüber hinaus werden sie heute in den folgenden Bereichen heutiger eingesetzt:
Der Begriff Scraping wurde besonders in Verbindung mit den automatisierten Robots verbreitet. Dabei handelt es sich um eine Technologie, die sich im entscheidenden Maße von Crawling unterscheidet. Statt dass die Daten analysiert und zur spätere Aufbereitung gesammelt werden, geht es beim Scraping ganz automatisch um die Kopie von Daten. Das kann in einem durchaus konstruktiven Sinne geschehen, so wie beispielsweise bei den erwähnten Vergleichsportalen. Es gab in den letzten Jahren aber immer wieder Fälle, bei denen versucht wurde, die Inhalte von Seiten kopieren. In Verbindung mit Programmen, die es erlauben, bereits fertige Texte so zu verändern, dass sie kein Plagiat mehr sind, ist es ein Ärgernis für viele Webmaster geworden. Bis auf die automatisierte Technik haben sie aber nichts mit Crawlern zu tun.
Crawler sind im Sinne der Suchmaschinenoptimierung gerne gesehene Helfer. Die Robots sind direkt
und indirekt dafür verantwortlich, wie gut die eigene Seite indexiert wird und wie gut am Ende das
Ranking der eigenen Präsenz ausgefällt. Entsprechend wichtig ist es beispielsweise, dass sich
Webseitenbesitzer sich mit der gezielten Steuerung der Crawler beschäftign. Mit der Hilfe einer
Robots.txt kann jede Webseite den Crawlern eindeutige Anweisungen geben. Ergänzend dazu helfen
Alt-Angaben wie "Nofollow" dabei, dass ein Crawler beispielsweise von der eigenen Seite einem bestimmten
Link nicht folgt. Die gezielte Steuerung der kleinen Programme auf der eigenen Seite verhilft dabei,
die Kontrolle über den indexierten Content zu behalten.
Grundsätzlich kann den Crawlern das Leben auf der eigenen Seite mit verschiedensten Maßnahmen einfach
gemacht werden. Genau das sollte das Ziel auch sein, wenn das Thema in Verbindung mit der
Suchmaschinenoptimierung betrachtet wird. Heute sind die kleinen Helfer zwar beinahe täglich auf
unterschiedlichen Seiten unterwegs, es gibt aber keine Garantie dafür, dass ohne eigene Arbeit auch
wirklich ein perfektes Ergebnis bei der Indexierung erzielt wird. Wenn der Webseitenbetreiber sich
aber herransetzt und den Crawlern dabei hilft, die eigene Seite zu durchsuchen und alle Inhalte,
die erkannt werden sollen, zu erkennen, sind sie ein wichtiges Mittel auf dem Weg zu einer guten
Positionierung in der Suchmaschine.