Lädt...
Home /  Lexikon /  Crawler

Allgemeines zum Crawler

Die Crawler - manchmal auch Webcrawler oder Spider - sind automatisierte Programme, die bestimmte Inhalte im Internet durchsuchen, überprüfen, analysieren und schließlich indexieren. In den meisten Fällen dürfte der Begriff vor allem durch die Arbeit mit Suchmaschinen bekannt sein. Die Crawler durchsuchen im Auftrag von Google das Internet und bauen den Index für die SERPs auf. Tatsächlich gibt es aber auch einige privat eingesetzt Crawler mit unterschiedlichen Aufgaben. In jedem Fall sind es die Crawler von Google, deren analysierte Daten darüber entscheiden, wie gut das Ranking der eigenen Seite in den Suchmaschinen aussieht.

  • Crawler

Die Funktionsweise eines Crawlers

Der Begriff Crawler ist noch ein Relikt aus den frühen Zeiten des Internets. Damals entstand mit dem "Webcrawler" die erste Suchmaschine, die auch nach heutigen Ansprüchen so bezeichnet werden kann. 1994 begann daher die Arbeit, die verschiedenen Seiten im Internet in einer Volltext-Version zu indexieren. Der Aufwand war dabei natürlich geringer aber es zeigte auch recht schnell, mit was für einer Geschwindigkeit das Internet am wachsen war. In einer alten Tradition werden die Programme noch heute genannt. Neben dem "Crawler" sind aber auch die Begriffe Robots oder Spider üblich. Angesichts dessen, dass sich die Crawler wie eine Spinne durch das "Web", also das Netz, bewegen, ist der Name auch durchaus passend.

Die Funktionsweise ist vergleichsweise einfach: Ein Crawler wird mit klaren Aufgaben programmiert, die er im Anschluss ohne Hilfe und ohne weitere Eingaben bewältigen kann. In der Regel ist das Ziel eines solchen Programmes, verschiedene Informationen zu sammeln. Im Fall von Google werden beispielsweise Inhalte und andere Parameter abgefragt, die für den Google Index und den Algorithmus von Bedeutung sind. Die Besonderheit liegt darin, dass der Crawler in der Regel jedem Link folgen kann, den er auf einer entsprechenden Seite entdeckt. Die Grenzen werden dabei alleine vom Programmierer gesetzt. Da die Periode des Durchsuchens und die Zahl der maximalen Seiten vollkommen individuell einstellbar ist, kann es schon einmal passieren, dass das Programm mehrere Tage unterwegs ist. So passiert es manchmal, dass bereits durchsuchte Seiten wieder neue Inhalte haben, bevor der "Spider" wieder bei ihnen ankommt.

Angeblich machen die verschiedenen Formen der Crawler heute rund 30% des Traffic im Internet aus. Angesichts der Vielzahl an Suchmaschinen, der unterschiedlichen privaten Anwender und der reinen Zahl von Webseiten, die jeden Tag durchsucht werden müssen, ist das vermutlich keine abwegige Schätzung.

Typische Einsatzgebiete von Crawlern in der heutigen Technik

Der Einsatz der Crawler-Technologie ist natürlich längst nicht mehr auf die Suchmaschinen und erst recht nicht auf Google begrenzt. Viele private und kommerzielle Projekte nutzen die automatisierte Technik dahinter zur Analyse und zur Erfassung unterschiedlicher Daten. Dabei agieren sie in der Regel in einem kleineren Umfeld und müssen keine Milliarden von Webseiten jeden Tag untersuchen. Dabei gibt es Crawler-Techniken, die sich auf bestimmte Bereiche konzentrieren. Mit einem Focus ist es beispielsweise möglich, dass die Robots nur Themen mit dynamischen Inhalten oder einem bestimmten Content-Bereich untersuchen. Das erlaubt eine gründlichere Analyse oder eben eine schnellere Überprüfung. Darüber hinaus werden sie heute in den folgenden Bereichen heutiger eingesetzt:

  • Data-Mining: Beim Data-Mining versuchen die Crawler spezifizierte Daten zu erheben. Das können E-Mail-Adressen sein oder auch nur neuste Zahlen aus Geschäftsberichten. Fraglos ist das Data-Mining durchaus dafür geeignet, Probleme mit den Daten zu verursachen. Es ist für viele Anbieter von Daten aber auch sehr nützlich.
  • Plagiate: Besonders interessant ist der Einsatz auf der Suche nach Plagiaten. Während Google die Technik für die Suche nach Duplicate Content nutzt, kann mit der Hilfe von Crawlern herausgefunden werden, ob und in welcher Stärke Plagiate von Texten im Netz zu finden sind.
  • Kopien: Das sogenannte Scraping wird beispielsweise bei Vergleichsportalen eingesetzt und sorgt dafür, dass stets die aktuellen Preise vorhanden sind. Gerade das Scraping hat aber durchaus bereits für Probleme gesorgt.
Die Technik für Crawler wird immer weiter entwickelt und vor allem dank der künstlichen Intelligenz und der Stärkung von Algorithmen ist es heute möglich, dass die kleinen aber intelligenten Roboter Aufgaben von beachtlicher Komplexität erledigt bekommen.

Scraping und Crawling - was ist der Unterschied?

Der Begriff Scraping wurde besonders in Verbindung mit den automatisierten Robots verbreitet. Dabei handelt es sich um eine Technologie, die sich im entscheidenden Maße von Crawling unterscheidet. Statt dass die Daten analysiert und zur spätere Aufbereitung gesammelt werden, geht es beim Scraping ganz automatisch um die Kopie von Daten. Das kann in einem durchaus konstruktiven Sinne geschehen, so wie beispielsweise bei den erwähnten Vergleichsportalen. Es gab in den letzten Jahren aber immer wieder Fälle, bei denen versucht wurde, die Inhalte von Seiten kopieren. In Verbindung mit Programmen, die es erlauben, bereits fertige Texte so zu verändern, dass sie kein Plagiat mehr sind, ist es ein Ärgernis für viele Webmaster geworden. Bis auf die automatisierte Technik haben sie aber nichts mit Crawlern zu tun.

Der Umgang mit Crawlern im Bereich der Suchmaschinenoptimierung

Crawler sind im Sinne der Suchmaschinenoptimierung gerne gesehene Helfer. Die Robots sind direkt und indirekt dafür verantwortlich, wie gut die eigene Seite indexiert wird und wie gut am Ende das Ranking der eigenen Präsenz ausgefällt. Entsprechend wichtig ist es beispielsweise, dass sich Webseitenbesitzer sich mit der gezielten Steuerung der Crawler beschäftign. Mit der Hilfe einer Robots.txt kann jede Webseite den Crawlern eindeutige Anweisungen geben. Ergänzend dazu helfen Alt-Angaben wie "Nofollow" dabei, dass ein Crawler beispielsweise von der eigenen Seite einem bestimmten Link nicht folgt. Die gezielte Steuerung der kleinen Programme auf der eigenen Seite verhilft dabei, die Kontrolle über den indexierten Content zu behalten.

Grundsätzlich kann den Crawlern das Leben auf der eigenen Seite mit verschiedensten Maßnahmen einfach gemacht werden. Genau das sollte das Ziel auch sein, wenn das Thema in Verbindung mit der Suchmaschinenoptimierung betrachtet wird. Heute sind die kleinen Helfer zwar beinahe täglich auf unterschiedlichen Seiten unterwegs, es gibt aber keine Garantie dafür, dass ohne eigene Arbeit auch wirklich ein perfektes Ergebnis bei der Indexierung erzielt wird. Wenn der Webseitenbetreiber sich aber herransetzt und den Crawlern dabei hilft, die eigene Seite zu durchsuchen und alle Inhalte, die erkannt werden sollen, zu erkennen, sind sie ein wichtiges Mittel auf dem Weg zu einer guten Positionierung in der Suchmaschine.