Duplicate Content ist doppelter Inhalt bzw. duplizierter Inhalt auf Webseiten. Er kann auf verschiedene Weise entstehen und muss überwiegend vermieden werden. Das ist allerdings nicht grundsätzlich und durchgehend zwingend. Es gibt Webseiten, die sich selbst auf Unterseiten zitieren und damit natürlich keinerlei geistigen Diebstahl begehen. Diese Duplikate sind legitim, es sollten jedoch nofollow-Links auf sie verweisen, damit sie die Crawler nicht abwechselnd mit dem Originalcontent indexieren. Dann gibt es noch den Fall, das Webmaster unter anderen URLs ihre eigenen Inhalte erneut zitieren. Das ist SEO-technisch heikel, wenn auch im Prinzip (urheberrechtlich) erlaubt. Strafwürdig ist gestohlener Content von anderen Webseiten. Die Suchmaschinen belegen ihn früher oder später mit einer Penalty (Strafe), hinzu können ernste Probleme mit dem Urheberrecht kommen. Definiert ist Duplicate Content als identischer Inhalt, der unter verschiedenen URLs publiziert wird, unabhängig davon, wem diese URLs gehören. Es gibt externen und internen duplizierten Inhalt.
Wortgleiche Texte (mehr als fünf bis sieben Worte wiederholen sich exakt) sind eindeutig Duplicate Content. Wenn es sich um Zitate handelt, müssen sie als solche gekennzeichnet werden. Doch es können auch Spinning-Texte, bei denen Satzbausteine umgestellt werden, als doppelter Inhalt gelten. Das wäre folgender Fall:
Intern kann doppelter Inhalt entstehen, weil ein Herausgeber denselben Inhalt in seiner
Domain auf verschiedenen Unterseiten benötigt. Ein Maschinenbauunternehmen äußert sich in
der Kategorie CAD/CAM Maschinen zur Funktionsweise und dem Einsatz dieser Maschinen, verlinkt
dann auf eine der Maschinen und wiederholt bei deren Beschreibung wesentliche Inhalte
(einige Sätze) aus der Kategoriebeschreibung. Das ist inhaltlich ausdrücklich sinnvoll,
es liegt selbstverständlich auch keine Urheberrechtsverletzung vor. Nur für den Crawler
ist es Duplicate Content. Der Webmaster kann nun den Link aus der Oberkategorie auf die
Einzelmaschine mit einem NoFollow-Attribut versehen, damit der Crawler die Einzelmaschine
nicht gesondert indexiert und damit den doppelten Inhalt gar nicht findet. Das hätte
allerdings den Nachteil, dass ein Nutzer, der speziell diese Maschine sucht, sie nicht
mehr in der Suchmaschine entdeckt. Hier entsteht ein echtes Dilemma, das nur dadurch
aufzulösen ist, dass der zweite Text komplett gespinnt (umgeschrieben) wird. Das geht,
ist aber gerade bei technischen Texten sehr aufwendig.
Externer Duplicate Content ist doppelter Inhalt auf völlig verschiedenen Domains. Entweder
hat ein Webmaster per Copy&Paste Inhalte von anderen Webseiten gestohlen und damit gleichzeitig
das Urheberrecht verletzt (auch das scraping ["Abkratzen"] zählt dazu), oder er hat für sein
Unternehmen eine neue Seite mit einer schickeren URL und teilweise neuen Inhalten aufgebaut
und noch einige Inhalte seiner anderen Seite hineingesetzt. Damit hat er kein Urheberrecht
verletzt, aber für die Suchmaschine doppelten Inhalt produziert. Ungeänderte, mehrfach publizierte
Pressemitteilungen und Content-Einspielungen über RSS-Feeds sowie mehrfach verbreitete Inhalte von
Affiliate-Seiten führen ebenfalls zu den unerwünschten externen Duplikaten.
Google identifiziert mit bestimmten Tools wie CopyScape und innerhalb bestimmter Prozesse wie dem Scheduling und der Indexierung doppelte Inhalte. Es folgt manchmal, aber nicht immer eine Penalty, weil in die Algorithmen Toleranzen etwa gegen unbeabsichtigte Doppelungen zum Beispiel intern oder auf neu aufgesetzten Seiten desselben Unternehmens integriert sind. Jedoch weiß der Crawler bei zu vielen Duplikaten nicht, in welcher Reihenfolge die betreffenden Seiten ranken sollen. Der Crawler indexiert sie immer abwechselnd. Das beschädigt automatisch das Ranking beider Seiten (des Originals und des Duplikats). Wenn aber Google unter völlig verschiedenen Domains dieselben Inhalte findet und es vollkommen unwahrscheinlich ist, dass diese Domains vom selben Herausgeber stammen, wird doppelter Content manchmal abgestraft (auch manuell). Zumindest das Ranking der duplizierenden Seiten leidet stark. Die Suchmaschinenbetreiber möchten ihren Usern Mehrwerte bieten, die durch inhaltliche Doppelungen gerade nicht entstehen. Es ist allerdings zu erwähnen, dass interner Duplicate Content nicht unbedingt vollständig indexiert wird: Wenn zu viele Seiten mit gleichem Inhalt unter einer Domain auftauchen, bricht Google das Crawling ab. Das kann dazu führen, dass der Crawler wichtige URLs nicht mehr indexiert. Google spart damit auch Speicherkapazitäten.
Es gibt technische Möglichkeiten wie die NoFollow-Links gegen das Indexieren interner Doppelungen, außerdem sollen Inhalte möglichst neu erstellt werden. Wie schon erwähnt ist Spinning aber gang und gäbe und scheint gut zu funktionieren. Eine technische Möglichkeit ist das spezielle Kennzeichnen von Inhalten für mobile Seiten, um diese vom "Google Bot mobile" indexieren zu lassen. Noch eleganter ist Responsive Webdesign, das eine Anpassung der Seite an das Endgerät bewirkt und damit das gesonderte Erstellen von Ausgaben für mobile Endgeräte (mit doppelten Inhalten) überflüssig macht. Das Kopieren von Inhalten aus fremden Quellen ist absolut verpönt und wird vollkommen zu Recht abgestraft, wenn es entdeckt wird. Wenn schon fremde Informationen verwertet werden (müssen), sollte der Autor stets seine eigene Meinung und Infos aus anderen Quellen hinzufügen, um Duplicate Content zu vermeiden.
Matt Cutts erklärt wie Google damit umgeht. (engl.)
Mit dem Aufruf des Videos erklärst Du Dich einverstanden, dass Deine Daten an YouTube übermittelt werden und das Du die Datenschutzerklärung gelesen hast.