Lädt...

Duplicate Content

Vermeide unbedingt das Duplizieren von Inhalten
Home /  Duplicate Content

Duplicate Content

Duplicate Content ist doppelter Inhalt bzw. duplizierter Inhalt auf Webseiten. Er kann auf verschiedene Weise entstehen und muss überwiegend vermieden werden. Das ist allerdings nicht grundsätzlich und durchgehend zwingend. Es gibt Webseiten, die sich selbst auf Unterseiten zitieren und damit natürlich keinerlei geistigen Diebstahl begehen. Dieser Duplicate Content ist legitim, es sollte jedoch ein nofollow-Link auf ihn verweisen, damit ihn die Crawler nicht abwechselnd mit dem Originalcontent indexieren. Dann gibt es noch den Fall, dass Webmaster unter anderen URLs ihre eigenen Inhalte erneut zitieren und damit Duplicate Content produzieren. Das ist SEO-technisch heikel, wenn auch im Prinzip (urheberrechtlich) erlaubt. Strafwürdiger Duplicate Content ist gestohlener Content von anderen Webseiten. Die Suchmaschinen belegen ihn früher oder später mit einer Penalty (Strafe), hinzu können ernste Probleme mit dem Urheberrecht kommen. Definiert ist Duplicate Content als identischer Inhalt, der unter verschiedenen URLs publiziert wird, unabhängig davon, wem diese URLs gehören. Es gibt externen und internen Duplicate Content.

Wann ist ein Inhalt exakt als Duplicate Content einzustufen?

Wortgleiche Texte (mehr als fünf bis sieben Worte wiederholen sich exakt) sind eindeutig Duplicate Content. Wenn es sich um Zitate handelt, müssen sie als solche gekennzeichnet werden. Doch es können auch Spinning-Texte, bei denen Satzbausteine umgestellt werden, als Duplicate Content gelten. Das wäre folgender Fall:

  • Originalsatz: “Am frühen Morgen ging Robert vor die Tür, um nach dem Wetter zu schauen.”
  • Umgestellter Satz: “Robert ging am frühen Morgen vor die Tür und schaute nach dem Wetter.”
Zu identifizieren sind solche Umstellungen (sogenanntes “Spinning”) durch die Shingle-Technik, die den Satz in seine Bausteine zerlegt und dadurch Spinning-Texte erkennt. In unserem Beitrag Unique Content sind wir bereits darauf eingegangen. Festzuhalten ist allerdings, dass aktuell (Ende 2018) sehr viele Webtexte durch Spinning entstehen (entweder von Autoren produziert oder auch automatisch mit Web-Tools erstellt) und offenbar noch nicht als Duplicate Content gewertet werden, denn die betreffenden Seiten ranken ganz gut.

Wertung durch Google

Google bezeichnet Texte als Duplicate Content, wenn der exakt gleiche Inhalt (es genügen gleiche Sätze oder Abschnitte) über mehrere Domains aufzurufen ist. Das wäre auch der Fall, wenn eine Webseite unter zwei Domains erscheint, von denen eine für den mobilen Aufruf oder besonders druckerfreundlich gestaltet wurde. Betroffen sind oft auch Pressemitteilungen oder Tag-Seiten. Wenn also ein Webmaster eine Pressemitteilung über einen Verteiler an mehrere Presseportale schickt und die Mitteilung dort parallel veröffentlicht wird, produziert er unweigerlich Duplicate Content, auch wenn er selbst der Autor ist bzw. über die Autorenrechte verfügt (die anonyme, bezahlte Autoren an ihn abtreten). Er hat nicht das Urheberrecht verletzt, aber nach Ansicht der Suchmaschinencrawler Duplicate Content produziert. Das kann schlimmstenfalls zu einer Penalty führen. Übersetzungen, Content in Apps und regionale Inhalte gelten übrigens nicht als Duplikate.

Interner und externer Duplicate Content

Intern kann doppelter Inhalt entstehen, weil ein Herausgeber denselben Inhalt in seiner Domain auf verschiedenen Unterseiten benötigt. Ein Maschinenbauunternehmen äußert sich in der Kategorie CAD/CAM Maschinen zur Funktionsweise und dem Einsatz dieser Maschinen, verlinkt dann auf eine der Maschinen und wiederholt bei deren Beschreibung wesentliche Inhalte (einige Sätze) aus der Kategoriebeschreibung. Das ist inhaltlich ausdrücklich sinnvoll, es liegt selbstverständlich auch keine Urheberrechtsverletzung vor. Nur für den Crawler ist es Duplicate Content. Der Webmaster kann nun den Link aus der Oberkategorie auf die Einzelmaschine mit einem nofollow-Attribut versehen, damit der Crawler die Einzelmaschine nicht gesondert indexiert und damit den doppelten Inhalt gar nicht findet. Das hätte allerdings den Nachteil, dass ein Nutzer, der speziell diese Maschine sucht, sie nicht mehr in der Suchmaschine entdeckt. Hier entsteht ein echtes Dilemma, das nur dadurch aufzulösen ist, dass der zweite Text komplett gespinnt (umgeschrieben) wird. Das geht, ist aber gerade bei technischen Texten sehr aufwendig.

Externer Duplicate Content ist doppelter Inhalt auf völlig verschiedenen Domains. Entweder hat ein Webmaster per Copy&Paste Inhalte von anderen Webseiten gestohlen und damit gleichzeitig das Urheberrecht verletzt (auch das scraping ["Abkratzen"] zählt dazu), oder er hat für sein Unternehmen eine neue Seite mit einer schickeren URL und teilweise neuen Inhalten aufgebaut und noch einige Inhalte seiner anderen Seite hineingesetzt. Damit hat er kein Urheberrecht verletzt, aber für die Suchmaschine doppelten Inhalt produziert. Ungeänderte, mehrfach publizierte Pressemitteilungen und Content-Einspielungen über RSS-Feeds sowie mehrfach verbreitete Inhalte von Affiliate-Seiten führen ebenfalls zu den unerwünschten externen Duplikaten.

Identifizierung und Sanktionierung von Duplicate Content durch Google

Google identifiziert mit bestimmten Tools wie CopyScape und innerhalb bestimmter Prozesse wie dem Scheduling und der Indexierung doppelte Inhalte. Es folgt manchmal, aber nicht immer eine Penalty, weil in die Algorithmen Toleranzen etwa gegen unbeabsichtigte Doppelungen zum Beispiel intern oder auf neu aufgesetzten Seiten desselben Unternehmens integriert sind. Jedoch weiß der Crawler bei zu vielen Duplikaten nicht, in welcher Reihenfolge die betreffenden Seiten ranken sollen. Der Crawler indexiert sie immer abwechselnd. Das beschädigt automatisch das Ranking beider Seiten (des Originals und des Duplikats). Wenn aber Google unter völlig verschiedenen Domains dieselben Inhalte findet und es vollkommen unwahrscheinlich ist, dass diese Domains vom selben Herausgeber stammen, wird doppelter Content manchmal abgestraft (auch manuell). Zumindest das Ranking der duplizierenden Seiten leidet stark. Die Suchmaschinenbetreiber möchten ihren Usern Mehrwerte bieten, die durch inhaltliche Doppelungen gerade nicht entstehen. Es ist allerdings zu erwähnen, dass interner Duplicate Content nicht unbedingt vollständig indexiert wird: Wenn zu viele Seiten mit gleichem Inhalt unter einer Domain auftauchen, bricht Google das Crawling ab. Das kann dazu führen, dass der Crawler wichtige URLs nicht mehr indexiert. Google spart damit auch Speicherkapazitäten.

Vermeidung von Duplicate Content

Es gibt technische Möglichkeiten wie die nofollow-Links gegen das Indexieren interner Doppelungen, außerdem sollen Inhalte möglichst neu erstellt werden. Wie schon erwähnt ist Spinning aber gang und gäbe und scheint gut zu funktionieren. Eine technische Möglichkeit ist das spezielle Kennzeichnen von Inhalten für mobile Seiten, um diese vom "Google Bot mobile" indexieren zu lassen. Noch eleganter ist Responsive Webdesign, das eine Anpassung der Seite an das Endgerät bewirkt und damit das gesonderte Erstellen von Ausgaben für mobile Endgeräte (mit doppelten Inhalten) überflüssig macht. Das Kopieren von Inhalten aus fremden Quellen ist absolut verpönt und wird vollkommen zu Recht abgestraft, wenn es entdeckt wird. Wenn schon fremde Informationen verwertet werden (müssen), sollte der Autor stets seine eigene Meinung und Infos aus anderen Quellen hinzufügen, um Duplicate Content zu vermeiden.

Wir entlarven schnell und effektiv Duplicate Content. Meld Dich bei uns - Wir sind eine SEO Agentur Berlin - Sarpen Projects von den TwinGeeks.

Wie Google mit Duplicate Content umgeht

Matt Cutts erklärt wie Google mit Doppeltem Inhalt umgeht. (engl.)