Spaces. Smartes Cloud Hosting für anspruchsvolle Webprojekte. Loslegen und Spaces testen. Von Mittwald.
Dieter Petereit 23. Juni 2017

SEO: So gehst du mit Duplicate Content um

Warum ist Duplicate Content ein Problem und wie löst du es? Diese Fragen beant­wor­ten wir dir im fol­gen­den Beitrag.

Duplicate Content: die Problemstellung

Duplicate Content habe ich nicht, magst du viel­leicht jetzt vol­ler Inbrunst sagen. Mit aller­größ­ter Wahrscheinlichkeit grün­det sich eben die­se Inbrunst allein dar­auf, dass du nicht voll­ends dar­über im Bilde bist, was Duplicate Content über­haupt ist.

Du hast dar­auf geach­tet, dass die Inhalte dei­ner Seite nicht an meh­re­ren Stellen gleich­zei­tig vor­kom­men? Klingt gut. Du sorgst dafür, dass dei­ne Inhalte nicht von Dritten gefragt oder unge­fragt ver­wen­det wer­den, so dass du sicher­stel­len kannst, dass es dei­ne Inhalte nur auf dei­ner Seite gibt? Klingt auch gut.

Leider hast du damit nur die eher unter­ge­ord­ne­ten Probleme abge­deckt. Denn die aller­meis­ten Fälle von Duplicate Content haben tech­ni­sche Ursachen.

Bleiben wir noch kurz bei dem Problem, dass Duplicate Content dadurch ent­steht, dass ande­re Seitenbetreiber dei­ne Inhalte über­neh­men, etwa im Rahmen von Content-Partnerschaften. Sicherheit vor den nega­ti­ven Folgen des Erspürens von Duplicate Content sei­tens der Suchmaschinenbetreiber bringt dir hier schon ein Link am Ende des jewei­li­gen Inhalts, der zurück auf dein Original führt. Zweckmäßigerweise schreibst du sowas wie „Dieser Beitrag erschien im Original auf DeineSeite” dazu und die Suchmaschine hat genü­gend Anhaltspunkte, wo der Ursprung des Inhalts denn nun liegt.

Die Suchmaschine und Du: Vereint im gleichen Interesse

Schlussendlich ist Duplicate Content in aller­ers­ter Linie gar nicht so sehr dein Problem, son­dern eines der Suchmaschine. Der Wert einer Suchmaschine für deren Nutzer defi­niert sich schließ­lich über das Ergebnis. Der Nutzer will rele­van­te Inhalte zu sei­nem Suchbegriff erhal­ten. Die Suchmaschine wie­der­um wird durch mehr­fach vor­han­de­ne Inhalte min­des­tens ver­wirrt und kann ohne Hilfe nur schwer erken­nen, wel­cher der fünf gleich­lau­ten­den Texte denn nun das Original ist.

Weil du ande­rer­seits wie­der­um auf die Suchmaschine ange­wie­sen bist, damit dei­ne Besucher zu dir fin­den, kön­nen Google und Co sehr leicht den Spieß umdre­hen und deren Problem zu dei­nem machen. In der Tat ist es letz­lich auch wirk­lich dein Problem, wenn Google einen Besucher auf die fünf­te Kopie dei­nes Originals lei­tet, anstatt ihn zu dir als Urheber des Inhalts zu lei­ten.

Einigen wir uns also dar­auf, dass eine Interessenkongruenz vor­liegt. Suchmaschinen wol­len rele­van­te Originale fin­den und du möch­test, dass Suchmaschinen dei­ne rele­van­ten Originale anzei­gen.

Die Folgen von Duplicate Content: Bis einer heult

Hinsichtlich der Folgen von Duplicate Content strei­ten sich die Gelehrten, obwohl zumin­dest Google sich eigent­lich recht deut­lich posi­tio­niert. Danach gibt es nicht etwa Strafen (Penalties) für dop­pel­te Inhalte.

Negative Folgen, allen vor­an ein schlech­te­res Ranking, erge­ben sich vor­nehm­lich aus dem Problem an sich. Wenn Originalinhalte nicht zwei­fels­frei iden­ti­fi­ziert wer­den kön­nen, lau­fen sie halt Gefahr, sich die Aufmerksamkeit mit ihren Kopien tei­len zu müs­sen. Google wird sich algo­rith­misch schluss­end­lich für eine Version ent­schei­den, die dann allen ande­ren den Rang ablau­fen wird, im Zweifel aber doch nicht das Original ist.

Gewollter Duplicate Content auf den eigenen oder externen Seiten

Behandeln wir nun also zunächst den Fall, dass du gewollt meh­re­re Ausgaben des glei­chen Inhalts auf dei­ner Seite hast. Suchmaschinen inde­xie­ren nun alle Versionen und schon besteht das Problem der Relevanzauswahl. Noch schlech­ter wirkt sich aller­dings die Möglichkeit aus, dass sich nun exter­ne Verlinkungen auf alle Versionen ver­tei­len, was den ein­zel­nen Inhalt unter SEO-Aspekten schwächt. Würde eine gebün­del­te Linksetzung auf nur einen Inhalt erfol­gen, wäre das sehr viel wir­kungs­vol­ler.

An die­ser Stelle nutzt du das Konzept der „Canonical URL”. Diese Canonical URL ist der­je­ni­ge Inhalt, den du als das Original defi­nierst. Nun trägst du eben die­se Original-URL als Canonical URL im Kopf der Pages ein, die die Kopien beher­ber­gen. Das geht so:

<link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish" />

(Das Beispiel stammt aus dem Google Webmaster Central Blog)

Die Suchmaschine erkennt nun die­sen Hinweis als eine Art von Redirect, also eine Weiterleitung zum Originalinhalt. Diese Form des Redirect ist die wei­che Variante des per Htaccess zu set­zen­den 301 als per­ma­nen­tem Redirect, der uns in die­sem Zusammenhang nichts nut­zen wür­de.

Soviel zu inter­nem Duplicate Content. Hast du kei­nen Zugriff auf den Kopf der Seite, auf der dein Inhalt erscheint, so kannst du auf den wei­ter oben genann­ten Tipp zurück­grei­fen und den Link auf die Original-URL manu­ell ans Ende oder den Beginn oder eine sons­ti­ge logi­sche Stelle des dop­pel­ten Inhalts set­zen. Für den Leser wür­de ich, selbst bei Zugriff auf den Seitenkopf stets auch den Link mit Erläuterungstext set­zen. Denn dem erschließt sich der kano­ni­sche Link im Seitenkopf schließ­lich gar nicht.

Ungewollter Duplicate Content auf externen Seiten

Bei nicht auto­ri­sier­ter Nutzung dei­ner Inhalte irgend­wo im Netz, hast du natür­lich weder die Möglichkeit einen 301, einen Canonical Link im Seitenkopf oder auch nur einen gewöhn­li­chen Link im Text zu set­zen, um dein Original zu kenn­zeich­nen.

Allenfalls letz­te­res könn­te dir gelin­gen, indem du dafür sorgst, dass dein RSS-Feed am Ende jeden Artikels stets den Backlink zum Original auf dei­ner Seite beinhal­tet. Sogenannte Scraper-Sites, die ihre Inhalte aus­schließ­lich mit dem Abräumen frem­der RSS-Feeds gene­rie­ren, könn­ten sich auf die Übernahme des Inhaltes, so wie er im RSS-Feed steht, beschrän­ken, womit auch dein Backlink prä­sent blie­be. Der pro­fes­sio­nel­le­re Scraper ent­fernt auto­ma­ti­siert der­lei Links, aber einen Versuch ist es auf jeden Fall wert, zumal der Aufwand nur ein­ma­lig in der Konfiguration des Feeds ent­steht.

Die ers­te Schwierigkeit besteht indes schon dar­in, über­haupt nur exter­nen Duplicate Content zu fin­den. Hier kom­men spe­zi­el­le Suchmaschinen ins Spiel, etwa Copyscape. Hier reicht es, dei­ne URL ein­zu­ge­ben. Der Dienst durch­fors­tet sodann das Netz nach Inhalten, die denen auf dei­ner Website glei­chen. So sieht etwa das Suchergebnis für Dr. Web aus:

Liegen bereits kon­kre­te Verdachtsmomente vor, reicht schon eine simp­le Google-Suche. Kopiere einen oder zwei Sätze aus dem Inhalt, den es zu suchen gilt, und füge sie in Klammern in den Suchschlitz bei Google ein. Als Ergebnis erhältst du alle Seiten, auf denen exakt die­se Formulierung gefun­den wer­den kann. In glei­cher Weise kannst du natür­lich nach Titeln oder ande­ren Inhaltsbestandteilen, mit der Bildersuche sogar nach Bildern, suchen las­sen.

Jetzt kannst du mit dem Seitenbetreiber Kontakt auf­neh­men und ihn auf­for­dern, die Inhalte zu ent­fer­nen. Ebenso kannst du dich auf die­se Weise bei ver­schie­de­nen recht­li­chen Problemen an Google wen­den. Für das geziel­te Melden von Urheberrechtsverletzungen (DMCA) hält Google die­ses Formular vor.

Ungewollter Duplicate Content auf den eigenen Seiten

Das weit­aus größ­te Problem stellt Duplicate Content auf dei­nen eige­nen Seiten dar. Du glaubst es nicht, aber es ist defi­ni­tiv so. Dabei beab­sich­tigst du das natür­lich nicht und unter­stützt es auch nicht absicht­lich. Der Grund für Duplicate Content auf dei­ner Website ist zu fast 100 Prozent tech­ni­scher Natur.

Moderne Content Management Systeme bie­ten dir die Flexibilität, dei­ne Inhalte unter einer Vielzahl von unter­schied­li­chen URLs zugäng­lich zu machen. Nehmen wir WordPress als Beispiel. Hier könn­test du ein und den­sel­ben Beitrag über die Beitrags-URL, eine URL, die den Autor mit drin hat oder eine URL, die die Kategorie beinhal­tet errei­chen. Weiterhin könn­test du eine URL mit ver­schie­de­nen Parametern, etwa zur Pagination, zur Sortierung oder einem Tracking, ver­wen­den, die eben­falls auf den glei­chen Inhalt zeigt. So hät­test du ast­rei­nen Duplicate Content erzeugt, ohne dir des­sen auch nur bewusst zu sein.

Eine wei­te­re, belieb­te Quelle für Duplicate Content sind dru­cker­freund­li­che Seiten, die immer noch viel­fach anstel­le eines Print-Stylesheets im Umlauf sind. Häufig gehen die­se ange­pass­ten Seiten dann als beson­ders rele­vant durch, weil sie nur noch den rei­nen Inhalt dar­stel­len und das gesam­te stö­ren­de Umfeld fehlt. Gewollt ist das nicht…

Ebenso pro­ble­ma­tisch ist es, wenn Seiten sowohl mit www als auch ohne www, sowohl mit HTTPS als auch nur mit HTTP, sowohl mit enden­dem Slash als auch ohne sel­bi­gen auf­ruf­bar sind. All die­se Varianten erzeu­gen Duplicate Content.

Einen ers­ten Einstiel in die Suche nach Duplicate Content auf der eige­nen Seite bie­ten die Google Webmaster Tools. Hier öff­nest du „Darstellung in der Suche” und danach „HTML-Verbesserungen”. Der fol­gen­de Bildschirm sieht bei Dr. Web so aus:

Gibt es Seiten mit Doppelungen in Titel oder Beschreibung, fin­dest du die­se hier gelis­tet. Ein Ergebnis in die­ser Liste sprä­che für die Existenz dop­pel­ter Inhalte, denen du dann leicht auf die Spur kämest.

Ähnlich wie Copyscape für exter­ne Seiten arbei­tet das Tool Siteliner für dei­ne eige­nen Inhalte. Hier bekommst du akri­bisch recher­chier­te Auswertungen, die sich zunächst dra­ma­ti­scher lesen als sie am Ende wirk­lich sind. Das liegt dar­an, dass hier wirk­lich jede Dublette gefun­den und sicht­bar gemacht wird. Dabei wer­den die meis­ten aller­dings gewoll­te Dubletten, wie etwa die Autorenboxen unter den Beiträgen, sein.

Siteliner im Einsatz

Strukturelles Vermeiden von Duplicate Content

Die aller­meis­ten Dubletten bekom­men wir mit ganz ein­fa­chen Mitteln in den Griff, da sie gar kei­ne Dubletten im eigent­li­chen Wortsinne sind. Vielmehr han­delt es sich schlicht um Inhalte, die auf meh­re­ren Wegen auf­ge­ru­fen wer­den kön­nen.

Das Stichwort lau­tet dem­entspre­chend: URL-Hygiene.

Zunächst ach­ten wir dar­auf, dass beim Einsatz von HTTPS auch wirk­lich immer das ent­spre­chen­de Protokoll ver­wen­det wird und kei­ne Auslieferungen mehr über HTTP erfol­gen. Per Mod_rewrite und htac­cess geht das so:

RewriteEngine On
RewriteCond %{HTTPS} !=on
RewriteRule ^/?(.*) https://www.drweb.de/$1 [R=301,L]

Um dafür zu sor­gen, dass stets das www in der URL ein­ge­setzt wird, so dass kei­ne Dubletten auf­grund der feh­len­den Protokollangabe ent­ste­hen, schreibst du:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^drweb.de$
RewriteRule (.*) http://www.drweb.de$1 [R=301]

Nun küm­mern wir uns noch um den abschlie­ßen­den Slash am Ende dei­ner URLs. Das Problem wer­den nicht vie­le haben, es ist aber ein­fach vor­beu­gend zu behe­ben. Also, war­um nicht? Dieser htac­cess-Eintrag sorgt dafür, dass jede URL den abschlie­ßen­den Slash erhält:

RewriteEngine On
%{REQUEST_FILENAME} !-f
RewriteRule ^([^/]+)/?$ https://www.drweb.de/$1/ [R=301,L]

Es bleibt dir unbe­nom­men, den umge­kehr­ten Weg zu gehen, um etwa den Slash stets zu ver­mei­den. Dasselbe gilt für das Erzwingen von www. Wichtig ist halt nur, dass Konsistenz über die gesam­te Website sicher­ge­stellt wird.

Überflüssige URLs, die ver­schie­de­ne Content Management Systeme als zusätz­li­che Wege zum Inhalt bie­ten, las­sen sich viel­fach in den Einstellungen des jewei­li­gen CMS schlicht­weg abschal­ten. Das ist der bes­te Weg, die­se poten­zi­el­len Dubletten zu ver­mei­den.

Geht das so nicht, kommt als letz­tes Mittel die Verwendung von noindex in den Meta-Tags der jewei­li­gen Seite oder der kom­plet­te Ausschluss ein­zel­ner Strukturbereiche aus dem Google-Index über die robots.txt in Betracht. Derlei kom­plet­tes Blocken von Inhalten emp­fiehlt Google aller­dings aus­drück­lich nicht. Lassen sich unnö­ti­ge URL-Varianten nicht sys­temsei­tig abschal­ten, soll­test du den Canonical Tag zur Anwendung brin­gen, um auf die URL zu ver­wei­sen, die für dich die Original-URL des Inhalts dar­stel­len soll.

Fazit: Probleme mit Duplicate Content hat im Grunde jeder Seitenbetreiber

Die Frage wird in der Regel nicht sein, ob du ein Problem mit Duplicate Content hast, son­dern ledig­lich, in wel­chem Ausmaß. Glücklicherweise sind alle hier vor­ge­stell­ten Wege, Dubletten auf den eige­nen Seiten zu ver­mei­den, recht leicht gang­bar. Du musst den Aufwand halt ein­mal inves­tie­ren.

Links zum Weiterlesen:

  • Was ist eigent­lich „Duplicate Content“? | Melanie Petersen, t3n
  • Duplicate Content: Causes and Solutions | Joost de Valk, Yoast SEO
  • Duplicate Content SEO Advice From Google | Shaun Anderson, Hobo SEO Services
  • SEO: How to Detect, Correct Duplicate Content Pages | Hamlet Battista, Practical Ecommerce
Dieter Petereit

Dieter Petereit

ist seit 1994 im Netz unterwegs, aber bereits seit über 30 Jahren in der IT daheim. Seit Anfang des neuen Jahrtausends schreibt er für diverse Medien, hauptsächlich zu den Themenfeldern Technik und Design.

Ein Kommentar

  1. Guter Beitrag, ich dach­te ich muss muss mich nicht mit dupli­ca­te con­tent beschäf­ti­gen. Ihr Beitrag hat mich jetzt über­zeugt, die­sem Thema mehr Aufmerksamkeit zu schen­ken. Gibt es den ein Tool, mit dem man unter­su­chen kann ob der con­tent auf and­re Sprache “kopiert” wor­den ist? z.B. org. Text ist auf Deutsch und die Kopie auf English.
    Liebe Grüsse
    Marin

Schreibe einen Kommentar zu Marin Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.