Eine der Problem der Onsite SEO ist Duplicated Content, also wenn Inhalte auf einer Seite (meist ungewollt) doppelt vorhanden sind.
Duplicate Content: die Problemstellung
Duplicate Content habe ich nicht, magst du vielleicht jetzt voller Inbrunst sagen. Mit allergrößter Wahrscheinlichkeit gründet sich eben diese Inbrunst allein darauf, dass du nicht vollends darüber im Bilde bist, was Duplicate Content überhaupt ist.
Du hast darauf geachtet, dass die Inhalte deiner Seite nicht an mehreren Stellen gleichzeitig vorkommen? Klingt gut. Du sorgst dafür, dass deine Inhalte nicht von Dritten gefragt oder ungefragt verwendet werden, so dass du sicherstellen kannst, dass es deine Inhalte nur auf deiner Seite gibt? Klingt auch gut.
Leider hast du damit nur die eher untergeordneten Probleme abgedeckt. Denn die allermeisten Fälle von Duplicate Content haben technische Ursachen.
Bleiben wir noch kurz bei dem Problem, dass Duplicate Content dadurch entsteht, dass andere Seitenbetreiber deine Inhalte übernehmen, etwa im Rahmen von Content-Partnerschaften. Sicherheit vor den negativen Folgen des Erspürens von Duplicate Content seitens der Suchmaschinenbetreiber bringt dir hier schon ein Link am Ende des jeweiligen Inhalts, der zurück auf dein Original führt. Zweckmäßigerweise schreibst du sowas wie „Dieser Beitrag erschien im Original auf DeineSeite” dazu und die Suchmaschine hat genügend Anhaltspunkte, wo der Ursprung des Inhalts denn nun liegt.
Die Suchmaschine und Du: Vereint im gleichen Interesse
Schlussendlich ist Duplicate Content in allererster Linie gar nicht so sehr dein Problem, sondern eines der Suchmaschine. Der Wert einer Suchmaschine für deren Nutzer definiert sich schließlich über das Ergebnis. Der Nutzer will relevante Inhalte zu seinem Suchbegriff erhalten. Die Suchmaschine wiederum wird durch mehrfach vorhandene Inhalte mindestens verwirrt und kann ohne Hilfe nur schwer erkennen, welcher der fünf gleichlautenden Texte denn nun das Original ist.
Weil du andererseits wiederum auf die Suchmaschine angewiesen bist, damit deine Besucher zu dir finden, können Google und Co sehr leicht den Spieß umdrehen und deren Problem zu deinem machen. In der Tat ist es letzlich auch wirklich dein Problem, wenn Google einen Besucher auf die fünfte Kopie deines Originals leitet, anstatt ihn zu dir als Urheber des Inhalts zu leiten.
Einigen wir uns also darauf, dass eine Interessenkongruenz vorliegt. Suchmaschinen wollen relevante Originale finden und du möchtest, dass Suchmaschinen deine relevanten Originale anzeigen.
Die Folgen von Duplicate Content: Bis einer heult
Hinsichtlich der Folgen von Duplicate Content streiten sich die Gelehrten, obwohl zumindest Google sich eigentlich recht deutlich positioniert. Danach gibt es nicht etwa Strafen (Penalties) für doppelte Inhalte.
Negative Folgen, allen voran ein schlechteres Ranking, ergeben sich vornehmlich aus dem Problem an sich. Wenn Originalinhalte nicht zweifelsfrei identifiziert werden können, laufen sie halt Gefahr, sich die Aufmerksamkeit mit ihren Kopien teilen zu müssen. Google wird sich algorithmisch schlussendlich für eine Version entscheiden, die dann allen anderen den Rang ablaufen wird, im Zweifel aber doch nicht das Original ist.
Gewollter Duplicate Content auf den eigenen oder externen Seiten
Behandeln wir nun also zunächst den Fall, dass du gewollt mehrere Ausgaben des gleichen Inhalts auf deiner Seite hast. Suchmaschinen indexieren nun alle Versionen und schon besteht das Problem der Relevanzauswahl. Noch schlechter wirkt sich allerdings die Möglichkeit aus, dass sich nun externe Verlinkungen auf alle Versionen verteilen, was den einzelnen Inhalt unter SEO-Aspekten schwächt. Würde eine gebündelte Linksetzung auf nur einen Inhalt erfolgen, wäre das sehr viel wirkungsvoller.
An dieser Stelle nutzt du das Konzept der „Canonical URL”. Diese Canonical URL ist derjenige Inhalt, den du als das Original definierst. Nun trägst du eben diese Original-URL als Canonical URL im Kopf der Pages ein, die die Kopien beherbergen. Das geht so:
<link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish" />
(Das Beispiel stammt aus dem Google Webmaster Central Blog)
Die Suchmaschine erkennt nun diesen Hinweis als eine Art von Redirect, also eine Weiterleitung zum Originalinhalt. Diese Form des Redirect ist die weiche Variante des per Htaccess zu setzenden 301 als permanentem Redirect, der uns in diesem Zusammenhang nichts nutzen würde.
Soviel zu internem Duplicate Content. Hast du keinen Zugriff auf den Kopf der Seite, auf der dein Inhalt erscheint, so kannst du auf den weiter oben genannten Tipp zurückgreifen und den Link auf die Original-URL manuell ans Ende oder den Beginn oder eine sonstige logische Stelle des doppelten Inhalts setzen. Für den Leser würde ich, selbst bei Zugriff auf den Seitenkopf stets auch den Link mit Erläuterungstext setzen. Denn dem erschließt sich der kanonische Link im Seitenkopf schließlich gar nicht.
Ungewollter Duplicate Content auf externen Seiten
Bei nicht autorisierter Nutzung deiner Inhalte irgendwo im Netz, hast du natürlich weder die Möglichkeit einen 301, einen Canonical Link im Seitenkopf oder auch nur einen gewöhnlichen Link im Text zu setzen, um dein Original zu kennzeichnen.
Allenfalls letzteres könnte dir gelingen, indem du dafür sorgst, dass dein RSS-Feed am Ende jeden Artikels stets den Backlink zum Original auf deiner Seite beinhaltet. Sogenannte Scraper-Sites, die ihre Inhalte ausschließlich mit dem Abräumen fremder RSS-Feeds generieren, könnten sich auf die Übernahme des Inhaltes, so wie er im RSS-Feed steht, beschränken, womit auch dein Backlink präsent bliebe. Der professionellere Scraper entfernt automatisiert derlei Links, aber einen Versuch ist es auf jeden Fall wert, zumal der Aufwand nur einmalig in der Konfiguration des Feeds entsteht.
Die erste Schwierigkeit besteht indes schon darin, überhaupt nur externen Duplicate Content zu finden. Hier kommen spezielle Suchmaschinen ins Spiel, etwa Copyscape. Hier reicht es, deine URL einzugeben. Der Dienst durchforstet sodann das Netz nach Inhalten, die denen auf deiner Website gleichen. So sieht etwa das Suchergebnis für Dr. Web aus:
Liegen bereits konkrete Verdachtsmomente vor, reicht schon eine simple Google-Suche. Kopiere einen oder zwei Sätze aus dem Inhalt, den es zu suchen gilt, und füge sie in Klammern in den Suchschlitz bei Google ein. Als Ergebnis erhältst du alle Seiten, auf denen exakt diese Formulierung gefunden werden kann. In gleicher Weise kannst du natürlich nach Titeln oder anderen Inhaltsbestandteilen, mit der Bildersuche sogar nach Bildern, suchen lassen.
Jetzt kannst du mit dem Seitenbetreiber Kontakt aufnehmen und ihn auffordern, die Inhalte zu entfernen. Ebenso kannst du dich auf diese Weise bei verschiedenen rechtlichen Problemen an Google wenden. Für das gezielte Melden von Urheberrechtsverletzungen (DMCA) hält Google dieses Formular vor.
Ungewollter Duplicate Content auf den eigenen Seiten
Das weitaus größte Problem stellt Duplicate Content auf deinen eigenen Seiten dar. Du glaubst es nicht, aber es ist definitiv so. Dabei beabsichtigst du das natürlich nicht und unterstützt es auch nicht absichtlich. Der Grund für Duplicate Content auf deiner Website ist zu fast 100 Prozent technischer Natur.
Moderne Content Management Systeme bieten dir die Flexibilität, deine Inhalte unter einer Vielzahl von unterschiedlichen URLs zugänglich zu machen. Nehmen wir WordPress als Beispiel. Hier könntest du ein und denselben Beitrag über die Beitrags-URL, eine URL, die den Autor mit drin hat oder eine URL, die die Kategorie beinhaltet erreichen. Weiterhin könntest du eine URL mit verschiedenen Parametern, etwa zur Pagination, zur Sortierung oder einem Tracking, verwenden, die ebenfalls auf den gleichen Inhalt zeigt. So hättest du astreinen Duplicate Content erzeugt, ohne dir dessen auch nur bewusst zu sein.
Eine weitere, beliebte Quelle für Duplicate Content sind druckerfreundliche Seiten, die immer noch vielfach anstelle eines Print-Stylesheets im Umlauf sind. Häufig gehen diese angepassten Seiten dann als besonders relevant durch, weil sie nur noch den reinen Inhalt darstellen und das gesamte störende Umfeld fehlt. Gewollt ist das nicht…
Ebenso problematisch ist es, wenn Seiten sowohl mit www als auch ohne www, sowohl mit HTTPS als auch nur mit HTTP, sowohl mit endendem Slash als auch ohne selbigen aufrufbar sind. All diese Varianten erzeugen Duplicate Content.
Einen ersten Einstiel in die Suche nach Duplicate Content auf der eigenen Seite bieten die Google Webmaster Tools. Hier öffnest du „Darstellung in der Suche” und danach „HTML-Verbesserungen”. Der folgende Bildschirm sieht bei Dr. Web so aus:
Gibt es Seiten mit Doppelungen in Titel oder Beschreibung, findest du diese hier gelistet. Ein Ergebnis in dieser Liste spräche für die Existenz doppelter Inhalte, denen du dann leicht auf die Spur kämest.
Ähnlich wie Copyscape für externe Seiten arbeitet das Tool Siteliner für deine eigenen Inhalte. Hier bekommst du akribisch recherchierte Auswertungen, die sich zunächst dramatischer lesen als sie am Ende wirklich sind. Das liegt daran, dass hier wirklich jede Dublette gefunden und sichtbar gemacht wird. Dabei werden die meisten allerdings gewollte Dubletten, wie etwa die Autorenboxen unter den Beiträgen, sein.
Strukturelles Vermeiden von Duplicate Content
Die allermeisten Dubletten bekommen wir mit ganz einfachen Mitteln in den Griff, da sie gar keine Dubletten im eigentlichen Wortsinne sind. Vielmehr handelt es sich schlicht um Inhalte, die auf mehreren Wegen aufgerufen werden können.
Das Stichwort lautet dementsprechend: URL-Hygiene.
Zunächst achten wir darauf, dass beim Einsatz von HTTPS auch wirklich immer das entsprechende Protokoll verwendet wird und keine Auslieferungen mehr über HTTP erfolgen. Per Mod_rewrite und htaccess geht das so:
RewriteEngine OnRewriteCond %{HTTPS} !=onRewriteRule ^/?(.*) https://www.drweb.de/$1 [R=301,L]
Um dafür zu sorgen, dass stets das www
in der URL eingesetzt wird, so dass keine Dubletten aufgrund der fehlenden Protokollangabe entstehen, schreibst du:
RewriteEngine OnRewriteCond %{HTTP_HOST} ^drweb.de$RewriteRule (.*) http://www.drweb.de$1 [R=301]
Nun kümmern wir uns noch um den abschließenden Slash am Ende deiner URLs. Das Problem werden nicht viele haben, es ist aber einfach vorbeugend zu beheben. Also, warum nicht? Dieser htaccess-Eintrag sorgt dafür, dass jede URL den abschließenden Slash erhält:
RewriteEngine On%{REQUEST_FILENAME} !-fRewriteRule ^([^/]+)/?$ https://www.drweb.de/$1/ [R=301,L]
Es bleibt dir unbenommen, den umgekehrten Weg zu gehen, um etwa den Slash stets zu vermeiden. Dasselbe gilt für das Erzwingen von www
. Wichtig ist halt nur, dass Konsistenz über die gesamte Website sichergestellt wird.
Überflüssige URLs, die verschiedene Content Management Systeme als zusätzliche Wege zum Inhalt bieten, lassen sich vielfach in den Einstellungen des jeweiligen CMS schlichtweg abschalten. Das ist der beste Weg, diese potenziellen Dubletten zu vermeiden.
Geht das so nicht, kommt als letztes Mittel die Verwendung von noindex
in den Meta-Tags der jeweiligen Seite oder der komplette Ausschluss einzelner Strukturbereiche aus dem Google-Index über die robots.txt
in Betracht. Derlei komplettes Blocken von Inhalten empfiehlt Google allerdings ausdrücklich nicht. Lassen sich unnötige URL-Varianten nicht systemseitig abschalten, solltest du den Canonical Tag zur Anwendung bringen, um auf die URL zu verweisen, die für dich die Original-URL des Inhalts darstellen soll.
Fazit: Probleme mit Duplicate Content hat im Grunde jeder Seitenbetreiber
Die Frage wird in der Regel nicht sein, ob du ein Problem mit Duplicate Content hast, sondern lediglich, in welchem Ausmaß. Glücklicherweise sind alle hier vorgestellten Wege, Dubletten auf den eigenen Seiten zu vermeiden, recht leicht gangbar. Du musst den Aufwand halt einmal investieren.
Eine Antwort
Guter Beitrag, ich dachte ich muss muss mich nicht mit duplicate content beschäftigen. Ihr Beitrag hat mich jetzt überzeugt, diesem Thema mehr Aufmerksamkeit zu schenken. Gibt es den ein Tool, mit dem man untersuchen kann ob der content auf andre Sprache “kopiert” worden ist? z.B. org. Text ist auf Deutsch und die Kopie auf English.
Liebe Grüsse
Marin