Content

Alles nur geklaut. Wie findet man Plagiate im Netz?

22. Dezember 2008
von

Ein Problem, das so alt wie das Web selbst ist, gute Inhalte werden gerne kopiert, interessante Konzepte werden gerne nachgeahmt und Duplikate werden nur selten gefunden und ausgemerzt. Wer seine Gedanken im Web veröffentlicht (und etwa via RSS verbreitet), muss im Hinterkopf behalten, dass er nicht nur von gut gesinnten Lesern entdeckt und gelesen werden kann. Auch manch ein abgebrühter  Geschäftemacher kann auf der Suche nach ausbeutungswürdigen Quellen darauf stoßen. Und diesen schlicht und einfach als Contentfutter für den eigenen Seitenauftritt nutzen, ohne dabei den Autor um eine Erlaubnis zu bitten oder wenigstens auf den Autor zu verweisen. Schließlich kann man der Seite dadurch mit wenigen Clicks mehr Substanz und Professionalität verschaffen und gesucht wird nach Duplikaten eher selten.

Copyright

Schon bei der Veröffentlichung eines Beitrages haben Sie das exklusive Urheberrecht auf den Beitrag. Um dies noch deutlicher zu machen, nutzen viele Sites das ©, das “copyright”-Zeichen. Auch in Deutschland, obwohl es hier gar kein Copyright gibt. Hier gilt das Urheberrecht. Bildquelle.

Warum sollten Sie auf das Plagiat achten?

Sie wissen nie, auf welchen Seiten Ihre Inhalte auftreten können. In vielen Fällen werden es Spam-Sites sein, die RSS-Feeds ausnutzen, um fremde Inhalte regelmäßig in Tausenden von Spamblogs zu veröffentlichen. Der Zweck der ganzen Geschichte: Google-Traffic anlocken, um mehr Pageviews und mehr Werbeanzeigen einblenden zu können und dadurch Werbeprovisionen zu kassieren. Enthalten solche Seiten einen Backlink zur Quelle des Beitrages, kann auch der Originalbeitrag plötzlich “in eine schlechte Nachbarschaft” geraten, mit Linkfarms, Spamseiten und Seiten mit illegalen Inhalten — vorausgesetzt die Spamseite ist nicht bereits aus dem Index ausgeschlossen. Dies kann unter Umständen das Ranking des Originalbeitrags in Google beeinflussen oder gar zum Ausschluss einer ganz harmlosen Seite aus dem Index führen. Das kann natürlich nicht im Sinne eines wohlwollenden Blog-Betreibers sein.

Was bei “klassischem” Plagiat (Inhalte werden in einem Einzelfall manuell kopiert und eingefügt) für die meisten Suchmaschinen relativ unwichtig ist (sie sind schlau genug, um Originale von Nachahmern zu unterscheiden), ist für Autoren, Journalisten und Blogger eine wichtige Angelegenheit. Denn nicht jeder mag seine Inhalte in merkwürdiger Form zusammen mit recht kreativen Werbeanzeigen sehen. Doch auch für Seitenbetreiber ist es sinnvoll, potenziellen Rechtstreiteren so früh wie möglich vorzubeugen. Etwa damit es nicht peinlich wird, wenn eine bodenständige Internet-Präsenz plötzlich aus dem Google Index entfernt wird, weil ein Mitarbeiter sich fleißig den Texten anderer Web-Auftritte bedient hat.

Kann man sich gegen Plagiat schützen?

Nur bedingt. Wenn Sie einen Beitrag im Web frei veröffentlichen, machen sie ihn automatisch zugänglich für alle — es sei denn, Sie sorgen explizit dafür, dass der Beitrag von Suchmaschinen nicht indiziert wird, und zwar mit einer entsprechenden robots.txt-Datei. Der Urheber von Bildern und anderen Multimedia-Dateien kann durch eingefügte Wasserzeichen eindeutig gekennzeichnet werden. Leider schützt dies nicht gleichzeitig von ungewünschten Kopien Ihrer Dateien (falls diese im Web frei verfügbar sind). Bei Multimedia-Dateien ist das Umgehen mit Plagiat besonders schwierig und mühselig, da die Suche nach solchen Duplikation mit einschlägigen Suchmaschinen beinahe unmöglich ist. Für Urheber ist der Umgang mit illegalen Kopien von Texten deutlich einfacher zu handhaben.

Wie kann man gegen Plagiat effektiv vorgehen?

Dies hängt natürlich vom guten Willen des Betreibers der Site, auf der Sie ein Plagiat entdeckt haben. Häufig reicht etwa eine strenge E-Mail an den Seitenbetreiber vollständig aus, damit ein kopierter Beitrag entfernt wird. Alternativ liefert häufig eine Benachrichtigung des Hosting-Providers der fragwürdigen Seite Abhilfe bereit. Im schlimmsten Fall kann man sich an Google wenden und die Entfernung der Duplikat-Seite aus dem Index beantragen (das entsprechende Online-Formular findet man bei Google unter Digital Millennium Copyright Act Takedown Request). Bei der Bearbeitung der Anfragen nimmt sich Google Zeit, genauso wie bei der Wiederaufnahme einer gesperrten Seite in den Index.

DMCA
Gegen Plagiat kann man effektiv vorgehen. Etwa indem man die Entfernung der Duplikat-Seite aus dem Google Index beantragt. Das entsprechende Formular findet man unter Digital Millennium Copyright Act Takedown Request bei Google.

Doch bevor das Plagiat gemeldet wird, muss ein Duplikat zuerst gefunden werden. Dafür gibt es eine Reihe Online-Tools, die Sie nutzen können, um etwa Quellen von Duplikaten zu unterscheiden oder sicherstellen, dass ein vorliegendes Dokument in der Tat authentisch ist. Beachten Sie, dass sie meistens keine perfekten Ergebnisse liefern. Es lohnt sich immer, das Original mit der Kopie sorgfältig zu vergleichen, bevor man zeit- oder auch kostenintensive Maßnahmen dagegen ergreift.

Online-Tools

  • Copyscape
    Dieses Tools nutzt Google API, um nach Duplikaten einer Web-Seite zu suchen. Die kostenlose Version schränkt sich auf die ersten 10 Ergebnisse ein, der Rest ist nur für Premium-Nutzer verfügbar ($0.05 pro Suche). In den Suchschlitz kann nur die URL-Adresse der Originalseite eingefügt werden.
    Copyscape
  • .htaccess Hotlink Protection
    Dieser Beitrag erklärt, wie man sich gegen Hotlinking der Bilder schützt, damit externe Seiten die Bandbreite Ihres Servers nicht ausnutzen können. Alternative Lösung mit PHP. Außerdem können Sie mit coldlink anti-hotlinking testing tool testen, ob andere Seitenbetreiber Bilder von Ihrem Server laden können.
  • Bad Behavior
    Ein Plugin für WordPress und MediaWiki, mit dem automatisches Kopieren von veröffentlichten Inhalten erschwert wird. Kann das Plugin einen RSS-Leser als SpamBot identifizieren, erhält er keine Benachrichtigungen über neue Beiträge auf Ihrer Seite.
  • Google Alerts
    Um nicht permanent nach Duplikaten suchen zu müssen, können Sie einen Google Alert erstellen, der Sie regelmäßig über neue Kopien Ihrer Arbeit per E-Mail informieren wird. Dabei geben Sie einige Begriffe oder Sätze ein, die Ihr Werk eindeutig identifizieren – um den Rest kümmert sich Google Alerts selbst.
    Google Alerts
  • ©Feed WordPress Plugin
    Dieses Plugin fügt einen digitalen Fingerpint dem RSS-Feed hinzu und kann dies nutzen, um nach Duplikaten in anderen Feeds und Seiten zu verfolgen. Fragwürdige Seiten präsentiert das Tool direkt in der WordPress-Engine. Alternative: Digital Fingerprint Plugin (lässt sich mit Google Alerts kombinieren).
  • PlagiarismDetect.com
    Dieses kostenloses Werkzeug führt eine sorgfältige Analyse der eingefügten Texte aus und präsentiert Ergebnisse in einer detaillierten Übersicht. Um den Dienst nutzen zu können, ist eine Registrierung erforderlich. Der Dienst wurde für Studenten entwickelt, leistet jedoch auch für Webworker eine gute Arbeit.
  • The Plagiarism Checker
    Dieses Tool der Universität des Maryland vergleicht Ausarbeitungen von Studenten und Schülern mit anderen Essays und Hausarbeiten, die in der Datenbank des Systems vorliegen. Es reicht, den Inhalt einer fragwürdigen Arbeit einzufügen, das System liefert eine Liste mit möglichen Quellen als Ergebnis zurück.
    Plagiarism Checker
  • Doc Cop
    Mit diesem Online-Dienst können Sie bis zu 8 PDF- oder DOC-Dokumenten kostenlos miteinander vergleichen und feststellen, ob eines davon die Kopie des anderen ist. Auch der Vergleich eines Dokuments mit verfügbaren Materialen im Web ist möglich. Die Ergebnisse des Vergleich sind ausführlicher als bei anderen Tools — nicht verwunderlich, dass die Bearbeitung eines Dokuments 20-30 Minuten Zeit benötigt. In der kostenlosen Version können nur Textauszüge mit bis zu 50 Wörter analysiert werden. Eine kostenlose Registrierung ist erforderlich.
  • PlagiarismChecker.com
    Dieser Dienst kann Kopien eines Textauszugs mittels Google und Yahoo aufspüren sowie nach Duplikaten einer Webseite suchen. Mit dem Tool können Sie automatisch Google Alerts erstellen und über neue Kopien per E-Mail benachrichtigt werden.
  • Plagiarism.org
    Ein Portal zum Thema Copyright mit zahlreichen Informationen, Hinweisen, Ressourcen und weiterführenden Links zum Thema.
    Plagiarism.org
  • 20 Best Free Anti-Plagiarism Tools
    Eine Übersicht von nützlichen Werkzeugen und Ressourcen zum Thema. ™

Vitaly Friedman ist Buchautor, Autor sowie Entwickler und Designer von benutzerfreundlichen Webseiten. Er ist Chef-Redakteur des Online Magazins Smashing Magazine, das zu den weltweit populärsten Onlinemagazinen für Webdesign zählt und wie Dr. Web zur Smashing Media GmbH gehört. Vitaly studierte Informatik an der Universität des Saarlandes.

21 Kommentare zu „Alles nur geklaut. Wie findet man Plagiate im Netz?
  1. DerLeser am 22. Dezember 2008 um 00:37

    Manchmal helfen kleine Schreibfehler (5 statt S, und ähnliches) in wichtigen (längeren) Texten, um Plagiate schneller aufzufinden. Beispiel: “Die zehn wichtigsten Tipps für Webworker zur 5uchmaschinenoptimierung”. Copy-and-Paste-Plagiate davon findet jede Suchmaschine sofort. Damit das Original nicht für Suchmaschinen ebenfalls unbrauchbar wird, darf der Schreibfehler selbstverständlich kein wichtiges Suchwort betreffen.

  2. helmeloh am 22. Dezember 2008 um 08:12

    Umgekehrt versucht fast jede Seite den Inhalt jeden Besucher mitzugeben und drängt sich förmlich auf. Copy-and-Paste ist die beste Möglichkeit um ein Zitat zu erstellen und richtig auf den Inhalt einer Seite hinzuweisen. Es ist nichts peinlicher, als ein Zitat mit Fehlern, das dem Original schadet, auch wenn es nach dem Zitatrecht sonst ordnungsgemäß gehandhabt wurde. Angemessene Passage mit Link usw.
    RSS-feeds werden nicht nur zum Lesen angeboten, sondern fast jeder freut sich, wenn dieser in eine Seite bzw. ein Blog eingebaut wird. Ich würde statt “alles nur geklaut” eher sagen “alles nur vervielfacht” und zwar oft genug vom Urheber selbst. Wenn ich keine Fehler gemacht habe, stammt kein einziges verwendetes Wort aus meiner eigenen Wortschöpfung und meine Sätze hier sind Permutationen die schon ein Minialgorithmus schafft. Darf ich bitte hier das Patent auf alle möglichen sinnvollen Sätze anmelden. Alle Sätze werden dann in allen Permutationen zu Absätzen zusammengefasst und damit gehört jedes geschriebene Wort mir. Also, meine lieben Urheber und möchtegern Besitzer geistigen Eigentums bitte Tantiemen an mich abliefern. :-)

  3. Helen am 22. Dezember 2008 um 09:20

    Hallo,
    nachdem ich Monate gebraucht habe, um eine funktionierende Hotlinking-Sperre für Sites zu finden, die bei 1&1 gehostet sind, hier der .htaccess-Befehl:

    RewriteEngine On
    RewriteCond %{HTTP_REFERER} !^http://(.+\.)?drweb\.de/ [NC]
    RewriteCond %{HTTP_REFERER} !^$
    RewriteRule .*\.(jpe?g|gif|png)$ /unterordner/copyright.bmp [L]

    Alle anderen Varianten haben nicht funktioniert, ebensowenig die Variante, die 1&1 für seine eigenen Server vorschlägt. Das Ersatzbild copyright.bmp sollte dann das einzige bmp auf der Site sein.

    Von Google würde ich mir eher wünschen, dass dort das Löschverfahren für blog.com vereinfacht wird. Zur Zeit muss man ein Fax (!) nach America schicken, wenn man auf einem der von anonymen Psychopathen geführten Blogs ein Bild von sich entdeckt. Ich verstehe grundsätzlich nicht, wieso die Betreiber solcher Seiten (schlimm auch jappy.de) das Hotlinking nicht generell ausschließen.

  4. Gerd-E. am 22. Dezember 2008 um 14:48

    Ich habe sehr gute Erfahrungen mit PlagAware.de gemacht.
    Ein Interview mit dem Entwickler ist in meinem Blog (Kat. Wirtschaft) zu finden.
    Das Tool arbeitet zuverlässig und ist kostengünstig. Im internationalen Vergleich erzeilt PlagAware beachtenswerte Plätze.

  5. [...] Alles nur geklaut. Wie findet man Plagiate im Netz? [...]

  6. Phil am 24. Dezember 2008 um 10:49

    Die simpelste Art zu überpüfen ob man kopiert wurde ist eigentlich 1-3 Sätze aus seinem Text bei Google einzugeben.

    mfg
    Phil

  7. sys am 28. Dezember 2008 um 15:31

    Wenn ich etwas auf einer Page aussage, dann muß ich einfach davon ausgehen, dass es vielfach weiter verwendet wird. Etwas zu schützen ist selbst bei besten Maßnahmen nicht möglich und unsinnig – Aufwand-Erfolgsrechnung!
    Es gibt etwas ganz einfaches in der Welt – das bessere wird sich immer durchsetzen – die Grundindee vom Darvinismus – und derjenige der kopiert ist bestimmt nicht besser, oder?

  8. domingos am 2. Januar 2009 um 19:37

    Problematisch sind weniger die 1:1-Kopien, sondern das Copy- Shake und Paste. Bei dem ganzen Inhalt im Web entsteht zwangsläufig Redundanz, Nachrichtenrecycling und Ideenklau. Wer wirklich Angst hat, im Netz seiner guten Ideen beraubt zu werden, sollte sich da lieber raushalten.

  9. domingos am 2. Januar 2009 um 19:47

    Was mich übrigens schon immer interssiert hat: Bei wem liegen eigentlich die Urheberrechte für Kommentare? Bei mir oder bei dem Kommentierten?

  10. [...] Plagiatsproblem im Netz wird bei DrWeb Stellung genommen. Hier werden einige interessante Methoden vorgestellt, wie man Kopien findet und [...]

  11. Rene Schmidt am 3. Januar 2009 um 21:01

    @domingos: Ob das Urheberrecht überhaupt greift, hängt von der Schöpfungshöhe des Werkes ab. Ein einfacher “Und Apple”-Kommentar ist langweilig und hat IMHO eine negative Schöpfungshöhe und ist wohl nicht vom Urheberrecht gedeckt. Es sei denn, jemand sieht solche Kommentare als Kunst an :)

    Im Zweifel kann Dir aber nur ein Rechtsanwalt bei dieser Frage weiterhelfen.

  12. Lukas Drescher am 5. Januar 2009 um 16:10

    Auch ein sehr interessanter Artikel. Bei einem kleinen Check mithilfe der Onlinetools ist jedoch glücklicherweise noch nichts besonders Negatives aufgefallen. Meine Frage hierzu ist jedoch, ob es dann nicht möglich ist mit gezielten Copy und Paste Aktionen einer Seite SEO – bezogen zu schaden, ala doubleContent? Falls ja, wie kann man sich schützen gegen solche Angriffe?

    Danke, Lukas

  13. Rene Schmidt am 6. Januar 2009 um 12:07

    @Lukas Drescher: Dass jemand von einem kopiert kann auch bedeuten, dass man interessante Sachen schreibt und man bekannter als andere ist :)

  14. Lukas Drescher am 6. Januar 2009 um 18:41

    Hallo Rene,

    sicherlich ist dies wohl auch eine mögliche Erklärung. Nur…sollte man nicht im Hinblick auf eine negative SEO nicht trotzdem sich um Abwehr bemühen? Schließlich geht es hierbei um nicht wenig Geld was dadurch verloren gehen kann.

    mfg
    Lukas Drescher

  15. Rene Schmidt am 6. Januar 2009 um 19:34

    @Lukas: Ja natürlich sollte man das!

  16. René am 9. Januar 2009 um 05:50

    Hallo Vitaly, mal wieder ein guter Beitrag. Was mich nur ein wenig überrascht: Warum ist in der Liste TinEye nicht aufgeführt? Damit können schnell Duplikate von Bildern und Fotos gefunden werden. Konnte selber damit schon Bildklauer finden. Ist zwar noch nicht 100%ig leistungsfähig wegen dem noch etwas kleinen Index, aber mich hat es jedenfalls überzeugt.

  17. Plagiat Recherche Software f am 7. Juni 2009 um 14:50

    [...] ist

  18. Klaus Tesch am 27. Oktober 2010 um 12:57

    Bei uns wird http://www.plagscan.com verwendet. Bei einem Test hat es die meisten Quellen gefunden. Aber die Abschreckung hilft sowieso am Besten, darum haben wir ein kleines Hinweis-Banner im Impressum.

  19. Dean Iriz am 15. Juli 2013 um 15:54

    Ich habe meine Texte aus der Homepage mal kopiert um zu sehen was google so findet. Andere Schlüsseldienste kopieren ganz frech meine Texte 1zu1 nur Telefonnummer Firmenname und Adresse wird verändert. Weiß jeman vieleicht eine google Link wo man double conten melden kann oder kann google das Orginal vom Plagiat unterscheiden ?

  20. Paul Mayer am 3. Dezember 2013 um 16:49

    Melden kann man das unter: https://www.google.com/webmasters/tools/spamreport

    Allerdings schadet doppelter Content mehr deinem Konkurrenten. Wenn der GoogleCrawler deine Site besucht und deinen Content vorher noch nicht gelesen hat, dann zählt dein Content als das Original bzw. Quelle. Da das Datum des Scans von Google gespeichert wird, erkennt der Crawler den Content deines Konkurrenten (der natürlich später eingetragen wurde) als Double Content an und kriegt dadurch ein schlechteres Ranking.

  21. adhoc am 3. Januar 2014 um 01:07

    das macht sinn. wenn der scan das so erkennt, dann hat man mehr hoffnung das andere kopierer ärger kriegen. deshalb habe ich immer ohne bei anderen abzugucken meinen content überlegt.

Ein Kommentar? Schön!

Wir freuen uns immer über Leser, die durch nützliche und konstruktive Beiträge zum Thema eine Diskussion anstoßen oder den Artikel mit weiteren Informationen anreichern. Alle Kommentare werden in diesem Sinne moderiert. Zum Kommentar-Fairplay gehört für uns auch der Einsatz von rel="nofollow". Bitte verwenden Sie zudem als Namen weder eine Domain noch ein spamverdächtiges Wort. Vielen Dank!