Sind KI-Trainingsdaten illegal erbeutet? Amnesty sagt ja.

Michael Dobler
Autor Dr. Web
3 Min. Lesezeit
Sind KI-Trainingsdaten illegal erbeutet? Amnesty sagt ja.

Ein Menschenrechtsverband erklärt die Datenbasis von ChatGPT, Gemini und Co. für rechtswidrig. Der Vorwurf trifft nicht einzelne Ausreißer, sondern das Fundament der Branche. Für Unternehmen, die generative KI einsetzen, verschiebt sich damit die Haftungsfrage.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Illegales Web-Scraping bildet laut Amnesty International die Grundlage praktisch aller großen generativen KI-Systeme. Drei Tage nach Veröffentlichung des Berichts diskutiert die Branche, ob das Geschäftsmodell der Datensammlung vor Gericht standhält. Die Organisation legte am 28. Mai 2026 das Briefing „Unlawful by Design“ vor und kommt zu einem harten Schluss.

Das Wichtigste in Kürze

  • Amnesty International stuft das massenhafte Sammeln von Trainingsdaten als Eingriff in die Privatsphäre ein, der im Systemdesign angelegt ist.
  • Untersucht wurden unter anderem GPT-3 von OpenAI, Googles Gemini, Metas Llama, DeepSeek sowie Midjourney und Stable Diffusion.
  • Der Verband fordert Staaten auf, KI-Systeme zu verbieten, die auf rechtswidrigem Scraping beruhen.
  • Von acht angeschriebenen Konzernen antworteten nur Microsoft, Amazon, Intel, OpenAI und Meta.

Was wirft Amnesty den KI-Konzernen konkret vor?

Ein transparenter Behälter, gefüllt mit vielen Passbildern, oben ein oranger Griff
KI-Modelle trainieren auf Milliarden öffentlicher Posts und Bilder ohne Zustimmung der Urheber. Amnesty International kritisiert dies als Eingriff in die Privatsphäre, der bereits im System angelegt ist

Nicht-einvernehmliche Datensammlung steht im Zentrum der Kritik. Die Modelle stützen sich auf Milliarden öffentlicher Online-Posts und Bilder, oft ohne ausdrückliche Zustimmung der Menschen, die darauf zu sehen sind oder die Inhalte erstellt haben. Amnesty beschreibt das als Eingriff in die Privatsphäre, der bereits in der Konstruktion der Systeme angelegt ist.

Verstärkte Diskriminierung sieht der Bericht als zweite Folge. Mit der Größe der Datensätze wachse auch der Anteil hasserfüllter und diskriminierender Inhalte in den Ergebnissen, samt rassistischer und geschlechtsbezogener Stereotype. Likhita Banerji, Leiterin des Algorithmic Accountability Lab bei Amnesty International, ordnet die Praxis scharf ein.

„Unternehmen liefern generative KI-Produkte unter dem Deckmantel von Effizienz, doch in Wahrheit beruhen diese Systeme auf massenhaften Eingriffen in die Privatsphäre durch rechtswidriges Web-Scraping.“ — Likhita Banerji, Leiterin Algorithmic Accountability Lab, Amnesty International

Welche Folgen hat der Bericht für Unternehmen?

Ein Richterhammer mit Textaufkleber liegt auf seinem Block, daneben eine kleine Badeente mit Mütze
Unternehmen, die generative KI einsetzen, riskieren Haftung: Trainingsdaten haben fragliche rechtliche Grundlagen

Verschobene Haftungsfrage lautet die praktische Konsequenz für Entscheider. Wer generative KI in Produkte oder Prozesse einbaut, baut auf einer Datenbasis auf, deren Rechtmäßigkeit eine große Menschenrechtsorganisation öffentlich bestreitet. Die Debatte über zulässige Trainingsdaten läuft im DACH-Raum parallel zur Diskussion über den Umgang mit KI-Crawlern, die auch Websitebetreiber bei der Crawler-Frage betrifft.

Regulatorischer Druck dürfte zunehmen. Amnesty verlangt von Staaten ein Verbot eigenständiger generativer KI-Systeme, die durch rechtswidriges Scraping entstanden sind, und eine Rechenschaftspflicht der Unternehmen für Menschenrechtsverstöße. Wie sich europäische Fristen entwickeln, zeigt der Überblick zum Digital Omnibus und den verschobenen AI-Act-Fristen. Den Datenhunger der Crawler belegen die Cloudflare-Zahlen zum Trainings-Traffic.

Den vollständigen Befund samt Antworten der angeschriebenen Konzerne dokumentiert das Briefing von Amnesty International. Für Unternehmen im DACH-Raum lohnt der Blick auf die eigene KI-Lieferkette: Welche Modelle kommen zum Einsatz, und auf welcher Datengrundlage stehen sie?

Mehr Newshunger?

Papiertüte mit Apfel, Büchern, Zetteln und einem orangen Anhänger mit einem Fragezeichen
KI-Crawler und Trainingsdaten: Websites können mit robots.txt-Dateien steuern, ob künstliche Intelligenz ihre Inhalte nutzen darf
4,2 19 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Michael Dobler
Autor
Ich bin der Herausgeber von Dr. Web. Um praxisfit zu bleiben, unterstütze ich darüber hinaus Kunden bei der digitalen Kundengewinnung und Kundenbindung. Erste eigene Gehversuche im Internet unternahm ich 1999 mit einem Kinomagazin. Nach 15 Jahren in Lohn und Brot, u.a. als Projektmanager für digitale Medien, machte ich mich schließlich Ende 2005 selbständig. Das war die beste berufliche Entscheidung meines Lebens.
872 Artikel veröffentlicht
Alle Artikel

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Einmal pro Woche, kein täglicher Spam
Jederzeit mit einem Klick abmeldbar
DSGVO-konform via Brevo