67 Prozent Uneinigkeit: Warum fünf KI-Modelle sich bei Faktenchecks widersprechen

Michael Dobler
Autor Dr. Web
3 Min. Lesezeit
67 Prozent Uneinigkeit: Warum fünf KI-Modelle sich bei Faktenchecks widersprechen

Fünf der besten KI-Modelle bekommen tausend echte Faktenchecks vorgelegt, und bei zwei Dritteln sind sie sich uneinig. Für jeden, der Sprachmodelle für Recherche, Recht oder Finanzanalysen einsetzt, ist dieser Befund ein Warnsignal.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Die LLM-Uneinigkeit bei realen Faktenchecks hat eine Studie der Lenz Research messbar gemacht. Auf 672 von 1.000 Aussagen wich mindestens ein Modell vom Mehrheitsurteil ab, oder es bildete sich gar keine klare Mehrheit.

Das Wichtigste in Kürze

  • Fünf Spitzenmodelle bewerteten 1.000 echte Nutzer-Faktenchecks nach vier Stufen von wahr bis falsch.
  • Auf 67 Prozent der Aussagen gab es Uneinigkeit, einstimmig waren nur 328 Fälle.
  • Bei 34 Prozent klafften die Urteile um mindestens zwei Stufen auseinander, ein Modell sagte wahr, ein anderes falsch.
  • Die Übereinstimmung lag bei einem Krippendorff-Alpha von 0,639 und damit unter der üblichen Verlässlichkeitsschwelle von 0,8.

Wie kam die Studie zu ihrem Ergebnis?

Fünf blaue Karten fächerförmig ausgelegt mit Haken, Kreuzen, Fragezeichen und Beschriftung
Kosta Jordanov von Lenz testete fünf KI-Modelle mit 1.000 Aussagen auf ihre Fähigkeit zur Faktenprüfung anhand vierstufiger Bewertungen

Geleitet hat die am 21. Mai veröffentlichte Untersuchung Kosta Jordanov, Gründer von Lenz. Sein Team legte fünf führenden Modellen dieselben 1.000 Aussagen vor: GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro mit Suche sowie Sonar Pro. Jedes Modell musste pro Aussage genau ein Urteil aus vier Stufen wählen, von wahr über überwiegend wahr und irreführend bis falsch. Die Aussagen stammen aus echten Nutzeranfragen an die Faktencheck-Plattform Lenz, gesammelt seit dem 15. Februar 2026.

Der entscheidende Unterschied zu üblichen Benchmarks liegt darin, dass die Modelle diese Aussagen im Training nicht gesehen haben. Jordanov beschreibt das Material als frisches Korpus aus Wissenschaft, Gesundheit, Politik und Recht.

Wer ein einziges Modell als Schiedsrichter über Wahrheit einsetzt, verwechselt eine Stimme mit einem Konsens. Bei wichtigen Entscheidungen gehört mehr als eine Quelle auf den Tisch.

— Markus Seyfferth, Chefredakteur Dr. Web

Was bedeutet das für den Einsatz im Unternehmen?

Fünf gestapelte Tassen mit Text; kleine Figur hängt an oberster Tasse
Studie zeigt: Mehrheitsurteil von KI-Modellen entspricht nicht automatisch der Wahrheit. Modellwahl beeinflusst Ergebnisse bei automatisierter Klassifizierung kritischer Daten

Die Studie warnt ausdrücklich davor, das Mehrheitsurteil mit der Wahrheit gleichzusetzen. Mal liegt die Mehrheit falsch, mal hat das einzelne abweichende Modell recht. Für die Praxis heißt das, dass die Wahl des Modells das Ergebnis verschiebt, sobald Sprachmodelle automatisiert Aussagen einordnen oder Daten annotieren. In rechtlichen, finanziellen oder anderen heiklen Produktionsumgebungen kann diese Streuung teuer werden.

Ein ergänzendes akademisches Papier von Eddie Yang und Dashun Wang stützt die Richtung. Bei vergleichbarer Benchmark-Genauigkeit weichen Modelle dort auf 16 bis 38 Prozent der Aufgaben voneinander ab, und ein Wechsel des Annotationsmodells veränderte geschätzte Effekte in nachgerechneten Studien teils um mehr als 80 Prozent. Wer die Grundlagen dazu sucht, findet sie in unserem LLMs-Ratgeber.

Wie sichern Sie sich gegen die Streuung ab?

Ein Kompass zeigt auf
Mehrere KI-Modelle kombinieren und bei Abweichungen durch menschliche Prüfung validieren für faktenkritische Aufgaben

Verlassen Sie sich bei faktenkritischen Aufgaben nicht auf ein einzelnes Modell. Sinnvoll ist ein Panel aus mehreren Modellen mit einer klaren Regel für den Umgang mit Abweichungen, etwa eine menschliche Prüfung bei Uneinigkeit. Die Diskussion um die Rolle automatisierter Systeme zeigt sich auch beim Thema KI-Agenten mit eigener Handlungsvollmacht, wo die Frage nach Verantwortung ähnlich drängt. Den vollständigen Datensatz der Studie stellt Lenz öffentlich bereit, eine eigene Stichprobe lohnt sich.

Mehr Newshunger?

Eine Balkenwaage mit einer Ente, Sprachblasen und Texttafel über Faktenchecks
Large Language Models für Entscheider erklärt: KI-Agenten, Jobchancen und KI in Photoshop
4,4 23 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Michael Dobler
Autor
Ich bin der Herausgeber von Dr. Web. Um praxisfit zu bleiben, unterstütze ich darüber hinaus Kunden bei der digitalen Kundengewinnung und Kundenbindung. Erste eigene Gehversuche im Internet unternahm ich 1999 mit einem Kinomagazin. Nach 15 Jahren in Lohn und Brot, u.a. als Projektmanager für digitale Medien, machte ich mich schließlich Ende 2005 selbständig. Das war die beste berufliche Entscheidung meines Lebens.
805 Artikel veröffentlicht
Alle Artikel

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Einmal pro Woche, kein täglicher Spam
Jederzeit mit einem Klick abmeldbar
DSGVO-konform via Brevo