Fünf der besten KI-Modelle bekommen tausend echte Faktenchecks vorgelegt, und bei zwei Dritteln sind sie sich uneinig. Für jeden, der Sprachmodelle für Recherche, Recht oder Finanzanalysen einsetzt, ist dieser Befund ein Warnsignal.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenDie LLM-Uneinigkeit bei realen Faktenchecks hat eine Studie der Lenz Research messbar gemacht. Auf 672 von 1.000 Aussagen wich mindestens ein Modell vom Mehrheitsurteil ab, oder es bildete sich gar keine klare Mehrheit.
Das Wichtigste in Kürze
- Fünf Spitzenmodelle bewerteten 1.000 echte Nutzer-Faktenchecks nach vier Stufen von wahr bis falsch.
- Auf 67 Prozent der Aussagen gab es Uneinigkeit, einstimmig waren nur 328 Fälle.
- Bei 34 Prozent klafften die Urteile um mindestens zwei Stufen auseinander, ein Modell sagte wahr, ein anderes falsch.
- Die Übereinstimmung lag bei einem Krippendorff-Alpha von 0,639 und damit unter der üblichen Verlässlichkeitsschwelle von 0,8.
Wie kam die Studie zu ihrem Ergebnis?

Geleitet hat die am 21. Mai veröffentlichte Untersuchung Kosta Jordanov, Gründer von Lenz. Sein Team legte fünf führenden Modellen dieselben 1.000 Aussagen vor: GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro mit Suche sowie Sonar Pro. Jedes Modell musste pro Aussage genau ein Urteil aus vier Stufen wählen, von wahr über überwiegend wahr und irreführend bis falsch. Die Aussagen stammen aus echten Nutzeranfragen an die Faktencheck-Plattform Lenz, gesammelt seit dem 15. Februar 2026.
Der entscheidende Unterschied zu üblichen Benchmarks liegt darin, dass die Modelle diese Aussagen im Training nicht gesehen haben. Jordanov beschreibt das Material als frisches Korpus aus Wissenschaft, Gesundheit, Politik und Recht.
Wer ein einziges Modell als Schiedsrichter über Wahrheit einsetzt, verwechselt eine Stimme mit einem Konsens. Bei wichtigen Entscheidungen gehört mehr als eine Quelle auf den Tisch.
— Markus Seyfferth, Chefredakteur Dr. Web
Was bedeutet das für den Einsatz im Unternehmen?

Die Studie warnt ausdrücklich davor, das Mehrheitsurteil mit der Wahrheit gleichzusetzen. Mal liegt die Mehrheit falsch, mal hat das einzelne abweichende Modell recht. Für die Praxis heißt das, dass die Wahl des Modells das Ergebnis verschiebt, sobald Sprachmodelle automatisiert Aussagen einordnen oder Daten annotieren. In rechtlichen, finanziellen oder anderen heiklen Produktionsumgebungen kann diese Streuung teuer werden.
Ein ergänzendes akademisches Papier von Eddie Yang und Dashun Wang stützt die Richtung. Bei vergleichbarer Benchmark-Genauigkeit weichen Modelle dort auf 16 bis 38 Prozent der Aufgaben voneinander ab, und ein Wechsel des Annotationsmodells veränderte geschätzte Effekte in nachgerechneten Studien teils um mehr als 80 Prozent. Wer die Grundlagen dazu sucht, findet sie in unserem LLMs-Ratgeber.
Wie sichern Sie sich gegen die Streuung ab?

Verlassen Sie sich bei faktenkritischen Aufgaben nicht auf ein einzelnes Modell. Sinnvoll ist ein Panel aus mehreren Modellen mit einer klaren Regel für den Umgang mit Abweichungen, etwa eine menschliche Prüfung bei Uneinigkeit. Die Diskussion um die Rolle automatisierter Systeme zeigt sich auch beim Thema KI-Agenten mit eigener Handlungsvollmacht, wo die Frage nach Verantwortung ähnlich drängt. Den vollständigen Datensatz der Studie stellt Lenz öffentlich bereit, eine eigene Stichprobe lohnt sich.
Mehr Newshunger?
