Ein Audit aus Ontario zeigt, was passiert, wenn KI-Systeme in kritischen Berufen ungeprüft eingesetzt werden. Zwölf von zwanzig zertifizierten Programmen transkribieren falsche Medikamentennamen, alle zwanzig produzieren mindestens eine Ungenauigkeit. Was deutsche Mittelständler aus dem Befund mitnehmen sollten.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenKI-Halluzinationen werden meist diskutiert, wenn ChatGPT eine Quelle erfindet. Wahrheit oder Pflicht: Wann haben Sie zuletzt geprüft, ob die KI in Ihrem Workflow tatsächlich das tut, was sie verspricht? In Ontario hat ein staatlicher Rechnungshof genau das getan und etwas gefunden, was Entscheider alarmieren sollte.
Das Wichtigste in Kürze
- Ontario Auditor General Shelley Spence prüft 20 staatlich zertifizierte KI-Scribe-Systeme
- Zwölf von zwanzig Programmen transkribieren falsche Medikamentennamen
- Siebzehn von zwanzig verpassen zentrale Details zur psychischen Gesundheit der Patienten
- Neun von zwanzig erfinden komplette Therapie-Empfehlungen, die nie besprochen wurden
- Genauigkeit zählte nur vier Prozent im staatlichen Bewertungsprozess
Was haben die Prüfer gefunden?

Spences Team ließ simulierte Arzt-Patienten-Gespräche durch zwanzig genehmigte AI-Scribe-Systeme laufen. Das Ergebnis liest sich wie eine Mahnliste an jeden, der KI in regulierten Berufen einsetzt.
Zwölf Systeme erfassten den falschen Wirkstoff in der Verordnung, also nicht das Mittel, das der Arzt aussprach, sondern ein anderes. Neun Programme schlugen Therapie-Überweisungen vor, die niemand erwähnt hatte, und ordneten Blutuntersuchungen an, die nicht zur Sprache kamen. Siebzehn Systeme verpassten zentrale Hinweise zur psychischen Gesundheit. Vier Anbieter durften die Zertifizierung trotz fehlender unabhängiger Audits behalten.
Warum betrifft das Entscheider im DACH-Raum?

Rund fünftausend Ärzte in Ontario nutzen die Systeme bereits aktiv. Minister Stephen Crawford verteidigt, die Fehler stammten aus der Testphase, nicht aus dem Praxiseinsatz. Spence widerspricht: Es liegt kein Nachweis vor, dass die Systeme nach Beschaffung erneut getestet wurden. Übersetzt für DACH heißt das: Wenn schon eine Provinz mit zentraler Beschaffung diese Lücke hat, wie groß ist der Spalt in einem föderal organisierten Gesundheitswesen wie dem deutschen oder schweizerischen?
Halluzinationen sind kein KI-Bug, sondern ein Bauplan-Merkmal. Wer KI in Compliance, Tax oder Patientenberatung einsetzt, darf nicht hoffen, dass der Output stimmt. Der Output muss geprüft werden, jedes Mal.
— Michael Dobler, Herausgeber Dr. Web
Wie sollten Mittelständler reagieren?

Drei Ansätze haben sich in der Praxis bewährt. Zunächst der Pflicht-Review: Jeder KI-generierte Output, der in eine Patientenakte, eine Steuererklärung oder eine Vertragsklausel fließt, braucht eine menschliche Gegenprüfung mit dokumentierter Freigabe. Parallel dazu der Domänen-Test: Vor jeder Einführung sollten Sie zehn typische Fälle aus Ihrem Alltag durch das System schicken und die Trefferquote zählen. Schließlich der Vendor-Audit: Welche Drittprüfungen liegen vor? Wer haftet bei Falscheinträgen?
Anthropic hat im Mai zehn vorkonfigurierte Finanz-Agenten für Banken veröffentlicht, die diese Frage konkret stellen. Compliance-Officer prüfen jeden Verdachtsfall manuell, der Agent dokumentiert nur. Wer Claude oder ein anderes Modell in regulierte Branchen bringt, sollte den LLMs-Ratgeber heranziehen und Modellwahl plus Architektur zusammen denken.
Was kostet ein nicht erkannter KI-Fehler?

Bei Patientennotizen kann eine falsche Wirkstoffangabe lebensbedrohlich werden. Bei Compliance-Prüfungen droht der Rückzug der Banklizenz. Bei Steuerberatung kommen die Token-Kosten oben drauf, wenn der Agent in Schleifen läuft. Die OpenAI Deployment Company und Anthropics Stainless-Übernahme zeigen, dass die Lieferanten ihre Implementierungs-Tiefe ausbauen. Die Verantwortung für die Validierung bleibt beim Anwender.
Ein zertifizierter Bescheid des Staats Ontario hat das KI-System nicht davor geschützt, das falsche Medikament zu notieren. Wer sich auf Vendor-Versprechen verlässt, ohne eigene Validierung, übernimmt das Risiko ungeprüft.
Mehr Newshunger?
