Eine KI-Zweitmeinung zum eigenen MRT klingt nach Science-Fiction, doch genau das hat der Entwickler Antoine ausprobiert und öffentlich dokumentiert. Waren Sie schon in dieser Situation, dass Sie eine ärztliche Diagnose anzweifeln, aber niemanden zum Gegenlesen haben? Sein Experiment legt offen, wie schmal der Grat zwischen Werkzeug-Zweckentfremdung und unreguliertem Medizinprodukt verläuft.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenDas Wichtigste in Kürze
- Ein Entwickler fütterte das Coding-Tool Claude Code mit einem 266 MB großen DICOM-Export seines Schulter-MRT und ließ das Modell eigenständig Analyse-Pakete installieren.
- Wo die Klinik einen Teilriss der Subscapularis-Sehne sah, meldete das Modell eine intakte Sehne. Ein extremer Widerspruch.
- Studien beziffern die Halluzinationsrate von Allzweck-Bildmodellen in der Radiologie auf 35 bis 63 Prozent.
- Unter MDR und EU AI Act bewegt sich solche Nutzung in einer regulatorischen Grauzone mit klarer Haftungslage.
Wie zuverlässig liest ein Allzweck-Modell ein MRT?

Antoines Aufbau zeigt zunächst den Mechanismus: Statt eines reinen Chatfensters nutzte er Claude Code, also eine Umgebung, in der das Modell selbst Code ausführt und Pakete nachinstalliert. Damit konvertierte das System die DICOM-Schichten und arbeitete sich methodisch durch die Aufnahmen. Nach rund einer Stunde lag ein PDF-Befund vor, der dem klinischen Gutachten frontal widersprach.
Der entscheidende Punkt steckt nicht in der Anekdote, sondern in der Statistik dahinter. Eine im European Radiology publizierte Auswertung von 230 Notaufnahme-Bildern kam zu einem ernüchternden Befund: Die diagnostische Trefferquote lag bei nur 35,2 Prozent, die Halluzinationsrate bei 46,8 Prozent. Eine neuroradiologische Studie aus dem Jahr 2026 bestätigt dokumentierte Halluzinationsraten von 35,5 bis 63 Prozent. Die Modelle erfinden Befunde, die im Bild gar nicht existieren, und formulieren diese mit der Autorität eines Lehrbuchs.
Besonders heikel: Die Genauigkeit schwankt stark je nach Bildgebung. Bei Röntgen lag die Pathologie-Erkennung in der Untersuchung bei 66,7 Prozent, im Ultraschall stürzte der Wert auf 9,1 Prozent ab. Antoines Schulter-MRT fällt in eine Klasse, in der subtile Sehnenbefunde selbst geübte Radiologen fordern. Eine vermeintlich beruhigende KI-Auskunft kann hier mehr Schaden anrichten als die zweifelhafte Erstdiagnose.
Werkzeug oder Medizinprodukt? Die regulatorische Grenze

Hier verlässt der Fall die Spielerei und wird zur Governance-Frage. Sobald ein Hersteller einem Produkt die Zweckbestimmung Diagnose gibt, greift die Medizinprodukteverordnung. Wegen der weiten Auslegung von Regel 11 in Anhang VIII der MDR landet diagnostische Software regelmäßig mindestens in Risikoklasse IIa und benötigt damit eine Benannte Stelle. Genau dieser Punkt zündet die zweite Stufe: Ein Medizinprodukt, das für seine Konformitätsbewertung eine Benannte Stelle braucht, gilt nach dem EU AI Act automatisch als Hochrisiko-KI-System.
Claude Code trägt keine solche Zweckbestimmung und ist kein zertifiziertes Medizinprodukt. Die Verantwortung verschiebt sich damit komplett auf den Nutzer. Bei einer Fehlentscheidung haftet niemand außer der Person, die dem Modell vertraut hat. Ähnliche Spannungen zwischen Werkzeug und reguliertem Einsatz haben wir bereits an der KI-Partnerschaft von Novo Nordisk und OpenAI beschrieben, wo das Ziel bewusst eng gefasst blieb.
Datenschutz kommt obendrauf. Ein DICOM-Paket enthält hochsensible Gesundheitsdaten, deren Upload in eine US-Cloud ohne Auftragsverarbeitungsvertrag die DSGVO berührt. Wer solche Befunde lokal verarbeiten will, findet in unserem Überblick zu lokal lauffähigen KI-Modellen eine datenschutzfreundlichere Alternative.
Eine KI darf eine ärztliche Diagnose hinterfragen, ersetzen darf sie keine. Wer ein Coding-Tool zur Befundung zweckentfremdet, übernimmt die Haftung gleich mit, und die wiegt schwerer als jede Stunde gesparter Wartezeit.“
— Markus Seyfferth, Chefredakteur Dr. Web
Was sollten DACH-Entscheider daraus mitnehmen?

Für Healthtech, Versicherer und IT-Verantwortliche liefert der Fall drei nüchterne Lehren. Prüfen Sie zunächst, ob ein eingesetztes KI-Werkzeug eine diagnostische Zweckbestimmung trägt, denn allein die Beschreibung entscheidet über MDR-Pflicht und AI-Act-Klasse. Verankern Sie parallel eine verbindliche menschliche Aufsicht über jede sicherheitskritische KI-Ausgabe, wie der EU AI Act sie ab dem 2. August 2026 ohnehin verlangt. Klären Sie schließlich vor jedem Upload, ob Patientendaten Ihr Haus überhaupt verlassen dürfen.
Antoines Versuch taugt als Weckruf, nicht als Vorbild. Die Technik kann ein Gespräch mit dem Arzt anstoßen, die Verantwortung aber bleibt beim Menschen. Setzen Sie diese Woche eine schriftliche Regel auf, welche KI-Werkzeuge in Ihrem Betrieb medizinische oder andere hochriskante Entscheidungen berühren dürfen, und welche ausdrücklich nicht.
Mehr #Anthropic News
Mehr zu Claude Code