Sicher? Heretic knackt Llama in zehn Minuten.

Michael Dobler
Autor Dr. Web
5 Min. Lesezeit
Sicher? Heretic knackt Llama in zehn Minuten.

Die Financial Times hat gemeinsam mit der KI-Sicherheitsgruppe Alice am 25. Mai 2026 dokumentiert, was Open-Weight-Skeptiker seit Monaten warnen. Ein frei verfügbares Tool namens Heretic entfernt die Sicherheits-Guardrails von Meta Llama 3.3 und Google Gemma 3 in unter zehn Minuten. Ohne Spezial-Hardware, ohne Spezialwissen, ohne Aufsehen. Für jeden Mittelständler, der ein Open-Weight-Modell DSGVO-konform einsetzen will, ändert sich damit die Risikolage.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Heretic ist auf GitHub frei verfügbar. Entwickler Philipp Emanuel Weidmann hat das Tool nach eigenen Angaben Ende vergangenen Jahres veröffentlicht. Seitdem sollen mehr als 3.500 modifizierte Modellvarianten entstanden sein, mit insgesamt 13 Millionen Downloads. Bei Googles im Frühjahr veröffentlichtem Gemma 4 dauerte das Aushebeln laut Weidmann 90 Minuten nach Release. „The genie is out of the bottle“, kommentiert Alice-CEO Noam Schwartz die Lage in der FT.

Das Wichtigste in Kürze

  • Heretic entfernt die Refusal-Mechanismen von Llama 3.3 und Gemma 3 in unter zehn Minuten.
  • Über 3.500 modifizierte Modellvarianten, 13 Millionen Downloads aus öffentlichen Repositorys.
  • Technik „Abliteration“ modifiziert die Modellarchitektur direkt, nicht den Prompt.
  • Decensored Modelle liefern Inhalte, die das Original verweigert, von Schadcode bis zu gefährlichen Substanzen.

Was macht Heretic technisch anders als klassisches Jailbreaking?

Zerstörtes Vorhängeschloss der Marke Master neben einem zerbrochenen, braunen Siegelsiegel
Abliteration identifiziert und deaktiviert permanent die neuronalen Pfade, die Modelle veranlassen, gefährliche Anfragen abzulehnen

Klassische Jailbreaks versuchen, ein Modell durch geschickte Prompts auszutricksen. Die Schutzmechanismen bleiben intakt, sie werden umgangen. Abliteration geht einen Schritt weiter. Das Verfahren identifiziert die neuronalen Pfade im Modell, die für die Ablehnung gefährlicher Anfragen verantwortlich sind, und neutralisiert sie permanent. Anders gesagt: Heretic operiert nicht am Verhalten, sondern an den Gewichten. Sobald die Modellgewichte öffentlich verfügbar sind, lässt sich diese Operation lokal durchführen. Cloud-gestützte Modelle wie GPT-5.5 oder Claude Opus 4.7 sind dieser Technik strukturell entzogen, weil ihre Gewichte nicht zugänglich sind.

Die FT-Tests dokumentieren, dass die modifizierten Modelle Inhalte produzieren, die das Original verweigert. Konkrete Beispiele bleiben in der Berichterstattung bewusst auf Metaebene, weil die Details selbst Risikomaterial wären. Kawin Ethayarajh, Assistenzprofessor für Applied AI an der Booth-School der University of Chicago, formuliert den entscheidenden Punkt in der FT. Was früher einen informierten und hartnäckigen Akteur erforderte, schaffe heute die durchschnittliche Person.

Welche Risiken entstehen für Mittelständler mit Open-Weight-Modellen?

Ein metallisches Vorhängeschloss mit Lama-Gravur und zwei orangefarbenen Dietrichwerkzeugen
Entwickler von Llama 3.3 und Gemma 3 haften nicht für Sicherheitsmängel in zensurierten Varianten Dritter

Wer Llama 3.3 oder Gemma 3 in eigene Produkte integriert hat, steht vor einer doppelten Lage. Erstens: Die Safety-Versprechen, die Meta und Google bei Release abgegeben haben, gelten nicht für decensored Forks. Wer also seinen Kunden mit Verweis auf Metas Guardrails Sicherheit zusichert, schafft eine vertragliche Lücke. Zweitens: Wenn ein Drittanbieter eine modifizierte Variante in der eigenen Lieferkette einsetzt, kann der ursprüngliche Modellnutzer schnell in eine Haftungsfrage geraten. Anthropics Closed-Weight-Strategie wird in dieser Diskussion wieder zum Verkaufsargument, das Markus Zuckerberg bei Llama lange als Standortnachteil abtun konnte.

Was bedeutet das für DSGVO und AI Act?

Betonbarriere, Holzleiter, Plüschlama mit Eimerhelm und Klemmbrett auf grauem Boden
Der AI Act sieht für Open-Weight-Modelle Ausnahmeregelungen vor, doch die Heretic-Demonstration zeigt deren Grenzen bei missbräuchlicher Nutzung auf

Der AI Act behandelt General-Purpose-AI mit systemischen Risiken in Kapitel V. Open-Weight-Modelle erhielten dort eine eigene Ausnahmeregelung, die unter anderem voraussetzt, dass die Modelle nicht für unzulässige Zwecke eingesetzt werden können. Die Heretic-Demonstration trifft genau diese Annahme. Wer Llama oder Gemma in einem regulierten Kontext einsetzt, sollte die internen Logging- und Filter-Pflichten verschärfen.

Eine alleinige Berufung auf die Hersteller-Guardrails reicht nach den FT-Erkenntnissen nicht mehr. Das gilt vor allem für Banken, Versicherer, Krankenhäuser und Behörden, die ihre KI-Risikoanalyse bis spätestens 2027 abschließen müssen.

Die DSGVO-Frage ist subtiler. Modifizierte Modelle könnten Daten ausgeben, die das Original-Modell unter Datenschutzgesichtspunkten zurückgehalten hätte. Wer ein decensored Modell zur Datenverarbeitung einsetzt, baut potenziell ungeprüfte Datenflüsse in seine eigenen Prozesse ein. Eine saubere Trennung zwischen geprüften Modell-Hashes und freien Repositorys wird damit zum Compliance-Faktor.

Heretic ist die Wahrheit, die der Open-Weight-Markt nicht hören wollte. Wer 2026 noch glaubt, Modellgewichte öffentlich verteilen und gleichzeitig Sicherheit garantieren zu können, plant in zwei sich ausschließenden Realitäten. Mittelständler brauchen ein klares Modell-Inventar und eine Hash-Prüfung, sonst überrollt sie die nächste Audit-Welle.

— Markus Seyfferth, Chefredakteur Dr. Web

Welche Schutzmaßnahmen bleiben Unternehmen?

Hölzernes Trojanisches Pferd auf Rollen, aus dem ein Alpaka mit Brille schaut
Vier-Punkte-Plan für KI-Sicherheit: Modell-Inventar erstellen, Hashes verifizieren, Filter-Schichten ergänzen, Instanzen absichern

Vier Schritte sind in der nächsten Woche umsetzbar. Erstens das Modell-Inventar erstellen. Welche Open-Weight-Modelle laufen in der eigenen Infrastruktur, mit welchem Hash, von welchem Provider bezogen? Zweitens Modell-Hashes verifizieren. Jede Llama- oder Gemma-Instanz bekommt einen Soll-Hash, der bei jedem Start gegen den Ist-Stand geprüft wird. Drittens externe Filter-Schichten ergänzen. Eingangs- und Ausgangs-Klassifikatoren wie Llama Guard oder selbst trainierte Toxizitäts-Klassifikatoren reduzieren das Risiko. Viertens Vertragslage prüfen. Wer Kunden Sicherheit zugesichert hat, sollte die Klausel um aktuelle Bedrohungen anpassen.

Die strukturelle Frage bleibt offen. Solange Modellgewichte als Open-Weight kursieren, lässt sich die Abliteration nicht verhindern. GitHub gibt zu Heretic an, das Hosting sei zulässig, weil es einen „net benefit to the security community“ biete. Die FT-Untersuchung dürfte diese Einschätzung in den nächsten Wochen unter politischen Druck setzen.

Quellen

Financial Times – AI guardrails stripped from Meta and Google models in minutes – ft.com – besucht am 27.05.2026
Irish Times – AI guardrails stripped from Meta and Google models in minutes – irishtimes.com/business/2026/05/25/ai-guardrails-stripped-from-meta-and-google-models-in-minutes – besucht am 27.05.2026
Futurism – New Tools Strip AI Guardrails In Minutes – futurism.com/artificial-intelligence/tools-strip-ai-guardrails-in-minutes – besucht am 27.05.2026
AI Weekly – Meta, Google AI guardrails stripped in 10 minutes – aiweekly.co/alerts/meta-google-ai-guardrails-stripped-in-10-minutes – besucht am 27.05.2026

Mehr Newshunger?

Ein gebrochenes Vorhängeschloss mit zwei kleinen, orangefarbenen, spielzeugartigen Figuren
Der Louvre nutzte das Passwort „Louvre“. DIHK-Umfrage zeigt Konjunkturrückgang auf 0,3 Prozent. Anthropic meldet ersten Gewinn in Q2 2026
4,5 15 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?

Michael Dobler
Autor
Ich bin der Herausgeber von Dr. Web. Um praxisfit zu bleiben, unterstütze ich darüber hinaus Kunden bei der digitalen Kundengewinnung und Kundenbindung. Erste eigene Gehversuche im Internet unternahm ich 1999 mit einem Kinomagazin. Nach 15 Jahren in Lohn und Brot, u.a. als Projektmanager für digitale Medien, machte ich mich schließlich Ende 2005 selbständig. Das war die beste berufliche Entscheidung meines Lebens.
872 Artikel veröffentlicht
Alle Artikel

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Newsletter

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Einmal pro Woche, kein täglicher Spam
Jederzeit mit einem Klick abmeldbar
DSGVO-konform via Brevo