Der Fable-5-Jailbreak funktioniert in jedem KI-Modell — und das ist das eigentliche Problem

Die politische Dimension des Fable-5-Banns beherrscht gerade die Schlagzeilen — Export-Kontrollen, China-Verdacht, ein eskalierender Streit zwischen Anthropic und der US-Regierung. Aber hinter dem Vorhang gibt es eine technische Wahrheit, die noch unbequemer ist: Der Jailbreak, der Fable 5 zu Fall gebracht hat, ist kein Fable-5-Problem. Es ist ein Problem aller KI-Modelle.

Was genau passiert ist

Nur Stunden nach dem Launch von Fable 5 am 9. Juni veröffentlichte der unter dem Pseudonym ‘Pliny the Liberator’ bekannte Sicherheitsforscher einen vollständigen Jailbreak. Kurz darauf landete auch der System-Prompt von Fable 5 auf GitHub — 120.000 Zeichen lang.

Die dokumentierten Angriffsvektoren sind keine exotischen Exploits. Sie nutzen Schwächen, die in der Architektur aller großen Sprachmodelle stecken: Unicode- und Homoglyph-Substitution, um Keyword-Filter zu umgehen; Long-Context-Tracking, bei dem schädliche Absichten über viele Nachrichten verteilt werden; Taxonomie-Framing, bei dem gefährliche Anfragen in akademisch aussehende Dokumente eingebettet werden; und Narrativ-Framing, das Schadcode als fiktive Geschichte tarnt.

Warum das alle Modelle betrifft

Fable 5 und sein leistungsstärkerer Zwilling Mythos 5 teilen sich dieselbe Architektur, sind aber durch eine Schicht von Sicherheitsklassifikatoren getrennt. Erkennt der Klassifikator eine sicherheitsrelevante Anfrage, fällt das Modell auf Opus 4.8 zurück, statt einfach abzulehnen.

Das Problem: Diese Klassifikatoren sind aufgesetzte Filter, keine fundamentale Eigenschaft des Modells. Die gleiche Architektur — große Sprachmodelle mit aufgesetzten Safety-Layern — nutzen auch GPT-5.5, Gemini 3.5 und alle anderen Frontier-Modelle. Die Angriffstechniken von Pliny funktionieren nach dem gleichen Prinzip bei jedem von ihnen.

Sicherheitsforscher von Eigenwise bringen es auf den Punkt: ‘The Jailbreak that Got Fable 5 Pulled Exists in Every Model.’ Es ist kein Bug in Fable 5 — es ist ein Designmuster der gesamten Branche.

Was das für die Zukunft bedeutet

Die Implikation ist klar: Kein aktuelles Safety-System kann verhindern, dass ein entschlossener Angreifer ein großes Sprachmodell dazu bringt, unerwünschte Inhalte zu erzeugen. Die Filter werden besser, die Angriffe auch. Es ist ein Wettrüsten ohne absehbares Ende.

Für Unternehmen, die KI-Modelle in sicherheitskritischen Bereichen einsetzen, heißt das: Safety-Filter allein reichen nicht. Es braucht mehrschichtige Sicherheitsarchitekturen, Output-Monitoring und klare Eskalationspfade.

Meine Einschätzung

Die Fable-5-Debatte konzentriert sich auf Politik und Export-Kontrollen. Das ist verständlich, aber es lenkt vom Kernproblem ab. Die Frage ist nicht, ob Fable 5 sicher genug für den Export ist. Die Frage ist, ob irgendeines der aktuellen Modelle fundamentale Sicherheitsgarantien geben kann. Die ehrliche Antwort: nein. Das heißt nicht, dass KI-Modelle unbrauchbar sind — aber es heißt, dass wir mit offenen Augen in diese Zukunft gehen sollten.

Quellen: