Fable 5 ist zurück — mit neuem Sicherheits-Framework für die ganze Branche

Fable 5 ist seit heute wieder verfügbar. Über die Aufhebung der Exportkontrollen hatte ich gestern schon berichtet — aber der eigentlich spannende Teil steckt in Anthropics technischem Blog-Post zum Redeployment. Denn da geht es um viel mehr als ‘Modell wieder einschalten’.

Was sich technisch geändert hat

Anthropic hat während der 18-tägigen Pause einen neuen Safety Classifier trainiert. Der blockiert die spezifische Jailbreak-Technik aus dem Amazon-Bericht in über 99% der Fälle. Wenn ein Request blockiert wird, bekommt der Nutzer eine Meldung — und die Anfrage geht stattdessen an Opus 4.8.

Das hat allerdings einen Preis: Der neue Classifier schlägt öfter bei harmlosen Coding- und Debugging-Aufgaben an. False Positives nehmen zu. Anthropic sagt, sie arbeiten daran, das besser zu kalibrieren.

Interessantes Detail am Rande: Anthropic hat getestet, ob andere Modelle die gleichen Schwachstellen finden können wie Fable 5 im Amazon-Bericht. Ergebnis: Ja, praktisch alle — von Haiku 4.5 über GPT-5.5 bis Kimi K2.7. Die gemeldete Technik hat also keine einzigartigen Fähigkeiten freigeschaltet.

Das Jailbreak-Severity-Framework

Der wirklich wichtige Teil: Anthropic schlägt zusammen mit Amazon, Microsoft und Google ein branchenweites Framework vor, um die Schwere von Jailbreaks einheitlich zu bewerten. Vergleichbar mit dem CVSS-System für Software-Schwachstellen.

Vier Kriterien sollen jeden Jailbreak bewerten:

Capability Gain — Wie weit geht der Jailbreak über das hinaus, was existierende Tools (oder schwächere Modelle) sowieso können? Breadth — Funktioniert die Technik nur für eine spezifische Aufgabe oder breit? Ease of Weaponization — Braucht es Expertenwissen und viele Versuche, oder klappt es beim ersten Prompt? Discoverability — Ist die Technik Spezialwissen oder schon öffentlich bekannt?

Das klingt erstmal nach Bürokratie, ist aber tatsächlich ein fehlendes Puzzlestück. Bisher gibt es keinen Standard dafür, wie ernst ein Jailbreak genommen werden sollte. Das führt zu Unsicherheit — bei Entwicklern und bei Regierungen.

Verfügbarkeit und Preise

Für Pro-, Max-, Team- und ausgewählte Enterprise-Pläne ist Fable 5 bis zum 7. Juli in bis zu 50% der wöchentlichen Nutzungslimits enthalten. Danach läuft es über Usage Credits. Auf AWS, Google Cloud und Microsoft Foundry wird der Zugang so schnell wie möglich wieder aktiviert.

Anthropic hat außerdem ein neues HackerOne-Programm gestartet, über das Sicherheitsforscher Cyber-Jailbreaks in Fable 5 einreichen können.

Meine Einordnung

Der Blog-Post liest sich wie ein Statement: ‘Wir nehmen das ernst, aber bitte keine Panik.’ Die Strategie der extra breiten Sicherheitsmarge — lieber zu viel blockieren als zu wenig — ist nachvollziehbar, wird aber Nutzer nerven. Und ob das Jailbreak-Framework wirklich branchenweit adoptiert wird, muss sich erst zeigen. Aber dass Amazon, Microsoft und Google schon mit am Tisch sitzen, ist ein gutes Zeichen.

Quellen: Anthropic Blog: Redeploying Claude Fable 5 · HackerOne Programm