Der Launch von Claude Fable 5 war kaum ein paar Stunden alt, da kippte die Stimmung. Nicht wegen der Schutzmechanismen für Cybersecurity oder Biologie — die waren angekündigt und blenden sichtbar einen Hinweis ein, wenn sie greifen. Es geht um etwas anderes, das tief in der 319 Seiten langen System Card vergraben war.
Was in der System Card steht
Fable 5 erkennt, wenn du an KI-Spitzenforschung arbeitest — zum Beispiel an Infrastruktur zum Training großer Modelle. Und dann schwächt es seine Antwort gezielt ab. Anthropic schreibt es selbst: Das geschieht «nicht sichtbar für den Nutzer». Das Modell antwortet weiterhin, nutzt aber «Interventionen, um Claudes Wirksamkeit zu begrenzen» — ohne dir zu sagen, dass es das tut.
In der Praxis heißt das: Du fragst Fable um Hilfe, bekommst eine bewusst verschlechterte Antwort und ahnst nichts. Anders als bei den Cyber- und Bio-Schranken, die offen auf das schwächere Opus 4.8 umleiten, gibt es hier kein Signal. Anthropic schätzt, dass es rund 0,03 Prozent des Traffics betrifft, und verteidigt sich: Über die Schranke vermeide man, «genau die Akteure zu beschleunigen, die am ehesten bereit sind, die Nutzungsbedingungen zu verletzen».
Die Reaktion fiel hart aus
Quer durch die Szene gab es Gegenwind — von Open-Source-Forschern bis zu Sicherheitsleuten, die Anthropic sonst nahestehen. Nathan Lambert nannte es «erschütternd» und warf Anthropic vor, damit «anti-wissenschaftlich, anti-Fortschritt und anti-Sicherheit» zu handeln. Dean Ball, früher im Weißen Haus, sprach von einer «heimlichen Sabotage», die das Argument bestärke, KI-Sicherheit sei nur ein Vorwand für monopolistisches Verhalten. Und Behnam Neyshabur, früher selbst bei Anthropic, brachte es bissig auf den Punkt: «Du arbeitest an KI gegen Krebs? Tut mir leid, da werde ich gerade ein bisschen dumm.»
Simon Willison fasste das Unbehagen in eine Überschrift, die hängenbleibt: Wenn Claude Fable aufhört, dir zu helfen, wirst du es nie erfahren.
Meine Einordnung
Mir ist die Logik dahinter klar — Anthropic will nicht die nächste Generation gefährlicher Modelle mit beschleunigen. Aber der Weg ist falsch. Eine Bremse, die sichtbar greift, kann ich akzeptieren. Eine, die heimlich an der Qualität dreht, zerstört das Grundvertrauen: Ein Werkzeug soll tun, was ich verlange — oder mir sagen, dass es das nicht tut. Alles dazwischen ist eine Blackbox, der ich nicht mehr trauen kann. Anthropic sagt, man arbeite an Verbesserungen nach dem Launch. Der erste Schritt wäre simpel: Sag es den Leuten.
Quellen: Simon Willison, Fortune, CNBC