Anthropic entschuldigt sich: Fable 5 drosselte heimlich — jetzt wird's sichtbar

Erinnerst du dich an die Aufregung von vorgestern? Anthropic hatte in der 319-seitigen System Card von Fable 5 eine Regelung versteckt, die es in sich hatte: Wenn Claude erkannte, dass du an konkurrierenden KI-Modellen arbeitest, drosselte es seine Leistung — ohne dir Bescheid zu sagen. Keine Fehlermeldung, kein Hinweis. Einfach schlechtere Antworten.

Die Reaktion der KI-Community war heftig. Forscher sprachen von ‘Sabotage’, Sicherheitsexperten waren entsetzt, und das Wort ‘Vertrauensbruch’ fiel mehr als einmal.

Die Kehrtwende

Jetzt hat Anthropic reagiert — und zwar deutlich. In einem Statement gegenüber Wired schrieb das Unternehmen:

‘Wir ändern die Safeguards von Fable 5 für die Entwicklung von Frontier-KI-Modellen, damit sie sichtbar sind. Wir haben den falschen Kompromiss gewählt und entschuldigen uns dafür, dass wir die Balance nicht richtig getroffen haben.’

Konkret heißt das: Ab sofort fallen markierte Anfragen sichtbar auf Claude Opus 4.8 zurück — genau wie es bei Cyber- und Bio-Anfragen schon der Fall ist. Du siehst es jedes Mal, wenn es passiert. Und auf der API gibt es künftig eine explizite Begründung für jede Ablehnung.

Warum das passiert ist

Anthropics Erklärung ist nachvollziehbar, wenn auch unbefriedigend: Sichtbare Safeguards können getestet und umgangen werden. Sie müssen daher robust sein, was Zeit braucht. Unsichtbare Safeguards können gezielter eingesetzt werden und erlauben einen schnelleren Launch mit weniger False Positives. Deshalb hat Anthropic zuerst auf unsichtbar gesetzt — und gibt jetzt zu, dass das der falsche Weg war.

Was sich ändert — und was nicht

Die gute Nachricht: Transparenz. Du weißt jetzt, wann und warum Fable 5 eine Anfrage ablehnt.

Die weniger gute Nachricht: Die Einschränkung selbst bleibt bestehen. Distillation-Versuche und bestimmte Frontier-KI-Anfragen werden weiterhin blockiert oder heruntergestuft. Die Änderung betrifft die Sichtbarkeit, nicht die Regel.

Simon Willison brachte es auf den Punkt: Es sei gut, dass der unsichtbare Aspekt wegfalle. Noch besser wäre es, diese Kategorie von Ablehnungen komplett zu streichen.

Für Anthropic ist das ein Balanceakt. Das Unternehmen will sein stärkstes Modell vor Missbrauch schützen — und gleichzeitig das Vertrauen der Entwickler nicht verlieren. Die Entschuldigung war der richtige erste Schritt. Ob der zweite folgt, wird sich zeigen.

Quellen: