Claude Mythos geleakt: Anthropics geheimes Modell ist ein 'Quantensprung' - und ein Cybersecurity-Albtraum

Manchmal sind es nicht die geplanten Ankündigungen, die die größten Wellen schlagen. Letzte Woche hat ein simpler Konfigurationsfehler in Anthropics Content-Management-System rund 3.000 unveröffentlichte Dateien öffentlich zugänglich gemacht. Darunter: ein Blogpost-Entwurf über ein Modell namens Claude Mythos.

Was wir über Mythos wissen

Anthropic bezeichnet Mythos als einen ‘step change’ in der KI-Leistung — das bislang leistungsfähigste Modell des Unternehmens. In den geleakten Dokumenten wird eine neue Modellstufe namens Capybara beschrieben, die noch über Opus angesiedelt ist. Größer, teurer, deutlich leistungsfähiger.

Die internen Benchmarks sprechen eine klare Sprache: Im Vergleich zu Claude Opus 4.6 erreicht Capybara ‘dramatisch höhere Werte in Tests für Software-Coding, akademisches Reasoning und Cybersecurity’. Das Modell befindet sich aktuell in einem Early-Access-Programm mit ausgewählten Kunden.

Das Problem: Cybersecurity-Risiken

Hier wird es ernst. Anthropics eigene interne Dokumente warnen, dass Mythos erhebliche Cybersecurity-Risiken mit sich bringt. Das Modell sei ‘derzeit allen anderen KI-Modellen in Cyber-Fähigkeiten weit voraus’ und könnte eine ‘Welle von Modellen einläuten, die Schwachstellen auf eine Weise ausnutzen, die die Bemühungen der Verteidiger bei weitem übertrifft’.

Das ist bemerkenswert, weil es von Anthropic selbst kommt — einem Unternehmen, das sich Sicherheit und Verantwortung auf die Fahnen geschrieben hat. Die Reaktion auf die Leaks zeigt sich auch an der Börse: Cybersecurity-Aktien gerieten nach Bekanntwerden unter Druck.

Wie Anthropic reagiert

Anthropic beschränkt den Early Access bewusst auf Organisationen, die sich auf Cyber-Verteidigung konzentrieren. Die Idee: Verteidigern einen Vorsprung geben, bevor das Modell breit verfügbar wird. Das Modell sei ‘teuer im Betrieb und noch nicht bereit für eine allgemeine Veröffentlichung’.

Meine Einordnung

Zwei Dinge stechen heraus. Erstens: Die Tatsache, dass das Modell durch einen Sicherheitsfehler bekannt wurde, ist reichlich ironisch für ein Unternehmen, das sich gerade mit KI-Sicherheit profiliert. Zweitens: Wenn Anthropic selbst sagt, dass ihr eigenes Modell beispiellose Cybersecurity-Risiken birgt, sollten wir das ernst nehmen. Die Strategie, Verteidigern einen Vorsprung zu geben, ist klug — aber ob das reicht, wird sich zeigen.

Quellen: