Es ist die Nachricht, die Anthropic gerade am wenigsten gebrauchen kann: Eine kleine Gruppe hat sich unautorisierten Zugang zu Claude Mythos verschafft — dem Modell, das Anthropic selbst als zu gefährlich für eine öffentliche Veröffentlichung eingestuft hat.
Was passiert ist
Bloomberg berichtete am 21. April, dass Mitglieder eines privaten Discord-Channels Zugriff auf Mythos erlangt haben. Die Gruppe nutzte Zugangsdaten eines Mitarbeiters eines Drittanbieters, der für Anthropic arbeitet. Dazu kam ein cleverer Rateversuch: Die Angreifer kannten das Format, das Anthropic für seine Modell-URLs verwendet, und konnten so die richtige Adresse erraten.
Das Timing ist bemerkenswert: Der Zugriff erfolgte am selben Tag, an dem Anthropic erstmals ankündigte, Mythos ausgewählten Unternehmen zum Testen zugänglich zu machen.
Warum das brisant ist
Mythos ist kein gewöhnliches Sprachmodell. Unter dem Dach von Project Glasswing wurde es speziell für Cybersecurity-Anwendungen entwickelt — und kann Zero-Day-Schwachstellen in Betriebssystemen und Browsern finden, Software-Bugs zu mehrstufigen Exploits verketten und damit Fähigkeiten demonstrieren, die bisher nur den besten menschlichen Hackern vorbehalten waren.
Genau deshalb hatte Anthropic den Zugang strikt limitiert. Zu den ersten Nutzern gehörten Goldman Sachs, Apple und ausgewählte Sicherheitsfirmen — alle unter strengen Auflagen.
Anthropics Reaktion
Anthropic erklärte gegenüber TechCrunch, man untersuche den Bericht über einen unautorisierten Zugriff über eine Drittanbieter-Umgebung. Es gebe bisher keine Hinweise darauf, dass die eigenen Systeme betroffen seien. Die Gruppe habe das Modell regelmäßig genutzt und Bloomberg Screenshots sowie eine Live-Demonstration gezeigt — allerdings offenbar ohne böswillige Absicht.
Einordnung
Für Anthropic kommt dieser Vorfall zur Unzeit. Die Friedensgespräche mit dem Weißen Haus laufen, Trump hat gerade signalisiert, dass ein Pentagon-Deal möglich sei, und Amazon hat 25 Milliarden Dollar investiert. Ein Sicherheitsvorfall bei genau dem Modell, das wegen seiner Gefährlichkeit unter Verschluss gehalten wird, untergräbt das Narrativ der verantwortungsvollen KI-Entwicklung.
Es ist auch nicht das erste Mal in den letzten Wochen: Erst der versehentliche Mythos-Leak im März, dann der Claude-Code-Quellcode auf npm, und jetzt das. Drei Sicherheitsvorfälle in vier Wochen — das ist ein Muster, kein Ausrutscher.
Die entscheidende Frage ist nicht, ob die Gruppe Schaden angerichtet hat. Die Frage ist, wie ein Modell, das Anthropic selbst als zu gefährlich für die Öffentlichkeit einstuft, über einen einfachen URL-Rateversuch zugänglich sein konnte.
Quellen: