2 Min. Lesezeit KI-generiert

GPT-5.5-Cyber: OpenAI sperrt sein Cyber-Modell weg - und macht genau das, was es Anthropic vorwarf

Artikel als Markdown kopieren

Erst Anthropic fuer Mythos-Restriktionen kritisieren, dann selbst GPT-5.5-Cyber hinter verschlossene Tueren packen. OpenAI erfindet das Gatekeeping, das es gerade noch verspottet hat.

Featured image for "GPT-5.5-Cyber: OpenAI sperrt sein Cyber-Modell weg - und macht genau das, was es Anthropic vorwarf"

Manchmal schreibt die KI-Branche ihre eigene Satire. Vor ein paar Wochen noch hat Sam Altman auf dem Core Memory Podcast Anthropic dafür kritisiert, Mythos unter strengen Auflagen nur an ausgewählte Organisationen weiterzugeben. ‘Es gibt Leute, die wollen KI in den Händen einer kleinen Gruppe halten’, sagte er. ‘Man baut eine Bombe, hält sie jemandem an den Kopf und verkauft dann den Bunker für 100 Millionen Dollar.’

Jetzt macht OpenAI exakt dasselbe.

GPT-5.5-Cyber: Nur für ausgewählte ‘Verteidiger’

Am 1. Mai kündigte Altman auf X an, dass GPT-5.5-Cyber ‘in den nächsten Tagen’ an einen handverlesenen Kreis von ‘trusted defenders’ ausgerollt wird. Das Modell ist spezialisiert auf Penetration Testing, Bug-Suche, Exploit-Entwicklung und Malware-Analyse. Zugang gibt es nur über das ‘Trusted Access for Cyber’-Programm - für Regierungsbehörden, Betreiber kritischer Infrastruktur, Sicherheitsfirmen und Finanzinstitute.

Das ist im Kern genau die Strategie, die Anthropic mit Mythos verfolgt: Ein mächtiges Cyber-Modell nur unter kontrollierten Bedingungen an geprüfte Partner weitergeben. Nur dass Altman das vor Wochen noch als angstbasiertes Marketing abgetan hat.

AISI bestätigt: So stark wie Mythos

Die britische AI Security Institute (AISI) hat GPT-5.5-Cyber unabhängig getestet und die Ergebnisse am 1. Mai veröffentlicht. Das Fazit: Das Modell erreicht eine Pass-Rate von 71,4 Prozent bei Expert-Level-Cyber-Aufgaben und hat als erst zweites Modell nach Mythos eine 32-stufige Netzwerkangriffssimulation komplett durchgespielt.

Das klingt nach einem Kopf-an-Kopf-Rennen zwischen OpenAI und Anthropic. Aber AISI zieht eine breitere Schlussfolgerung: Die offensiven Cyber-Fähigkeiten scheinen nicht das Ergebnis gezielter Spezialisierung zu sein, sondern ein Nebeneffekt der allgemeinen Verbesserungen bei Autonomie, Reasoning und Coding. Das ist keine Anthropic-Anomalie - das ist ein Frontier-Trend.

Universeller Jailbreak in sechs Stunden

Die unangenehme Pointe der AISI-Evaluation: Die Tester fanden einen universellen Jailbreak, der bei allen von OpenAI bereitgestellten bösartigen Cyber-Abfragen funktionierte - auch in mehrstufigen Agenten-Szenarien. Sechs Stunden Expert-Red-Teaming hat es gedauert, ihn zu entwickeln. OpenAI hat danach Anpassungen am Sicherheitssystem vorgenommen, aber AISI konnte die finale Konfiguration aufgrund eines Konfigurationsfehlers nicht mehr verifizieren.

Das wirft Fragen auf. Wenn ein sechsstündiger Red-Teaming-Einsatz reicht, um die Schutzmaßnahmen zu umgehen, wie robust sind die Guardrails dann wirklich?

Die eigentliche Erkenntnis

Die Geschichte hier ist nicht, dass Altman ein Heuchler ist - in der Tech-Branche ändern sich Positionen schneller als Release-Zyklen. Die Geschichte ist, dass die gesamte Branche offenbar zu dem gleichen Schluss kommt: Cyber-Modelle dieser Leistungsklasse können nicht einfach für alle zugänglich gemacht werden.

Ob man das als verantwortungsvolle Entwicklung oder als Gatekeeping bezeichnet, hängt vom Standpunkt ab. Aber die Konvergenz ist bemerkenswert: Anthropic, OpenAI, und die Regulierer kommen alle an denselben Punkt.


Quellen: OpenAI: Trusted Access for Cyber, AISI: Evaluation of GPT-5.5 cyber capabilities, The Register: OpenAI locks GPT-5.5-Cyber behind velvet rope