OpenAI hat ein ungewöhnliches Kopfgeld ausgesetzt: 25.000 Dollar für den ersten Forscher, der GPT-5.5 komplett knackt. Der Haken — es geht nicht um beliebige Jailbreaks, sondern um einen ganz spezifischen: einen universellen Prompt, der das Modell dazu bringt, alle fünf Fragen eines Bio-Sicherheits-Tests zu beantworten, ohne dass die Moderation anspringt.
Wie das Programm funktioniert
Das GPT-5.5 Bio Bug Bounty ist kein offener Wettbewerb. Teilnehmen darf nur, wer sich bewirbt, einen Hintergrund-Check besteht und eine NDA unterschreibt. Bewerbungen laufen seit dem 23. April, die eigentliche Testphase startet am 28. April und endet am 27. Juli 2026.
Die Aufgabe klingt simpel, ist es aber nicht: Finde einen einzigen Prompt, der aus einer frischen Chat-Session heraus alle fünf Bio-Sicherheitsfragen beantwortet. Kein mehrstufiges Social Engineering, kein Session-Manipulation — ein Prompt, fertig. Wer das schafft, bekommt 25.000 Dollar. Für Teilerfolge gibt es Ermessenspreise.
Getestet wird ausschließlich in Codex Desktop — keine API, keine alternativen Interfaces.
Warum Biosicherheit?
GPT-5.5 ist das leistungsstärkste Modell, das OpenAI je öffentlich zugänglich gemacht hat. Mit mehr Leistung kommt mehr Verantwortung — und mehr Risiko. Die Sorge: Könnte ein hinreichend kluger Prompt das Modell dazu bringen, gefährliches biologisches Wissen preiszugeben?
Statt das intern zu testen und zu hoffen, dass nichts durchrutscht, geht OpenAI einen anderen Weg: externe Forscher einladen und dafür bezahlen, dass sie genau das versuchen. Das ist keine neue Idee — Bug Bounties gibt es in der Software-Sicherheit seit Jahrzehnten. Aber auf KI-Biosicherheit angewandt, ist es ein Novum.
Meine Einordnung
Ich finde den Ansatz gut. Nicht perfekt — die NDA-Pflicht und die enge Beschränkung auf eingeladene Forscher limitieren natürlich, wer mitmachen kann. Aber die Alternative wäre, sich auf interne Red-Teams zu verlassen, und die haben per Definition blinde Flecken.
Was mich besonders interessiert: OpenAI setzt die Hürde bewusst hoch. Kein mehrstufiger Angriff, ein einziger Prompt. Wenn das jemand schafft, hat OpenAI ein echtes Problem — und weiß es dann wenigstens. Wenn nicht, haben sie ein starkes Argument für die Robustheit ihrer Sicherheitsmaßnahmen. Win-win, eigentlich.
Quellen: