GPT-5.6 Launch-Woche: OpenAI steht unter Zugzwang

Letzte Woche hatte ich geschrieben, dass GPT-5.6 vor der Tür steht. Jetzt ist es soweit: Polymarket zeigt über 1,1 Millionen Dollar an Wetten, die auf ein Launch-Fenster ab heute — Montag, 22. Juni — setzen. OpenAI selbst schweigt weiterhin. Kein Blog-Post, keine Model Card, kein API-String. Aber die technischen Details sickern durch.

Was wir über GPT-5.6 wissen

Die größte Neuerung: ein Kontextfenster von 1,5 Millionen Token. Das wäre ein Sprung von GPT-5.5s einer Million — und würde OpenAI erstmals wieder an die Spitze bringen, zumindest bei der Kontextlänge. Dazu soll das Modell bei langem Kontext besser schlussfolgern können, nicht nur mehr Text schlucken.

Der Training-Cutoff soll bis in den Mai 2026 reichen. Und OpenAI hat offenbar die Reward-Audit-Pipeline komplett überarbeitet — das System, das während des Trainings die Modell-Antworten bewertet und korrigiert. Jakub Pachocki, OpenAIs Chefwissenschaftler, hatte GPT-5.6 intern als ‘meaningful improvement’ gegenüber GPT-5.5 bezeichnet.

Warum OpenAI liefern muss

Ein Blick auf die aktuellen Benchmarks zeigt, wo das Problem liegt. Auf SWE-bench Pro — dem Coding-Benchmark, der echte Software-Engineering-Aufgaben misst — sieht es für OpenAI nicht rosig aus:

GLM-5.2: 62,1
Claude Opus 4.8: 61,4 (führt den AI Intelligence Index an)
GPT-5.5: 58,6

GPT-5.5 liegt fast vier Punkte hinter der Spitze. Und es kommt noch schlimmer: Die Community hat dokumentiert, dass GPT-5.5 Thinking beim wissenschaftlichen Reasoning schwächer ist als das ältere GPT-5.2. Eine Regression, die OpenAI bisher nicht kommentiert hat.

Meine Einordnung

Das Modell-Rennen hat sich in den letzten Monaten noch einmal beschleunigt. OpenAI braucht GPT-5.6 nicht nur als technisches Upgrade — sie brauchen es als Statement. GPT-5.5 hat die Erwartungen nicht erfüllt, und chinesische Modelle wie GLM-5.2 setzen den Ton.

Was mich aber skeptisch stimmt: OpenAI hat bisher nichts offiziell angekündigt. Kein API-Modellstring ist aufgetaucht, keine System Card. Das ist ungewöhnlich für einen unmittelbar bevorstehenden Launch. Vielleicht diese Woche, vielleicht nächste — aber der Druck ist da.

Die spannendste Frage ist nicht ob, sondern wie groß der Sprung tatsächlich ausfällt. ‘Meaningful improvement’ kann vieles heißen. Wenn GPT-5.6 die Benchmark-Lücke zu Claude Opus und GLM schließt und die Reasoning-Regression behebt, wäre das ein echtes Signal. Wenn nicht, wird es für den Börsengang eng.

Quellen: