GPT-5.5 vs Claude Opus 4.7: Das Benchmark-Duell im Detail

Zwei Tage nach dem GPT-5.5-Launch liegen jetzt die ersten unabhängigen Benchmark-Vergleiche vor — und das Ergebnis ist differenzierter als die Schlagzeilen vermuten lassen. Auf den zehn Benchmarks, die beide Anbieter melden, führt Opus 4.7 bei sechs, GPT-5.5 bei vier. Die Abstände liegen zwischen 2 und 13 Punkten.

Wo GPT-5.5 vorne liegt

OpenAIs neues Modell zeigt seine Stärken beim autonomen Arbeiten. Auf Terminal-Bench 2.0 erreicht GPT-5.5 laut VentureBeat 82,7% — Opus 4.7 kommt auf 69,4%. Auch bei BrowseComp, OSWorld-Verified und CyberGym hat GPT-5.5 die Nase vorn. Das Muster ist klar: Überall dort, wo ein Modell selbständig Tools bedienen und über längere Zeit autonom arbeiten muss, punktet OpenAI.

Bemerkenswert ist auch die Effizienz. GPT-5.5 braucht laut Artificial Analysis rund 40% weniger Tokens für vergleichbare Aufgaben. Bei verdoppelten API-Preisen ($5/$30 pro Million Tokens) relativiert das den Preisanstieg auf etwa 20% netto.

Wo Claude Opus 4.7 vorne liegt

Anthropics Flaggschiff dominiert bei den Aufgaben, die tiefes Nachdenken erfordern. SWE-bench Pro: 64,3% vs. 58,6%. MCP-Atlas, MMLU und HLE-Reasoning ohne Tools — überall führt Opus 4.7. Das passt zum Muster: Bei Code-Reviews, komplexem Reasoning und wissenschaftlichen Fragestellungen bleibt Claude das stärkere Modell.

Preislich ist Opus 4.7 mit $25 pro Million Output-Tokens auch 17% günstiger als GPT-5.5 ($30). Wer aber Token-Effizienz einrechnet, kann mit GPT-5.5 trotzdem günstiger fahren.

Und was ist mit Mythos?

Am Rande zeigen die Benchmarks auch, dass GPT-5.5 Anthropics geheimes Mythos-Preview-Modell auf Terminal-Bench 2.0 knapp schlägt. Mythos ist allerdings ein Research-Preview und noch nicht allgemein verfügbar — ein direkter Vergleich ist daher mit Vorsicht zu genießen.

Meine Einschätzung

Die Zeiten, in denen ein Modell alles dominiert, sind vorbei. GPT-5.5 ist das bessere Modell für autonome Agenten und Computer Use. Opus 4.7 ist das bessere Modell für Code-Qualität und komplexes Reasoning. Für die meisten von uns heißt das: Es kommt auf den Use Case an. Und das ist eigentlich eine gute Nachricht — Wettbewerb macht alle besser.

Quellen: