Claude Opus 4.8: Weniger Halluzinationen, mehr Ehrlichkeit

Anthropic hat am 28. Mai Claude Opus 4.8 vorgestellt — das neueste Upgrade der Flaggschiff-Modellreihe. Und das Spannendste daran ist nicht, was es besser kann. Sondern was es nicht mehr tut: so tun als ob es etwas wüsste.

Was ist neu?

Opus 4.8 hat in Benchmarks die niedrigste Rate falscher Antworten aller getesteten Modelle erreicht. Nicht weil es mehr Fragen richtig beantwortet, sondern weil es bei Unsicherheit lieber sagt: “Das weiß ich nicht.” Das klingt banal, ist aber ein echtes Feature.

Dazu kommen Verbesserungen bei Coding, agentischen Aufgaben und professioneller Arbeit. Das Modell kann jetzt Dynamic Workflows starten — also eigenständig Aufgaben in viele Unter-Agenten aufteilen und orchestrieren. Für größere Projekte wird das ein Gamechanger.

Claude Code 2.1.154 gleich mit dabei

Zusammen mit Opus 4.8 hat Anthropic auch Claude Code 2.1.154 veröffentlicht. Das Update macht Opus 4.8 zum Standard-Modell (mit High-Effort als Default), bringt Dynamic Workflows in Claude Code, und verbessert den Fast Mode. Dazu gibt es bessere Plugin-Verwaltung, stabilere Background Sessions und eine lange Liste an Bugfixes.

Die technischen Details

Die Preise bleiben gleich: 5 Dollar pro Million Input-Tokens, 25 Dollar pro Million Output-Tokens. Das Kontextfenster bleibt bei 1.000.000 Tokens, der maximale Output bei 128.000 Tokens. Der Trainings-Cutoff ist Januar 2026.

Eine interessante Neuerung: Opus 4.8 akzeptiert System-Messages auch mitten in einer Konversation — nicht nur am Anfang. Das macht es einfacher, Anweisungen in langen Gesprächen nachzujustieren, ohne den gesamten System-Prompt zu wiederholen.

Meine Einordnung

Die Richtung stimmt. Statt einfach nur “schlauer” zu werden, arbeitet Anthropic daran, Claude ehrlicher zu machen. Ein Modell, das seine eigenen Grenzen kennt, ist im Arbeitsalltag wertvoller als eines, das immer eine Antwort hat — auch wenn sie falsch ist.

Dynamic Workflows sind das andere Highlight. Wenn Claude eigenständig Dutzende Agenten koordinieren kann, verschiebt sich die Grenze dessen, was man einem einzelnen Prompt zutrauen kann. Das wird spannend.

Quellen: