Model Routing: Die Kostenbremse, die OpenAI und Anthropic das Fuerchten lehrt

Zwei Jahre lang lautete die Strategie: Nimm das stärkste Modell und schick alles durch. Egal ob eine einfache Zusammenfassung oder eine komplexe Code-Analyse — alles ging an GPT-5.5 oder Claude Opus. Das war bequem, aber teuer. Jetzt drehen die CFOs den Hahn zu.

Was Model Routing ist

Model Routing ist im Grunde ein intelligenter Verteiler: Einfache Aufgaben gehen an günstige, schnelle Modelle — oft Open-Source-Modelle aus China oder kleinere Varianten wie Haiku. Nur die wirklich anspruchsvollen Aufgaben landen bei den teuren Frontier-Modellen. Das Ergebnis: gleiche Qualität, ein Bruchteil der Kosten.

Das Problem für OpenAI und Anthropic

Wenn Unternehmen nur noch die schwierigen 20 Prozent der Aufgaben an Premium-Modelle schicken, brechen die Token-Volumina ein. Und damit die Umsätze. OpenAIs und Anthropics Bewertungen — 850 bzw. 965 Milliarden Dollar — basieren auf der Annahme, dass die Nachfrage nach Premium-Modellen endlos wächst. Model Routing stellt genau das in Frage.

Die Zahlen sind dramatisch

Die Kostenlawine ist real: Manche Unternehmen haben bereits im April ihr gesamtes KI-Budget für 2026 aufgebraucht. Uber hat seine Entwickler-Lizenzen für Claude Code nach vier Monaten wieder eingefroren, weil das Budget gesprengt war. Microsoft hat seinen eigenen Entwicklern die Claude-Code-Lizenzen entzogen.

Die Reaktion ist jetzt Model Routing. Die Preismacht verschiebt sich — weg von den KI-Laboren, hin zu den Käufern.

Meine Einordnung

Das ist ein natürlicher Reifeprozess. In der frühen Phase einer Technologie wird alles ausprobiert, koste es, was es wolle. Jetzt kommt die Phase, in der Effizienz zählt. Für Anthropic und OpenAI bedeutet das: Sie müssen nicht nur die besten Modelle bauen, sondern auch eine Preisstrategie finden, die Model Routing überlebt. Claudes Fallback-Modell-Feature in Version 2.1.166 geht genau in diese Richtung.

Quellen: CNBC, TechCrunch