DeepSeek V4: Fast auf Frontier-Level, zum Bruchteil des Preises

DeepSeek hat am 24. April seine V4-Modellreihe veröffentlicht — und die Preise sind so niedrig, dass man zweimal hinschauen muss. Zwei Modelle stehen bereit: DeepSeek-V4-Pro mit 1,6 Billionen Parametern (49 Milliarden aktiv) und DeepSeek-V4-Flash mit 284 Milliarden Parametern (13 Milliarden aktiv). Beide unter MIT-Lizenz, beide mit einer Million Token Kontext.

Die Preise sprechen für sich

Simon Willison hat eine Vergleichstabelle erstellt, die das Ausmaß deutlich macht. DeepSeek-V4-Flash kostet 0,14 Dollar pro Million Input-Tokens — das ist billiger als GPT-5.4 Nano und Gemini 3.1 Flash-Lite. V4-Pro liegt bei 1,74 Dollar pro Million Input-Tokens, also deutlich unter Claude Sonnet 4.6 (3 Dollar) oder GPT-5.4 (2,50 Dollar).

Wie schaffen die das?

DeepSeek hat massiv in Effizienz investiert. Laut dem zugehörigen Paper verbraucht V4-Pro bei einer Million Token Kontext nur 27 Prozent der Rechenleistung von DeepSeek V3.2 — bei besserer Performance. Flash schafft sogar nur 10 Prozent. Das erklärt die Preise.

Die Architektur setzt auf ein ‘Hybrid Attention’-System, das besonders bei langen Kontexten effizienter arbeitet als klassische Transformer-Architekturen. Und der KV-Cache — einer der größten Kostentreiber bei langen Prompts — wurde auf 7-10 Prozent des Vorgängers reduziert.

Wie gut sind die Modelle wirklich?

DeepSeek ist ehrlich in der Einschätzung: V4-Pro ist kompetitiv mit den Frontier-Modellen, aber nicht ganz auf dem Level von GPT-5.4 oder Gemini 3.1-Pro. Das Paper spricht von einem Rückstand von ‘ungefähr 3 bis 6 Monaten’. Das ist trotzdem beeindruckend für ein Open-Source-Modell.

Die Modelle liegen als Open Weights auf Hugging Face — Pro mit 865 GB, Flash mit 160 GB. Die Community wartet bereits auf quantisierte Versionen vom Unsloth-Team, damit Flash auch auf Consumer-Hardware läuft.

Warum das wichtig ist

DeepSeek V4 ist der bisher stärkste Beweis dafür, dass Open-Source-Modelle den proprietären Frontier-Modellen immer näher kommen — und das bei einem Bruchteil der Kosten. Für Entwickler, die API-Kosten optimieren wollen, ist V4-Flash eine extrem attraktive Option. Für alle, die Modelle lokal betreiben wollen, könnte die quantisierte Flash-Version ein Game-Changer werden.

Quellen: