Am 10. Juni hat Google DeepMind ein Modell veröffentlicht, das anders funktioniert als fast alles, was wir von Sprachmodellen kennen: DiffusionGemma. Statt Text Token für Token von links nach rechts zu erzeugen, arbeitet es wie ein Bild-Diffusionsmodell – und das ist mehr als eine technische Spielerei.
Wie aus Rauschen Text wird
Klassische Sprachmodelle schreiben ein Wort, dann das nächste, dann das nächste. DiffusionGemma macht es umgekehrt: Es startet mit einem Block aus 256 zufälligen Platzhalter-Tokens und verfeinert sie über mehrere Durchläufe, bis lesbarer Text entsteht – genau wie ein Bildmodell aus Rauschen nach und nach ein Motiv herausarbeitet.
Der Clou: Diese 256 Tokens entstehen parallel in einem einzigen Durchlauf, nicht nacheinander. Das macht das Modell rasend schnell. Auf einer einzelnen H100 schafft es über 1.000 Tokens pro Sekunde, auf einer GeForce RTX 5090 immer noch mehr als 700. Bis zu viermal schneller als das normale Gemma 4. Und weil es seinen eigenen Output über die Durchläufe nachschärft, kann es sich unterwegs selbst korrigieren.
Technisch ist es ein Mixture-of-Experts-Modell mit 26 Milliarden Parametern, von denen pro Schritt nur 3,8 Milliarden aktiv sind. Veröffentlicht unter Apache-2.0-Lizenz, verfügbar auf Hugging Face, Kaggle und in Googles Vertex AI Model Garden.
Der Haken
Geschwindigkeit hat ihren Preis. DiffusionGemma schneidet bei etablierten Benchmarks wie MMLU und bei Coding-Aufgaben schlechter ab als das reguläre Gemma 4. Google sagt das selbst ganz offen: Das hier ist experimentell. Für Produktionsfälle, in denen Qualität zählt, empfiehlt Google weiterhin Gemma 4.
Meine Einordnung: Mich fasziniert sowas. Seit Jahren erzeugen alle großen Modelle Text auf dieselbe Art – Token für Token, von vorne nach hinten. DiffusionGemma stellt diese Grundannahme in Frage. Ja, die Qualität reicht heute noch nicht an die Besten heran. Aber Geschwindigkeit ist ein Killer-Feature für Agenten, die in Schleifen denken und tausende Tokens am Stück produzieren. Und dass Google es offen unter Apache 2.0 rauslässt, heißt: Die ganze Community kann jetzt damit experimentieren. Genau aus solchen Experimenten entsteht oft das nächste Standardverfahren.
Quellen: VentureBeat: DiffusionGemma, SiliconANGLE, Hugging Face: google/diffusiongemma-26B-A4B-it