Gemini 3.1 Flash TTS: Googles neues Sprachmodell spricht 70 Sprachen — und nimmt Regieanweisungen

Google hat mit Gemini 3.1 Flash TTS ein neues Text-to-Speech-Modell vorgestellt, das einen ziemlich cleveren Ansatz verfolgt: Du steuerst die Stimme per Prompt. Keine komplizierten Einstellungsmenüs, keine SSML-Tags — du schreibst einfach dazu, wie es klingen soll.

Audio-Tags statt Schieberegler

Das Kernfeature sind sogenannte Audio-Tags. Du bettest natürlichsprachliche Anweisungen direkt in den Text ein und sagst dem Modell, ob es ‘enthusiastisch’, ‘informativ’ oder mit ‘positiver Überraschung’ sprechen soll. Das funktioniert in über 70 Sprachen.

Besonders cool finde ich die Akzent-Steuerung. Für Englisch gibt es eine ganze Palette: American Valley, Southern, britisches RP, Brixton — und viele mehr. Auch andere Sprachen haben regionale Varianten. Für Entwickler, die Voice-Interfaces bauen, ist das ein Riesensprung gegenüber den bisherigen monotonen TTS-Modellen.

Benchmark-Ergebnisse

Auf dem Artificial Analysis TTS Leaderboard hat das Modell einen Elo-Score von 1.211 erreicht und wurde im ‘attraktivsten Quadranten’ platziert — also hohe Qualität bei niedrigen Kosten. Das ist relevant für alle, die TTS in Produktionsumgebungen einsetzen wollen.

Verfügbarkeit

Das Modell ist ab sofort über die Gemini API, Google AI Studio und Vertex AI verfügbar. Alle generierten Audio-Dateien werden mit SynthID wassermarkiert — Googles Ansatz gegen Deepfake-Missbrauch.

Einordnung

Sprachsynthese war lange ein Bereich, in dem spezialisierte Anbieter wie ElevenLabs den Ton angaben. Mit Flash TTS bringt Google ein Modell, das durch die Prompt-Steuerung deutlich flexibler ist als klassische TTS-APIs. Für Entwickler, die Voice-Agenten oder Podcasts automatisieren, ist das ein spannendes neues Werkzeug.

Quellen: