Gemini 3.1 Flash-Lite — Googles billigstes KI-Modell kann mehr als du denkst

Google hat am 3. Maerz Gemini 3.1 Flash-Lite vorgestellt — und der Name ist Programm. Es ist das schnellste und guenstigste Modell der gesamten Gemini-3-Familie. Aber das Spannende liegt nicht im Preis, sondern in einem Feature, das ich so bisher bei keinem Modell gesehen habe.

Konfigurierbare Denktiefe

Flash-Lite laesst dich als Entwickler waehlen, wie viel das Modell nachdenken soll: minimal, niedrig, mittel oder hoch. Das klingt erstmal banal, aber ueberleg mal: Fuer eine simple Uebersetzung brauchst du kein Deep Reasoning. Fuer eine komplexe Code-Analyse schon. Bisher musstest du dafuer zwischen verschiedenen Modellen wechseln. Flash-Lite macht das in einem Modell einstellbar.

Die Zahlen

Preis: 0,25 Dollar pro Million Input-Tokens, 1,50 Dollar pro Million Output-Tokens
Geschwindigkeit: 2,5x schnellere Time-to-First-Token als der Vorgaenger
Output-Speed: 45 Prozent schneller als Gemini 2.5 Flash
Qualitaet: Auf dem Niveau von Gemini 2.5 Flash — bei einem Bruchteil der Kosten

Verfuegbar ist das Modell als Preview ueber die Gemini API in Google AI Studio und fuer Enterprise-Kunden ueber Vertex AI.

Wofuer ist das gut?

Google positioniert Flash-Lite fuer Massen-Workloads: Uebersetzungen, Content-Moderation, UI-Generierung, Simulationen. Also ueberall, wo du viele Anfragen hast und der Preis pro Anfrage entscheidend ist.

Meine Einschaetzung

Der Trend ist klar: Nicht das groesste Modell gewinnt, sondern das passendste. Google hat mit Flash-Lite ein Modell gebaut, das fuer 90 Prozent aller Alltagsaufgaben voellig ausreicht — und dabei fast nichts kostet. Die konfigurierbare Denktiefe ist ein cleveres Feature, das hoffentlich bald auch andere Anbieter uebernehmen.

Fuer Entwickler, die KI in ihre Produkte integrieren wollen, ist das ein echtes Argument. Nicht jeder braucht ein Flaggschiff-Modell.

Quellen: