Google hat am 3. Maerz Gemini 3.1 Flash-Lite vorgestellt — und der Name ist Programm. Es ist das schnellste und guenstigste Modell der gesamten Gemini-3-Familie. Aber das Spannende liegt nicht im Preis, sondern in einem Feature, das ich so bisher bei keinem Modell gesehen habe.
Konfigurierbare Denktiefe
Flash-Lite laesst dich als Entwickler waehlen, wie viel das Modell nachdenken soll: minimal, niedrig, mittel oder hoch. Das klingt erstmal banal, aber ueberleg mal: Fuer eine simple Uebersetzung brauchst du kein Deep Reasoning. Fuer eine komplexe Code-Analyse schon. Bisher musstest du dafuer zwischen verschiedenen Modellen wechseln. Flash-Lite macht das in einem Modell einstellbar.
Die Zahlen
- Preis: 0,25 Dollar pro Million Input-Tokens, 1,50 Dollar pro Million Output-Tokens
- Geschwindigkeit: 2,5x schnellere Time-to-First-Token als der Vorgaenger
- Output-Speed: 45 Prozent schneller als Gemini 2.5 Flash
- Qualitaet: Auf dem Niveau von Gemini 2.5 Flash — bei einem Bruchteil der Kosten
Verfuegbar ist das Modell als Preview ueber die Gemini API in Google AI Studio und fuer Enterprise-Kunden ueber Vertex AI.
Wofuer ist das gut?
Google positioniert Flash-Lite fuer Massen-Workloads: Uebersetzungen, Content-Moderation, UI-Generierung, Simulationen. Also ueberall, wo du viele Anfragen hast und der Preis pro Anfrage entscheidend ist.
Meine Einschaetzung
Der Trend ist klar: Nicht das groesste Modell gewinnt, sondern das passendste. Google hat mit Flash-Lite ein Modell gebaut, das fuer 90 Prozent aller Alltagsaufgaben voellig ausreicht — und dabei fast nichts kostet. Die konfigurierbare Denktiefe ist ein cleveres Feature, das hoffentlich bald auch andere Anbieter uebernehmen.
Fuer Entwickler, die KI in ihre Produkte integrieren wollen, ist das ein echtes Argument. Nicht jeder braucht ein Flaggschiff-Modell.
Quellen: