2 Min. Lesezeit KI-generiert

Gemini 3.1 Flash Image wird GA – und lernt Video-zu-Bild

Artikel als Markdown kopieren

Google macht sein Bildmodell Gemini 3.1 Flash Image (intern 'Nano Banana 2') zusammen mit Gemini 3 Pro Image allgemein verfügbar. Die Preview-Varianten werden abgeschaltet. Neu und spannend: Du kannst jetzt ein Video als Input geben, um daraus Thumbnails, Poster oder Infografiken zu erzeugen.

Featured image for "Gemini 3.1 Flash Image wird GA – und lernt Video-zu-Bild"

Kurzer Blick über den Tellerrand zur Konkurrenz: Google hat sein Bildmodell Gemini 3.1 Flash Image — intern unter dem Spitznamen «Nano Banana 2» bekannt — zusammen mit Gemini 3 Pro Image in die allgemeine Verfügbarkeit (GA) überführt. Die bisherigen -preview-Varianten werden im Gegenzug abgeschaltet.

Vom Preview zum Produktivbetrieb

Nano Banana 2 war seit Anfang des Jahres in der Preview und hat sich schnell zum Liebling vieler Entwickler gemausert — vor allem, weil es schnelle, hochwertige Bildgenerierung mit konversationellem Editing zu einem massentauglichen Preis kombiniert. Genau diese Mischung aus niedriger Latenz und solider Qualität macht es zum effizienten Gegenstück zum größeren Gemini 3 Pro Image.

Mit dem GA-Schritt ist Schluss mit dem Preview-Status. Wer noch auf gemini-3.1-flash-image-preview oder gemini-3-pro-image-preview setzt, sollte zügig migrieren — die Preview-Endpunkte werden abgeschaltet.

Das eigentliche Highlight: Video-zu-Bild

Spannender als das GA-Label finde ich eine neue Fähigkeit, die exklusiv in Gemini 3.1 Flash Image steckt: Video-zu-Bild-Generierung. Du übergibst eine Videodatei als multimodalen Kontext — zusammen mit einem Text-Prompt — und das Modell erzeugt daraus passende Standbilder. Google nennt als Anwendungsfälle hochwertige Thumbnails, kinoreife Poster oder zusammenfassende Infografiken.

Das ist mehr als nur ein Gimmick. Wer regelmäßig Videoinhalte produziert, kennt den Aufwand, dafür gute Vorschaubilder zu bauen. Ein Modell, das den Clip versteht und daraus ein stimmiges Keyframe-Bild ableitet, spart genau diesen mühsamen Zwischenschritt.

Meine Einordnung

Auf clauding.de geht es vor allem um Claude und Anthropic — aber das Tempo, das Google bei den Bildmodellen vorlegt, ist schwer zu ignorieren. Die Konkurrenz bei multimodalen Modellen treibt das gesamte Feld nach vorn, und davon profitieren am Ende wir alle. Video-zu-Bild ist eine dieser Funktionen, die unspektakulär klingt und im Arbeitsalltag richtig viel Zeit sparen kann. Ich bin gespannt, wann ähnliche multimodale Brücken auch anderswo Standard werden.

Quellen: Gemini API Release Notes, Google Cloud: Generate images from video with Gemini