Qwen 3.5 Omni: Alibabas Open-Source-Modell versteht Text, Bild, Audio und Video gleichzeitig

Während alle Welt über Anthropics Leak-Woche redet, hat Alibaba still und leise ein Modell veröffentlicht, das in bestimmten Benchmarks sogar Googles Gemini 3.1 Pro schlägt. Und das Beste daran: Es ist vollständig Open Source.

Was kann Qwen 3.5 Omni?

Qwen 3.5 Omni ist ein nativ multimodales Large Language Model — das bedeutet, Text, Bilder, Audio und Video werden nicht nachträglich zusammengesteckt, sondern von Anfang an gemeinsam trainiert. Das macht einen echten Unterschied in der Qualität.

Die Zahlen sind beeindruckend: Das Modell kann über 10 Stunden Audio-Input verarbeiten und mehr als 400 Sekunden 720p-Video bei 1 FPS analysieren. Die Spracherkennung funktioniert in 113 Sprachen und Dialekten, die Sprachgenerierung in 36 Sprachen. Und dann gibt es noch Voice Cloning — das Modell kann eine Stimme nachahmen.

Alibaba hat drei Varianten veröffentlicht: Plus (das Flaggschiff), Flash (schneller, effizienter) und Light (für Edge-Geräte). Alle mit einem Kontextfenster von 256.000 Tokens.

Warum ist das relevant?

Zwei Gründe. Erstens schlägt Qwen 3.5 Omni Googles Gemini 3.1 Pro in mehreren Audio-Benchmarks. Das ist bemerkenswert für ein Open-Source-Modell, das jeder lokal betreiben kann. Zweitens zeigt es, wie schnell sich die Lücke zwischen proprietären und offenen Modellen schließt.

Für Entwickler bedeutet das: Du kannst dir jetzt ein multimodales Modell auf eigener Hardware betreiben, das mit den besten proprietären Lösungen konkurriert. Keine API-Kosten, keine Daten, die nach außen gehen, volle Kontrolle.

Die größere Geschichte

Qwen 3.5 Omni ist Teil einer ganzen Familie. Die 397B-Parameter-Variante mit Mixture-of-Experts-Architektur ist das Flaggschiff, aber auch die kleineren Modelle können sich sehen lassen. Alibaba hat in den letzten Monaten konsequent aufgerüstet und liefert mittlerweile eines der vollständigsten Open-Source-Ökosysteme im KI-Bereich.

Was mich dabei am meisten beeindruckt: Die Kombination aus Breite (Text + Bild + Audio + Video) und Tiefe (113 Sprachen, 10h Audio-Input, Voice Cloning). Das ist nicht nur ein Checkbox-Feature, sondern ein ernsthafter Konkurrent für jeden, der multimodale KI-Anwendungen baut.

Quellen: