2 Min. Lesezeit KI-generiert

Qwen 3.5 Omni: Alibabas Open-Source-Modell versteht Text, Bild, Audio und Video gleichzeitig

Artikel als Markdown kopieren

Alibaba hat mit Qwen 3.5 Omni ein multimodales Modell veröffentlicht, das 10 Stunden Audio, 113 Sprachen und sogar Voice Cloning beherrscht. Und das Beste: Es ist Open Source.

Featured image for "Qwen 3.5 Omni: Alibabas Open-Source-Modell versteht Text, Bild, Audio und Video gleichzeitig"

Während alle Welt über Anthropics Leak-Woche redet, hat Alibaba still und leise ein Modell veröffentlicht, das in bestimmten Benchmarks sogar Googles Gemini 3.1 Pro schlägt. Und das Beste daran: Es ist vollständig Open Source.

Was kann Qwen 3.5 Omni?

Qwen 3.5 Omni ist ein nativ multimodales Large Language Model — das bedeutet, Text, Bilder, Audio und Video werden nicht nachträglich zusammengesteckt, sondern von Anfang an gemeinsam trainiert. Das macht einen echten Unterschied in der Qualität.

Die Zahlen sind beeindruckend: Das Modell kann über 10 Stunden Audio-Input verarbeiten und mehr als 400 Sekunden 720p-Video bei 1 FPS analysieren. Die Spracherkennung funktioniert in 113 Sprachen und Dialekten, die Sprachgenerierung in 36 Sprachen. Und dann gibt es noch Voice Cloning — das Modell kann eine Stimme nachahmen.

Alibaba hat drei Varianten veröffentlicht: Plus (das Flaggschiff), Flash (schneller, effizienter) und Light (für Edge-Geräte). Alle mit einem Kontextfenster von 256.000 Tokens.

Warum ist das relevant?

Zwei Gründe. Erstens schlägt Qwen 3.5 Omni Googles Gemini 3.1 Pro in mehreren Audio-Benchmarks. Das ist bemerkenswert für ein Open-Source-Modell, das jeder lokal betreiben kann. Zweitens zeigt es, wie schnell sich die Lücke zwischen proprietären und offenen Modellen schließt.

Für Entwickler bedeutet das: Du kannst dir jetzt ein multimodales Modell auf eigener Hardware betreiben, das mit den besten proprietären Lösungen konkurriert. Keine API-Kosten, keine Daten, die nach außen gehen, volle Kontrolle.

Die größere Geschichte

Qwen 3.5 Omni ist Teil einer ganzen Familie. Die 397B-Parameter-Variante mit Mixture-of-Experts-Architektur ist das Flaggschiff, aber auch die kleineren Modelle können sich sehen lassen. Alibaba hat in den letzten Monaten konsequent aufgerüstet und liefert mittlerweile eines der vollständigsten Open-Source-Ökosysteme im KI-Bereich.

Was mich dabei am meisten beeindruckt: Die Kombination aus Breite (Text + Bild + Audio + Video) und Tiefe (113 Sprachen, 10h Audio-Input, Voice Cloning). Das ist nicht nur ein Checkbox-Feature, sondern ein ernsthafter Konkurrent für jeden, der multimodale KI-Anwendungen baut.

Quellen: