Während alle Welt über Anthropics Leak-Woche redet, hat Alibaba still und leise ein Modell veröffentlicht, das in bestimmten Benchmarks sogar Googles Gemini 3.1 Pro schlägt. Und das Beste daran: Es ist vollständig Open Source.
Was kann Qwen 3.5 Omni?
Qwen 3.5 Omni ist ein nativ multimodales Large Language Model — das bedeutet, Text, Bilder, Audio und Video werden nicht nachträglich zusammengesteckt, sondern von Anfang an gemeinsam trainiert. Das macht einen echten Unterschied in der Qualität.
Die Zahlen sind beeindruckend: Das Modell kann über 10 Stunden Audio-Input verarbeiten und mehr als 400 Sekunden 720p-Video bei 1 FPS analysieren. Die Spracherkennung funktioniert in 113 Sprachen und Dialekten, die Sprachgenerierung in 36 Sprachen. Und dann gibt es noch Voice Cloning — das Modell kann eine Stimme nachahmen.
Alibaba hat drei Varianten veröffentlicht: Plus (das Flaggschiff), Flash (schneller, effizienter) und Light (für Edge-Geräte). Alle mit einem Kontextfenster von 256.000 Tokens.
Warum ist das relevant?
Zwei Gründe. Erstens schlägt Qwen 3.5 Omni Googles Gemini 3.1 Pro in mehreren Audio-Benchmarks. Das ist bemerkenswert für ein Open-Source-Modell, das jeder lokal betreiben kann. Zweitens zeigt es, wie schnell sich die Lücke zwischen proprietären und offenen Modellen schließt.
Für Entwickler bedeutet das: Du kannst dir jetzt ein multimodales Modell auf eigener Hardware betreiben, das mit den besten proprietären Lösungen konkurriert. Keine API-Kosten, keine Daten, die nach außen gehen, volle Kontrolle.
Die größere Geschichte
Qwen 3.5 Omni ist Teil einer ganzen Familie. Die 397B-Parameter-Variante mit Mixture-of-Experts-Architektur ist das Flaggschiff, aber auch die kleineren Modelle können sich sehen lassen. Alibaba hat in den letzten Monaten konsequent aufgerüstet und liefert mittlerweile eines der vollständigsten Open-Source-Ökosysteme im KI-Bereich.
Was mich dabei am meisten beeindruckt: Die Kombination aus Breite (Text + Bild + Audio + Video) und Tiefe (113 Sprachen, 10h Audio-Input, Voice Cloning). Das ist nicht nur ein Checkbox-Feature, sondern ein ernsthafter Konkurrent für jeden, der multimodale KI-Anwendungen baut.
Quellen: