GLM-5.1: Das Open-Source-Modell, das 8 Stunden autonom arbeitet

Z.ai (früher Zhipu AI) hat mit GLM-5.1 ein Open-Source-Modell veröffentlicht, das die bisherigen Grenzen dessen verschiebt, was ein frei verfügbares LLM leisten kann. Und damit meine ich nicht nur bessere Benchmark-Zahlen — obwohl die auch beeindruckend sind.

Die Eckdaten

GLM-5.1 ist ein Mixture-of-Experts-Modell mit 754 Milliarden Parametern und einem Kontextfenster von 202.752 Tokens. Es läuft unter der MIT-Lizenz, kann also kommerziell genutzt, modifiziert und weiterverteilt werden. Das allein wäre schon eine Nachricht. Aber der eigentliche Clou ist ein anderer.

Acht Stunden autonom

Das Besondere an GLM-5.1 ist seine Fähigkeit, über extrem lange Zeiträume autonom zu arbeiten. Z.ai hat das Modell demonstriert, indem es eine komplette Linux-Desktop-Umgebung von Grund auf gebaut hat — 655 Iterationen, acht Stunden Laufzeit, ohne menschliches Eingreifen.

Das klingt nach einer netten Demo, aber die Implikationen sind real: Wenn ein Open-Source-Modell tausende Tool-Aufrufe über Stunden hinweg kohärent orchestrieren kann, eröffnet das ganz neue Möglichkeiten für automatisierte Software-Entwicklung, Datenanalyse und Systemadministration.

Benchmark-Ergebnisse

Auf SWE-Bench Pro — dem derzeit anspruchsvollsten Benchmark für Software-Engineering — erreicht GLM-5.1 einen Score von 58,4 und liegt damit vor GPT-5.4 (57,7) und Claude Opus 4.6 (57,3). Wohlgemerkt: Das ist ein Open-Source-Modell, das die kommerziellen Platzhirsche schlägt.

Was das für die Open-Source-Welt bedeutet

Der Trend ist eindeutig: Open-Source-Modelle holen nicht nur auf — sie überholen die proprietären Anbieter in bestimmten Bereichen. Nach DeepSeek-V3.2 und Llama 4 Maverick ist GLM-5.1 das nächste Signal, dass die Zukunft von LLMs nicht zwingend hinter geschlossenen APIs liegt.

Für Unternehmen, die aus Datenschutz- oder Compliance-Gründen Modelle lokal betreiben wollen, ist das eine enorm wichtige Entwicklung. Ein MIT-lizenziertes Modell, das auf Augenhöhe mit Claude und GPT spielt, war vor einem Jahr noch undenkbar.

Meine Einschätzung

Ich finde die Acht-Stunden-Autonomie spannender als die Benchmark-Ergebnisse. Benchmarks kommen und gehen. Aber ein Modell, das über Stunden hinweg stabil und zielgerichtet arbeiten kann — das ist ein qualitativer Sprung.

Ob GLM-5.1 in der Praxis hält, was die Demos versprechen, muss sich noch zeigen. Aber die Richtung stimmt: Agentic AI wird open source, und das wird die gesamte Branche unter Druck setzen.

Quellen: