Ornith: Open-Source-Modelle, die sich ihr eigenes Gerüst bauen

Die meisten Coding-Modelle bekommen eine Anweisung und legen los. Ornith macht es anders: Es baut erst ein Gerüst. Die neue Open-Source-Familie vom Forschungskollektiv DeepReinforce nimmt deine Aufgabe, erzeugt daraus ein sogenanntes Scaffold — ein lernbares Objekt — und lässt dann deine Harness daraus einen Agenten bauen, der die Arbeit erledigt.

Was das Scaffold macht

Statt die Anweisung direkt auszuführen, entwirft Ornith im Scaffold die Architektur für den Job: Reasoning-Sequenzen, Speicherorganisation, Debugging-Strategie, Reihenfolge der Tool-Aufrufe, Ausführungsplanung. Die Harness interpretiert dieses Gerüst und generiert daraus den Agenten. Ist die Aufgabe erledigt, wird das Scaffold gelöscht. Kommt eine neue Aufgabe, baut Ornith ein frisches.

Der Clou: Modell und Gerüst werden gemeinsam optimiert. Genau das soll verhindern, dass die KI bei langen, komplexen Jobs irgendwann den Faden verliert — das klassische Problem, wenn eine Aufgabe zu groß wird. Aufgebaut wird das Scaffold aus Regeln, die das Modell im Training über Deep Reinforcement Learning gelernt hat.

Vier Varianten für vier Situationen

Ornith kommt in vier Größen, alle auf Basis der Open-Source-Modelle Gemma 4 und Qwen 3.5:

9B Dense — läuft auf dem Laptop, gut für kleine Skripte und Single-File-Cleanups.
31B Dense — braucht eine Workstation mit bis zu 48 GB VRAM, erfasst dafür komplette Multi-File-Repositories.
35B MoE — ideal für Continuous-Integration-Patching und Code-Review in der Cloud.
397B MoE — das Flaggschiff, laut Team ein Konkurrent zu Opus 4.7. Braucht ein GPU-Cluster.

In den eigenen Tests schlug Ornith-1.0-397B Claude Opus 4.7 auf Terminal-Bench 2.1 — einem Benchmark für LLMs in Terminal-Umgebungen — mit 77,5 zu 70,3 Punkten.

Meine Einordnung

Zwei Dinge finde ich hier bemerkenswert. Erstens: Das Scaffold-Konzept trennt sauber zwischen dem, was gebaut werden soll, und der Strategie, wie es gebaut wird — und macht diese Strategie explizit optimierbar. Das ist eine andere Denkweise als das übliche ‘ein Modell, das alles kann’.

Zweitens: Ein offenes Modell, das ein aktuelles Anthropic-Flaggschiff auf einem Benchmark schlägt, ist ein Signal. Benchmarks sind nicht die ganze Wahrheit — ein einzelner Score sagt wenig über den Alltag. Aber die Geschwindigkeit, mit der Open-Source aufholt, bleibt eine der spannendsten Entwicklungen dieses Jahres. Zum Ausprobieren gibt es alle vier Varianten auf Hugging Face.

Quellen: DevOps.com: Ornith Models Automate Agentic Coding With Self-Scaffolding · DeepReinforce: Ornith 1.0 · Ornith auf Hugging Face