Nature-Studie: KI-Agenten scheitern an komplexen wissenschaftlichen Aufgaben

Während die Tech-Branche gerade KI-Agenten als die nächste Revolution feiert, kommt eine Studie aus Nature mit einem Realitätscheck: Die besten KI-Agenten erreichen bei komplexen Aufgaben nur etwa die Hälfte der Leistung von Experten mit Doktortitel.

Die Ergebnisse stammen aus dem Stanford AI Index Report 2026, der diese Woche vom Institute for Human-Centered AI veröffentlicht wurde. Nature hat die Befunde in einer ausführlichen Analyse aufgegriffen.

Was getestet wurde

Die Forscher haben aktuelle KI-Agenten – also Systeme, die autonom Aktionen ausführen und mehrstufige Workflows abarbeiten können – gegen menschliche Experten antreten lassen. Bei einfachen Aufgaben schneiden die Agenten mittlerweile respektabel ab. Aber sobald es komplex wird, sobald echtes Domänenwissen, kreative Problemlösung und das Verknüpfen verschiedener Informationsquellen gefragt sind, fallen sie deutlich zurück.

Das ist deshalb bemerkenswert, weil KI-Agenten gerade überall als Game-Changer positioniert werden. OpenAI hat Codex, Anthropic hat Claude Code Routines, Google baut Agenten in Gemini ein. Die Investitionen sind enorm.

Die Nuance in den Daten

Was die Studie aber auch zeigt: KI-Tools sind trotz ihrer Limitierungen extrem nützlich. Forscher, die KI-gestützt arbeiten, publizieren 3-mal mehr Papers und erhalten fast 5-mal mehr Zitationen als ihre Kollegen ohne KI-Unterstützung.

Es gibt allerdings einen Haken: Gleichzeitig verengt sich der Fokus der Forschung. Wenn alle die gleichen KI-Tools nutzen, tendieren sie dazu, ähnliche Fragen zu stellen und ähnliche Methoden zu wählen. Mehr Output, weniger Vielfalt.

Meine Einordnung

Diese Studie passt zu dem, was ich in der Praxis beobachte. KI-Agenten sind fantastisch für klar definierte, wiederholbare Aufgaben. Aber sobald du in unbekanntes Terrain vordringst – echte Forschung, echte Kreativität, echte Problemlösung – brauchst du immer noch einen Menschen, der die Richtung vorgibt.

Das ist kein Argument gegen Agenten. Es ist ein Argument dafür, sie als das zu sehen, was sie sind: extrem leistungsfähige Werkzeuge, die Menschen verstärken, aber nicht ersetzen. Zumindest noch nicht.

Der Stanford AI Index Report 2026 hat übrigens auch festgestellt, dass Anthropic bei der Modellleistung aktuell führt, gefolgt von xAI, Google und OpenAI. Aber das ist eine andere Geschichte.

Quellen: