DeepMind will AGI messbar machen — und startet einen Hackathon dafuer

Wie nah sind wir an AGI? Das ist eine Frage, die normalerweise mit vagen Antworten beantwortet wird — irgendwo zwischen zwei und zwanzig Jahren, je nachdem wen du fragst. Google DeepMind versucht jetzt, die Frage wissenschaftlich zu beantworten. Und bittet die Community um Hilfe.

Eine kognitive Landkarte fuer KI

Das DeepMind-Team hat eine sogenannte kognitive Taxonomie entwickelt — ein Framework, das KI-Faehigkeiten in zehn Bereiche aufteilt und mit menschlichen Faehigkeiten vergleicht. Die Idee ist simpel: Lass KI-Modelle und Menschen dieselben Tests machen und schau, wo die KI mithaelt.

Die zehn Bereiche gliedern sich in acht Grundbausteine — Wahrnehmung, Generierung, Aufmerksamkeit, Lernen, Gedaechtnis, Metakognition, exekutive Funktionen und einen weiteren Bereich — sowie zwei zusammengesetzte Faehigkeiten: Problemloesung und soziale Kognition.

Wo die groessten Luecken sind

Und hier wird es ehrlich: Fuer fuenf der zehn Bereiche gibt es noch nicht einmal gute Tests. Lernen, Metakognition, Aufmerksamkeit, exekutive Funktionen und soziale Kognition — das sind die Faehigkeiten, bei denen die Forschung am wenigsten weiss, wie gut aktuelle KI-Modelle wirklich abschneiden.

Genau hier setzt der Hackathon an.

200.000 Dollar fuer bessere Benchmarks

DeepMind hat einen Kaggle-Wettbewerb gestartet, bei dem Entwickler und Forscher Evaluierungen fuer genau diese fuenf Luecken entwerfen sollen. Der Preispool: 200.000 Dollar. Pro Bereich gibt es zwei Gewinner mit je 10.000 Dollar, dazu vier Gesamtsieger mit je 25.000 Dollar. Die Ergebnisse werden im Juni bekanntgegeben.

Warum das wichtig ist

Benchmarks klingen langweilig — sind sie aber nicht. Denn wie wir KI messen, bestimmt, wie wir KI entwickeln. Wenn wir nur Sprachfaehigkeiten testen, optimieren wir Modelle auf Sprache. Wenn wir soziale Kognition oder Metakognition testen, entstehen voellig andere Anreize.

DeepMinds Framework ist auch eine implizite Kritik an bestehenden Benchmarks. Die meisten aktuellen Tests messen vor allem Wissen und Sprachverstaendnis — nicht, ob ein System tatsaechlich lernen, sich selbst einschaetzen oder in sozialen Kontexten angemessen reagieren kann.

Es ist ein kluger Schachzug: Statt zu behaupten, wie nah AGI ist, baut DeepMind das Werkzeug, mit dem wir es herausfinden koennen. Und holt sich dabei die smartesten Koepfe der Community an Bord.

Quellen:

The Register: Google DeepMind hackathon to pit meatbags v machines