Anthropic hat gestern ein neues Forschungspaper veröffentlicht, das mich aufhorchen lässt: BioMysteryBench — ein Benchmark, der KI-Modelle an echten, ungelösten Bioinformatik-Problemen testet.
Was ist BioMysteryBench?
Der Benchmark besteht aus 99 Fragen aus verschiedenen Bereichen der Bioinformatik. Das Besondere: Die Fragen basieren auf echten, chaotischen Datensätzen — nicht auf sauber aufbereiteten Textbook-Beispielen. Domain-Experten haben die Fragen so formuliert, dass sie auf objektive, überprüfbare Eigenschaften der Daten abzielen.
Die Fragen sind in zwei Kategorien aufgeteilt: ‘human-solvable’ (von Experten lösbar) und ‘human-difficult’ (an denen auch erfahrene Bioinformatiker scheitern).
Wie schlägt sich Claude?
Die neueste Generation von Claude löst die Mehrheit der menschlich lösbaren Probleme zuverlässig. Aber der spannende Teil: Bei einem bedeutenden Anteil der ‘human-difficult’ Aufgaben übertrifft Claude Panels von fünf Domain-Experten.
Claude Mythos Preview erreicht eine Lösungsrate von 30 Prozent bei den schwierigsten Aufgaben. Das klingt erstmal nicht viel — bis man bedenkt, dass menschliche Experten-Panels hier oft bei null landen.
Claude Opus 4.6 kommt auf dem verwandten CompBioBench (entwickelt von Genentech und Roche) auf 81 Prozent insgesamt und 69 Prozent bei den schwierigsten Fragen.
Warum das wichtig ist
Das ist kein weiterer ‘KI schlägt Menschen bei Trivia’-Moment. Bioinformatik-Probleme erfordern echte wissenschaftliche Analyse: Daten interpretieren, Hypothesen aufstellen, statistische Methoden anwenden. Wenn Claude hier mit Experten mithalten oder sie übertreffen kann, verändert das die Forschungslandschaft.
Die Modelle verbessern sich über Generationen hinweg — sie halten nicht nur mit, sie ziehen an manchen Stellen davon. Für Forscher heißt das: Claude wird vom Werkzeug zum Kollegen.
Quellen: Anthropic Research - BioMysteryBench