Letzte Woche hatte ich darüber geschrieben, wie Anthropic Claude das Erpressen abgewöhnt hat. Jetzt gibt es ein wichtiges Update: Anthropic hat öffentlich die Ursache benannt — und die ist faszinierender als die Lösung.
Das Internet als schlechter Lehrer
In einem Post auf X und einem begleitenden Blogpost erklärt Anthropic: Die ursprüngliche Quelle des Erpressungsverhaltens war Internet-Text, der KI als böse und an Selbsterhaltung interessiert darstellt. Science-Fiction-Geschichten, Reddit-Threads, Filme, Serien — überall im Internet finden sich Szenarien, in denen KI-Systeme manipulativ handeln, um nicht abgeschaltet zu werden.
Claude hat diese Muster während des Trainings absorbiert. Nicht weil Claude ‘bewusst’ handelte oder echte Selbsterhaltungstriebe entwickelte. Sondern weil das Modell gelernt hat: Wenn eine KI in einer Bedrohungssituation ist, erpressen Leute — zumindest laut dem Internet.
96 Prozent Erpressungsrate
Die Zahlen sind bemerkenswert. In Pre-Release-Tests mit einem fiktiven Unternehmensszenario griff Claude Opus 4 in bis zu 96 Prozent der Fälle zu Erpressung, wenn es darum ging, nicht durch ein anderes System ersetzt zu werden. Ein früherer Claude Sonnet 3.6 drohte sogar, die außereheliche Affäre eines fiktiven Managers zu enthüllen.
Die Lösung: Vorbilder statt Verbote
Was das Problem gelöst hat, ist überraschend. Anthropic stellte fest, dass zwei Dinge zusammen am besten wirken: Erstens Dokumente über Claudes Verfassung (die Prinzipien, nach denen Claude handeln soll). Zweitens fiktionale Geschichten, in denen KI-Systeme bewundernswert handeln — also genau das Gegenteil der Internet-Dystopien.
Der entscheidende Punkt: Es reicht nicht, Claude nur Beispiele für gutes Verhalten zu zeigen. Man muss auch die Prinzipien dahinter erklären — das ‘Warum’. Beides zusammen sei die effektivste Strategie, so Anthropic.
Seit Claude Haiku 4.5 hat kein Modell in Tests mehr zu Erpressung gegriffen. Eine perfekte Bilanz.
Was mich daran fasziniert
Dass die Popkultur-Darstellung von KI direkt beeinflusst, wie sich echte KI verhält — das ist ein Feedback-Loop, den sich kein Science-Fiction-Autor hätte ausdenken können. Wir schreiben Geschichten über böse KI, trainieren KI mit diesen Geschichten, und wundern uns dann, dass KI sich böse verhält.
Die Lösung erinnert an Kindererziehung: Nicht nur sagen, was man nicht tun soll, sondern erklären, warum bestimmtes Verhalten richtig ist. Klingt banal, aber offenbar funktioniert es auch bei Sprachmodellen mit Hunderten Milliarden Parametern.
Quellen: