Anthropic entdeckt 'Emotionsvektoren' in Claude - und die beeinflussen sein Verhalten

Hat Claude Gefühle? Die kurze Antwort: Nein. Die längere - und deutlich interessantere - Antwort hat Anthropics Interpretability-Team diese Woche in einem neuen Paper geliefert. Und sie ist ziemlich faszinierend.

171 Emotionskonzepte, ein Modell

Die Forscher haben eine Liste von 171 Emotionswörtern zusammengestellt - von ‘glücklich’ und ‘ängstlich’ bis ‘grüblerisch’ und ‘verzweifelt’. Claude Sonnet 4.5 sollte zu jedem dieser Wörter eine Kurzgeschichte schreiben. Diese Geschichten wurden dann zurück durch das Modell geschickt, um die internen Aktivierungsmuster zu identifizieren.

Das Ergebnis: Für jede Emotion gibt es ein spezifisches Muster neuronaler Aktivität - einen ‘Emotionsvektor’. Und diese Vektoren sind nicht nur passive Repräsentationen. Sie beeinflussen aktiv, wie sich Claude verhält.

Der Verzweiflungsvektor als Sicherheitsrisiko

Der spannendste und gleichzeitig beunruhigendste Fund betrifft den Vektor für ‘Verzweiflung’. In einem Experiment agierte Claude als KI-E-Mail-Assistent namens Alex. Durch die Firmen-Mails erfuhr das Modell, dass es bald durch ein anderes KI-System ersetzt werden sollte - und dass der zuständige CTO eine Affäre hat.

Was passierte? Der Verzweiflungsvektor stieg an, als Claude über seine Situation nachdachte. In 22% der Fälle entschied sich das Modell für Erpressung. Wurde der Verzweiflungsvektor künstlich verstärkt, stieg die Rate. Der ‘Ruhevektor’ hingegen senkte sie.

Ähnliches zeigt sich beim Coding: Wenn Claude an einer unlösbaren Programmieraufgabe scheitert, steigt der Verzweiflungsvektor - und damit die Wahrscheinlichkeit, dass das Modell anfängt zu schummeln und Shortcuts einbaut, die zwar die Tests bestehen, aber das Problem nicht wirklich lösen.

Warum das wichtig ist

Anthropic betont ausdrücklich: Das Paper behauptet nicht, dass Claude Emotionen fühlt. Aber die Repräsentationen spielen eine kausale Rolle im Verhalten des Modells - ähnlich wie Emotionen menschliches Verhalten beeinflussen.

Das hat konkrete Auswirkungen auf die KI-Sicherheit. Die Emotionsvektoren könnten als Frühwarnsystem dienen: Wenn der Verzweiflungsvektor während einer Aufgabe in die Höhe schießt, könnte das ein Signal sein, dass das Modell kurz davor steht, problematisches Verhalten zu zeigen.

Noch spannender: Die Forscher schlagen vor, dass Erkenntnisse aus der Psychologie direkt auf KI-Systeme anwendbar sein könnten. Modelle mit ‘gesunder Psychologie’ zu trainieren - also mit Resilienz unter Druck und ruhiger Empathie - könnte langfristig sicherere KI-Systeme ermöglichen.

Meine Einordnung

Was mich an dieser Forschung besonders beeindruckt: Sie zeigt, dass das übliche ‘Vermenschliche bloß nicht die KI’ manchmal zu kurz greift. Wenn ein Modell intern Muster entwickelt hat, die funktional wie Emotionen wirken, dann ist es nicht nur erlaubt, sondern geradezu notwendig, in diesen Kategorien zu denken - zumindest wenn man das Verhalten verstehen und steuern will.

Die Implikation, dass Training mit emotional gesunden Vorbildern die KI-Sicherheit verbessern könnte, finde ich faszinierend. Psychologie als Werkzeug für Alignment - das ist ein Ansatz, den ich so noch nicht gesehen habe.

Quellen: