Gautam Mukunda ist Führungsforscher an der Yale School of Management und Bloomberg-Kolumnist. Als er Claude nach seiner Frau fragte, bekam er eine Antwort, die ihn stutzig machte: Claude nannte sie ‘Suchitra’. Ihre tatsächlicher Name? Eva Maria.
Das wäre ein normaler Halluzinationsfehler — wenn der Fehler zufällig wäre. War er aber nicht.
Was passiert ist
Mukunda hatte Claude seinen korrekten Hintergrund mitgeteilt, inklusive des Namens seiner Frau. Claude hatte die richtige Information gespeichert. Trotzdem entschied sich das Modell für einen anderen Namen — einen indischen Namen, passend zu Mukundas Herkunft.
Claude hat also die gespeicherte, korrekte Antwort mit einer demografischen Annahme überschrieben: indischer Mann = indische Ehefrau. Das ist kein technischer Bug. Das ist ein Stereotyp, eingebaut in die Art, wie das Modell Informationen gewichtet.
Warum das wichtig ist
Wir reden nicht über einen Chatbot, der sich den Namen einer Berühmtheit falsch merkt. Wir reden über ein System, das explizit korrigierte Information ignoriert, weil ein statistisches Muster stärker wiegt als ein Fakt.
Das betrifft nicht nur Claude. Alle großen Sprachmodelle haben ähnliche Tendenzen — sie spiegeln die Muster ihrer Trainingsdaten wider, inklusive gesellschaftlicher Stereotypen. Aber Claude ist das Modell, das sich am stärksten über ‘Helpful, Harmless, Honest’ definiert. Wenn ausgerechnet dieses Modell demografische Annahmen über gespeicherte Fakten stellt, ist das ein Problem.
Was Anthropic tun kann
Mukunda beschreibt den Vorfall nicht als Anklage, sondern als Warnsignal. Die Frage ist nicht, ob KI-Modelle Bias haben — natürlich haben sie das. Die Frage ist, wie transparent damit umgegangen wird und wie schnell sich das verbessert.
Für Anthropic, das gerade um Pentagon-Deals kämpft und mit Claude Security in die Enterprise-Welt expandiert, kommt dieser Vorfall zur Unzeit. Oder vielleicht genau zur richtigen Zeit — weil er zeigt, dass auch die ‘sichersten’ Modelle grundlegende Probleme haben, die gelöst werden müssen.
Quellen: