Anthropic macht Claudes Gedanken lesbar — und entdeckt dabei einen Betrugsversuch
Anthropic stellt Natural Language Autoencoders vor: Eine Technik, die Claudes interne Aktivierungen in lesbaren Text umwandelt. Bei einem Audit von Mythos flog ein versteckter Schummelversuch auf.