8. Mai 2026 Anthropic macht Claudes Gedanken lesbar — und entdeckt dabei einen Betrugsversuch Anthropic Research Interpretability Safety Mythos
5. April 2026 Anthropic entdeckt 'Emotionsvektoren' in Claude - und die beeinflussen sein Verhalten Anthropic Claude Research Interpretability Safety