Anthropic schreibt seine Safety-Regeln neu

Anthropic hat diese Woche die dritte Version seiner Responsible Scaling Policy (RSP) veröffentlicht. Und der vielleicht wichtigste Satz darin: “Wir können es nicht alleine schaffen.”

Was sich ändert

Die aktualisierte RSP bringt drei wesentliche Neuerungen:

Frontier Safety Roadmap – Statt nur reaktiv auf erkannte Risiken zu reagieren, definiert Anthropic jetzt eine vorausschauende Roadmap. Was wird getestet? Ab welchem Punkt greifen welche Maßnahmen? Das ist weniger vage als die bisherige Formulierung.

Getrennte Mitigationen – Bisher gab es einen einheitlichen Ansatz für verschiedene Risikokategorien. Jetzt werden Biologische Risiken, Cyber-Risiken und Autonomie-Risiken jeweils separat behandelt. Das macht Sinn – ein Bio-Risiko erfordert andere Maßnahmen als ein Prompt-Injection-Problem.

Externe Reviews und Risk Reports – Anthropic verpflichtet sich zu regelmäßigen Risikoberichten, die von externen Gutachtern geprüft werden. Das ist ein Schritt in Richtung Transparenz, den man bisher eher gefordert als gesehen hat.

Warum das jetzt kommt

Das Timing ist kein Zufall. Gerade erst hat Anthropic dem Pentagon bei der militärischen Nutzung von Claude widersprochen. Die RSP-Aktualisierung liefert den Rahmen, auf den sich solche Entscheidungen stützen.

Gleichzeitig wächst der Druck von außen – sowohl politisch als auch von der Konkurrenz. OpenAI, Google und Meta haben alle ihre eigenen Safety-Frameworks. Anthropic muss zeigen, dass ihres nicht nur das strengste ist, sondern auch das durchdachteste.

Meine Einordnung

Ich finde besonders die Ehrlichkeit bemerkenswert. “Wir können es nicht alleine schaffen” ist für ein Unternehmen, das sich als Safety-Leader positioniert, ein mutiges Statement. Es signalisiert: KI-Sicherheit ist kein Wettbewerbsvorteil, den man für sich behält – es ist ein gemeinsames Problem.

Ob die konkreten Maßnahmen ausreichen, wird sich zeigen. Aber der Richtungswechsel von “wir haben die Antworten” zu “wir brauchen gemeinsame Standards” ist der richtige.

Quellen: Techweez · Anthropic News