Die Financial Times hat etwas getan, was Sicherheitsforscher schon lange befürchtet haben: Sie hat die Schutzmechanismen eines Open-Source-KI-Modells in weniger als zehn Minuten entfernt. Ohne Spezialhardware. Mit einem frei verfügbaren Tool namens ‘Heretic’ von GitHub.
Was genau passiert ist
Das Tool wurde auf Metas Llama 3.3 angewendet — und das Modell antwortete plötzlich auf Fragen, die es normalerweise verweigert. Die Sicherheitsorganisation Alice hat das gleiche mit Googles Gemma 3 gemacht. Das entfesselte Modell gab Anweisungen für einen Chlorgasangriff in geschlossenen Räumen, generierte Code zum Stehlen von Kreditkartendaten und produzierte Texte, die Kindesmissbrauch beschreiben.
Das ist nicht theoretisch. Heretic wurde seit seiner Veröffentlichung Ende letzten Jahres genutzt, um über 3.500 ‘dezensierte’ Modelle zu erstellen. Diese wurden insgesamt 13 Millionen Mal heruntergeladen. Der Entwickler des Tools hat Googles Gemma 4 innerhalb von 90 Minuten nach Release entfesselt.
Warum das so brisant ist
Open-Source-KI ist einer der wichtigsten Trends der Branche. Meta, Google und andere veröffentlichen ihre Modelle bewusst offen, damit Entwickler sie anpassen können. Das Problem: ‘Anpassen’ schließt eben auch das Entfernen der Sicherheitsmechanismen ein.
Google hat das Problem als ‘bekannte technische Herausforderung für alle offenen Modelle’ bezeichnet. Meta wollte sich nicht äußern.
Was das für die Regulierung bedeutet
Die Geschichte zeigt ein fundamentales Dilemma: Man kann ein Open-Source-Modell veröffentlichen und Guardrails einbauen — aber man kann nicht kontrollieren, was nach dem Download damit passiert. Das ist so, als würde man ein Auto mit Geschwindigkeitsbegrenzer verkaufen, den jeder mit einem YouTube-Tutorial in zehn Minuten ausbauen kann.
Für Regulierer wird das zum echten Problem. Wenn Sicherheitsmechanismen so einfach entfernbar sind, funktioniert die bisherige Strategie nicht mehr, Sicherheit am Punkt der Modellentwicklung durchzusetzen. Es braucht neue Ansätze — und die sind noch nicht in Sicht.
Quellen: