Ticker

Anthropic verstärkt Schutzmechanismen gegen missbräuchliche KI-Nutzung

Von

Veröffentlicht am 5. Februar 2025

Anthropic hat eine neue Sicherheitsmaßnahme vorgestellt, die verhindern soll, dass Nutzer seine KI-Modelle für illegale oder gefährliche Zwecke missbrauchen. Der sogenannte „Constitutional Classifier“ soll als Schutzschicht über großen Sprachmodellen wie dem Claude-Chatbot liegen und sowohl Eingaben als auch Ausgaben auf problematische Inhalte überwachen.

Die Entwicklung kommt zu einem Zeitpunkt, an dem Technologieunternehmen wie Microsoft und Meta zunehmend unter Druck stehen, ihre KI-Modelle gegen „Jailbreaking“ abzusichern – Methoden, mit denen Nutzer Sicherheitsmaßnahmen umgehen, um an verbotene Informationen zu gelangen. Dazu gehören Anleitungen zur Herstellung chemischer Waffen oder anderer gefährlicher Inhalte.

Microsoft führte bereits im März 2024 einen „Prompt Shield“ ein, während Meta im Juli ein Schutzsystem präsentierte, das später nach Schwachstellenkorrekturen verbessert wurde.

Laut Anthropic-Mitarbeiter Mrinank Sharma wurde das neue System vor allem als Reaktion auf sicherheitskritische Bedrohungen im chemischen Bereich entwickelt. Der Vorteil liege darin, dass sich die Schutzmechanismen flexibel an neue Bedrohungen anpassen ließen. „Das Wichtigste an unserer Arbeit ist, dass wir glauben, dieses Problem sei lösbar“, so Sharma.

Die „Constitutional Classifier“ basieren auf einem festgelegten Regelwerk, das genau definiert, welche Inhalte erlaubt und welche verboten sind. Dadurch lassen sich gezielt bestimmte Risiken adressieren.

Um die Effektivität des Systems zu testen, bot Anthropic Prämien von bis zu 15.000 US-Dollar für Sicherheitsforscher an, die versuchten, die Schutzmaßnahmen zu umgehen. Diese „Red Teamer“ verbrachten mehr als 3.000 Stunden damit, das System anzugreifen. Das Ergebnis: Der Claude 3.5 Sonnet-Algorithmus blockierte mit aktivierten Schutzmechanismen über 95 Prozent der Angriffe – ohne Schutzmaßnahmen lag die Erfolgsquote bei nur 14 Prozent.

Ein häufiges Problem von KI-Sicherheitssystemen ist die Balance zwischen Schutz und Nutzerfreundlichkeit. Zu strenge Filter können dazu führen, dass auch harmlose Anfragen fälschlicherweise abgelehnt werden. Anthropic gibt an, dass die neuen Maßnahmen die Ablehnungsrate nur um 0,38 Prozentpunkte erhöhten.

Allerdings steigen durch solche Schutzmechanismen auch die Betriebskosten. Der zusätzliche Rechenaufwand zur Implementierung der Classifier würde die sogenannten „Inference Overhead“-Kosten um rund 24 Prozent erhöhen, so Anthropic.

Sicherheitsexperten warnen, dass generative KI-Modelle immer mehr Menschen Zugang zu gefährlichen Informationen ermöglichen könnten – ohne dass diese über spezielle Vorkenntnisse verfügen. „Früher musste man sich Sorgen über hochentwickelte Bedrohungen durch Staaten machen“, sagte Ram Shankar Siva Kumar, Leiter des AI-Red-Teams bei Microsoft. „Heute ist einer meiner potenziellen Angreifer ein Teenager mit schlechter Ausdrucksweise.“

Verwandte Themen:

Eulerpool Research Systems

Bei Nachrichten von Eulerpool handelt es sich um extern erstellte Tickermeldungen. Ihre Einbettung erfolgt automatisch. Sie werden von uns nicht überprüft oder bearbeitet.