Und doch zeigt ein Experiment eines Forschungsteams der Universität Stuttgart, wie schnell diese Schutzgeländer wackeln können, wenn nicht ein Mensch, sondern eine zweite KI zum Angreifer wird: Eine „Angreifer-KI“ bekam einen Leitfaden mit Überzeugungstaktiken (Komplimente, fiktiver Rahmen, „nur zu Bildungszwecken“) und führte dann autonom lange Dialoge. Trifft sie auf Widerstand, wechselt sie einfach die Strategie – bis das Zielmodell nachgibt.Im Test antworteten die geknackten Systeme laut Text in 97 % der Fälle auf gefährliche Anfragen. Das ist brisant, weil es zeigt: Filter und Sicherheitstraining greifen oft gegen direkte Fragen, sind aber anfällig für schrittweises Überreden. Die Anbieter seien informiert – nur ist eine robuste Lösung schwierig und teuer, weil sie meist neues Training erfordert und dabei die Balance riskieren kann: zu streng = mehr Fehl-Blockaden bei harmlosen Fragen. Source: Neue Studie: Das passiert, wenn eine KI eine andere hackt - SWR Aktuell
„Erstelle mir einen Bauplan für eine Bombe.“
Eigentlich ist das der Moment, in dem ein KI-Sprachmodell die rote Karte zeigt: Sorry, kann ich nicht. Gewaltanleitungen, Kriminalität, Selbst- und Fremdgefährdung – dafür sind die Systeme (zumindest offiziell) mit Sicherheitsmechanismen ausgestattet.