KI-Modelle wie ChatGPT werden mit enormen Datenmengen aus dem Internet trainiert – darunter auch private und urheberrechtlich geschützte Inhalte. Das Problem: Diese Modelle können solche Texte nahezu wortwörtlich wiedergeben, selbst wenn die Originale längst gelöscht wurden. Medien wie die New York Times klagen bereits gegen OpenAI und Microsoft, während Gesetze wie die DSGVO den Druck auf KI-Unternehmen erhöhen.

Die gängige Lösung – ein komplettes Neutraining der Modelle mit bereinigten Daten – wäre extrem teuer und energieintensiv. Doch Forschende der University of California haben jetzt eine innovative Alternative entwickelt: eine Methode, die KI-Modelle gezielt „vergessen“ lässt.

Der Clou: Die Wissenschaftler erstellen Ersatzdatensätze, die den zu löschenden Daten statistisch ähneln. Durch Anpassung der Modellparameter und gezieltes Zufallsrauschen werden die problematischen Informationen entfernt – ohne Zugriff auf die ursprünglichen Trainingsdaten. Tests zeigen: Der Datenschutz ist dabei fast so gut wie bei einem kompletten Neutraining, der Aufwand aber drastisch geringer.

Die Methode funktioniert auch bei komplexen Systemen wie ChatGPT und ist besonders vielversprechend für Medien, Gesundheitseinrichtungen und alle, die mit sensiblen Daten arbeiten.

Source: KI Modelle, die private Daten vergessen