Forscher der Rice University haben herausgefunden, dass KI-Modelle Gefahr laufen, sich selbst zu sabotieren, wenn sie zum Training auf KI-generierte Daten zurückgreifen. In ihrer Studie „Self-Consuming Generative Models Go MAD“ zeigen sie, dass sich generative Bildmodelle wie DALL·E 3 und Stable Diffusion durch wiederholtes Training mit eigenen, synthetischen Daten verschlechtern. Diese Feedbackschleife, die die Forscher als „Model Autophagy Disorder“ (MAD) bezeichnen, führt dazu, dass die erzeugten Bilder nach einigen Generationen unbrauchbar werden.
Drei Szenarien des Datenwahnsinns
- Vollsynthetische Schleife: KI-Modelle werden ausschließlich mit eigenen, vorher generierten Daten trainiert.
- Synthetische Verstärkungsschleife: Eine Mischung aus synthetischen und konstanten realen Trainingsdaten wird verwendet.
- Frische Datenschleife: Eine Kombination aus synthetischen und neuen realen Daten kommt zum Einsatz.
Fortschreitende Verzerrung
Die Studie zeigt, dass ohne frische Daten die Qualität der erzeugten Bilder rapide abnimmt. Gesichter werden verzerrt, Zahlen unleserlich, und die Vielfalt der Bilder nimmt ab. Ein weiteres Problem ist die Voreingenommenheit der Trainingsdaten: Blumen, lächelnde Menschen und sonnige Urlaubsbilder dominieren, was die Modelle in eine falsche Richtung lenkt.
Notwendigkeit der Kennzeichnung
Um dieses Problem zu vermeiden, schlagen die Forscher vor, KI-generierte Inhalte klar zu kennzeichnen. Dies würde es ermöglichen, solche Daten beim Training neuer Modelle auszuschließen und den „Datenrinderwahnsinn“ zu verhindern. Langfristig müsste auf menschlich erzeugte Inhalte zurückgegriffen werden, was deren Wert erhöht.
Quelle: Heise.de