Eine neue Studie von Apple-Forschern zeigt, dass Large Language Models (LLMs) wie GPT-4 und Llama3 grundlegende Probleme beim logischen Denken haben. Ein Beispiel: Die Aufgabe, Kiwis zu zählen, führt bei KIs zu falschen Ergebnissen, wenn irrelevante Informationen wie die Größe der Früchte eingefügt werden. Menschen erkennen die Unwichtigkeit solcher Details, aber KI-Modelle scheitern häufig daran.
Die Forscher erklären, dass die Modelle Aufgaben oft nicht wirklich verstehen. Sie arbeiten nach einem ausgeklügelten Musterabgleich und reagieren empfindlich auf Änderungen in Formulierungen. Bereits geringfügige Anpassungen, wie der Austausch von Namen, können die Ergebnisse um bis zu 10 Prozent verändern. Trotz der Fortschritte bei Trainingsdaten glauben die Forscher, dass dies bestenfalls zu „besseren Musterabgleichern“ führen wird, nicht zu echten logischen Denkern.
Quelle: Golem.de