Nachrichten

MIT-Studie deckt verborgene Mängel in großen Sprachmodellen auf

Jüngste Forschung vom MIT hat eine kritische Schwachstelle in Large Language Models (LLMs) aufgedeckt. Diese fortschrittlichen KI-Tools haben verschiedene Sektoren revolutioniert und bieten Dienste an, die von Bots für den Kundenservice bis hin zu Plattformen für die Zusammenfassung medizinischer Notizen reichen. Es ist jedoch ein unerwartetes Problem aufgetaucht, da diese Modelle in der Trainingsphase möglicherweise die falschen Lektionen lernen.

Das Dilemma, dass die Syntax den Sinn verdrängt

Überraschenderweise verlassen sich LLMs bei der Beantwortung von Anfragen nicht ausschließlich auf ihr Fachwissen. Stattdessen neigen sie dazu, sich auf vertraute grammatikalische Strukturen zu stützen, denen sie zuvor in Trainingssitzungen begegnet sind. Diese Lerntechnik kann dazu führen, dass sie ziemlich überzeugende, aber dennoch falsche Antworten geben, insbesondere wenn sie mit unbekannten oder syntaktisch irreführenden Fragen konfrontiert werden.

Diese Modelle werden anhand eines breiten Spektrums von Internettexten trainiert, so dass sie Beziehungen zwischen Wörtern, Phrasen und Satzformaten herstellen können. Dabei assoziieren LLMs bestimmte syntaktische Muster oder “syntaktische Vorlagen” mit bestimmten Themen oder Domänen. Zum Beispiel könnte das Modell die Struktur einer Frage wie “Wo liegt Paris?” so interpretieren, dass sie häufig mit geografischen Fragen in Verbindung gebracht wird. Folglich würde das Modell selbst dann, wenn es eine unsinnige Frage mit derselben Struktur gestellt bekäme, wie z. B. “Wo liegt Paris?”, mit “Frankreich” antworten, ungeachtet der Absurdität der Frage.

Was als unschuldiges Vertrauen in musterorientiertes Denken begann, hat sich zu einer ernsthaften Belastung entwickelt, insbesondere in Umgebungen, in denen viel auf dem Spiel steht. Diese Schwachstelle bedeutet, dass KI-Modelle wie LLMs unvorhersehbar versagen können, wenn sie klinische Aufzeichnungen zusammenfassen, Finanzberichte erstellen oder sensible Kundendaten verarbeiten. “Dies ist ein Nebenprodukt der Art und Weise, wie wir Modelle trainieren”, erklärt Marzyeh Ghassemi, außerordentliche Professorin am MIT und Hauptautorin der Studie. “Aber Modelle werden in der Praxis inzwischen in sicherheitskritischen Bereichen eingesetzt, die weit über die Aufgaben hinausgehen, die diese syntaktischen Fehler verursacht haben.”

Erforschen, Nutzen und Weiterentwickeln

Um dieses Problem weiter zu erforschen, führte das Forschungsteam synthetische Tests durch, bei denen jeder Bereich während des Trainings im Wesentlichen auf eine syntaktische Vorlage beschränkt war. Überraschenderweise zeigten die Ergebnisse, dass LLMs auch auf unsinnige Anfragen korrekte Antworten geben konnten, solange sie einer bekannten grammatikalischen Struktur folgten. Eine Umformulierung mit einer anderen Struktur führte zu falschen Antworten der Modelle, unabhängig von einer unveränderten Bedeutung.

Die Studie hat auch die beunruhigende Tatsache ans Licht gebracht, dass diese syntaktische Verzerrung von böswilligen Nutzern manipuliert werden könnte, um die Sicherheitsprotokolle der KI zu umgehen. Vinith Suriyakumar, MIT-Absolvent und Mitverfasser der Studie, unterstreicht diese Sorge und erklärt: “Wir müssen neue Abwehrmechanismen entwickeln, die darauf basieren, wie LLMs Sprache lernen, und nicht nur Ad-hoc-Lösungen.”

Die Forschung hat keine spezifischen Lösungen vorgeschlagen, aber das Team hat ein neues Tool für Entwickler entwickelt. Mit diesem Benchmarking-Tool können Entwickler herausfinden, ob ein Modell übermäßig auf syntaktische Muster zurückgreift, und so die Glaubwürdigkeit des Modells vor dem Einsatz verbessern. Das MIT-Team plant auch die Untersuchung potenzieller Abhilfestrategien wie die Einbeziehung vielfältigerer syntaktischer Vorlagen in die Trainingsdaten und die Untersuchung, wie sich dieses Problem auf schlussfolgernde Modelle auswirken könnte - eine Unterkategorie von LLMs, die für die Lösung mehrstufiger Probleme konzipiert sind.

Die Studie hat die Aufmerksamkeit von Fachleuten außerhalb der untersuchenden Gruppe auf sich gezogen. “Diese Arbeit unterstreicht die Bedeutung des sprachlichen Bewusstseins in der LLM-Sicherheitsforschung”, kommentierte Jessy Li, außerordentliche Professorin an der Universität von Texas. Dieses Projekt wurde durch die Unterstützung der National Science Foundation, der Gordon and Betty Moore Foundation, Schmidt Sciences, einen Google Research Award und ein Bridgewater AIA Labs Fellowship ermöglicht.

Wie ist Ihre Reaktion?

Aufgeregt
0
Glücklich
0
Verliebt
0
Nicht sicher
0
Dummerchen
0

Kommentare sind geschlossen.