Kategorien: Nachrichten

MIT-Studie deckt verborgene Mängel in großen Sprachmodellen auf

Jüngste Forschung vom MIT hat eine kritische Schwachstelle in Large Language Models (LLMs) aufgedeckt. Diese fortschrittlichen KI-Tools haben verschiedene Sektoren revolutioniert und bieten Dienste an, die von Bots für den Kundenservice bis hin zu Plattformen für die Zusammenfassung medizinischer Notizen reichen. Es ist jedoch ein unerwartetes Problem aufgetaucht, da diese Modelle in der Trainingsphase möglicherweise die falschen Lektionen lernen.

Das Dilemma, dass die Syntax den Sinn verdrängt

Überraschenderweise stützen sich LLMs bei der Beantwortung von Fragen nicht ausschließlich auf Fachwissen. Stattdessen greifen sie in der Regel auf vertraute grammatikalische Strukturen zurück, denen sie bereits während des Trainings begegnet sind. Diese Lernmethode kann dazu führen, dass sie recht überzeugende, aber dennoch irreführende Antworten liefern, insbesondere wenn sie mit unbekannten oder syntaktisch irreführenden Fragen konfrontiert werden.

Diese Modelle werden anhand eines breiten Spektrums an Internettexten trainiert, wodurch sie Beziehungen zwischen Wörtern, Phrasen und Satzstrukturen herstellen können. Dabei ordnen LLMs bestimmte syntaktische Muster oder “syntaktische Vorlagen” bestimmten Themen oder Fachgebieten zu. Beispielsweise könnte das Modell die Struktur einer Frage wie “Wo liegt Paris?” so interpretieren, dass sie häufig mit geografischen Anfragen in Verbindung steht. Folglich würde das Modell selbst bei einer unsinnigen Anfrage mit derselben Struktur, wie etwa “Schnell sitzen Paris bewölkt?”, dennoch mit “Frankreich” antworten – ungeachtet der Absurdität der Frage.

Was als harmloses Vertrauen in musterorientiertes Denken begann, hat sich zu einem ernsthaften Risiko entwickelt, insbesondere in Umgebungen, in denen viel auf dem Spiel steht. Dieser Fehler bedeutet, dass KI-Modelle wie LLMs bei der Zusammenfassung von Krankenakten, der Erstellung von Finanzberichten oder dem Umgang mit sensiblen Kundendaten unvorhersehbare Fehler machen können. “Das ist ein Nebenprodukt der Art und Weise, wie wir Modelle trainieren”, erklärt Marzyeh Ghassemi, außerordentliche Professorin am MIT und leitende Autorin der Studie. “Aber Modelle werden mittlerweile in der Praxis in sicherheitskritischen Bereichen eingesetzt, die weit über die Aufgaben hinausgehen, bei denen diese syntaktischen Fehler entstanden sind.”

Erforschen, Nutzen und Weiterentwickeln

Um dieses Problem weiter zu erforschen, führte das Forschungsteam synthetische Tests durch, bei denen jeder Bereich während des Trainings im Wesentlichen auf eine syntaktische Vorlage beschränkt war. Überraschenderweise zeigten die Ergebnisse, dass LLMs auch auf unsinnige Anfragen korrekte Antworten geben konnten, solange sie einer bekannten grammatikalischen Struktur folgten. Eine Umformulierung mit einer anderen Struktur führte zu falschen Antworten der Modelle, unabhängig von einer unveränderten Bedeutung.

Die Studie brachte zudem die beunruhigende Tatsache ans Licht, dass diese syntaktische Verzerrung potenziell von böswilligen Nutzern ausgenutzt werden könnte, um die Sicherheitsprotokolle der KI zu umgehen. Vinith Suriyakumar, ein Doktorand am MIT und Mitautor der Studie, unterstreicht diese Sorge und erklärt: “Wir müssen neue Abwehrmechanismen entwickeln, die darauf basieren, wie LLMs Sprache lernen, anstatt nur Ad-hoc-Lösungen zu finden.”

Die Studie schlug zwar keine konkreten Lösungen vor, doch das Team entwickelte ein neues Tool für Entwickler. Mit diesem Benchmarking-Tool können Entwickler feststellen, ob sich ein Modell übermäßig auf syntaktische Muster stützt, und so die Zuverlässigkeit des Modells vor der Bereitstellung verbessern. Das MIT-Team plant außerdem, mögliche Strategien zur Risikominderung zu untersuchen, wie beispielsweise die Einbindung vielfältigerer syntaktischer Vorlagen in die Trainingsdaten, und zu prüfen, wie sich dieses Problem auf Schlussfolgerungsmodelle auswirken könnte – eine Unterkategorie von LLMs, die zur Lösung mehrstufiger Probleme entwickelt wurden.

Die Studie hat auch bei Fachleuten außerhalb der Forschungsgruppe Aufmerksamkeit erregt. “Diese Arbeit unterstreicht die Bedeutung des sprachlichen Bewusstseins für die Sicherheitsforschung im Bereich großer Sprachmodelle”, kommentierte Jessy Li, außerordentliche Professorin an der University of Texas. Dieses Projekt wurde durch die Unterstützung der National Science Foundation, der Gordon and Betty Moore Foundation, von Schmidt Sciences, eines Google Research Award sowie eines Bridgewater AIA Labs Fellowship ermöglicht.

Max Krawiec

Weiter Optimieren Sie Ihre Augenarztpraxis mit dem KI-Chat für WordPress »

Vorherige «Revolutionieren Sie Ihre Augenarztpraxis: Fortgeschrittene Schulung zu KI und Automatisierung“

Teilen Sie

Herausgegeben von

Max Krawiec

vor 7 Monaten

Wie 3D-Druckunternehmen durch die Automatisierung von Inhalten an Sichtbarkeit gewinnen können.

Diese Website verwendet Cookies.

MIT-Studie deckt verborgene Mängel in großen Sprachmodellen auf

Das Dilemma, dass die Syntax den Sinn verdrängt

Erforschen, Nutzen und Weiterentwickeln

Verwandter Beitrag

Neueste Beiträge

Fanfiction-Communities wehren sich gegen KI-generierte Werke

Wegweisende Forschungspartnerschaft: Google DeepMind und A24

Anthropic stellt „Claude Science“ vor: Eine neue Ära für KI in der wissenschaftlichen Forschung

Der futuristische medizinische Scanner von Midjourney: Ein genauerer Blick

Der kühne Vorschlag von OpenAI: Ein 5%-Anteil an der US-Regierung

Die entscheidende Rolle der neugiergetriebenen Forschung für die Zukunft Amerikas