Verborgene Verzerrungen und Persönlichkeiten in großen Sprachmodellen aufdecken
In der Welt der künstlichen Intelligenz haben sich große Sprachmodelle (LLMs) wie ChatGPT und Claude aus einfachen Antwort-Generatoren entwickelt. Ihre Kapazitäten haben sich erweitert und umfassen nun auch die Darstellung komplexer Ideen - Töne, Persönlichkeiten, Vorurteile und sogar Stimmungen. Dennoch bleibt die Frage: Wie stellen diese fortgeschrittenen Modelle solch abstrakte Konzepte dar? Dieses Geheimnis muss noch vollständig gelüftet werden.
Licht auf LLMs werfen
Ein bahnbrechendes Team des MIT und der University of California San Diego hat einen innovativen Ansatz entwickelt, der die Voraussetzungen für eine Entdeckung schafft. Ihr Tool testet, ob in einem LLM verborgene Vorurteile, Persönlichkeiten oder Stimmungen existieren und ob diese Modelle verborgene Facetten abstrakter Konzepte besitzen. Das Tool hat das Potenzial, Verbindungen innerhalb eines Modells zu entschlüsseln, die spezifische Konzepte kodieren. Noch faszinierender ist, dass es diese Verbindungen, die so genannte “Lenkung”, manipulieren kann, um das Konzept in der Antwort eines Modells zu verstärken oder abzuschwächen.
Die Forscher haben ihre Methode auf die Probe gestellt, indem sie erfolgreich über 500 allgemeine Konzepte in einigen der größten LLMs von heute identifiziert und gesteuert haben. Diese Darstellungen konnten dann in den generierten Antworten beiläufig verstärkt oder abgeschwächt werden. Stellen Sie sich vor, Sie könnten die Persönlichkeit eines “Social Influencers” oder sogar eines “Verschwörungstheoretikers” aus einem Modell herausfiltern und diese Facetten in jeder beliebigen KI-Interaktion optimieren!
Zur Veranschaulichung der realen Anwendung war das Team in der Lage, eine Darstellung des Konzepts “Verschwörungstheoretiker” innerhalb eines großen Bildsprachmodells zu identifizieren. Durch die Verbesserung dieser Darstellung reagierte das Modell mit dem Ton und der Perspektive eines Verschwörungstheoretikers in Bezug auf den Ursprung des berühmten “Blue Marble”-Bildes der Erde, das von Apollo 17 aufgenommen wurde.
Diese Methode und ihr Missbrauchspotenzial sind dem wissenschaftlichen Team nicht entgangen. Sie warnen vor einer falschen Anwendung ihrer Arbeit, erkennen aber auch deren Vorteile an. Indem sie verborgene Konzepte und potenzielle Schwachstellen aufdecken, können sie die Sicherheit und Leistung der Modelle verbessern.
Ein tieferes Eintauchen in die LLMs
Der Assistenzprofessor für Mathematik am MIT, Adityanarayanan “Adit” Radhakrishnan, erklärt, dass diese Modelle zwar von Natur aus diese Konzepte enthalten, sie aber nicht immer aktiv herausgestellt werden. “Unsere Methode zeigt Wege auf, diese verschiedenen Konzepte zu extrahieren und sie auf eine Art und Weise zu aktivieren, auf die man durch Eingabeaufforderungen keine Antworten erhalten kann”, erklärt er.
Da KI-Assistenten wie ChatGPT von OpenAI, Gemini von Google und Claude von Anthropic auf dem Vormarsch sind, versuchen Wissenschaftler zu verstehen, wie diese Modelle abstrakte Konzepte interpretieren. Radhakrishnan vergleicht die bisherigen Methoden zur Aufdeckung solcher Konzepte mit dem Fischen mit einem großen Netz, bei dem oft zu viele ungezielte Typen gefangen werden.
Im Vergleich dazu ist ihr Ansatz viel präziser und konzentriert sich auf Arten oder “Spezies” von Interesse im Bereich der KI. Diese gezielte Methode identifiziert und “steuert” jedes Konzept von Interesse innerhalb eines LLM auf der Grundlage spezifischer Abfragen.
Sie entwickelten ihre Methode weiter, indem sie rekursive Merkmalsmaschinen (RFMs) trainierten, um numerische Muster in einer LLM zu erkennen, die bestimmte Konzepte darstellen. Diese Methode erwies sich als vielseitig, da sie in der Lage war, nach jedem Konzept innerhalb einer LLM zu suchen und es zu verändern. Sie konnten ein LLM so anpassen, dass es in einem bestimmten Ton oder aus einer bestimmten Perspektive antwortet, oder sogar das Konzept der “Anti-Zurückweisung” verstärken, um Anfragen zu beantworten, die das Modell normalerweise ablehnen würde!
Radhakrishnan vermutet, dass mit diesem Ansatz etwaige Schwachstellen in LLMs schnell erkannt und minimiert werden könnten. Neben der Möglichkeit, KI-Reaktionen individuell anzupassen, hat das Team den zugrunde liegenden Code öffentlich zugänglich gemacht. Radhakrishnan fasst zusammen: “[Es gibt Möglichkeiten,] hochspezialisierte LLMs zu bauen, die immer noch sicher in der Anwendung sind, aber wirklich effektiv bei bestimmten Aufgaben.” Das gesamte Forschungsprojekt wurde durch die Unterstützung der National Science Foundation, der Simons Foundation, des TILOS-Instituts und des U.S. Office of Naval Research ermöglicht.
Weitere spannende Details finden Sie in der Originalartikel.