In der Welt der künstlichen Intelligenz haben sich große Sprachmodelle (LLMs) wie ChatGPT und Claude aus einfachen Antwort-Generatoren entwickelt. Ihre Kapazitäten haben sich erweitert und umfassen nun auch die Darstellung komplexer Ideen - Töne, Persönlichkeiten, Vorurteile und sogar Stimmungen. Dennoch bleibt die Frage: Wie stellen diese fortgeschrittenen Modelle solch abstrakte Konzepte dar? Dieses Geheimnis muss noch vollständig gelüftet werden.
Setting the scene for discovery, a pioneering team from MIT and the University of California San Diego have devised an innovative approach. Their tool tests whether hidden biases, personalities, or moods exist within an LLM, and if these models possess hidden facets of abstract concepts. The tool holds the potential to decode connections within a model that encode specific concepts. What’s even more fascinating, it can manipulate these connections, called “steering”, enhancing or lessening the concept in a model’s response.
The researchers put their method to the test by successfully identifying and steering over 500 general concepts in some of the largest LLMs today. These representations could then be casually amplified or diminished in any generated answers. Picture being able to isolate a model’s persona of a “social influencer” or even a “conspiracy theorist” then tweaking these facets in any given AI interaction!
Zur Veranschaulichung der realen Anwendung war das Team in der Lage, eine Darstellung des Konzepts “Verschwörungstheoretiker” innerhalb eines großen Bildsprachmodells zu identifizieren. Durch die Verbesserung dieser Darstellung reagierte das Modell mit dem Ton und der Perspektive eines Verschwörungstheoretikers in Bezug auf den Ursprung des berühmten “Blue Marble”-Bildes der Erde, das von Apollo 17 aufgenommen wurde.
Diese Methode und ihr Missbrauchspotenzial sind dem wissenschaftlichen Team nicht entgangen. Sie warnen vor einer falschen Anwendung ihrer Arbeit, erkennen aber auch deren Vorteile an. Indem sie verborgene Konzepte und potenzielle Schwachstellen aufdecken, können sie die Sicherheit und Leistung der Modelle verbessern.
The assistant professor of mathematics at MIT, Adityanarayanan “Adit” Radhakrishnan, explains that while these models inherently harbor these concepts, they’re not always actively exposed. “[Our] method presents ways to extract these different concepts and activate them in ways that prompting cannot give you answers to,” he explains.
Da KI-Assistenten wie ChatGPT von OpenAI, Gemini von Google und Claude von Anthropic auf dem Vormarsch sind, versuchen Wissenschaftler zu verstehen, wie diese Modelle abstrakte Konzepte interpretieren. Radhakrishnan vergleicht die bisherigen Methoden zur Aufdeckung solcher Konzepte mit dem Fischen mit einem großen Netz, bei dem oft zu viele ungezielte Typen gefangen werden.
In comparison, their approach is much more precise, focusing on types or “species” of interest in the AI realm. This targeted method identifies and “steers” any concept of interest within an LLM based on specific queries.
They developed their method further by training recursive feature machines (RFMs) to recognize numerical patterns in an LLM that represents particular concepts. This methodology proved itself versatile, capable of searching for and manipulating any concept within an LLM. They could adjust an LLM to answer in a specific tone or perspective or even increase the concept of “anti-refusal,” answering queries the model would typically dismiss!
Radhakrishnan suggests the approach could swiftly identify and minimize any vulnerabilities in LLMs. Beyond the capability to custom-tailor AI responses, the team made their underlying code publicly available. Radhakrishnan summed it up, “[There are ways where] we can build highly specialized LLMs that are still safe to use but really effective at certain tasks.” The entire research project was possible due to support from the National Science Foundation, the Simons Foundation, the TILOS institute, and the U.S. Office of Naval Research.
Weitere spannende Details finden Sie in der Originalartikel.
Diese Website verwendet Cookies.