Kategorien: AgentenNachrichten

Verborgene Verzerrungen und Persönlichkeiten in großen Sprachmodellen aufdecken

In der Welt der künstlichen Intelligenz haben sich große Sprachmodelle (LLMs) wie ChatGPT und Claude aus einfachen Antwort-Generatoren entwickelt. Ihre Kapazitäten haben sich erweitert und umfassen nun auch die Darstellung komplexer Ideen - Töne, Persönlichkeiten, Vorurteile und sogar Stimmungen. Dennoch bleibt die Frage: Wie stellen diese fortgeschrittenen Modelle solch abstrakte Konzepte dar? Dieses Geheimnis muss noch vollständig gelüftet werden.

Licht auf LLMs werfen

Setting the scene for discovery, a pioneering team from MIT and the University of California San Diego have devised an innovative approach. Their tool tests whether hidden biases, personalities, or moods exist within an LLM, and if these models possess hidden facets of abstract concepts. The tool holds the potential to decode connections within a model that encode specific concepts. What’s even more fascinating, it can manipulate these connections, called “steering”, enhancing or lessening the concept in a model’s response.

The researchers put their method to the test by successfully identifying and steering over 500 general concepts in some of the largest LLMs today. These representations could then be casually amplified or diminished in any generated answers. Picture being able to isolate a model’s persona of a “social influencer” or even a “conspiracy theorist” then tweaking these facets in any given AI interaction!

Zur Veranschaulichung der realen Anwendung war das Team in der Lage, eine Darstellung des Konzepts “Verschwörungstheoretiker” innerhalb eines großen Bildsprachmodells zu identifizieren. Durch die Verbesserung dieser Darstellung reagierte das Modell mit dem Ton und der Perspektive eines Verschwörungstheoretikers in Bezug auf den Ursprung des berühmten “Blue Marble”-Bildes der Erde, das von Apollo 17 aufgenommen wurde.

Diese Methode und ihr Missbrauchspotenzial sind dem wissenschaftlichen Team nicht entgangen. Sie warnen vor einer falschen Anwendung ihrer Arbeit, erkennen aber auch deren Vorteile an. Indem sie verborgene Konzepte und potenzielle Schwachstellen aufdecken, können sie die Sicherheit und Leistung der Modelle verbessern.

Ein tieferes Eintauchen in die LLMs

The assistant professor of mathematics at MIT, Adityanarayanan “Adit” Radhakrishnan, explains that while these models inherently harbor these concepts, they’re not always actively exposed. “[Our] method presents ways to extract these different concepts and activate them in ways that prompting cannot give you answers to,” he explains.

Da KI-Assistenten wie ChatGPT von OpenAI, Gemini von Google und Claude von Anthropic auf dem Vormarsch sind, versuchen Wissenschaftler zu verstehen, wie diese Modelle abstrakte Konzepte interpretieren. Radhakrishnan vergleicht die bisherigen Methoden zur Aufdeckung solcher Konzepte mit dem Fischen mit einem großen Netz, bei dem oft zu viele ungezielte Typen gefangen werden.

In comparison, their approach is much more precise, focusing on types or “species” of interest in the AI realm. This targeted method identifies and “steers” any concept of interest within an LLM based on specific queries.

They developed their method further by training recursive feature machines (RFMs) to recognize numerical patterns in an LLM that represents particular concepts. This methodology proved itself versatile, capable of searching for and manipulating any concept within an LLM. They could adjust an LLM to answer in a specific tone or perspective or even increase the concept of “anti-refusal,” answering queries the model would typically dismiss!

Radhakrishnan suggests the approach could swiftly identify and minimize any vulnerabilities in LLMs. Beyond the capability to custom-tailor AI responses, the team made their underlying code publicly available. Radhakrishnan summed it up, “[There are ways where] we can build highly specialized LLMs that are still safe to use but really effective at certain tasks.” The entire research project was possible due to support from the National Science Foundation, the Simons Foundation, the TILOS institute, and the U.S. Office of Naval Research.

Weitere spannende Details finden Sie in der Originalartikel.

Max Krawiec

Weiter AI Onboarding Assistant: Revolutionizing New Hire Integration in Accounting Firms »

Vorherige « The Intriguing Tale of OpenClaw: A Hacker's Exploit and Its Implications

Teilen Sie

Herausgegeben von

Max Krawiec

2 Monaten ago

Wie 3D-Druckunternehmen durch die Automatisierung von Inhalten an Sichtbarkeit gewinnen können.

Diese Website verwendet Cookies.

Verborgene Verzerrungen und Persönlichkeiten in großen Sprachmodellen aufdecken

Licht auf LLMs werfen

Ein tieferes Eintauchen in die LLMs

Verwandter Beitrag

Neueste Beiträge

Der All-In-Podcast und die Illusion von revolutionären Entdeckungen

Epic Games führt KI-gestützte Konversationen in Fortnite ein

Verwandeln Sie den Posteingang Ihres Salons: Der KI-Assistent für nahtlose Kundenkommunikation

Unlock Salon Success: Wie AI-Wettbewerbsforschung Ihr Friseurgeschäft nach vorne bringt

Vercel sieht sich mit einer Sicherheitslücke konfrontiert: Hacker versuchen, gestohlene Daten zu verkaufen

Globale DRAM-Knappheit: Eine Krise, die in die Zukunft reicht