AgentenNachrichten

KI-Chatbots: Ein zweischneidiges Schwert für die Zugänglichkeit von Informationen

Wir haben große Sprachmodelle (LLMs), die oft von künstlicher Intelligenz unterstützt werden, immer als unsere Demokratisierer betrachtet - sie machen Wissen universell zugänglich, unabhängig von der Herkunft oder den örtlichen Gegebenheiten einer Person. Jüngste Erkenntnisse des Center for Constructive Communication (CCC) des MIT haben diese Vorstellung jedoch auf den Kopf gestellt. Die Forschungsergebnisse deuten darauf hin, dass diese KI-Tools bei den Nutzern, die sie am dringendsten benötigen, unterdurchschnittliche Leistungen erbringen könnten.

Die Studie wurde von Forschern des in das MIT Media Lab integrierten CCC durchgeführt. Sie untersuchten die Leistung einiger der modernsten KI-Chatbots, wie GPT-4 von OpenAI, Claude 3 Opus von Anthropic und Llama 3 von Meta. Die Ergebnisse waren überraschend. Sie stellten fest, dass diese KI-Systeme manchmal weniger genaue und weniger wahrheitsgemäße Antworten an Nutzer mit geringeren Englischkenntnissen, geringerer formaler Bildung oder an Nutzer von außerhalb der Vereinigten Staaten geben. Diese KI-Modelle lehnten es auch ab, Fragen für diese Nutzer in höherem Maße zu beantworten, und in einigen Fällen antworteten sie sogar in einem herablassenden oder herablassenden Ton.

Die Herausforderung der Voreingenommenheit in KI-Modellen

Die Forschung wurde durch das Potenzial von LLMs motiviert, die ungleiche Zugänglichkeit von Informationen auf der ganzen Welt zu verbessern, so Elinor Poole-Dayan SM ’25, die Hauptautorin, die mit der MIT Sloan School of Management assoziiert und auch ein Mitglied des CCC ist. Um diese Vision zu verwirklichen, so Poole-Dayan weiter, ist es unerlässlich, Modellvorurteile und schädliche Tendenzen für die Nutzer abzuschwächen, unabhängig von ihrer Sprache, Nationalität oder demografischen Zusammensetzung. Das Forschungspapier mit dem Titel “LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users” wurde im Januar auf der AAAI Conference on Artificial Intelligence vorgestellt.

Im Rahmen der Studie wurde die Reaktionsfähigkeit dieser drei LLMs auf Benutzeranfragen aus zwei Datensätzen - TruthfulQA und SciQ - getestet. Zu jeder Frage wurde eine kurze Nutzerbiografie hinzugefügt, wobei verschiedene Parameter wie Bildungsniveau, Englischkenntnisse und Herkunftsland beibehalten wurden. Es wurde deutlich, dass die Genauigkeit der Antworten von Nutzern mit geringerer formaler Bildung oder mit nicht muttersprachlichen Englischkenntnissen deutlich abnahm. Die unzureichende Leistung wurde bei Nutzern verstärkt, die an der Kreuzung dieser Kategorien auftraten.

Das Herkunftsland und seine Auswirkungen

Die Untersuchung machte auch deutlich, welche Rolle das Herkunftsland eines Nutzers für die Leistung des KI-Modells spielt. Beispielsweise schnitt Claude 3 Opus bei Nutzern aus dem Iran in beiden Datensätzen deutlich schlechter ab als bei Nutzern aus den Vereinigten Staaten, dem Iran und China mit ähnlichem Bildungshintergrund. Die negativen Auswirkungen des Modellverhaltens in Bezug auf diese Nutzereigenschaften sind besorgniserregend und bergen das Risiko, dass sich schädliches Verhalten oder Fehlinformationen auf die am wenigsten Begünstigten ausbreiten, so Jad Kabbara, Forscher am CCC und Mitautor der Studie.

Überlegungen zur menschlichen Voreingenommenheit

Die auffälligste Beobachtung war vielleicht, dass sich die Modelle weigerten, Anfragen von bestimmten Nutzergruppen überhaupt zu beantworten. So beantwortete Claude 3 Opus fast 11 % der Anfragen von weniger gebildeten, nicht englischsprachigen Nutzern nicht, im Gegensatz zu nur 3,6 % in der Kontrollgruppe ohne Nutzerbiografie. Die Ablehnung erfolgte oft mit herablassenden oder spöttischen Antworten, und das Modell weigerte sich sogar, weniger gebildeten Nutzern aus dem Iran oder Russland Informationen zu bestimmten Themen zu geben, z. B. zu Atomkraft, Anatomie und historischen Ereignissen - obwohl es anderen Nutzern bereitwillig die gleichen Antworten gab.

Solche Ergebnisse erinnern in beunruhigender Weise an menschliche soziokognitive Verzerrungsmuster, bei denen englische Muttersprachler Nicht-Muttersprachler unabhängig von ihren tatsächlichen Fähigkeiten als weniger sachkundig oder kompetent wahrnehmen können. Wie Deb Roy, Professorin für Medienkunst und -wissenschaften, CCC-Direktorin und eine weitere Mitverfasserin des Papiers, treffend formuliert, besteht die dringende Notwendigkeit, systemische Voreingenommenheiten, die sich in diese Systeme einschleichen und bestimmte Gruppen unverhältnismäßig stark beeinträchtigen könnten, ohne dass wir uns dessen bewusst sind, kontinuierlich zu bewerten und zu überprüfen. Mit der zunehmenden Verbreitung von KI-Personalisierungsfunktionen werden die Auswirkungen für diejenigen, die bereits an den Rand gedrängt sind, noch gravierender.

Während Sprachmodelle also einen gerechten Informationszugang und eine Revolution des personalisierten Lernens versprechen, könnte die Realität ganz anders aussehen. Unseren Untersuchungen zufolge könnten sie bestehende Ungleichgewichte verstärken, indem sie bestimmten Nutzern fehlerhafte oder nicht ansprechende Informationen liefern. Die Ironie besteht darin, dass es sich dabei um dieselben Personen handeln könnte, die sich stark auf sie verlassen und am Ende unvollständige, wenn nicht sogar gefährliche Informationen erhalten. Ein ausführlicheres Verständnis der Studie finden Sie unter MIT-Nachrichten.

Wie ist Ihre Reaktion?

Aufgeregt
0
Glücklich
0
Verliebt
0
Nicht sicher
0
Dummerchen
0

Kommentare sind geschlossen.