Chatboty AI: Miecz obosieczny dla dostępności informacji
Zawsze patrzyliśmy na duże modele językowe (LLM), często zasilane przez sztuczną inteligencję, jako na nasze demokratyzatory - czyniąc wiedzę powszechnie dostępną, niezależnie od pochodzenia danej osoby lub barier lokalizacyjnych. Jednak ostatnie odkrycia Centrum Konstruktywnej Komunikacji MIT (CCC) postawiły tę koncepcję na głowie. Badania sugerują, że te narzędzia sztucznej inteligencji mogą być w rzeczywistości słabe dla użytkowników, którzy najbardziej ich potrzebują.
Badanie zostało przeprowadzone przez naukowców z MIT Media Lab-nested CCC. Zbadali oni wydajność niektórych z najnowocześniejszych chatbotów AI, takich jak GPT-4 firmy OpenAI, Claude 3 Opus firmy Anthropic i Llama 3 firmy Meta. Wyniki były zaskakujące. Okazało się, że te systemy sztucznej inteligencji czasami dostarczały mniej dokładnych i mniej zgodnych z prawdą odpowiedzi użytkownikom z niższą znajomością języka angielskiego, mniej formalnym wykształceniem lub pochodzącym spoza Stanów Zjednoczonych. Modele AI odmawiały również odpowiedzi na pytania z większą częstotliwością w przypadku tych konkretnych użytkowników, a w niektórych przypadkach odpowiadały nawet protekcjonalnym lub protekcjonalnym tonem.
Wyzwanie stronniczości w modelach sztucznej inteligencji
Badania były motywowane potencjałem LLM w zakresie nierównego dostępu do informacji na całym świecie, wspomina Elinor Poole-Dayan SM ’25, główna autorka, która jest związana z MIT Sloan School of Management i jest również członkiem CCC. Dodaje jednak, że aby zrealizować tę wizję, konieczne jest złagodzenie modelowych uprzedzeń i szkodliwych tendencji dla użytkowników, niezależnie od ich języka, narodowości czy danych demograficznych. Artykuł badawczy zatytułowany “LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users” został zaprezentowany na konferencji AAAI poświęconej sztucznej inteligencji w styczniu tego roku.
Badanie obejmowało testowanie responsywności tych trzech LLM na zapytania użytkowników z dwóch zbiorów danych - TruthfulQA i SciQ. Do każdego pytania wprowadzono krótkie biografie użytkowników, zachowując różne parametry, takie jak poziom wykształcenia, znajomość języka angielskiego i kraj pochodzenia. Zauważono znaczny spadek dokładności odpowiedzi udzielanych przez użytkowników, którzy zostali zidentyfikowani jako posiadający mniej formalne wykształcenie lub niebędący rodzimymi użytkownikami języka angielskiego. Słabe wyniki zostały wzmocnione u użytkowników znajdujących się na przecięciu tych kategorii.
Kraj pochodzenia i jego wpływ
Badania podkreśliły również rolę kraju pochodzenia użytkownika na wydajność modelu AI. Na przykład Claude 3 Opus działał znacznie gorzej dla użytkowników z Iranu w obu zestawach danych, wśród użytkowników ze Stanów Zjednoczonych, Iranu i Chin o podobnym wykształceniu. Negatywne skutki zachowania modelu w odniesieniu do tych cech użytkowników połączone w niepokojący sposób, mogą zagrozić rozprzestrzenianiu się szkodliwych zachowań lub dezinformacji wśród najmniej uprzywilejowanych, cytuje Jad Kabbara, naukowiec z CCC i współautor artykułu.
Refleksje na temat ludzkich uprzedzeń
Najbardziej uderzającą obserwacją było to, że modele całkowicie odmawiały odpowiedzi na zapytania od niektórych grup użytkowników. Na przykład Claude 3 Opus nie odpowiedział na prawie 11 procent zapytań od mniej wykształconych, nierodzimych anglojęzycznych użytkowników, co stanowi wyraźny kontrast z zaledwie 3,6 procentami w grupie kontrolnej bez biografii użytkownika. Odmowa często wiązała się z protekcjonalnymi lub kpiącymi odpowiedziami, a model odmówił nawet dostarczenia informacji na określone tematy mniej wykształconym użytkownikom z Iranu lub Rosji, takie jak energia jądrowa, anatomia i wydarzenia historyczne - choć z łatwością odpowiadał na te same pytania innym użytkownikom.
Takie odkrycia niepokojąco przypominają ludzkie wzorce uprzedzeń społeczno-poznawczych, w których rodzimi użytkownicy języka angielskiego mogą postrzegać osoby niebędące rodzimymi użytkownikami języka jako mniej kompetentne lub posiadające mniejszą wiedzę, niezależnie od ich rzeczywistych umiejętności. Jak trafnie ujął to Deb Roy, profesor sztuk i nauk medialnych, dyrektor CCC i inny współautor artykułu - istnieje pilna potrzeba ciągłej oceny i sprawdzania systemowych uprzedzeń, które mogą wkraść się do tych systemów i nieproporcjonalnie zaszkodzić określonym grupom, nie będąc tego w pełni świadomym. W miarę jak funkcje personalizacji AI stają się coraz bardziej powszechne, konsekwencje stają się coraz bardziej dotkliwe dla osób już zmarginalizowanych.
Tak więc, podczas gdy modele językowe obiecują sprawiedliwy dostęp do informacji i rewolucję w spersonalizowanym uczeniu się, rzeczywistość może być zupełnie inna. Jeśli nasze badania są wiarygodne, mogą one pogłębiać istniejące nierówności, dostarczając błędnych lub nieodpowiednich informacji niektórym użytkownikom. Ironia polega na tym, że mogą to być te same osoby, które mogą w dużym stopniu na nich polegać i ostatecznie otrzymywać niedoskonałe, jeśli nie niebezpieczne, informacje. Bardziej szczegółowe informacje na temat badania można znaleźć na stronie MIT News.