Badanie MIT ujawnia ukryte niedociągnięcia w dużych modelach językowych
Najnowsze badania z MIT ujawniła krytyczny błąd w dużych modelach językowych (LLM). Te zaawansowane narzędzia sztucznej inteligencji zrewolucjonizowały różne sektory, zapewniając usługi, od botów obsługi klienta po platformy podsumowujące notatki medyczne. Pojawił się jednak nieoczekiwany problem, ponieważ modele te mogą wyciągać niewłaściwe wnioski podczas fazy szkolenia.
Dylemat składni zastępującej sens
Co zaskakujące, LLM nie polegają wyłącznie na wiedzy domenowej w odpowiadaniu na dane zapytania. Zamiast tego mają tendencję do polegania na znanych strukturach gramatycznych, z którymi wcześniej zetknęli się podczas sesji szkoleniowych. Ta technika uczenia się może prowadzić ich do wymyślania dość przekonujących, ale błędnych odpowiedzi, zwłaszcza w obliczu nieznanych lub zwodniczych składniowo pytań.
Modele te przechodzą szkolenie przy użyciu szerokiego spektrum tekstu internetowego, co pozwala im ustalić relacje między słowami, frazami i formatami zdań. W procesie tym LLM wiążą określone wzorce składniowe lub “szablony składniowe” z określonymi tematami lub dziedzinami. Na przykład, model może interpretować strukturę pytania takiego jak “Gdzie znajduje się Paryż?” jako często związaną z zapytaniami geograficznymi. W związku z tym, nawet jeśli zostanie mu przedstawione bezsensowne zapytanie o tej samej strukturze, takie jak “Gdzie znajduje się Paryż?”, model nadal odpowie “Francja”, niezależnie od absurdalności pytania.
To, co zaczęło się jako niewinne poleganie na rozumowaniu opartym na wzorcach, przekształciło się w poważną odpowiedzialność, szczególnie w środowiskach o wysokiej stawce. Wada ta oznacza, że modele sztucznej inteligencji, takie jak LLM, mogą zawieść w nieprzewidywalny sposób podczas podsumowywania dokumentacji klinicznej, generowania raportów finansowych lub obsługi wrażliwych danych klientów. “Jest to produkt uboczny tego, jak trenujemy modele”, wyjaśnia Marzyeh Ghassemi, profesor nadzwyczajny na MIT i starszy autor badania. “Ale modele są obecnie wykorzystywane w praktyce w domenach o krytycznym znaczeniu dla bezpieczeństwa, znacznie wykraczających poza zadania, które spowodowały te błędy składniowe”.”
Odkrywanie, wykorzystywanie i ewolucja
Aby jeszcze bardziej zagłębić się w tę kwestię, zespół badawczy przeprowadził testy syntetyczne, które zasadniczo ograniczyły każdą domenę do jednego szablonu syntaktycznego podczas treningu. Co zaskakujące, wyniki ujawniły, że LLM mogą nadal generować dokładne odpowiedzi nawet na bezsensowne zapytania, o ile są one zgodne ze znaną strukturą gramatyczną. Przeformułowanie z inną strukturą dawało nieprawidłowe odpowiedzi od modeli, niezależnie od niezmienionego znaczenia.
Badanie ujawniło również niepokojący fakt, że ta tendencyjność składniowa może być potencjalnie manipulowana przez złośliwych użytkowników w celu ominięcia protokołów bezpieczeństwa sztucznej inteligencji. Vinith Suriyakumar, absolwent MIT i współautor badania, podkreśla tę obawę, stwierdzając, że “musimy opracować nowe mechanizmy obronne oparte na tym, jak LLM uczą się języka, a nie tylko rozwiązania ad hoc”.”
Badania nie zaproponowały konkretnych poprawek, ale zespół opracował nowe narzędzie dla programistów. To narzędzie porównawcze pozwoli programistom odkryć, czy model nadmiernie opiera się na wzorcach składniowych, pomagając w ten sposób zwiększyć wiarygodność modelu przed jego wdrożeniem. Zespół MIT planuje również zbadać potencjalne strategie łagodzące, takie jak włączenie bardziej zróżnicowanych szablonów składniowych do danych treningowych i zbadanie, w jaki sposób problem ten może wpływać na modele rozumowania - podkategorię LLM zaprojektowaną do rozwiązywania problemów wieloetapowych.
Badanie przyciągnęło uwagę profesjonalistów spoza grupy badawczej. “Ta praca podkreśla znaczenie świadomości językowej w badaniach nad bezpieczeństwem LLM” - skomentował Jessy Li, profesor nadzwyczajny na University of Texas. Projekt ten był możliwy dzięki wsparciu National Science Foundation, Gordon and Betty Moore Foundation, Schmidt Sciences, Google Research Award oraz Bridgewater AIA Labs Fellowship.