AktualnościWydajność

Badanie MIT ujawnia słabość platform rankingowych LLM

Jesteś firmą, która robi duży krok naprzód. Chcesz zaadaptować duże modele językowe (LLM) do swoich operacji. Być może potrzebujesz sprytnego systemu, który podsumuje twoje raporty sprzedaży lub inteligentnego narzędzia, które sprawnie obsłuży zapytania obsługi klienta. Problem polega na tym, że istnieje tak wiele modeli LLM do wyboru. Setki unikalnych modeli, z których każdy wyróżnia się subtelnymi różnicami. Wybór tego idealnego jest tak skomplikowany i czasochłonny, jak szukanie igły w stogu siana.

Szeroki świat platform rankingowych LLM i ich zawodność

Cóż, nie przejmuj się tym zbytnio. Platformy rankingowe LLM zostały zaprojektowane tak, aby ułatwić proces podejmowania decyzji. Zbierają one opinie od użytkowników i oceniają różne modele na podstawie tego, jak dobrze wykonują one zadania, takie jak kodowanie, rozumienie wizualne lub przetwarzanie języka naturalnego. Jeśli model znajduje się na szczycie rankingu, zakłada się, że najlepiej pasuje do danej aplikacji. Wystarczająco proste, prawda?

Nie tak szybko. Naukowcy z MIT zrzucili bombę, która podważa nasze zaufanie do tych platform rankingowych. Ich badanie pokazuje, że nawet niewielki ułamek interakcji użytkowników - czasami tak niewielki jak dwie lub trzy opinie - może drastycznie zmienić rankingi. Jest to niepokojące, ponieważ rzuca cień wątpliwości na to, czy najwyżej sklasyfikowany model jest rzeczywiście najbardziej niezawodny lub najbardziej skuteczny w rzeczywistych zastosowaniach.

“Wyniki nas zaskoczyły” - zauważyła Tamara Broderick, profesor nadzwyczajny na Wydziale Inżynierii Elektrycznej i Informatyki MIT (EECS) i starszy badacz w badaniu. “Nasuwa się pytanie, czy najwyżej sklasyfikowany program LLM, który opiera się na dwóch lub trzech informacjach zwrotnych od dziesiątek tysięcy osób, może konsekwentnie przewyższać wszystkie inne programy LLM w praktyce”.”

W kierunku lepszego zrozumienia rankingów LLM

Zespół badawczy z MIT, w tym studenci EECS Jenny Huang i Yunyi Shen oraz Dennis Wei z IBM Research, skupili się na tym, jak można manipulować platformami rankingowymi. Opracowali oni szybki, ale skuteczny sposób testowania stabilności platform rankingowych LLM poprzez wykrywanie, które pojedyncze informacje zwrotne znacząco wpływają na ogólny ranking. Co ciekawe, odkryli, że niewielka zmiana danych o 0,0035% - czyli zaledwie dwa głosy z 57 000 - może wywrócić model zajmujący najwyższe miejsce w rankingu.

Po przeanalizowaniu kilku platform przy użyciu swojej nowatorskiej metody, zauważyli platformę, na której usunięcie zaledwie dwóch ocen z tysięcy zmieniło najlepszy model. Nawet na bardziej niezawodnej platformie, na której wykorzystano anotatorów-ekspertów, odrzucenie zaledwie 3 procent z 2575 ocen zmieniło rankingi.

Oprócz ujawnienia zaskakującej wrażliwości systemów, ich badania wykazały, że znaczna część wpływowych informacji zwrotnych okazała się błędna. Nieuzasadniony wybór mniej dokładnych modeli z powodu błędnych kliknięć lub odwrócenia uwagi przez użytkownika pogłębił niespójność. Jest to sygnał ostrzegawczy dotyczący wiarygodności informacji zwrotnych pochodzących z crowdsourcingu przy wyborze najlepszego LLM.

Droga naprzód: nadzieje i aspiracje dotyczące bardziej niezawodnych metod oceny

Naukowcy uważają, że moglibyśmy złagodzić te problemy, zbierając bardziej szczegółowe informacje zwrotne od użytkowników. Na przykład zrozumienie poziomu zaufania użytkowników do ich głosów mogłoby zapewnić lepszy kontekst. Proponują również zaangażowanie ludzkich mediatorów w celu weryfikacji odpowiedzi pochodzących z crowdsourcingu, minimalizując wpływ wszelkich zaszumionych lub błędnych danych wejściowych.

Chociaż niniejsze badanie nie zapewnia pełnego rozwiązania, rzuca światło na kwestie, które wymagają bardziej rygorystycznej metody oceny LLM. Zespół ma nadzieję, że wyniki badania przyczynią się do poprawy sposobu oceny i rankingu LLM.

Obecnie Broderick i jej grupa zamierzają zbadać podobne kwestie w innych obszarach uczenia maszynowego, jednocześnie doskonaląc swoje techniki, aby ujawnić jeszcze subtelniejsze formy niestabilności. Zewnętrzny obserwator, Jessica Hullman, profesor informatyki na Northwestern University, która nie brała udziału w badaniu, skomentowała jego szersze implikacje: “Widząc, jak niewiele preferencji może tak drastycznie zmienić funkcjonowanie precyzyjnie dostrojonego modelu, może naciskać na bardziej przemyślane metody gromadzenia danych”.”

To przełomowe badanie otrzymało hojne wsparcie od wielu sponsorów, w tym Office of Naval Research, MIT-IBM Watson AI Lab, National Science Foundation, Amazon, a także nagrodę CSAIL. Jeśli chcesz zagłębić się w badanie, możesz znaleźć oryginalny artykuł na stronie MIT News.

Jaka jest twoja reakcja?

Podekscytowany
0
Szczęśliwy
0
Zakochany
0
Nie jestem pewien
0
Głupi
0

Komentarze są zamknięte.