Badanie MIT ujawnia słabość platform rankingowych LLM

Jesteś firmą, która robi duży krok naprzód. Chcesz zaadaptować duże modele językowe (LLM) do swoich operacji. Być może potrzebujesz sprytnego systemu, który podsumuje twoje raporty sprzedaży lub inteligentnego narzędzia, które sprawnie obsłuży zapytania obsługi klienta. Problem polega na tym, że istnieje tak wiele modeli LLM do wyboru. Setki unikalnych modeli, z których każdy wyróżnia się subtelnymi różnicami. Wybór tego idealnego jest tak skomplikowany i czasochłonny, jak szukanie igły w stogu siana.

Szeroki świat platform rankingowych LLM i ich zawodność

Well, don’t sweat it too much. LLM ranking platforms are designed to make your decision-making process a bit easier. They gather feedback from users and score different models based on how well they perform tasks such as coding, visual understanding, or natural language processing. If a model is top-ranked, it’s assumed to be the best fit for a given application. Easy enough, right?

Not so fast. Researchers from MIT have dropped a bombshell that disrupts our trust in these ranking platforms. Their study shows that even a minor fraction of user interactions—sometimes as puny as two or three opinions—can make a drastic alteration in the rankings. It’s alarming because it casts a shadow of doubt on whether the top-ranked model is indeed the most reliable or the most effective for real-world use.

“The results surprised us,” observed Tamara Broderick, an associate professor in MIT’s Department of Electrical Engineering and Computer Science (EECS) and the senior researcher of the study. “It raises the question of whether a top-ranked LLM that rests on two or three pieces of feedback from tens of thousands can consistently outperform all the other LLMs in practice.”

W kierunku lepszego zrozumienia rankingów LLM

The research team at MIT, including EECS graduate students Jenny Huang and Yunyi Shen and Dennis Wei from IBM Research, set lenses to how ranking platforms can be manipulated. They developed a quick yet efficient way to test the stability of LLM ranking platforms by spotting which individual pieces of feedback significantly influence the overall ranking. Intriguingly, they discovered that a tiny 0.0035 percent data alteration—that’s just two votes out of 57,000—could toss around the top-ranked model.

Po przeanalizowaniu kilku platform przy użyciu swojej nowatorskiej metody, zauważyli platformę, na której usunięcie zaledwie dwóch ocen z tysięcy zmieniło najlepszy model. Nawet na bardziej niezawodnej platformie, na której wykorzystano anotatorów-ekspertów, odrzucenie zaledwie 3 procent z 2575 ocen zmieniło rankingi.

Beyond revealing a surprising sensitivity in the systems, their research spotlighted that a good chunk of the influential feedback appeared to be erroneous. Unwarranted selection of less accurate models due to misclicks or diverted attention by the user exacerbated the inconsistency. It’s a wake-up call about the reliability of crowdsourced feedback while choosing the best LLM.

Droga naprzód: nadzieje i aspiracje dotyczące bardziej niezawodnych metod oceny

The researchers believe we could attenuate these issues by gathering more detailed user feedback. For instance, understanding users’ confidence level in their votes could offer better context. They also propose engagement of human mediators to verify crowdsourced responses, minimising the impact of any noisy or erroneous inputs.

Chociaż niniejsze badanie nie zapewnia pełnego rozwiązania, rzuca światło na kwestie, które wymagają bardziej rygorystycznej metody oceny LLM. Zespół ma nadzieję, że wyniki badania przyczynią się do poprawy sposobu oceny i rankingu LLM.

At the moment, Broderick and her group aim to explore similar issues in other machine learning areas while perfecting their techniques to expose even subtler forms of instability. An outside viewer, Jessica Hullman, a computer science professor at Northwestern University who didn’t contribute to the study, commented on its wider implications: “Seeing how few preferences can so dramatically change the functioning of a fine-tuned model may push for more thoughtful data collection methods.”

To przełomowe badanie otrzymało hojne wsparcie od wielu sponsorów, w tym Office of Naval Research, MIT-IBM Watson AI Lab, National Science Foundation, Amazon, a także nagrodę CSAIL. Jeśli chcesz zagłębić się w badanie, możesz znaleźć oryginalny artykuł na stronie MIT News.

Max Krawiec

This website uses cookies.