Zastanawiałeś się kiedyś, czy lśniąca recenzja filmu, którą właśnie przeczytałeś, jest tak naprawdę krytyką pokrytą pochwałami? Albo, czy odpowiedź chatbota na pytanie o kartę kredytową jest na cienkiej granicy udzielania porad finansowych? W miarę jak systemy sztucznej inteligencji (AI) wkraczają coraz głębiej w nasz cyfrowy ekosystem, dokładna klasyfikacja tekstu staje się coraz ważniejsza.
Text classifiers – algorithms pre-programmed to categorize textual content – are rapidly taking over roles traditionally played by humans. From sorting news pieces to moderating customer service chats, these AI systems determine the nuance of positive or negative feedback, distinguish fact from fiction, and even check if a chatbot’s response borders on giving riskier advice, such as medical or financial suggestions.
Zastanawiasz się, w jaki sposób te klasyfikatory robią to dobrze? Zespół z MIT's Lab for Information and Decision Systems, kierowany przez starszego naukowca Kalyana Veeramachaneni, starał się znaleźć odpowiedź na to pytanie. Zaprojektowali oni innowacyjny pakiet oprogramowania, który nie tylko ocenia skuteczność tych klasyfikatorów, ale także poprawia ich dokładność.
In traditional means, evaluating these classifiers depended on generating synthetic examples: minorly altered versions of sentences that have already been categorized. The objective is to understand if minor modifications, such as a word replacement, can also lead the classifier astray. These are called adversarial examples. Veeramachaneni notes, “Various attempts have been made to spot the weak spots in these classifiers. However, existing strategies often miss crucial examples that need to be flagged.”
Zespół z MIT ulepszył tę procedurę testową, wykorzystując duże modele językowe (LLM) do tworzenia i analizowania tych przeciwstawnych przykładów. Jeśli kilka zdań o tym samym znaczeniu otrzyma różne klasyfikacje, system oznaczy je jako problematyczne. Co ciekawe, w większości przypadków może to być spowodowane różnicą jednego słowa.
After evaluating thousands of these examples, the team found that a minuscule fraction of words – 0.1% of a 30,000-word vocabulary – could lead to nearly half of all mistakes in certain applications. This finding enabled researchers to concentrate their testing on a tinier, more influential word set, making the procedure highly efficient.
In this endeavor, Lei Xu, a recently graduated LIDS PhD scholar, made a significant contribution. Xu identified the most “powerful” words that could sway a classifier’s judgment using advanced estimation techniques. Utilizing LLMs, he then built a hierarchy of related words based on their impact.
Odkrycie to doprowadziło do wkładu wykraczającego poza samo testowanie. Zespół MIT opracował dwa narzędzia wykorzystujące przeciwstawne przykłady, które mają na celu wzmocnienie klasyfikatorów i uczynienie ich odpornymi na subtelne manipulacje. Stworzyli oni SP-Attack, który produkuje przeciwstawne zdania, oraz SP-Defense, który wykorzystuje je do przekwalifikowania i wzmocnienia klasyfikatora.
Chociaż błędna klasyfikacja recenzji filmu może wydawać się nieszkodliwa, konsekwencje są znacznie poważniejsze w innych obszarach. Klasyfikatory tekstu odgrywają obecnie integralną rolę w ograniczaniu rozprzestrzeniania się dezinformacji, ochronie wrażliwych informacji medycznych lub finansowych, a nawet wspomaganiu badań naukowych w obszarach takich jak odkrywanie leków i genomika. Dlatego też dokładna klasyfikacja jest ważniejsza niż kiedykolwiek wcześniej.
To gauge a classifier’s sturdiness against single-word assaults, the MIT team introduced a new metric named “p”. Their method drastically reduced adversarial attack success rates – even a slight improvement like 2% can create a significant ripple effect when scaled across billions of interactions
The team’s learnings were published in the journal Expert Systems and are open to the public. The open-source software enables developers and organizations to build more dependable, precise AI systems worldwide. As we continue to co-evolve with AI, tools like these will become indispensable in ensuring that the content we read and respond to is accurately comprehended – not only by us but also by AI systems increasingly mediating our digital transactions.
Jeśli chcesz zanurzyć się głębiej, możesz przeczytać oryginalny artykuł z MIT News: MIT News - Nowy sposób na sprawdzenie, jak dobrze systemy sztucznej inteligencji klasyfikują tekst
This website uses cookies.