Inteligentniejszy sposób śledzenia znaczenia: Naukowcy z MIT zwiększają uwagę transformatorów za pomocą PaTH
Wybór właściwych słów, we właściwej kolejności, ma kluczowe znaczenie dla prawidłowej interpretacji zarówno ludzkich języków, jak i instrukcji programistycznych. Na przykład zmiana układu słów w zdaniu “Kot usiadł na pudełku” na “Pudełko było na kocie” prowadzi do zupełnie innego scenariusza. Podobnie, w przypadku złożonych instrukcji, takich jak kodowanie programu, obserwowanie zmian zmiennych lub przestrzeganie logiki warunkowej wymaga opanowania zmian stanu i sekwencyjnego rozumowania. Dzisiejsze najnowocześniejsze systemy sztucznej inteligencji, w szczególności duże modele językowe (LLM), mają na celu udoskonalenie tych możliwości.
Zrozumienie, przeanalizowanie i opanowanie tego kodu nie jest prostym zadaniem i nie wszystkie systemy sztucznej inteligencji są do tego przystosowane. W rzeczywistości obecne wiodące architektury transformatorów stoją przed pewnym wyzwaniem w tym obszarze, zwłaszcza jeśli chodzi o mechanizmy uwagi.
Rozpakowywanie mechanizmu uwagi
Mechanizm uwagi to narzędzie używane przez transformatory do określania znaczenia różnych słów lub tokenów w sekwencji. Ta zdolność pozwala modelom odnosić się do wcześniejszych części tekstu lub polecenia, ale niekoniecznie musi rozumieć kolejność słów. Poszczególne tokeny są przetwarzane jednocześnie, a system musi polegać na dodatkowych technikach kodowania ich pozycji. Podstawową techniką stosowaną w tym celu jest kodowanie pozycji obrotowej (RoPE), które działa poprzez obliczanie względnej odległości między tokenami. Metoda ta jest często skuteczna, ale ma nieodłączne ograniczenie - uwzględnia jedynie fizyczną odległość między słowami, całkowicie odrzucając ich treść lub kontekst.
Ekipa badaczy z MIT i MIT-IBM Watson AI Lab jest świadoma tych ograniczeń. Mając to na uwadze, niedawno opracowali nową metodę kodowania znaną jako PaTH Attention. Jest to dynamiczna, świadoma kontekstu technika, która traktuje przestrzeń między słowami jako ścieżkę z własnymi zmiennymi, które podlegają niewielkim, opartym na danych korektom. Przekształcenia te wynikają z matematycznej koncepcji zwanej odbiciami Householdera - pomyśl o tym jak o maleńkich lusterkach, które dostosowują się w zależności od zawartości każdego tokena.
Implikacje uwagi PaTH są ogromne. Ponieważ każdy token jest przetwarzany sekwencyjnie, kodowanie wpływa na sposób interpretacji przyszłych informacji. To świeże podejście pozwala modelowi śledzić ewolucję znaczeń, a nie tylko mierzyć odległość między tokenami. Zasadniczo zapewnia to transformatorom formę “pamięci pozycyjnej”, umożliwiając im lepsze zrozumienie, w jaki sposób jednostki i relacje zmieniają się w czasie.
Trwająca rewolucja w systemach sztucznej inteligencji
Naukowcy poszli o krok dalej, badając możliwość zintegrowania techniki selektywnego zapominania z uwagą PaTH. Łącząc PaTH z inną strategią określaną jako Forgetting Transformer (FoX), modele były w stanie zignorować starsze lub mniej istotne informacje. To nowe połączenie, znane jako PaTH-FoX, wykazało wysoki stopień skuteczności w zadaniach rozumienia i rozumowania z długimi kontekstami.
Yoon Kim, profesor nadzwyczajny na MIT, twierdzi: “Nasze nowe podejście było w stanie przewyższyć istniejące mechanizmy uwagi zarówno w zadaniach diagnostycznych, jak i zadaniach modelowania języka w świecie rzeczywistym, przy jednoczesnym zachowaniu ich wydajności”.”
To pionierskie badanie przeprowadzone przez MIT-IBM Watson AI Lab i wspierane przez program AI2050 w Schmidt Sciences tylko pogłębia nasze zrozumienie możliwości sztucznej inteligencji. Jest to część nadrzędnego wysiłku mającego na celu rozszerzenie granic tego, co mogą osiągnąć systemy sztucznej inteligencji.
Uzasadniając znaczenie tego wysiłku, Kim dodał: “Byłbym podekscytowany widząc, czy tego typu kodowanie pozycji zależne od danych, takie jak PATH, poprawia wydajność transformatorów w domenach strukturalnych, takich jak biologia, w analizie białek lub DNA”.”
Ten niezwykły skok w technologii sztucznej inteligencji został szczegółowo opisany w artykule przedstawionym na konferencji poświęconej systemom przetwarzania informacji neuronowych (NeurIPS). Szczegółowe informacje na temat tych rewolucyjnych badań można znaleźć na stronie MIT News.