Categories: Aktualności

Inteligentniejszy sposób śledzenia znaczenia: Naukowcy z MIT zwiększają uwagę transformatorów za pomocą PaTH

Wybór właściwych słów, we właściwej kolejności, ma kluczowe znaczenie dla prawidłowej interpretacji zarówno ludzkich języków, jak i instrukcji programistycznych. Na przykład zmiana układu słów w zdaniu “Kot usiadł na pudełku” na “Pudełko było na kocie” prowadzi do zupełnie innego scenariusza. Podobnie, w przypadku złożonych instrukcji, takich jak kodowanie programu, obserwowanie zmian zmiennych lub przestrzeganie logiki warunkowej wymaga opanowania zmian stanu i sekwencyjnego rozumowania. Dzisiejsze najnowocześniejsze systemy sztucznej inteligencji, w szczególności duże modele językowe (LLM), mają na celu udoskonalenie tych możliwości.

Understanding, scrutinizing and mastering this code isn’t a simple task, and not all artificial intelligence systems are equipped for it. In fact, the current leading transformer architectures face a certain challenge in this area, especially when it comes to attention mechanisms.

Rozpakowywanie mechanizmu uwagi

Attention mechanism is the tool transformers use to determine the importance of various words or tokens in a sequence. This capability allows models to refer to earlier parts of a text or command, but it may not necessarily understand the order of the words. Individual tokens are processed simultaneously, and the system must rely on additional techniques to encode their positions. The primary technique used for this purpose is rotary position encoding (RoPE), which works by calculating the relative distance between tokens. This method is often successful, but it has an inherent limitation – it only considers the physical distance between words, completely dismissing their content or context.

The crew of researchers from MIT and the MIT-IBM Watson AI Lab are aware of these limitations. Bearing this in mind, they’ve recently developed a new encoding method known as PaTH Attention. It’s a dynamic, context-aware technique that regards the space between words as a path with its own variables that are subject to small, data-driven adjustments. These transformations follow from a mathematical concept called Householder reflections – think of it as tiny mirrors that adjust depending on each token’s content.

Implikacje uwagi PaTH są ogromne. Ponieważ każdy token jest przetwarzany sekwencyjnie, kodowanie wpływa na sposób interpretacji przyszłych informacji. To świeże podejście pozwala modelowi śledzić ewolucję znaczeń, a nie tylko mierzyć odległość między tokenami. Zasadniczo zapewnia to transformatorom formę “pamięci pozycyjnej”, umożliwiając im lepsze zrozumienie, w jaki sposób jednostki i relacje zmieniają się w czasie.

Trwająca rewolucja w systemach sztucznej inteligencji

Naukowcy poszli o krok dalej, badając możliwość zintegrowania techniki selektywnego zapominania z uwagą PaTH. Łącząc PaTH z inną strategią określaną jako Forgetting Transformer (FoX), modele były w stanie zignorować starsze lub mniej istotne informacje. To nowe połączenie, znane jako PaTH-FoX, wykazało wysoki stopień skuteczności w zadaniach rozumienia i rozumowania z długimi kontekstami.

Yoon Kim, profesor nadzwyczajny na MIT, twierdzi: “Nasze nowe podejście było w stanie przewyższyć istniejące mechanizmy uwagi zarówno w zadaniach diagnostycznych, jak i zadaniach modelowania języka w świecie rzeczywistym, przy jednoczesnym zachowaniu ich wydajności”.”

This trailblazing research undertaken by the MIT-IBM Watson AI Lab and supported by the AI2050 program at Schmidt Sciences only deepens our understanding of AI capabilities. It’s a part of an overarching effort to extend the boundaries of what AI systems can achieve.

Uzasadniając znaczenie tego wysiłku, Kim dodał: “Byłbym podekscytowany widząc, czy tego typu kodowanie pozycji zależne od danych, takie jak PATH, poprawia wydajność transformatorów w domenach strukturalnych, takich jak biologia, w analizie białek lub DNA”.”

Ten niezwykły skok w technologii sztucznej inteligencji został szczegółowo opisany w artykule przedstawionym na konferencji poświęconej systemom przetwarzania informacji neuronowych (NeurIPS). Szczegółowe informacje na temat tych rewolucyjnych badań można znaleźć na stronie MIT News.

Max Krawiec

This website uses cookies.