Categories: Aktualności

Inteligentniejszy sposób śledzenia znaczenia: Naukowcy z MIT zwiększają uwagę transformatorów za pomocą PaTH

Wybór właściwych słów, we właściwej kolejności, ma kluczowe znaczenie dla prawidłowej interpretacji zarówno ludzkich języków, jak i instrukcji programistycznych. Na przykład zmiana układu słów w zdaniu “Kot usiadł na pudełku” na “Pudełko było na kocie” prowadzi do zupełnie innego scenariusza. Podobnie, w przypadku złożonych instrukcji, takich jak kodowanie programu, obserwowanie zmian zmiennych lub przestrzeganie logiki warunkowej wymaga opanowania zmian stanu i sekwencyjnego rozumowania. Dzisiejsze najnowocześniejsze systemy sztucznej inteligencji, w szczególności duże modele językowe (LLM), mają na celu udoskonalenie tych możliwości.

Understanding, scrutinizing and mastering this code isn’t a simple task, and not all artificial intelligence systems are equipped for it. In fact, the current leading transformer architectures face a certain challenge in this area, especially when it comes to attention mechanisms.

Rozpakowywanie mechanizmu uwagi

Attention mechanism is the tool transformers use to determine the importance of various words or tokens in a sequence. This capability allows models to refer to earlier parts of a text or command, but it may not necessarily understand the order of the words. Individual tokens are processed simultaneously, and the system must rely on additional techniques to encode their positions. The primary technique used for this purpose is rotary position encoding (RoPE), which works by calculating the relative distance between tokens. This method is often successful, but it has an inherent limitation – it only considers the physical distance between words, completely dismissing their content or context.

The crew of researchers from MIT and the MIT-IBM Watson AI Lab are aware of these limitations. Bearing this in mind, they’ve recently developed a new encoding method known as PaTH Attention. It’s a dynamic, context-aware technique that regards the space between words as a path with its own variables that are subject to small, data-driven adjustments. These transformations follow from a mathematical concept called Householder reflections – think of it as tiny mirrors that adjust depending on each token’s content.

Implikacje uwagi PaTH są ogromne. Ponieważ każdy token jest przetwarzany sekwencyjnie, kodowanie wpływa na sposób interpretacji przyszłych informacji. To świeże podejście pozwala modelowi śledzić ewolucję znaczeń, a nie tylko mierzyć odległość między tokenami. Zasadniczo zapewnia to transformatorom formę “pamięci pozycyjnej”, umożliwiając im lepsze zrozumienie, w jaki sposób jednostki i relacje zmieniają się w czasie.

Trwająca rewolucja w systemach sztucznej inteligencji

Naukowcy poszli o krok dalej, badając możliwość zintegrowania techniki selektywnego zapominania z uwagą PaTH. Łącząc PaTH z inną strategią określaną jako Forgetting Transformer (FoX), modele były w stanie zignorować starsze lub mniej istotne informacje. To nowe połączenie, znane jako PaTH-FoX, wykazało wysoki stopień skuteczności w zadaniach rozumienia i rozumowania z długimi kontekstami.

Yoon Kim, profesor nadzwyczajny na MIT, twierdzi: “Nasze nowe podejście było w stanie przewyższyć istniejące mechanizmy uwagi zarówno w zadaniach diagnostycznych, jak i zadaniach modelowania języka w świecie rzeczywistym, przy jednoczesnym zachowaniu ich wydajności”.”

This trailblazing research undertaken by the MIT-IBM Watson AI Lab and supported by the AI2050 program at Schmidt Sciences only deepens our understanding of AI capabilities. It’s a part of an overarching effort to extend the boundaries of what AI systems can achieve.

Uzasadniając znaczenie tego wysiłku, Kim dodał: “Byłbym podekscytowany widząc, czy tego typu kodowanie pozycji zależne od danych, takie jak PATH, poprawia wydajność transformatorów w domenach strukturalnych, takich jak biologia, w analizie białek lub DNA”.”

Ten niezwykły skok w technologii sztucznej inteligencji został szczegółowo opisany w artykule przedstawionym na konferencji poświęconej systemom przetwarzania informacji neuronowych (NeurIPS). Szczegółowe informacje na temat tych rewolucyjnych badań można znaleźć na stronie MIT News.

Max Krawiec

Next OpenAI Launches App Directory and SDK to Expand ChatGPT’s Capabilities »

Previous « Revolutionize Your Optometric Practice with AI Portal Maker

Published by

Max Krawiec

2 miesiące ago

Jak firmy zajmujące się drukiem 3D mogą zyskać widoczność dzięki automatyzacji treści.

This website uses cookies.

Inteligentniejszy sposób śledzenia znaczenia: Naukowcy z MIT zwiększają uwagę transformatorów za pomocą PaTH

Rozpakowywanie mechanizmu uwagi

Trwająca rewolucja w systemach sztucznej inteligencji

Related Post

Recent Posts

Streamline Growth: Menedżer sprzedaży AI dla nowoczesnych firm księgowych

Powolny marsz w kierunku niezawodnego etykietowania Deepfake: Wyzwania i perspektywy

Wyzwania związane z analizowaniem plików PDF: Ludzkie zmagania z ograniczeniami sztucznej inteligencji

Ekosystem wielu agentów Samsunga: Przedstawiamy ‘Hey, Plex’ na Galaxy S26

Wzmocnienie pozycji księgowych: Usprawnij zapytania klientów dzięki generatorowi AI FAQ

Przypomnienie o płatności AI: Rewolucja w windykacji dla firm księgowych