Kategorien: Nachrichten

Eine intelligentere Art, Bedeutungen aufzuspüren: MIT-Forscher verbessern die Aufmerksamkeit von Transformatoren mit PaTH

Die Wahl der richtigen Wörter in der richtigen Reihenfolge ist entscheidend für die korrekte Interpretation sowohl von menschlichen Sprachen als auch von Programmieranweisungen. Ändert man zum Beispiel die Wortanordnung in dem Satz “Die Katze saß auf der Schachtel” in “Die Schachtel war auf der Katze”, ergibt sich ein völlig anderes Szenario. Ähnlich verhält es sich bei komplexen Anweisungen wie der Programmcodierung: Das Beobachten von Variablenänderungen oder das Befolgen bedingter Logik erfordert die Beherrschung von Zustandsänderungen und sequentiellem Denken. Die heutigen modernen KI-Systeme, insbesondere große Sprachmodelle (LLMs), zielen darauf ab, diese Fähigkeiten zu perfektionieren.

Understanding, scrutinizing and mastering this code isn’t a simple task, and not all artificial intelligence systems are equipped for it. In fact, the current leading transformer architectures face a certain challenge in this area, especially when it comes to attention mechanisms.

Auspacken des Aufmerksamkeitsmechanismus

Attention mechanism is the tool transformers use to determine the importance of various words or tokens in a sequence. This capability allows models to refer to earlier parts of a text or command, but it may not necessarily understand the order of the words. Individual tokens are processed simultaneously, and the system must rely on additional techniques to encode their positions. The primary technique used for this purpose is rotary position encoding (RoPE), which works by calculating the relative distance between tokens. This method is often successful, but it has an inherent limitation – it only considers the physical distance between words, completely dismissing their content or context.

The crew of researchers from MIT and the MIT-IBM Watson AI Lab are aware of these limitations. Bearing this in mind, they’ve recently developed a new encoding method known as PaTH Attention. It’s a dynamic, context-aware technique that regards the space between words as a path with its own variables that are subject to small, data-driven adjustments. These transformations follow from a mathematical concept called Householder reflections – think of it as tiny mirrors that adjust depending on each token’s content.

Die Auswirkungen von PaTH Attention sind enorm. Da jedes Token sequentiell verarbeitet wird, beeinflusst die Kodierung, wie die zukünftige Information interpretiert wird. Dieser neue Ansatz ermöglicht es dem Modell, die Entwicklung von Bedeutungen zu verfolgen und nicht nur den Abstand zwischen Token zu messen. Im Wesentlichen wird den Transformatoren eine Art “Positionsgedächtnis” zur Verfügung gestellt, das es ihnen ermöglicht, besser zu verstehen, wie sich Entitäten und Beziehungen im Laufe der Zeit verändern.

Laufende Revolution der KI-Systeme

Die Forscher gingen noch einen Schritt weiter, indem sie die Möglichkeit untersuchten, die Technik des selektiven Vergessens in PaTH Attention zu integrieren. Durch die Kombination von PaTH mit einer anderen Strategie, dem Forgetting Transformer (FoX), waren die Modelle in der Lage, ältere oder weniger relevante Informationen außer Acht zu lassen. Diese neuartige Verschmelzung, bekannt als PaTH-FoX, zeigte ein hohes Maß an Effizienz bei Verstehens- und Schlussfolgerungsaufgaben mit langen Kontexten.

Yoon Kim, außerordentlicher Professor am MIT, meint: “Unser neuer Ansatz war in der Lage, bestehende Aufmerksamkeitsmechanismen sowohl bei diagnostischen Aufgaben als auch bei realen Sprachmodellierungsaufgaben zu übertreffen und dabei ihre Effizienz zu erhalten.”

This trailblazing research undertaken by the MIT-IBM Watson AI Lab and supported by the AI2050 program at Schmidt Sciences only deepens our understanding of AI capabilities. It’s a part of an overarching effort to extend the boundaries of what AI systems can achieve.

Um die Bedeutung dieser Arbeit zu rechtfertigen, fügte Kim hinzu: “Ich bin gespannt, ob diese Arten von datenabhängigen Positionskodierungen wie PATH die Leistung von Transformatoren in strukturierten Bereichen wie der Biologie bei der Analyse von Proteinen oder DNA verbessern.”

Dieser bemerkenswerte Sprung in der KI-Technologie wurde in einem auf der Conference on Neural Information Processing Systems (NeurIPS) vorgestellten Papier ausführlich beschrieben. Die vollständigen Einzelheiten zu dieser revolutionären Forschung finden Sie unter MIT-Nachrichten.

Max Krawiec

Teilen Sie
Herausgegeben von
Max Krawiec

Diese Website verwendet Cookies.