Nachrichten

Eine intelligentere Art, Bedeutungen aufzuspüren: MIT-Forscher verbessern die Aufmerksamkeit von Transformatoren mit PaTH

Die Wahl der richtigen Wörter in der richtigen Reihenfolge ist entscheidend für die korrekte Interpretation sowohl von menschlichen Sprachen als auch von Programmieranweisungen. Ändert man zum Beispiel die Wortanordnung in dem Satz “Die Katze saß auf der Schachtel” in “Die Schachtel war auf der Katze”, ergibt sich ein völlig anderes Szenario. Ähnlich verhält es sich bei komplexen Anweisungen wie der Programmcodierung: Das Beobachten von Variablenänderungen oder das Befolgen bedingter Logik erfordert die Beherrschung von Zustandsänderungen und sequentiellem Denken. Die heutigen modernen KI-Systeme, insbesondere große Sprachmodelle (LLMs), zielen darauf ab, diese Fähigkeiten zu perfektionieren.

Das Verstehen, Hinterfragen und Beherrschen dieses Codes ist keine einfache Aufgabe, und nicht alle Systeme der künstlichen Intelligenz sind dafür gerüstet. Tatsächlich stehen die derzeit führenden Transformator-Architekturen vor einer gewissen Herausforderung in diesem Bereich, insbesondere wenn es um Aufmerksamkeitsmechanismen geht.

Auspacken des Aufmerksamkeitsmechanismus

Der Aufmerksamkeitsmechanismus ist das Werkzeug, das Transformatoren verwenden, um die Bedeutung verschiedener Wörter oder Token in einer Sequenz zu bestimmen. Diese Fähigkeit ermöglicht es den Modellen, auf frühere Teile eines Textes oder Befehls zu verweisen, aber sie versteht nicht unbedingt die Reihenfolge der Wörter. Einzelne Token werden gleichzeitig verarbeitet, und das System muss sich auf zusätzliche Techniken stützen, um ihre Positionen zu kodieren. Die primäre Technik, die zu diesem Zweck eingesetzt wird, ist die Rotationspositionskodierung (RoPE), die durch die Berechnung des relativen Abstands zwischen den Token funktioniert. Diese Methode ist oft erfolgreich, hat aber eine inhärente Einschränkung - sie berücksichtigt nur den physischen Abstand zwischen Wörtern und lässt deren Inhalt oder Kontext völlig außer Acht.

Das Forscherteam des MIT und des MIT-IBM Watson AI Lab ist sich dieser Einschränkungen bewusst. Vor diesem Hintergrund haben sie kürzlich eine neue Kodierungsmethode entwickelt, die als PaTH Attention bekannt ist. Dabei handelt es sich um eine dynamische, kontextbewusste Technik, die den Raum zwischen den Wörtern als einen Pfad mit eigenen Variablen betrachtet, die kleinen, datengesteuerten Anpassungen unterworfen sind. Diese Umwandlungen beruhen auf einem mathematischen Konzept namens Householder-Reflexionen - man kann sich das wie winzige Spiegel vorstellen, die sich je nach Inhalt der einzelnen Token anpassen.

Die Auswirkungen von PaTH Attention sind enorm. Da jedes Token sequentiell verarbeitet wird, beeinflusst die Kodierung, wie die zukünftige Information interpretiert wird. Dieser neue Ansatz ermöglicht es dem Modell, die Entwicklung von Bedeutungen zu verfolgen und nicht nur den Abstand zwischen Token zu messen. Im Wesentlichen wird den Transformatoren eine Art “Positionsgedächtnis” zur Verfügung gestellt, das es ihnen ermöglicht, besser zu verstehen, wie sich Entitäten und Beziehungen im Laufe der Zeit verändern.

Laufende Revolution der KI-Systeme

Die Forscher gingen noch einen Schritt weiter, indem sie die Möglichkeit untersuchten, die Technik des selektiven Vergessens in PaTH Attention zu integrieren. Durch die Kombination von PaTH mit einer anderen Strategie, dem Forgetting Transformer (FoX), waren die Modelle in der Lage, ältere oder weniger relevante Informationen außer Acht zu lassen. Diese neuartige Verschmelzung, bekannt als PaTH-FoX, zeigte ein hohes Maß an Effizienz bei Verstehens- und Schlussfolgerungsaufgaben mit langen Kontexten.

Yoon Kim, außerordentlicher Professor am MIT, meint: “Unser neuer Ansatz war in der Lage, bestehende Aufmerksamkeitsmechanismen sowohl bei diagnostischen Aufgaben als auch bei realen Sprachmodellierungsaufgaben zu übertreffen und dabei ihre Effizienz zu erhalten.”

Diese bahnbrechende Forschung, die vom MIT-IBM Watson AI Lab durchgeführt und vom AI2050-Programm bei Schmidt Sciences unterstützt wird, vertieft unser Verständnis der KI-Fähigkeiten. Sie ist Teil einer übergreifenden Anstrengung, die Grenzen dessen, was KI-Systeme leisten können, zu erweitern.

Um die Bedeutung dieser Arbeit zu rechtfertigen, fügte Kim hinzu: “Ich bin gespannt, ob diese Arten von datenabhängigen Positionskodierungen wie PATH die Leistung von Transformatoren in strukturierten Bereichen wie der Biologie bei der Analyse von Proteinen oder DNA verbessern.”

Dieser bemerkenswerte Sprung in der KI-Technologie wurde in einem auf der Conference on Neural Information Processing Systems (NeurIPS) vorgestellten Papier ausführlich beschrieben. Die vollständigen Einzelheiten zu dieser revolutionären Forschung finden Sie unter MIT-Nachrichten.

Wie ist Ihre Reaktion?

Aufgeregt
0
Glücklich
0
Verliebt
0
Nicht sicher
0
Dummerchen
0

Kommentare sind geschlossen.