{"id":7636,"date":"2025-12-18T05:10:00","date_gmt":"2025-12-18T04:10:00","guid":{"rendered":"https:\/\/aitrendscenter.eu\/a-smarter-way-to-track-meaning-mit-researchers-enhance-transformer-attention-with-path\/"},"modified":"2025-12-18T05:10:00","modified_gmt":"2025-12-18T04:10:00","slug":"eine-intelligentere-art-der-bedeutungserfassung-mit-forschern-die-die-aufmerksamkeit-von-transformatoren-mit-pfad","status":"publish","type":"post","link":"https:\/\/aitrendscenter.eu\/de\/a-smarter-way-to-track-meaning-mit-researchers-enhance-transformer-attention-with-path\/","title":{"rendered":"Eine intelligentere Art, Bedeutungen aufzusp\u00fcren: MIT-Forscher verbessern die Aufmerksamkeit von Transformatoren mit PaTH"},"content":{"rendered":"<p>Die Wahl der richtigen W\u00f6rter in der richtigen Reihenfolge ist entscheidend f\u00fcr die korrekte Interpretation sowohl von menschlichen Sprachen als auch von Programmieranweisungen. \u00c4ndert man zum Beispiel die Wortanordnung in dem Satz \u201cDie Katze sa\u00df auf der Schachtel\u201d in \u201cDie Schachtel war auf der Katze\u201d, ergibt sich ein v\u00f6llig anderes Szenario. \u00c4hnlich verh\u00e4lt es sich bei komplexen Anweisungen wie der Programmcodierung: Das Beobachten von Variablen\u00e4nderungen oder das Befolgen bedingter Logik erfordert die Beherrschung von Zustands\u00e4nderungen und sequentiellem Denken. Die heutigen modernen KI-Systeme, insbesondere gro\u00dfe Sprachmodelle (LLMs), zielen darauf ab, diese F\u00e4higkeiten zu perfektionieren.<\/p>\n<p>Das Verstehen, Hinterfragen und Beherrschen dieses Codes ist keine einfache Aufgabe, und nicht alle Systeme der k\u00fcnstlichen Intelligenz sind daf\u00fcr ger\u00fcstet. Tats\u00e4chlich stehen die derzeit f\u00fchrenden Transformator-Architekturen vor einer gewissen Herausforderung in diesem Bereich, insbesondere wenn es um Aufmerksamkeitsmechanismen geht.<\/p>\n<h5>Auspacken des Aufmerksamkeitsmechanismus<\/h5>\n<p>Der Aufmerksamkeitsmechanismus ist das Werkzeug, das Transformatoren verwenden, um die Bedeutung verschiedener W\u00f6rter oder Token in einer Sequenz zu bestimmen. Diese F\u00e4higkeit erm\u00f6glicht es den Modellen, auf fr\u00fchere Teile eines Textes oder Befehls zu verweisen, aber sie versteht nicht unbedingt die Reihenfolge der W\u00f6rter. Einzelne Token werden gleichzeitig verarbeitet, und das System muss sich auf zus\u00e4tzliche Techniken st\u00fctzen, um ihre Positionen zu kodieren. Die prim\u00e4re Technik, die zu diesem Zweck eingesetzt wird, ist die Rotationspositionskodierung (RoPE), die durch die Berechnung des relativen Abstands zwischen den Token funktioniert. Diese Methode ist oft erfolgreich, hat aber eine inh\u00e4rente Einschr\u00e4nkung - sie ber\u00fccksichtigt nur den physischen Abstand zwischen W\u00f6rtern und l\u00e4sst deren Inhalt oder Kontext v\u00f6llig au\u00dfer Acht.<\/p>\n<p>Das Forscherteam des MIT und des MIT-IBM Watson AI Lab ist sich dieser Einschr\u00e4nkungen bewusst. Vor diesem Hintergrund haben sie k\u00fcrzlich eine neue Kodierungsmethode entwickelt, die als PaTH Attention bekannt ist. Dabei handelt es sich um eine dynamische, kontextbewusste Technik, die den Raum zwischen den W\u00f6rtern als einen Pfad mit eigenen Variablen betrachtet, die kleinen, datengesteuerten Anpassungen unterworfen sind. Diese Umwandlungen beruhen auf einem mathematischen Konzept namens Householder-Reflexionen - man kann sich das wie winzige Spiegel vorstellen, die sich je nach Inhalt der einzelnen Token anpassen.<\/p>\n<p>Die Auswirkungen von PaTH Attention sind enorm. Da jedes Token sequentiell verarbeitet wird, beeinflusst die Kodierung, wie die zuk\u00fcnftige Information interpretiert wird. Dieser neue Ansatz erm\u00f6glicht es dem Modell, die Entwicklung von Bedeutungen zu verfolgen und nicht nur den Abstand zwischen Token zu messen. Im Wesentlichen wird den Transformatoren eine Art \u201cPositionsged\u00e4chtnis\u201d zur Verf\u00fcgung gestellt, das es ihnen erm\u00f6glicht, besser zu verstehen, wie sich Entit\u00e4ten und Beziehungen im Laufe der Zeit ver\u00e4ndern.<\/p>\n<h5>Laufende Revolution der KI-Systeme<\/h5>\n<p>Die Forscher gingen noch einen Schritt weiter, indem sie die M\u00f6glichkeit untersuchten, die Technik des selektiven Vergessens in PaTH Attention zu integrieren. Durch die Kombination von PaTH mit einer anderen Strategie, dem Forgetting Transformer (FoX), waren die Modelle in der Lage, \u00e4ltere oder weniger relevante Informationen au\u00dfer Acht zu lassen. Diese neuartige Verschmelzung, bekannt als PaTH-FoX, zeigte ein hohes Ma\u00df an Effizienz bei Verstehens- und Schlussfolgerungsaufgaben mit langen Kontexten.<\/p>\n<p>Yoon Kim, au\u00dferordentlicher Professor am MIT, meint: \u201cUnser neuer Ansatz war in der Lage, bestehende Aufmerksamkeitsmechanismen sowohl bei diagnostischen Aufgaben als auch bei realen Sprachmodellierungsaufgaben zu \u00fcbertreffen und dabei ihre Effizienz zu erhalten.\u201d<\/p>\n<p>Diese bahnbrechende Forschung, die vom MIT-IBM Watson AI Lab durchgef\u00fchrt und vom AI2050-Programm bei Schmidt Sciences unterst\u00fctzt wird, vertieft unser Verst\u00e4ndnis der KI-F\u00e4higkeiten. Sie ist Teil einer \u00fcbergreifenden Anstrengung, die Grenzen dessen, was KI-Systeme leisten k\u00f6nnen, zu erweitern.<\/p>\n<p>Um die Bedeutung dieser Arbeit zu rechtfertigen, f\u00fcgte Kim hinzu: \u201cIch bin gespannt, ob diese Arten von datenabh\u00e4ngigen Positionskodierungen wie PATH die Leistung von Transformatoren in strukturierten Bereichen wie der Biologie bei der Analyse von Proteinen oder DNA verbessern.\u201d<\/p>\n<p>Dieser bemerkenswerte Sprung in der KI-Technologie wurde in einem auf der Conference on Neural Information Processing Systems (NeurIPS) vorgestellten Papier ausf\u00fchrlich beschrieben. Die vollst\u00e4ndigen Einzelheiten zu dieser revolution\u00e4ren Forschung finden Sie unter <a href=\"https:\/\/news.mit.edu\/2025\/new-way-to-increase-large-language-model-capabilities-1217\" target=\"_blank\" rel=\"noopener\">MIT-Nachrichten<\/a>.<\/p>","protected":false},"excerpt":{"rendered":"<p>Choosing the right words, in the correct order, is crucial for the correct interpretation of both human languages and programming instructions. For example, changing the word arrangement in the sentence \u201cThe cat sat on the box\u201d to \u201cThe box was on the cat\u201d leads to a completely different scenario. Similarly, with complex instructions like program coding, observing variable changes or following conditional logic requires the mastery of state changes and sequential reasoning. Today\u2019s state-of-the-art AI systems, particularly large language models (LLMs), aim to perfect these capabilities. Understanding, scrutinizing and mastering this code isn&#8217;t a simple task, and not all artificial [&hellip;]<\/p>\n","protected":false},"author":4,"featured_media":7637,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[47],"tags":[],"class_list":["post-7636","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-news","post--single"],"_links":{"self":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts\/7636","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/comments?post=7636"}],"version-history":[{"count":0,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts\/7636\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/media\/7637"}],"wp:attachment":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/media?parent=7636"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/categories?post=7636"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/tags?post=7636"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}