Stellen Sie sich vor, Sie lassen sich auf einen spannenden Roman ein oder bleiben bei einer spannenden Schachpartie dabei - Ihr Gehirn passt sich ständig an, speichert Details und macht Vorhersagen über das, was als Nächstes kommt. Sie bemerken es vielleicht nicht, aber dieser innere Notizblock ist immer in Betrieb und hilft Ihnen, die Wendungen zu meistern.
Advanced AI language models like ChatGPT do something a bit similar, though by very different means. Their “thought process” is powered by transformer architecture, a clever structure that helps them predict what should come next in a sequence—whether it’s a word in a sentence or the next logical step in a math problem. Yet, are these models actually thinking step-by-step, the way we do? Or are they cutting corners in ways we might not expect?
Um das herauszufinden, haben Forscher des MIT eine digitale Variante des klassischen Hütchenspiels entwickelt - das mit den Bechern und dem versteckten Objekt. Die KI erhielt eine Reihe von Zahlen und die “Regeln” für das Mischen der Zahlen, durfte aber nach Beginn des Mischens keinen Blick darauf werfen. Die Herausforderung bestand darin, die endgültige Anordnung allein anhand des Ausgangspunkts und der Anweisungen vorherzusagen.
Haben die Modelle akribisch jeden Tausch und jede Anweisung befolgt, wie es ein besessener menschlicher Spieler tun würde? Nicht ganz. Stattdessen fanden die Modelle ihre eigenen mathematischen Abkürzungen. Dabei haben sich zwei Hauptstrategien herauskristallisiert: Die eine, der so genannte “Assoziative Algorithmus”, gruppierte Schritte, löste Teilprobleme und fügte die Ergebnisse zusammen, so als würde man Äste von einem Baum abschneiden und jeden einzelnen bis zu seiner Spitze zurückverfolgen. Dadurch wurden die Modelle sehr viel schneller und in einigen Fällen sogar genauer, als wenn man jeden Zug methodisch durchspielen würde.
Es gab auch den “Paritäts-Assoziativ-Algorithmus”, der darauf achtet, ob es eine gerade oder ungerade Anzahl von Vertauschungen gibt, und dann ähnliche Gruppierungskürzel anwendet. Das funktionierte bei einfachen Rätseln gut, geriet aber bei längeren, komplexeren Aufgaben ins Straucheln.
Wie haben die Forscher all dies herausgefunden? Sie benutzten spezielle Werkzeuge - stellen Sie sich vor, Sie lesen die privaten Notizen der KI mitten im Prozess -, mit denen sie sehen konnten, wann das Modell richtig geraten hat und wann es gestolpert ist. Was sie herausfanden, war eindeutig: Der Assoziative Algorithmus ermöglichte es dem Modell, schneller zu lernen und selbst bei wachsenden Herausforderungen einen kühlen Kopf zu bewahren, während die paritätsbasierte Strategie, die auf schnelle Heuristiken angewiesen ist, mit zunehmender Komplexität an ihre Grenzen stieß.
Was bedeutet das alles für die Entwicklung und das Training von KI? Die Hauptautorin Belinda Li schlägt vor, dass wir die KI nicht zwingen sollten, genau wie wir zu denken, sondern ihr vielleicht helfen sollten, die einzigartigen Strategien, die sie entwickelt, zu verfeinern. Wenn wir zum Beispiel mehr “Schichten” in ein Modell einbauen, können wir tiefere, zuverlässigere Denkketten aufbauen, als wenn wir sie einfach bitten, mehr Schritte nacheinander zu machen.
Obwohl in der Studie mit relativ kleinen Modellen und synthetischen Daten gearbeitet wurde, ist das Team der Ansicht, dass sich diese Erkenntnisse auf leistungsfähige Werkzeuge wie GPT-4.1 übertragen lassen. In den nächsten Schritten sollen diese Ideen an Modellen getestet werden, die reale Aufgaben bewältigen, z. B. das Verfolgen einer Handlung in einem Roman oder das Verfolgen von Variablen in Softwarecode.
Diese Art von Forschung könnte die Art und Weise verändern, wie KI alle möglichen kniffligen Aufgaben der Zustandsverfolgung bewältigt, vom Schreiben von Rezepten bis zum Führen von Gesprächen. Das MIT-Team - Belinda Li, Zifan “Carl” Guo und Jacob Andreas - hofft, dass ihre Erkenntnisse zu einer intelligenteren und vertrauenswürdigeren KI führen werden, indem sie uns helfen, problematische “Abkürzungen” zu vermeiden und gleichzeitig fundierte Überlegungen zu fördern.
Ihre Arbeit wurde erstmals auf der International Conference on Machine Learning (ICML) vorgestellt und wurde durch die Unterstützung von Organisationen wie Open Philanthropy, MIT Quest for Intelligence, der National Science Foundation, dem Clare Boothe Luce Program for Women in STEM und dem Sloan Research Fellowship ermöglicht.
Quelle: https://news.mit.edu/2025/unique-mathematical-shortcuts-language-models-use-to-predict-dynamic-scenarios-0721
Diese Website verwendet Cookies.