Geführtes Lernen hilft ‘untrainierbaren’ neuronalen Netzen, neues Potenzial zu erreichen
Es ist leicht, bestimmte neuronale Netze als “untrainierbar” abzuschreiben, wenn sie bei modernen maschinellen Lernaufgaben versagen. Doch ein Forscherteam des Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT erinnert uns daran, dass wir uns irren könnten. Sie haben eine neue Methode entschlüsselt, die als Anleitung. Es handelt sich um eine kurze Phase der Angleichung, die die Lernfähigkeit von zuvor abgelehnten neuronalen Netzarchitekturen dramatisch verbessern kann.
Umgestaltung der Underdogs
Traditionell haben wir einige Netzarchitekturen als von Natur aus fehlerhaft oder eingeschränkt bei der Bewältigung komplexer Aufgaben angesehen. Diese neuronalen Netze könnten jedoch eher einem ungünstigen Ausgangspunkt im Parameterraum zum Opfer gefallen sein als einem Mangel an Potenzial. Die Forscher fanden heraus, dass sie diese Netze durch kurzzeitige Kopplung mit einem strukturierten “Führungs”-Netz zu effektivem Lernen führen konnten.
Im Gegensatz zur Wissensdestillation, bei der ein Schülermodell die Ergebnisse eines Lehrers nachahmt, stützt sich diese Technik auf interne Repräsentationen. Hier übernimmt das Zielnetz die Art und Weise, wie das Führungsnetz Informationen in seinen Schichten organisiert, anstatt seine Vorhersagen zu imitieren. Selbst wenn das Führungsnetz nicht trainiert ist, erleichtert dieser Prozess einen sinnvollen Wissenstransfer und steigert so die Lernfähigkeit.
Diese Theorie wurde mit Hilfe von tiefen, vollständig verknüpften Netzen (FCN) auf die Probe gestellt. Die Forscher glichen die Netze vor dem eigentlichen Training kurz mit einem Führungsnetz mit Zufallsrauschen ab. Die Ergebnisse waren verblüffend: Die für ihre Überanpassung berüchtigten Netze wurden stabiler, vermieden die üblichen FCN-Fallen, wiesen geringere Trainingsverluste auf und verbesserten ihre Leistung. “Es ist beeindruckend, dass wir die repräsentative Ähnlichkeit nutzen konnten, um diese traditionell ‘beschissenen’ Netze tatsächlich zum Funktionieren zu bringen”, sagt Vighnesh Subramaniam ’23, MEng ’24, Doktorand am MIT Department of Electrical Engineering and Computer Science und Hauptautor der Studie.
Spielveränderung für neuronale Netze
Die Studie zeigt, dass die Beratung, anders als die Wissensdestillation, nicht ins Stocken gerät, wenn ein ungeschultes Lehrernetzwerk verwendet wird. Denn die Anleitung beruht auf der internen Struktur des Netzes, die wertvolle architektonische Vorurteile enthält. Diese Verzerrungen funktionieren wie ein Kompass, der das Netzwerk auf bessere Lernpfade lenkt.
Die Auswirkungen dieser Forschung beschränken sich jedoch nicht nur auf Leistungsverbesserungen. Sie deuten darauf hin, dass der Erfolg eines Netzes möglicherweise stärker von seinem Ausgangspunkt im Lernraum abhängt als von den Daten, mit denen es trainiert wurde. Durch die Kopplung von Netzen mit einem Leitfaden können die Auswirkungen des Architekturdesigns von den gelernten Erfahrungen isoliert werden. Die Einführung eines Leitfadens bietet eine neue Perspektive für die Bewertung des Beitrags von Netzstrukturen zum effektiven Lernen. Sie gibt den Wissenschaftlern auch die Möglichkeit, die Unterschiede zwischen den Architekturen zu verstehen, was dazu beiträgt, Theorien über die Optimierung neuronaler Netze zu verfeinern und festzustellen, welche Komponenten für das Lernen von Bedeutung sind.
Der Clou ist jedoch, dass kein Netz unverbesserlich ist. Selbst solche, die einst als ineffektiv gebrandmarkt wurden, können durch Anleitung auf den Stand moderner Standards gebracht werden. Derzeit untersucht das CSAIL-Team, welche architektonischen Elemente wesentlich zu diesen Verbesserungen beitragen, um die Gestaltung künftiger neuronaler Netze zu beeinflussen.
“Im Allgemeinen geht man davon aus, dass verschiedene neuronale Netzwerkarchitekturen bestimmte Stärken und Schwächen haben”, so Leyla Isik, Assistenzprofessorin für Kognitionswissenschaften an der Johns Hopkins University, die nicht an der Studie beteiligt war. “Diese spannende Forschung zeigt, dass ein Netzwerktyp die Vorteile einer anderen Architektur übernehmen kann, ohne seine ursprünglichen Fähigkeiten zu verlieren.”
Die Forschungsarbeit, eine gemeinsame Anstrengung von Subramaniam und seinen MIT CSAIL-Mitarbeitern, wurde von Organisationen wie dem Center for Brains, Minds and Machines, der National Science Foundation, dem MIT-IBM Watson AI Lab und dem U.S. Department of the Air Force Artificial Intelligence Accelerator unterstützt. Ihre bahnbrechenden Ergebnisse wurden kürzlich auf der Konferenz und dem Workshop über neuronale Informationsverarbeitungssysteme (NeurIPS) vorgestellt.
Lesen Sie den Originalartikel von MIT News hier: https://news.mit.edu/2025/guided-learning-lets-untrainable-neural-networks-realize-their-potential-1218