It’s easy to write off certain neural networks as “untrainable” when they fall short of modern machine learning tasks. But a team of researchers at MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL) reminds us that we just might be wrong. They’ve unravelled a new method known as Anleitung. It’s a brief phase of alignment that can dramatically enhance the learning ability of previously dismissed neural network architectures.
Traditionally, we’ve considered some network architectures as inherently flawed or limited in dealing with complex tasks. However, these neural networks might be victim to an unfavorable starting point in the parameter space rather than a lack of potential. The researchers found that by pairing these networks with a structured “guide” network for a short while, they could steer the struggling networks towards effective learning.
Im Gegensatz zur Wissensdestillation, bei der ein Schülermodell die Ergebnisse eines Lehrers nachahmt, stützt sich diese Technik auf interne Repräsentationen. Hier übernimmt das Zielnetz die Art und Weise, wie das Führungsnetz Informationen in seinen Schichten organisiert, anstatt seine Vorhersagen zu imitieren. Selbst wenn das Führungsnetz nicht trainiert ist, erleichtert dieser Prozess einen sinnvollen Wissenstransfer und steigert so die Lernfähigkeit.
This theory was put to the test using deep fully connected networks (FCNs). The researchers briefly aligned the networks with a guide network using random noise before the actual training. The results were astonishing–notorious for overfitting, these networks became more stable, avoided the usual FCN pitfalls, displayed lower training losses and improved their performances. “It’s impressive that we could use representational similarity to make these traditionally ‘crappy’ networks actually work,” says Vighnesh Subramaniam ’23, MEng ’24, a PhD student in MIT’s Department of Electrical Engineering and Computer Science and lead author of the study.
The study reveals that guidance, unlike knowledge distillation, doesn’t falter when using an untrained teacher network. As guidance relies on the network’s internal structure which carries valuable architectural biases. These biases function like a compass, directing the network towards better learning paths.
But the implications of this research don’t stop at performance improvements. It suggests that the success of a network may be more dependent on its starting point in the learning space than the data it’s trained on. By pairing networks with a guide, the impact of architectural design can be isolated from learned experience. This introduction of guidance provides a new perspective for evaluating network structures’ contribution to effective learning. It also gives scientists a way to understand the differences between architectures, helping refine theories about neural network optimization and identifying which components are consequential for learning.
Der Clou ist jedoch, dass kein Netz unverbesserlich ist. Selbst solche, die einst als ineffektiv gebrandmarkt wurden, können durch Anleitung auf den Stand moderner Standards gebracht werden. Derzeit untersucht das CSAIL-Team, welche architektonischen Elemente wesentlich zu diesen Verbesserungen beitragen, um die Gestaltung künftiger neuronaler Netze zu beeinflussen.
“Im Allgemeinen geht man davon aus, dass verschiedene neuronale Netzwerkarchitekturen bestimmte Stärken und Schwächen haben”, so Leyla Isik, Assistenzprofessorin für Kognitionswissenschaften an der Johns Hopkins University, die nicht an der Studie beteiligt war. “Diese spannende Forschung zeigt, dass ein Netzwerktyp die Vorteile einer anderen Architektur übernehmen kann, ohne seine ursprünglichen Fähigkeiten zu verlieren.”
Die Forschungsarbeit, eine gemeinsame Anstrengung von Subramaniam und seinen MIT CSAIL-Mitarbeitern, wurde von Organisationen wie dem Center for Brains, Minds and Machines, der National Science Foundation, dem MIT-IBM Watson AI Lab und dem U.S. Department of the Air Force Artificial Intelligence Accelerator unterstützt. Ihre bahnbrechenden Ergebnisse wurden kürzlich auf der Konferenz und dem Workshop über neuronale Informationsverarbeitungssysteme (NeurIPS) vorgestellt.
Lesen Sie den Originalartikel von MIT News hier: https://news.mit.edu/2025/guided-learning-lets-untrainable-neural-networks-realize-their-potential-1218
Diese Website verwendet Cookies.