Categories: AktualnościSamouczek

Nauczanie sterowane pomaga ‘niewyszkolonym’ sieciom neuronowym osiągnąć nowy potencjał

It’s easy to write off certain neural networks as “untrainable” when they fall short of modern machine learning tasks. But a team of researchers at MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL) reminds us that we just might be wrong. They’ve unravelled a new method known as wytyczne. It’s a brief phase of alignment that can dramatically enhance the learning ability of previously dismissed neural network architectures.

Odświeżanie słabszych

Traditionally, we’ve considered some network architectures as inherently flawed or limited in dealing with complex tasks. However, these neural networks might be victim to an unfavorable starting point in the parameter space rather than a lack of potential. The researchers found that by pairing these networks with a structured “guide” network for a short while, they could steer the struggling networks towards effective learning.

Technika ta, w przeciwieństwie do destylacji wiedzy - w której model ucznia naśladuje wyniki nauczyciela - opiera się na wewnętrznych reprezentacjach. W tym przypadku sieć docelowa absorbuje sposób, w jaki sieć prowadząca organizuje informacje w swoich warstwach, zamiast naśladować jej przewidywania. Nawet jeśli sieć przewodnika nie jest przeszkolona, proces ten ułatwia znaczący transfer wiedzy, zwiększając tym samym zdolność uczenia się.

This theory was put to the test using deep fully connected networks (FCNs). The researchers briefly aligned the networks with a guide network using random noise before the actual training. The results were astonishing–notorious for overfitting, these networks became more stable, avoided the usual FCN pitfalls, displayed lower training losses and improved their performances. “It’s impressive that we could use representational similarity to make these traditionally ‘crappy’ networks actually work,” says Vighnesh Subramaniam ’23, MEng ’24, a PhD student in MIT’s Department of Electrical Engineering and Computer Science and lead author of the study.

Zmiana gry dla sieci neuronowych

The study reveals that guidance, unlike knowledge distillation, doesn’t falter when using an untrained teacher network. As guidance relies on the network’s internal structure which carries valuable architectural biases. These biases function like a compass, directing the network towards better learning paths.

But the implications of this research don’t stop at performance improvements. It suggests that the success of a network may be more dependent on its starting point in the learning space than the data it’s trained on. By pairing networks with a guide, the impact of architectural design can be isolated from learned experience. This introduction of guidance provides a new perspective for evaluating network structures’ contribution to effective learning. It also gives scientists a way to understand the differences between architectures, helping refine theories about neural network optimization and identifying which components are consequential for learning.

Najważniejsze jest jednak to, że żadna sieć nie jest nie do naprawienia. Nawet te, które kiedyś zostały uznane za nieefektywne, mogą zostać dostosowane do nowoczesnych standardów dzięki odpowiednim wskazówkom. Obecnie zespół CSAIL bada, które elementy architektoniczne w największym stopniu przyczyniają się do tych ulepszeń, zamierzając wpłynąć na przyszłe projekty sieci neuronowych.

“Ogólnie przyjmuje się, że różne architektury sieci neuronowych mają określone mocne i słabe strony” - zauważyła Leyla Isik, adiunkt nauk kognitywnych na Uniwersytecie Johnsa Hopkinsa, która nie była zaangażowana w badanie. “To ekscytujące badanie pokazuje, że jeden typ sieci może odziedziczyć zalety innej architektury, nie tracąc przy tym swoich pierwotnych możliwości”.”

Badania, będące wspólnym wysiłkiem Subramaniama i jego współpracowników z MIT CSAIL, były wspierane przez takie organizacje jak Center for Brains, Minds, and Machines, National Science Foundation, MIT-IBM Watson AI Lab oraz U.S. Department of the Air Force Artificial Intelligence Accelerator. Ich przełomowe odkrycia zostały niedawno zaprezentowane na konferencji i warsztatach poświęconych neuronowym systemom przetwarzania informacji (NeurIPS).

Przeczytaj oryginalny artykuł z MIT News tutaj: https://news.mit.edu/2025/guided-learning-lets-untrainable-neural-networks-realize-their-potential-1218

Max Krawiec

This website uses cookies.