AktualnościSamouczek

Nauczanie sterowane pomaga ‘niewyszkolonym’ sieciom neuronowym osiągnąć nowy potencjał

Łatwo jest skreślić niektóre sieci neuronowe jako “niewyuczalne”, gdy nie radzą sobie z nowoczesnymi zadaniami uczenia maszynowego. Jednak zespół naukowców z Laboratorium Informatyki i Sztucznej Inteligencji MIT (CSAIL) przypomina nam, że możemy się mylić. Odkryli oni nową metodę znaną jako wytyczne. Jest to krótka faza dostosowania, która może znacznie zwiększyć zdolność uczenia się wcześniej odrzuconych architektur sieci neuronowych.

Odświeżanie słabszych

Tradycyjnie uważaliśmy niektóre architektury sieciowe za z natury wadliwe lub ograniczone w radzeniu sobie ze złożonymi zadaniami. Jednak te sieci neuronowe mogą być ofiarą niekorzystnego punktu początkowego w przestrzeni parametrów, a nie braku potencjału. Naukowcy odkryli, że łącząc te sieci z ustrukturyzowaną siecią “prowadzącą” przez krótki czas, mogli pokierować trudnymi sieciami w kierunku skutecznego uczenia się.

Technika ta, w przeciwieństwie do destylacji wiedzy - w której model ucznia naśladuje wyniki nauczyciela - opiera się na wewnętrznych reprezentacjach. W tym przypadku sieć docelowa absorbuje sposób, w jaki sieć prowadząca organizuje informacje w swoich warstwach, zamiast naśladować jej przewidywania. Nawet jeśli sieć przewodnika nie jest przeszkolona, proces ten ułatwia znaczący transfer wiedzy, zwiększając tym samym zdolność uczenia się.

Teoria ta została przetestowana przy użyciu głębokich, w pełni połączonych sieci (FCN). Naukowcy krótko dopasowali sieci do sieci prowadzącej przy użyciu losowego szumu przed faktycznym treningiem. Wyniki były zdumiewające - znane z nadmiernego dopasowania, sieci te stały się bardziej stabilne, uniknęły typowych pułapek FCN, wykazywały niższe straty treningowe i poprawiły swoją wydajność. “To imponujące, że mogliśmy wykorzystać podobieństwo reprezentacyjne, aby te tradycyjnie ‘kiepskie’ sieci faktycznie działały” - mówi Vighnesh Subramaniam ’23, MEng ’24, doktorant na Wydziale Elektrotechniki i Informatyki MIT i główny autor badania.

Zmiana gry dla sieci neuronowych

Badanie pokazuje, że poradnictwo, w przeciwieństwie do destylacji wiedzy, nie zawodzi w przypadku korzystania z sieci nieprzeszkolonych nauczycieli. Poradnictwo opiera się na wewnętrznej strukturze sieci, która niesie ze sobą cenne uprzedzenia architektoniczne. Te uprzedzenia działają jak kompas, kierując sieć na lepsze ścieżki uczenia się.

Implikacje tych badań nie kończą się jednak na poprawie wydajności. Sugerują one, że sukces sieci może być bardziej zależny od jej punktu początkowego w przestrzeni uczenia się niż od danych, na których jest trenowana. Dzięki połączeniu sieci z przewodnikiem, wpływ projektu architektonicznego można odizolować od wyuczonego doświadczenia. Wprowadzenie wskazówek zapewnia nową perspektywę oceny wkładu struktur sieciowych w efektywne uczenie się. Daje również naukowcom sposób na zrozumienie różnic między architekturami, pomagając udoskonalić teorie dotyczące optymalizacji sieci neuronowych i identyfikując, które komponenty mają wpływ na uczenie się.

Najważniejsze jest jednak to, że żadna sieć nie jest nie do naprawienia. Nawet te, które kiedyś zostały uznane za nieefektywne, mogą zostać dostosowane do nowoczesnych standardów dzięki odpowiednim wskazówkom. Obecnie zespół CSAIL bada, które elementy architektoniczne w największym stopniu przyczyniają się do tych ulepszeń, zamierzając wpłynąć na przyszłe projekty sieci neuronowych.

“Ogólnie przyjmuje się, że różne architektury sieci neuronowych mają określone mocne i słabe strony” - zauważyła Leyla Isik, adiunkt nauk kognitywnych na Uniwersytecie Johnsa Hopkinsa, która nie była zaangażowana w badanie. “To ekscytujące badanie pokazuje, że jeden typ sieci może odziedziczyć zalety innej architektury, nie tracąc przy tym swoich pierwotnych możliwości”.”

Badania, będące wspólnym wysiłkiem Subramaniama i jego współpracowników z MIT CSAIL, były wspierane przez takie organizacje jak Center for Brains, Minds, and Machines, National Science Foundation, MIT-IBM Watson AI Lab oraz U.S. Department of the Air Force Artificial Intelligence Accelerator. Ich przełomowe odkrycia zostały niedawno zaprezentowane na konferencji i warsztatach poświęconych neuronowym systemom przetwarzania informacji (NeurIPS).

Przeczytaj oryginalny artykuł z MIT News tutaj: https://news.mit.edu/2025/guided-learning-lets-untrainable-neural-networks-realize-their-potential-1218

Jaka jest twoja reakcja?

Podekscytowany
0
Szczęśliwy
0
Zakochany
0
Nie jestem pewien
0
Głupi
0

Komentarze są zamknięte.