AutomatyzacjaAktualności

Jak prawa skalowania pomagają badaczom sztucznej inteligencji efektywniej trenować LLM?

Tworzenie zaawansowanych dużych modeli językowych (LLM) wiąże się z wysoką ceną, dlatego programiści często opierają się na prawach skalowania, aby ocenić potencjalną wydajność większych modeli na podstawie mniejszych, bardziej przystępnych cenowo. Prawa skalowania pozwalają deweloperom doświadczyć potencjalnych rezultatów bez znaczących inwestycji. Te ramy matematyczne modelują związek między stratą modelu - lub jego miarą błędu - a parametrami i tokenami używanymi podczas szkolenia.

Naukowcy z MIT i MIT-IBM Watson AI Lab poczynili ostatnio ogromny krok w kierunku uczynienia tych praw skalowania bardziej wiarygodnymi. Stworzyli oni obszerny zbiór danych składający się ze statystyk wydajności różnych modeli. Ich kompleksowa metaanaliza ma na celu pomóc programistom w wyborze najlepszych małych modeli do prognozowania wydajności większych modeli w oparciu o ogromny zbiór statystyk. Jacob Andreas z MIT, Leshem Choshen i Yang Zhang z IBM Research zaprezentowali tę innowacyjną pracę podczas International Conference on Machine Learning.

Nowa granica w badaniach nad sztuczną inteligencją

Naukowcy zebrali dane z 485 wstępnie uformowanych modeli z 40 różnych rodzin modeli, z których jedna to dobrze znane modele, takie jak GPT i T5-Pile. Zebrali szczegółowe informacje dotyczące funkcjonowania, projektu, kosztów obliczeniowych i ogólnej wydajności każdego modelu. W ten sposób uzyskano ponad 1,9 miliona wskaźników wydajności. Kluczowe odkrycia obejmowały naukę, że prawa skalowania mogą być niezwykle precyzyjne, a wnikliwe wytyczne zostały dostarczone w celu uzyskania bardziej wiarygodnych prognoz i lepszego podejmowania decyzji.

Badanie ujawniło również kilka zaskakujących spostrzeżeń, takich jak fakt, że małe, częściowo wytrenowane modele mogą nadal przewidywać zachowanie większego modelu. Odkrycie to podważyło założenie, że mniejsze modele znacznie różnią się od większych, otwierając nowe możliwości. Teraz prawa skalowania mogą działać dwukierunkowo - możliwe jest prognozowanie zachowania małych modeli na podstawie dużych modeli. Zespół badawczy ma już na oku kolejny kamień milowy - wnioskowanie, które obejmuje zbadanie, w jaki sposób modele skalują się wraz ze wzrostem wysiłku obliczeniowego w czasie wykonywania.

Zwiększanie dostępności zaawansowanych modeli językowych

Te przełomowe badania, wspierane przez MIT-IBM Watson AI Lab i Sloan Research Fellowship, oznaczają radykalną zmianę w sposobie, w jaki badacze sztucznej inteligencji mogą trenować bardziej inteligentnie. Poprzez dekonstrukcję i demistyfikację praw skalowania, zespół stworzył mapę drogową, która umożliwi programistom i instytucjom dostęp do potężnych modeli językowych w łatwiejszy do zarządzania sposób. Oznacza to ogromny postęp w badaniach nad sztuczną inteligencją, zapoczątkowując nową erę wydajności i dostępności.

Więcej szczegółów można znaleźć w oryginalnym artykule tutaj.

Jaka jest twoja reakcja?

Podekscytowany
0
Szczęśliwy
0
Zakochany
0
Nie jestem pewien
0
Głupi
0

Komentarze są zamknięte.