Creating advanced large language models (LLMs) comes with a hefty price tag, which is often why developers lean on scaling laws to assess the potential performance of bigger models based on smaller, more affordable ones. Scaling laws enable developers to experience the potential results without the significant investment. These mathematical frameworks model a relationship between a model’s loss – or its measure of error – and the parameters and tokens used during training.
Naukowcy z MIT i MIT-IBM Watson AI Lab poczynili ostatnio ogromny krok w kierunku uczynienia tych praw skalowania bardziej wiarygodnymi. Stworzyli oni obszerny zbiór danych składający się ze statystyk wydajności różnych modeli. Ich kompleksowa metaanaliza ma na celu pomóc programistom w wyborze najlepszych małych modeli do prognozowania wydajności większych modeli w oparciu o ogromny zbiór statystyk. Jacob Andreas z MIT, Leshem Choshen i Yang Zhang z IBM Research zaprezentowali tę innowacyjną pracę podczas International Conference on Machine Learning.
The researchers collected data from 485 pre-formed models across 40 different model families, one of them being well-known models like GPT and T5-Pile. They gleaned detailed information regarding each model’s functioning, design, computational costs, and overall performance. This produced over 1.9 million performance metrics. Crucial findings included learning that scaling laws can be remarkably precise, and insightful guidelines were provided for more reliable predictions and better decision-making.
The study also revealed some surprising insights, such as the fact that small, partially trained models can still predict a larger model’s behavior. This discovery has challenged the assumption that smaller models differ significantly from larger models, opening up new possibilities. Now, scaling laws can work bi-directionally – it is possible to forecast small model behavior based on large models. The research team is already eyeing the next milestone – inference, which involves exploring how models scale with increased computational effort at runtime.
Te przełomowe badania, wspierane przez MIT-IBM Watson AI Lab i Sloan Research Fellowship, oznaczają radykalną zmianę w sposobie, w jaki badacze sztucznej inteligencji mogą trenować bardziej inteligentnie. Poprzez dekonstrukcję i demistyfikację praw skalowania, zespół stworzył mapę drogową, która umożliwi programistom i instytucjom dostęp do potężnych modeli językowych w łatwiejszy do zarządzania sposób. Oznacza to ogromny postęp w badaniach nad sztuczną inteligencją, zapoczątkowując nową erę wydajności i dostępności.
Więcej szczegółów można znaleźć w oryginalnym artykule tutaj.
This website uses cookies.