Creating advanced large language models (LLMs) comes with a hefty price tag, which is often why developers lean on scaling laws to assess the potential performance of bigger models based on smaller, more affordable ones. Scaling laws enable developers to experience the potential results without the significant investment. These mathematical frameworks model a relationship between a model’s loss – or its measure of error – and the parameters and tokens used during training.
Forscher des MIT und des MIT-IBM Watson AI Lab haben kürzlich einen großen Schritt gemacht, um diese Skalierungsgesetze zuverlässiger zu machen. Sie haben einen umfangreichen Datensatz mit Leistungsstatistiken aus einer Vielzahl von Modellen zusammengestellt. Ihre umfassende Meta-Analyse soll Entwicklern dabei helfen, die besten kleinen Modelle auszuwählen, um die Leistung größerer Modelle auf der Grundlage einer umfangreichen Statistiksammlung zu prognostizieren. Jacob Andreas vom MIT, Leshem Choshen und Yang Zhang von IBM Research stellten diese innovative Arbeit auf der International Conference on Machine Learning vor.
The researchers collected data from 485 pre-formed models across 40 different model families, one of them being well-known models like GPT and T5-Pile. They gleaned detailed information regarding each model’s functioning, design, computational costs, and overall performance. This produced over 1.9 million performance metrics. Crucial findings included learning that scaling laws can be remarkably precise, and insightful guidelines were provided for more reliable predictions and better decision-making.
The study also revealed some surprising insights, such as the fact that small, partially trained models can still predict a larger model’s behavior. This discovery has challenged the assumption that smaller models differ significantly from larger models, opening up new possibilities. Now, scaling laws can work bi-directionally – it is possible to forecast small model behavior based on large models. The research team is already eyeing the next milestone – inference, which involves exploring how models scale with increased computational effort at runtime.
Diese bahnbrechende Forschungsarbeit, die vom MIT-IBM Watson AI Lab und einem Sloan-Forschungsstipendium unterstützt wird, markiert einen dramatischen Wandel in der Art und Weise, wie KI-Forscher intelligenter trainieren können. Durch die Dekonstruktion und Entmystifizierung der Skalierungsgesetze hat das Team eine Roadmap erstellt, die es Entwicklern und Institutionen ermöglichen wird, auf leistungsfähige Sprachmodelle auf einfachere Weise zuzugreifen. Dies bedeutet einen monumentalen Fortschritt in der KI-Forschung und leitet eine neue Ära der Effizienz und Zugänglichkeit ein.
Weitere Einzelheiten können Sie im Originalartikel nachlesen hier.
Diese Website verwendet Cookies.