Kategorien: AutomatisierungNachrichten

Wie skalierende Gesetze den KI-Forschern helfen, LLMs effizienter zu trainieren

Creating advanced large language models (LLMs) comes with a hefty price tag, which is often why developers lean on scaling laws to assess the potential performance of bigger models based on smaller, more affordable ones. Scaling laws enable developers to experience the potential results without the significant investment. These mathematical frameworks model a relationship between a model’s loss – or its measure of error – and the parameters and tokens used during training.

Forscher des MIT und des MIT-IBM Watson AI Lab haben kürzlich einen großen Schritt gemacht, um diese Skalierungsgesetze zuverlässiger zu machen. Sie haben einen umfangreichen Datensatz mit Leistungsstatistiken aus einer Vielzahl von Modellen zusammengestellt. Ihre umfassende Meta-Analyse soll Entwicklern dabei helfen, die besten kleinen Modelle auszuwählen, um die Leistung größerer Modelle auf der Grundlage einer umfangreichen Statistiksammlung zu prognostizieren. Jacob Andreas vom MIT, Leshem Choshen und Yang Zhang von IBM Research stellten diese innovative Arbeit auf der International Conference on Machine Learning vor.

Eine neue Grenze in der KI-Forschung

The researchers collected data from 485 pre-formed models across 40 different model families, one of them being well-known models like GPT and T5-Pile. They gleaned detailed information regarding each model’s functioning, design, computational costs, and overall performance. This produced over 1.9 million performance metrics. Crucial findings included learning that scaling laws can be remarkably precise, and insightful guidelines were provided for more reliable predictions and better decision-making.

The study also revealed some surprising insights, such as the fact that small, partially trained models can still predict a larger model’s behavior. This discovery has challenged the assumption that smaller models differ significantly from larger models, opening up new possibilities. Now, scaling laws can work bi-directionally – it is possible to forecast small model behavior based on large models. The research team is already eyeing the next milestone – inference, which involves exploring how models scale with increased computational effort at runtime.

Leistungsstarke Sprachmodelle besser zugänglich machen

Diese bahnbrechende Forschungsarbeit, die vom MIT-IBM Watson AI Lab und einem Sloan-Forschungsstipendium unterstützt wird, markiert einen dramatischen Wandel in der Art und Weise, wie KI-Forscher intelligenter trainieren können. Durch die Dekonstruktion und Entmystifizierung der Skalierungsgesetze hat das Team eine Roadmap erstellt, die es Entwicklern und Institutionen ermöglichen wird, auf leistungsfähige Sprachmodelle auf einfachere Weise zuzugreifen. Dies bedeutet einen monumentalen Fortschritt in der KI-Forschung und leitet eine neue Ära der Effizienz und Zugänglichkeit ein.

Weitere Einzelheiten können Sie im Originalartikel nachlesen hier.

Max Krawiec

Weiter Meta's New AI-Focused Super PAC Raises Eyebrows Ahead of Midterms »

Vorherige « Streamlining Success: AI Sales Manager for the 3D Printing Industry

Teilen Sie

Herausgegeben von

Max Krawiec

5 Monaten ago

Wie 3D-Druckunternehmen durch die Automatisierung von Inhalten an Sichtbarkeit gewinnen können.

Diese Website verwendet Cookies.

Wie skalierende Gesetze den KI-Forschern helfen, LLMs effizienter zu trainieren

Eine neue Grenze in der KI-Forschung

Leistungsstarke Sprachmodelle besser zugänglich machen

Verwandter Beitrag

Neueste Beiträge

Enhancing the Efficiency of Reasoning Large Language Models

Trump’s Plan to Curb Rising Electricity Costs: A Pledge from Tech Giants

Google’s Gemini: A Leap Forward in Mobile AI

Blending AI with Physics: Bringing Creative Designs to Life

Streamline Your Client Acquisition: AI for Accounting Firm Social Media Leads

Google’s Gemini AI: Revolutionizing Task Automation on Your Smartphone