Categories: Automatyzacja

Inteligentniejszy sposób dla dużych modeli językowych do rozwiązywania złożonych problemów

Jeśli chodzi o duże modele językowe (LLM), ich imponująca moc odpowiadania na szereg pytań ma tendencję do słabnięcia, gdy pojawia się złożoność. W przypadku tych szczególnie zawiłych kwestii, LLM często muszą poświęcić więcej czasu i wysiłku obliczeniowego, aby opracować właściwe rozwiązania. Scenariusz ten daje jasny obraz sytuacji: nie każdy problem jest sobie równy, a zatem uniwersalne podejście może być niewłaściwym wykorzystaniem zasobów.

Tradycyjna metoda polegała na przydzielaniu takiej samej ilości zasobów do każdego problemu, bez względu na to, jak łatwy lub wymagający się on okazał. Strategia ta mogła jednak prowadzić do wyczerpania możliwości obliczeniowych w przypadku prostych łamigłówek, pozostawiając skomplikowane kwestie bez wystarczającego wysiłku, aby uzyskać rozwiązanie.

Inteligentniejsze podejście do rozwiązywania problemów

Aby zaradzić tej nierównowadze, naukowcy z Massachusetts Institute of Technology (MIT) opracowali przełomową metodę. Ich strategia umożliwia LLM dynamiczne dostosowywanie przydziału obliczeniowego w oparciu o złożoność pytania i nadzieję rozpaloną przez każde częściowe rozwiązanie. Koncepcja ta znana jest jako Skalowanie adaptacyjne do instancji, gdzie model jest w stanie określić w czasie rzeczywistym, ile wysiłku obliczeniowego musi poświęcić, aby poradzić sobie z problemem.

Zespół badawczy stojący za tym adaptacyjnym podejściem odkrył, że te inteligentniejsze modele mogą działać przy użyciu nawet o połowę mniejszej mocy obliczeniowej niż wcześniej i nadal utrzymywać imponujący poziom dokładności. Co ciekawe, podejście to pozwoliło mniejszym modelom konkurować z większymi, a nawet przewyższać je w złożonych zadaniach rozumowania.

Skuteczne dostosowywanie wysiłku obliczeniowego

Starszy autor badania, Navid Azizan, zauważył, że może to zmienić zasady gry dla dostawców modeli granicznych, ponieważ koszt obliczeniowy wnioskowania stał się głównym wąskim gardłem. Było to rozwiązanie, które pozwoliło modelom skupić swoją uwagę obliczeniową na najtrudniejszych problemach, przy jednoczesnym wykorzystaniu mniejszej liczby tokenów do rozwiązywania łatwiejszych zadań.

To innowacyjne rozmieszczenie zasobów wykraczało nawet poza rozwiązywanie problemów. Rozgałęziła się w technikę znaną jako skalowanie czasu wnioskowania, gdzie modele mogą badać kilka ścieżek rozumowania w tym samym czasie, a następnie wskazywać najlepsze z nich. Oddzielny element znany jako model nagradzania procesów (PRM) oceniłby te ścieżki, aby poprowadzić model w kierunku najbardziej obiecującego rozwiązania.

This entire process emulates how humans, themselves, solve problems. We develop partial solutions and then measure their potential, deciding whether to continue, revise, or backtrack. By using the PRM to estimate the difficulty of a question and measure each partial answer’s potential, the model can customize its computational effort.

Przed nami podróż

This groundbreaking approach is not without its roadblocks. The research team did grapple with existing PRM’s tendency to overestimate, often resulting in the cutting of computation prematurely, shares Young-Jin Park, the lead author of the study. The IT whizzes addressed this issue by improving calibration to provide a broader range of probability scores.

Patrząc w przyszłość, zespół zastanawia się, w jaki sposób technika ta może zostać przekształcona, aby pasowała do innych dziedzin, takich jak generowanie kodu i agentów sztucznej inteligencji. Ostatecznie, jak podkreśla Akash Srivastava, dyrektor Core AI w IBM Software, celem jest stworzenie agentów AI, którzy rozumieją, gdzie brakuje im wiedzy i mogą z czasem doskonalić się w tych obszarach.

Jak zawsze, gdy posuwamy się naprzód w dziedzinie sztucznej inteligencji, każdy mały krok przybliża nas do przyszłości, w której technologia może po prostu nas prześcignąć.

Więcej informacji na temat tego fascynującego badania Sprawdź oryginalny artykuł MIT.

Max Krawiec

Next Scientists Use AlphaFold to Boost Photosynthesis and Build Heat-Resilient Crops »

Previous « Machine Intelligence: Understanding the Next Frontier in Auditory AI

Published by

Max Krawiec

3 miesiące ago

This website uses cookies.

Inteligentniejszy sposób dla dużych modeli językowych do rozwiązywania złożonych problemów

Inteligentniejsze podejście do rozwiązywania problemów

Skuteczne dostosowywanie wysiłku obliczeniowego

Przed nami podróż

Recent Posts

Nvidia’s DLSS 5: A Breakthrough or a Blunder in Visual Fidelity?

Streamline Your Inbox: AI Automatic Reply for Accounting Firms

The Future of Health & Bioscience: Embracing AI in Breast Cancer Screening

Nvidia’s DLSS 5: A Revolutionary Leap or a Step Too Far?

Tennessee Teens File Lawsuit Against Elon Musk’s xAI Over Grok AI Misuse

Innowacje w edukacji: Przekształcanie nauki za pomocą sztucznej inteligencji