Jeśli chodzi o duże modele językowe (LLM), ich imponująca moc odpowiadania na szereg pytań ma tendencję do słabnięcia, gdy pojawia się złożoność. W przypadku tych szczególnie zawiłych kwestii, LLM często muszą poświęcić więcej czasu i wysiłku obliczeniowego, aby opracować właściwe rozwiązania. Scenariusz ten daje jasny obraz sytuacji: nie każdy problem jest sobie równy, a zatem uniwersalne podejście może być niewłaściwym wykorzystaniem zasobów.
Tradycyjna metoda polegała na przydzielaniu takiej samej ilości zasobów do każdego problemu, bez względu na to, jak łatwy lub wymagający się on okazał. Strategia ta mogła jednak prowadzić do wyczerpania możliwości obliczeniowych w przypadku prostych łamigłówek, pozostawiając skomplikowane kwestie bez wystarczającego wysiłku, aby uzyskać rozwiązanie.
Aby zaradzić tej nierównowadze, naukowcy z Massachusetts Institute of Technology (MIT) opracowali przełomową metodę. Ich strategia umożliwia LLM dynamiczne dostosowywanie przydziału obliczeniowego w oparciu o złożoność pytania i nadzieję rozpaloną przez każde częściowe rozwiązanie. Koncepcja ta znana jest jako Skalowanie adaptacyjne do instancji, gdzie model jest w stanie określić w czasie rzeczywistym, ile wysiłku obliczeniowego musi poświęcić, aby poradzić sobie z problemem.
Zespół badawczy stojący za tym adaptacyjnym podejściem odkrył, że te inteligentniejsze modele mogą działać przy użyciu nawet o połowę mniejszej mocy obliczeniowej niż wcześniej i nadal utrzymywać imponujący poziom dokładności. Co ciekawe, podejście to pozwoliło mniejszym modelom konkurować z większymi, a nawet przewyższać je w złożonych zadaniach rozumowania.
Starszy autor badania, Navid Azizan, zauważył, że może to zmienić zasady gry dla dostawców modeli granicznych, ponieważ koszt obliczeniowy wnioskowania stał się głównym wąskim gardłem. Było to rozwiązanie, które pozwoliło modelom skupić swoją uwagę obliczeniową na najtrudniejszych problemach, przy jednoczesnym wykorzystaniu mniejszej liczby tokenów do rozwiązywania łatwiejszych zadań.
To innowacyjne rozmieszczenie zasobów wykraczało nawet poza rozwiązywanie problemów. Rozgałęziła się w technikę znaną jako skalowanie czasu wnioskowania, gdzie modele mogą badać kilka ścieżek rozumowania w tym samym czasie, a następnie wskazywać najlepsze z nich. Oddzielny element znany jako model nagradzania procesów (PRM) oceniłby te ścieżki, aby poprowadzić model w kierunku najbardziej obiecującego rozwiązania.
This entire process emulates how humans, themselves, solve problems. We develop partial solutions and then measure their potential, deciding whether to continue, revise, or backtrack. By using the PRM to estimate the difficulty of a question and measure each partial answer’s potential, the model can customize its computational effort.
This groundbreaking approach is not without its roadblocks. The research team did grapple with existing PRM’s tendency to overestimate, often resulting in the cutting of computation prematurely, shares Young-Jin Park, the lead author of the study. The IT whizzes addressed this issue by improving calibration to provide a broader range of probability scores.
Patrząc w przyszłość, zespół zastanawia się, w jaki sposób technika ta może zostać przekształcona, aby pasowała do innych dziedzin, takich jak generowanie kodu i agentów sztucznej inteligencji. Ostatecznie, jak podkreśla Akash Srivastava, dyrektor Core AI w IBM Software, celem jest stworzenie agentów AI, którzy rozumieją, gdzie brakuje im wiedzy i mogą z czasem doskonalić się w tych obszarach.
Jak zawsze, gdy posuwamy się naprzód w dziedzinie sztucznej inteligencji, każdy mały krok przybliża nas do przyszłości, w której technologia może po prostu nas prześcignąć.
Więcej informacji na temat tego fascynującego badania Sprawdź oryginalny artykuł MIT.
This website uses cookies.