In today’s fast-paced, tech-driven world, artificial intelligence (AI) has become a silent yet efficient assistant aiding many professionals. From a scientist brainstorming a ground-breaking research idea to a CEO looking to optimize human resources and finance, AI, specifically AI agents, are the tools they never knew they needed. Operating as semi-autonomous software systems, these AI agents are increasingly used to leverage large language models (LLMs) to solve issues and rapidly complete tasks.
LLM odgrywają jeszcze większą rolę w połączeniu z agentami AI ze względu na ich zdolność adaptacji i wydajność. Jednym z ich powszechnie uznanych zastosowań jest automatyzacja tłumaczenia przestarzałych baz kodu na współczesne języki programowania. Na przykład, firma programistyczna może wykorzystać LLM do tłumaczenia jednego pliku programistycznego na raz, a następnie przetestować każdy z nich. Proces ten może być jednak pracochłonny i czasochłonny, gdy LLM popełnia błędy, które muszą zostać ręcznie naprawione.
Ta zagadka doprowadziła do opracowania EnCompass przez naukowców z MIT's Computer Science and AI Laboratory (CSAIL) i Asari AI. EnCompass to najnowocześniejszy framework, który umożliwia agentom AI automatyczne cofanie się i ponawianie prób, gdy LLM napotkają błędy. Dodatkowo, eliminuje on długie kody obsługi błędów wymagane przez programistów.
Encompass stands out with its ability to clone the program’s runtime. This allows for simultaneous execution of multiple solution attempts. In other words, it explores multiple possible outcomes, not just one path, to find the most optimal resolution. With EnCompass, developers can earmark particular operations, such as LLM calls, where results can vary. These checkpoints, known as ‘branchpoints’, permit the program to explore multiple scenarios like in a choose-your-own-adventure story, finding the best possible conclusion.
Dodatkowo użytkownicy mogą wybrać lub zdefiniować strategię nawigacji po tych gałęziach. EnCompass obsługuje wiele gotowych strategii wyszukiwania, takich jak wyszukiwanie drzewa Monte Carlo i wyszukiwanie wiązki. Alternatywnie, użytkownicy mogą aktualizować niestandardowe strategie specjalnie dostosowane do ich zadań.
Korzyści z zastosowania EnCompass są ogromne. W teście, w którym EnCompass był używany przez agenta AI do tłumaczenia repozytoriów kodu Java na Python, ilość kodu wymaganego do implementacji wyszukiwania została zmniejszona o 82%. Zaoszczędziło to 348 linii kodu. Co więcej, dokładność została poprawiona o 15-40% w pięciu różnych repozytoriach, gdy zastosowano dwupoziomową strategię wyszukiwania wiązki.
“With EnCompass, we’ve detached the search strategy from AI agent’s underlying workflow. This allows programmers to experiment freely with different search strategies to discover the most effective one,” said MIT EECS PhD student and CSAIL researcher, Zhening Li ’25, MEng ’25.
Encompass wykazał obiecujące wyniki w przypadku agentów zaimplementowanych w Pythonie, które wywołują LLM. Potrafi zarządzać obszernymi bibliotekami kodu, projektować eksperymenty naukowe, a nawet tworzyć złożone plany sprzętowe, takie jak rakiety. Jednak obecny sukces EnCompass ma większe zastosowanie do agentów, którzy podążają za określonym programistycznym przepływem pracy i działa mniej efektywnie z agentami całkowicie zarządzanymi przez LLM.
W nadchodzących latach zespół EnCompass planuje rozszerzyć swoją funkcjonalność na bardziej uniwersalne ramy wyszukiwania. Zamierzają przetestować system na bardzo złożonych zadaniach i zbadać jego potencjał we współpracy między agentami AI i ludźmi, takimi jak wspólne projektowanie sprzętu lub tłumaczenie obszernych baz kodów.
EnCompass wyznacza zatem kluczowy moment w rozwoju agentów AI i technik opartych na wyszukiwaniu, które rewolucjonizują procesy tworzenia oprogramowania. Precyzyjnie odróżniając logikę agenta od jego strategii wyszukiwania, EnCompass stanowi solidną podstawę do konstruowania systematycznych, niezawodnych i wydajnych systemów sztucznej inteligencji.
Bardziej szczegółowy opis można znaleźć w oryginalnym artykule na stronie MIT News.
This website uses cookies.