Categories: Obrazy

Jak generatywna sztuczna inteligencja rewolucjonizuje szkolenie robotów dzięki realistycznym wirtualnym światom

Chatboty, takie jak ChatGPT i Claude, wplotły się w tkankę naszego cyfrowego życia dzięki swojej niesamowitej wszechstronności, zdolnej do wykonywania zadań od debugowania kodu po tworzenie poezji. Swoją finezję zawdzięczają ogromnej ilości danych tekstowych zebranych z Internetu, na których są szkolone. Jednak szkolenie robotów działających w środowisku fizycznym wymaga znacznie więcej niż tylko danych tekstowych. Te roboty rozwijają się w kontekście wizualnym i fizycznym, umożliwiając im płynną interakcję z otoczeniem - niezależnie od tego, czy chodzi o umieszczenie filiżanki kawy na stole, czy układanie naczyń bez powodowania stukotu. Nauczenie się tych operacji to nie lada wyczyn - wymaga demonstracji przypominających poradniki dla każdego zadania. Problem? Gromadzenie tych rzeczywistych demonstracji jest nie tylko pracochłonne, ale może być również niespójne i kosztowne.

W tym miejscu wkraczają przełomowe prace Laboratorium Nauk Komputerowych i Sztucznej Inteligencji MIT (CSAIL) oraz Toyota Research Institute. Badacze ci opracowali zmieniającą paradygmat metodę nazwaną Sterowane generowanie scen: a way to create virtual 3D environments—say, kitchens or restaurants—capable of simulating a multitude of robotic tasks. This method is built on a diffusion model, a subdomain of AI that starts with random noise and contours it gradually into a structured image. The model adheres to the laws of physics, producing believable scenes and objects. For instance, it ensures that a fork won’t eerily float through a soup bowl, adding a touch of realism.

The standout feature in this method is the integration of the Monte Carlo Tree Search (MCTS)—a strategy inspired by AI gaming systems like AlphaGo. MCTS provides a lens for the model to explore multiple potential ways of constructing a scene, opting for the most realistic or valuable version based on the goal at hand. Whether it’s maximizing the diversity of edibles stashed in a kitchen or something else—MCTS is up for the task. Nicholas Pfaff, a PhD student at MIT EECS spearheading the project, further explains by stating that this is the first time MCTS has been applied to scene generation where it is framed as a sequential decision-making process, allowing for the creation of complex scenes beyond the initial training set.

Another notable feature is the model’s learning approach. It employs reinforcement learning where it gets a “reward” for concocting scenes that address specific commandments. With time, the model learns to fabricate environments closely resembling the desired outcomes. Users can guide the system using bespoke visual prompts, like “create a kitchen setup with four apples and a bowl placed on the table.” The results are nothing short of impressive as this model outperforms its competitors in tasks by at least 10% margin. But that’s not all—the model can also modify existing scenes upon command. It can shuffle objects around or toss in new ones, all while maintaining the integrity of the environment. It’s like having your personal virtual set manager who comes with an understanding of aesthetics and physics.

The true mettle of this system is in its power to generate invaluable training data for roboticists. The virtual environments become a training course where robots learn tasks such as arranging cutlery or allocating food on plates. The lifelike simulations create an ideal sandbox for training robots for real-world tasks. Future iterations of this system aim to include interactive elements like cabinets or jars that can be recovered by robots, adding another layer of realism. Nicholas Pfaff also comments on the fact that pre-training scenes might deviate from actual ones. “Using our steering methods, we can move beyond that broad distribution and sample from a ‘better’ one.”

Patrząc dalej, zespół aspiruje do włączenia rzeczywistych obrazów do danych treningowych, wykorzystując technikę znaną jako Skalowalny Real2Sim. Pozwoliłoby to systemowi na konstruowanie środowisk bliższych tym, które roboty napotkają w rzeczywistości. Eksperci branżowi są dość optymistycznie nastawieni do tego rozwoju. Jeremy Binagia, naukowiec ds. zastosowań w Amazon Robotics, stwierdził, że sterowane generowanie scen zapewnia fizyczną wykonalność i pełne tłumaczenie 3D, a tym samym tworzenie znacznie bardziej wciągających scen. Badania te zostały wsparte przez Amazon i Toyota Research Institute i udostępnione na konferencji poświęconej uczeniu się robotów. Więcej szczegółów można znaleźć w artykule artykuł oryginalny na MIT News.

Max Krawiec

Share
Published by
Max Krawiec

This website uses cookies.