Categories: ObrazyAktualności

Uczenie robotów szybkiego mapowania dużych środowisk za pomocą sztucznej inteligencji i klasycznych technik wizyjnych

W przypadku zawalenia się kopalni czas jest najważniejszy. Krytyczne misje poszukiwawczo-ratownicze stają się niezwykle trudne, ponieważ robot poruszający się po niebezpiecznym, częściowo zawalonym szybie musi szybko mapować otoczenie i ustalać swoją pozycję. Polegając jedynie na kamerach pokładowych, zadanie to staje się co najmniej żmudne.

Even with the recent advancements in machine learning facilitating robots to perform such tasks using visual data, there still persist limitations. The current models can only process a limited number of images at once. Imagine a situation where the robot needs to review and analyze thousands of images in real-time – it’s at this juncture that these constraints become a significant roadblock.

Nowy horyzont w mapowaniu opartym na sztucznej inteligencji

Do akcji wkroczyli naukowcy z MIT, którzy opracowali system oparty na sztucznej inteligencji, łączący w sobie mocne strony zarówno współczesnego głębokiego uczenia się, jak i tradycyjnych technik widzenia komputerowego. Metoda ta może przetwarzać nieskończoną liczbę obrazów i szybko generować skomplikowane mapy 3D złożonych środowisk, takich jak zatłoczony korytarz biurowy.

Instead of digesting a gigantic scene in one fell swoop, the system divides the environment into smaller subsections or “submaps”. They are subsequently aligned and merged to create a complete 3D blueprint – all the while monitoring the robot’s position in real-time. The beauty of this method lies in its simplicity, speed and scalability, making it apt for applications ranging from search-and-rescue missions to industrial logistics, and extended reality experiences.

The essence of this breakthrough rests in redefining a potent robotics conundrum – simultaneous localization and mapping (SLAM). Traditionally, SLAM algorithms grapple with visually intense environments or rely heavily on pre-calibrated hardware. Machine learning models offer a solution but are restricted by the quantum of data they can deal with simultaneously, usually around 60 images.

Rewolucyjne połączenie starego i nowego

Przełomowy system MIT rozwiązuje tę przeszkodę, koncentrując się na mniejszych fragmentach środowiska. Mimo że każda podmapa jest tworzona przy użyciu zaledwie kilku migawek, są one szybko łączone w nadrzędną, spójną mapę; przyspieszając proces i umożliwiając robotowi radzenie sobie z bardziej rozległym i zróżnicowanym terenem.

At the outset, aligning the submaps seemed like a straightforward solution but soon it was discovered that machine-learning models’ flaws can cause the submaps to be slightly distorted. Traditional alignment methods using rotation and translation failed to deliver as the submaps themselves were disformed. So, the team revisited decades old computer vision research, fusing those insights with modern AI.

Rezultatem była bardziej elastyczna struktura matematyczna, która uwzględniała zniekształcenia submap. Umożliwiło to systemowi dokładne wyrównanie nawet zniekształconych submap, tworząc niezawodny prototyp 3D i precyzyjne szacunki pozycji kamery o krytycznym znaczeniu dla nawigacji robotycznej. Imponujące wyniki testów wykazały, że system przewyższa istniejące metody zarówno pod względem szybkości, jak i precyzji, będąc w stanie zrekonstruować skomplikowane środowiska przy użyciu tylko krótkich filmów wideo ze smartfona, z marginesem błędu mniejszym niż pięć centymetrów.

Kształtowanie przyszłości mapowania zrobotyzowanego

For the future, the team envisages refining their method for even more multifaceted environments and incorporating it into real robots operating in the field. Their work ultimately showcases the merit of combining elementary knowledge with avant-garde AI to tackle real-world challenges. As MIT Associate Professor Luca Carlone aptly puts, “Knowing about traditional geometry pays off. If you understand deeply what’s going on in the model, you can get much better results and make things much more scalable.”

Te intrygujące badania, wspierane przez Narodową Fundację Nauki Stanów Zjednoczonych, Biuro Badań Marynarki Wojennej i Narodową Fundację Badań Korei, zostaną zaprezentowane na konferencji poświęconej systemom przetwarzania informacji neuronowych. Osoby zainteresowane szczegółami mogą zapoznać się z oryginalnym artykułem tutaj.

Max Krawiec

This website uses cookies.