Uczenie robotów szybkiego mapowania dużych środowisk za pomocą sztucznej inteligencji i klasycznych technik wizyjnych
W przypadku zawalenia się kopalni czas jest najważniejszy. Krytyczne misje poszukiwawczo-ratownicze stają się niezwykle trudne, ponieważ robot poruszający się po niebezpiecznym, częściowo zawalonym szybie musi szybko mapować otoczenie i ustalać swoją pozycję. Polegając jedynie na kamerach pokładowych, zadanie to staje się co najmniej żmudne.
Nawet przy ostatnich postępach w uczeniu maszynowym, które ułatwiają robotom wykonywanie takich zadań przy użyciu danych wizualnych, nadal istnieją ograniczenia. Obecne modele mogą przetwarzać tylko ograniczoną liczbę obrazów jednocześnie. Wyobraźmy sobie sytuację, w której robot musi przeglądać i analizować tysiące obrazów w czasie rzeczywistym - w tym momencie ograniczenia te stają się istotną przeszkodą.
Nowy horyzont w mapowaniu opartym na sztucznej inteligencji
Do akcji wkroczyli naukowcy z MIT, którzy opracowali system oparty na sztucznej inteligencji, łączący w sobie mocne strony zarówno współczesnego głębokiego uczenia się, jak i tradycyjnych technik widzenia komputerowego. Metoda ta może przetwarzać nieskończoną liczbę obrazów i szybko generować skomplikowane mapy 3D złożonych środowisk, takich jak zatłoczony korytarz biurowy.
Zamiast przetrawiać gigantyczną scenę za jednym zamachem, system dzieli środowisko na mniejsze podsekcje lub "podmapy". Są one następnie wyrównywane i łączone w celu stworzenia kompletnego planu 3D - cały czas monitorując pozycję robota w czasie rzeczywistym. Piękno tej metody polega na jej prostocie, szybkości i skalowalności, dzięki czemu nadaje się ona do zastosowań obejmujących misje poszukiwawczo-ratownicze, logistykę przemysłową i rozszerzoną rzeczywistość.
Istota tego przełomu polega na przedefiniowaniu potężnej zagadki robotyki - jednoczesnej lokalizacji i mapowania (SLAM). Tradycyjnie algorytmy SLAM zmagają się z intensywnymi wizualnie środowiskami lub w dużym stopniu polegają na wstępnie skalibrowanym sprzęcie. Modele uczenia maszynowego oferują rozwiązanie, ale są ograniczone ilością danych, z którymi mogą sobie poradzić jednocześnie, zwykle około 60 obrazów.
Rewolucyjne połączenie starego i nowego
Przełomowy system MIT rozwiązuje tę przeszkodę, koncentrując się na mniejszych fragmentach środowiska. Mimo że każda podmapa jest tworzona przy użyciu zaledwie kilku migawek, są one szybko łączone w nadrzędną, spójną mapę; przyspieszając proces i umożliwiając robotowi radzenie sobie z bardziej rozległym i zróżnicowanym terenem.
Na początku wyrównanie podmap wydawało się prostym rozwiązaniem, ale wkrótce odkryto, że wady modeli uczenia maszynowego mogą powodować nieznaczne zniekształcenie podmap. Tradycyjne metody wyrównywania przy użyciu rotacji i translacji nie przyniosły rezultatów, ponieważ same podmapy były zniekształcone. Zespół powrócił więc do wieloletnich badań nad wizją komputerową, łącząc te spostrzeżenia z nowoczesną sztuczną inteligencją.
Rezultatem była bardziej elastyczna struktura matematyczna, która uwzględniała zniekształcenia submap. Umożliwiło to systemowi dokładne wyrównanie nawet zniekształconych submap, tworząc niezawodny prototyp 3D i precyzyjne szacunki pozycji kamery o krytycznym znaczeniu dla nawigacji robotycznej. Imponujące wyniki testów wykazały, że system przewyższa istniejące metody zarówno pod względem szybkości, jak i precyzji, będąc w stanie zrekonstruować skomplikowane środowiska przy użyciu tylko krótkich filmów wideo ze smartfona, z marginesem błędu mniejszym niż pięć centymetrów.
Kształtowanie przyszłości mapowania zrobotyzowanego
W przyszłości zespół przewiduje udoskonalenie swojej metody dla jeszcze bardziej zróżnicowanych środowisk i włączenie jej do prawdziwych robotów działających w terenie. Ich praca ostatecznie pokazuje zalety łączenia podstawowej wiedzy z awangardową sztuczną inteligencją w celu sprostania rzeczywistym wyzwaniom. Jak trafnie ujął to profesor nadzwyczajny MIT Luca Carlone: "Znajomość tradycyjnej geometrii się opłaca. Jeśli dogłębnie zrozumiesz, co dzieje się w modelu, możesz uzyskać znacznie lepsze wyniki i uczynić rzeczy znacznie bardziej skalowalnymi".
Te intrygujące badania, wspierane przez Narodową Fundację Nauki Stanów Zjednoczonych, Biuro Badań Marynarki Wojennej i Narodową Fundację Badań Korei, zostaną zaprezentowane na konferencji poświęconej systemom przetwarzania informacji neuronowych. Osoby zainteresowane szczegółami mogą zapoznać się z oryginalnym artykułem tutaj.