Wie man Robotern beibringt, große Umgebungen mit KI und klassischen Sichttechniken schnell zu kartieren
Bei einem Mineneinsturz ist die Zeit von entscheidender Bedeutung. Kritische Such- und Rettungseinsätze werden zu einer unglaublichen Herausforderung, da der Roboter, der durch den gefährlichen, teilweise eingestürzten Schacht navigiert, schnell seine Umgebung erfassen und seine Position bestimmen muss. Da er sich bei der Navigation nur auf seine Kameras an Bord verlassen kann, ist diese Aufgabe gelinde gesagt mühsam.
Trotz der jüngsten Fortschritte im Bereich des maschinellen Lernens, die es Robotern ermöglichen, solche Aufgaben unter Verwendung visueller Daten auszuführen, gibt es noch immer Einschränkungen. Die aktuellen Modelle können nur eine begrenzte Anzahl von Bildern auf einmal verarbeiten. Stellen Sie sich eine Situation vor, in der der Roboter Tausende von Bildern in Echtzeit prüfen und analysieren muss - an diesem Punkt werden diese Einschränkungen zu einem erheblichen Hindernis.
Ein neuer Horizont für KI-gestütztes Mapping
Die Forscher des MIT haben ein KI-gestütztes System entwickelt, das die Stärken des modernen Deep Learning und traditioneller Computer-Vision-Techniken vereint. Diese Methode kann eine unendliche Anzahl von Bildern verarbeiten und schnell komplizierte 3D-Karten von komplexen Umgebungen wie einem überfüllten Büroflur erstellen.
Anstatt eine gigantische Szene auf einen Schlag zu verdauen, unterteilt das System die Umgebung in kleinere Unterabschnitte oder “Submaps”. Diese werden anschließend ausgerichtet und zusammengeführt, um einen vollständigen 3D-Entwurf zu erstellen - und das alles, während die Position des Roboters in Echtzeit überwacht wird. Die Schönheit dieser Methode liegt in ihrer Einfachheit, Schnelligkeit und Skalierbarkeit, wodurch sie sich für Anwendungen eignet, die von Such- und Rettungseinsätzen über Industrielogistik bis hin zu erweiterten Realitätserfahrungen reichen.
Der Kern dieses Durchbruchs liegt in der Neudefinition eines starken Robotikproblems - der gleichzeitigen Lokalisierung und Kartierung (SLAM). Traditionell haben SLAM-Algorithmen mit visuell intensiven Umgebungen zu kämpfen oder sind stark von vorkalibrierter Hardware abhängig. Modelle des maschinellen Lernens bieten eine Lösung, sind aber durch die Datenmenge beschränkt, die sie gleichzeitig verarbeiten können, normalerweise etwa 60 Bilder.
Eine revolutionäre Mischung aus Alt und Neu
Das bahnbrechende System des MIT löst dieses Hindernis, indem es sich auf kleinere Fragmente der Umgebung konzentriert. Obwohl jede Teilkarte mit nur wenigen Schnappschüssen erstellt wird, werden sie schnell zu einer übergreifenden, zusammenhängenden Karte zusammengesetzt, was den Prozess beschleunigt und es dem Roboter ermöglicht, ein größeres und abwechslungsreicheres Terrain zu bewältigen.
Anfangs schien das Ausrichten der Submaps eine einfache Lösung zu sein, doch schon bald stellte sich heraus, dass die Fehler der Modelle des maschinellen Lernens dazu führen können, dass die Submaps leicht verzerrt sind. Herkömmliche Ausrichtungsmethoden mit Rotation und Translation waren nicht erfolgreich, da die Submaps selbst verzerrt waren. Also griff das Team auf jahrzehntealte Forschungen im Bereich des maschinellen Sehens zurück und verband diese Erkenntnisse mit moderner KI.
Das Ergebnis war ein flexibleres mathematisches Gerüst, das auch Verzerrungen von Teilkarten berücksichtigt. Dies ermöglichte es dem System, selbst verzerrte Submaps genau auszurichten und einen zuverlässigen 3D-Prototyp sowie präzise Schätzungen der Kamerapositionen zu erstellen, die für die Roboternavigation entscheidend sind. Beeindruckende Testergebnisse zeigten, dass das System bestehende Methoden sowohl in Bezug auf Geschwindigkeit als auch auf Präzision übertrifft und in der Lage ist, komplizierte Umgebungen mit nur kurzen Smartphone-Videos zu rekonstruieren, und zwar mit einer Fehlerspanne von weniger als fünf Zentimetern.
Die Zukunft der robotergestützten Kartierung gestalten
Für die Zukunft plant das Team, seine Methode für noch vielfältigere Umgebungen zu verfeinern und sie in reale Roboter einzubauen, die in der Praxis eingesetzt werden. Ihre Arbeit zeigt, dass es sich lohnt, elementares Wissen mit avantgardistischer KI zu kombinieren, um reale Herausforderungen zu bewältigen. Wie MIT-Assistenzprofessor Luca Carlone treffend formuliert: “Das Wissen über traditionelle Geometrie zahlt sich aus. Wenn man genau versteht, was im Modell vor sich geht, kann man viel bessere Ergebnisse erzielen und die Dinge viel besser skalierbar machen.”
Diese faszinierende Forschung, die von der U.S. National Science Foundation, dem Office of Naval Research und der National Research Foundation of Korea unterstützt wird, soll auf der Conference on Neural Information Processing Systems vorgestellt werden. Wenn Sie an weiteren Einzelheiten interessiert sind, können Sie den Originalartikel lesen hier.