Kategorien: BilderNachrichten

Wie man Robotern beibringt, große Umgebungen mit KI und klassischen Sichttechniken schnell zu kartieren

Bei einem Mineneinsturz ist die Zeit von entscheidender Bedeutung. Kritische Such- und Rettungseinsätze werden zu einer unglaublichen Herausforderung, da der Roboter, der durch den gefährlichen, teilweise eingestürzten Schacht navigiert, schnell seine Umgebung erfassen und seine Position bestimmen muss. Da er sich bei der Navigation nur auf seine Kameras an Bord verlassen kann, ist diese Aufgabe gelinde gesagt mühsam.

Even with the recent advancements in machine learning facilitating robots to perform such tasks using visual data, there still persist limitations. The current models can only process a limited number of images at once. Imagine a situation where the robot needs to review and analyze thousands of images in real-time – it’s at this juncture that these constraints become a significant roadblock.

Ein neuer Horizont für KI-gestütztes Mapping

Die Forscher des MIT haben ein KI-gestütztes System entwickelt, das die Stärken des modernen Deep Learning und traditioneller Computer-Vision-Techniken vereint. Diese Methode kann eine unendliche Anzahl von Bildern verarbeiten und schnell komplizierte 3D-Karten von komplexen Umgebungen wie einem überfüllten Büroflur erstellen.

Instead of digesting a gigantic scene in one fell swoop, the system divides the environment into smaller subsections or “submaps”. They are subsequently aligned and merged to create a complete 3D blueprint – all the while monitoring the robot’s position in real-time. The beauty of this method lies in its simplicity, speed and scalability, making it apt for applications ranging from search-and-rescue missions to industrial logistics, and extended reality experiences.

The essence of this breakthrough rests in redefining a potent robotics conundrum – simultaneous localization and mapping (SLAM). Traditionally, SLAM algorithms grapple with visually intense environments or rely heavily on pre-calibrated hardware. Machine learning models offer a solution but are restricted by the quantum of data they can deal with simultaneously, usually around 60 images.

Eine revolutionäre Mischung aus Alt und Neu

Das bahnbrechende System des MIT löst dieses Hindernis, indem es sich auf kleinere Fragmente der Umgebung konzentriert. Obwohl jede Teilkarte mit nur wenigen Schnappschüssen erstellt wird, werden sie schnell zu einer übergreifenden, zusammenhängenden Karte zusammengesetzt, was den Prozess beschleunigt und es dem Roboter ermöglicht, ein größeres und abwechslungsreicheres Terrain zu bewältigen.

At the outset, aligning the submaps seemed like a straightforward solution but soon it was discovered that machine-learning models’ flaws can cause the submaps to be slightly distorted. Traditional alignment methods using rotation and translation failed to deliver as the submaps themselves were disformed. So, the team revisited decades old computer vision research, fusing those insights with modern AI.

Das Ergebnis war ein flexibleres mathematisches Gerüst, das auch Verzerrungen von Teilkarten berücksichtigt. Dies ermöglichte es dem System, selbst verzerrte Submaps genau auszurichten und einen zuverlässigen 3D-Prototyp sowie präzise Schätzungen der Kamerapositionen zu erstellen, die für die Roboternavigation entscheidend sind. Beeindruckende Testergebnisse zeigten, dass das System bestehende Methoden sowohl in Bezug auf Geschwindigkeit als auch auf Präzision übertrifft und in der Lage ist, komplizierte Umgebungen mit nur kurzen Smartphone-Videos zu rekonstruieren, und zwar mit einer Fehlerspanne von weniger als fünf Zentimetern.

Die Zukunft der robotergestützten Kartierung gestalten

For the future, the team envisages refining their method for even more multifaceted environments and incorporating it into real robots operating in the field. Their work ultimately showcases the merit of combining elementary knowledge with avant-garde AI to tackle real-world challenges. As MIT Associate Professor Luca Carlone aptly puts, “Knowing about traditional geometry pays off. If you understand deeply what’s going on in the model, you can get much better results and make things much more scalable.”

Diese faszinierende Forschung, die von der U.S. National Science Foundation, dem Office of Naval Research und der National Research Foundation of Korea unterstützt wird, soll auf der Conference on Neural Information Processing Systems vorgestellt werden. Wenn Sie an weiteren Einzelheiten interessiert sind, können Sie den Originalartikel lesen hier.

Max Krawiec

Teilen Sie
Herausgegeben von
Max Krawiec

Diese Website verwendet Cookies.