Kategorien: BilderNachrichten

Lehren aus einem schief gelaufenen Computer-Vision-Projekt in der realen Welt

Zu Beginn unseres Computer-Vision-Projekts konnte man die Aufregung im Raum spüren. Wir waren zuversichtlich, voller Energie und bereit, eine coole Idee in etwas Reales zu verwandeln. Mit einem frischen Datensatz in der Hand und einem eifrigen Team stürzten wir uns sofort in die Arbeit - und fanden bald heraus, wie unvorhersehbar diese Reise sein kann.

Wir verfolgten die klassische Strategie: Daten sammeln, sie in ein neuronales Faltungsnetzwerk einspeisen und dann die Ergebnisse iterieren. Auf dem Papier funktionierten unsere ersten Modelle hervorragend. Aber wenn man sie in der realen Welt einsetzt, sieht die Sache anders aus. Plötzlich brachten scheinbar unbedeutende Dinge - wie eine Veränderung der Beleuchtung, Ablenkungen im Hintergrund oder eine leichte Änderung des Blickwinkels - das System aus dem Konzept.

Was uns wirklich überraschte, war, wie oft das Modell darauf bestand, etwas zu erkennen, was gar nicht da war. Es erkannte einen Stuhl an einer schlichten Wand oder stellte sich vor, dass jemand durch einen leeren Flur ging. Diese Fehlalarme waren nicht nur ein Ärgernis. In Bereichen wie dem Sicherheitsbereich konnten sie echte Probleme verursachen.

Wenn wir uns unsere Trainingsdaten ansehen, wird der Grund klar: Alles war ein wenig zu perfekt. Die Szenen waren aufgeräumt, die Beleuchtung war genau richtig, und nichts hat das System je überrascht. Uns wurde klar, dass unser Datensatz dringend mehr Abwechslung brauchte. Also machten wir uns wieder auf den Weg und nahmen Bilder unter allen möglichen Bedingungen auf - schummriges Licht, seltsame Winkel, unübersichtliche Räume, was auch immer. Wir führten auch eine aggressive Datenerweiterung ein, damit das Modell noch mehr “Unvollkommenheiten” erkennen konnte.”

Doch wir waren noch nicht fertig. Es gab noch eine weitere Herausforderung: Unsere besten Modelle konnten nicht reibungslos auf den von uns benötigten Edge-Geräten ausgeführt werden. Sie erforderten zu viel Rechenleistung. Wir nahmen dieses Problem in Angriff, indem wir Tricks zur Modellkomprimierung anwandten - Quantisierung, Pruning, alles, was die Toolbox hergibt - und entschieden uns schließlich für ein Hybridsystem. Das leichtgewichtige Modell erledigte die schnelle Arbeit auf dem Gerät, während größere, schwierigere Aufgaben in die Cloud verlagert wurden.

Schritt für Schritt, bei jeder frustrierenden Hürde, war die Antwort nie ein magisches Werkzeug oder eine einzige Lösung. Die Lösung war immer eine Mischung: realistischere Daten, intelligentere Modelloptimierungen und flexible Bereitstellung. Sobald diese Teile zusammenpassten, ergaben sich verlässliche Ergebnisse - und sie blieben bestehen. Die Lektion? Es gibt keine Abkürzungen. Man braucht diese Flexibilität und die Bereitschaft, immer wieder zu iterieren, denn jedes Bildverarbeitungsprojekt stößt auf Schwierigkeiten, die in der Dokumentation nicht erwähnt werden.

Es gibt nichts zu beschönigen - um von der Hoffnung zur Zufriedenheit zu gelangen, waren viele Rückschläge nötig. Aber wenn Sie sich in die reale Welt der Computer Vision wagen, müssen Sie mit Überraschungen rechnen. Das sind nicht nur Rückschläge, sondern die besten Lernmöglichkeiten, die Sie bekommen können. Möchten Sie sehen, wohin uns die Reise als Nächstes führte? Lesen Sie hier mehr.

Max Krawiec

Teilen Sie
Herausgegeben von
Max Krawiec

Diese Website verwendet Cookies.