{"id":7308,"date":"2025-10-16T06:00:00","date_gmt":"2025-10-16T04:00:00","guid":{"rendered":"https:\/\/aitrendscenter.eu\/teaching-ai-to-recognize-your-pet-new-mit-method-trains-models-to-spot-personalized-objects\/"},"modified":"2025-10-16T06:00:00","modified_gmt":"2025-10-16T04:00:00","slug":"ki-lernt-ihr-haustier-zu-erkennen-neue-mit-methode-trainiert-modelle-um-personalisierte-objekte-zu-erkennen","status":"publish","type":"post","link":"https:\/\/aitrendscenter.eu\/de\/teaching-ai-to-recognize-your-pet-new-mit-method-trains-models-to-spot-personalized-objects\/","title":{"rendered":"Der KI beibringen, Ihr Haustier zu erkennen: Neue MIT-Methode trainiert Modelle, um personalisierte Objekte zu erkennen"},"content":{"rendered":"<p>Stellen Sie sich Folgendes vor: Ihre bezaubernde franz\u00f6sische Bulldogge Bowser ist im \u00f6rtlichen Hundepark. Im Gewirr der herumtollenden Hunde k\u00f6nnen Sie Bowser leicht erkennen. Aber was w\u00e4re, wenn Sie sich eine KI w\u00fcnschen w\u00fcrden, die dasselbe tut, w\u00e4hrend Sie sich im B\u00fcro verkriechen? An diesem Punkt werden die Dinge kompliziert.<\/p>\n<p>Unsere derzeitigen Vision-Language-Modelle (VLMs), wie das beliebte GPT-5, sind hervorragend in der Lage, allgemeine Objekte zu erkennen. So ist es zum Beispiel ein Kinderspiel, einen \u2018Hund\u2019 oder einen \u2018Baum\u2019 zu erkennen. Die Herausforderung entsteht jedoch, wenn diese Modelle ein spezifisches, personalisiertes Objekt erkennen sollen. Wenn man von einer KI erwartet, dass sie Bowser, den Frenchie, in einer Reihe franz\u00f6sischer Bulldoggen erkennt, w\u00fcrde sie wahrscheinlich straucheln. Dies ist ein Hindernis f\u00fcr jeden, der KI f\u00fcr Aufgaben wie die \u00dcberwachung von Haustieren, die Verfolgung von Objekten oder assistive Technologien einsetzen m\u00f6chte.<\/p>\n<h5>Das Streben nach Personalisierung<\/h5>\n<p>Um diese L\u00fccke zu schlie\u00dfen, haben Forscher des MIT und des MIT-IBM Watson AI Lab eine neue Trainingsmethode entwickelt, die es KI-Modellen erm\u00f6glicht, personalisierte Objekte in verschiedenen Szenen besser zu erkennen. Sie arbeiteten daran, VLMs mit speziell kuratierten Video-Tracking-Daten neu zu trainieren, die dasselbe Objekt \u00fcber eine Reihe von Bildern verfolgen. Diese Methode zwingt das Modell im Wesentlichen dazu, sich auf kontextbezogene Hinweise zu verlassen, anstatt auf gespeicherte Informationen. Das KI-Modell wird mit einer Handvoll Beispielbildern eines bestimmten Objekts gef\u00fcttert, z. B. einem Haustier oder einem Rucksack. Das \u00fcberarbeitete System ist dann wesentlich besser in der Lage, dieses Objekt in neuen Bildern zu erkennen, wobei die allgemeinen F\u00e4higkeiten des Modells erhalten bleiben.<\/p>\n<h5>Es zum Leben erwecken<\/h5>\n<p>Dieser Fortschritt k\u00f6nnte sich in verschiedenen Bereichen als bahnbrechend erweisen. Von KI-Systemen, die bestimmte Tiere f\u00fcr Umweltstudien aufsp\u00fcren, bis hin zu Hilfstechnologien, die sehbehinderten Nutzern helfen, pers\u00f6nliche Gegenst\u00e4nde in ihren H\u00e4usern zu finden - die M\u00f6glichkeiten sind vielf\u00e4ltig. Diese Technik k\u00f6nnte auch die Robotik und Augmented-Reality-Tools verst\u00e4rken, die eine schnelle und genaue Identifizierung bestimmter Objekte in einer sich entwickelnden Umgebung erfordern.<\/p>\n<p>Das Projekt wird von Jehanzeb Mirza geleitet, einem MIT-Postdoktoranden und Hauptautor der Forschungsarbeit. Neben Mirza hat auch ein Team von Forschern des MIT, des Weizmann Institute of Science und von IBM eine entscheidende Rolle bei dem Projekt gespielt. Ihre Ergebnisse werden auf der kommenden International Conference on Computer Vision vorgestellt.<\/p>\n<h5>Den menschlichen Geist nachahmen<\/h5>\n<p>Mirza zufolge besteht das ultimative Ziel f\u00fcr diese Modelle darin, \u201caus dem Kontext zu lernen, so wie es Menschen tun\u201d. Wenn ein KI-Modell dies erreichen kann, m\u00fcsste es nicht f\u00fcr jede neue Aufgabe neu trainiert werden, sondern k\u00f6nnte mit einigen Beispielen gef\u00fcttert werden und w\u00fcrde aus diesem Kontext ableiten, wie die Aufgabe auszuf\u00fchren ist. Dies w\u00e4re seiner Meinung nach eine un\u00fcbertroffene F\u00e4higkeit. Diese Vision ist jedoch nicht ohne eine Reihe von Herausforderungen. Die Forschungsgemeinschaft muss noch eine endg\u00fcltige Antwort auf die Frage finden, warum VLMs Schwierigkeiten haben, wo Menschen sie nicht haben. Das Problem k\u00f6nnte in der Integration der visuellen und sprachlichen Komponenten liegen, bei der einige visuelle Informationen verloren gehen, aber die Schlussfolgerung ist noch nicht eindeutig.<\/p>\n<p>Die Arbeit des Teams hat zu beeindruckenden Fortschritten gef\u00fchrt. Mit ihrem neu kuratierten Datensatz beobachteten sie eine durchschnittliche Verbesserung von 12% bei der personalisierten Objektlokalisierung. Bei Verwendung von Pseudonamen anstelle der tats\u00e4chlichen Objektnamen stieg die Leistung sogar um bis zu 21%. Je gr\u00f6\u00dfer das Modell ist, desto gr\u00f6\u00dfer ist auch der Leistungszuwachs. F\u00fcr die Zukunft plant das Team, die Unstimmigkeiten beim Lernen von VLMs und LLMs genauer zu untersuchen und neue Strategien zu erforschen, um die VLM-Leistung zu verbessern, ohne die Modelle st\u00e4ndig neu trainieren zu m\u00fcssen.<\/p>\n<p>Mirza und sein Team haben das enorme Potenzial f\u00fcr eine schnelle, instanzspezifische Einbindung in praktische Arbeitsabl\u00e4ufe erkannt und sind \u00fcberzeugt, dass ihr datenzentrierter Ansatz die weit verbreitete Integration von Modellen f\u00fcr die Grundlage der Bildsprache unterst\u00fctzen kann. Gemeinsam mit Mirza haben Wei Lin, Eli Schwartz, Hilde Kuehne, Raja Giryes, Rogerio Feris, Leonid Karlinsky, Assaf Arbelle und Shimon Ullman an dieser bahnbrechenden Arbeit gearbeitet, die vom MIT-IBM Watson AI Lab finanziert wurde.<\/p>\n<p>Weitere Einzelheiten finden Sie in dem Originalartikel <a href=\"https:\/\/news.mit.edu\/2025\/method-teaches-generative-ai-models-locate-personalized-objects-1016\" target=\"_blank\" rel=\"noopener\">hier<\/a>.<\/p>","protected":false},"excerpt":{"rendered":"<p>Ponder this for a second: your adorable French Bulldog, Bowser, is at the local dog park. Amidst the blur of canines capering about, your eyes easily distinguish Bowser. But what if you wished for an AI to do the same while you&#8217;re holed up in the office? It&#8217;s at this point things become complex. Our present vision-language models (VLMs), like the popular GPT-5, are excellent at singling out general objects. For instance, identifying a &#8216;dog&#8217; or a &#8216;tree&#8217; is a breeze. But, the challenge arises when these models are tasked with pinpointing a specific, personalized object. If you expect an [&hellip;]<\/p>\n","protected":false},"author":4,"featured_media":7309,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[47,3],"tags":[],"class_list":["post-7308","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-news","category-ai-video","post--single"],"_links":{"self":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts\/7308","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/comments?post=7308"}],"version-history":[{"count":0,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts\/7308\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/media\/7309"}],"wp:attachment":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/media?parent=7308"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/categories?post=7308"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/tags?post=7308"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}