{"id":5655,"date":"2025-06-02T20:50:00","date_gmt":"2025-06-02T18:50:00","guid":{"rendered":"https:\/\/aitrends.center\/teaching-ai-to-sketch-like-humans-mit-and-stanfords-new-collaborative-drawing-tool\/"},"modified":"2025-06-02T20:50:00","modified_gmt":"2025-06-02T18:50:00","slug":"mit-und-stanfords-neues-kollaboratives-zeichenwerkzeug-bringt-ki-das-zeichnen-wie-menschen-bei","status":"publish","type":"post","link":"https:\/\/aitrendscenter.eu\/de\/teaching-ai-to-sketch-like-humans-mit-and-stanfords-new-collaborative-drawing-tool\/","title":{"rendered":"Der KI das Zeichnen wie der Mensch beibringen: Das neue kollaborative Zeichentool von MIT und Stanford"},"content":{"rendered":"<p>In der Welt der Ideen und der Kommunikation reichen Worte manchmal nicht aus. Eine schnelle Skizze, wie das Zeichnen eines Schaltkreises, kann komplexe Konzepte effektiv vermitteln. Aber was w\u00e4re, wenn man bei diesem kreativen Prozess k\u00fcnstliche Intelligenz einsetzen k\u00f6nnte? Nun, diese Idee ist nicht l\u00e4nger eine wilde Fantasie, dank der brillanten K\u00f6pfe der Forscher von <a href=\"https:\/\/www.csail.mit.edu\/\" target=\"_blank\" rel=\"noopener\">MIT-Labor f\u00fcr Computerwissenschaften und k\u00fcnstliche Intelligenz (CSAIL)<\/a> und der Universit\u00e4t Stanford. Sie haben ein KI-System entwickelt, das mehr wie ein Mensch zeichnet, und zwar unter dem Namen <strong>SketchAgent<\/strong>.<\/p>\n<p>Dieses erfrischende neue Tool nutzt multimodale Sprachmodelle, also Systeme, die sowohl auf Text als auch auf Bilder trainiert sind. Es kann Aufforderungen in nat\u00fcrlicher Sprache verarbeiten und sie in Sekundenschnelle in einfache, handgezeichnete Skizzen verwandeln. Im Gegensatz zu vielen KI-Kunsttools, die auf fotorealistische Bilder oder stilisierte Cartoons setzen, konzentriert sich SketchAgent auf den Prozess des Skizzierens und ahmt die Art und Weise nach, wie Menschen Strich f\u00fcr Strich zeichnen. Dieser Ansatz erm\u00f6glicht organischere, iterative Visualisierungen. Daher kann SketchAgent alles zeichnen, von einem einfachen Haus bis hin zur Arbeit an einem komplexen Doodle in Zusammenarbeit mit Menschen, indem es textbasierte Anweisungen entgegennimmt und jede Komponente einzeln skizziert.<\/p>\n<h3>Das Wichtigste in K\u00fcrze<\/h3>\n<p>Bei der Entwicklung von SketchAgent haben sich die Wissenschaftler f\u00fcr einen einzigartigen Ansatz entschieden. Anstatt die KI anhand riesiger Datenbanken mit menschlichen Skizzen zu trainieren, brachten sie ihr eine sogenannte \"Skizziersprache\" bei. Diese ausgekl\u00fcgelte Methode zerlegt Zeichnungen in Strichfolgen, die auf einem Raster abgebildet sind, wobei jeder Strich nummeriert und beschriftet ist. Anhand dieser Zeichensprache kann das KI-System erkennen, wie neue Konzepte zu zeichnen sind, denen es noch nicht begegnet ist.<\/p>\n<p>Zu dem Team, das diese neue KI-Revolution anf\u00fchrt, geh\u00f6ren Yael Vinker, Tamar Rott Shaham, Alex Zhao und Antonio Torralba vom MIT sowie Kristine Zheng und Judith Ellen Fan aus Stanford. Die Welt wird auf der Conference on Computer Vision and Pattern Recognition (CVPR) 2025 mehr \u00fcber ihre bahnbrechende Arbeit erfahren.<\/p>\n<p>Das Besondere an SketchAgent ist die F\u00e4higkeit, jeden Strich nacheinander zu zeichnen, \u00e4hnlich wie ein Mensch es tun w\u00fcrde. Diese F\u00e4higkeit f\u00fchrt zu Skizzen, die sich nat\u00fcrlich und menschlich anf\u00fchlen. W\u00e4hrend andere KI-Modelle visuell ansprechende Bilder aus Text generieren k\u00f6nnen, fehlt ihnen oft die schrittweise Kreativit\u00e4t, die beim Skizzieren erforderlich ist. Dar\u00fcber hinaus hat die KI das Potenzial, eine breite Palette von Ideen zu zeichnen, von Schmetterlingen und DNA-Helices bis hin zum ikonischen Opernhaus von Sydney, dank ihrer F\u00e4higkeit, das breite Wissen von vortrainierten Sprachmodellen anzuzapfen, auch wenn diese Modelle nat\u00fcrlich nicht zeichnen k\u00f6nnen.<\/p>\n<h3>Gemeinsam arbeiten<\/h3>\n<p>Ein weiteres bahnbrechendes Merkmal von SketchAgent ist seine F\u00e4higkeit, mit Menschen zusammenzuarbeiten. Bei den Tests wurde festgestellt, dass die Beitr\u00e4ge der KI f\u00fcr die endg\u00fcltigen Skizzen entscheidend waren. Wenn beispielsweise der von der KI gezeichnete Mast aus einer Segelbootskizze entfernt wurde, war die Zeichnung nicht mehr zu erkennen. Die Forscher experimentierten auch mit verschiedenen Sprachmodellen, um herauszufinden, welches die menschen\u00e4hnlichsten Zeichnungen hervorbringt. Claude 3.5 Sonnet erwies sich als Spitzenreiter und stellte GPT-4o und Claude 3 Opus bei der Erstellung erkennbarer vektorbasierter Skizzen in den Schatten.<\/p>\n<h3>Der Weg in die Zukunft<\/h3>\n<p>Zugegebenerma\u00dfen hat SketchAgent trotz seines enormen Potenzials noch einige Macken, die es auszub\u00fcgeln gilt. Derzeit leistet es hervorragende Arbeit beim Zeichnen einfacher Strichm\u00e4nnchen und Kritzeleien, hat aber Probleme mit komplexen Bildern wie Logos, Text oder detaillierten Kreaturen wie Einh\u00f6rnern und K\u00fchen. Au\u00dferdem interpretiert sie gelegentlich die Absichten des Benutzers falsch, z. B. bei der Erstellung einer Skizze mit einem zweik\u00f6pfigen Hasen, was wahrscheinlich darauf zur\u00fcckzuf\u00fchren ist, dass der schrittweise Prozess der KI nicht mit dem des menschlichen Mitarbeiters \u00fcbereinstimmt. Um diese Kinderkrankheiten zu beheben, plant das Forschungsteam, SketchAgent mit synthetischen Daten aus Diffusionsmodellen zu trainieren und die Benutzeroberfl\u00e4che zu perfektionieren, um sie intuitiver und reaktionsschneller w\u00e4hrend gemeinsamer Skizziersitzungen zu machen.<\/p>\n<p>Dennoch l\u00e4utet SketchAgent eine neue \u00c4ra in der Kommunikation zwischen Mensch und KI ein. Durch die Unterst\u00fctzung der visuellen Kommunikation durch Skizzen er\u00f6ffnen sich unsch\u00e4tzbare M\u00f6glichkeiten f\u00fcr Lehrer, Forscher und alle, die ihre Ideen in visueller Form ausdr\u00fccken m\u00f6chten. Die Hauptautorin Yael Vinker sagte: \"Viele Menschen sind sich nicht bewusst, wie oft sie im Alltag zeichnen - sei es beim Brainstorming oder bei der visuellen Erkl\u00e4rung von Dingen. SketchAgent zielt darauf ab, diesen Prozess nachzubilden und der KI zu helfen, ein effektiveres Werkzeug f\u00fcr den visuellen Ausdruck zu werden.\" In der Tat k\u00f6nnten innovative Tools wie SketchAgent im Zuge der Weiterentwicklung der KI die Art und Weise, wie wir mit Maschinen interagieren, ver\u00e4ndern - weg von Worten hin zu gemeinsamer, visueller Kreativit\u00e4t.<\/p>\n<p><em>Quelle: <a href=\"https:\/\/news.mit.edu\/2025\/teaching-ai-models-to-sketch-more-like-humans-0602\" target=\"_blank\" rel=\"noopener\">MIT-Nachrichten<\/a><\/em><\/p>","protected":false},"excerpt":{"rendered":"<p>In the realm of ideas and communication, words sometimes aren&#8217;t enough. A quick sketch, like drawing a circuit, can effectively convey complex concepts. But what if you could utilize artificial intelligence in this creative process? Well, this idea is no longer a wild fantasy, thanks to the brilliant minds of researchers from MIT\u2019s Computer Science and Artificial Intelligence Laboratory (CSAIL) and Stanford University. They&#8217;ve developed an AI system that sketches more like a human, under the moniker of SketchAgent. This refreshing new tool utilizes multimodal language models, systems that are trained on both text and images. It can process natural [&hellip;]<\/p>\n","protected":false},"author":4,"featured_media":5656,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2,47],"tags":[],"class_list":["post-5655","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-images","category-ai-news","post--single"],"_links":{"self":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts\/5655","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/comments?post=5655"}],"version-history":[{"count":0,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/posts\/5655\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/media\/5656"}],"wp:attachment":[{"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/media?parent=5655"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/categories?post=5655"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/aitrendscenter.eu\/de\/wp-json\/wp\/v2\/tags?post=5655"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}