Der KI das Zeichnen wie der Mensch beibringen: Das neue kollaborative Zeichentool von MIT und Stanford
In der Welt der Ideen und der Kommunikation reichen Worte manchmal nicht aus. Eine schnelle Skizze, wie das Zeichnen eines Schaltkreises, kann komplexe Konzepte effektiv vermitteln. Aber was wäre, wenn man bei diesem kreativen Prozess künstliche Intelligenz einsetzen könnte? Nun, diese Idee ist nicht länger eine wilde Fantasie, dank der brillanten Köpfe der Forscher von MIT-Labor für Computerwissenschaften und künstliche Intelligenz (CSAIL) und der Universität Stanford. Sie haben ein KI-System entwickelt, das mehr wie ein Mensch zeichnet, und zwar unter dem Namen SketchAgent.
Dieses erfrischende neue Tool nutzt multimodale Sprachmodelle, also Systeme, die sowohl auf Text als auch auf Bilder trainiert sind. Es kann Aufforderungen in natürlicher Sprache verarbeiten und sie in Sekundenschnelle in einfache, handgezeichnete Skizzen verwandeln. Im Gegensatz zu vielen KI-Kunsttools, die auf fotorealistische Bilder oder stilisierte Cartoons setzen, konzentriert sich SketchAgent auf den Prozess des Skizzierens und ahmt die Art und Weise nach, wie Menschen Strich für Strich zeichnen. Dieser Ansatz ermöglicht organischere, iterative Visualisierungen. Daher kann SketchAgent alles zeichnen, von einem einfachen Haus bis hin zur Arbeit an einem komplexen Doodle in Zusammenarbeit mit Menschen, indem es textbasierte Anweisungen entgegennimmt und jede Komponente einzeln skizziert.
Das Wichtigste in Kürze
Bei der Entwicklung von SketchAgent haben sich die Wissenschaftler für einen einzigartigen Ansatz entschieden. Anstatt die KI anhand riesiger Datenbanken mit menschlichen Skizzen zu trainieren, brachten sie ihr eine sogenannte "Skizziersprache" bei. Diese ausgeklügelte Methode zerlegt Zeichnungen in Strichfolgen, die auf einem Raster abgebildet sind, wobei jeder Strich nummeriert und beschriftet ist. Anhand dieser Zeichensprache kann das KI-System erkennen, wie neue Konzepte zu zeichnen sind, denen es noch nicht begegnet ist.
Zu dem Team, das diese neue KI-Revolution anführt, gehören Yael Vinker, Tamar Rott Shaham, Alex Zhao und Antonio Torralba vom MIT sowie Kristine Zheng und Judith Ellen Fan aus Stanford. Die Welt wird auf der Conference on Computer Vision and Pattern Recognition (CVPR) 2025 mehr über ihre bahnbrechende Arbeit erfahren.
Das Besondere an SketchAgent ist die Fähigkeit, jeden Strich nacheinander zu zeichnen, ähnlich wie ein Mensch es tun würde. Diese Fähigkeit führt zu Skizzen, die sich natürlich und menschlich anfühlen. Während andere KI-Modelle visuell ansprechende Bilder aus Text generieren können, fehlt ihnen oft die schrittweise Kreativität, die beim Skizzieren erforderlich ist. Darüber hinaus hat die KI das Potenzial, eine breite Palette von Ideen zu zeichnen, von Schmetterlingen und DNA-Helices bis hin zum ikonischen Opernhaus von Sydney, dank ihrer Fähigkeit, das breite Wissen von vortrainierten Sprachmodellen anzuzapfen, auch wenn diese Modelle natürlich nicht zeichnen können.
Gemeinsam arbeiten
Ein weiteres bahnbrechendes Merkmal von SketchAgent ist seine Fähigkeit, mit Menschen zusammenzuarbeiten. Bei den Tests wurde festgestellt, dass die Beiträge der KI für die endgültigen Skizzen entscheidend waren. Wenn beispielsweise der von der KI gezeichnete Mast aus einer Segelbootskizze entfernt wurde, war die Zeichnung nicht mehr zu erkennen. Die Forscher experimentierten auch mit verschiedenen Sprachmodellen, um herauszufinden, welches die menschenähnlichsten Zeichnungen hervorbringt. Claude 3.5 Sonnet erwies sich als Spitzenreiter und stellte GPT-4o und Claude 3 Opus bei der Erstellung erkennbarer vektorbasierter Skizzen in den Schatten.
Der Weg in die Zukunft
Zugegebenermaßen hat SketchAgent trotz seines enormen Potenzials noch einige Macken, die es auszubügeln gilt. Derzeit leistet es hervorragende Arbeit beim Zeichnen einfacher Strichmännchen und Kritzeleien, hat aber Probleme mit komplexen Bildern wie Logos, Text oder detaillierten Kreaturen wie Einhörnern und Kühen. Außerdem interpretiert sie gelegentlich die Absichten des Benutzers falsch, z. B. bei der Erstellung einer Skizze mit einem zweiköpfigen Hasen, was wahrscheinlich darauf zurückzuführen ist, dass der schrittweise Prozess der KI nicht mit dem des menschlichen Mitarbeiters übereinstimmt. Um diese Kinderkrankheiten zu beheben, plant das Forschungsteam, SketchAgent mit synthetischen Daten aus Diffusionsmodellen zu trainieren und die Benutzeroberfläche zu perfektionieren, um sie intuitiver und reaktionsschneller während gemeinsamer Skizziersitzungen zu machen.
Dennoch läutet SketchAgent eine neue Ära in der Kommunikation zwischen Mensch und KI ein. Durch die Unterstützung der visuellen Kommunikation durch Skizzen eröffnen sich unschätzbare Möglichkeiten für Lehrer, Forscher und alle, die ihre Ideen in visueller Form ausdrücken möchten. Die Hauptautorin Yael Vinker sagte: "Viele Menschen sind sich nicht bewusst, wie oft sie im Alltag zeichnen - sei es beim Brainstorming oder bei der visuellen Erklärung von Dingen. SketchAgent zielt darauf ab, diesen Prozess nachzubilden und der KI zu helfen, ein effektiveres Werkzeug für den visuellen Ausdruck zu werden." In der Tat könnten innovative Tools wie SketchAgent im Zuge der Weiterentwicklung der KI die Art und Weise, wie wir mit Maschinen interagieren, verändern - weg von Worten hin zu gemeinsamer, visueller Kreativität.
Quelle: MIT-Nachrichten