Kategorien: BilderNachrichten

Der KI das Zeichnen wie der Mensch beibringen: Das neue kollaborative Zeichentool von MIT und Stanford

In the realm of ideas and communication, words sometimes aren’t enough. A quick sketch, like drawing a circuit, can effectively convey complex concepts. But what if you could utilize artificial intelligence in this creative process? Well, this idea is no longer a wild fantasy, thanks to the brilliant minds of researchers from MIT-Labor für Computerwissenschaften und künstliche Intelligenz (CSAIL) and Stanford University. They’ve developed an AI system that sketches more like a human, under the moniker of SketchAgent.

This refreshing new tool utilizes multimodal language models, systems that are trained on both text and images. It can process natural language prompts and render them into simple, hand-drawn-style sketches in a matter of seconds. Unlike many AI art tools that emphasize photorealistic images or stylized cartoons, SketchAgent focuses on sketching’s process, mimicking the way humans draw one stroke at a time. This approach allows more organic, iterative visualizations. Hence, SketchAgent can draw anything from a simple house to working on a complex doodle collaboratively with humans, taking text-based instructions and sketching each component individually.

Das Wichtigste in Kürze

In developing SketchAgent, the scientists opted for a unique approach. Instead of training the AI on huge databases of human sketches, they taught it using a so-called ‘sketching language’. This ingenious method breaks drawings down into sequences of strokes mapped onto a grid, with each stroke numbered and labeled. This sketching language enables the AI system to deduce how to sketch new concepts it hasn’t encountered before.

Zu dem Team, das diese neue KI-Revolution anführt, gehören Yael Vinker, Tamar Rott Shaham, Alex Zhao und Antonio Torralba vom MIT sowie Kristine Zheng und Judith Ellen Fan aus Stanford. Die Welt wird auf der Conference on Computer Vision and Pattern Recognition (CVPR) 2025 mehr über ihre bahnbrechende Arbeit erfahren.

Das Besondere an SketchAgent ist die Fähigkeit, jeden Strich nacheinander zu zeichnen, ähnlich wie ein Mensch es tun würde. Diese Fähigkeit führt zu Skizzen, die sich natürlich und menschlich anfühlen. Während andere KI-Modelle visuell ansprechende Bilder aus Text generieren können, fehlt ihnen oft die schrittweise Kreativität, die beim Skizzieren erforderlich ist. Darüber hinaus hat die KI das Potenzial, eine breite Palette von Ideen zu zeichnen, von Schmetterlingen und DNA-Helices bis hin zum ikonischen Opernhaus von Sydney, dank ihrer Fähigkeit, das breite Wissen von vortrainierten Sprachmodellen anzuzapfen, auch wenn diese Modelle natürlich nicht zeichnen können.

Gemeinsam arbeiten

Ein weiteres bahnbrechendes Merkmal von SketchAgent ist seine Fähigkeit, mit Menschen zusammenzuarbeiten. Bei den Tests wurde festgestellt, dass die Beiträge der KI für die endgültigen Skizzen entscheidend waren. Wenn beispielsweise der von der KI gezeichnete Mast aus einer Segelbootskizze entfernt wurde, war die Zeichnung nicht mehr zu erkennen. Die Forscher experimentierten auch mit verschiedenen Sprachmodellen, um herauszufinden, welches die menschenähnlichsten Zeichnungen hervorbringt. Claude 3.5 Sonnet erwies sich als Spitzenreiter und stellte GPT-4o und Claude 3 Opus bei der Erstellung erkennbarer vektorbasierter Skizzen in den Schatten.

Der Weg in die Zukunft

Admittedly, despite its tremendous potential, SketchAgent still has a few kinks to iron out. Currently, it does an excellent job drawing basic stick figures and doodles but faces challenges with complex images like logos, text, or detailed creatures such as unicorns and cows. Also, it occasionally misinterprets user intentions, such as creating a two-headed bunny sketch, likely due to the AI’s step-by-step process becoming misaligned with its human collaborator. To address these teething troubles, the research team plans on training SketchAgent using synthetic data from diffusion models and perfecting the user interface to make it more intuitive and responsive during joint sketching sessions.

Nevertheless, SketchAgent heralds a new era in human-AI communication. By aiding visual communication through sketches, invaluable possibilities open up for teachers, researchers, and anyone wishing to express their ideas in a visual form. Lead author Yael Vinker mentioned, “Many people don’t realize how often they draw in daily life — whether it’s brainstorming or explaining something visually. SketchAgent aims to replicate that process, helping AI become a more effective tool for visual expression.” Indeed, as AI continues to advance, innovative tools like SketchAgent might transform how we interact with machines — moving beyond words to shared, visual creativity.

Quelle: MIT-Nachrichten

Max Krawiec

Teilen Sie
Herausgegeben von
Max Krawiec

Diese Website verwendet Cookies.