Categories: ObrazyAktualności

Uczenie sztucznej inteligencji szkicowania jak ludzie: Nowe narzędzie do wspólnego rysowania od MIT i Stanforda

In the realm of ideas and communication, words sometimes aren’t enough. A quick sketch, like drawing a circuit, can effectively convey complex concepts. But what if you could utilize artificial intelligence in this creative process? Well, this idea is no longer a wild fantasy, thanks to the brilliant minds of researchers from Laboratorium informatyki i sztucznej inteligencji MIT (CSAIL) and Stanford University. They’ve developed an AI system that sketches more like a human, under the moniker of SketchAgent.

This refreshing new tool utilizes multimodal language models, systems that are trained on both text and images. It can process natural language prompts and render them into simple, hand-drawn-style sketches in a matter of seconds. Unlike many AI art tools that emphasize photorealistic images or stylized cartoons, SketchAgent focuses on sketching’s process, mimicking the way humans draw one stroke at a time. This approach allows more organic, iterative visualizations. Hence, SketchAgent can draw anything from a simple house to working on a complex doodle collaboratively with humans, taking text-based instructions and sketching each component individually.

Szczegóły

In developing SketchAgent, the scientists opted for a unique approach. Instead of training the AI on huge databases of human sketches, they taught it using a so-called ‘sketching language’. This ingenious method breaks drawings down into sequences of strokes mapped onto a grid, with each stroke numbered and labeled. This sketching language enables the AI system to deduce how to sketch new concepts it hasn’t encountered before.

W skład zespołu prowadzącego tę nową rewolucję AI wchodzą Yael Vinker, Tamar Rott Shaham, Alex Zhao, Antonio Torralba z MIT oraz Kristine Zheng i Judith Ellen Fan ze Stanford. Świat dowie się o ich pionierskiej pracy podczas konferencji 2025 Conference on Computer Vision and Pattern Recognition (CVPR).

Cechą wyróżniającą SketchAgent jest jego zdolność do rysowania każdego pociągnięcia sekwencyjnie, podobnie jak zrobiłby to człowiek. Zdolność ta sprawia, że szkice są naturalne i przypominają ludzkie. Podczas gdy inne modele AI mogą generować wizualnie angażujące obrazy z tekstu, często brakuje im kreatywności krok po kroku związanej ze szkicowaniem. Co więcej, sztuczna inteligencja ma potencjał do rysowania szerokiej gamy pomysłów, od motyli i helis DNA po kultowy budynek opery w Sydney, dzięki możliwości wykorzystania szerokiej wiedzy wstępnie wytrenowanych modeli językowych, choć modele te nie wiedzą naturalnie, jak rysować.

Wspólna praca

Kolejną przełomową cechą SketchAgent jest możliwość współpracy z ludźmi. Podczas testów okazało się, że wkład sztucznej inteligencji miał kluczowe znaczenie dla ostatecznych szkiców. Na przykład, jeśli maszt narysowany przez AI został usunięty ze szkicu żaglówki, rysunek stał się niemożliwy do zidentyfikowania. Naukowcy eksperymentowali również z różnymi modelami językowymi, aby dowiedzieć się, który z nich tworzył rysunki najbardziej przypominające ludzkie. Claude 3.5 Sonnet wyłonił się jako najlepszy, przyćmiewając GPT-4o i Claude 3 Opus w tworzeniu rozpoznawalnych szkiców wektorowych.

Droga przed nami

Admittedly, despite its tremendous potential, SketchAgent still has a few kinks to iron out. Currently, it does an excellent job drawing basic stick figures and doodles but faces challenges with complex images like logos, text, or detailed creatures such as unicorns and cows. Also, it occasionally misinterprets user intentions, such as creating a two-headed bunny sketch, likely due to the AI’s step-by-step process becoming misaligned with its human collaborator. To address these teething troubles, the research team plans on training SketchAgent using synthetic data from diffusion models and perfecting the user interface to make it more intuitive and responsive during joint sketching sessions.

Nevertheless, SketchAgent heralds a new era in human-AI communication. By aiding visual communication through sketches, invaluable possibilities open up for teachers, researchers, and anyone wishing to express their ideas in a visual form. Lead author Yael Vinker mentioned, “Many people don’t realize how often they draw in daily life — whether it’s brainstorming or explaining something visually. SketchAgent aims to replicate that process, helping AI become a more effective tool for visual expression.” Indeed, as AI continues to advance, innovative tools like SketchAgent might transform how we interact with machines — moving beyond words to shared, visual creativity.

Źródło: MIT News

Max Krawiec

This website uses cookies.