Uczenie sztucznej inteligencji szkicowania jak ludzie: Nowe narzędzie do wspólnego rysowania od MIT i Stanforda
W sferze pomysłów i komunikacji słowa czasami nie wystarczają. Szybki szkic, taki jak narysowanie obwodu, może skutecznie przekazać złożone koncepcje. Ale co by było, gdyby można było wykorzystać sztuczną inteligencję w tym procesie twórczym? Cóż, ten pomysł nie jest już szaloną fantazją, dzięki genialnym umysłom naukowców z Laboratorium informatyki i sztucznej inteligencji MIT (CSAIL) i Uniwersytet Stanforda. Opracowali oni system sztucznej inteligencji, który szkicuje bardziej jak człowiek, pod pseudonimem SketchAgent.
To nowe, odświeżające narzędzie wykorzystuje multimodalne modele językowe, systemy szkolone zarówno na tekście, jak i obrazach. Może przetwarzać podpowiedzi w języku naturalnym i renderować je w proste, ręcznie rysowane szkice w ciągu kilku sekund. W przeciwieństwie do wielu narzędzi artystycznych AI, które kładą nacisk na fotorealistyczne obrazy lub stylizowane kreskówki, SketchAgent koncentruje się na procesie szkicowania, naśladując sposób, w jaki ludzie rysują jedno pociągnięcie na raz. Takie podejście pozwala na bardziej organiczne, iteracyjne wizualizacje. Dlatego też SketchAgent może narysować wszystko, od prostego domu po pracę nad złożonym doodlem we współpracy z ludźmi, przyjmując instrukcje tekstowe i szkicując każdy element indywidualnie.
Szczegóły
Opracowując SketchAgent, naukowcy zdecydowali się na unikalne podejście. Zamiast szkolić sztuczną inteligencję na ogromnych bazach danych ludzkich szkiców, nauczyli ją tak zwanego ‘języka szkicowania’. Ta pomysłowa metoda dzieli rysunki na sekwencje pociągnięć odwzorowanych na siatce, z każdym pociągnięciem ponumerowanym i oznaczonym. Ten język szkicowania umożliwia systemowi AI wydedukowanie, jak szkicować nowe koncepcje, z którymi wcześniej się nie spotkał.
W skład zespołu prowadzącego tę nową rewolucję AI wchodzą Yael Vinker, Tamar Rott Shaham, Alex Zhao, Antonio Torralba z MIT oraz Kristine Zheng i Judith Ellen Fan ze Stanford. Świat dowie się o ich pionierskiej pracy podczas konferencji 2025 Conference on Computer Vision and Pattern Recognition (CVPR).
Cechą wyróżniającą SketchAgent jest jego zdolność do rysowania każdego pociągnięcia sekwencyjnie, podobnie jak zrobiłby to człowiek. Zdolność ta sprawia, że szkice są naturalne i przypominają ludzkie. Podczas gdy inne modele AI mogą generować wizualnie angażujące obrazy z tekstu, często brakuje im kreatywności krok po kroku związanej ze szkicowaniem. Co więcej, sztuczna inteligencja ma potencjał do rysowania szerokiej gamy pomysłów, od motyli i helis DNA po kultowy budynek opery w Sydney, dzięki możliwości wykorzystania szerokiej wiedzy wstępnie wytrenowanych modeli językowych, choć modele te nie wiedzą naturalnie, jak rysować.
Wspólna praca
Kolejną przełomową cechą SketchAgent jest możliwość współpracy z ludźmi. Podczas testów okazało się, że wkład sztucznej inteligencji miał kluczowe znaczenie dla ostatecznych szkiców. Na przykład, jeśli maszt narysowany przez AI został usunięty ze szkicu żaglówki, rysunek stał się niemożliwy do zidentyfikowania. Naukowcy eksperymentowali również z różnymi modelami językowymi, aby dowiedzieć się, który z nich tworzył rysunki najbardziej przypominające ludzkie. Claude 3.5 Sonnet wyłonił się jako najlepszy, przyćmiewając GPT-4o i Claude 3 Opus w tworzeniu rozpoznawalnych szkiców wektorowych.
Droga przed nami
Trzeba przyznać, że pomimo ogromnego potencjału, SketchAgent wciąż ma kilka niedociągnięć do naprawienia. Obecnie świetnie radzi sobie z rysowaniem podstawowych figurek i bazgrołów, ale napotyka wyzwania związane ze złożonymi obrazami, takimi jak logo, tekst lub szczegółowe stworzenia, takie jak jednorożce i krowy. Ponadto czasami błędnie interpretuje intencje użytkownika, na przykład tworząc szkic dwugłowego królika, prawdopodobnie z powodu tego, że proces sztucznej inteligencji krok po kroku staje się niedopasowany do ludzkiego współpracownika. Aby rozwiązać te problemy, zespół badawczy planuje przeszkolić SketchAgent przy użyciu syntetycznych danych z modeli dyfuzyjnych i udoskonalić interfejs użytkownika, aby był bardziej intuicyjny i responsywny podczas wspólnych sesji szkicowania.
Niemniej jednak, SketchAgent zwiastuje nową erę w komunikacji człowieka ze sztuczną inteligencją. Wspomagając komunikację wizualną poprzez szkice, otwierają się nieocenione możliwości dla nauczycieli, badaczy i każdego, kto chce wyrazić swoje pomysły w formie wizualnej. Główny autor Yael Vinker wspomniał: “Wiele osób nie zdaje sobie sprawy, jak często rysują w życiu codziennym - czy to podczas burzy mózgów, czy wyjaśniając coś wizualnie. SketchAgent ma na celu odtworzenie tego procesu, pomagając sztucznej inteligencji stać się bardziej skutecznym narzędziem do ekspresji wizualnej”. Rzeczywiście, wraz z dalszym rozwojem sztucznej inteligencji, innowacyjne narzędzia, takie jak SketchAgent, mogą zmienić sposób interakcji z maszynami - wykraczając poza słowa do wspólnej, wizualnej kreatywności.
Źródło: MIT News