Obrazy Aktualności

Uczenie sztucznej inteligencji szkicowania jak ludzie: Nowe narzędzie do wspólnego rysowania od MIT i Stanforda

2025-06-02400 widoki0

W sferze pomysłów i komunikacji słowa czasami nie wystarczają. Szybki szkic, taki jak narysowanie obwodu, może skutecznie przekazać złożone koncepcje. Ale co by było, gdyby można było wykorzystać sztuczną inteligencję w tym procesie twórczym? Cóż, ten pomysł nie jest już szaloną fantazją, dzięki genialnym umysłom naukowców z Laboratorium informatyki i sztucznej inteligencji MIT (CSAIL) i Uniwersytet Stanforda. Opracowali oni system sztucznej inteligencji, który szkicuje bardziej jak człowiek, pod pseudonimem SketchAgent.

To nowe, odświeżające narzędzie wykorzystuje multimodalne modele językowe, systemy szkolone zarówno na tekście, jak i obrazach. Może przetwarzać podpowiedzi w języku naturalnym i renderować je w proste, ręcznie rysowane szkice w ciągu kilku sekund. W przeciwieństwie do wielu narzędzi artystycznych AI, które kładą nacisk na fotorealistyczne obrazy lub stylizowane kreskówki, SketchAgent koncentruje się na procesie szkicowania, naśladując sposób, w jaki ludzie rysują jedno pociągnięcie na raz. Takie podejście pozwala na bardziej organiczne, iteracyjne wizualizacje. Dlatego też SketchAgent może narysować wszystko, od prostego domu po pracę nad złożonym doodlem we współpracy z ludźmi, przyjmując instrukcje tekstowe i szkicując każdy element indywidualnie.

Szczegóły

Opracowując SketchAgent, naukowcy zdecydowali się na unikalne podejście. Zamiast szkolić sztuczną inteligencję na ogromnych bazach danych ludzkich szkiców, nauczyli ją tak zwanego ‘języka szkicowania’. Ta pomysłowa metoda dzieli rysunki na sekwencje pociągnięć odwzorowanych na siatce, z każdym pociągnięciem ponumerowanym i oznaczonym. Ten język szkicowania umożliwia systemowi AI wydedukowanie, jak szkicować nowe koncepcje, z którymi wcześniej się nie spotkał.

W skład zespołu prowadzącego tę nową rewolucję AI wchodzą Yael Vinker, Tamar Rott Shaham, Alex Zhao, Antonio Torralba z MIT oraz Kristine Zheng i Judith Ellen Fan ze Stanford. Świat dowie się o ich pionierskiej pracy podczas konferencji 2025 Conference on Computer Vision and Pattern Recognition (CVPR).

Cechą wyróżniającą SketchAgent jest jego zdolność do rysowania każdego pociągnięcia sekwencyjnie, podobnie jak zrobiłby to człowiek. Zdolność ta sprawia, że szkice są naturalne i przypominają ludzkie. Podczas gdy inne modele AI mogą generować wizualnie angażujące obrazy z tekstu, często brakuje im kreatywności krok po kroku związanej ze szkicowaniem. Co więcej, sztuczna inteligencja ma potencjał do rysowania szerokiej gamy pomysłów, od motyli i helis DNA po kultowy budynek opery w Sydney, dzięki możliwości wykorzystania szerokiej wiedzy wstępnie wytrenowanych modeli językowych, choć modele te nie wiedzą naturalnie, jak rysować.

Wspólna praca

Kolejną przełomową cechą SketchAgent jest możliwość współpracy z ludźmi. Podczas testów okazało się, że wkład sztucznej inteligencji miał kluczowe znaczenie dla ostatecznych szkiców. Na przykład, jeśli maszt narysowany przez AI został usunięty ze szkicu żaglówki, rysunek stał się niemożliwy do zidentyfikowania. Naukowcy eksperymentowali również z różnymi modelami językowymi, aby dowiedzieć się, który z nich tworzył rysunki najbardziej przypominające ludzkie. Claude 3.5 Sonnet wyłonił się jako najlepszy, przyćmiewając GPT-4o i Claude 3 Opus w tworzeniu rozpoznawalnych szkiców wektorowych.

Droga przed nami

Trzeba przyznać, że pomimo ogromnego potencjału, SketchAgent wciąż ma kilka niedociągnięć do naprawienia. Obecnie świetnie radzi sobie z rysowaniem podstawowych figurek i bazgrołów, ale napotyka wyzwania związane ze złożonymi obrazami, takimi jak logo, tekst lub szczegółowe stworzenia, takie jak jednorożce i krowy. Ponadto czasami błędnie interpretuje intencje użytkownika, na przykład tworząc szkic dwugłowego królika, prawdopodobnie z powodu tego, że proces sztucznej inteligencji krok po kroku staje się niedopasowany do ludzkiego współpracownika. Aby rozwiązać te problemy, zespół badawczy planuje przeszkolić SketchAgent przy użyciu syntetycznych danych z modeli dyfuzyjnych i udoskonalić interfejs użytkownika, aby był bardziej intuicyjny i responsywny podczas wspólnych sesji szkicowania.

Niemniej jednak, SketchAgent zwiastuje nową erę w komunikacji człowieka ze sztuczną inteligencją. Wspomagając komunikację wizualną poprzez szkice, otwierają się nieocenione możliwości dla nauczycieli, badaczy i każdego, kto chce wyrazić swoje pomysły w formie wizualnej. Główny autor Yael Vinker wspomniał: “Wiele osób nie zdaje sobie sprawy, jak często rysują w życiu codziennym - czy to podczas burzy mózgów, czy wyjaśniając coś wizualnie. SketchAgent ma na celu odtworzenie tego procesu, pomagając sztucznej inteligencji stać się bardziej skutecznym narzędziem do ekspresji wizualnej”. Rzeczywiście, wraz z dalszym rozwojem sztucznej inteligencji, innowacyjne narzędzia, takie jak SketchAgent, mogą zmienić sposób interakcji z maszynami - wykraczając poza słowa do wspólnej, wizualnej kreatywności.

Źródło: MIT News

Jaka jest twoja reakcja?

Podekscytowany

Szczęśliwy

Zakochany

Nie jestem pewien

Głupi

Uczenie sztucznej inteligencji szkicowania jak ludzie: Nowe narzędzie do wspólnego rysowania od MIT i Stanforda

Szczegóły

Wspólna praca

Droga przed nami

Jaka jest twoja reakcja?

Cele zrównoważonego rozwoju Microsoftu kolidują z jego rosnącymi ambicjami w zakresie sztucznej inteligencji i chmury

Sora OpenAI jest teraz bezpłatna dla wszystkich użytkowników za pośrednictwem Microsoft Bing Video Creator na urządzenia mobilne

Najpopularniejsze

Pozostań w kontakcie

Szczegóły

Wspólna praca

Droga przed nami

Jaka jest twoja reakcja?

Cele zrównoważonego rozwoju Microsoftu kolidują z jego rosnącymi ambicjami w zakresie sztucznej inteligencji i chmury

Sora OpenAI jest teraz bezpłatna dla wszystkich użytkowników za pośrednictwem Microsoft Bing Video Creator na urządzenia mobilne

Najpopularniejsze

Pozostań w kontakcie

Facebook

Najnowsze posty

Streamline Growth: AI Sales Manager for Modern Accounting Firms

Ekosystem wielu agentów Samsunga: Przedstawiamy ‘Hey, Plex’ na Galaxy S26

Wzmocnienie pozycji księgowych: Usprawnij zapytania klientów dzięki generatorowi AI FAQ

Przypomnienie o płatności AI: Rewolucja w windykacji dla firm księgowych

Obawy dotyczące sztucznej inteligencji zignorowane przed tragedią w Tumbler Ridge