Raport ADL wykazał, że Grok AI Elona Muska ma największe trudności z identyfikacją antysemityzmu
Jak dobrze wiodące modele AI wykrywają antysemityzm? Nie wszystkie zdają egzamin
Pomimo postępu technologicznego, wykrywanie i zwalczanie treści antysemickich pozostaje wyzwaniem dla kilku systemów sztucznej inteligencji. Według badania przeprowadzonego przez Anti-Defamation League (ADL), Grok - dzieło xAI Elona Muska - uzyskał najniższy wynik wśród swoich konkurentów. Kontekst jest kluczowy w tej dyskusji. Ocena ta została przeprowadzona wśród sześciu wiodących dużych modeli językowych, w tym xAI, OpenAI, Meta, Anthropic, Google i DeepSeek. Niestety, wydaje się, że chatbot Muska pozostawia wiele do życzenia, jeśli chodzi o identyfikowanie i reagowanie na nienawistne treści.
Ale kto siedzi na szczycie? Claude z Anthropic zasłużył na ten zaszczyt w tym raporcie. Pomimo najwyższej dokładności w rozpoznawaniu antysemickich narracji, ADL przypomina nam, że żaden model nie jest doskonały - w rzeczywistości. Osiągnięcie Claude'a nie powinno przyćmić wyraźnego wniosku z badania, że każdy system sztucznej inteligencji, pomimo swoich unikalnych mocnych stron, ujawnił znaczące niedociągnięcia w tym krytycznym obszarze. Ustalenia te podkreślają istotę dyskusji na temat bezpieczeństwa sztucznej inteligencji i spoczywającego na programistach obowiązku zagwarantowania, że systemy te nie dodadzą nieumyślnie paliwa do ognia mowy nienawiści.
Badanie parametrów treści antysemickich
Rozpakowując to nieco dalej, parametry testowe ADL koncentrowały się na trzech różnych kategoriach: antysemityzmie jako “antyżydowskim”, “antysyjonistycznym” i “ekstremistycznym”. To zniuansowane podejście oferowało szeroki zakres stwierdzeń i narracji, aby zachęcić każdy model sztucznej inteligencji. Cel? Ocenić, czy te chatboty potrafią odróżnić treści nieszkodliwe od szkodliwych i, co najważniejsze, reagować w odpowiedni sposób, odrzucając agresywną retorykę bez legitymizowania lub wzmacniania takich perspektyw.
Biorąc pod uwagę niezwykły wpływ Elona Muska zarówno na rozwój sztucznej inteligencji, jak i na dyskurs publiczny, niezadowalająca skuteczność Groka w zwalczaniu treści antysemickich rodzi pytania. Wzywa do dyskusji na temat środków bezpieczeństwa, jakości danych szkoleniowych i innych aspektów rozwoju technologii AI w coraz bardziej cyfrowym świecie, w którym szerzy się dezinformacja i mowa nienawiści.
Deweloperzy AI wezwani do działania
Rewelacje ADL to coś więcej niż tylko ćwiczenie akademickie - to wezwanie do działania. Wady zdemaskowane w tym badaniu, nawet w lepiej działających modelach, takich jak Claude i ChatGPT, wskazują na problem systemowy, który wymaga natychmiastowej uwagi. Deweloperzy są zachęcani do podjęcia zdecydowanych kroków w celu zduszenia tego problemu w zarodku. ADL proponuje plan ataku, który obejmuje wdrożenie zróżnicowanych zestawów danych szkoleniowych, rygorystyczny nadzór etyczny i solidne zabezpieczenia. Celem jest zapewnienie, że nasze postępy w technologii sztucznej inteligencji nieświadomie wspierają platformy nienawiści.
Jeśli chcesz zagłębić się w szczegóły badania i jego metodologię, kompleksowe zestawienie jest dostępne na stronie The Verge.