Aktualności

Wgląd w modele języka białek: Naukowcy z MIT odblokowują przewidywania czarnej skrzynki

Krajobraz biologii obliczeniowej został w ostatnich latach radykalnie przekształcony dzięki pojawieniu się modeli języka białek. Zapożyczone z dużych modeli językowych (LLM), te solidne narzędzia wykazały talent do przewidywania struktury i funkcji białek z imponującą precyzją. Oferują one szeroki zakres zastosowań, od wykrywania potencjalnych celów leków po pionierskie przyszłe przeciwciała terapeutyczne.

Było to jednak słodko-gorzkie zwycięstwo. Pomimo ich transformacyjnego wkładu, modele te tradycyjnie cierpiały z powodu braku przejrzystości. Do tej pory naukowcy starali się zrozumieć, w jaki sposób modele te generują swoje prognozy lub jakie konkretne cechy białka biorą pod uwagę w tym procesie. Jednak ta era niepewności dobiega końca dzięki niedawnym wysiłkom naukowców z MIT.

Zespół badawczy z Laboratorium Informatyki i Sztucznej Inteligencji MIT (CSAIL), kierowany przez Bonnie Berger, profesor matematyki Simons i szefową grupy Computation and Biology, ujawnił metodę rozszyfrowania wewnętrznych mechanizmów tych potężnych modeli. Według badań opublikowanych w czasopiśmie Proceedings of the National Academy of SciencesTo nowo odkryte zrozumienie może pomóc naukowcom skuteczniej wybierać i dostosowywać modele do konkretnych zadań, zwiększając tym samym tempo odkrywania leków i opracowywania szczepionek.

Jak więc działają te modele języka białek? Pomyśl o nich jak o modelach LLM, takich jak ChatGPT, ale zamiast przetwarzać ludzki język, analizują sekwencje aminokwasów. Zostały one wykorzystane do przewidywania sposobu składania, interakcji i funkcjonowania białek. W 2018 roku Berger i jej były student Tristan Bepler wprowadzili jeden z pierwszych takich modeli, przecierając szlaki dla późniejszych przełomowych modeli, takich jak AlphaFold, ESM2 i OmegaFold.

Jedno z wyróżniających się zastosowań miało miejsce w 2021 r., kiedy zespół Bergera wykorzystał model białkowy do wskazania sekcji białek wirusowych, które prawdopodobnie nie ulegną mutacji. Te krytyczne informacje pomogły zidentyfikować potencjalne cele szczepionek dla groźnych wirusów, takich jak HIV, grypa i SARS-CoV-2. Modele pozostawały jednak w pewnym sensie czarną skrzynką - naukowcy mogli obserwować wynik, ale nie mieli wglądu w proces, który do niego prowadził.

Aby rzucić światło na proces podejmowania decyzji w modelach białkowych, zespół MIT wykorzystał metodę znaną jako sparse autoencoder, technikę stosowaną obecnie do interpretacji LLM, która wcześniej nie była stosowana w modelach białkowych. Co ciekawe, model białkowy zwykle reprezentuje dane z ograniczoną liczbą węzłów, powiedzmy 480. Ponieważ węzły te są gęsto wypełnione danymi, praktycznie niemożliwe jest określenie, co każdy z nich reprezentuje. Rzadkie autoenkodery ułatwiają to poprzez rozszerzenie reprezentacji do znacznie większego zestawu węzłów, na przykład 20 000. Ten wzrost, wraz z ograniczeniem rzadkości, umożliwia rozproszenie danych, upraszczając proces izolowania i interpretowania poszczególnych funkcji.

Wykorzystanie rzadkich reprezentacji pozwoliło odkryć nowe spostrzeżenia. Po wygenerowaniu rzadkich reprezentacji różnych białek, naukowcy wykorzystali asystenta AI o imieniu Claude, opracowanego przez Anthropic, aby pomóc w interpretacji danych. Okazało się, że określone węzły odpowiadają określonym cechom biologicznym. Oprócz przewidywania wyników, możliwe jest teraz zrozumienie, dlaczego model dokonuje określonej prognozy. Co ciekawe, naukowcy odkryli, że niektóre cechy biologiczne są częściej kodowane niż inne. "Nawet bez szkolenia w zakresie interpretowalności, pojawia się ona naturalnie, gdy zachęca się do rzadkości", przyznaje Onkar Gujral, główny autor badania i doktorant na MIT.

Postęp ten ma nie tylko znaczące implikacje dla dziedziny biologii, ale także wykracza poza nią. Mając jasność co do tego, jakie cechy koduje model białka, naukowcy mogą lepiej dopasować modele do konkretnych zadań badawczych lub udoskonalić dane wejściowe w celu poprawy prognoz, potencjalnie prowadząc w ten sposób do nowych spostrzeżeń biologicznych opartych wyłącznie na zachowaniu modelu. "Gdy modele staną się potężniejsze, istnieje potencjał, aby odkryć więcej biologii niż to, co jest obecnie znane, po prostu analizując te modele" - zauważa Gujral.

Ten kamień milowy badania został poparty przez National Institutes of Health. Zapewnia to znaczący i kluczowy krok w kierunku przejrzystości i efektywnego wykorzystania sztucznej inteligencji w biologii.

Więcej szczegółów można znaleźć w oryginalnym artykule opublikowanym na MIT News: https://news.mit.edu/2025/researchers-glimpse-inner-workings-protein-language-models-0818

Jaka jest twoja reakcja?

Podekscytowany
0
Szczęśliwy
0
Zakochany
0
Nie jestem pewien
0
Głupi
0

Komentarze są zamknięte.