Tegoroczną Nagrodę Laskera za Podstawowe Badania Medyczne przyznano Demisowi Hassabisowi i Johnowi Jumperowi za ich wkład w stworzenie systemu sztucznej inteligencji AlphaFold, który przewiduje trójwymiarową strukturę białek na podstawie sekwencji aminokwasów pierwszego rzędu.
Ich wyniki rozwiązują problem, który od dawna dręczy społeczność naukową i otwierają drogę do przyspieszenia badań w dziedzinie biomedycyny. Białka odgrywają kluczową rolę w rozwoju chorób: w chorobie Alzheimera fałdują się i zlepiają; w nowotworach tracą swoją funkcję regulacyjną; we wrodzonych zaburzeniach metabolicznych są dysfunkcyjne; w mukowiscydozie trafiają do niewłaściwych miejsc w komórce. To tylko kilka z wielu mechanizmów powodujących choroby. Szczegółowe modele struktur białek mogą dostarczyć konfiguracji atomowych, stymulować projektowanie lub selekcję cząsteczek o wysokim powinowactwie i przyspieszać odkrywanie leków.
Struktury białek są zazwyczaj określane za pomocą krystalografii rentgenowskiej, jądrowego rezonansu magnetycznego i kriomikroskopii elektronowej. Metody te są kosztowne i czasochłonne. W rezultacie istniejące bazy danych struktur 3D białek zawierają zaledwie około 200 000 danych strukturalnych, podczas gdy technologia sekwencjonowania DNA wygenerowała ponad 8 milionów sekwencji białek. W latach 60. XX wieku Anfinsen i wsp. odkryli, że jednowymiarowa sekwencja aminokwasów może spontanicznie i powtarzalnie fałdować się w funkcjonalną trójwymiarową konformację (rysunek 1A) oraz że molekularne „białka opiekuńcze” mogą przyspieszać i ułatwiać ten proces. Te obserwacje prowadzą do 60-letniego wyzwania w biologii molekularnej: przewidywania trójwymiarowej struktury białek na podstawie jednowymiarowej sekwencji aminokwasów. Dzięki sukcesowi Projektu Poznania Ludzkiego Genomu (Human Genome Project) nasza zdolność do uzyskiwania jednowymiarowych sekwencji aminokwasów znacznie się poprawiła, a to wyzwanie stało się jeszcze pilniejsze.
Przewidywanie struktur białek jest trudne z kilku powodów. Po pierwsze, wszystkie możliwe trójwymiarowe położenia każdego atomu w każdym aminokwasie wymagają wielu badań. Po drugie, białka maksymalnie wykorzystują komplementarność swojej struktury chemicznej, aby efektywnie konfigurować atomy. Ponieważ białka zazwyczaj mają setki „donorów” wiązań wodorowych (zazwyczaj tlenu), które powinny znajdować się blisko „akceptora” wiązań wodorowych (zazwyczaj azotu związanego z wodorem), znalezienie konformacji, w których niemal każdy donor znajduje się blisko akceptora, może być bardzo trudne. Po trzecie, istnieje ograniczona liczba przykładów uczenia metod eksperymentalnych, dlatego konieczne jest zrozumienie potencjalnych trójwymiarowych oddziaływań między aminokwasami na podstawie sekwencji jednowymiarowych, wykorzystując informacje o ewolucji odpowiednich białek.
Fizykę po raz pierwszy wykorzystano do modelowania interakcji atomów w poszukiwaniu najlepszej konformacji, a także opracowano metodę przewidywania struktury białek. Karplus, Levitt i Warshel otrzymali w 2013 roku Nagrodę Nobla w dziedzinie chemii za prace nad obliczeniową symulacją białek. Jednak metody oparte na fizyce są kosztowne obliczeniowo i wymagają przybliżonego przetwarzania, przez co nie można przewidzieć precyzyjnych struktur trójwymiarowych. Innym podejściem „opartym na wiedzy” jest wykorzystanie baz danych znanych struktur i sekwencji do trenowania modeli za pomocą sztucznej inteligencji i uczenia maszynowego (AI-ML). Hassabis i Jumper stosują elementy zarówno fizyki, jak i AI-ML, ale innowacyjność i skok wydajności tego podejścia wynikają przede wszystkim z AI-ML. Obaj badacze kreatywnie połączyli duże publiczne bazy danych z zasobami obliczeniowymi klasy przemysłowej, aby stworzyć AlphaFold.
Skąd wiemy, że „rozwiązali” zagadkę przewidywania strukturalnego? W 1994 roku ustanowiono konkurs Critical Assessment of Structure Prediction (CASP), który odbywa się co dwa lata, aby śledzić postępy w przewidywaniu strukturalnym. Naukowcy udostępnią jednowymiarową sekwencję białka, którego strukturę niedawno rozwiązali, ale którego wyniki nie zostały jeszcze opublikowane. Predyktor przewiduje trójwymiarową strukturę za pomocą tej jednowymiarowej sekwencji, a ewaluator niezależnie ocenia jakość przewidywanych wyników, porównując je ze strukturą trójwymiarową dostarczoną przez eksperymentatora (przekazaną wyłącznie ewaluatorowi). CASP przeprowadza prawdziwie ślepe przeglądy i rejestruje okresowe skoki wydajności związane z innowacjami metodologicznymi. Na 14. Konferencji CASP w 2020 roku wyniki przewidywań AlphaFold wykazały tak duży skok wydajności, że organizatorzy ogłosili rozwiązanie problemu przewidywania struktur trójwymiarowych: dokładność większości przewidywań była zbliżona do dokładności pomiarów eksperymentalnych.
Szersze znaczenie ma to, że praca Hassabisa i Jumpera przekonująco pokazuje, jak AI-ML może przekształcić naukę. Badania pokazują, że AI-ML może budować złożone hipotezy naukowe na podstawie wielu źródeł danych, że mechanizmy uwagi (podobne do tych w ChatGPT) potrafią odkrywać kluczowe zależności i korelacje w źródłach danych oraz że AI-ML potrafi samodzielnie oceniać jakość swoich wyników. AI-ML to w istocie uprawianie nauki.
Czas publikacji: 23.09.2023




