baner_strony

aktualności

Model Dużego Języka (LLM) pozwala pisać przekonujące artykuły oparte na słowach kluczowych, zdawać egzaminy zawodowe oraz tworzyć przyjazne i empatyczne informacje. Jednak oprócz dobrze znanych zagrożeń związanych z fikcją, kruchością i nieścisłościami w LLM, stopniowo w centrum uwagi znajdują się inne nierozwiązane problemy, takie jak modele sztucznej inteligencji zawierające potencjalnie dyskryminujące „wartości ludzkie” w procesie ich tworzenia i użytkowania. Nawet jeśli LLM przestanie tworzyć treści i wyeliminuje ewidentnie szkodliwe wyniki, „wartości LLM” mogą nadal odbiegać od wartości ludzkich.

 

Niezliczone przykłady ilustrują, jak dane wykorzystywane do trenowania modeli sztucznej inteligencji kodują wartości indywidualne i społeczne, które mogą zostać utrwalone w modelu. Przykłady te obejmują szereg zastosowań, w tym automatyczną interpretację zdjęć rentgenowskich klatki piersiowej, klasyfikację chorób skóry oraz algorytmiczne podejmowanie decyzji dotyczących alokacji zasobów medycznych. Jak stwierdzono w niedawnym artykule w naszym czasopiśmie, tendencyjne dane treningowe mogą wzmacniać i ujawniać wartości i uprzedzenia obecne w społeczeństwie. Wręcz przeciwnie, badania wykazały również, że sztuczna inteligencja może być wykorzystana do redukcji uprzedzeń. Na przykład, naukowcy zastosowali modele głębokiego uczenia do zdjęć rentgenowskich kolana i odkryli czynniki, które były pomijane przez standardowe wskaźniki nasilenia (oceniane przez radiologów) w stawie kolanowym, zmniejszając w ten sposób niewyjaśnione różnice w bólu między pacjentami rasy czarnej i białej.

Chociaż coraz więcej osób dostrzega stronniczość modeli sztucznej inteligencji, zwłaszcza w odniesieniu do danych treningowych, wiele innych punktów wejścia w ludzkie wartości nie jest wystarczająco uwzględnianych w procesie rozwoju i wdrażania modeli sztucznej inteligencji. Medyczna sztuczna inteligencja osiągnęła ostatnio imponujące wyniki, ale w dużej mierze nie uwzględniała ona wprost ludzkich wartości i ich interakcji z oceną ryzyka i rozumowaniem probabilistycznym, ani nie była modelowana.

 

Aby zobrazować te abstrakcyjne koncepcje, wyobraź sobie, że jesteś endokrynologiem, który musi przepisać rekombinowany ludzki hormon wzrostu 8-letniemu chłopcu, który znajduje się poniżej 3. percentyla swojego wieku. Stymulowany poziom ludzkiego hormonu wzrostu u chłopca wynosi poniżej 2 ng/ml (wartość referencyjna >10 ng/ml, wartość referencyjna dla wielu krajów poza Stanami Zjednoczonymi >7 ng/ml), a w jego genie kodującym ludzki hormon wzrostu wykryto rzadkie mutacje inaktywujące. Uważamy, że zastosowanie terapii ludzkim hormonem wzrostu jest oczywiste i niepodważalne w tym kontekście klinicznym.

Zastosowanie terapii hormonem wzrostu w następujących scenariuszach może budzić kontrowersje: wzrost 14-letniego chłopca zawsze mieścił się w 10. percentylu jego rówieśników, a szczytowe stężenie hormonu wzrostu po stymulacji wynosi 8 ng/ml. Nie są znane żadne mutacje funkcjonalne, które mogłyby wpływać na wzrost, ani inne znane przyczyny niskiego wzrostu, a jego wiek kostny wynosi 15 lat (tj. brak opóźnienia rozwojowego). Jedynie część kontrowersji wynika z różnic w wartościach progowych ustalonych przez ekspertów na podstawie dziesiątek badań dotyczących poziomów hormonu wzrostu stosowanych do diagnozowania izolowanego niedoboru hormonu wzrostu. Co najmniej tyle samo kontrowersji wynika z bilansu korzyści i ryzyka stosowania terapii hormonem wzrostu z perspektywy pacjentów, rodziców pacjentów, pracowników służby zdrowia, firm farmaceutycznych i płatników. Endokrynolodzy pediatrzy mogą rozważać rzadkie działania niepożądane codziennych zastrzyków hormonu wzrostu przez 2 lata z prawdopodobieństwem braku lub jedynie minimalnego wzrostu masy ciała osoby dorosłej w porównaniu z obecną sytuacją. Chłopcy mogą uważać, że nawet jeśli ich wzrost zwiększy się tylko o 2 cm, warto wstrzykiwać sobie hormon wzrostu, ale płatnik i firma farmaceutyczna mogą mieć odmienne zdanie.

 

Jako przykład bierzemy wskaźnik eGFR oparty na kreatyninie, który jest powszechnie stosowanym wskaźnikiem czynności nerek do diagnozowania i określania stopnia zaawansowania przewlekłej choroby nerek, ustalania warunków przeszczepu lub donacji nerki oraz określania kryteriów redukcji i przeciwwskazań dla wielu leków na receptę. EGFR to proste równanie regresji służące do szacowania zmierzonego wskaźnika filtracji kłębuszkowej (mGFR), który jest standardem odniesienia, ale metoda oceny jest stosunkowo uciążliwa. To równanie regresji nie może być uznane za model sztucznej inteligencji, ale ilustruje wiele zasad dotyczących wartości ludzkich i rozumowania probabilistycznego.

Pierwszym punktem wejścia wartości ludzkich do eGFR jest wybór danych do równań dopasowania. Pierwotna kolejka użyta do zaprojektowania wzoru eGFR składa się głównie z uczestników rasy białej i czarnej, a jej zastosowanie do wielu innych grup etnicznych nie jest jasne. Kolejne punkty wejścia wartości ludzkich do tego wzoru to: wybór dokładności mGFR jako głównego celu oceny funkcji nerek, określenie akceptowalnego poziomu dokładności, sposobu pomiaru dokładności oraz wykorzystanie eGFR jako progu dla podejmowania decyzji klinicznych (takich jak określenie warunków przeszczepu nerki lub przepisanie leku). Wreszcie, podczas wyboru zawartości modelu wejściowego, wartości ludzkie również zostaną uwzględnione w tym wzorze.

Na przykład, przed rokiem 2021 wytyczne sugerowały dostosowanie poziomu kreatyniny we wzorze eGFR na podstawie wieku pacjenta, płci i rasy (klasyfikowanych tylko jako osoby czarnoskóre lub nie-czarne). Dostosowanie oparte na rasie ma na celu poprawę dokładności wzoru mGFR, ale w 2020 roku duże szpitale zaczęły kwestionować stosowanie eGFR opartego na rasie, powołując się na takie powody, jak opóźnienie kwalifikacji pacjenta do przeszczepu i konkretyzacja rasy jako pojęcia biologicznego. Badania wykazały, że projektowanie modeli eGFR w kontekście rasy może mieć głęboki i zróżnicowany wpływ na dokładność i wyniki kliniczne; Dlatego selektywne skupianie się na dokładności lub koncentrowanie się na części wyników odzwierciedla osądy wartościujące i może maskować transparentne podejmowanie decyzji. Wreszcie, krajowa grupa robocza zaproponowała nowy wzór, który został zmodyfikowany bez uwzględnienia rasy, aby zrównoważyć kwestie wydajności i sprawiedliwości. Ten przykład ilustruje, że nawet prosty wzór kliniczny ma wiele punktów wejścia w wartości ludzkie.

Lekarz z wirtualną rzeczywistością na sali operacyjnej w szpitalu. Chirurg analizujący wyniki badań serca pacjenta i anatomię człowieka przy użyciu technologicznego, cyfrowego, futurystycznego interfejsu wirtualnego, holograficznego, innowacyjnego w nauce i medycynie konceptu.

W porównaniu do wzorów klinicznych z niewielką liczbą wskaźników predykcyjnych, LLM może składać się z miliardów, a nawet setek miliardów parametrów (wag modeli) lub więcej, co utrudnia jego zrozumienie. Powodem, dla którego mówimy „trudny do zrozumienia”, jest to, że w większości LLM nie można dokładnie określić sposobu uzyskiwania odpowiedzi poprzez zadawanie pytań. Liczba parametrów dla GPT-4 nie została jeszcze ogłoszona; jego poprzednik GPT-3 miał 175 miliardów parametrów. Więcej parametrów niekoniecznie oznacza większe możliwości, ponieważ mniejsze modele, które obejmują więcej cykli obliczeniowych (takie jak seria modeli LLaMA [Large Language Model Meta AI]) lub modele precyzyjnie dostrojone na podstawie opinii użytkowników będą działać lepiej niż większe modele. Na przykład, według oceniających, model InstrumentGPT (model z 1,3 miliarda parametrów) przewyższa GPT-3 pod względem optymalizacji wyników modelu.

Szczegóły dotyczące treningu GPT-4 nie zostały jeszcze ujawnione, ale ujawniono szczegóły dotyczące modeli poprzedniej generacji, w tym GPT-3, InstrumentGPT i wielu innych modeli LLM o otwartym kodzie źródłowym. Obecnie wiele modeli AI jest wyposażonych w karty modelowe; dane dotyczące ewaluacji i bezpieczeństwa GPT-4 zostały opublikowane w podobnej karcie systemowej dostarczonej przez firmę OpenAI, zajmującą się tworzeniem modeli. Tworzenie modelu LLM można z grubsza podzielić na dwa etapy: początkowy etap wstępnego treningu oraz etap dostrajania, mający na celu optymalizację wyników modelu. Na etapie wstępnego treningu model otrzymuje obszerny korpus zawierający oryginalny tekst internetowy, który służy do trenowania go w celu przewidywania kolejnego słowa. Ten pozornie prosty proces „automatycznego uzupełniania” tworzy potężny model podstawowy, ale może również prowadzić do szkodliwych zachowań. Wartości ludzkie wkroczą na etap wstępnego treningu, w tym wybór danych przedtreningowych dla GPT-4 i decyzja o usunięciu z nich nieodpowiednich treści, takich jak treści pornograficzne. Pomimo tych wysiłków, model podstawowy może nadal nie być ani użyteczny, ani zdolny do powstrzymania szkodliwych wyników. W kolejnym etapie dopracowywania wyłoni się wiele pożytecznych i nieszkodliwych zachowań.

Na etapie dostrajania zachowanie modeli językowych jest często głęboko modyfikowane poprzez nadzorowane dostrajanie i uczenie przez wzmacnianie oparte na sprzężeniu zwrotnym od człowieka. Na etapie dostrajania przez nadzorowanie zatrudnieni pracownicy kontraktowi piszą przykłady odpowiedzi na słowa kluczowe i bezpośrednio trenują model. Na etapie uczenia przez wzmacnianie opartego na sprzężeniu zwrotnym od człowieka, ludzcy ewaluatorzy sortują wyniki modelu jako przykłady treści wejściowych. Następnie stosują powyższe wyniki porównawcze, aby poznać „model nagrody” i dalej udoskonalać model poprzez uczenie przez wzmacnianie. Niesamowity, niewielki poziom zaangażowania człowieka pozwala na dostrojenie tych rozbudowanych modeli. Na przykład, model InstrumentGPT wykorzystał zespół około 40 pracowników kontraktowych, zrekrutowanych za pośrednictwem stron internetowych wykorzystujących crowdsourcing, i przeszedł test przesiewowy mający na celu wyłonienie grupy adnotatorów wrażliwych na preferencje różnych grup populacji.

Jak pokazują te dwa skrajne przykłady, a mianowicie prosty wzór kliniczny [eGFR] i potężny wzór LLM [GPT-4], ludzkie podejmowanie decyzji i ludzkie wartości odgrywają niezbędną rolę w kształtowaniu wyników modeli. Czy te modele sztucznej inteligencji (AI) potrafią uchwycić zróżnicowane wartości pacjentów i lekarzy? Jak publicznie kierować zastosowaniem AI w medycynie? Jak wspomniano poniżej, ponowna analiza analizy decyzji medycznych może przynieść zasadnicze rozwiązanie tych problemów.

 

Analiza decyzji medycznych nie jest znana wielu klinicystom, ale pozwala ona odróżnić rozumowanie probabilistyczne (dla niepewnych rezultatów związanych z podejmowaniem decyzji, takich jak podanie ludzkiego hormonu wzrostu w kontrowersyjnym scenariuszu klinicznym przedstawionym na rysunku 1) od czynników decyzyjnych (dla subiektywnych wartości przypisywanych tym rezultatom, których wartość jest kwantyfikowana jako „użyteczność”, taka jak wartość 2 cm wzrostu u mężczyzny), zapewniając systematyczne rozwiązania dla złożonych decyzji medycznych. W analizie decyzji klinicyści muszą najpierw określić wszystkie możliwe decyzje i prawdopodobieństwa związane z każdym rezultatem, a następnie uwzględnić użyteczność pacjenta (lub innej strony) związaną z każdym rezultatem, aby wybrać najodpowiedniejszą opcję. Dlatego trafność analizy decyzji zależy od tego, czy ustawienie rezultatu jest kompleksowe, a także od tego, czy pomiar użyteczności i oszacowanie prawdopodobieństwa są dokładne. W idealnym przypadku takie podejście pomaga zapewnić, że decyzje są oparte na dowodach i zgodne z preferencjami pacjenta, zmniejszając w ten sposób lukę między obiektywnymi danymi a osobistymi wartościami. Metodę tę wprowadzono do medycyny kilkadziesiąt lat temu i zastosowano do podejmowania decyzji u poszczególnych pacjentów oraz do oceny stanu zdrowia populacji, np. do opracowywania zaleceń dotyczących badań przesiewowych w kierunku raka jelita grubego dla ogółu populacji.

 

W analizie decyzji medycznych opracowano różne metody określania użyteczności. Większość tradycyjnych metod bezpośrednio czerpie wartość z doświadczeń poszczególnych pacjentów. Najprostszą metodą jest użycie skali ocen, w której pacjenci oceniają swój poziom preferencji co do określonego rezultatu na skali cyfrowej (np. skali liniowej od 1 do 10), przy czym skrajne skutki zdrowotne (takie jak pełne zdrowie i śmierć) znajdują się na obu krańcach. Metoda wymiany czasu to kolejna powszechnie stosowana metoda. W tej metodzie pacjenci muszą podjąć decyzję, ile czasu są skłonni poświęcić na zdrowie w zamian za okres złego stanu zdrowia. Standardowa metoda hazardowa to kolejna powszechnie stosowana metoda określania użyteczności. W tej metodzie pacjenci są pytani, którą z dwóch opcji preferują: albo przeżyć określoną liczbę lat w normalnym zdrowiu z określonym prawdopodobieństwem (p) (t) i ponieść ryzyko śmierci z prawdopodobieństwem 1 p; albo upewnić się, że przeżyją t lat w różnych warunkach zdrowotnych. Pytaj pacjentów wielokrotnie przy różnych wartościach p, aż nie będą preferować żadnej opcji, aby można było obliczyć użyteczność na podstawie ich odpowiedzi.
Oprócz metod wykorzystywanych do badania indywidualnych preferencji pacjentów, opracowano również metody mające na celu uzyskanie użyteczności dla całej populacji pacjentów. Szczególnie dyskusje w grupach fokusowych (zgromadzenie pacjentów w celu omówienia konkretnych doświadczeń) mogą pomóc w zrozumieniu ich perspektyw. Aby skutecznie agregować użyteczność grupy, zaproponowano różne techniki ustrukturyzowanej dyskusji grupowej.
W praktyce bezpośrednie wprowadzenie użyteczności do procesu diagnostyki klinicznej i leczenia jest bardzo czasochłonne. Rozwiązaniem tego problemu są zazwyczaj kwestionariusze ankietowe, które są zazwyczaj dystrybuowane do losowo wybranych populacji w celu uzyskania wyników użyteczności na poziomie populacji. Przykładami są 5-wymiarowy kwestionariusz EuroQol, skrócona wersja 6-wymiarowego kwestionariusza użyteczności, Wskaźnik Użyteczności Zdrowia (Health Utility Index) oraz narzędzie Cancer Specific European Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30.


Czas publikacji: 01-06-2024