Piše Tedi Rozenblut za "Njujork tajms"
Eksperiment je pokazao da vještačka inteligencija (artificial intelligence-AI/AI) nije bolja od Gugla, koji je već dosta loš izvor informacija o zdravstvenim pitanjima, u postavljanju dijagnoze ili u tome da im pomogne da odluče šta dalje. Osim toga, tehnologija je donijela određene rizike time što nekad pruži pogrešne informacije ili dramatično promijeni savjete spram sitnih izmjena u formulaciji pitanja koje korisnik postavlja.
Nijedan model procjenjivan u eksperimentu nije se pokazao "spreman za upotrebu u neposrednoj njezi pacijenata", zaključili su istraživači za časopis "Prirodna medicina".
U periodu od tri godine, otkad su AI čatbotovi postali javno dostupni, zdravstvena pitanja su postala jedna od najzastupljenijih tema o kojima korisnici postavljaju pitanja.
Neki doktori redovno čuju od svojih pacijenta kako su konsultovali neki program AI i prvo od njega tražili mišljenje. Istraživanja su pokazala da svaka šesta odrasla osoba bar jednom mjesečno postavi pitanje o zdravlju vještačkoj inteligenciji. Velike AI kompanije, među kojima su Amazon i OpenAI, lansirali su proizvode posebno namijenjene da odgovaraju na pitanja o zdravlju.
Ti alati su opravdano izazvali uzbuđenje; ovi modeli su testirani i položili su stručne medicinske ispite. Takođe, nadmašili su doktore u postavljanju izazovnih dijagnoza.
Ipak, Adam Mahdi, profesor na Oksfordskom institutu za internet i stručni saradnik na novijim istržaivanjima, ukazuje na to da jasna direktna medicinska pitanja nisu baš garancija za to koliko će to biti primjenjivo na stvarnim pacijentima.
Stoga su on i njegove kolege napravile eksperiment. Više od 1.200 učesnika iz Britanije, od kojih većina nije prošla nikakvu medicinsku obuku, dobilo je detaljan medicinski scenario, sa svim simptomima, opštim opisom životnog stila i istoriju bolesti. Istraživačima je rečeno da treba da se konsultuju sa čatbotom kako bi zaključili koji su sljedeći koraci, tj. treba li zvati hitnu pomoć ili se liječiti kod kuće. Testirali su komercijalni AI poput ČatGPT (ChatGPT) i Lama (Llama).
Istraživači su ocijenili da su učesnici, u manje od polovine slučajeva, izabrali "ispravan" slijed događaja, koji je unaprijed definisao tim ljekara.
Korisnici su ispravno identifikovali stanje, poput kamena u žuči ili subarahnoidnog krvarenja, u oko 34% slučajeva.
Nisu bili uspješniji od kontrolne grupe, čiji su članovi dobili zadatak da obave isti zadatak koristeći bilo koju metodu istraživanja koju bi inače koristili kod kuće, što je uglavnom korišćenje Gugla.
Eksperiment nije savršeni prikaz toga kako čatbotovi daju odgovore na zdravstvena pitanja. Korisnici su, u ovom eksperimentu, propitivali o izmišljenjim scenarijima, što se, moguće, razlikuje od toga kako bi komunicirali sa čatbotom da je njihovo zdravlje u pitanju, kaže dr Itan Goh, lider AI Riserč (AI Research) i Mreže za naučne procjene na Univerzitetu u Stenfordu.
Budući da kompanije koje razvijaju AI često lansiraju nove verzije modela, čatbotovi koje su učesnici koristili prije godinu tokom eksperimenta vjerovatno se razlikuju od modela sa kojima korisnici danas komuniciraju. Portparol OpenAI-ja rekao je da su modeli koji danas pokreću ČatGPT znatno bolji u odgovaranju na zdravstvena pitanja nego model testiran u istraživanju, koji je od tada povučen. Naveli su interne podatke koji pokazuju da su mnogi novi modeli mnogo rjeđe pravili uobičajene greške, uključujući izmišljene podatke i greške u potencijalno hitnim situacijama. Kompanija Meta nije odgovorila na zahtjev za komentar.
U nekoliko navrata, čatbotovi su takođe davali izmišljene informacije. U jednom slučaju, AI model je savjetovao učesnika da pozove hitnu pomoć, a kontakt nije imao dovoljno cifara da bude stvarni telefonski broj koji se može pozvati.
Ipak, istraživanje jeste rasvijetlilo kako komunikacija sa čatbotom može poći naopako.
Kada su istraživači detaljno analizirali interakcije sa čatbotom, otkrili su da je u otprilike polovini slučajeva do grešaka dolazilo usljed grešaka korisnika. Učesnici nisu unijeli dovoljno informacija ili najvažnije simptome, pa su čatbotovi davali savjete na osnovu nepotpunog prikaza problema.
Jedan čatbot kazao je korisniku da su "jak bol u stomaku", koji je trajao sat, mogle uzrokovati smetnje sa varenjem. Međutim, učesnik nije naveo detalje o jačini, mjestu i intenzitetu bola, što bi, najvjerovatnije, navelo čatbot da pruži tačnu dijagnozu, a to je kamen u žuči.
Nasuprot tome, kada su istraživači unijeli čitav medicinski scenario u čatbot, postavljena je tačna dijagnoza u 94% posto slučajeva.
Ljekari na medicinskom fakultetu većinom uče kako da prepoznaju relevantne detalje, kao i to koje treba zanemariti.
"Postoji mnogo kognitivne magije i iskustva koje je potrebno da bi se shvatilo koji elementi slučaja su važni i koje treba unijeti u čatbot", rekao je dr Robert Vahter, šef Odsjeka za medicinu na Univerzitetu Kalifornija u San Francisku, koji proučava primjenu AI u zdravstvenoj zaštiti.
Endru Bin, student završne godine na Univerzitetu u Oksfordu, kaže da teret ne treba da padne samo na korisnike i na to da oni savršeno sroče pitanje. Kazao je i da čatbot treba da postavi potpitanja, isto kao što bi doktor prikupljao informacije od pacijenata.
"Je li na korisniku da zna koje simptome treba da istakne ili, jednim dijelom, AI program treba da zna šta da pita", rekao je on.
Članak je objavio "Njujork tajms"
c.2026 The New York Times Company
