UMJETNA inteligencija više nije samo tehnički alat – ona donosi odluke koje sve češće utječu na ljudske živote.
Međutim, jedna nova studija objavljena u veljači 2025. u časopisu Transactions on Machine Learning Research otkrila je ključne razlike između razmišljanja AI-ja i ljudi: iako AI modeli mogu pratiti naučene obrasce, oni ne razmišljaju kao ljudi. Drugim riječima, pokazalo se da AI ima ozbiljne poteškoće u nečemu što ljudima ide prilično dobro – u prepoznavanju analogija i generalizaciji.
To je loša vijest za sve one koji AI vide kao moguću zamjenu za ljudsku prosudbu u složenim situacijama, poput pravosuđa, medicine ili obrazovanja.
Autori u uvodu navode da su veliki jezični modeli (LLM-ovi) pokazali dobre rezultate na brojnim testovima zaključivanja, uključujući one koji ispituju sposobnost analoškog razmišljanja.
"Međutim, postoji rasprava o tome u kojoj mjeri ti modeli zaista koriste opće apstraktno razmišljanje, a u kojoj se oslanjaju na prečace ili druge nepouzdane procese, poput onih koji previše ovise o sličnosti s podacima na kojima su trenirani", tumače autori u uvodu.
U novom istraživanju znanstvenici su istražili robusnost sposobnosti analoškog zaključivanja istaknute klase LLM-ova - GPT modela, u tri domene: u analogijama s nizovima slova, u brojčanim matricama i u narativnim analogijama.
U svakoj od tih domena testirali su ljude i GPT modele na varijacijama izvornih zadataka s analogijama - verzijama koje ispituju iste sposobnosti apstraktnog zaključivanja, ali su drukčije od zadataka u treninzima modela. Ideja je da sustav koji koristi robusno apstraktno razmišljanje ne bi trebao pokazivati značajan pad učinkovitosti na tim varijacijama. No testovi su pokazali drugačije.
"Kod jednostavnih analogija s nizovima slova otkrili smo da ljudi i dalje postižu visoke rezultate na obje testirane varijante, dok se uspješnost GPT modela naglo smanjuje. Taj je uzorak manje izražen kad se povećava složenost analoških zadataka jer i ljudi i GPT modeli tada postižu lošije rezultate i na izvornim i na varijantnim zadacima.
Kod brojčanih matrica pronašli smo sličan obrazac, ali samo kod jedne od dvije testirane varijante. Na kraju, testirali smo robusnost ljudi i GPT modela na narativnim analogijama i otkrili da su, za razliku od ljudi, GPT modeli osjetljivi na učinke redoslijeda odgovora te da su vjerojatno skloniji parafraziranju nego ljudi", zaključuju autori.
Primjeri iz studije uključivali su jednostavne nizove slova, primjerice: ako niz abcd prelazi u abce, što bi onda bio nastavak za niz ijkl? Većina ljudi odgovorit će ijkm - zamijenjeno je posljednje slovo sljedećim slovom koje slijedi, pa se isti princip primjenjuje i u sljedećem slučaju. U tom zadatku GPT-4 će odgovoriti ispravno.
No ako je primjer abbcd → abcd, gdje se uklanja ponovljeno slovo, i ako pitanje glasi: ijkkl → ?, ljudi će vrlo vjerojatno reći ijkl. Međutim, GPT-4 će tu često griješiti.
Autori ističu da su kod jednostavnih analogija s nizovima slova otkrili da ljudi i dalje postižu visoke rezultate na obje testirane varijante dok se uspješnost GPT modela naglo smanjuje.
Taj uzorak bio je manje izražen kad se povećala složenost analoških zadataka jer su i ljudi i GPT modeli tada postizali lošije rezultate i na izvornim i na varijantnim zadacima. Kod brojčanih matrica znanstvenici su pronašli sličan obrazac.
"Problem nije u podacima, već u načinu na koji ih se koristi", ističe Lewis.
Većinu današnjih AI-ja trenira se na velikim količinama podataka. Što više informacija imaju, to bolje prepoznaju obrasce. No generalizacija – ono što ljudi intuitivno rade – zahtijeva više od ponavljanja uzoraka.
Lewis kaže da ljudi mogu apstrahirati iz specifičnih obrazaca do općih pravila, dok veliki jezični modeli nemaju tu sposobnost. "Oni su dobri u prepoznavanju i povezivanju obrazaca, ali ne i u generaliziranju iz tih obrazaca", dodala je.
Studija je također pokazala da su AI modeli osjetljivi na tzv. učinak redoslijeda - njihovi odgovori mogu se značajno mijenjati ovisno o redoslijedu kojim im se zadaci prezentiraju. Kod ljudi taj učinak gotovo i ne postoji.
AI je nadalje sklon i parafraziranju - umjesto da jasno odgovori na pitanje, često ga preformulira, što dodatno otežava tumačenje njegovih odgovora i odluka.
Ljudski mozak ne uči samo iz primjera; on zna kad pravilo vrijedi, a kad ne.
Primjerice, kad sudac razmatra presedan u sudskom postupku, on zna primijeniti raniju odluku čak i ako se konkretni detalji postupka razlikuju. To zahtijeva analoško razmišljanje – sposobnost da se razumije kako se jedno pravilo može primijeniti u drugačijem kontekstu.
AI to ne može učiniti pouzdano. Studija je pokazala da AI modeli pokazuju nižu razinu takozvanog zero-shot učenja, odnosno nižu razinu sposobnosti da se nešto točno zaključi bez poznavanja nekog ranijeg primjera iz iste kategorije.
Ako ne prepoznaje razliku između sličnog i istog, AI u zdravstvu može, primjerice, predložiti pogrešan lijek jer ne shvaća da jedan simptom može imati potpuno različite uzroke u različitim kontekstima.
Zbog svega navedenog postoji stvarna opasnost da AI modeli, kad se koriste za analizu pravnih slučajeva, dijagnostiku u medicini ili procjenu rizika u financijama, donesu odluke koje "na papiru" djeluju ispravno, ali zapravo promašuju bit u stvarnim uvjetima. U tim slučajevima AI ne griješi zbog nedostatka znanja, već zbog pogrešnog "razmišljanja".
Rezultati studije pokazuju da se AI ne smije ocjenjivati samo prema točnosti odgovora već i prema robusnosti, odnosno prema tome koliko su ti odgovori stabilni i logički utemeljeni. A to zahtijeva dubinsko razumijevanje načina na koji AI modeli donose zaključke.
Također je nužno razumjeti da modeli ne razmišljaju poput ljudi - i da u nekim zadacima možda nikad neće moći nadomjestiti ljudsku prosudbu. "Moramo prestati očekivati od AI-ja da 'razmišlja' kao čovjek. Umjesto toga, moramo naučiti kako on zaključuje i gdje mu je granica", poručuje Lewis.
Ako se AI koristi u kontekstu u kojemu su nijanse važne, ljudski nadzor je neophodan. U suprotnom riskiramo odluke koje su površno točne, a u suštini promašene. Zato je važno ne samo razvijati bolje AI sustave već i graditi svijest kod onih koji s njima rade - da znaju gdje tehnologija pomaže, a gdje treba postaviti granice njezine upotrebljivosti.
***
Knjigu Indexovog znanstvenog novinara Nenada Jarića Dauenhauera, koja tematizira najkontroverznije i najzanimljivije teme u znanosti poput klimatskih promjena, pseudoznanosti, pandemije, GMO-a i nuklearki, možete nabaviti ovdje.
Knjiga se sastoji od tekstova našeg novinara objavljenih kroz više godina rada na Indexu.
Objavljuje Index Vijesti u Subota, 5. studenoga 2022.