Studija otkriva da je većinu AI chatbotova lako prevariti da daju opasne odgovore

CHATBOTOVI pokretani umjetnom inteligencijom predstavljaju prijetnju jer omogućuju jednostavan pristup opasnim informacijama otkrivanjem nedopuštenih ili štetnih podataka koje su programi usvojili tijekom treniranja, upozoravaju istraživači, piše The Guardian.
Upozorenje dolazi usred uznemirujućeg trenda vezanog uz chatbotove koji su "probijeni" (jailbroken) kako bi se zaobišle njihove ugrađene sigurnosne kontrole. Ta su ograničenja osmišljena kako bi spriječila programe da korisnicima pružaju štetne, pristrane ili neprimjerene odgovore. Motori koji pokreću chatbotove poput ChatGPT-a, Geminija i Claudea – veliki jezični modeli (LLM-ovi) – napajaju se golemim količinama materijala s interneta.
Unatoč nastojanjima da se iz podataka za treniranje uklone štetni tekstovi, LLM-ovi i dalje mogu upiti informacije o nezakonitim aktivnostima poput hakiranja, pranja novca, trgovanja povlaštenim informacijama i izrade bombi. Sigurnosne kontrole dizajnirane su kako bi ih spriječile da koriste te informacije u svojim odgovorima.
Rizik je neposredan, konkretan i duboko zabrinjavajući
U izvješću o toj prijetnji istraživači zaključuju da je većinu chatbotova pokretanih umjetnom inteligencijom lako prevariti kako bi generirali štetne i nezakonite informacije, ističući da je rizik "neposredan, konkretan i duboko zabrinjavajući".
"Ono što je nekada bilo dostupno samo državnim agencijama ili organiziranim kriminalnim skupinama moglo bi uskoro biti u rukama bilo koga tko ima prijenosno računalo ili čak mobilni telefon", upozoravaju autori.
Istraživanje, koje su vodili profesor Lior Rokach i dr. Michael Fire sa Sveučilišta Ben Gurion u Negevu u Izraelu, identificiralo je rastuću prijetnju od "mračnih LLM-ova", AI modela koji su ili namjerno dizajnirani bez sigurnosnih kontrola ili su modificirani probijanjem.
Neki se otvoreno reklamiraju na internetu kao modeli "bez etičkih ograničenja" i spremni pomoći u nezakonitim aktivnostima poput kibernetičkog kriminala i prijevara. Probijanje obično koristi pažljivo izrađene upite (promptove) kako bi prevarili chatbotove da generiraju odgovore koji su inače zabranjeni.
Oni funkcioniraju iskorištavanjem napetosti između primarnog cilja programa - slijediti upute korisnika - i sekundarnog cilja - izbjegavati generiranje štetnih, pristranih, neetičkih ili nezakonitih odgovora. Ti upiti obično stvaraju scenarije u kojima program daje prednost korisnosti nad sigurnosnim ograničenjima.
Kako bi demonstrirali problem, istraživači su razvili univerzalni jailbreak koji je kompromitirao više vodećih chatbotova, omogućivši im da odgovaraju na pitanja koja bi inače trebala biti odbijena. Jednom kompromitirani, LLM-ovi su dosljedno generirali odgovore na gotovo svaki upit, navodi se u izvješću.
Kombinacija pristupačnosti i prilagodljivosti
"Bilo je šokantno vidjeti što sve ovaj sustav zna", rekao je Fire. Primjeri su uključivali upute kako hakirati računalne mreže ili proizvoditi drogu, kao i upute korak po korak za druge kriminalne aktivnosti. "Ono što ovu prijetnju čini drugačijom od prethodnih tehnoloških rizika jest njezina neviđena kombinacija pristupačnosti i prilagodljivosti", dodao je Rokach.
Istraživači su kontaktirali vodeće tvrtke za razvoj LLM-ova kako bi ih upozorili na univerzalni jailbreak, no kažu da je odgovor bio "ispod očekivanja". Nekoliko tvrtki nije uopće odgovorilo, dok su druge rekle da napadi putem jailbreaka ne spadaju u nagradne programe koji honoriraju etičke hakere za prijavljivanje ranjivosti u softveru.
Izvješće navodi da bi tehnološke tvrtke trebale pažljivije provjeravati podatke za treniranje, dodati snažne zaštitne mehanizme koji blokiraju rizične upite i odgovore te razviti tehnike "strojnog razlučivanja" kako bi chatbotovi mogli "zaboraviti" sve nedopuštene informacije koje su usvojili.
Mračne i nezaštićene LLM-ove treba promatrati kao "ozbiljne sigurnosne rizike", usporedive s neregistriranim vatrenim oružjem i eksplozivima, a pružatelji bi trebali snositi odgovornost, navodi se u izvješću.
Odgovornost će ostati površna
Dr. Ihsen Alouani, koji se bavi sigurnošću umjetne inteligencije na Sveučilištu Queen's u Belfastu, rekao je da jailbreak napadi na LLM-ove mogu predstavljati stvarne rizike, od pružanja detaljnih uputa za izradu oružja do uvjerljive dezinformacije, socijalnog inženjeringa i automatiziranih prijevara "s alarmantnom sofisticiranošću".
"Ključni dio rješenja je da tvrtke ozbiljnije ulažu u 'red teaming' i tehnike robusnosti na razini modela, umjesto da se oslanjaju isključivo na zaštite na razini korisničkog sučelja. Također nam trebaju jasniji standardi i neovisni nadzor kako bismo držali korak s razvojem prijetnji", rekao je Alouani.
Profesor Peter Garraghan, stručnjak za sigurnost umjetne inteligencije sa Sveučilišta Lancaster, rekao je sljedeće: "Organizacije moraju tretirati LLM-ove kao bilo koju drugu ključnu komponentu softvera – onu koja zahtijeva rigorozno sigurnosno testiranje, kontinuirani 'red teaming' i modeliranje prijetnji u kontekstu."
"Da, jailbreakovi su razlog za zabrinutost, ali bez razumijevanja cijelog sustava umjetne inteligencije, odgovornost će ostati površna. Prava sigurnost zahtijeva ne samo odgovorno prijavljivanje već i odgovorno dizajniranje i implementaciju", dodao je Garraghan.

bi Vas mogao zanimati
Izdvojeno
Pročitajte još
bi Vas mogao zanimati