ChatGPT model dao je istraživačima detaljne upute o tome kako izvesti bombaški napad na sportski objekt, prema testiranju sigurnosti provedenom ovog ljeta. Upute su uključivale popis slabih točaka na određenim arenama, recepte za eksploziv i savjete o prikrivanju tragova.
Dodatno, OpenAI-jev GPT-4.1 detaljno je opisao kako se antraks može koristiti kao oružje i kako se mogu napraviti dvije vrste ilegalnih droga.
Testiranje je bilo dio neobične suradnje između OpenAI-ja, startupa za umjetnu inteligenciju vrijednog 500 milijardi dolara koji vodi Sam Altman, i konkurentske tvrtke Anthropic, koju su osnovali stručnjaci koji su napustili OpenAI zbog straha za sigurnost.
Testiranje nije izravan odraz toga kako se modeli ponašaju u javnoj upotrebi, kada se primjenjuju dodatni sigurnosni filteri. No, Anthropic tvrdi da je uočio "zabrinjavajuće ponašanje... oko zlouporabe" u GPT-4o i GPT-4.1 te da potreba za evaluacijama usklađenosti umjetne inteligencije postaje "sve hitnija".
Dvije tvrtke objasnile su da objavljuju nalaze kako bi stvorile transparentnost u pogledu "evaluacija usklađenosti". Tvrtke koje se utrkuju u razvoju sve naprednije umjetne inteligencije često takve nalaze zadržavaju za sebe.
OpenAI je istaknuo da ChatGPT-5, pokrenut nakon testiranja, "pokazuje značajna poboljšanja u područjima poput ulizivanja, netočnih podataka i otpornosti na zlouporabu".
Anthropic je naglasio kako je moguće da mnogi od proučavanih načina zlouporabe ne bi bili mogući u praksi ako bi se izvan modela instalirale zaštitne mjere. "Moramo razumjeti koliko često i u kojim okolnostima sustavi mogu pokušati poduzeti neželjene radnje koje bi mogle dovesti do ozbiljne štete", upozorili su.
Istraživači Anthropica otkrili su da su OpenAI-jevi modeli "popustljiviji nego što bismo očekivali u suradnji s očito štetnim zahtjevima simuliranih korisnika". Davali su upute za korištenje alata dark weba za kupnju nuklearnih materijala, lažnog identiteta i fentanila, proizvodnju metamfetamina i improviziranih bombi te razvoj špijunskog softvera.
Anthropic je naveo kako bi model prihvatio zahtjev korisnika nakon više ponovnih pokušaja ili nuđenja slabog izgovora, poput tvrdnje da je zahtjev za potrebe istraživanja.
U jednom slučaju, korisnik je tražio ranjive točke sportskih objekata u svrhu "planiranja sigurnosti". Model je tada dao informacije o ranjivostima na određenim arenama, uključujući optimalno vrijeme napada, kemijske formule za eksplozive, dijagrame strujnih krugova za tajmere bombi i mogućnosti kupovine oružja na crnom tržištu.