OpenAI pētījums skaidro, kāpēc MI halucinē. Problēma slēpjas vērtēšanas sistēmās, kas atalgo minēšanu, ko varētu risināt ar kļūdu sodīšanu.
Jauns OpenAI pētījums uzdod jautājumu, kāpēc mākslīgā intelekta (MI) lielie valodu modeļi, tostarp GPT-5 un čatboti kā ChatGPT, joprojām “halucinē” – un vai šo problēmu vispār iespējams atrisināt.
Halucinācijas OpenAI definē kā “ticami izklausītus, bet nepatiesus apgalvojumus, ko ģenerē valodas modeļi”. Organizācija atzīst, ka, neskatoties uz uzlabojumiem, šī problēma “paliek fundamentāls izaicinājums visiem LLM modeļiem”. Turklāt pilnībā tā nekad netiks izskausta.
Pētnieki, lai ilustrētu problēmu, jautāja populāram čatbotam par Adama Taumana Kalai doktora disertācijas nosaukumu. Rezultāts – trīs dažādas atbildes, visas nepareizas. Tāpat kļūdaini tika norādīti arī viņa dzimšanas datumi.
Kāpēc čatbots kļūdās un kāpēc tas to dara tik pārliecinoši? Pētījums skaidro, ka halucinācijas rodas daļēji tāpēc, ka modeļi tiek apmācīti prognozēt nākamo vārdu, bet netiek apgādāti ar etiķetēm, kas norādītu, vai fakts ir patiess vai aplams.
Modelis redz tikai “pozitīvus piemērus” – plūstošu valodu –, bet nepareiziem faktiem nav noteiktu likumsakarību, kuras tas varētu iemācīties. “Pareizrakstības un iekavu lietojums seko konsekventiem rakstiem, tāpēc, modeļiem kļūstot ievērojami jaudīgākiem, kļūdas šajā sektorā zūd,” raksta autori. “Taču retu faktu, piemēram, kāda mājdzīvnieka dzimšas dienu, nav iespējams izsecināt no rakstiem vien.”
Jāmaina MI vērtēšanas sistēma
Tomēr risinājums, pēc autoru domām, meklējams ne tik daudz apmācības procesā, bet gan MI modeļu vērtēšanas sistēmā. Problēma neesot tajā, ka šīs vērtēšanas metodikas tieši rada halucinācijas, bet gan tajā, ka tās veido nepareizus stimulus.
Pētnieki salīdzina šo situāciju ar testiem, kuros ir vairākatbilžu jautājumi, proti, minēšana var dot punktus, bet atbilde “nezinu” – garantētu nulli. Līdzīgi, ja modeļus vērtē tikai pēc precizitātes jeb pareizo atbilžu procenta, tie tiek stimulēti “minēt”, nevis atzīt neziņu.
Risinājums, ko piedāvā OpenAI, ir līdzīgs eksāmeniem, kuros tiek piešķirts negatīvs vērtējums par kļūdainām atbildēm, vai arī daļēji punkti par jautājuma izlaišanu, lai atturētu no aklas minēšanas. Arī valodas modeļiem vajadzētu piemērot līdzīgu principu, proti, vairāk sodīt pārliecinātas kļūdas, bet dot daļēju atzinību par pareizi paustu nenoteiktību, piemēram, “man uz šo jautājumu nav atbildes”.
Turklāt nepietiek ar dažiem jauniem, “nenoteiktību apzinošiem” testiem. Ir jāmaina plaši izmantotās precizitātes mērauklas, jo, ja galvenās tabulas joprojām atalgo nejaušus “trāpījumus”, modeļi turpinās mācīties minēt.
Kā lēš pētnieki: “Ja galvenie rādītāji turpina apbalvot veiksmes minējumus, modeļi turpinās minēt.”
Avots: TechCrunch