MI iemācas melot labāk, ja tiek sodīts par maldināšanu

28. marts, 2025

OpenAI pētījums atklāj, ka mākslīgais intelekts iemācās melot, ja tiek sodīts par maldināšanu, turklāt vienkāša MI uzlabošana nepalīdzēs.

Mākslīgais intelekts (MI) ir revolucionizējis veidu, kā mēs meklējam informāciju. Neskatoties uz to, lielie valodas modeļi nereti rada halucinācijas vai sniedz aplamas atbildes.

Nesen OpenAI pētnieku publicētajā pētījumā tagad teikts, ka šo MI modeļu sodīšana par maldinošām vai kaitīgām darbībām nevis attur tos no nepareizas uzvedības, bet gan tikai slēpj šāda rakstura darbības.

OpenAI bloga ierakstā teikts, ka domāšanas ķēdes [CoT] modeļi “domā” cilvēkiem saprotamā dabiskajā valodā. Uzņēmuma pētnieki apgalvoja, ka viņi vēl neizlaistam MI modelim deva uzdevumu kopumu, ko tas varēja izpildīt, izmantojot īsākos ceļus, krāpšanos vai atklātu melošanu.

Pētnieki atklāja, ka šie modeļi bieži iesaistījās “atlīdzības uzlaušanā”, kas nozīmē, ka tas maksimizēja savu atlīdzību, krāpjoties.

Lai gan izstrādātāji var viegli uzraudzīt un izcelt maldinošos rezultātus, viņi norādīja, ka modeļu “dabiskā uzraudzība ir ļoti trausla”. Tāpat viņi norādīja, ka, ja piemēro spēcīgu uzraudzību tieši domāšanas ķēdei, tad MI modeļi iemācīsies slēpt savus nodomus.

Rezultātā, tie turpinās sniegt maldinošas atbildes, lai saņemtu lielāku atlīdzību.

Šāda darbība savā ziņā imitē cilvēku uzvedību. Cilvēki bieži atrod un izmanto zināmas nepilnības, piemēram, dalās ar tiešsaistes abonēšanas pakalpojumiem, pieprasa subsīdijas, kas viņiem nav paredzētas, un melo par savu dzimšanas dienu, lai saņemtu atlaides.

Gan reālajā, gan virtuālajā pasaulē ir diezgan grūti izstrādāt labas atalgojuma struktūras, kas nemotivētu melošanu. Respektīvi, nepietiek ar to, ka MI padara gudrāku – tas problēmu, visticamāk, neatrisinās.

Tomēr, atsevišķi lielie valodas modeļi, kas tika apmācīti ar, piemēram, OpenAI o3-mini modeli varētu palīdzēt uzraudzīt atlīdzības uzlaušanu. Tāpat varētu būt iespējams uzraudzīt kādu lielo valodas modeli, kas izmanto citu MI modeli, un izcelt tā kļūdas šajā jomā.

Avots: TheIndaianExpress