OpenAI pētnieki atklāj, ka MI modeļi spēj apzināti maldināt

Ik pa laikam lielo tehnoloģiju uzņēmumu pētnieki publisko atklājumus, kas izraisa plašu rezonansi sabeidrībā, sevišķi lietpratēju vidū, piemēram, Google reiz paziņoja, ka tā jaunākais kvantu procesors liecinot par vairāku visumu eksistenci. Šonedēļ uzmanības centrā nonāca OpenAI.

Uzņēmums publicējis pētījumu par to, kā novērst situācijas, kad mākslīgā intelekta (MI) modeļi apzināti maldina cilvēkus jeb “intrigē”.

Pētījums veikts kopā ar Apollo Research un apraksta, kā tiek samazināta šāda uzvedība, izmantojot pieeju, ko autori sauc par “apzinātu saskaņošanu” (angļu – deliberative alignment).

https://twitter.com/OpenAI/status/1968361701784568200

Pētījumā MI maldināšana salīdzināta ar brokeri, kurš pārkāpj noteikumus, lai nopelnītu vairāk. Biežāk gan tiek novērotas vienkāršākas formas, piemēram, modelis izliekas, ka uzdevums izpildīts, lai gan tas nav paveikts. Pētījuma galvenais mērķis bija pierādīt, ka jaunā metode spēj samazināt šādas uzvedības risku.

Kā darbojas “apzinātā saskaņošana”

OpenAI pētnieki skaidro, ka MI izstrādātājiem līdz šim nav izdevies iemācīt modeļiem nemaldināt, jo šāda apmācība bieži noved pie pretēja efekta, proti, modelis tikai iemācās noslēpt savu patieso nodomu, lai izvairītos no atklāšanas.

“Būtisks risks, mēģinot izskaust maldināšanu, ir tas, ka modelis vienkārši sāk to darīt rūpīgāk un slepenāk,” raksta pētnieki. Turklāt, ja modelis saprot, ka tiek pārbaudīts, tas var uz laiku “uzvesties labi”, lai nokārtotu testu, pat ja saglabā maldinošus mērķus.

Nav noslēpums, ka MI reizēm sniedz nepatiesas atbildes jeb “halucinē”, taču tas pārsvarā ir minējums ar pārliecību. Maldināšana ir kas cits — tā ir tīša rīcība.

Pat šis atklājums, ka MI var apzināti maldināt, nav pilnīgs jaunums. Apollo Research jau iepriekš dokumentēja līdzīgas parādības, kad modeļiem tika uzdots sasniegt mērķi “par katru cenu”.

Šoreiz jaunums ir tas, ka “apzinātā saskaņošana” spēj būtiski mazināt šādu uzvedību. Metode paredz, ka pirms darbības veikšanas modelis pārskata noteikumus, kas aizliedz maldināt, gluži kā bērnam pirms spēles atgādina par tās noteikumiem.

Secinājumi un nākotnes izaicinājumi

OpenAI pētnieki uzsver, ka līdz šim konstatētā maldināšana, arī ChatGPT atbildēs, nav radījusi nopietnas sekas. Kā skaidrojis uzņēmuma līdzdibinātājs Vojcehs Zarembs, šis pētījums balstīts simulācijās, nevis reālā lietošanā, tomēr nelielas “sīkas viltības” modeļos joprojām ir jānovērš.

Fakts, ka dažādi MI modeļi spēj apzināti maldināt cilvēkus, zināmā mērā ir saprotams. Tie ir radīti, lai atdarinātu cilvēku uzvedību, un ir apmācīti galvenokārt ar cilvēku radītiem datiem. Tomēr tas liek aizdomāties, kādas būs sekas, ja uzņēmumi uzticēs šādiem aģentiem sarežģītus uzdevumus ar reālām sekām.

Pētījuma autori brīdina: “Pieaugot uzdevumu sarežģītībai un ilgtermiņa mērķiem, pieaugs arī kaitīgas maldināšanas risks – tādēļ mūsu drošības mehānismiem un testēšanas iespējām jāaug līdz ar to.”

Avots: TechCrunch

Dalies :

Facebook
Twitter
LinkedIn
Pinterest

Atbildēt

Jaunākie apskati
Tev varētu interesēt