Pasaules modeļus, ko dēvē arī par pasaules simulatoriem, daži uzskata par nākamo lielo sasniegumu mākslīgā intelekta jomā.
Mākslīgā intelekta (MI) pioniera Fei-Fei Lī uzņēmums World Labs ir piesaistījis 219 miljonus EUR, lai veidotu tā sauktos “pasaules modeļus”. Tāpat DeepMind nolīdzis vienu no OpenAI video ģeneratora Sora veidotājiem, lai strādātu pie “pasaules simulatoriem”. Bet kas īsti ir šie pasaules modeļi?
Pasaules modeļi ir balstās uz dabiski izveidotajiem mentālajiem pasaules modeļiem, kas atrodas cilvēku iztēlē. Mūsu smadzenes ņem abstraktus priekšstatus no mūsu maņām, veidojot izpratni par pasauli mums apkārt, radot to, ko mēs dēvējām par “modeļiem” ilgi pirms MI pārņēma šo frāzi.
Prognozes, ko mūsu smadzenes veido, pamatojoties uz šiem modeļiem, ietekmē to, kā mēs uztveram pasauli.
MI pētnieku Deivida Hā un Jirgena Šmidhubera rakstā sniedz ilustratīvu piemēru par beisbola spēlētāju. Sitējam ir milisekundes laika, lai izlemtu, kā pozicionēt nūju, – īsāks laiks, nekā nepieciešams, lai smadzenēs nonāktu vizuālie signāli. Ha un Šmidhūbers apgalvo, ka iemesls, kāpēc viņi spēj trāpīt pa 100 jūdžu stundā ātru bumbiņu, ir tas, ka viņi var instinktīvi paredzēt, kur bumbiņa lidos.
“Profesionāliem spēlētājiem tas viss notiek zemapziņā,” raksta pētnieku duets. “Viņu muskuļi refleksīvi spiež nūju pareizajā laikā un vietā saskaņā ar iekšējo modeļu prognozēm. Viņi var ātri rīkoties saskaņā ar savām nākotnes prognozēm, un viņiem nav nepieciešams apzināti izrullēt iespējamos nākotnes scenārijus, lai izveidotu plānu.”
Daži uzskata, ka tieši šie pasaules modeļu zemapziņas spriešanas aspekti ir priekšnoteikums cilvēka līmeņa intelektam.
Pasaules modelēšana
Lai gan šis jēdziens ir pazīstams jau vairākus gadu desmitus, pasaules modeļi pēdējā laikā ir kļuvuši īpaši populāri. Pieaugoša aktualitāte daļēji ir pateicoties to daudzsološajam pielietojumam ģeneratīvo video jomā.
Lielākā daļa, ja ne visi, MI radītie video visbiežāk skatītājam var likt justies neērti. Skatoties tos pietiekami ilgi nereti notiek kaut kas dīvains – savijās personu ekstremitātes, pēc tam saplūstot kopā.
Lai gan ģeneratīvais modelis, kas apmācīts, izmantojot gadiem ilgi uzņemtus video, var precīzi paredzēt, ka basketbola bumba atlec, tam patiesībā nav ne jausmas, kāpēc tā atlec. Līdzīgi – valodas modeļi īsti nesaprot jēdzienus, kas ir vārdu un frāžu pamatā.
Taču pasaules modelis, kuram ir kaut vai pamata izpratne par to, kāpēc basketbola bumba atlec tā, kā tā atlec, labāk parādīs, ka basketbola bumba to dara.
Lai šāda veida izpratni iegūtu, pasaules modeļi tiek apmācīti ar dažādiem datiem, piemēram, fotoattēliem, audio un video materiāliem, kā arī tekstu. Tas tiek darīts, lai izveidotu iekšēju priekšstatu par to, kā darbojas pasaule, un spēju spriest par darbību sekām.
“Skatītājs sagaida, ka pasaule, ko viņš skatās, uzvedīsies līdzīgi kā viņa realitātē,” saka Alekss Mašrabovs, bijušais Snap MI nodaļas vadītājs un uzņēmuma Higgsfield, kas veido ģeneratīvos modeļus video, vadītājs.
“Ja spalva nokrīt ar smagumu, kas atgādina uzkaltuvi, vai boulinga bumba paceļas simtiem metru augstumā, tas ir satricinoši un “izrauj” skatītāju no mirkļa. Ar spēcīgu pasaules modeli tā vietā, lai radītājs noteiktu, kā katram objektam vajadzētu kustēties – kas ir garlaicīgi, apgrūtinoši un slikti izmanto laiku -, modelis to sapratīs.”
Potenciāls sarežģītai plānošanai gan digitālajās, gan fiziskajās jomās
Taču uzlabota video ģenerēšana ir tikai aisberga virsotne pasaules modeļu jomā. Pētnieki, tostarp Meta galvenais MI zinātnieks Jans LeKuns, apgalvo, ka šos modeļus kādreiz varētu izmantot sarežģītai prognozēšanai un plānošanai gan digitālajās, gan fiziskajās jomās
Šī gada sākumā LeKuns savā lekcijā aprakstīja, kā pasaules modelis varētu palīdzēt sasniegt vēlamo mērķi, izmantojot argumentāciju. Modelis ar “pasaules” attēlojumu (piemēram, netīras istabas video), kam dots mērķis (tīra istaba), varētu piedāvāt darbību secību, lai sasniegtu šo mērķi. Tas notiktu nevis tāpēc, ka tas ir novērots modelis, bet tāpēc, ka dziļākā līmenī tas zina, kā no netīras istabas nonākt līdz tīrai.
“Mums ir vajadzīgas mašīnas, kas izprot pasauli, kas spēj atcerēties lietas, kurām piemīt intuīcija, veselais saprāts – lietas, kas spēj spriest un plānot tādā pašā līmenī kā cilvēki,” sacīja LeKuns. “Neraugoties uz to, ko jūs, iespējams, esat dzirdējuši no dažiem entuziastiskākajiem cilvēkiem, pašreizējās mākslīgā intelekta sistēmas nespēj neko no tā.”
Lai gan LeKuns lēš, ka līdz viņa iecerētajiem pasaules modeļiem mums vēl ir vismaz desmit gadi, mūsdienu pasaules modeļi ir daudzsološi kā elementārie fizikas simulatori.
OpenAI savā blogā norāda, ka Sora, ko uzskata par pasaules modeli, var simulēt tādas darbības kā gleznotājs, kas atstāj otas triepienus uz audekla. Tādi modeļi kā Sora var arī efektīvi simulēt videospēles. Piemēram, Sora var atveidot Minecraft līdzīgu lietotāja saskarni un spēļu pasauli.
Nākotnes pasaules modeļi varētu spēt ģenerēt 3D pasaules pēc pieprasījuma spēlēm, virtuālajai fotogrāfijai un citiem mērķiem, World Labs līdzdibinātājs Džastins Džonsonsons teica kādā no a16z podkāsta epizodēm.
“Mums jau ir iespēja radīt virtuālas, interaktīvas pasaules, taču tas maksā simtiem un simtiem miljonu dolāru un tonnu izstrādes laika,” teica Džonsonsons. “[Pasaules modeļi] ļaus jums iegūt ne tikai attēlu vai klipu, bet pilnībā simulētu, dzīvu un interaktīvu 3D pasauli.”
Ievērojami šķēršļi
Lai gan konceptuāli ideja par pasaules modeļiem ir visnotaļ vilinoša, tai traucē ievērojams daudzums šķēršļu tieši tehnoloģiju jomā.
Pasaules modeļu apmācībai un darbībai ir nepieciešama milzīga skaitļošanas jauda, pat salīdzinot ar to, ko patlaban izmanto ģeneratīvie modeļi. Lai gan dažus no jaunākajiem valodas modeļiem var darbināt ar modernu viedtālruni, Sora apmācībai un darbināšanai būtu nepieciešami tūkstošiem GPU.
Pasaules modeļi, tāpat kā visi MI modeļi, arī halucinē – un internalizē neobjektivitāti savos mācību datos. Pasaules modelis, kas apmācīts galvenokārt ar videoierakstiem, kuros redzami saulaini laikapstākļi Eiropas pilsētās, varētu būt grūti saprast vai attēlot, piemēram, Korejas pilsētas sniegotos apstākļos.Vispārējais mācību datu trūkums draud saasināt šīs problēmas, saka Mašrabovs.
“Mēs esam novērojuši, ka modeļi ir patiešām ierobežoti ar noteikta tipa vai rases cilvēku paaudzēm,” viņš teica. “Mācību datiem pasaules modelim ir jābūt pietiekami plašam, lai aptvertu daudzveidīgu scenāriju kopumu, bet arī ļoti specifiskam, lai mākslīgais intelekts varētu dziļi izprast šo scenāriju nianses.”
Nesen publicētajā rakstā mākslīgā intelekta jaunuzņēmuma Runway izpilddirektors Kristobals Valenzuela norāda, ka datu un inženiertehniskās problēmas neļauj mūsdienu modeļiem precīzi atspoguļot pasaules iedzīvotāju uzvedību.
“Modeļiem būs jārada konsekventas vides kartes,” viņš teica, ”un spēja orientēties un mijiedarboties šajā vidē.”
Tomēr, ja visi šķēršļi tomēr tiks pārvarēti, Mašrabovs uzskata, ka pasaules modeļi varētu “stabilāk” savienot MI ar reālo pasauli. Šāds solis veicinātu izrāvienu ne tikai virtuālās pasaules radīšanā, bet arī robotikā un MI lēmumu pieņemšanā. Tie varētu arī radīt spējīgākus robotus.
Šobrīd robotu iespējas ir ierobežotas, jo tiem nav izpratnes par apkārtējo pasauli. Mašrabovs sacīja, ka pasaules modeļi varētu sniegt viņiem šādu izpratni – vismaz līdz zināmam līmenim.
“Ar uzlabotu pasaules modeli MI varētu attīstīt personīgu izpratni par jebkuru scenāriju, kurā tas atrodas,” viņš teica, ”un sākt spriest par iespējamiem risinājumiem.”
Avots: TechChurch