Kas ir OpenAI Sora? Tiek skaidrots par jauno rīku

26. februāris, 2024

OpenAI atklājuši Sora – MI, kas spēj tekstu pārveidot par video. Par modeli sacelta liela ažiotāža, tāpēc laiks uzzināt vairāk.

Šie ir tikai Sora pirmsākumi, taču internetā atrodami daudz ģenerēto video. Ja nezinātu par to īsteno autoru, liktos, ka video izgatavojuši aktieri un filmu veidotāji.

Izskaidrosim visu, kas jāzina par OpenAI jaunāko garadarbu: ko tas spēj, kā tas strādā un kad, iespējams, to varēsiet izmēģināt arī Jūs. Klāt ir jauna mākslīgā intelekta (MI) ēra.

Sora izlaišanas datums un cena

2024. gada februārī OpenAI rīks kļuva pieejams “red teamers” – tie ir cilvēki, kuru darbs ir pārbaudīt produktu drošību un stabilitāti. OpenAI arī ielūguši izvēlētu cilvēku grupu, kā sastāvā ir vizuālie mākslinieki, dizaineri un filmu veidotāji, kas pārbaudīs rīka ģenerācijas prasmes un nodos atgriezenisko saiti.

“Ar pētniecības procesu mēs dalāmies jau laicīgi, lai sāktu strādāt ar un gūtu atgriezenisko saiti no cilvēkiem ārpus OpenAI un lai sniegtu sabiedrībai priekštatu par to, kādas MI iespējas ir pie apvāršņa,” saka OpenAI.

Pārfrāzējot – plašāka publika to vēl nevar izmantot. Pagaidām nav nekādi mājieni par to, kad Sora varētu kļūt pieejams arī citiem. Kā arī to, cik daudz tas varētu maksāt.

Varam veikt aptuvenus minējumus par laika skalu, balstoties uz to, kas notika ar ChatGPT. Pirms tērzēšanas robota palaišanas publikai 2022. gada novembrī, pirms tam bija priekštecis – InstructGPT. Parasti OpenAI DevDay notiek ik gadu novembrī.

Ir diezgan reāli, ka Sora sekos līdzīgu ceļu un kļūs pieejams publikai ap 2024. gada novembri. Šobrīd tās ir tikai spekulācijas.

Runājot par cenu, arī tur informācija iztrūkst. Varam vadīties pēc ChatGPT Plus, kas piedāvā pieeju jaunākajam lielo valodu modelim un Dall-E. Tas maksā apmēram 18.5 EUR mēnesī.

Bet priekš Sora izmantošanas, nepieciešama ievērojami lielāka skaitļošanas jauda nekā, piemēram, viena attēla ģenerēšanai ar Dall-E. Izveides laiks arī ir lielāks. Tāpēc nav skaidrs tieši, cik labi Sora, kas faktiski ir pētniecisks darbs, var pārvērsties par preci, kas pieejama daudziem.

Kas ir OpenAI Sora?

Noteikti daudzi pazīst ģeneratīvos MI modeļus – Google Gemini priekš teksta un Dall-E bildēm -, kas var veidot jaunu saturu, mācoties no lieliem daudzumiem datu. Ja pajautāsiet ChatGPT, piemēram, uzrakstīt dzejoli, tas, ko saņemsiet būs balstīts uz lērumu citu dzejoļu, ko MI jau ir apkopojis un analizējis.

Jaunais OpenAI rīks ir veidots pēc līdzīga principa, bet priekš video klipiem. Iedodot tam komandu kā “sieviete naktī iet pa pilsētu” vai “mašīna brauc cauri mežam”, tiks saņemts tieši tāds video. Gluži kā ar MI bilžu modeļiem, var iedziļināties detaļās par to, ko vēlaties redzēt un kāda stila video tam jābūt.

https://t.co/SOUoXiSMBY pic.twitter.com/JB4zOjmbTp
— Sam Altman (@sama) February 15, 2024

Kā strādā OpenAI Sora?

Vienkāršoti – tehnoloģija aiz šī rīka ir tā pati, kas ļauj internetā atrast attēlu ar suni vai kaķi. MI parādot pietekamu daudzumu bilžu, tas pratīs pamanīt likumsakarības arī jaunos attēlos. Tieši tāpat var trenēt MI veidot video – parādīt tam pietiekamu daudz materiāla.

Protams, patiesībā tas ir daudz sarežģītāk, un OpenAI ir nodrošinājuši detalizētu izklāstu par to, kā strādā MI modeļi. Tas ir trenēts ar “interneta mēroga datiem”, lai rīks saprastu, kā izskatās reālistiski video. Sākuma tas analizē klipus, lai zinātu uz ko skatās, tad iemācīties, kā radīt savu versiju.

Tātad, palūdzot modelim izveidot video ar akvāriju, tas piedāvās savu interpretāciju no tā, ko ir redzējis. Tiek izmantoti vizuālie ielāpi (patches) – mazi gabaliņi, kas palīdz MI saprast, kur kam jāatrodas un kādai jābūt dažādo elementu mijiedarbībai un progresam, kadrs pa kadram.

Sora pamatā ir difūzijas modelis, kur MI sāk ar ļoti “rupju” materiālu līdz izveidojas skaidrs video, izmantojot virkni atgriezeniskās saites cilpu un prognožu aprēķinus.

Gluži kā citi ģeneratīvie MI modeļi, arī Sora izmanto transformatoru tehnoloģiju (pēdējais ‘T’ vārdā ChatGPT nozīmē Transformer). Transformatori izmanto lērumu sarežģītu datu analīžu tehnikas, lai pārstrādātu lielu daudzumu datu. Tehnoloģija var atšķirt svarīgākās daļas no mazāk svarīgām un izdomāt apkārtējo kontekstu un attiecības starp šiem datu gabaliem.

Joprojām nezinām, kur OpenAI gūst savus mācību datus – uzņēmums nav minējis, kādas video krātuves tika izmantotas, lai darbinātu jauno tehnoloģiju. Zinām gan, ka OpenAI ir sadarbības ar saturu datu bāzēm kā Shutterstock. Dažos gadījmos var pamanīt līdzības starp mācību datiem un gatavo produktu, ko izgatavo Sora.

Ko var darīt ar OpenAI jauno rīku?

Šobrīd Sora spēj izgatavot līdz vienu minūti garus HD video bez pievienotiem audio. “Sora var ģenerēt video līdz vienai minūtei, saglabājot vizuālo kvalitāti un pieturēšanos lietotāja komandai,” saka OpenAI, taču tas nav viss. Tas arī var ģenerēt video no statiskiem attēliem, aizpildīt iztrūkstošos kadrus jau esošos video un nemanāmi sapludināt kopā vairākus klipus. Un ir iespēja izgatavot arī parastus attēlus.

Tas pat var producēt video spēļu simulācijas, piemēram, kā Minecraft. Ir redzēts demo, kur Sora spēj kontrolēt spēlētāju Minecraft līdzīgā vidē, paralēli izgatavojot apkārtesošās detaļas.

OpenAI, protams, apzinās rīka ierobežojumus. Ne vienmēr viss ir pēc fizikas likumiem – daži cilvēki pazūd vai pārveidojas vai saplūst ar citiem objektiem. Sora neplāno ainu ar atsevišķiem aktieriem un rekvizītiem, tā veic neticami daudz aprēķinu par to, kur pikseļiem būtu jāpāriet no kadra uz kadru.

Izveidotajos video cilvēki, iespējams, kustās veidos, kas pārkāpj fizikas likumus vai detaļas, kas tiek aizmirstas nākamajā kadrā. OpenAI zina par šīm problēmām un strādā pie to novēršanas. Dažus piemērus var apskatīt OpenAI mājaslapā.

Neņemot vērā kļūmes, OpenAI cer, ka nākotnē Sora kļūs par reālistisku fizisko un digitālo pasauļu simulatoru. Nākamajos gados rīks varētu tikt izmantots, lai ģenerētu iedomu virtuālās pasaules, ko izpētīt vai sniegt iespēju paviesoties reālās vietas, ko radījis MI.

Avots: TechRadar