Google DeepMind atklāj Genie 2, revolucionāru mākslīgā intelekta modeli, kas pārvērš attēlus par interaktīvu 3D vidi.
Jaunais mākslīgā intelekta modelis no statiska attēla spēj izveidot interaktīvu, imersīvu un dinamisku vidi. Gatavo produktu var izmantot spēlēm, animācijas filmām un MI aģentu apmācībām.
Genie 2 seko pēc pirmās versijas, kā fokuss bija uz 2D pasauļu ģenerēšanu. Savukārt, jaunā versija rada bagātīgu un dinamisku virtuālo pasauļu izveidi, kas iespējo tās izpēti un mijiedarbību.
“Genie 2 varētu iespējot nākotnes aģentu apmācību un novērtēšanu bezgalīgu pasauļu mācību programmā. Mūsu pētījumi paver ceļu jaunām, kreatīvām darbplūsmām, lai veidotu interaktīvu pieredžu prototipus,” DeepMind vēsta.
Galvenās Genie 2 prasmes
Google ir dalījušies ar dažādiem gadījumiem, kad šis MI modelis varētu nākt talkā:
Daudzveidīgu 3D pasauļu ģenerēšana: No viena attēla modelis spēj ģenerēt plašu virkni 3D vides, ko papildina objekti, varoņi un interaktīvi elementi.
Darbību kontrole: Lietotāji var mijiedarboties ar šīm pasaulēm, izmantojot klaviatūras un pelītes ievades. Tas ļaus gan cilvēkiem, gan MI aģentiem orientēties un manipulēt vidi.
Jaunas iespējas: Modelis realizē jaunas iespējas, ieskaitot mijiedarbību ar objektiem, varoņu animāciju, fizikas simulāciju un iespēju paredzēt citu aģentu uzvedību vidē.
Ilgtermiņa konsekvence: Modelis spēj saglabāt patstāvīgus pasaules stāvokļus līdz pat 1 minūtei, ģenerējot jaunu un reālistisku saturu tā laikā. Genie 2 var arī ģenerēt vides no dažādām perspektīvām, tai skaitā, pirmās personas, izometrisku un trešās personas.
Google DeepMind apgalvo, ka tas ir autoregresīvas latentās difūzijas modelis, kas ir “apmācīts, izmantojot vērienīgu video datu kopu. Pēc iziešanas cauri automātiskam kodētājam, video latentie kadri tiek nodoti lielam transformatora dinamikas modelim. Tas, savukārt, ir ticis apmācīts ar kauzālo masku, ko izmanto arī lielo valodu modeļi.”
Avots: TimesofIndia