Kas ir OmniHuman-1?

6. februāris, 2025

OmniHuman-1, pamatojoties uz vienkāršu attēlu vai audio paraugu, ģenerē cilvēkam līdzīgas kustības un runu.

Izmantojot vienu foto, mākslīgā intelekta (MI) rīks spēj to pārvērst par pilnībā animētu video, kur priekšmets dabīgi kustās, runā un žestikulē paralēli audio. Tieši to spēj paveikt šis robots, kas ir jaunums no ByteDance uzņēmuma.

MI rīks ir veidots, lai ģenerētu cilvēkam tipisku kustību un runu, atsaucoties vien uz nelielu ievadni – audio vai bildi. Tas atrisina būtisku izaicinājumu MI video veidošanā. Iepriekšējie modeļi neesot spējuši veikt efektīvu kustības datu mērogošanu, bieži zaudējot vērtīgas kustību sekvences.

OmniHuman-1 vienlaikus integrē vairākus ievadnes avotus, tostarp, bildes, audio, ķermeņa pozas un teksta aprakstus, nodrošinot precīzāku un plūstošāku kustības sintēzi.

OmniHuman-1 trenējās ar 19000 stundu materiālu

Lai izveidotu šādu sistēmu, ByteDance pētnieki to ir apmācījuši, izmantojot 19000 stundu garu video materiālu. Tas ļāvis statiskus kadrus gludi animēt par dinamiskām sekvencēm, kas izskatās vareni reālas. MI sākumā saspiež kustību datus dažādās ievadnēs un tad precizē to, salīdzinot ģenerētos video ar īsto materiālu.

OmniHuman-1
Generates extremely realistic human videos based on guiding audio, video or a single image. Results are mindblowing, especially the last one 🤯 pic.twitter.com/s8Lwy6RL8k
— Gradio (@Gradio) February 4, 2025

Divu soļu process nodrošina, ka robots izveido augstas precizitātes mutes kustības, sejas grimases un ķermeņa žestus, padarot gala rezultātu par dabīgu un ieskaujošu. Tehnoloģijas demonstrācijā bija redzams Nvidia izpilddirektors Džensens Huangs, kurš it kā dziedāja, izceļot gan iespaidīgo reālismu, gan potenciālos dziļviltojumu riskus.

Multfilmu varoņi kļūst dzīvi

Raugoties pāri spējām animēt reālus cilvēkus, OmniHuman-1 arī spēj atdzīvināt multfilmu varoņus. Tas sniedz jaunas iespējas animācijas, videospēļu un digitālo iemiesojumu lauciņā.

Teorētiski modelis spēj ģenerēt neierobežota garuma video. Šī brīža paraugi gan ir iekapsulēti 5 līdz 25 sekundēs, taču tā iemesls ir atmiņas pieejamība, nevis pats MI.

MI mediju uzdzīve

Šāds veidojums kļuvis pieejams īsi pēc ByteDance iepazīstināšanas ar INFP. Tas ir vēl viens MI projekts, kā specializācija ir animēt sejas izteiksmes sarunu laikā. Ņemot vērā TikTok masīvo auditoriju un plašo MI rīku izmantošanu iekš ByteDance video rediģēšanas lietotnes – CapCut -, OmniHuman-1 drīz varētu pārveidot veidu, kā MI ģenerētie mediji tiek integrēti plaši izmantota satura veidošanā.

OmniHuman-1 nākotne

Ar ByteDance augošo fokusu uz MI inovācijām, rīks atspoguļo lielu soli tuvāk MI vadītai video paaudzei. Tehnoloģijai attīstoties, tā rada svarīgus jautājumus par tās izmantošanu, radošai stāstīšanai, izklaidei, vai tieši pretēji – bažas par dziļviltojumiem un digitālo identitāti.

Avots: BusinessStandard