Veo 3 ģenerē video ar audio

24. maijs, 2025

Google jaunākais mākslīgā intelekta (MI) video ģenerēšanas modelis, Veo 3, spēj piemērot materiālam atbilstošu audio.

Aizvadītās nedēļas Google I/O 2025 izstrādātāju konferencē Google atklāja Veo 3. Kā pats ražotājs vēsta, papildus video tas spēj ģenerēt skaņu efektus, fona trokšņus un pat dialogus. Salīdzinot ar otrās paaudzes modeli, tam ir arī uzlabota kvalitāte.

Ar otrdienu video ģenerators tapa pieejams visiem Google Gemini lietotnes abonentiem par 220 EUR mēnesī. Video var veidot gan ar teksta, gan attēlu uzvednēm.

“Pirmo reizi iznākam no video ģenerēšanas klusās ēras,” pauž Demis Hassabis, Google Deepmind un R&D divīzijas izpilddirektors. “Jūs varat Veo 3 iedot uzvedni, aprakstot varoņus un vidi, kā arī ierosināt dialogu ar aprakstu, kā tam jāizklausās.”

cooking up something tasty for tomorrow… pic.twitter.com/wyIRMsXkFG
— Demis Hassabis (@demishassabis) May 19, 2025

Pateicoties plašajai rīku pieejamībai, video ģenerēšanas jomā ir radusies īsta konkurence. Jaunuzņēmumi – Runaway, Lightricks, Genmo, Pika, Higgsfield, Kling un Luma -, kā arī giganti, OpenAI un Alibaba, gaismas ātrumā laiž klajā dažādus modeļus. Lielākoties tikai nianses atšķir vienu no otra.

Taču audio ir tas, kas Veo 3 izceļ to no pārējiem. Protams, ja Google spēs realizēt solīto. MI darbināti audio ģenerēšanas rīki nav uz katra stūra, tāpat arī modeļi, kas spēj izveidot video skaņas efektus. Tomēr ražotājs garantē, ka viņu produkts prot izprast video pikseļus un sinhronizēt skaņas ar klipiem.

Veo 3 visticamāk realizēja DeepMind iepriekšējais projekts “video-to-audio”. Pagājušajā jūnijā DeepMind atklāja, ka izstrādā MI tehnoloģiju, apmācot to ar skaņu un dialogu transkriptiem, kas spēj ģenerēt skaņu celiņus video.

DeepMind gan neatklāj, kur ieguvuši saturu modeļa mācībām, taču aizdomas krīt uz YouTube. Tas ir, ņemot vērā, ka YouTube pieder Google, un jau iepriekš uzņēmums ir atzinis, ka modeļa treniņiem “var” tikt izmantota attiecīgā platforma.

Lai gaiņātu dziļviltojumu risku, uzņēmums izmantojot ūdenszīmes tehnoloģiju – SynthID. Tā video materiālos integrē neredzamus marķierus.

Veo 3 nav apturams

Kamēr uzņēmumi, piemēram, Google apraksta Veo 3 kā jaudīgu radošo rīku, mākslinieki ir sevišķi bažīgi. 2024. gada pētījumā, ko radīja Holivudas pārstāvētie animatori un karikatūristi, pareģoja, ka aptuveni 100 tūkstošu industrijas darba vietu aizstās MI.

Tomēr, neraugoties uz ažiotāžu, Google turpina laist klajā jaunus rīkus arī pagājušās paaudzes modelim. Nesen tika atklāta funkcija, kas ļauj lietotājiem izmantot varoņu, ainu un stilu bildes labākam rezultātam. Modelis arī spēj saprast kameras kustības kā rotāciju un tālummaiņu. Tāpat lietotāji varēs dzēst objektus no video vai paplašināt klipu, piemēram, pārvēršot portretu par ainavu.

Avots: TechCrunch