Teksta tulkotājs DeepL izziņo pakalpojumu DeepL Voice – reāllaika teksta tulkojumus no audio un videoklipiem.
Vietne DeepL ir kļuvusi pazīstama ar teksta tulkošanu tiešsaistē, kas, kā apgalvo pats uzņēmums, ir daudz niansētāka un precīzāka nekā tulkošana, ko piedāvā, piemēram, Google. Pieeja tulkošanai veicinājusi Vācijā bāzētā uzņēmuma vērtības pieaugumu līdz 1,9 miljardiem EUR un piesaistījusi vairāk nekā 100 000 maksājošu lietotāju.
Tagad, kad mākslīgā intelekta (MI) pakalpojumu popularitāte turpina pieaugt, DeepL papildina platformu ar vēl vienu tulkošanas veidu – audio materiālu tulkošanu. Tagad lietotāji varēs izmantot pakalpojumu DeepL Voice, lai uzklausītu kādu personu, kas runā vienā valodā, un automātiski pārtulkotu to citā reāllaikā.
Angļu, vācu, japāņu, korejiešu, zviedru, holandiešu, franču, turku, poļu, portugāļu, krievu, spāņu un itāļu – valodas, kuras šodien iespējams “dzirdēt” DeepL Voice. Tulkotie titri ir pieejami visās 33 valodās, ko pašlaik atbalsta DeepL tulkotājs, tajā skaitā arī latviešu.
DeepL Voice darbības princips.
Pakalpojums šobrīd nenodrošina pārtulkoto materiālu kā audio vai video failu. Pakalpojums ir paredzēts reāllaika sarunām un videokonferencēm, un tulkojums tiek nodrošināts tikai teksta formātā.
Pirmajā no šiem pakalpojumiem tulkojumus var iestatīt tā, lai tie viedtālrunī parādītos kā “spoguļi”. Ideja ir tāda, ka uz sarunu galda starp personām tiek novietots tālrunis, lai katra sarunā iesaistītā persona redzētu iegūto tulkojumu, vai kā transkripcija, ko kopīgot ar kādu personu. Videokonferenču pakalpojumā tulkojumi parādās subtitru formā.
Uzņēmuma dibinātājs un izpilddirektors Jareks Kutijlovskis intervijā norādīja, ka laika gaitā tas varētu mainīties. Šis ir DeepL pirmais, bet visticamāk, ne pēdējais produkts, kas tulko sadzirdamu, ne salasāmu materiālu. “Balss ir tulkošanas joma, ko plaši realizēsies nākamajā gadā,” viņš piebilda.
Šim apgalvojumam ir arī citi pierādījumi. Arī Google – viens no DeepL lielākajiem konkurentiem – sāka reāllaika tulkošanu iekļaut savā videokonferenču pakalpojumā Meet. Turklāt ir daudz MI jaunuzņēmumu, kas veido balss tulkošanas pakalpojumus, piemēram, Eleven Labs.
Minētais video balss tulkošanas pakalpojums izmanto Eleven Labs API, un saskaņā ar Kutijlovska teikto tas arī izmanto DeepL tehnoloģiju, lai nodrošinātu tulkošanas pakalpojumus. Būtiski, ka audio izvades funkcija nav vienīgā, kas drīz kļūs pieejama lietotājiem.
Pašlaik nav lietojumprogrammēšanas saskarnes jeb API piedāvātajam balss produktam. DeepL galvenais darbības virziens ir B2B, un Kutijlovskis sacīja, ka uzņēmums šajā jautājumā veido tiešu saziņu ar partneriem un klientiem.
Nav arī pārlieku plaša integrāciju izvēle. Vienīgais videozvanu pakalpojums, kas plašāk atbalsta DeepL subtitrus ir Teams, kas “aptver lielāko daļu mūsu klientu,” teica Kutijlovskis. Pagaidām nav zinām, kad un vai Zoom vai Google Meet varētu integrēt DeepL Voice.
Produkts DeepL lietotājiem šķitīs ilgi gaidīts ne tikai tāpēc, ka tirgus ir piesātināts ar citiem MI balss pakalpojumiem, kas paredzēti tulkošanai. Kutijlovskis sacīja, ka šis pakalpojums ir bijis primārais patērētāju pieprasījums kopš 2017.gada, kad DeepL tika “palaists”.
Unikāls pakalpojums.
Daļa no ilgās gaidīšanas ir saistīta ar to, ka uzņēmums apzināti veidojis savu produktu. Atšķirībā no citām MI lietojumprogrammām, kas balstās uz citu uzņēmumu lielajiem valodas modeļiem (LLM) un tos uzlabo, DeepL mērķis ir izveidot savu pakalpojumu no pašiem pamatiem.
Jūlija uzņēmums nāca klajā ar jaunu LLM, kas optimizēts tulkošanai un pat pārspēj GPT-4, kā arī Google un Microsoft izstrādātos modeļus, arī tāpēc, ka tā galvenais mērķis ir tulkošana. Uzņēmums ir turpinājis uzlabot arī rakstiskos produktus un glosārija kvalitāti.
Tāpat viena no DeepL Voice unikālajām īpašībām ir tas, ka tas darbosies reāllaikā. Šāda pieeja uz konkurentu fonā ir būtiska, ko citi MI tulkošanas pakalpojumi darbojas ar kavēšanos, tādejādi tos ir grūtāk vai pat neiespējami izmantot steidzamās situācijās.
Kutijlovskis norādīja, ka tas ir vēl viens iemesls, kāpēc jaunajā balss apstrādes produktā galvenā uzmanība tiek pievērsta teksta tulkojumiem. To iespējams aprēķināt un sagatavot ļoti ātri, savukārt apstrādei un MI arhitektūrai vēl tāls ceļs veicams, lai spētu tikpat ātri sagatavot audio un video.
Iespējamie DeepL Voice izmantošanas gadījumie ir videokonferences un sanāksmes. Tajā pašā laikā Kutijlovskis norādīja, ka vēl būtisks aspekts ir pakalpojumu nozare , kur, piemēram, restorānu darbinieki varētu izmantot šo pakalpojumu, lai atvieglotu saziņu ar klientiem.
Tas varētu būt noderīgi, taču tas arī norāda uz vienu no pakalpojuma skarbākajiem punktiem. Pasaulē, kurā mēs visi pēkšņi esam daudz vairāk informēti par datu aizsardzību un bažām par to, kā jaunie pakalpojumi un platformas kopīgi izmanto privātu vai patentētu informāciju, vēl nav skaidrs, cik cilvēki būs gatavi, ka viņu balsis tiek uztvertas un izmantotas šādā veidā.
Kutijlovskis uzstāja, ka, lai gan balsis ceļos uz tās serveriem tulkošanai (apstrāde nenotiek ierīcē), nekas netiek saglabāts tās sistēmās un netiek izmantots LLM apmācībai. Galu galā DeepL sadarbosies ar saviem klientiem, lai nodrošinātu, ka tie nepārkāpj datu aizsardzības noteikumus.
Avots: TechChurch