OpenAI iepazīstina ar Whisper API – runas teksta transkripcijai un tulkošanai

Vienlaikus ar ChatGPT API ieviešanu OpenAI nesen palaida Whisper API, kas ir atvērtā koda lietojumprogrammas Whisper runas-teksta modeļa hostētā versija, kuru uzņēmums izlaida septembrī.

Whisper ir automātiska runas atpazīšanas sistēma, kuras cena ir 0,006 ASV dolāri minūtē, un OpenAI apgalvo, ka tā nodrošina “stabilu” transkripciju vairākās valodās, kā arī tulkošanu no šīm valodām uz angļu valodu. Tā pieņem failus dažādos formātos, tostarp M4A, MP3, MP4, MPEG, MPGA, WAV un WEBM.

Nu jau vairāki uzņēmumi ir izstrādājuši ļoti efektīvas runas atpazīšanas sistēmas, kas ir tādu tehnoloģiju gigantu kā Google, Amazon un Meta programmatūras un pakalpojumu pamatā. Taču Whisper atšķiras ar to, ka lietotne tika apmācīta, izmantojot 680 000 stundu daudzvalodu un “daudzuzdevumu” datu, kas savākti no tīmekļa, kā norāda OpenAI prezidents un priekšsēdētājs Gregs Brokmens, tas ļāva labāk atpazīt unikālus akcentus, fona troksni un tehnisko žargonu.

Saskaņā ar 2020. gada Statista aptaujas datiem uzņēmumi kā galvenos iemeslus, kāpēc tie nav izmantojuši tādas tehnoloģijas kā runas tehnoloģija, min precizitāti, ar akcentu vai dialektu saistītas atpazīšanas problēmas un izmaksas.

Tomēr Whisper ir ierobežojumi, jo īpaši attiecībā uz ”nākamā vārda” prognozēšanu. Tā kā sistēma tika apmācīta, izmantojot lielu daudzumu trokšņainu datu, OpenAI brīdina, ka Whisper var iekļaut transkripcijās vārdus, kas patiesībā nav izrunāti – iespējams, tāpēc, ka lietotne mēģina gan paredzēt nākamo vārdu audio ierakstā, gan transkribēt pašu audio ierakstu. Turklāt Whisper nedarbojas vienādi labi visās valodās, un tā kļūdu īpatsvars ir augstāks, ja runa ir par to valodām runātājiem, kuras nav pietiekami pārstāvētas mācību datos.

Diemžēl šis aspekts runas atpazīšanas pasaulē nav nekas jauns. Pat vislabākās sistēmas jau sen cieš no neobjektivitātes, un 2020. gadā Stenfordas universitātes pētījumā tika konstatēts, ka Amazon, Apple, Google, IBM un Microsoft sistēmas ir pieļāvušas daudz mazāk kļūdu – aptuveni 19 % -, ja lietotājs ir baltas ādas krāsas cilvēks, nekā ja lietotājs ir melnādains cilvēks.

Neraugoties uz to, OpenAI uzskata, ka Whisper transkripcijas iespējas var izmantot, lai uzlabotu esošās lietotnes, pakalpojumus, produktus un rīkus.

Ja OpenAI izdosies ievērojami iekļūt teksta runas pārraides tirgū, tas varētu būt diezgan izdevīgi šim Microsoft atbalstītajam uzņēmumam. Saskaņā ar ziņojumu uzņēmuma tirgus segmenta vērtība līdz 2026. gadam varētu sasniegt 5,4 miljardus ASV dolāru (2021. gadā tā bija 2,2 miljardi ASV dolāru).

Avots: TechChrunch

Dalies :

Facebook
Twitter
LinkedIn
Pinterest

Atbildēt

Jaunākie apskati
Tev varētu interesēt