Sākumlapa › Forumi › Notepad.lv › IT ziņas › Microsoft balss atpazīšanas programmai izdevies sasniegt cilvēka līmeni
Eksperiments norisinājās šādi: lai izslēgtu jebkādas spekulācijas, no ārpuses tika nolīgti divi stenogrāfisti. Viens no viņiem pārdrukāja uzdotos audio fragmentus tekstā, savukārt otrais pēc tam klausījās ierakstu un laboja pirmā kļūdas. Ierakstos par konkrētu tēmu stenogrāfisti kļūdījās 5.9% vārdu, bet “bezsakara pļāpāšanā” – 11.3%. Savukārt Microsoft neirotīklu tipa datorsistēma pēc 2000 stundu apmācības pieļāva attiecīgi 5.9% un 11.1% kļūdu.
Minētos rezultātus var uzskatīt tikai par pusceļu, jo augstā kvalitātē izdevies pārvērst tekstā tikai tīrus ierakstus. Praksē jebkurš audio ir saistīts ar dažādiem apkārtējiem trokšņiem, var būt citu cilvēku balsis fonā. Nākamā eksperimentu sērija būs veltīta reālu audioierakstu atpazīšanai. Cita problēma ir vārdi ar vairākām nozīmēm. Pētniekiem jāizdomā, kā piespiest mašīnu saprast par ko tiek runāts un izvēlēties pareizo vārda nozīmi. Trešā problēma ir cilvēku atšķirīgās intonācijas sadzīves runā – ne visi runā kā profesionāli aktieri.
Kur šos sasniegumus izmantos – pirmām kārtām Xbox un Cortana. Tāpat gaidāmi servisi, kuri ikvienam dos iespēju acumirklīgi pārvērst audio failus tekstā.
Attēlā: Speech & Dialog darba komanda
[img]
Preses relīzes