Xiaomi OmniVoice: atvirojo kodo balso DI proveržis

Xiaomi OmniVoice: atvirojo kodo balso DI proveržis

Austėja Kavaliauskaitė Austėja Kavaliauskaitė . Komentarai

6 Minutės

Balso DI dažnai popieriuje skamba įspūdingai, tačiau praktikoje neretai pasirodo keistai bedvasis. Xiaomi mano radusi būdą, kaip tai pakeisti. Bendrovė atvėrė OmniVoice kodą. Tai naujas teksto pavertimo kalba modelis, sukurtas balso klonavimui, daugiakalbei kalbos generacijai ir itin tiksliam sintetinės kalbos skambesio valdymui.

Šis pristatymas išsiskiria ne vien įprastais pažadais apie švaresnę kalbą ar greitesnį veikimą. Xiaomi pristato OmniVoice kaip modelį, galintį veikti su šimtais kalbų, įskaitant mažai išteklių turinčias kalbas, kurias pagrindinės kalbos technologijų sistemos dažnai palieka nuošalyje. Jei šis teiginys pasitvirtins ne tik laboratorinėse demonstracijose, jo reikšmė gali gerokai peržengti išmaniųjų telefonų flagmanų ir išmaniųjų asistentų ribas.

Apie naujieną paskelbta oficialiame Xiaomi WeChat kanale, kuriame bendrovė nurodė, kad OmniVoice puikiai veikia tiek kinų, tiek anglų kalbomis, o kai kuriose daugiakalbėse užduotyse gali prilygti komercinėms alternatyvoms arba net jas aplenkti. Tai drąsus pareiškimas. Vis dėlto detalės rodo, kad Xiaomi taikosi į tikrą skaudulį kalbos technologijose: dauguma teksto pavertimo kalba sistemų vis dar geriausiai veikia tik keliomis didžiosiomis kalbomis, o visoms kitoms dažnai tenka supaprastinta patirties versija.

Kur OmniVoice gali pakeisti pokalbį

Xiaomi teigia, kad OmniVoice nuo pat pradžių buvo kuriamas daugiakalbei kalbos sintezei. Bendrovė jį apibūdina kaip balso klonavimo TTS modelį, palaikantį šimtus kalbų, įskaitant tas, kurioms internete prieinama labai mažai mokymo medžiagos. Praktiškai tai reiškia, kad sistema turėtų kurti suprantamą, natūraliai skambančią kalbą net tada, kai duomenų trūksta. Būtent šis iššūkis ilgą laiką stabdė kalbos DI plėtrą regioninėms ir nišinėms kalboms.

Pasak Xiaomi, bandymuose su 24 kalbomis modelis pranoko kelias komercines sistemas, ypač pagal balso panašumą ir suprantamumą, nors buvo mokytas tik naudojant atvirojo kodo duomenų rinkinius. Platesniame vertinime, apimančiame 102 kalbas, bendrovė teigia, kad OmniVoice priartėjo prie žmogaus lygio suprantamumo, o kai kuriais atvejais jį net pranoko. Žinoma, tokio pobūdžio teiginiams reikia nepriklausomo patvirtinimo, tačiau jie aiškiai parodo, kaip ryžtingai Xiaomi siekia pozicionuoti šį modelį pasaulinėse DI lenktynėse.

Viena įdomesnių pristatymo dalių yra dėmesys mokymui naudojant mažą duomenų kiekį. Xiaomi teigia, kad net kalbos, kurioms prieinama mažiau nei 10 valandų medžiagos, vis tiek gali pasiekti aukštos kokybės kalbos sintezę. Bendruomenėms ir kūrėjams, dirbantiems su nepakankamai atstovaujamomis kalbomis, tai gali būti svarbiausia naujiena. Modelis, mažinantis duomenų barjerą, keičia tai, kas apskritai gali kurti kalbos įrankius.

Techniniu požiūriu OmniVoice renkasi kitokį kelią nei daugelis šiandieninių sudėtingesnių TTS grandinių. Užuot jungusi kelis modulius ir prognozavimo etapus, Xiaomi teigia naudojanti vieną dvikryptį transformerių tinklą, kuris tekstą tiesiogiai paverčia kalba. Paprastesnė architektūra. Mažiau judančių dalių. Galimai mažiau kliūčių.

Šis sprendimas taip pat susijęs su greičiu. Xiaomi tvirtina, kad OmniVoice galima apmokyti naudojant 100 000 valandų duomenų per vieną dieną, o išvedimo metu PyTorch aplinkoje jis gali veikti iki 40 kartų greičiau nei realusis laikas. Kūrėjams tai svarbu. Greitas išvedimas dažnai lemia skirtumą tarp įspūdingos demonstracijos ir sprendimo, kurį iš tikrųjų galima įdiegti vartotojų produktuose, klientų aptarnavimo sistemose, prieinamumo įrankiuose ar turinio platformose.

Bendrovė išskiria du techninius sprendimus, lėmusius šiuos rezultatus. Pirmasis yra vadinamoji viso kodų rinkinio atsitiktinio maskavimo strategija, kuri, kaip teigiama, mokymo metu pagerina ir efektyvumą, ir bendrą modelio veikimą. Antrasis yra didelio kalbos modelio naudojimas išankstiniame mokyme. Xiaomi teigimu, tai padeda pagerinti tarimą ir suprantamumą neautoregresyvioje TTS sistemoje. Paprastai tariant, modelis ne tik mėgina skambėti sklandžiai. Jis siekia pakankamai gerai suprasti kalbos struktūrą, kad sudėtingus žodžius tartų natūraliau.

Tai tampa ypač svarbu realiame pasaulyje, kur kalbos sintezė dažnai stringa ties vardais, akcentais, skoliniais ar mišria kalba parašytu tekstu. Xiaomi teigia, kad OmniVoice ir čia suteikia naudotojams daugiau kontrolės. Sudėtingą tarimą, įskaitant kiniškus daugiaskaitomus rašmenis ir angliškus tikrinius daiktavardžius, galima pataisyti rankiniu būdu, kad sistema veiktų patikimiau.

Vartotojams skirtos funkcijos yra ta vieta, kur OmniVoice ima atrodyti nebe kaip mokslinis straipsnis, o kaip platforma. Naudotojai gali kurti individualius balsus aprašydami tokias savybes kaip amžius, lytis, balso aukštis, akcentas, tarmė ir kalbėjimo stilius. Modelis taip pat gali generuoti šnabždančius balsus ir kitus specializuotus vokalinius stilius be pavyzdinio garso įrašo, o tai yra reikšmingas lankstumo šuolis.

Xiaomi taip pat teigia, kad modelis gali išvalyti triukšmingą pavyzdinį garso įrašą prieš klonuodamas balsą, iš netobulomis sąlygomis padarytų įrašų išgaudamas aiškesnius kalbėtojo bruožus. Tai gali skambėti kaip smulkmena, tačiau kiekvienas, dirbęs su realaus pasaulio garsu, žino, kokia netvarkinga dažniausiai būna pradinė medžiaga. Klonavimo sistema, galinti susidoroti su foniniu triukšmu, yra gerokai naudingesnė nei tokia, kuri veikia tik studijos sąlygomis.

Dar vienas aspektas yra išraiškingumas. OmniVoice palaiko intonacijos valdymą, įskaitant tokius efektus kaip juokas ir atodūsiai, todėl sintetinė kalba gali skambėti mažiau robotiškai ir labiau priminti natūralų pokalbį. Būtent ta kryptimi juda rinka. Naujos kartos balso DI siekia ne tik tiksliai perskaityti tekstą garsiai. Ji orientuojasi į atlikimą, asmenybę ir emocinius niuansus.

Xiaomi nėra pirmoji bendrovė, siekianti šio tikslo, ir tikrai nebus paskutinė. Tačiau atverdama OmniVoice kodą ji strategiškai stato už tai, kad platesnė kūrėjų prieiga gali padėti jos kalbos technologijai patekti į daugiau produktų, daugiau rinkų ir daugiau kalbų. Jei modelis įgyvendins bent dalį to, ką žada Xiaomi, OmniVoice gali tapti vienu įdomiausių metų atvirojo kodo balso DI pristatymų.

„Technologijos visada mane žavėjo – nuo išmaniųjų telefonų iki dirbtinio intelekto proveržių. Džiaugiuosi galėdama dalintis naujienomis su jumis kiekvieną dieną.“

Palikite komentarą

Komentarai