LIEPA-3 garsynas: lietuvių kalbos šuolis DI rinkoje

7 Minutes

Lietuvoje užbaigtas vienas reikšmingiausių pastarųjų metų kalbos technologijų projektų – Didysis lietuvių kalbos garsynas LIEPA-3. Tai 10 tūkst. valandų lietuvių šnekos duomenų rinkinys, skirtas dirbtinio intelekto sistemoms, automatinio šnekos atpažinimo sprendimams, balso asistentams, automatiniams subtitrams, pokalbių robotams ir kitoms skaitmeninėms paslaugoms, kurios turi veikti lietuviškai.

Šis garsynas yra daugiau nei tiesiog didelė garso įrašų biblioteka. Jis gali tapti infrastruktūriniu pagrindu Lietuvos rinkai, kurioje vis daugiau įmonių diegia dirbtinio intelekto įrankius klientų aptarnavime, dokumentų apdorojime, e. sveikatos sistemose, švietime, žiniasklaidoje ir viešajame sektoriuje. Iki šiol lietuvių kalba dažnai atsidurdavo nepalankioje padėtyje, palyginti su anglų, ispanų, vokiečių ar prancūzų kalbomis, nes trūko didelės apimties, kokybiškai anotuotų ir viešai prieinamų šnekos duomenų.

LIEPA-3 projektą įgyvendino Vilniaus universiteto, Vytauto Didžiojo universiteto ir Lietuvių kalbos instituto mokslininkai. Įdirbis svarbus ne tik Vilniuje ar Kaune veikiančioms technologijų komandoms, bet ir visai Lietuvos inovacijų ekosistemai – nuo startuolių iki mokslinių laboratorijų ir tarptautines paslaugas kuriančių įmonių.

Kodėl lietuvių kalbai reikia tokio masto garsyno?

Dirbtinis intelektas kalbą supranta ne taip, kaip žmogus. Kad sistema galėtų atpažinti žodžius, sakinius, intonacijas, pauzes ir skirtingus tarimo variantus, jai reikia milžiniško kiekio mokomųjų duomenų. Kuo daugiau kokybiškos ir įvairios šnekos, tuo tiksliau veikia automatinis šnekos atpažinimas, balso komandos, transkribavimo įrankiai ir kitos lietuvių kalbai pritaikytos DI technologijos.

Didžiosios pasaulio kalbos šioje srityje turi akivaizdų pranašumą. Anglų kalbai jau seniai prieinami didžiuliai garsynai, todėl tokios paslaugos kaip automatiniai subtitrai, susitikimų transkripcijos ar balso paieška veikia gana sklandžiai. Lietuviams situacija ilgą laiką buvo kitokia: DI įrankiai neretai netiksliai suprasdavo linksnius, kirčiavimą, greitesnę šneką, tarmes ar kasdienėje kalboje vartojamas formas.

LIEPA-3 šią spragą mažina iš esmės. 10 tūkst. valandų šnekos prilygsta daugiau nei metams nenutrūkstamo kalbėjimo. Tai didžiausias iki šiol sukurtas lietuvių kalbos šnekos duomenų rinkinys, kuris leidžia technologijų kūrėjams mokyti modelius ne laboratorinei, o realiai lietuviškai kalbai.

Kas sudaro LIEPA-3 garsyną?

Vienas svarbiausių LIEPA-3 privalumų – duomenų įvairovė. Garsyne sukaupta ne tik tvarkingai įskaitytų tekstų, bet ir spontaninės šnekos, telefoninių pokalbių, radijo laidų, viešai prieinamų garso įrašų bei tarminės kalbos pavyzdžių. Tai ypač svarbu, nes reali lietuvių kalba skamba labai skirtingai: vieni kalba greitai, kiti lėčiau, vieni aiškiai artikuliuoja, kiti vartoja regioninius tarimo bruožus, o įrašymo kokybė kasdienybėje taip pat labai skiriasi.

Spontaninė šneka – arčiau tikro vartotojo

Technologijoms nepakanka vien studijoje įrašyto idealaus balso. Klientų aptarnavimo skambučiuose, vaizdo konferencijose, radijo diskusijose ar socialinių tinklų vaizdo įrašuose žmonės kalba natūraliai: pertraukia mintį, kartoja žodžius, vartoja intarpus, daro pauzes, juokiasi ar keičia kalbėjimo tempą. Būtent tokia medžiaga leidžia kurti sistemas, kurios geriau supranta gyvą šneką.

Svarbią spontaninės kalbos dalį padėjo suformuoti garso archyvai ir žiniasklaidos partneriai. Tokia medžiaga Lietuvos technologijų rinkai yra labai vertinga, nes atspindi realų viešąjį kalbėjimą – nuo laidų vedėjų iki pašnekovų iš skirtingų miestų ir regionų.

Skaitytinė šneka – kontroliuojama kokybė ir fonetinė įvairovė

Kita garsyno dalis sudaryta iš specialiai įskaitytų tekstų. Tokie duomenys leidžia tiksliau valdyti kalbinę ir fonetinę įvairovę. Naudojant kompiuterinius algoritmus parinkti tekstai padeda užtikrinti, kad duomenų rinkinyje atsirastų kuo daugiau skirtingų garsų, jų junginių, žodžių formų ir sakinių struktūrų.

Į skaitytinės šnekos dalies kūrimą įsitraukė daugiau nei 7000 Lietuvos gyventojų. Tai svarbu dėl reprezentatyvumo: DI modelis turi girdėti ne vien profesionalius diktorius, bet ir paprastus vartotojus – jaunus ir vyresnius žmones, skirtingų regionų atstovus, skirtingo kalbėjimo tempo ir balso tembro kalbėtojus. Lietuvos rinkoje tai gali lemti, ar balso technologijos gerai veiks ne tik sostinėje, bet ir mažesniuose miestuose bei savivaldybėse.

Tarmės – lietuvių kalbos technologijų iššūkis ir pranašumas

Lietuvių kalbos įvairovė yra viena iš jos stiprybių, tačiau technologijoms ji tampa rimtu iššūkiu. Žmogus dažnai iš konteksto supranta, ką sako pašnekovas iš Žemaitijos, Dzūkijos ar Aukštaitijos, tačiau dirbtinio intelekto modeliams toks tarimo skirtumas gali būti klaidinantis, jei jie nėra matę pakankamai pavyzdžių.

Dėl to atskira LIEPA-3 dalis skirta lietuvių tarmėms. Surinkta ir anotuota 100 valandų tarminės šnekos. Šie įrašai padeda fiksuoti šiuolaikinę regioninę kalbą ir jos kaitą. Lietuvos vartotojams tai reiškia potencialiai tikslesnes technologijas, kurios ateityje galės geriau suprasti ne tik standartinę bendrinę kalbą, bet ir regioninius tarimo ypatumus.

Tai aktualu ne vien lingvistams. Jei balso asistentas, skambučių centro sistema ar automatinis subtitravimo įrankis nori patikimai veikti lietuviams, jis turi būti pasirengęs įvairiai šnekai. Pavyzdžiui, viešosios paslaugos, e. sveikatos registracijos ar savivaldybių informacinės linijos turi būti prieinamos skirtingų regionų gyventojams, o ne tik tiems, kurių tarimas artimas bendrinei normai.

Anotavimas: kodėl garso įrašų vienų nepakanka?

Norint, kad dirbtinis intelektas mokytųsi iš garso, įrašus būtina susieti su tekstu. Tai vadinama anotavimu. Paprastai tariant, sistema turi žinoti, kokie žodžiai buvo ištarti ir kuriuo metu jie prasidėjo bei baigėsi. Be tokių žymų garsynas būtų daug mažiau naudingas automatinio šnekos atpažinimo modeliams.

Visi LIEPA-3 įrašai anotuoti frazių lygmeniu. Be to, 500 valandų duomenų pažymėta dar detaliau – leksinių vienetų ir fonemų lygmeniu. Toks detalumas yra itin vertingas kuriant pažangius kalbos modelius, kurie turi atpažinti ne tik ištisus sakinius, bet ir smulkesnius garsinius vienetus, tarties variantus bei žodžių ribas.

Lietuvos įmonėms tai gali sumažinti technologinės plėtros barjerą. Vietoj to, kad kiekvienas startuolis ar tyrimų centras nuo nulio rinktų savo duomenis, jie gali remtis jau parengtu atviru ištekliumi ir daugiau dėmesio skirti produkto kūrimui, integracijoms, vartotojo patirčiai ir verslo modeliui.

Kur LIEPA-3 gali būti pritaikytas?

LIEPA-3 potencialas apima daugybę praktinių scenarijų. Lietuvos rinkoje ypač aktualūs šie naudojimo atvejai:

Automatinis šnekos atpažinimas ir transkribavimas

Žurnalistai, teisininkai, medikai, mokslininkai ir verslo komandos kasdien dirba su garso įrašais. Tikslus lietuvių kalbos transkribavimas galėtų sutaupyti daug laiko rengiant interviu, posėdžių protokolus, paskaitų konspektus ar klientų skambučių analizę.

Automatiniai subtitrai lietuvių kalba

Vaizdo turinio rinka Lietuvoje sparčiai auga. Platformoms, naujienų portalams, švietimo projektams ir viešajam sektoriui reikia kokybiškų subtitrų lietuviškai. Geresni šnekos duomenys gali pagerinti prieinamumą žmonėms su klausos sutrikimais ir padėti turinį greičiau pritaikyti platesnei auditorijai.

Balso asistentai ir klientų aptarnavimo robotai

Bankai, telekomunikacijų bendrovės, e. prekybos platformos ir viešosios institucijos vis dažniau automatizuoja klientų aptarnavimą. Lietuviškai veikiantys balso robotai ir pokalbių robotai gali būti patogesni vartotojams, jei jie supranta natūralią kalbą, skirtingus akcentus ir kasdienius pasakymus.

Kalbos analizė ir moksliniai tyrimai

LIEPA-3 svarbus ne tik komerciniams produktams. Garsynas padės tyrinėti, kaip lietuvių kalba kinta skirtingose kartose, regionuose ir socialinėse grupėse. Tai reikšminga kalbininkams, sociolingvistams, edukologams ir kultūros paveldo tyrėjams.

Lietuvos rinkos kontekstas: mažai kalbai reikia savų duomenų

Globalūs DI sprendimai dažniausiai pirmiausia optimizuojami didelėms rinkoms. Tai suprantama iš verslo pusės, tačiau mažesnėms kalboms, tokioms kaip lietuvių, kyla rizika likti technologijų paraštėse. Jei lietuvių kalba nebus tinkamai atstovaujama duomenų rinkiniuose, vartotojai Lietuvoje gaus prastesnės kokybės skaitmenines paslaugas.

LIEPA-3 padeda šią riziką mažinti. Atviras, nemokamai prieinamas garsynas suteikia galimybę kurti lokalizuotus DI sprendimus. Tai ypač svarbu Lietuvos verslui, kuris konkuruoja ne tik vietoje, bet ir tarptautinėje rinkoje. Kokybiškos lietuvių kalbos technologijos gali tapti konkurenciniu pranašumu e. komercijoje, finansų technologijose, švietimo platformose, viešųjų paslaugų skaitmenizacijoje ir žiniasklaidos inovacijose.

Vilniuje, Kaune ir kituose technologijų centruose veikiančios komandos dabar turi geresnes sąlygas kurti produktus, kurie lietuviams atrodo natūralūs, o ne priverstinai pritaikyti iš anglų kalbos. Tai gali skatinti ir naujų startuolių atsiradimą kalbos technologijų, dirbtinio intelekto bei duomenų analizės srityse.

Atviras prieinamumas – didelis privalumas kūrėjams

LIEPA-3 paskelbtas atviroje kalbos išteklių saugykloje CLARIN-LT ir Lietuvos atvirų duomenų portale data.gov.lt. Tai reiškia, kad duomenys prieinami pagal atvirąją licenciją, o jais gali naudotis mokslininkai, universitetai, technologijų įmonės, startuoliai ir nepriklausomi kūrėjai.

Atvirumas yra ypač svarbus inovacijoms. Kai duomenys uždaryti, pažanga priklauso nuo kelių organizacijų. Kai duomenys prieinami plačiai, atsiranda daugiau eksperimentų, prototipų, akademinių tyrimų ir komercinių sprendimų. Lietuvai tai gali reikšti spartesnį lietuvių kalbos integravimą į DI įrankius, debesijos paslaugas, mobiliąsias programėles ir verslo automatizavimo sistemas.

Ne galutinis produktas, o technologinis pamatas

LIEPA-3 verta vertinti ne kaip baigtinį projektą, o kaip ilgalaikę investiciją į lietuvių kalbos ateitį skaitmeninėje erdvėje. Garsynas pats savaime dar nėra balso asistentas ar transkribavimo platforma, tačiau jis suteikia būtiną pagrindą tokioms technologijoms atsirasti.

Kuo daugiau Lietuvos kūrėjų naudos šį išteklių, tuo didesnė tikimybė, kad lietuvių kalba taps pilnaverte šiuolaikinių technologijų dalimi. Tai svarbu ne tik patogumui, bet ir kalbos gyvybingumui. Jei vartotojai galės kalbėti su sistemomis lietuviškai, diktuoti tekstus, gauti subtitrus, naudoti balso komandas ir bendrauti su DI lietuvių kalba, skaitmeninė aplinka taps artimesnė Lietuvos visuomenei.

Ką tai reiškia vartotojams ir verslui?

Paprastam vartotojui LIEPA-3 rezultatai gali pasijusti ne iš karto, bet ilgainiui jie gali pakeisti kasdienę patirtį. Tikėtina, kad ateityje gerės lietuviški subtitrai, tiksliau veiks diktavimas telefone, patogesni taps lietuviški pokalbių robotai, o klientų aptarnavimo sistemos rečiau nesupras vartotojo užklausų.

Verslui tai yra galimybė kurti produktus Lietuvos rinkai be didžiulių pradinių investicijų į kalbos duomenų rinkimą. Viešasis sektorius taip pat gali pasinaudoti šiuo pamatu, diegdamas prieinamesnes, lietuviškai veikiančias skaitmenines paslaugas.

LIEPA-3 rodo, kad net ir mažesnė kalba gali turėti ambicingą vietą dirbtinio intelekto ekosistemoje. Lietuvių kalbos technologijų ateitis priklausys nuo to, kaip aktyviai šiuo ištekliumi naudosis mokslas, verslas ir valstybė. Tačiau pirmas didelis žingsnis jau žengtas – lietuvių kalba gavo duomenų pagrindą, kurio jai seniai reikėjo.

Viltė Petrauskaitė

Sveiki! Esu Viltė, kasdien sekanti technologijų naujienas iš viso pasaulio. Mano darbas – pateikti jums svarbiausius ir įdomiausius IT pasaulio įvykius aiškiai ir glaustai.