Lietuvių kalbai – istorinis DI pamatas su LIEPA-3 garsynu

7 Minutes

Lietuvių kalba skaitmeninėje erdvėje ilgą laiką buvo viena iš tų kalbų, kurioms pažangiausios dirbtinio intelekto sistemos dažnai skirdavo mažiau dėmesio nei anglų, vokiečių, ispanų ar kitos didžiosios pasaulio kalbos. Tai nereiškia, kad lietuviams trūko technologinių ambicijų. Problema buvo daug praktiškesnė – lietuvių kalbos dirbtiniam intelektui trūko didelio, kokybiško ir reprezentatyvaus šnekos duomenų pagrindo. Ši situacija keičiasi: Lietuvoje baigtas kurti Didysis lietuvių kalbos garsynas LIEPA-3, kuriame sukaupta ir anotuota net 10 tūkst. valandų lietuvių kalbos garso įrašų.

Toks duomenų kiekis prilygsta daugiau nei metams nepertraukiamos šnekos. Lietuvos technologijų bendruomenei tai yra reikšmingas įvykis, nes LIEPA-3 tampa vienu svarbiausių atvirų lietuvių kalbos išteklių, skirtų šnekos atpažinimo, balso asistentų, automatinių subtitrų, pokalbių robotų ir kitų dirbtinio intelekto sprendimų kūrimui. Projektą įgyvendino Vilniaus universiteto, Vytauto Didžiojo universiteto ir Lietuvių kalbos instituto mokslininkai, o jo rezultatai jau prieinami tyrėjams, verslui ir technologijų kūrėjams.

Kodėl lietuvių kalbai reikėjo tokio garsyno?

Šiuolaikinės DI technologijos mokosi iš duomenų. Kuo daugiau kokybiškų pavyzdžių jos gauna, tuo tiksliau gali atpažinti žodžius, intonacijas, tarmes, kalbėjimo tempą ir triukšmingą aplinką. Didžiosios pasaulio kalbos turi milžiniškus duomenų rinkinius, todėl globalūs balso asistentai ar automatinio subtitravimo sistemos anglų kalba paprastai veikia gerokai tiksliau. Lietuvos vartotojai iki šiol dažnai susidurdavo su tuo, kad lietuvių kalba technologijose atpažįstama netiksliai, ypač kalbant greičiau, su regionine tartimi arba natūralioje kasdienėje aplinkoje.

LIEPA-3 užpildo šią spragą. Tai ne tik akademinis duomenų rinkinys, bet ir praktinis pamatas Lietuvos rinkai. Jei lietuvių kalbai pritaikytos sistemos bus mokomos naudojant realius lietuviškos šnekos pavyzdžius, jos geriau supras, kaip kalba žmonės Vilniuje, Kaune, Klaipėdoje, Alytuje, Utenoje, Telšiuose ar Mažeikiuose. Tai ypač svarbu viešajam sektoriui, žiniasklaidai, klientų aptarnavimo centrams, švietimui, sveikatos paslaugoms ir visoms įmonėms, kurios nori pasiūlyti paslaugas lietuviams gimtąja kalba.

Kuo LIEPA-3 išsiskiria iš ankstesnių kalbos išteklių?

Pagrindinis LIEPA-3 privalumas – apimtis ir įvairovė. Garsyne sukaupta 10 tūkst. valandų lietuvių šnekos, tačiau vien skaičius neatskleidžia visos vertės. Į duomenų rinkinį įtraukta spontaninė, skaitytinė ir tarminė šneka. Tai reiškia, kad DI modeliai gali mokytis ne tik iš aiškiai įskaitytų tekstų, bet ir iš natūralių pokalbių, radijo laidų, telefoninių dialogų, viešai prieinamų įrašų bei specialiai projektui parengtų įskaitymų.

Šis aspektas yra labai svarbus, nes reali kalba nėra sterili. Žmonės kalba su pauzėmis, pasikartojimais, skirtingu tempu, įvairiomis intonacijomis ir fonetiniais niuansais. Jei šnekos atpažinimo sistema mokoma tik iš idealiai perskaitytų sakinių, ji gali sunkiai susidoroti su gyvu pokalbiu. LIEPA-3 leidžia kurti gerokai atsparesnes ir praktiškesnes lietuvių kalbos technologijas.

Pagrindinės LIEPA-3 savybės

LIEPA-3 gali būti vertinamas kaip technologinis produktas, turintis aiškias funkcines savybes. Pirma, tai didelės apimties lietuvių šnekos duomenų bazė. Antra, duomenys yra anotuoti, todėl tinkami mašininio mokymosi ir giliojo mokymosi modeliams. Trečia, garsynas apima skirtingus kalbėjimo tipus: spontaninę, skaitytinę ir tarminę šneką. Ketvirta, jis yra atvirai prieinamas, todėl gali būti naudojamas tiek universitetuose, tiek startuoliuose, tiek didesnėse Lietuvos ir tarptautinėse įmonėse, kuriančiose produktus Baltijos šalių rinkai.

Kaip buvo kuriamas didžiausias lietuvių šnekos duomenų rinkinys?

LIEPA-3 kūrimas pareikalavo ne tik techninių žinių, bet ir plataus partnerių tinklo. Spontaninės šnekos daliai buvo svarbūs garso archyvai, kuriuos suteikė žiniasklaidos ir kultūros institucijos. Tarp jų – LRT, Žinių radijas ir Lietuvos nacionalinė Martyno Mažvydo biblioteka. Tokie šaltiniai leido surinkti autentišką kalbą, kuri atspindi realias viešojo kalbėjimo situacijas, diskusijas, interviu ir kasdienio bendravimo fragmentus.

Skaitytinės šnekos dalis taip pat buvo kuriama sistemiškai. Prie jos prisidėjo daugiau nei 7000 Lietuvos gyventojų, pateikusių balso įrašų pavyzdžius. Tai leido padidinti duomenų reprezentatyvumą ir įtraukti įvairaus amžiaus, skirtingų regionų bei skirtingos tarties kalbėtojus. Renkant tekstus buvo pasitelkti kompiuteriniai algoritmai, padėję parinkti fonetiškai įvairią medžiagą. Tokiu būdu siekta, kad garsyne atsirastų kuo daugiau lietuvių kalbos garsų, junginių ir tarties variantų.

Tarmės – svarbi lietuvių kalbos DI ateities dalis

Vienas iš LIEPA-3 išskirtinumų yra atskira tarminės šnekos dalis. Lietuvių kalba skirtinguose regionuose skamba nevienodai, todėl technologijoms, kurios turi veikti visoje Lietuvoje, būtina suprasti ne tik bendrinę tartį. Garsyne sukaupta ir anotuota 100 valandų tarminės medžiagos. Ji surinkta nuosekliai ir tolygiai iš skirtingų Lietuvos vietovių, todėl suteikia vertingą XXI a. trečiojo dešimtmečio lietuvių kalbos regioninių atmainų vaizdą.

Tai aktualu ne tik mokslininkams, bet ir praktiniams sprendimams. Pavyzdžiui, klientų aptarnavimo robotas banke, draudimo bendrovėje ar telekomunikacijų įmonėje turėtų vienodai gerai suprasti vartotoją iš Vilniaus, Žemaitijos ar Dzūkijos. Tas pats galioja medicininių konsultacijų transkribavimui, teismų posėdžių stenogramoms, žurnalistikos archyvų paieškai ar švietimo technologijoms. Kuo įvairesni duomenys, tuo mažesnė rizika, kad DI sistema bus pritaikyta tik siauram vartotojų ratui.

Anotavimas: kodėl vien garso įrašų neužtenka?

Dirbtiniam intelektui neužtenka turėti daug garso failų. Kad algoritmai galėtų mokytis, šneką reikia susieti su tekstu ir laiko žymomis. LIEPA-3 įrašai buvo anotuoti frazių lygmeniu, o 500 valandų medžiagos papildomai pažymėta leksinių vienetų ir fonemų lygmeniu. Tai reiškia, kad duomenys tinkami ne tik bendram šnekos atpažinimui, bet ir gilesnei kalbos analizei.

Toks anotavimo detalumas leidžia kurti tikslesnius automatinio kalbos atpažinimo modelius. Jie gali geriau suprasti, kur prasideda ir baigiasi frazė, kaip tariami konkretūs garsai, kaip žodžiai kinta skirtinguose kontekstuose. Lietuvos technologijų įmonėms tai atveria galimybę kurti pažangesnius produktus vietinei rinkai, o mokslininkams – atlikti detalesnius fonetikos, sociolingvistikos ir kalbos kaitos tyrimus.

Palyginimas su pasaulinėmis DI tendencijomis

Globaliai dirbtinio intelekto rinka juda link balso sąsajų. Vartotojai vis dažniau diktuoja žinutes, ieško informacijos balsu, naudoja automatinius subtitrus vaizdo platformose ir bendrauja su virtualiais konsultantais. Tačiau šios technologijos geriausiai veikia tomis kalbomis, kurioms sukurta pakankamai duomenų. LIEPA-3 priartina lietuvių kalbą prie šių pasaulinių tendencijų ir padeda sumažinti skaitmeninę atskirtį tarp didžiųjų ir mažesnių kalbų.

Lietuvos rinka nėra didelė, todėl tarptautinės technologijų korporacijos ne visada investuoja į gilų lietuvių kalbos palaikymą. Būtent todėl atviri nacionaliniai kalbos ištekliai tampa strateginiu pranašumu. Jie leidžia vietos kūrėjams ir startuoliams konkuruoti, o užsienio įmonėms – greičiau pritaikyti produktus lietuviams. Tai gali paskatinti naujų paslaugų atsiradimą Vilniuje, Kaune ir kituose inovacijų centruose.

Praktiniai panaudojimo scenarijai verslui ir vartotojams

LIEPA-3 garsynas gali tapti pagrindu daugeliui sprendimų. Žiniasklaidos įmonės gali naudoti lietuvių šnekos atpažinimą greitesniam interviu ir laidų transkribavimui. Televizijos ir interneto platformos gali kurti tikslesnius automatinius subtitrus lietuvių kalba. Klientų aptarnavimo centrai gali diegti balso robotus, kurie supranta natūralią kalbą, o ne tik ribotą komandų sąrašą.

Švietimo sektoriuje tokie duomenys gali padėti kurti kalbos mokymosi įrankius, tarimo analizės sistemas ir prieinamesnes mokymosi priemones žmonėms su negalia. Sveikatos priežiūros srityje šnekos technologijos galėtų palengvinti gydytojų pastabų diktavimą, pokalbių su pacientais dokumentavimą ar nuotolinių konsultacijų apdorojimą. Viešajame sektoriuje tai galėtų paspartinti posėdžių, diskusijų ir administracinių procesų skaitmeninimą.

Nauda Lietuvos vartotojams

Paprastiems vartotojams LIEPA-3 gali būti nematomas, bet labai juntamas pokytis. Ateityje lietuviams gali būti lengviau naudotis balso komandomis automobilyje, telefone ar išmaniuosiuose namuose. Automatiniai subtitrai lietuvių kalba gali tapti tikslesni, o pokalbių robotai – mažiau formalūs ir geriau suprantantys kasdienius posakius. Tai svarbu ir prieinamumui: žmonėms su klausos, regos ar motorikos sutrikimais kokybiškos kalbos technologijos gali padėti patogiau naudotis skaitmeninėmis paslaugomis.

Atvira prieiga – galimybė mokslui, startuoliams ir įmonėms

LIEPA-3 garsynas paskelbtas CLARIN-LT atviroje kalbos išteklių saugykloje ir Lietuvos atvirų duomenų portale data.gov.lt. Jis prieinamas pagal atvirąją licenciją, todėl duomenimis gali naudotis universitetai, tyrėjai, technologijų kūrėjai ir verslas. Tai itin svarbu, nes atviri duomenys mažina įėjimo į rinką barjerus. Startuoliui nereikia nuo nulio rinkti tūkstančių valandų garso įrašų – galima pradėti nuo patikimo nacionalinio ištekliaus.

Tokie ištekliai stiprina ir Lietuvos inovacijų ekosistemą. Jie padeda kurti sprendimus, kurie nėra tik išverstos užsienio produktų versijos, bet iš tiesų pritaikyti lietuvių kalbos struktūrai, tarties įvairovei ir vietinių vartotojų poreikiams. Tai ypač aktualu įmonėms, kurios nori teikti paslaugas lietuvių kalba ne kompromiso principu, o kokybiškai ir profesionaliai.

Informatikų ir filologų bendradarbiavimas – ilgalaikė vertė

LIEPA-3 projektas parodė, kad pažangios kalbos technologijos neįmanomos vien tik programuotojų pastangomis. Reikalingos ir filologų, dialektologų, fonetikos specialistų, duomenų inžinierių bei DI ekspertų žinios. Šis tarpdisciplininis bendradarbiavimas yra vienas svarbiausių projekto rezultatų. Jis padeda ne tik kurti technologinius produktus, bet ir geriau suprasti, kaip šiandien vartojama lietuvių kalba.

Mokslininkams garsynas suteiks galimybę tikrinti senas hipotezes, analizuoti kalbos kaitą, tirti regioninius skirtumus ir stebėti naujų kalbinių formų atsiradimą. Technologijų kūrėjams tai yra duomenų bazė, iš kurios gali augti naujos kartos lietuvių kalbos DI sprendimai.

LIEPA-3 – ne finišas, o pradžios taškas

Nors LIEPA-3 jau yra didžiausias iki šiol sukurtas lietuvių kalbos šnekos duomenų rinkinys, jį verta vertinti kaip ilgalaikės infrastruktūros pradžią. Dirbtinis intelektas sparčiai keičiasi, todėl kalbos duomenys turės būti nuolat plečiami, atnaujinami ir pritaikomi naujiems modeliams. Vis dėlto dabar lietuvių kalba turi tvirtesnį pagrindą nei bet kada anksčiau.

Lietuvai tai reiškia daugiau nei technologinę pažangą. Tai yra investicija į kalbos matomumą skaitmeninėje erdvėje, į vietos verslo konkurencingumą ir į tai, kad lietuvių kalba išliktų aktyvi ne tik kultūroje ar švietime, bet ir pažangiausiose DI sistemose. Jei šiuo pagrindu naudosis mokslas, verslas ir viešasis sektorius, LIEPA-3 gali tapti vienu svarbiausių Lietuvos skaitmeninės kalbos infrastruktūros projektų per artimiausią dešimtmetį.

Viltė Petrauskaitė

Sveiki! Esu Viltė, kasdien sekanti technologijų naujienas iš viso pasaulio. Mano darbas – pateikti jums svarbiausius ir įdomiausius IT pasaulio įvykius aiškiai ir glaustai.