3 Minutės
Valstybės skaitmeninių sprendimų agentūra kartu su Vytauto Didžiojo universitetu, UAB Neurotechnology, UAB Tilde Lietuva ir MB Krilas pristato pirmą praktinį projekto rezultatatą – Mažąjį lietuvių kalbos vektorizuotą modelį. Modelis, žinomas kaip LT-MLKM-modernBERT, nuo lapkričio 3 d. publikuotas atviroje Hugging Face platformoje ir prieinamas lietuviams kūrėjams bei įmonėms.
Pirmiausia duomenys: Tekstynas kaip pagrindas
Sėkmingam dirbtinio intelekto sprendimui būtina kvalifikuota kalbinė bazė. Projekto Bendrasis lietuvių kalbos tekstynas taps didžiausiu iki šiol surinktu lietuvišku tekstynu – planuojama sutelkti apie 3,5 mlrd. žodžių iš tikrų, žmogaus rašytų tekstų. Mažasis modelis buvo apmokytas su daugiau nei puse šių duomenų, t. y. 1,87 mlrd. žodžių, todėl jau dabar atspindi aukštos kokybės lietuvišką kalbą vienoje vietoje.
Kas tai reiškia technologijų kūrėjams ir verslui
Produkto ypatybės
- Modelis veikia kaip vektorizatorius: užkoduoja žodžius ir sakinius taip, kad kompiuteris juos suvoktų;
- Jis yra iš anksto apmokytas ir paruoštas tolesniam pritaikymui specifinėms užduotims;
- Specializuota versija LT-NER-modernBERT pritaikyta įvardytųjų esybių atpažinimui, geba identifikuoti asmenvardžius, vietovardžius, datas ir kt.
Privalumai Lietuvos rinkai
Šis modelis mažina priklausomybę nuo užsienietiškų sprendimų ir suteikia Lietuvos įmonėms konkurencinį pranašumą. Vietiniai startuoliai, viešasis sektorius Vilniuje, Kaune ir regionuose galės greičiau integruoti lietuvišką DI funkcionalumą į produktus, klientų aptarnavimo sistemas ir analizės platformas.
Palyginimas su pasauliniais scenarijais
Nors panašius kalbinius modelius kūrė ir kitos mažesnės Europos kalbos komandos, lietuviško modelio sukūrimas reiškia, kad Lietuva turi savarankišką, aukštos kokybės sprendimą. Pagal lokalizacijos lygį ir teksto kokybę LT-MLKM-modernBERT konkuruoja su tarptautiniais analogais, nes yra išmokytas ant specifinių lietuviškų tekstų, o ne verčių ar automatiškai generuotų duomenų.
Naudojimo scenarijai
- Pokalbių robotai ir klientų aptarnavimo automatizavimas lietuvių kalba;
- Įvardytųjų esybių atpažinimas ir anonimizacija teisės, sveikatos ar viešojo sektoriaus dokumentuose;
- Sentimentų analizė socialiniuose tinkluose ir rinkos tyrimuose Lietuvos rinka orientuotoms kampanijoms;
- Teksto paieška ir informacijos ištrauka vietinėms žiniasklaidos bei IT sistemoms.

Finansavimas ir tolesnės perspektyvos
Projektas vykdomas pagal Lietuvos valstybės skaitmeninimo programą ir finansuojamas iš Ekonomikos gaivinimo ir atsparumo didinimo priemonės. Įgyvendinus plėtrą, visas Tekstyno turinys bus viešai prieinamas ir leis kurti didesnius bei specializuotus lietuvių kalbos modelius.
Santrauka
Mažasis lietuvių kalbos vektorizuotas modelis yra reikšmingas žingsnis Lietuvos DI buveinei. Jis suteikia kūrėjams ir verslui priemonę greičiau diegti lietuviškus DI sprendimus, stiprina nacionalinę technologinę infrastruktūrą ir atveria naujas galimybes inovacijoms Vilniuje, Kaune ir visoje Lietuvoje.
Palikite komentarą