Radīts mākslīgā intelekta rīks latgaliešu valodas runas atpazīšanai un transkribēšanai
LU Matemātikas un informātikas institūta (LU MII) Mākslīgā intelekta laboratorijas pētnieki apmācījuši pirmo mākslīgā intelekta (MI) modeli latgaliešu valodas runas atpazīšanai un uz tā bāzes izstrādājuši praktiski izmantojamu latgaliešu valodas runas transkribēšanas rīku. Jaunais MI modelis un rīks ir brīvi pieejami gan galalietotājiem, gan valodu tehnoloģiju risinājumu izstrādātājiem.
“Latgaliešu valoda ir neatņemams Latvijas lingvistiskais un kultūrvēsturiskais mantojums un būtiska nacionālās identitātes daļa aptuveni 165 000 mūsu valsts iedzīvotāju, tādēļ ir svarīgi nodrošināt latgaliešu valodas pilnvērtīgu pastāvēšanu un attīstību arī digitālajā telpā,” norāda LU MII Mākslīgā intelekta laboratorijas vadītājs Normunds Grūzītis. “Esam gandarīti, ka kopā ar partneriem mums ir izdevies izveidot pirmo praktiski izmantojamo MI modeli, kas spēj saprast un pierakstīt latgaliešu valodā runāto. Latviešu valodai šādi risinājumi ir pieejami jau vairāk nekā desmit gadus, un nu arī latgaliešu valodai runas tehnoloģiju nodrošinājums pietuvinājies līmenim, kāds tas ir latviešu valodai.”
Jaunā MI modeļa mašīnapmācība latgaliešu valodas runas atpazīšanai tika paveikta vien mēneša laikā, sagatavojot vairāku gadu laikā iegūtos valodas datu paraugus modeļa apmācībai un izmantojot LU MII mākslīgā intelekta skaitļošanas infrastruktūru. Lai iegūtu nepieciešamos datus, Valsts pētījumu programmā “Letonika” kopš 2022. gada tika veidoti runas korpusi latviešu un latgaliešu valodai – daudzveidīgi runas datu paraugi ar transkripcijām un lingvistisko marķējumu, kopumā vairāku simtu stundu apjomā. Tas ietver arī sabiedrisko iniciatīvu “Balsu talka” un “Bolsu tolka” laikā savāktos latviešu un latgaliešu valodas runas paraugus. Paralēli tam ES finansētajā izglītības un pētniecības projektā “Valodu tehnoloģiju iniciatīva” tika izveidota tehnoloģiskā bāze valodas modeļu mašīnapmācībai.
“Pirms MI modeļa izveides latgaliešu valodai vispirms izveidojām šādu modeli latviešu valodai, jo tai ir pieejams ievērojami vairāk apmācības datu. Pēc tam izveidoto latviešu valodas modeli turpinājām apmācīt ar latgaliešu valodas datiem,” piebilst Normunds Grūzītis.
LU MII izstrādātais latgaliešu valodas runas transkribēšanas rīks LATE-LTG ir brīvi pieejams vietnē https://ltg.late.ailab.lv, savukārt apmācītais MI modelis ir pieejams ar atvērtā pirmkoda licenci, tostarp komerciālai izmantošanai. LATE platforma paver plašas pielietojuma iespējas, tostarp teksta diktēšanai, audio un video ierakstu atšifrēšanai, subtitru veidošanai, kā arī latgaliešu rakstu valodas apguvei.
Latgaliešu un latviešu valodas MI modeļu apmācībai nepieciešamo runas korpusu izveidē un attīstībā piedalās Rēzeknes Tehnoloģiju akadēmijas, LU Matemātikas un informātikas institūta un LU Literatūras, folkloras un mākslas institūta pētnieki, savukārt Latvijas Atvērto tehnoloģiju asociācijai bijusi būtiska loma “Balsu talkas” veiksmīgā organizēšanā un īstenošanā.