Tēzaurs.lv aicina “Balsu talkā”
Publiskojot Tēzaurs.lv jaunāko versiju, LU MII Mākslīgā intelekta laboratorija (AiLab) aicina vārdnīcas lietotājus piedalīties “Balsu talkā” – nolasīt vismaz piecus īsus teikumus un pievienot savas runas ierakstu publiskajai latviešu valodas datu kopai, kurā tiek iemūžināta mūsdienās runātā latviešu valoda, lai saglabātu to nākamajām paaudzēm un veicinātu pētījumu un tehnoloģiju attīstību jau šodien.
“Tēzaurs” ir plaša skaidrojošā un sinonīmu vārdnīca, kas AiLab tiek izstrādāta kopš 20. gs. 90. gadiem. Tā ir apjomīgākā atvērtā latviešu valodas leksiskā datubāze, kas ietver ne vien vārdu nozīmju skaidrojumus, bet arī gramatisko informāciju, izrunu un locīšanas paradigmas. Biežāk lietoto latviešu valodas vārdu nozīmju dalījums un skaidrojumi ir pilnveidoti, balstoties “Nacionālās korpusu kolekcijas” Korpuss.lv datos, un papildināti ar piemēriem, tulkojumiem un saistīto vārdu nozīmēm (t. sk. sinonīmiem).
“Tēzaurs” nepārtraukti tiek pilnīgots, bet tā jaunākais laidiens tiek publiskots reizi ceturksnī – saulgriežos. Tikko ir iznākusi rudens versija, kurā aicinām ikvienu, arī daudzos un dažādos “Tēzaura” lietotājus piedalīties “Balsu talkā” – nolasīt dažus teikumus un pievienot savas balss ierakstu latviešu valodas datu kopai, kurā tiek iemūžināta daudzveidīga mūsdienās runātā latviešu valoda. Līdz šim savākti ieraksti vairāk nekā 150 stundu apjomā. Vienlaikus aicinām piedalīties arī jau ierakstīto runas paraugu pārbaudē. Kopā paveikto var aplūkot, analizēt un klausīties Balsutalka.lv runas korpusā, bet atvērtie dati pieejami Common Voice platformā.
Sabiedrisko iniciatīvu “Balsu talka” AiLab organizē kopā ar LU Literatūras, folkloras un mākslas institūtu, Latvijas Atvērto tehnoloģiju asociāciju, UNESCO Latvijas Nacionālo komisiju un Rēzeknes Tehnoloģiju akadēmiju. Runas ieraksti tiek vākti ar Atveseļošanas un noturības mehānisma plāna projekta “Valodu tehnoloģiju iniciatīva” atbalstu.