Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība

LATE

Notikumi

2024. gada oktobris
Ar Latvijas Zinātnes padomes atbalstu kampaņā “Viegli par zinātni” sagatavoti vairāki publicitātes materiāli, kas vēsta par projektā paveikto, t. sk. videomateriāls “Zinātnes misija: Tava valoda”:

15.–17.10.2024.
Ilze Auziņa ar referātu "Language Technology Initiative – Bridging the Gap between Research and Education" (Barselona) piedalījās ikgadējā CLARIN konferencē.

4.–5.10.2024.
Milans Hoplīčeks (Milan Hoplíček) ar referātu "Correlation between the Latvian verb prefixe -ie and corresponding verb prefixes in Czech" piedalījās 11. Starptautiskajā Baltijas studentu konferencē "Bridges in the Baltics" (Viļņas Universitātē).

26.–27.09.2024.

Viļņas Universitātē notika starptautiska zinātniska konference "Spoken and written language: Synchrony and diachrony", kur Daiga Deksne uzstājās ar referātu "Adjective word-formation models in Latvian using neo-classical word-parts ULTRA-, MEGA-, HIPER- and SUPER-".

21.–24.08.2024.
Ilze Lokmane un Andra Kalnača ar referātu "Compound genitives, noun formation and metonymy in Latvian" piedalījās “Societas Linguistica Europaea" 57. konferencē (Helsinku Universitāte).

06.2024.–07.2024.
Projekta dalībnieki apmeklē vasaras skolas, kas veltītas dažādām tēmām.

  • 3.–7. jūnijā Guna Rābante-Buša un Viesturs Jūlijs Lasmanis piedalījās Groningenas Universitātes (Rijksuniversiteit Groningen) rīkotajā vasaras skolā “Speech Technology Summer School: Charting New Futures" (Nīderlande, Leuvardena; tēmas: jaunākie runas tehnoloģiju pētniecības rīki, kvalitatīvu datu izveide, ētikas jautājumi), kā arī viesojās Frīzu akadēmijā (Fryske akademy), kas ir atbildīga par frīzu valodu uzturēšanu un tās rīku attīstīšanu.

    IMG-20240607-WA0002.jpg

  • 8.–12. jūlijā Agute Klints apmeklēja UniDive vasaras skolu (Moldova, Kišiņeva), kur apguva vairākvārdu leksēmu marķēšanu un uzzināja vairāk par sintaktiskās marķēšanas aktualitātēm.

    GS1wfIIWQAAKxDS.jpg

  • 22.–26. jūlijā vairāki projekta pārstāvji piedalījās 6. Baltijas digitālo humanitāro zinātņu vasaras skolā (Rīga), kas veltīta lielajiem valodas modeļiem. Normunds Grūzītis, Artūrs Znotiņš un Viesturs Jūlijs Lasmanis vadīja praktisko semināru par  teksta gramatiskās analīzes automatizāciju un daudzvalodu teksta korpusu izveidi kvantitatīvai valodas pētniecībai: https://www.youtube.com/watch?v=oFI3AeidPuk

25.04.–26.04.2024.
Baltijas DH forumā dalībnieki tika informēti arī par LATE projektā sasniegto. Viens no stenda referātiem bija veltīts jaunākajiem LATE runas korpusiem – LATE sarunu korpusam un LATE plašsaziņas līdzekļu korpusam, kā arī to izmantojumam valodas izpētē un rīku izstrādē (sk. automātisko audio ierakstu transkribēšanas un rediģēšanas rīku https://late.ailab.lv). Tika stāstīts arī par platformas Korpuss.lv sniegtajām iespējām valodas izpētē un par kampaņā “Balsu talka” savāktajiem runas datiem.

JK__1019.JPG

14.03.2024.
Latvijas Universitātes Bibliotēkā notika LU starptautiskās 82. konferences ietvaros rīkotā konference "Sabiedriskā zinātne (Citizen Science) Latvijā", ko līdzorganizēja LATE. 

Projektu pārstāvēja LU LFMI vadošā pētniece Sanita Reinsone ar priekšlasījumu "Sabiedriskā zinātne digitālo humanitāro zinātņu kontekstā: digitālie risinājumi, iesaistes metodes un komunikācija" un LU LVI direktore ar referātu "Vārdu talkas sabiedriskās zinātnes aspektā".

08.02.–09.02.2024.
LU MII pētniece Lauma Pretkalniņa piedalījās UniDive (COST CA21167) sanāksmē un semināros, kas notika Itālijā, Neapolē. Tā bija lieliska iespēja iepazīties ar iniciatīvas Universal Dependencies (UD) dalībniekiem un organizatoriem un uzzināt, ar kādām problēmām pētnieki saskaras, piemēram, transformējot Prāgas atkarību korpusu (PDT) uz UD.

31.01.2024.
Norisinās LU 82. starptautiskās zinātniskās konferences Latviešu un vispārīgās valodniecības sekcija “Gramatika un valodas elektroniskie resursi”, ko līdzorganizē LATEs projekta dalībnieki.

Projektu pārstāv LU HZF un LU MII, referātu tēmas:

  • Daiga Deksne "Korpusa piemēros balstīta substantīvu motivētu verbu un verbālu vārdkopu sinonīmijas analīze"

  • Emīlija Mežale "Norādāmie vietniekvārdi un to references lauki"

  • Kristīne Levāne-Petrova "Vārdu secība pasīva konstrukcijās"

  • Ilze Auziņa, Baiba Saulīte, Normunds Grūzītis "LATE izstrādātie un pilnveidotie resursi un rīki lingvistiskiem pētījumiem"

  • Ilze Auziņa, Guna Rābante-Buša, Roberts Darģis "Latviešu valodas runas korpuss LATE: izveide, struktūra un lietojums"  

  • Baiba Saulīte, Agute Klints, Ilze Lokmane "Nelokāmā divdabja teicieni "Latviešu valodas sintaktiski marķētajā korpusā""

  • Mikus Grasmanis, Agute Klints, Ilze Lokmane, Gunta Nešpore-Bērzkalne, Laura Rituma, Madara Stāde "Vairākvārdu leksēmu klasificēšana elektroniskajā vārdnīcā “Tēzaurs.lv"".

2023. gada decembris
Iznācis LU HZF Latvistikas un baltistikas nodaļas jaunais rakstu krājums "Valoda: nozīme un forma 14. Gramatika un korpusa pētījumi" (Rīga: LU Akadēmiskais apgāds, 2023), krājuma sastādītāja un redaktore  Andra Kalnača.

23.11.24.11.2023.
Guna Rābante-Buša (LU MII) piedalījās Liepājas Universitātes organizētajā 28. starptautiskajā konferencē "Vārds un tā pētīšanas aspekti" ar referātu "Līdzskaņa 'v' vokalizācija skaņu savienojumos -uv-/-ūv-: korpusā balstīts pētījums".

12.09.2023.
LU MII pārstāves Inguna Skadiņa, Ilze Auziņa un Baiba Saulīte CLARIN konferencē “Jaunākie valodas resursi un rīki digitālajām humanitārajām zinātnēm” stāsta par jaunumiem CLARIN-LV, Tēzaurs.lv un Korpuss.lv.

29.08.–01.09.2023.
LU HZF pētnieces "Societas Linguistica Europaea" 56. konferencē Atēnās: Andra Kalnača un Ilze Lokmane piedalās ar referātu "Attitude dative in Latvian: speech acts and constructions", bet Emīlija Mežale – ar referātu "(Im)polite use of demonstrative pronouns in Latvian and Finnish online texts".

17.08.2023.
Ilze Auziņa Latviešu valodas aģentūras rīkotajā konferencē tālmācības skolotājiem stāsta par to, kā mācību procesā izmantot datorlingvistikas sasniegumus un mākslīgo intelektu. 

26.07.2023.
Baiba Saulīte Latviešu valodas aģentūras rīkotajā Letonistu seminārā informē par latviešu valodas resursu praktisko izmantošanu.

27.–29.06.2023.
LATE pētnieki 5. Pasaules latviešu zinātnieku kongresā:

  • LU HZF pētniece Andra Kalnača stāstīja par Latviešu sinhroniskās valodniecības pētījumiem LU HZF Latvistikas un baltistikas nodaļā;

  • LU MII un LU LFMI piedalījās ar trim stenda referātiem – “Balsu talka – ieguldījums atvērtā latviešu runas bankā ”, “Korpuss.lv un Tēzaurs.lv pētniecībai un tehnoloģiju izstrādei”, “Latviešu valoda CLARIN pētniecības infrastruktūrā – nozīmīgs solis pretī valodu digitālai līdztiesībai”.

26.–29.06.2023.
Lauma Pretkalniņa piedalījās konferencē "eLex 2023: electronic lexicography in the 21st century" (Brno, Čehijā), kur uzstājās ar ar demonstrāciju par Tēzaurs.lv, prezentējot LU MII publikāciju "Tēzaurs.lv – the experience of building a multifunctional lexical resource". Tāpat tika iepazītas jaunākās pētniecības aktualitātes datorleksikogrāfijā, kā arī apmeklēts darbseminārs "Sketch Engine workshop" par jaunām un mazāk zināmām SkE platformas iespējām.

11.05.2023.
LZA Humanitāro un sociālo zinātņu nodaļas sēdē notiks LZA korespondētājlocekles Ilzes Auziņas priekšlasījums par VPP programmas "Letonika latviskas un eiropeiskas sabiedrības attīstībai" projektu "Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība".

16.–17.03.2023.
Notika 58. prof. Artura Ozola dienas starptautiskā zinātniskā konference “Gramatika un vārddarināšana”. Tajā ar referātiem piedalījās LATE pētnieces no LU HZF un LU MII:  Daiga Deksne (“Priedēkļi lietvārdu vārddarināšanas modeļos”), Ilze Lokmane (“Klauzāli subjekti „Latviešu valodas sintaktiski marķētajā korpusā””, sadarbībā ar Baibu Saulīti), Paula Kļaviņa (“Vietniekvārdi TAS / TĀDS un pārsteiguma izteikšana”), Andra Kalnača (“Interjekcijas un vārddarināšana”), Kristīne Levāne-Petrova (“Transitivitāte un pasīva konstrukcijas”), Ilze Auziņa (“Sarunvalodai tipiskie fonētiskie līdzekļi: runas korpusa datu analīze”, kopā ar Gunu Rābanti-Bušu) un Laura Rituma (“Salīdzinājuma konstrukcijas “Latviešu valodas sintaktiski marķētajā korpusā””, kopā ar Guntu Nešpori-Bērzkalni, Laumu Pretkalniņu un Baibu Saulīti).

23.02.2023.
Baiba Saulīte un Ilze Lokmane piedalās LU LaVI rīkotajā Jāņa Endzelīna 150. dzimšanas dienas atcerei veltītajā konferencē. Referātā “Infinitīva palīgteikumi un teikuma tipu robežgadījumi “Nacionālajā korpusu kolekcijā”” viņas analizē infinitīva palīgteikumu struktūru un semantiku dažādos korpusos un šo konstrukciju marķējumu “Latviešu valodas sintaktiski marķētajā korpusā”, kā arī aplūko valodas praksē vērojamo nekonsekvenci pieturzīmju lietojumā un pašreizējo interpunkcijas normu pamatotību.

09.02.2023.
Apkopojot vairāk nekā 10 iestāžu izstrādātos latviešu valodas korpusus, izveidota Nacionālā korpusu kolekcija (NKK) ar vienotu meklēšanas sistēmu, kas pieejama platformā Korpuss.lv.

24.11.2022.
Noris Liepājas Universitātes 27. starptautiskā zinātniskā konference "Vārds un tā pētīšanas aspekti". LATEs projektu ar priekšlasījumu "Latviešu zīmju valodas korpusa izstrādes process" pārstāv Daiga Straupeniece un Elza Ozola (LiepU), ar priekšlasījumu "Partikulas kaut izrunas varianti dažādos vārdu savienojumos"  – Guna Rābante-Buša (LU MII), ar priekšlasījumu "Par dažu bezpriedēkļa un priedēkļa verbu saikni ar prievārdiem un adverbiem"  – Ieva Auziņa (LU LVI). 

04.11.2022.
Ilze Auziņa un Baiba Saulīte piedalās konferencē  Latviešu valoda Eiropas Savienībā – valodas tehnoloģijas publiskajā pārvaldē un sabiedrībā”, sniedzot priekšlasījumu par Nacionālo korpusu kolekciju un tās izmantošanas iespējām. 

06.10.2022.
Starptautiskajā konferencē "Human Language Technologies  Baltic Perspective" (Baltic HLT), kas norisinās Rīgā, priekšlasījumu "How Masterly Are People at Playing with Their Vocabulary?" sniedz Sanita Reinsone (LU LFMI) kopā ar Matīsu Riktertu (Tokijas Universitāte).

04.10.2022.
Norisinās praktiskais seminārs "Digitālie resursi valodniekiem". Par korpusu izmantošanu valodniecības pētījumos stāsta Baiba Saulīte un Ilze Auziņa (LU MII).

20.09.2022.
Andra Kalnača un Ilze Lokmane (LU HZF) piedalās Dženovas Universitātes organizētajā konferencē "EXPRESSIVES. Theoretical and Experimental Approaches to the Expressive Content. 9th Experimental Pragmatics Conference 2022", sniedzot priekšlasījumu "Expressive predicative constructions in Latvian". 

24.08.2022.–27.08.2022.
Andra Kalnača un Ilze Lokmane (LU HZF) piedalās "55th Annual Meeting of the Societas Linguistica Europaea" Bukarestes Universitātē Rumānijā, sniedzot priekšlasījumu "Syntactic constructions with the verb vajadzēt ‘to need, must’ in Latvian". 

21.08.2022
Emīlija Mežale (LU HZF) piedalās Vīnes Universitātes organizētajā konferencē "Congressus XIII Internationalis Fenno-Ugristarum", sniedzot priekšlasījumu "Article-like usage of demonstrative pronouns: a case of Finnish and Latvian".

30.06.2022.–02.07.2022.
Andra Kalnača, Daiga Degsne un Tatjana Pakalne (LU HZF) piedalās Ģentes Universitātes organizētajā konferencē "Grammar and Corpora", sniedzot priekšlasījumu "Latvian deverbal nouns in -ien- and -um- and derivational productivity: a corpus-based analysis".

20.25.06.2022.
No 20. līdz 25. jūnijam Marseļā notiek LREC 2022 (13th Conference on Language Resources and Evaluation) lielākā valodas tehnoloģiju resursiem veltītā konference. LU Matemātikas un informātikas institūts tajā piedalās ar trim stenda referātiem.
21. jūnijā sniegta prezentācija par latviešu valodas apguvēju korpusu LaVA, kurā apkopotas Latvijas augstskolās studējošo valodas apguvēju rakstītās esejas (apjoms – 190 tūkst. vārdlietojumu). Analizējot korpusa tekstos atzīmētās valodas apguvēju kļūdas, izveidota pašpārbaudes uzdevumu kopa.
22. jūnijā stenda referātā tika prezentēti Tezaurs.lv tiešsaistes vārdnīcas papildinājumi ar vārdu nozīmju sinonīmiem un citām semantiskām saitēm, veidojot Latviešu valodas leksisko tīklu (Latvian WordNet).
24. jūnijā stenda referātā tika sniegts ieskats par Nacionālajā korpusu kolekcijā korpuss.lv iekļautajiem teksta un runas korpusiem, to gramatisko marķējumu un par vienoto meklēšanu vairāk nekā 20 dažādos korpusos (kopējais apjoms – vairāk nekā 1,3 miljardi tekstvienību).

16.05.2022.–20.05.2022.
Emīlija Mežale (LU HZF) piedalās vasaras skolā "Speech Matters" Itālijā, Komo,  klausoties kursus par jautājumiem, kas saistīti ar runātas valodas izpēti: gramatiku, uzsvara un žestu analīzi, dažādu kopienu valodas īpatnībām, referenci, runas sintēzi, kā arī apgūstot ELAN anotēšanas rīka lietošanas pamatus.

12.05.2022.
Emīlija Mežale (LU HZF) piedalās Tartu Universitātes un Igaunijas literatūras muzeja organizētajā konferencē "Subjectivity and Intersubjectivity in Language and Culture", sniedzot priekšlasījumu "(Im)politeness of colloquial language features in Latvian and Finnish".

30.03.2022.
Ilze Lokmane (LU HZF) un Madara Stāde (LU MII) piedalās LU 80. starptautiskās zinātniskās konferences sekcijā "Valoda un kultūra digitālajā laikmetā”, sniedzot priekšlasījumu "Latviešu valodas leksiskais tīkls kā jauns digitālās valodas apstrādes rīks: paveiktais un iecerētais".

17.03.2022.
Andra Kalnača un Tatjana Pakalne (LU HZF) piedalās 6. Ziemeļvalstu un Baltijas valstu digitālo humanitāro zinātņu konferencē (DHNB2022) Upsalas Universitātē Zviedrijā, sniedzot priekšlasījumu "Assigning meaning to novel productively formed complex words in actual language use: a case of the Latvian agentive suffix -tāj-".

10.02.2022.
Norisinās  LU 80. starptautiskās zinātniskās konferences Latviešu un vispārīgās valodniecības sekcija "Gramatika un korpusa pētījumi", ko organizē Andra Kalnača un Ilze Lokmane (LU HZF). Tajā piedalās Linda Lauze, Ilze Auziņa,  Laura Rituma, Baiba Saulīte, Gunta Nešpore-Bērzkalne, Lauma Pretkalniņa,  Ilze Auziņa, Kristīne Levāne-Petrova, Roberts Darģis,  Ilze Lokmane, Andra Kalnača, Tatjana Pakalne,  Emīlija Mežale. Kopumā šajā konferencē LATEs projekta dalībnieki sniedz 8 priekšlasījumus. 

27.28.01.2022.
Ilze Migla (LU LVI) piedalās starptautiskās zinātniskās konferences „XXXII Zinātniskie lasījumi” sekcijā „Baltu valodas: sinhronija un diahronija", sniedzot priekšlasījumu "Leksēma putns latviešu frazeoloģijā".

18.01.2022.
LATE projekta atklāšanas sanāksme

18. janvārī notika LATE projekta atklāšanas sanāksme, kurā piedalījās projekta vadības grupas pārstāvji no visām partnerinstitūcijām:
LU MII: Ilze Auziņa, Baiba Saulīte, Normunds Grūzītis, Inguna Skadiņa, Vita Matule
LU LVI: Edmunds Trumpa, Agris Timuška, Sanda Rapa, Marita Silkāne
LU HZF: Andra Kalnača, Ilze Lokmane
LU LFMI: Sanita Reinsone
LiepU: Dina Bethere, Airita Lindberga

12.01.2022.
LU MII un CLARIN Latvija organizēts praktiskais seminārs par korpuss.lv platformā pieejamajiem korpusiem un meklēšanu tajos. Semināra vadītājas: Ilze Auziņa un Baiba Saulīte. 
https://www.clarin.lv/lv/clarin-latvija-seminari/63-praktiskais-seminars-par-par-korpuss-lv-vietne-pieejamajiem-korpusiem

Informācija par projektu

Projekts "Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība" tiek īstenots Valsts pētījumu programmas "Letonika latviskas un eiropeiskas sabiedrības attīstībai" ietvaros.

Projekta Nr.: VPP-LETONIKA-2021/1-0006
Projekta īstenošana: 20.12.2021.–19.12.2024.
Projekta finansējums: 1 068 000 EUR
Projekta finansētājs: LR Izglītības un zinātnes ministrijas Latvijas Zinātnes padome

Projekta partneri: Latvijas Universitātes Matemātikas un informātikas institūts (vadošais partneris), Latvijas Universitāte (Latvijas Universitātes Latviešu valodas institūts un Latvijas Universitātes Humanitāro zinātņu fakultāte), Latvijas Universitātes Literatūras, folkloras un mākslas institūts, Liepājas Universitāte

Kontaktinformācija: [email protected]

Projekta vadītāja: Ilze Auziņa, Dr. philol.

Kopsavilkums
Projekta “Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība” (LATE) mērķis ir veikt mūsdienu latviešu valodas fonētiskās, gramatiskās, leksiskās sistēmas, kā arī latviešu zīmju valodas izpēti, izmantojot datos balstītas metodes un attīstot ilgtspējīgus latviešu valodas resursus un rīkus.

Lai sasniegtu izvirzīto mērķi, tiks attīstīta digitālā infrastruktūra valodas pētniecībai un tiks izveidoti jauni un papildināti esošie valodas resursi: latviešu valodas runas korpuss, latviešu zīmju valodas paraugkorpuss, leksiskā datubāze Tēzaurs.lv un “Mūsdienu latviešu valodas vārdnīca”.  Veicot datos balstītus latviešu valodas pētījumus, tiks pilnveidots gramatiski marķētais latviešu valodas korpuss un fonētiski fonoloģiskās sistēmas apraksts. Projekta laikā izveidotie un pilnveidotie resursi tiks iekļauti vienotajā latviešu valodas digitālās pētniecības infrastruktūrā CLARIN-LV un izmantoti runas transkribēšanas, pēcrediģēšanas un subtitrēšanas platformas LATE izstrādē.

Projekta uzdevumi: (a) digitālās infrastruktūras attīstīšana valodas pētniecībai: latviešu valodas leksisko, fonētisko un akustisko resursu izveide digitālā, mašīnlasāmā tiešsaistes datu formā, tai skaitā transkribētu runas korpusu izstrāde, nodrošinot to integrāciju Eiropas valodas resursu repozitorijos; (b) latviešu valodas skaņu sistēmas akustiskie un auditīvie (uztveres) pētījumi; (c) latviešu valodas gramatikas vienību un to variantu semantiski pragmatiski pētījumi; (d) latviešu nedzirdīgo zīmju valodas pētniecība; (e) runas atpazīšanas un balss sintēzes tehnoloģijas; (f) valodas tehnoloģiju risinājumi cilvēkiem ar īpašām vajadzībām (piemēram, automātiskā subtitrēšana, balss komandas).

Projekta virzieni uzdevumu īstenošanai:
WP1 Latviešu valodas pētījumu digitālā infrastruktūra
WP2 Datos balstīta latviešu valodas fonētiskās sistēmas izpēte
WP3 Datos balstīti latviešu valodas gramatikas pētījumi
WP4 Datos balstīti latviešu zīmju valodas pētījumi
WP5 Latviešu valodas runas tehnoloģiju izstrāde

Projekta pētnieciskā grupa: projekta īstenošanā ir iesaistīti 10 galvenie izpildītāji un 33 izpildītāji, t. sk. 14 studējošie.