Võro ja seto keelekorpus Trükiq

Projekti seletüs

Projekti tsihis om ette valmistaq võro ja seto keelele keeleteknoloogilidsõ toe luumist läbi võro ja seto keeleressurssõ kokkokorjamisõ ja naidõ ütes keelekorpusõs kõrraldamisõ. Projekti tukõ riiklik programm Eesti keeleteknoloogia 2011.

Võro ja seto keele arõndamist ja laembat pruukmist om peet tähtsäs nii paigapäälitsel kui ka riigi tasõmõl. Om häste teedäq, et seo ilma aigo saa-ai ello jäiäq ega kõrdapiten arõdaq keeleq, mille olõ-õi luud määnestki keeleteknoloogilist tukõ. Taa käü ka võro ja seto keele kotsilõ, miä ommaq 2009. aastagal kannõduq UNESCO ohon kiili nimekirjä. Setokeeline leelo om samal aol võet ka UNESCO maailma vaimlidsõ kultuuriperändüse nimekirjä.

Edimäne keeleteknoloogilinõ tarvidus võro ja seto keele jaos olnuq võro ja seto keele nii kiräligu ku suulidsõ korpusõ luuminõ ja tuu perrä ummakõrda võro-seto automaatkorrõktuuri, -poolitaja jt tarviliidsi rakõnduisi luuminõ. Tuu man om edimädses tüüs võro ja seto keeleressurssõ kokkokorjaminõ, kõrraldaminõ ja tävvendämine ütes keelekorpusõs, tarviliidsi otsimoodoridõ jm tarvitusprogrammõ luuminõ ni edespiten luudu korpusõ tävvendämine ja laendaminõ ni vahtsidõ rakõnduisi manoqpandminõ.

Korpusõ kirotõdu keele jakko om plaanin tetäq võro ja seto aokirändüskeele jago (aolehti Uma Leht ja Setomaa elektrooniidsi arhiivõ sisu perrä) ja Võro Instituudin jm alalõhoiõtuidõ muiõ võro kiräkeele lättide jago (opiraamaduq, ilokirändüsvälläandõq jm).

Korpusõ suulidsõ keele jakko kor'atas ütistüün TÜ murdõkorpusõ ja suulidsõ kõnnõ korpusõ arõndajidõ ni TÜ Lõunõ-Eesti keele- ja kultuuri-uurmiisi keskusõga kokko nii murdõkorpusõn jo olõmanolõvit tekste ku ka peris vahtsit ülesvõttit nii helüfailõn ku üleskirotuisin. Korpusõlõ pandasõq manoq ka olõmanolõvaq võro latsikeele ülesvõttõq.

Nii kiräliidsi ku suuliidsi keeleressurssõ tulõ lisas olõmanolõva matõrjali kokkokorjamisõlõ ja kõrraldamisõlõ kõikaig tävvendäq vahtsõ keelematõrjaali korjamisõ, litõriirmise ja märgendämisega. Korpusõ suulidsõ kõnnõ puul luu põh'a tuus, et tulõvigun saanuq võro ja seto keelega rehkendäq ka eesti kõnnõärqtundmisõ ja -sünteesi arõndamisõ man.

Tast saa kaiaq näüdüst korpusõ suulidsõ jao ütest võro latsikeele videoülesvõttõst üten litereeridü tekstiga:


 

Tast löüd korpusõ võro kiräkeele jakko kor'aduq Uma Lehe artikliq rubriigest pääleht, uudissõq, elo ja märgotus lehenumbriist 51 kooniq 248: Uma Lehe korpus tekstifailõn, Uma Lehe korpus HTML-failõn, Uma Lehe korpus TEI-failõn. Lisas om korpusõ taa jao sisu jaos luud Uma Lehe korpusõ otsingumoodor, midä võivaq kõik huvilisõq vabalt pruukiq.