Justiits- ja digiministeerium teatas 6. veebruaril, et Eesti on valmis jagama eesti keele korpuse avaandmeid suurte keelemudelite arendajatega. Seepeale süüdistati minister Liisa Pakostat mitmes patus – isegi eesti keele tasuta äraandmises.
Vähemalt näis uudis äratavat huvi keeleteaduse ja keeletehnoloogiate vastu. Kommenteerijaid oli palju, aga ma pole veendunud, et kõik sõnelejad päris hästi aru said, millest täpselt jutt käib.
Tänuväärselt selgitasid ülikoolide ja Eesti Keele Instituudi, Eesti Kirjandusmuuseumi ning Eesti Rahvusraamatukogu esindajad ühispöördumises, et kui kohandada tehisaru Eestile sobivaks, vajab see piisaval hulgal kvaliteetseid keele- ja kultuuriandmeid. Ainus viis panna masinad eesti keelt ja Eesti meelt mõistma on treenida neid meie keeles, meie rahvast ja kultuurist kõnelevate andmetega.
Praeguste mudelite keel on puine
Tänapäeva keeleteaduse ja -tehnoloogia aluseks on keele tekstikorpused, mille abil tehisaru mudeleid treenitaksegi. Keele tekstikorpused kujutavad endist süstemaatiliselt kogutud kirjalike tekstide või kõnesalvestiste elektroonilisi andmekogusid.
Eesti keele jaoks on korpuseid loodud alates 1990. aastate algusest. Ühendkorpuste sarja ehk mahukaimat keelekollektsiooni on Eesti Keele Instituut koostanud alates 2013. aastast. Uusim, 2023. aasta versioon sisaldab 3,8 miljardit tekstisõna, 255 miljonit lauset, 83 miljonit lõiku ja 15 miljonit dokumenti. Suure osa ühendkorpuse kogust moodustavad internetist saadud avalikud tekstid. Teisisõnu on tegemist enamasti veebikeelega.
Keeleteadlased juhtisid ühispöördumises tähelepanu sellelegi, et suur osa tehisarude alusandmestikesse jõudnud keelesisust koosneb masintõlgitud tootejuhenditest, õigusaktidest ja eeskirjadest, reklaamidest või sotsiaalmeedias ilmunud kommentaaridest. Seetõttu on praeguste mudelite keel kohati puine ja kantseliitlik. Kvaliteetseid andmeid ehk tõeliselt ilusat eesti keelt, näiteks ilukirjandust, õpikuid, teaduskirjandust või toimetatud meediasisu, on seni mudelitesse jõudnud vaid vähesel määral.
Keelemudeli treenimisel saab väljund olla täpselt nii kvaliteetne, kui on antud sisend. Seega, kui treenime tehisaru üksnes tasuta kättesaadava puise kantseliidiga, algelise slängi või riigikogu stenogrammide solvangutest laetud tekstiga, siis masin arvab, et nii peabki eesti keelt rääkima.
Kui treenime tehisaru üksnes tasuta kättesaadava puise kantseliidiga, algelise slängi või riigikogu stenogrammide solvangutest laetud tekstiga, siis masin arvab, et nii peabki eesti keelt rääkima.

Kui tahame, et noored mõtleks ja saaks igapäevaselt toimetada ilusas eesti keeles, peame tagama, et keelemudelid kasutaksid ilusat eesti keelt. Pilt: Open AI/Trialoog
Keelekorpusi kasutatakse tänapäeval ka sõnaraamatute koostamiseks. Viimati räägitigi eesti keele korpusest põhjalikumalt eelmisel aastal, kui vaieldi selle üle, kuidas tuleks koostada järgmist õigekeelsussõnaraamatut.
Õnneks jõuti siiski kokkuleppele, et päris igasugune veebis leiduv keel, mis kajastub Sõnaveebis, ei peaks olema eesti kirjakeele norm ning õigekeelsussõnaraamatut tuleks edasi teha siiski senisel viisil. Nagu keeleseadus ette näeb. Et tuleb teha vahet õigel ja valel keelekasutusel, ilusal ja koledal keelel. Ilu on keele puhul muidugi kokkuleppeline, kuid ma eelistaksin, et see kokkulepe ei sünniks mitte tasuta veebisisu, vaid rikkaliku eesti kirjakeelepärandi põhjal.
Levitame rikkalikku ja ilusat eesti keelt
Tehisaru on juba õppimist ja töötegemist oluliselt muutnud. Tulevikus hakatakse tehisaru igapäevastes tegemistes veelgi rohkem kasutama ning see muutub üha laiemale osale inimestest tavaliseks ja kättesaadavaks. Ja see, et tehisaru mudeleid treenitaks kvaliteetse eesti keelega, on eelkõige meie endi huvi, mitte Meta või mõne muu arendaja mure. Kui tahame, et noored mõtleksid ja saaksid igapäevaselt toimetada ilusas eesti keeles, peame tagama, et keelemudelid kasutaksid sedasama ilusat eesti keelt. Keelemudelitel on keele säilimises ja arengus äärmiselt suur tähtsus.
14. märtsil tähistatakse emakeelepäeva ning juba sel aastal peakski ilmuma uus õigekeelsussõnaraamat. Eesti keelele ja kultuurile oleks suur kingitus, kui jõuaksime keelekorpuste kvaliteetse täiendamise ja kasutamise reeglites kokkuleppele. Seda on vaja, et sõnaraamatud, keelemudelid, igasugu masinad ja tehnoloogiavidinad aitaksid edaspidi levitada rikkalikku ja ilusat eesti keelt.
Eesti keelele ja kultuurile oleks suur kingitus, kui jõuaksime keelekorpuste kvaliteetse täiendamise ja kasutamise reeglites kokkuleppele.
Külli Taro kommentaar oli eetris Vikerraadios.