Suurte keelemudelite suutlikkus lõi keeleteadlase pahviks

07.04.2025
Suurte keelemudelite suutlikkus lõi keeleteadlase pahviks. 07.04.2025. Tema sõnul muutis see kogu keeletehnoloogia paradigmat. Kui varem tuli igaks ülesandeks luua eraldi mudel, siis nüüd piisab ühest, heast keelemudelist. Keeletehnoloogia on kiiresti arenev valdkond, mis mõjutab otseselt eesti keele suguste väikeste keelte püsimajäämist digitaalses maailmas. TalTechi keeletehnoloogia labor hoiab Eestis keelemudelite valdkonna juhtivat positsiooni ning arendab ühtaegu teaduspõhiseid ja praktilisi rakendusi. Digitaalne ellujäämine algab jagatud andmetest Käesoleva aasta alguses tekitas ühiskonnas debatti uudis, et eesti keele andmed on leidnud tee suurte rahvusvaheliste tehisintellektimudelite treeningmaterjalide hulka. „Me ei andnud neid andmeid otseselt Metale – need olid juba varem avalikult kättesaadavad,“ täpsustas Alumäe. Tema hinnangul on eesti keele andmete jagamine meie enda huvides, sest kui tahame et suured keeletehnoloogilised süsteemid oskaksid eesti keelt, peame nendele andmetele ise tee kätte näitama. Alumäe sõnul ei saa eesti keel tehnoloogilises tulevikus ellu jääda ilma selge põhimõtteta, mille kohaselt peavad kvaliteetsed keeleandmed olema eesti keeles kättesaadavad nii teadlastele kui ka ettevõtetele. Kui tehisintellekt ei mõista eesti keelt, kaob see keel tasapisi ka päriselus. „Peame tegema kõik, et eesti keel oleks tulevikku kujundavates süsteemides nähtav ja kättesaadav.“ “Peame tegema kõik, et eesti keel oleks tulevikku kujundavates süsteemides nähtav ja kättesaadav.” Eesti keele insenerid: TalTechi tiim häälestab mudelid tööle Alumäe eristab kommertsmudeleid (nt OpenAI ChatGPT-d või Google Geminit) ja avatud lähtekoodiga mudeleid, kuna viimased võimaldavad kohandamist ja iseseisvat rakendamist. Keeletehnoloogia-alane töö keskendub just avatud mudelitele. „Meie eesmärk pole leiutada ratast, vaid häälestada olemasolevad head mudelid eesti keelele sobivaks.“ See töö on eelkõige väärtuslik ettevõtetele ja arendajatele, kes soovivad ühendada keelemudeleid oma süsteemide ja rakendustega. Olgu tegu juturobotite, automaatse klienditeeninduse, tekstide kokkuvõtmise või spetsiifiliste ülesannete erilahendustega – kui andmeid ei tohi jagada väljapoole või soovitakse kontrolli kulude ja turvalisuse üle, on avatud lähtekoodiga mudelid, mida saab ise vastavalt vajadusele kohandada, just õiged tööriistad. Kuigi keeletehnoloogia võib esmapilgul jääda ärimaailmast kaugele, on hakatud TalTechi laboris loodud lahendusi juba laialt kasutama – sealhulgas ka väljaspool akadeemilist ringkonda. TalTech pakub populaarset arendust Tekstiks.ee – veebikeskkonda, kuhu saab üles laadida helisalvestisi (nt intervjuusid või koosolekuid), mis seejärel automaatselt transkribeeritakse. Lahendust kasutavad ajakirjanikud, sotsiaal- ja humanitaarteadlased, aga ka ettevõtted, kes tahavad koosolekutest kiiresti memo või protokolli luua. Lisaks on labori loodud kõnetuvastusmudelid kasutusel riigikogus, kohtutes ning nende abil luuakse ETV otseülekannete subtiitreid. „Kui varem pidid stenografistid kõne nullist üles kirjutama, siis nüüd on töö fookus nihkunud automaatse transkriptsiooni toimetamisele,“ märkis Alumäe. Kuigi keeletehnoloogilised lahendused muutuvad järjest täpsemaks ja neid saab üha kergemini rakendada, on ettevõtted alles hakanud konkreetsete mudelite vastu huvi tundma. Alumäe sõnul saavad ettevõtted pöörduda TalTechi poole eelkõige teaduslikku lähenemist nõudvate probleemidega. „Labor aitab lahendada keerukaid ja uudseid probleeme – teaduslikku lähenemist nõudvaid ja tavapärasest arendustööst komplekssemaid küsimusi,“ sõnas Alumäe. “Labor aitab lahendada keerukaid ja uudseid probleeme – teaduslikku lähenemist nõudvaid ja tavapärasest arendustööst komplekssemaid küsimusi.” Maailmatasemel lahendused Lisaks praktilistele rakendustele on TalTechi keeletehnoloogia labor tuntud oma kõrgetasemelise teadustöö poolest. Hiljuti võitsid nad rahvusvahelise võistluse, mille raames arendati keele- ja kõnetuvastussüsteeme 150 keeles. „Meile tagas edu võime tuvastada räägitavat keelt väga täpselt, sealhulgas ka tugeva aktsendi või murdelise kõne puhul,“ kirjeldas Alumäe. Lisaks töötab labor välja arendust, mis aitab tuvastada kõneaktides emotsioone ning hiljuti osalesid TalTechi keeletehnoloogid edukalt rahvusvahelises Alzheimeri varajase tuvastamise võistluses, kus pälviti ligi neljakümne tippgrupi seas kolmas koht. Need saavutused näitavad, et TalTechi väike, aga mitmekülgne uurimisrühm arendab praktilist ja kohandavat, tipptasemel tehnoloogiat, mistõttu kuulub labor omasuguste seas maailma parimate hulka. Kui küsida Tanel Alumäelt, mis on teda viimastel aastatel keeletehnoloogia vallas kõige rohkem üllatanud, ei kõhkle ta hetkekski: „See, et suured keelemudelid üldse nii hästi töötavad. Veel hiljuti arvati, et selline lähenemine ei hakka kunagi toimima. Nüüd aga lahendavad need mudelid paljusid ülesandeid paremini kui kõik vanad lahendused kokku.“ “Mind üllatas väga, et suured keelemudelid üldse nii hästi töötavad. Veel hiljuti arvati, et selline lähenemine ei hakka kunagi toimima. Nüüd aga lahendavad need mudelid paljusid ülesandeid paremini kui kõik vanad lahendused kokku.” Tulevikku vaadates peab Alumäe eriti paljutõotavaks multimodaalset lähenemist – keelemudeleid, mis ei õpi ainult tekstist, vaid suudavad omandada teadmisi ka heli, pildi ja video põhjal. Tema sõnul tähendaks see senisest palju sügavamat maailmataju.
Tanel Alumäe. Foto: TalTech

Tanel Alumäe. Foto: TalTech

„See oli täielik šokk,“ meenutas TalTechi keeletehnoloogia labori juht Tanel Alumäe hetke, mil esmakordselt koges suurte keelemudelite hämmastavat suutlikkust keelt mõista ja luua.

Tema sõnul muutis see kogu keeletehnoloogia paradigmat. Kui varem tuli igaks ülesandeks luua eraldi mudel, siis nüüd piisab ühest, heast keelemudelist.

Keeletehnoloogia on kiiresti arenev valdkond, mis mõjutab otseselt eesti keele suguste väikeste keelte püsimajäämist digitaalses maailmas. TalTechi keeletehnoloogia labor hoiab Eestis keelemudelite valdkonna juhtivat positsiooni ning arendab ühtaegu teaduspõhiseid ja praktilisi rakendusi.

Digitaalne ellujäämine algab jagatud andmetest

Käesoleva aasta alguses tekitas ühiskonnas debatti uudis, et eesti keele andmed on leidnud tee suurte rahvusvaheliste tehisintellektimudelite treeningmaterjalide hulka. „Me ei andnud neid andmeid otseselt Metale – need olid juba varem avalikult kättesaadavad,“ täpsustas Alumäe.

Tema hinnangul on eesti keele andmete jagamine meie enda huvides, sest kui tahame et suured keeletehnoloogilised süsteemid oskaksid eesti keelt, peame nendele andmetele ise tee kätte näitama.

Alumäe sõnul ei saa eesti keel tehnoloogilises tulevikus ellu jääda ilma selge põhimõtteta, mille kohaselt peavad kvaliteetsed keeleandmed olema eesti keeles kättesaadavad nii teadlastele kui ka ettevõtetele. Kui tehisintellekt ei mõista eesti keelt, kaob see keel tasapisi ka päriselus. „Peame tegema kõik, et eesti keel oleks tulevikku kujundavates süsteemides nähtav ja kättesaadav.“

“Peame tegema kõik, et eesti keel oleks tulevikku kujundavates süsteemides nähtav ja kättesaadav.”

Eesti keele insenerid: TalTechi tiim häälestab mudelid tööle

Alumäe eristab kommertsmudeleid (nt OpenAI ChatGPT-d või Google Geminit) ja avatud lähtekoodiga mudeleid, kuna viimased võimaldavad kohandamist ja iseseisvat rakendamist. Keeletehnoloogia-alane töö keskendub just avatud mudelitele. „Meie eesmärk pole leiutada ratast, vaid häälestada olemasolevad head mudelid eesti keelele sobivaks.“

See töö on eelkõige väärtuslik ettevõtetele ja arendajatele, kes soovivad ühendada keelemudeleid oma süsteemide ja rakendustega. Olgu tegu juturobotite, automaatse klienditeeninduse, tekstide kokkuvõtmise või spetsiifiliste ülesannete erilahendustega – kui andmeid ei tohi jagada väljapoole või soovitakse kontrolli kulude ja turvalisuse üle, on avatud lähtekoodiga mudelid, mida saab ise vastavalt vajadusele kohandada, just õiged tööriistad.

Kuigi keeletehnoloogia võib esmapilgul jääda ärimaailmast kaugele, on hakatud TalTechi laboris loodud lahendusi juba laialt kasutama – sealhulgas ka väljaspool akadeemilist ringkonda.

TalTech pakub populaarset arendust Tekstiks.ee – veebikeskkonda, kuhu saab üles laadida helisalvestisi (nt intervjuusid või koosolekuid), mis seejärel automaatselt transkribeeritakse. Lahendust kasutavad ajakirjanikud, sotsiaal- ja humanitaarteadlased, aga ka ettevõtted, kes tahavad koosolekutest kiiresti memo või protokolli luua.

Lisaks on labori loodud kõnetuvastusmudelid kasutusel riigikogus, kohtutes ning nende abil luuakse ETV otseülekannete subtiitreid. „Kui varem pidid stenografistid kõne nullist üles kirjutama, siis nüüd on töö fookus nihkunud automaatse transkriptsiooni toimetamisele,“ märkis Alumäe.

Kuigi keeletehnoloogilised lahendused muutuvad järjest täpsemaks ja neid saab üha kergemini rakendada, on ettevõtted alles hakanud konkreetsete mudelite vastu huvi tundma. Alumäe sõnul saavad ettevõtted pöörduda TalTechi poole eelkõige teaduslikku lähenemist nõudvate probleemidega. „Labor aitab lahendada keerukaid ja uudseid probleeme – teaduslikku lähenemist nõudvaid ja tavapärasest arendustööst komplekssemaid küsimusi,“ sõnas Alumäe.

“Labor aitab lahendada keerukaid ja uudseid probleeme – teaduslikku lähenemist nõudvaid ja tavapärasest arendustööst komplekssemaid küsimusi.”

Tanel Alumäe sõnul on teda viimastel aastatel keeletehnoloogia valdkonnas enim üllatanud see, kui hästi suured keelemudelid töötavad. Veel hiljuti peeti sellist lähenemist ebatõenäoliseks, kuid nüüd suudavad need mudelid lahendada paljusid ülesandeid tõhusamalt kui senised meetodid kokku.. Foto: Unsplash

Tanel Alumäe sõnul on teda viimastel aastatel keeletehnoloogia valdkonnas enim üllatanud see, kui hästi suured keelemudelid töötavad. Veel hiljuti peeti sellist lähenemist ebatõenäoliseks, kuid nüüd suudavad need mudelid lahendada paljusid ülesandeid tõhusamalt kui senised meetodid kokku.. Foto: Unsplash

Maailmatasemel lahendused

Lisaks praktilistele rakendustele on TalTechi keeletehnoloogia labor tuntud oma kõrgetasemelise teadustöö poolest. Hiljuti võitsid nad rahvusvahelise võistluse, mille raames arendati keele- ja kõnetuvastussüsteeme 150 keeles. „Meile tagas edu võime tuvastada räägitavat keelt väga täpselt, sealhulgas ka tugeva aktsendi või murdelise kõne puhul,“ kirjeldas Alumäe.

Lisaks töötab labor välja arendust, mis aitab tuvastada kõneaktides emotsioone ning hiljuti osalesid TalTechi keeletehnoloogid edukalt rahvusvahelises Alzheimeri varajase tuvastamise võistluses, kus pälviti ligi neljakümne tippgrupi seas kolmas koht.

Need saavutused näitavad, et TalTechi väike, aga mitmekülgne uurimisrühm arendab praktilist ja kohandavat, tipptasemel tehnoloogiat, mistõttu kuulub labor omasuguste seas maailma parimate hulka.

Kui küsida Tanel Alumäelt, mis on teda viimastel aastatel keeletehnoloogia vallas kõige rohkem üllatanud, ei kõhkle ta hetkekski: „See, et suured keelemudelid üldse nii hästi töötavad. Veel hiljuti arvati, et selline lähenemine ei hakka kunagi toimima. Nüüd aga lahendavad need mudelid paljusid ülesandeid paremini kui kõik vanad lahendused kokku.“

“Mind üllatas väga, et suured keelemudelid üldse nii hästi töötavad. Veel hiljuti arvati, et selline lähenemine ei hakka kunagi toimima. Nüüd aga lahendavad need mudelid paljusid ülesandeid paremini kui kõik vanad lahendused kokku.”

Tulevikku vaadates peab Alumäe eriti paljutõotavaks multimodaalset lähenemist – keelemudeleid, mis ei õpi ainult tekstist, vaid suudavad omandada teadmisi ka heli, pildi ja video põhjal. Tema sõnul tähendaks see senisest palju sügavamat maailmataju.