Valikko
Romanikielen kieliteknologiassa tapahtuu
Vielä tehtävää ROMTWOLin parissa
ROMTWOLin kehitystyön – muun muassa romanikielisten tekstien sanastuksen – on tarkoitus olla jatkuva prosessi, jonka tavoitteena on saada sisällytettyä ROMTWOLin leksikkoon kaikki julkaistut ja tulevaisuudessakin julkaistavat romanikieliset tekstit, jotta ROMTWOL kehittyisi ja pysyisi ajantasaisena. ROMTWOLin sääntökomponenttia hiotaan ja korjataan edelleen jatkuvana tehtävänä analyysin kattavuuden parantamiseksi (esim. romanikielen variaation ja alamurteiden sekä puhutun romanikielen piirteiden ottamiseksi huomioon). ROMTWOLille ja korjausohjelmalle laaditaan graafinen front end / GUI ja korjausohjelmalle myös lisäosa LibreOfficeen, jotta sitä voidaan kätevämmin käyttää tekstinkäsittelyn yhteydessä. Näiden lisäksi tarpeen mukaan työkaluja päivitetään laajemminkin koko jakson 2023–2030 ajan ominaisuusparannuksin. Koska jakso 2023–2030 on pitkä, myös HFST:n ja VislCG:n versiomuutokset saattavat vaatia muutoksia ROMTWOL:n, ROMCG:n ja ROMFIX:n ohjelmakoodeihin.
ROMCG
Seuraavana askeleena Suomen romanikielen kieliteknologiatyössä on ROMCG-sanaluokkajäsennin, joka jatkaa siitä, mihin ROMTWOL jää. Sen toiminnan perustana ovat ROMTWOL:n tuottamat luennat, joita se yksiselitteistää. Yksiselittäistäminen on tarpeen, koska ROMTWOL tuottaa sanetta kohti keskimäärin 1,5 luentaa. ROMCG on suunnitteilla, ja laaditaan vuoden 2024 aikana käyttäen VislCG3-rajoituskielioppia (https://edu.visl.dk/cg3.html), joka on Tino Didriksenin ja Eckhard Bickin kehittämä CG-rajoituskieliopin toteutus. CG eli Constraint Grammar on alkuaan professori Fred Karlssonin 1990-luvulla luoma metodologinen paradigma luonnollisen kielen jäsentämiseen (NLP) (Karlsson et.al. 1995). Rajoituskieliopissa sananmuodoille ja lauseille etsitään ensin kaikki mahdolliset tulkinnat ja näistä haetaan sitten oikea. Sanaluokkajäsentimen avulla päästään tyypillisesti kielissä yli 99 % tarkkuuteen (Tapanainen & Voutilainen 1994). Työ on kytköksissä jo aloitettuun korjausohjelmatyöhön, koska disambiguaation avulla järjestelmä osaa paremmin tarjota käyttäjälleen ehdotuksia.
ROMFIX
Kieliopintarkistusohjelma (ROMFIX, laaditaan vuonna 2025) on luonnollisena jatkona ROMTWOL:lle ja ROMCG:lle. Myös ROMFIX kehitetään CG:llä, jolla on laadittu disambiguaation välineitä usealle kielelle, esimerkiksi ruotsille (tunnetuimpana Svefix), englannille, saamen kielille ja uralilaisille kielille.
Niȟa rakkiba
Romanikielistä puhetta suunnitellaan kerättäväksi korpukseksi joukkoistamalla verkossa ”lahjoita puhetta” -tyyppisen (vrt. https://lahjoitapuhetta.fi/) kieliaineksen keruun avulla Niȟa rakkiba -hankkeen muodossa; tämä työ on tarkoitus aloittaa CSC:n, Suomen Romaniyhdistyksen ja allekirjoittaneen yhteistyönä jo nyt vuonna 2024. Tämän tavoitteena on kerätä uusia romanikielen aineistoja korpuksiksi.
Laave
Verkkosanakirja Laavea päivitetään niin ikään jatkuvasti yhtäältä lisäämällä siihen laajuutta uusien sana-artikkelien kautta ja toisaalta kehittämällä sana-artikkelien rakennetta lisäämällä esimerkkejä ja etymologista tietoa.
ROMSPEECH
Romanikielen puheteknologian osalta on keskusteltu alustavasti Text-to-Speech-sovelluksesta (ROMSPEECH. 2026).