Miðeind fagnar um þessar mundir tíu ára afmæli. Af því tilefni gefum við út röð pistla sem líta yfir farinn veg og tíunda þann árangur sem náðst hefur í máltækni fyrir íslensku undanfarinn áratug.
Máltækni snýst um að gera fólki kleift að eiga samskipti við tölvur á mannamáli, og að búa til ýmis tól sem hjálpa okkur að vinna með tungumál. Hér hjá Miðeind höfum við ávallt haft að leiðarljósi að búa til og bjóða almenningi upp á lausnir sem endurspegla bestu fáanlegu máltækni hverju sinni. Til þess að uppfylla þetta markmið höfum við tamið okkur að endurskoða reglulega þær aðferðir sem við fylgjum við hugbúnaðarþróun, en það verður oft til þess að við förum aftur að teikniborðinu, hendum eldri aðferðum og líkönum út fyrir ný, eða gjörbreytum þeim grunni sem lausnirnar okkar byggja á.
Flest hafa kynnst hefðbundnum máltæknitólum í gegnum tíðina, t.d. lausnum eins og Google Translate, Púka, Skramba, eða einhverjum af ótal mörgum spjallmennum sem hafa tekið sér bólfestu á íslenskum vefsíðum. Máltækni getur líka snert líf okkar án þess að við gerum okkur grein fyrir því. Við sendum kannski skilaboð eða tölvupóst á bankann okkar og þar fara þau fyrst í gegnum greiningu sem metur hversu áríðandi þau eru — og niðurstöður hennar hafa áhrif á það hversu fljótt við fáum svar.
Máltækni dagsins í dag á sér svo að segja samheiti í gervigreind en það er ekki mjög langt síðan máltækni byggði nær algjörlega á reglukerfum, þ.e.a.s. kóða sem lýsir skref fyrir skref þeim aðgerðum sem tölvan á að framkvæma. Áhugavert er að skoða þróun máltækni frá reglukerfum til gervigreindar í samhengi við hin ýmsu yfirlestrartól sem staðið hafa íslenskum málnotendum til boða í gegnum tíðina.
Fyrsti máltæknihugbúnaðurinn sem var þróaður innan Miðeindar — árið 2015 — heitir Greynir og er dæmi um reglukerfi. Greynir notar gríðarstóran reglubanka til að greina íslenskan texta í svokölluð setningatré, þ.e. kerfisbundna framsetningu á því hvernig setningar greinast í setningarliði og hvaða hlutverki hvert orð gegnir í setningunni. Allt í allt samanstendur innsti kjarni Greynis af um 7.000 línum af kóða (nánar til tekið málfræðireglum á ákveðnu stöðluðu formi) sem tók, eins og gefur að skilja, ansi langan tíma að skrifa. Þegar Greynir var svo tilbúinn gátum við byggt ofan á hann, notað hann til þess að finna ákveðna setningargerð í textum og leiðrétta villur í henni, til dæmis þágufallshneigð.
Upp úr þessu spratt vefurinn Yfirlestur sem var byltingarkenndur að því leytinu að hann var fyrsti hugbúnaðurinn sem gat að einhverju ráði leiðrétt íslenska málfræði. Hér að ofan var minnst á Skramba en Skrambi er í hópi með Púka, yfirlestrarvirkninni í Microsoft Office og fleirum sem voru og eru allt tól sem laga fyrst og fremst stafsetningarvillur og taka ekki málfræðilegt samhengi inn í myndina nema að takmörkuðu leyti. Þessi tól virka í grunninn þannig að sérhverju orði er flett upp í orðasafni sem inniheldur bæði orðabókar- og beygingarmyndir af stóru mengi íslenskra orða. Ef orð finnst ekki í safninu er það merkt sem villa, og stungið upp á annarri orðmynd í staðinn, en ella er það látið óáreitt.
Uppástungur að leiðréttingum í svona kerfum byggja m.a. á reglum um tíðni ákveðinna stafavíxla. Þannig merkir kerfið orðið firir og stingur líklega upp á fyrir í staðinn, en ekki fipir eða firrir sem þó eru sannarlega mögulegar orðmyndir í íslensku. Hér er víxlum á i og y gert hærra undir höfði en víxlum á einum samhljóða fyrir annan enda eru yfsilon-villur algengari en margar aðrar hjá íslenskum málnotendum.
Svona tól geta leiðrétt villur á borð við:
Pétur skaut ifir markið
…en hafa ekki forsendur til þess að laga setningu eins og:
Jón er komin heim
eða
Vinkonurnar brynja og lóa búa hlið við hlið
— svo lengi sem orðmyndin er til og þokkalega algeng fær hún að standa.
Yfirlestur byggði hins vegar á setningagreiningu, eins og áður sagði. Hann gat því m.a. nýtt gagnagrunna á borð við Beygingarlýsingu íslensks nútímamáls (BÍN) til þess að fletta upp orðmyndum, fá upplýsingar um kyn og tölu og nota þær til þess að greina hvort lýsingarorð er rétt beygt og stafsett með tilliti til þess nafnorðs sem það stendur með, eða hvort frumlag sé í réttu falli miðað við umsögn. Yfirlestur fór því létt með áðurnefnda setningu:
Jón er komin heim > Jón er kominn heim
Hins vegar takmörkuðust þær leiðréttingar sem Yfirlestur gat framkvæmt við setningar sem Greynir náði að þátta en honum gat t.d. brugðist bogalistin í málsgreinum með mjög flókna setningagerð, eða sem ná yfir greinarmerkjaskil, og ef textinn var of villuríkur:
Meirihluti stuðningsfólks Samfylkingarinnar, Pírata, Viðreisnar, Vinstri grænna og Sósíalistaflokk Íslands töldu hælisúthlutanir hins vegar vera ónóg.
Stelpurnar fara í leikhús á morgun. Þeim hefur lengi hlakkað til.
En máltækni hefur fleygt gríðarlega hratt fram á síðustu árum og það liðu ekki nema þrjú ár á milli þess að Miðeind gaf út Yfirlestur (2020) og næstu kynslóðar leiðréttingartóla fyrir íslensku (2023). Þessi nýja tækni er algjörlega byggð á gervigreind, eða nánar tiltekið djúpum tauganetum, í stað gömlu reglukerfanna. Þessi vara heitir í dag Málfríður og er aðgengileg á Málstað, málvinnsluvettvangi Miðeindar.
Gervigreindarlíkanið sem Málfríður byggir á hefur ekki séð neinar málfræðireglur. Það hefur hins vegar verið matað á umtalsverðu magni af samhliða textum, annars vegar villuríkum texta og hins vegar réttum texta. Og þannig hefur líkanið lært að „þýða“ texta með villum yfir á mál sem samræmist algengasta málstaðli. Þessi nýja nálgun á yfirlestur hefur ýmsa kosti í för með sér. Málfríður getur gripið og „skilið“ miklu stærra samhengi en Yfirlestur og leiðrétt villur sem erfitt er að skrifa reglur fyrir, t.d. villur sem byggja á merkingu orða. Hún ræður líka við mjög erfiðan texta – er til dæmis þjálfuð á gögnum frá fólki með lesblindu og fólki sem hefur annað móðurmál en íslensku.
Eins og sést á þessu skjáskoti úr Málfríði fer hún létt með allar þær villur sem tíundaðar voru hér að framan:
Ókosturinn við tauganetslíkan á borð við Málfríði — eins og mestalla gervigreind — er að við höfum ekki fulla stjórn á úttakinu. Þegar við verðum vör við óæskilega hegðun hjá Málfríði, þ.e.a.s. ef hún leiðréttir ekki eitthvað sem hún á að leiðrétta eða öfugt, þá getum við ekki bara skrifað viðbótarreglu til þess að kippa því í liðinn. Við þurfum að safna þjálfunargögnum sem sýna rétta hegðun, þjálfa líkanið á þeim og vona svo það besta. Við hjá Miðeind erum enda stöðugt að endurþjálfa og endurbæta Málfríði.
Áhugasömum lesendum er bent á greinina Hvernig virkar Málfríður? sem fer ítarlega í saumana á þjálfunarferlinu, frá gagnasöfnun til fínþjálfunar, auk þess að lýsa því hvernig tauganet virka.
Í þessum pistli hefur kastljósinu verið sérstaklega beint að yfirlestrartólum en þróunin hefur verið svipuð hvað viðkemur annarri máltækni. Allar helstu vörur Miðeindar, t.d. talgreinirinn Hreimur og þýðingarvélin Erlendur, byggja nú á gervigreind í stað eldri reglukerfa. Það er enda markmið og tilgangur fyrirtækisins að styrkja stöðu tungumálsins okkar með framsýnum lausnum sem endurspegla það besta sem máltæknin hefur upp á að bjóða hverju sinni.
Mörg horfa nú til risamállíkana (e. Large Language Models) sem næstu byltingar í þróun málrýnitóla. Líkön á borð við GPT-líkönin frá OpenAI og Claude frá Anthropic hafa nú þegar sannað sig sem öflugir aðstoðarmenn við hvers kyns skrif á enskri tungu. Færni þessara líkana í íslenskri málfræði er þó ekki nógu mikil, enn sem komið er, til þess að þau geti keppt við sérhæft tól á borð við Málfríði sem nýtir klæðskerasniðið mál- og leiðréttingarlíkan Miðeindar fyrir íslensku. Þá hefur Málfríður það einnig fram yfir risamállíkön að hún er mun hraðvirkari og ódýrari í rekstri, enda er Málfríðarlíkanið pínulítið í samanburði við stærstu mállíkönin í dag. Það er þó líklega tímaspursmál hvenær þetta breytist og þá verður Miðeind, sem endranær, með puttann á púlsinum.