Miðeind í 10 ár: Bilið brúað milli þín og tækninnar

Miðeind fagnar um þessar mundir tíu ára afmæli. Af því tilefni gefum við út röð pistla sem líta yfir farinn veg og tíunda þann árangur sem náðst hefur í máltækni fyrir íslensku undanfarinn áratug.


Margt hefur breyst á þeim bráðum níu árum sem ég hef starfað hjá Miðeind, en ég hef orðið þeirrar gæfu aðnjótandi að koma á einn eða annan hátt að nær öllum verkefnisins fyrirtækisins. 

Þegar litið er til baka má greina ákveðna þræði sem hafa spunnist í gegnum starfið – notendagildi, aðgengi, og fókus á vörur. Þessir þræðir skipta máli, ekki bara fyrir okkur heldur þau sem nota vörurnar okkar.

Stærð – Mjór er mikils vísir

Það fyrsta sem ber að nefna er að á þessum áratug hefur Miðeind farið úr því að vera með einn starfsmann yfir í stönduga sprotann sem það er í dag, með 16 starfsmenn. Miðeind hefur aldrei verið hið hefðbundna sprotafyrirtæki, en fyrirtækið er tilgangsdrifið en ekki gróðadrifið. Miðeind hefur því aukið bolmagn sitt til að anna verkefnum gríðarlega. 

Hjá Miðeind starfar þéttur og öflugur hópur fólks með fjölbreyttan bakgrunn og brennandi áhuga á máltækni og gervigreind. Þar er saman kominn einn stærsti hópur sérfræðinga á sviði gervigreindar sem fyrirfinnst á landinu öllu og óhætt að segja að fylgst sé náið með allri rannsóknarvinnu og tæknilegri framþróun innan sviðsins.

Tækni – Tímarnir breytast og mennirnir með

Tæknin þróast ótrúlega hratt, og við höfum þurft að þróast með henni. Það hefur komið fyrir að frá því að við sóttum um verkefni og þar til styrkur hlaust breyttust nánast allar forsendur. Slíkt krefst þess að við séum sveigjanleg og snögg að aðlagast, sem hefur reynst auðveldara með sterku teymi og góðri yfirsýn.

Þegar við byrjuðum voru reglukerfi í fyrirrúmi. Þau krefjast mikillar handavinnu og tíma, en skrifa þarf reglur fyrir alla hegðun kerfisins. Sem dæmi má nefna að Greynir, fyrsta lausn Miðeindar, inniheldur hátt í 8.000 línur af handskrifuðum málfræðireglum til að þátta texta. Annað dæmi er Yfirlestur, yfirlestrartól Miðeindar sem byggir á Greyni.

Tauganetslíkön tóku svo að ryðja sér rúms, en þar var hægt að sérþjálfa líkan til að leysa ákveðið verkefni. Slíkt krefst mikils magns gagna sem merkt hafa verið fyrir það verkefni, og er því alls ekki á valdi allra. Dæmi um slíkt líkan er Málfríður, arftaki Yfirlestrar. Málfríður er þjálfuð á villumerktum gögnum m.a. úr máltækniáætlun. Annað dæmi er Vélþýðing Miðeindar, sem sérþjálfað var á gríðarlegu magni samhliða gagna fyrir íslensku og ensku (og síðar fleiri mál).

Þegar risamállíkanið GPT kom fram á sjónarsviðið breyttist allt. Hér var komið líkan sem gat leyst verkefni án þess að hafa verið sérstaklega þjálfað til þess, enda hefur það verið þjálfað á ótæpilegu magni gagna. GPT hefur svo þróast áfram, ásamt því að fleiri líkön hafa sprottið upp. Sem dæmi má nefna að Erlendur, arftaki Vélþýðingar, byggir á risamállíkani í grunninn, en ýmsum brögðum er beitt til viðbótar til að fá nákvæmari og áreiðanlegri þýðingar.

Allt þetta hefur gerst á aðeins áratug, og sérstaklega hratt síðustu fimm árin. 

Við í Miðeind þykjumst ekki sjá tæknina fyrir, en til marks um það hvað Miðeind hefur náð að fylgja eftir þróun tækninnar má nefna að strax árið 2016 sóttum við um styrk til að útbúa stóra markaða og þáttaða málheild (GreynirCorpus), og árið eftir sóttum við um styrk til að búa til tauganetslíkan sem þjálfað yrði á gögnunum til að læra að marka og þátta. Sú tækni var þá glæný af nálinni.

Á sömu nótum stuðlaði Miðeind vorið 2022 að fundi forseta Íslands og lítils tæknifyrirtækis í Kísildalnum sem okkur fannst vera að gera flotta og framsækna hluti. Upp úr því varð til samstarf OpenAI og Miðeindar, sem hefur m.a. skilað því að íslenska var eina tungumálið utan ensku sem var sérstaklega haft í huga við þjálfun GPT-4.

Við höfum því alla tíð haldið okkur í broddi fylkingar þegar kemur að nýtingu nýjustu tækni.

Verkefni – Svo lærir lengi sem lifir

Verkefnin sem við höfum sótt um og tekið að okkur á þessum áratug eru að sjálfsögðu lituð af tækninni og gögnunum sem eru til staðar hverju sinni. Við höfum ávallt lagt megináherslu á hagnýtingu og að íslenska sé notuð í tækniheimum – hvernig getum við komið því sem við bjóðum upp á í notkun?

Við tókum þátt í máltækniáætlun I, þar sem áherslan var á að útbúa gögn og svo að þróa grundvallarlausnir. Á þessum tíma var lítið um verkfæri fyrir íslenska tungu, og framan af voru lausnirnar byggðar á reglum. Úr máltækniáætlun I kom margt gott; mikilvæg gögn sem nýtast m.a. til að þjálfa og meta líkön, og grundvallartól eins og tilreiðarinn Tokenizer, sem enn er í víðtækri notkun. Við fengum einnig mikilvæga reynslu úr máltækniáætlun, og komumst í samband við ýmsa hópa haghafa og fengum þar innsýn í þeirra þarfir. Hér má nefna, í takt við málsgreinina að ofan, að við höfum ávallt lagt höfuðáherslu á að koma hugbúnaðarpökkum okkar á aðgengilegt form. Þar undir fellur nákvæm og ítarleg skjölun og að koma þeim á opna pakkasafnið PyPI sem gerir notendum einkar auðvelt að sækja þá og nota.

Þegar líða tók á máltækniáætlun, þegar tæknin gerði okkur það kleift, tókum við þátt í ýmsum samstarfsverkefnum hennar. Verkefnin fólu í sér sérþjálfun á líkani í sértækum tilgangi og jafnvel fyrir sértæk kerfi. Ýmsar spennandi hugmyndir komu upp sem við eltum, en fundum fljótt að það var erfitt að teygja sig í svo margar ólíkar áttir. Við höfum yfirleitt haldið okkur við grunntæknina og ætlað öðrum að innleiða hana, en sáum fljótt að sú aðgreining gekk ekki upp; það felst alltaf einhver innleiðingarvinna í slíkum verkefnum.

Við rákum okkur líka á að þó að tæknin væri til staðar, var lítil meðvitund um hana og möguleikana sem henni fylgdu. Það var að auki ekki hægt að ætlast til að hvert eitt og einasta fyrirtæki eða sveitarfélag legði í innleiðingu á eigin vegum, hvað þá almenningur. Atvinnulífið greip því ekki boltann eins og við höfðum vonað.

Við lærðum af þessum verkefnum að til þess að uppfylla markmið okkar væri best að horfa á íslenskt samfélag í heild sinni og reyna að ná utan um þarfir sem flestra, í stað þess að þróa sérhæfð tól. Þannig höldum við okkur sem næst grunninum en komum ávinningi tækninnar í hendur sem flestra.

Miðeind færðist því í mun vörumiðaðri átt í kjölfarið. Ákveðnum rannsóknarhlut er þó ávallt haldið, enda byggja allar vörur á því. Meginþunginn færðist þó í að þróa vörur, til að koma til móts við almenning og brúa bilið milli hans og tækninnar.

Málstaður – Allar ár renna til sjávar

Á þessum tímapunkti vorum við með ágætt úrval lausna fyrir íslensku, sem við vildum koma í víðtækari notkun. Upp úr því fæddist hugmyndin að Málstað, samþættum vettvangi fyrir allar helstu máltæknilausnir Miðeindar. Málstaður er okkar leið til að koma tækninni og ávinningnum sem hægt er að ná fram með henni í hendurnar á almenningi, stofnunum og fyrirtækjum landsins. Áherslur okkar frá upphafi hafa hjálpað við að móta Málstað og hugmyndirnar að honum. 

Við höfum náð fram mun fjölbreyttari notkunarmöguleikum með því að bjóða upp á allar þessar lausnir á einum stað, en þær tala líka sín á milli. Þannig er einfalt að taka upp fund, fá talgreinda útgáfu af honum með Hreimi, senda hann í samantekt í Málfríði til að fá fundargerð, og loks senda fundargerðina í Erlend til þýðingar á fjölmörg tungumál. 

Framtíðarsýnin – Hamra skal járnið meðan það er heitt

Málstaður hefur fengið gífurlega góðar viðtökur og það er frábært að heyra hvernig hann hefur breytt verkferlum og jafnvel lífsgæðum – það er einmitt ástæðan fyrir því að við erum að þessu.

Við erum sífellt að bæta við virkni í Málstað og gera hann notendavænni. Þar má m.a. nefna þýðingarnar í Erlendi, samantekt í Málfríði, hjálparmiðstöð og myndbönd sem við höfum gert til að sýna stök notkunartilvik og komast þannig nær þörfum notandans. Við viljum hjálpa þér að sjá hvernig Málstaður getur gagnast þér

Að lokum

Það hefur verið lærdómsríkt að þróa hugmyndir, sækja um styrki fyrir verkefnum og fylgjast með tækninni þróast. Sum verkefnin hafa orðið að vörum sem þúsundir nota í dag. Önnur náðu ekki flugi, en reynslan af þeim mótaði næstu skref. Við lærðum að halda fókus; að elta ekki bara spennandi hluti, heldur að halda notandanum og notagildinu í forgrunni. Þessi fókus hefur skilað sér í Málstað, sem er bein endurspeglun á gildum okkar.

Við höfum lært að hreyfa okkur hratt. Að vera með puttann á púlsinum. Við höfum líka lært að það dugar ekki að þróa lausn eða að vera framarlega í tækninni – nýtingin og notagildið skiptir öllu. Tækni sem enginn notar breytir engu.

Það er margt sem við hefðum getað gert öðruvísi, en það er líka margt sem við gerðum rétt. Og það er enn meira sem við ætlum að gera.


Viltu vita meira? Fáðu nýjustu fréttir á
heimasíðu okkar eða fylgdu okkur á samfélagsmiðlum.

Efnisorð:
Deildu þessari grein: