Nýtt! Prófaðu Málstað, vettvang fyrir allar helstu vörur Miðeindar.
Sagan
Miðeind er leiðandi hugbúnaðarfyrirtæki á sviði máltækni og gervigreindar
Vilhjálmur Þorsteinsson
Vilhjálmur Þorsteinsson, stofnandi og eigandi Miðeindar, hefur verið viðloðandi íslenska upplýsingatækni í fjóra áratugi. Hann stofnaði sitt fyrsta sprotafyrirtæki árið 1983, þá 17 ára gamall.
„Ég hafði gríðarlegan áhuga á þessu glænýja fyrirbæri sem einmenningstölvurnar voru á þessum tíma. Um 1980 þegar fyrstu einmenningstölvur komu til landsins tókst mér að næla mér í sumarvinnu við forritun á þær, sem svo teygðist úr.
Árið 1983 ákváðum við Örn Karlsson félagi minn að búa til nýjan íslenskan viðskiptahugbúnað frá grunni og stofnuðum í kjölfarið fyrirtækið Íslenska forritaþróun. Hugbúnaðurinn sem við þróuðum var á endanum notaður í um 1.300 fyrirtækjum á Íslandi við bókhald og rekstur.“
Eins og sjá má sogaðist Vilhjálmur snemma inn í hugbúnaðargerð og vann við hana í mörg ár. Fyrirtækið Íslensk forritaþróun var svo í kringum 1998 selt bresku fyrirtæki. Vilhjálmur starfaði áfram fyrir breska fyrirtækið í um það bil tvö ár, en þá var hann farið að klæja í fingurna að gera eitthvað nýtt. Í kringum aldamótin stofnaði hann fyrirtækið Homeportal ásamt nokkrum öðrum. Hugmyndin var að þróa þjónustur fyrir netvædd tæki á heimilum. Hvorki vélbúnaðurinn né netið var á þessum tíma orðið nógu öflugt til þess að sú hugmynd næði flugi. Það er kannski ekki fyrr en fyrst núna, tæpum 20 árum síðar, sem viðlíka þjónustur eru farnar að líta dagsins ljós.
„Ég datt svolítið út úr upplýsingatæknibransanum og fór að hugsa um alls konar aðra hluti. Ég fór meðal annars í fornámsdeild Myndlistarskóla Reykjavíkur veturinn 2006-2007 og á portrettnámskeið til Bandaríkjanna eftir það. Mér fannst skemmtilegast að mála portrett af fólki, og ég á nokkur slík í fórum mínum. Ég var jafnframt stjórnarformaður CCP um nokkurt skeið og sat í stjórn CCP í sjö ár. Ég tók þátt í að koma gagnaveri Verne í Reykjanesbæ af stað. Samhliða þessum verkefnum var ég líka eitthvað að fjárfesta í sprotafyrirtækjum.“
„Já, ég uppgötvaði það á þessu öllu saman að það eru meiri líkindi milli myndlistar og forritunar en margur heldur. Forritun snýst svo mikið um mynstur, að búa til mynstur og þekkja mynstur. Endurnota mynstur, búa til sveigjanleg mynstur, brjóta þau upp, endurtaka þau og breyta þeim.
Forrit geta verið ljót eða falleg. Það er mikil fagurfræði í forritun og þegar maður les eða skrifar kóða þá skiptir miklu máli að mínu mati að hafa ákveðna tilfinningu fyrir fegurð eða fagurfræði kóðans. Fallegur kóði er einfaldlega betri en ljótur kóði, hann endist betur og það eru færri villur í honum.“
„Ætli ég geti ekki þakkað dóttur minni fyrir það. Hún útskrifaðist úr tölvunarfræði við Háskóla Íslands árið 2014 og mér fannst hálfóþægilegt að vera ekki samræðuhæfur við hana um nýjustu tækni. Ég ákvað að ég þyrfti að fara að rifja upp forritarataktana til að halda í við hana. Í kjölfarið kynnti ég mér forritunarmálið Python og vefþjónustur og ákvað að búa til íslenskt skrafl fyrir netið til þess að æfa mig. Það endaði með því að úr varð Netskrafl, en þar eru um 25.000 skráðir notendur í dag.“
Við vinnuna í kringum Netskraflið kynntist Vilhjálmur Beygingarlýsingu íslensks nútímamáls (BÍN), sem er gagnagrunnur sem Stofnun Árna Magnússonar í íslenskum fræðum heldur úti. Gagnagrunnurinn inniheldur upplýsingar um beygingarmyndir velflestra algengra íslenskra orða í íslensku nútímamáli og er opinn öllum á netinu án endurgjalds.
„Þegar ég uppgötvaði að þessi gagnagrunnur um íslenskuna væri til þá rifjaðist upp gamalt áhugamál. 1985-’87 var ég með í verkefni sem hét Artek og bjó til þýðanda (compiler) fyrir forritunarmálið Ada. Þýðandinn tekur inn texta í viðkomandi forritunarmáli og þýðir yfir í vélamál sem tölvan skilur. Ég fór að velta því fyrir mér hvort hægt væri að láta tölvu „skilja“ íslenskan texta og greina hann með svipaðri tækni.
Tungumálið er uppbyggt í ákveðnum strúktúrum og trjám sem liggja undir því, og það eru tilteknar reglur sem við förum eftir, að mestu ómeðvitað, þegar við tölum og skrifum. Það er hægt að komast að því hverjar þessar reglur eru og lýsa þeim fyrir tölvu sem síðan reynir að finna þessa undirliggjandi byggingu – þetta er það sem við köllum að þátta texta.
Greynir var í raun og veru bara tilraunaverkefni. Ég fór af stað með þetta án þess að vita hvort þetta væri hægt eða ekki, ég bjóst alveg eins við því að ég myndi einhvers staðar rekast á hindrun og komast að því að þetta væri ekki hægt. En þessi hindrun birtist einfaldlega aldrei. Það var alltaf hægt að halda áfram og gera smám saman betur og betur. Í dag er það þannig að Greynir nær að þátta yfir 90% málsgreina í dæmigerðri fréttagrein.“
„Greynir virkar þannig að hann les inn íslenskan texta, skiptir honum í málsgreinar, skoðar hvert orð fyrir sig, flettir því upp í BÍN og finnur út hvað það gæti verið, til dæmis hvaða orðflokkum það gæti tilheyrt. Svo dæmi sé tekið þá gæti orðið „á“ verið nafnorð (ær eða á), sagnorð (að eiga), forsetning (leggja á borð) og atviksorð (æfingin reynir á). Síðan reynir Greynir að fella orðin í hverri málsgrein fyrir sig undir málfræðireglur, ef það tekst þá getur hann búið til setningartré. Þegar við erum komin með setningatré þá vitum við sirka hvernig málsgreinin er byggð upp og þá er hægt að álykta um hver sé að gera hvað og hvernig. Þá vitum við hvert frumlagið er í setningunni, hvaða sagnir er þar að finna og hver eru andlög þessara sagna. Í framhaldi af því getum við eimað upp úr trénu staðreyndir, fullyrðingar og upplýsingar t.d. um titla fólks, skilgreiningar á sérnöfnum og ýmislegt fleira. Þannig getum við notað tölvu til að vinna merkingu upp úr málsgrein og lesa upplýsingar úr texta. Við getum líka skoðað frávik, það er að segja; við getum séð ef það er eitthvað að setningunni. Og Greynir getur gripið bæði málfars- og stafsetningarvillur þótt orðalagið sé flókið.“
„Upphaflega átti Greynir nú að heita Reynir en það nafn var tekið til endurskoðunar þegar í ljós kom að lénið reynir.is var í eigu íþróttafélagsins Reynis í Sandgerði. G-ið bættist þá framan við, enda þykir okkur Greynir geta verið óttalegt grey þegar honum er falið að greina flóknar setningar, samanber: Greyið hann Greynir reynir að greina þessa grein.“
„Við vorum með einfalt fyrirspurnakerfi á vef Greynis þar sem hægt var að slá inn spurningar og fá svör upp úr gögnum Greynis, t.d. um titla fólks og skilgreiningar á sérnöfnum. Sveinbjörn Þórðarson, starfsmaður hjá okkur og app-sérfræðingur með meiru, fékk þá snilldarhugmynd að prófa að búa til radd-app sem tengdist þessu fyrirspurnakerfi. Ég held að hann hafi bara hent fyrstu frumgerðinni saman heima hjá sér, og þegar hann sýndi okkur hinum þetta þá lá í augum uppi að þetta var bráðsniðugt. Að tengja saman rödd og málgreiningarkerfið sem við erum með býður upp á ótal möguleika. Meðal annars til að veita aðgengilega þjónustu sem gagnast öllum almenningi, en líka fólki sem á erfitt með að nota hefðbundna skjái og lyklaborð.“
„Tækifærin í kring um Greyni eru fjölmörg. Við höfum undanfarið verið að vinna í málrýni, sem er yfirlestrartól fyrir texta. Sérstaða Greynis í því samhengi er að hann getur fundið og leiðbeint um málfræðilegar villur, ekki bara stafsetningarvillur. Þar af leiðandi getur hann komið með miklu ítarlegri ábendingar en önnur málrýnitól fyrir íslensku til þessa. Við erum líka að vinna í vélþýðingum, sem sagt að þýða texta sjálfkrafa milli íslensku og annarra tungumála, þá aðallega ensku til að byrja með. Svo sjáum við fyrir okkur ýmiss konar möguleika sem tengjast gervigreind, varðandi það til dæmis að geta svarað spurningum upp úr texta og að gera samantekt á texta.“
Greynir hefur ekki aðeins sérstöðu á Íslandi heldur einnig vissa sérstöðu á heimsvísu, að minnsta kosti hvað hina undirliggjandi tækni varðar. Það eru ekki til mörg tól í heiminum sem fullþátta texta í tré með sambærilegum aðferðum og Greynir gerir. Enda er þáttunartæknin sem um ræðir tiltölulega ný, en hún birtist fyrst í vísindatímaritum fyrir u.þ.b. tíu árum.
„Já, grunntæknina væri hægt að nýta fyrir önnur tungumál og það má eiginlega segja að úr því tæknin virkar fyrir íslensku þá ætti hún að virka fyrir flest önnur mál. Það gæti verið spennandi í framhaldinu að skoða hvort sama tækni gæti hentað fyrir til dæmis smærri tungumál í nágrannalöndum.“
„Já ég held það sé óhætt að segja það, ég las mikið sem barn og hafði alltaf gaman af íslensku sem námsgrein. Ég hafði mjög góða kennara í grunnskóla sem hefur nýst mér mikið. Einar Magnússon kenndi mér til dæmis íslensku í Hagaskóla; hjá honum lærði ég grundvallaratriði íslenskrar málfræði og hef búið að þeirri þekkingu allar götur síðan. Mér finnst íslenskan skemmtilegt tungumál, það er svo margt í henni og mikil saga sem er greypt í tungumálið. Maður uppgötvar það þegar maður fer að reyna að fanga íslensku í reglur að það eru alls konar frávik frá reglunum og föst orðasambönd sem eru gömul og má rekja sum hver til Njálu, Snorra-Eddu og annarra fornra bóka.“
„Mér rann eiginlega blóðið til skyldunnar þegar ég áttaði mig á því að íslenskan gæti setið eftir í þessum nýja stafræna heimi. Það skiptir máli að íslenskan sé samkeppnishæf á stafrænu formi. Ég fylgdist með þróun máltækni í öðrum tungumálum og sá hvernig var verið að nota tauganet og gervigreind til að búa til alls konar flottar þjónustur sem byggðu á miklu magni af texta og tali. Sambærilegar þjónustur voru hins vegar hvergi á sjóndeildarhringnum fyrir íslensku. Og þá var spurningin hvaða afleiðingar það myndi hafa að fólk gæti ekki notað íslensku til að tala við tækin sín? Ég áttaði mig á því að þau sem þekkja bæði til tækninnar og til íslenskunnar mættu ekki skerast úr leik, heldur þyrftu að grípa boltann og taka þetta verkefni að sér. Sem betur fer var ég ekki einn um þessar áhyggjur, og það var þegar búið að vinna góða og mikla undirbúnings- og greiningarvinnu. Til dæmis hjá Árnastofnun og Almannarómi og hjá okkar óþreytandi frumkvöðlum á þessu sviði, meðal annars Eiríki Rögnvaldssyni, Sigrúnu Helgadóttur og Kristínu Bjarnadóttur, svo örfá nöfn séu nefnd af mörgum. Þannig að það var bæði aðgengilegt og ánægjulegt að slást í hópinn.“
„Við deilum þessum áhyggjum og höfum fullan skilning á þeim. Allur hugbúnaður Miðeindar er opinn, sem þýðir að það er hægt að fara inn á ákveðinn stað á vefnum og einfaldlega skoða forritin okkar. Þannig getur hver sem er séð hvað við erum að gera og sannreynt það sem við segjum. Það þýðir líka að forritarar og annað áhugasamt fólk sem vill koma með uppástungur að viðbótum eða breytingum á hugbúnaði Miðeindar getur sent okkur þær tillögur. Við þiggjum slíka aðstoð með þökkum.
Hvað Emblu varðar erum við með skýra og auðskiljanlega persónuverndarstefnu. Við söfnum ekki persónuupplýsingum með neinum beinum hætti, enda þarf hvergi að skrá sig til að geta notað Emblu. En það er samt þannig að fyrirspurnirnar sem við fáum er hægt að tengja við tækið sem sendir þær og þá gæti verið hægt, eftir krókaleiðum, að tengja þær við einstaklingana á bak við tækin. Sjálfgefin stilling Emblu er að senda staðsetningu með fyrirspurn vegna þess að sum svör sem Embla gefur byggja á henni. Það er þó einfalt að slökkva á þeim möguleika, þannig að Embla sendi ekki staðsetningarupplýsingar, en þá fækkar líka spurningunum sem hún getur svarað. En, það sem meira er, notandinn getur sjálfur hvenær sem er þurrkað út öll gögn sem hafa komið úr snjalltæki á hans vegum, með þar til gerðum hnappi í Emblu-appinu. Þannig ræður notandinn í reynd alltaf yfir gögnunum.“
Vilhjálmur segir teymið vera lítið en öflugt umfram stærð. Fyrirtækið mun áfram vinna í þágu íslenskunnar í síbreytilegum tækniheimi þar sem hröð þróun er fram undan, m.a. á sviði gervigreindar. „Við verðum kannski aldrei Google, Amazon eða Microsoft, en það sem við gerum mun vonandi hjálpa til við að halda þessum stóru fyrirtækjum við efnið, þannig að þau taki íslenskuna alvarlega og hafi hana með í sinni vöru og þjónustu. Ef þau gera það ekki, þá gerum við það.“