Nýtt! Prófaðu Málstað, vettvang fyrir allar helstu vörur Miðeindar.
Teymið
13.9.2024
Grein þessi er unnin upp úr ýmsum fyrirlestrum og kynningum sem starfsfólk Miðeindar hefur haldið síðustu misseri. Efnið er af ýmsum toga en rauði þráðurinn er að skýra hvað risamállíkön eru og hvernig hægt er að nýta þau. Risamállíkön á borð við GPT-4 og myndlíkön á borð við Midjourney hafa umbylt væntingum fólks til gervigreindar síðan þau spruttu fram á sjónarsviðið. Þau bjóða upp á gífurlega möguleika til einföldunar á vinnuferlum en þeim fylgja líka nýjar áskoranir.
Hægt er að þjálfa tauganetslíkön á ýmiss konar inntaki, svo sem texta, mynd, hljóði, eða blöndu af öllu saman. Hér er aðallega fjallað um mállíkön (e. language models) sem þjálfuð hafa verið á texta. Í stuttu máli eru mállíkön stærðfræðileg líkön sem taka inn texta og skila frá sér líkindadreifingu yfir orðaforða tungumáls. Nokkrar tegundir mállíkana hafa náð festu síðustu ár og kallast grunnmállíkön. Þau eru þjálfuð til að halda áfram með texta eða fylla inn í eyður, samanber dæmi (1) og (2):
(1) Fjármálaráðherra lagði fjárlagafrumvarp fyrir <?> (líkanið spáir fyrir um næsta orð)
(2) Fjármálaráðherra lagði <?> fyrir Alþingi í gær. (líkanið fyllir í eyður)
Til þess að leysa svona verkefni að einhverju marki þarf líkanið grunnskilning á tungumálinu, bæði efnislegan og setningafræðilegan. Til þess að leysa verkefni enn betur þarf líkanið aukalega að búa yfir vissri heimsþekkingu. Þessi hæfileikar eru ekki mataðir ofan í líkanið heldur þarf líkanið að læra þetta í gegnum fjölmörg dæmi.
Runulíkön eru önnur tegund af grunnlíkönum. Þau eru þjálfuð til þess að læra vörpun úr inntaki í úttak, samanber dæmi (3):
(3) <is>Sólin mun skína á morgun. (inntak) <en>The sun will shine tomorrow. (úttak)
Pörin geta m.a. verið setningar á ólíkum tungumálum fyrir þýðingar, upprunalegur og leiðréttur texti fyrir málfarsleiðréttingu eða mynd og viðeigandi textalýsing. Mestu skiptir að sömu upplýsingar séu til staðar í inntaki og úttaki, annars er verkefnið illa skilgreint og hegðun líkansins ófyrirsjáanleg.
Þegar líkön verða nógu stór, og þjálfuð á nægilegu gagnamagni, fara þau að sýna hæfileika til að leysa verkefni án þess að hafa verið sérstaklega þjálfuð í þeim. Tökum dæmi um spunalíkan, eins og (1) að ofan. Ef við gefum líkaninu textann „Spurning: Hver er forseti Íslands? Svar: “ þá gæti líkanið spáð því að næsta orð sé „Halla“. Hæfileikinn til að spá „rétt“ eykst með stærð líkans, gagnamagni og gagnagæðum. Einnig mætti gefa líkaninu fleiri „sýnidæmi“, sem væru þá fleiri spurningar með svörum (e. few-shot) í stað þess að krefjast að líkanið geti leyst spurningasvörunarverkefnið án sýnidæma (e. zero-shot). Hér er ekki um þjálfun að ræða, þ.e. líkanið var þjálfað í byrjun en er svo stýrt með sýnidæmum í keyrslum (e. prompt).
Gríðarlegt reikniafl þarf þó til þess að grunnþjálfa risalíkön, jafnvel heilu reikniverin. Að grunnþjálfun lokinni er hægt að fínþjálfa (e. finetune) líkönin, keyra þau og hýsa með mun minni tilkostnaði. Margvíslegar tilraunir til að smækka líkön hafa verið gerðar til að hægt sé að reka þau á ódýrari vélbúnaði. Hættan er sú að líkönin geta tapað eiginleikum og staðið sig verr ef of hart er gengið fram í smækkuninni. Það er því jafnvægislist að feta milli kostnaðar og frammistöðu.
Til eru nokkur íslensk mállíkön, en engin á stærð við GPT-4. IceBERT, BERT-líkan fyrir íslensku, getur flokkað texta en ekki búið til nýjan texta, eins og í (2). mBART-enis er runulíkan líkt og (3) og er undirstaða velthyding.is. Runulíkanið ByT5 er notað í málfarsleiðréttingu til að varpa texta yfir í kórrétta íslensku og er undirstaða Málfríðar.
Risamállíkön eru flest þjálfuð á textum sem aðgengirlegir eru á netinu og svo úr sérstökum gagnasöfnum, sem eru að mestu á ensku nema sérstök áhersla sé lögð á fleiri tungumál. Líkönin eru að auki yfirleitt fínþjálfuð í því að skila vel mynduðu úttaki. tilfelli Í GPT-4 er notuð styrktarþjálfun með mannlegri endurgjöf (e. reinforcement learning – human feedback, RLHF), sem kennir mállíkaninu að skilja spurningar og verkefni og svara þeim rétt og vel. Við þróun GPT-4 gerði OpenAI, í samstarfi við Miðeind, í fyrsta skipti tilraunir með þjálfun GPT með RLHF á öðru tungumáli en ensku, það er að segja íslensku.
Samstarf Miðeindar og OpenAI hófst í kjölfar heimsóknar forseta Íslands og sendinefndar til höfuðstöðva OpenAI í maí 2022. Á meðal þátttakenda var stofnandi Miðeindar og að hans frumkvæði upphófust samræður á milli fyrirtækjanna tveggja um hvernig íslenskan gæti nýst OpenAI sem fyrirmynd eða sniðmát að stuðningi við smærri tungumál í risamállíkönum. Fyrsti áfangi samstarfsverkefnisins fólst í því að kenna GPT-3 íslensku með fínþjálfun og meta það hversu mikið af textagögnum á tilteknu tungumáli þarf til þess að kenna risamállíkani tungumálið. OpenAI lagði til reikniafl og aðgang að sérfræðingum, en Miðeind lagði til textagögn og vinnu.
Þegar undirbúningur GPT-4 hófst haustið 2022 leitaði OpenAI til Miðeindar um að taka þátt í þjálfuninni með RLHF. Miðeind safnaði saman hópi næstum 40 sjálfboðaliða. Þau fengu það verkefni að útbúa spurningar og verkefni á íslensku fyrir GPT-4, og síðan að meta svör líkansins, gefa þeim einkunnir og kenna því að svara enn betur. Gögnin voru notuð í þjálfun GPT-4 og urðu til þess að líkanið tók framförum í að skilja spurningar og svara á íslensku. Nú svarar líkanið nánast eingöngu á íslensku en áður slæddust með svör á öðrum málum.Líkanið skilur nú íslensku vel en á erfiðara með myndun, svo verkefninu er hvergi nærri lokið.
GPT-4 er aðeins eitt líkan og fjölmörg önnur hafa skotið upp kollinum síðustu misseri. Má þar nefna BLOOM, LLaMA, OPT, GLM, Dolly-v2 og GPT-SW3, stórt skandinavískt spunalíkan frá AI Sweden sem hefur verið sérstaklega þjálfað á íslensku. Í hverri viku koma fram ný líkön svo listinn er engan veginn tæmandi. Óþarfi er að setja öll eggin í sömu körfuna og treysta á þriðju aðila sem bera ekki endilega hag íslensku fyrir brjósti. Það er því mikilvægt að Ísland setji sér skýra stefnu varðandi gervigreind.
Af hverju eru risamállíkön svona áhugaverð? Fyrir tíma risamállíkana var mjög tímafrekt að útbúa líkön sem leystu verkefni. Í því fólst meðal annars gagnasöfnun, gagnamerking, þjálfun (sem krefst sérvélbúnaðar), rekstur, viðhald og innleiðing hjá notanda. Það er ekki fyrr en í síðasta skrefinu sem ágóði líkansins kemur í ljós. Ferlið gat verið langt, kostnaðarsamt og þurft margar ítranir. Risamállíkön geta leyst fjölda verkefna án þjálfunar og gagnasöfnunar og því eru flest fyrri skref óþörf. Þess í stað er verkefninu lýst fyrir líkaninu, 1-2 sýnidæmi um góða lausn gefin og svo spreytir líkanið sig á raunverulegum dæmum. Risamállíkön gera því ýmsar máltæknilausnir aðgengilegri fyrir fólk og fyrirtæki. Þó ber að nefna að risamállíkön eru þó ekki lausnin á öllum vandamálum. Því þarf enn að meta hvort risamállíkan sé rétti kosturinn eða hluti af heildarlausn.
Risamállíkön eru til margs fær og á hverjum degi sjáum við nýstárleg notkunardæmi. Hafa þarf þó í huga hvað þau geta (og geta ekki) gert. Gott er að líta á fyrirspurnina sem afbrigði af forritun. Við erum að hanna leiðbeiningar fyrir líkanið og því þurfa allar nauðsynlegar upplýsingar og skilyrði. Hér getur hjálpað að hafa sýnidæmi af ætluðu úttaki með, svo sem tryggast sé að við fáum það sem við teljum okkur vera að biðja um. Ekki má gleyma því að líkönin geta haldið samhengi á milli fyrirspurna svo hægt er að biðja um aðra útgáfu svars ef eitthvað vantar. Það má því líta á líkönin sem duglegan en (stundum) fljótvirkan starfsnema.
Líkönin hafa sínar takmarkanir sem nauðsynlegt er að hafa á hreinu. Við þurfum að vera meðvituð um að líkönin eru þjálfuð á gögnum, en eftir þjálfun læra líkönin ekkert nýtt og vita ekkert um atburði eftir þjálfun. Líkönin eru endurþjálfuð reglulega, en eins og áður sagði er það gífurlega kostnaðarsamt. Líkönin eru þjálfuð til að geta sér til um hvað kemur næst, svo þau eiga það til að búa til staðreyndir (e. hallucinations), og eru ekki áreiðanleg í flókinni röksemdafærslu. Ef þau eiga að svara upp úr þekkingargrunni þarf að setja líkönunum fastar skorður um að svara aðeins upp úr honum. Líkönin eru að auki þjónustulunduð og treysta notendum um of. Ef notandi leiðréttir líkan ranglega vilja þau gera notandanum til geðs og taka því sem sönnu.
Mannkynið er breyskt og fordómar okkar birtast í því sem við skrifum, þó að það sé ómeðvitað. Líkönin eru þjálfuð á efni frá mannfólki svo líkönin erfa þá innbyggðu bjaga (e. bias) sem finnast í textunum. Afbjögun líkana er gríðarlega vinsælt rannsóknarefni, enda til mikils að vinna í þeim efnum, en enginn haldbær árangur hefur náðst enn sem komið er.
Almennt nýtast mállíkön í greiningu og vinnslu texta, spurningasvörun og sem alhliða aðstoðarmenni. Mállíkönin geta skrifað texta í ólíkum stíl, á ólíkum tungumálum og um ólíkt efni. Með tengingu við gagnagrunna má svara spurningum með því að leita að skyldu efni í gagnagrunninum. Þannig þarf ekki tíma starfsmanns og notandi sleppur við frumskóg itarlegra vefsíðna tengdra efninu. Mállíkönin gagnast líka í innri skjalavinnslu, þar sem t.d. má útbúa samantekt á löngum reglugerðum til að auðvelda yfirsýn yfir flókið efni. Hægt er að búa í haginn fyrir notkun mállíkana og skoða hvaða gögn eru til staðar.
Til að tryggja ábyrga notkun mállíkana þarf að hugsa málið til enda áður en vaðið er af stað.
Hafa þarf bjögun í huga þannig að líkanið taki ekki ákvarðanir sem ýfa upp bjaga úr þjálfunargögnum. Þannig ganga sögur um notkun gervigreindar til að meta atvinnuumsóknir, þar sem líkanið er matað á eldri atvinnuumsóknum og upplýsingum um ráðningar sem innihalda sterka bjögun m.a. þegar kemur að kynferði.
Evrópusambandið hefur gengið einna lengst í að móta stefnu um notkun gervigreindar. Þar er til skoðunar að skylda aðila til að upplýsa um það hvenær vél tekur ákvarðanir um hagi fólks. Fólk hefði þá áfrýjunarrétt og heimild til að fara fram á að manneskja staðfesti ályktanir líkansins. Hugsanleg notkun gervigreindar er einnig flokkuð í áhættuflokka, og lagt er til að banna alfarið þann áhættusamasta.
Ýmis álitamál tengjast einnig þjálfunarferlinu og þeim gögnum sem notuð eru. Þar er helst til skoðunar gagnsær uppruni þjálfunargagna, þannig að auðsætt eigi að vera hvaða gögn eru notuð til að þjálfa líkön. Einnig má nefna persónuverndarsjónarmið þegar kemur að því að velja gögn, og hvert gögnin berast við notkun líkana. Myndlíkön sem hafa verið þjálfuð á ýmsum myndasöfnum á vefnum hafa valdið hörðum deilum. Listafólk hefur mótmælt því að þeirra efni sé notað til að þjálfa líkan sem á svo að vinna þeirra störf, án þess að þau fái nokkuð fyrir. Svipaðar deilur hafa spunnist um réttinn til að þjálfa á textum sem hefur verið safnað af netinu. Ekki verður leyst úr þessu í þessari grein en nauðsynlegt er að vera meðvitaður um ólíkar skoðanir og þær lagasetningar sem fylgja.
Gervigreindin mun hafa áhrif á störf mjög margra, og sú þróun er þegar hafin. Það stefnir í umfangsmiklar samfélagslegar breytingar, sem geta vakið ugg, en ekki má gleyma þeim gífurlegum ávinningi sem þróunin hefur í för með sér. Gervigreindin mun nýtast á ótal sviðum sem erfitt er að sjá fyrir. Frumgerðir að stjórnun gerviútlima með raddstýringu („Taktu upp kaffibollann á borðinu“) hafa þegar litið dagsins ljós. Appið Be My Eyes er gott dæmi um stuðning við aðgengi með hjálp gervigreindar. Með notkun appsins geta blindir og sjónskertir notendur fengið samband við sjáandi sjálfboðaliða í appinu, sýnt þeim umhverfið og fengið t.d. að vita hvar þau lögðu gleraugun frá sér. Mörgum þykir óþægilegt að sýna ókunnugum einkalíf sitt og óhreinu fötin á gólfinu, svo sérstök sjóngædd útgáfa GPT-4 var tengd inn í tilraunaskyni. Líkanið fær þá spurningu frá notanda og myndefni sem inntak og svarar hvar gleraugun lentu. Möguleikarnir eru miklir en við verðum að stíga rétt og varlega til jarðar.