-DAIN Studios auttaa hyödyntämään tietoa
Autotalon ikkunoista Kampissa avautuu hieno näkymä Helsingin kattojen ylle. Täällä toimistoaan pitää data-analyysiin ja tekoälyyn erikoistunut konsulttiyritys DAIN Studios, joka toimii Helsingin lisäksi Berliinissä ja Münchenissä. Analytiikkajohtaja, Analytics Executive, Saara Hyvönen kertoi MAL-lehdelle, miten päätyi alalle, millaista työtä datan analysointi on ja millaisia mahdollisuuksia se tarjoaa. Alalla on myös omat haasteensa ja eettiset pulmansa ratkottavina.
Hyvösen reitti tekoälyn pariin alkoi yliopisto-opintojen jälkeen, kun hän pääsi töihin Aalto Yliopiston ja Helsingin Yliopiston tutkimusinstituuttiin Helsinki Institute for Information Technology (HIIT), jossa hän analysoi hyvin monenlaisia aineistoja, esimerkiksi geeni- ja murredataa sekä ilmakehän muutosdataa. Hyvönen viehättyi jo tuolloin yhdistelmästä tuntea matemaattiset menetelmät ja samalla perehtyä kuhunkin tutkimuksen alla olevaan alaan.
– Pelkkä tekninen osaaminen ei riitä. Pitää ymmärtää, mitä ongelmia ollaan ratkaisemassa, mitä erityispiirteitä siihen liittyy, ymmärtää datan rajoitteet, tietosuoja-asiat ja se, mihin ympäristöön dataa viedään ja niin edelleen. On paljon vaiheita ennen kuin päästään matemaattisen mallinnuksen vaiheeseen.
Yliopistolta Hyvösen tie vei yrityksiin, Fonectalle hakualgoritmien pariin ja Nokialle kuluttajadatan analysointiin ja lopulta Sanomalle.
– Sekä Nokialla että Sanomalla mietittiin mitä datalla pystytään tekemään, esimerkiksi sitä, miten ymmärretään asiakasta paremmin. Miten palvellaan asiakasta paremmin, tehdään personoitua sisältöä ja kohdennettua mainontaa?
Lopulta oman yrityksen perustaminen alkoi kiinnostaa.
– Olin nähnyt jo hyvin, miten isot firmat toimivat, mutta halusin kokeilla oman yrityksen pyöritystä. Ajattelin myös, että kaikesta tästä osaamisesta, jota olin kerännyt eri menetelmien osalta, voisi hyötyä moni yritys.
Entiset kollegat Nokialta ja Sanomalta, Dirk Hofmann ja Ulla Kruhse-Lehtonen lähtivät mukaan ja yritys perustettiin vuonna 2016. Kahdessa maassa toimivalla yrityksellä on nyt n. 30 työntekijää, joista puolet Saksassa.
– Tehdään kaikenlaista dataan ja tekoälyyn liittyen, esimerkiksi autetaan tekemään yritykselle datastrategia ja määrittämään datan hyödyntämiskohteita, opastetaan, miten rakennetaan dataympäristöä ja kehitetään koneoppimismalleja, joilla rakennetaan arvoa datan päälle eli saadaan oikeasti hyötyä irti datasta.
Tekoälykonsultointiin erikoistuneita yrityksiä on Suomessa viisi. Yritys on keskittynyt nimenomaan tekoälyn kehittämistoimintaan.
– Me tiedämme, mitä kaikkea yrityksissä voi tulla vastaan, kun dataa halutaan hyödyntää, aina teknisestä arkkitehtuurista algoritmeihin ja organisaation koulutukseen. Olemme käytännönläheisiä – mietimme aina myös toteutusta.
Kalevalakoneesta selittävään tekoälyyn
Millaisia matemaattisia menetelmiä data-analyysissä sitten käytetään?
– Kohteesta riippuen hyvin monenlaisia. Voidaan käyttää ihan perusmalleja kuten lineaarista regressiota tai koneoppimismalleja kuten päätöspuita tai satunnaismetsiä. Luonnollisen kielen analysontiin löytyy oma työkalupakkinsa NLP-menetelmien ympärillä, ja kuvadatan analyysia varten löytyy esimerkiksi erilaisia Deep learning- eli syväoppimismenetelmiä.
– Tällä alalla ei oikein toimi sellainen, että nyt meillä on menetelmä ja nyt me sovelletaan tätä. Enemmänkin pitää lähteä siitä, että meillä on ongelma, ja katsotaan, mitä eri menetelmät siihen tuo ja kokeillaan muutamia eri lähestymistapoja. Eräälle asiakkaalle tehtiin asiakkaan elinkaaren mallinnus, jossa kokeiltiin esimerkiksi monenlaisia Markov-malleja, kunnes päädyttiin käyttämään stabiilimpaa koneoppimismallia.
– Monesti kokeillaan, miten eri mallit toimivat ja katsotaan performanssia, eli mikä malli on paras, mutta huomioidaan myös ylläpidettävyys. Menetelmän valintaan vaikuttaa myös paljon se, miten helppoa sen käyttö ja päivitys on loppukäyttäjän kannalta.
Tutkimusta ja alan uusia tuulia seurataan tiiviisti. Viikoittain yrityksellä on Content Meeting, jossa kerrotaan uusista menetelmistä ja tutkimuksista. Välillä mukana on ulkopuolisia puhujia kertomassa, mitä muualla tapahtuu.
Erilaisia sovelluksia kehitellään jatkuvasti.
– Yksi esimerkki hauskasta sovelluksesta oli Kalevalakone, joka tehtiin yhdessä Hesarin kanssa. Runokone valmistaa salamannopeasti kokonaan uuden kalevalaisen runon, kun sille antaa aloitussanan.
Tekoälyinen trokeinen tetrametri näyttää erehdyttävästi oikealta kansalliseepoksen tekstiltä. Kone oli kalevalanpäivänä Tarvaspään museossa esillä, ja yleisö sai arvuutella, kumpi teksteistä oli aito, kumpi tekoälyn runoilema.
Yritys on mukana myös muun muassa Turun yliopiston johtamassa tekoälytutkimuksessa, AIGAssa (Artificial Intelligence Governance and Auditing), joka pyrkii vahvistamaan erityisesti tekoälyn tuottamien päätösten luotettavuutta, läpinäkyvyyttä ja ymmärrettävyyttä. Pääfokus DAIN Studiosin osalta on selittävässä tekoälyssä (Explainable AI, XAI).
– Tekoäly ei tyypillisesti juurikaan selitä, miten on päätynyt tiettyyn tulokseen, mutta Explainable AI pyrkii juuri siihen. Tiedon käyttäjän, samoin kuin tekoälyn kehittäjän, on hyödyllistä nähdä, mitkä asiat vaikuttivat tulokseen.
Esimerkkinä tästä vaikkapa kuvantunnistusohjelma, joka tunnisti huskyn huskyksi, koska eläimen taustalla oli lunta, mikä tietysti johtaa virhepäätelmiin: kaikki koiran näköiset eivät ole huskyjä vaikka seisovat lumessa.
– Explainable AI:n avulla pystytään myös tuomaan lisää läpinäkyvyyttä algoritmeihin.

Analytiikkajohtaja Saara Hyvönen perusti data-analytiikkaan ja tekoälyyn keskittyvän DAIN Studiosin neljä vuotta sitten yhdessä ex-kollegojen kanssa. Tällä hetkellä yrityksellä on n. 30 työntekijää.
Mukana eettisen tekoälyn kehittämisessä
Kuka sitten saa kerätä tietoa ja miten?
– Tiedon keräys ja hyödyntäminen on hyvin säädeltyä, kertoo Hyvönen.
– Ensin tulevat vastaan tietosuojakysymykset: kaikelle tiedon keräämiselle pitää olla tarkoitus ja laillinen peruste. Nämä pitää olla selvillä, ennekuin edes aloitetaan. Tietosuoja on sen vastuulla, joka tietoa haluaa hyödyntää.
– Täytyy vastata kysymyksiin mitä ja mihin dataa käytetään, ja millä perusteella. Yrityksellä on esimerkiksi oikeus tietää, miten voidaan tehdä parempia tuotteita, jolloin voidaan vedota oikeutettuun etuun; mutta kun käytetään samaa dataa kohdennettuun mainontaan, niin silloin tarvitaan suostumus ja suostumuksen pitää olla kerätty oikein.
Elinkeinoministeri Mika Lintilän toimenpideohjelmassa Suomen tekoälyaika, jonka tavoitteena on viedä Suomi maailman johtavien maiden joukkoon tekoälyn soveltamisessa, Hyvönen osallistui tekoälyn etiikkatyöryhmään.
– Haastettiin yritykset luomaan itselleen tekoälyn eettiset periaatteet ja luotiin tähän työhön ohjeet ja mallipohjat. Niihin liittyvät sellaiset asiat kuin mihin ja miten dataa ylipäätään käytetään, miten siitä informoidaan ja kuka vastaa algoritmin toiminnasta.
– Periaatteiden pitää myös muuttua käytännöksi: pitää erikseen miettiä mikä voi mennä pieleen. Esimerkiksi datassa oleva bias: data ei ole sokeaa, vaan on vaarana, että se alkaa vahvistaa tiettyjä ennakkoluuloja. Tärkeää on tiedostaa vaarat, ja valmistautua torjumaan ne.
Esimerkkinä Hyvönen mainitsee luottopäätöksen tekemisen, joita tehdään koko ajan. On tärkeää miettiä, mitkä piirteet päätökseen vaikuttavat, mitä eri ongelmia dataan liittyen voi olla ja mihin ryhmiin esimerkiksi datan vinoumilla voi olla negatiivinen vaikutus.
– Lopulta päädytään perustavan laatuisiin kysymyksiin: mikä on reilua?
Missä kunnossa nämä asiat sitten meillä ovat?
– Hyvää on, että asiasta puhutaan – tietoisuus datan ja tekoälyn eettisistä kysymyksistä lisääntyy. Monilla aloilla, kuten terveydenhuollossa, eettiset asiat ovat jo ennestään hyvin tuttuja, eikä tekoäly muuta sitä asiaa juurikaan, vastaa Hyvönen. Vielä on matkaa siihen, että tekoälystä saadaan läpinäkyvää ja ymmärrettävää.
– Ylipäätään nämä eettiset asiat koskevat kaikkea tiedon hyödyntämistä, ei vain tekoälyä.
Esimerkiksi viime aikoina paljon puhuttanut tietosuojalainsäädäntö GDPR säätelee nimenomaan sitä, mitä pitää huomioida, kun käsittelee henkilötietoja.
– Siinä oikeastaan kiteytyvät perusasiat, jotka pitää ottaa huomioon: ymmärrät millä laillisella perusteella olet tiedon hyödyntämistä tekemässä, informoit siitä selkeästi ja annat kuluttajalle mahdollisuuden vaikuttaa.
Hyvä pikatesti on Hyvösen mukaan se, että miltä asia kuulostaa itselle, mitä mieltä itse olisin omien tietojen käyttämisestä mihinkin.
– Parhaimmillaan data hyödyntää suoraan asiakasta. Monet suositut palvelut, kuten Netflix ja Amazon, perustuvat suositteluun. Mutta ihmiselle pitää antaa mahdollisuus vaikuttaa siihen, miten hänen dataansa käytetään. Yleensäkin on tärkeää lähteä siitä, mikä on hyvä asiakaskokemus.
Miten se, että tietää näistä asioista, vaikuttaa omaan verkkokäyttäytymiseen?
– Keskimäärin olen sitä mieltä, että saa kerätä ja hyödyntää tietoa, mutta katson kyllä, miten asiasta on viestitty ja millaisia mahdollisuuksia minulla on vaikuttaa. Jos ne jäävät epäselviksi, painan hanakasti ”älä salli” -nappia, vastaa Hyvönen.
– Mutta esimerkiksi evästetiedotuksessa on hankaluutena, että pieneen tilaan pitäisi saada mahtumaan melko monimutkainen asia. Nyt ollaan kuitenkin vielä välivaiheessa, erilaista lainsäädäntöä on koko ajan valmistumassa, ja linjauksia odotellaan vielä esim. evästeiden puolella. Siksi käytäntö on niin kirjavaa.
Millaiset hetket sitten jäävät mieleen ja tuovat iloa DAIN Studiosin analytiikkajohtajalle?
– Aina kun asiakasprojekti saadaan onnistuneesti päätökseen, ja todetaan, että lopputulos on hyvä ja asiakas tyytyväinen. Silloin saa itsekin olla tyytyväinen. •
Teksti ja kuva: Suvi Lahdenmäki
Kuvia suomesta-Joona Kotilainen