• Raul Nugis, Author |
6 mins read

Tehisintellekt on muutunud üheks tänapäeva mullsõnaks (buzz word). See ei ole küll nii õhku täis nagu majanduskriisieelsed hedge-fondid, tänapäeva bitcoin’id-plokiahelad ja idufirmad. Kuid tõsi: kõik kõnelevad sellest, ent väga vähesed saavad aru, mis on selle mullsõna tähenduse taga ehk mis tehisintellekt õigupoolest on.

Töötav masinõpe

Võib väita, et tehisintellekt praegu veel ei tööta. Hästi programmeeritud kõnerobotid suudavad küll inimest teeskleva arvutikoodi ja inimese eristamiseks kasutatava Turingi-testi ära petta, kuid kui varuda aega ja neid pikemalt küsitleda, saab aru, kas tegu on roboti või inimesega. Mis päriselt töötab, on tehisintellekti mulli taga peituv tehnoloogia – masinõpe.

Kui tehisintellekt on korraga nii paradigma kui ka abstraktsioon, nagu auto puhul termin „liiklusvahend“, siis masinõpe on üks konkreetne toimiv tehnoloogia, selline nagu sisepõlemismootor. Ka tehisintellektihuvilised soovivad teada, mis on selleks sisepõlemismootoriks, mis selle liiklusvahendi liikuma paneb.

Ühe suure kohaliku omavalitsuse finantsteenistuse aastapäeval küsitigi minu käest selgitust selle kohta, kas tehisintellekt koosneb regressioonidest, mis on finantsandmete analüüsi asjatundjatele tuntud analüüsivahend, kuid tehisintellekti puhul tehakse nimetatud regressioone nii palju, et tulemused osutuvad tavapärasest andmete analüüsist „targemaks“.

Esimene vastus on alati väär

Oletus ei ole tõest kaugel, kuigi masinõppe taga peitub oluliselt rohkem detaile. Nn tehisnärvivõrgul põhinev masinõppe algoritm töötab sarnaselt päris närvisüsteemiga: see koosneb paljudest neuronitest – perceptron’idest, mis suudavad teha mitmesuguseid matemaatilisi tehteid, samuti regressiooni, kuid millest ükski eraldiseisev ei suuda isegi ligilähedaselt millestki „mõelda“. Koos toimides saavad nad siiski alati pakkuda mingitki lahendust küsimustele, mis neile esitatakse. Ent tehisnärvivõrgule esitatud suvalisele küsimusele on vastus alati väär (masinõppealgoritmi poolt selliselt antud vastust tähistatakse spetsiaalse terminiga: dummy).

Et millestki aru saada, peab tehisnärvivõrk enne õppima

Närvivõrgul on tarvis teada saada, millised vastused sarnastele küsimustele on varem olnud õiged. Kui õigete vastuste valik ehk õppematerjal on käes, algab õppimine, mille tähtsaks osaks on tagasilevi ehk backpropagation: kunstnärvivõrk mõõdab, kui palju erinevad tema pakutud vastused õigetest, ja sellele vastavalt teeb endas ümberseadistusi. Seejärel proovib närvivõrk uuesti vastuseid leida ja mõõdab uue katse tulemuste kõrvalekallet õigetest vastustest.

Niiviisi kordab see tehisneuronite kogum vastamise-mõõtmise-ümberseadistamise tsüklit seni, kuni tema vastused hakkavad üha rohkem ja rohkem õigete vastustega klappima. Selleks hetkeks on ta ennast välja koolitanud ja võib tööle hakata: anda soovitusi, teha inimeste eest otsuseid. Selle taga on teised tehnoloogiad, näiteks gradientlaskumine (Gradient Boosting), õpisamm (Learning Rate), aktivatsioonifunktsioon (Activation Function) jt, aga kokkuvõttes toimib see just niimoodi.

Sarnaselt tehisvõrguga käitub ka elusorganism: kui inimene on saanud vaid paar korda põletada, on temas juurdunud kogu ülejäänud eluks vägagi kindel refleks hoida tulekolletest eemale.

Tehisintellekt on kasulik

Ülevaate saamiseks laadisin eelmise aasta varakevadel robotiga alla 327 andmeteaduskonkursi ülevaatlikud andmed andmeteadlaste platvormist Kaggle. Seejärel jaotasin nimetatud konkursid teatavateks teemadeks, milleks kasutasin Wordneti-põhist tekstianalüüsi algoritmi. Selgus, et suurimad rahalised auhinnad andmeteadlastele (100 000 dollarit või enam) olid ette nähtud algoritmide eest, mis võimaldavad ära tunda maardlate asukohtasid, anda meditsiinidiagnostika vastuseid, aru saada satelliidifotodest ja teistest fotodest.

Enam kui miljoni said need andmeteadlased, kes suutsid ennustada kinnisvara turuhinda. Kaggle’ist selgub, et kinnisvara hindamisel tehisintellekti abil saavutati – kui käsitleda kõige enam õnnestunud töid – väga häid tulemusi. Me räägime kinnisvara hindamisest hinnatavat objekti nägemata.

Selliste algoritmide kasutuselevõtt – need on aga arendamise mõttes küllalt lihtsad – seaks ohtu paljude Eesti kinnisvarahindajate töökohad.

Miljoni või sellest suuremate auhindade saajate hulka kuulus ka USA-sse sisenevate reisijate ohuastme ennustamine, mis andis samuti väga häid tulemusi. Kuid meditsiin domineeris Kaggle’is vaieldamatult mitme suure auhinnaga, millest ühemiljonine anti andmeteadlaste tiimile, kes olid parimad kopsuvähi diagnoosimisel (seekord ei läinud ennustamisega nii hästi), ja pool miljonit nendele, kes ennustasid tervete inimeste üldhaigestumist (ka see katse väga hästi ei läinud). Kui kahest siin välja toodud suure auhinnaga konkursist jääb mulje, justkui ei oleks masinõpe meditsiinis eriti tulemuslik, siis see mulje on väär.

Ettevõtete vajadused

Eesti ettevõtted on praktilised ja soovivad juurutada ennast tõestanud masinõppe ja statistilise analüüsi lahendusi. Nendeks on näiteks soovitussüsteemid, s.t uute toodete soovitamine klientidele, lähtuvalt nende varasematest ostudest ja sarnaseid ostusid teinud teiste klientide ajaloost, finantsvaldkonnas aga riskide hindamise algoritmid.

Hästi levinud ja palju nõutud masinõppe rakendused keskenduvad fotodest arusaamisele. Selle näiteks ei ole vaid meile harjumuspärane auto asukoha tuvastamine suurte kaubanduskeskuste parklates, vaid ka mitmesugused riiklikud teenused, ka need, millest palju ei räägita. Kas teate, et riigivõimud on saanud juba aastaid ja aastaid teada teie piiri taha lahkumisest ja kodumaale naasmisest? Seda isegi siis, kui olete käinud riigis, millega mingit piiri justkui ei ole? Küll on aga endise riigipiiri lähedal olemas postid, nende küljes kaamerad, mis võtavad üles kõigi mööduvate autode numbrid.

Praktilised rakendused

Nagu öeldud, olid Kaggle’is meditsiini järel teisel kohal majandus- ja finantsvaldkonna ennustused. Suuri auhindu pakuti kinnisvara automaatse hindamise algoritmide eest, aga ka finantstulemuste ning väärtpaberite käitumise ennustamise eest. Samuti telliti krediidivõtjate laenu krediidiriskide ennustamist. Tulemusi oli nii häid, keskmisi kui ka kehvapoolseid.

Kui väitsin, et kinnisvara hindamisega sai nutirobot suurepäraselt hakkama, siis see puudutas vaid läänemaailma turgusid. Nii saavutati USA-s asuva kinnisvara hindade ennustamisel veamääraks 0. Venemaa kinnisvara hinna ennustamise konkurss, mida korraldas Sberbank, saavutas aga parimal juhul veamäära 0,3. Nii et Venemaal ei ähvarda kinnisvarahindaja töökohta veel ükski kratt.

Finantssektori puhul ei ole mul esitada kõikehõlmavaid andmeid Eesti kohta, välja arvatud avalik sektor, kus olukord on majandus- ja kommunikatsiooniministeeriumi poolt kaardistatud ja vastu võetud tehisintellekti lahenduste arendamise nn kratiprogramm. Mitmest teisest riigist on aga ülevaated olemas ka erasektori kohta.

Suurbritannias kasutab värskete andmete kohaselt masinõppe lahendusi ligi kaks kolmandikku pangandussektori ettevõtetest, pool investeerimisteenuseid pakkuvatest ettevõtetest ja finantsteenuste tugiteenuseid pakkuvatest ettevõtetest, veerand mitte pangandussektori laenuandjatest ja absoluutselt kõik küsitletud kindlustusettevõtted.

Samast uuringust selgus, et kõige populaarsemaks masinõppe rakenduskohaks oli riskide ennustamine ja juhtimine, teisel kohal oli aga klientide teenindamine ja klientidele teenuste nutikas pakkumine.

Ei ole vaid rikaste lõbu

Kui jääb mulje, justkui saaksid vaid ressursirikkad finantssektori esindajad endale masinõppe kratte lubada, siis ei ole see enam ammu nii. Tehnoloogia juurutamise koormus on vähenenud tänu läbimurdele nii tehnoloogias endas kui ka arvutusvõimsuses (pilved!), sellega vastavalt on kukkunud ka kulu.

Kõik majandustegevuse ajalooga (näiteks kliendibaasiga) ettevõtted saavad ja peavad masinõpet kasutama. Kasvõi selle sama kliendiandmebaasi hoidmiseks. Lahkuvate klientide ennustamine enne, kui nad lahkuvad – nende lahkumise takistamine erinevate meelepäraste stiimulitega. Võlglaste kindlakstegemine, samuti veel enne, kui nad võlgu jäävad – nende tarbimise piiramine. Kõik see on tänapäeval lihtne, peavad olema vaid andmed.

Samad järeldused nähtuvad ka eelpool nimetatud uurimistööst: ettevõtted leidsid, et suurimad masinõppest tulevad kasud on personaalsete toodete pakkumises klientidele. Masinõpe on leidnud poolehoidu kuluefektiivsuse tagamisel ning on ammu muutunud üldlevinud tehnoloogiaks riskide (pettused, rahapesu, regulatiivne vastavus) juhtimises.