ČLANKI UDK :004.8 Umetna inteligenca v bančništvu univerzalno orodje? Dušan Fister, Iztok Jr. Fister in Timotej Jagrič* ARTIFICIAL INTELLIGENCE

UDK 336.71:004.8 Umetna inteligenca v bančništvu univerzalno orodje? Dušan Fister, Iztok Jr. Fister in Timotej Jagrič* ARTIFICIAL INTELLIGENCE IN BANKING A UNIVERSAL TOOL? This article presents the application of three different classifier algorithms to the topic of bank deposit prediction. As we show, state-of-the-art classification algorithms cannot be simply stated as a universal tool for obtaining the optimal results. Classical approaches of classification can sometimes reach good results and also save a lot of effort and money, since they come with the simplicity in a manner of easy implementation and low time demands. In this article, we show that on imbalanced dataset, best results are obtained by random forest, while by balanced dataset, logistic regression overcomes deep neural network and random forest algorithms. JEL C02 C63 C81 1 Uvod Na Inštitutu za finance in bančništvo (EPF, UM) se intenzivno ukvarjamo z razvojem novih metod na področju umetne inteligence kot tudi z njihovo aplikacijo v industriji. Tako smo neposredno kot tudi s partnerji v tujini sodelovali pri implementaciji metod tako v finančnih kot tudi v nefinančnih podjetjih. Izkušnje, ki smo jih pri tem pridobili, kažejo, da metode umetne inteligence lahko pomembno izboljšajo poslovne procese in ponudijo rešitve za probleme, ki do sedaj niso bili obvladljivi, vendar pa se je hkrati pokazalo, da omenjene metode niso univerzalno orodje, ki ga je moč uporabiti vedno in povsod. Tako lahko v mnogih primerih problem rešimo z uporabo klasičnih modelov, kar bistveno zmanjša stroške razvoja kot tudi stroške vzdrževanja razvitih rešitev. V nadaljevanju podajamo en tak primer, kjer klasične metode ponujajo zadovoljivo rešitev. Za analizo smo uporabili bazo podatkov ene izmed portugalskih bančnih institucij, ki je podatke pridobivala ob izvajanju klicev komitentov (kampanje) in ponujanju sklenitev bančnega depozita. V sklopu kampanje beležijo komitentove osebne podatke ter osnovne bančne kazalnike. Kot odvisno spremenljivko beležijo odločitev komitenta o sklenitvi, oz. zavrnitvi bančnega depozita. Očitno je, da je temeljni cilj tovrstnega modela identifikacija tistih potencialnih komitentov, ki bodo sklenili depozit pri opazovani banki. Gre torej za vprašanje klasifikacijske narave dane zapise v bazi podatkov želimo z metodami za klasifikacijo čim natančneje razvrstiti v dva razreda in na podlagi razvrstitve sklepati o napovedovalni moči posameznega klasifikatorja. Klasifikator mora zato iz nabora pojasnjevalnih spremenljivk uvideti značilnosti posamezne pojasnjevalne spremenljivke ter njen prispevek k sklenitvi bančnega depozita. Metode za klasifikacijo (klasifikatorji) so nadzorovane metode učenja in izmed treh osnovnih načel, tj. je optimizacije, modeliranja in simulacije, zaobsegajo slednji dve: modeliranje kot»prilagajanje«dejanskemu stanju ter simulacijo kot preizkus kakovosti gradnje modela in gene- * Dušan Fister, mag. inž. meh., mladi raziskovalec, dusan.fister1@um.si, Ekonomsko-poslovna fakulteta, Razlagova 14, 2000 Maribor. dr. Iztok Jr. Fister, asistent, iztok.fister1@um.si, Fakulteta za elektrotehniko, računalništvo in informatiko, Koroška cesta 34, 2000 Maribor. ddr. Timotej Jagrič, redni profesor, timotej.jagric@um.si, Ekonomsko-poslovna fakulteta, Razlagova 14, 2000 Maribor. 12 BV 6/2018

ralizacijskih sposobnosti modela (Eiben in Smith, 2003). Značilnost klasifikacije je določiti prenosno funkcijo (angl. transfer function) med znanimi vhodi (pojasnjevalnimi spremenljivkami) ter izhodi (odvisnimi spremenljivkami), pri čemer izhod ponazarjajo opisne (kvalitativne) spremenljivke. Slednje je treba s tehnikami kodiranja pretvoriti v binarno (dihotomno) obliko, tako da novonastale kodirane spremenljivke delijo nabor kvalitativnih spremenljivk v razrede. Kot industrijski standard se v procesu klasifikacije uporablja logistična regresija. Poglavitne značilnosti logistične regresije so enostavnost, linearnost, determinističnost ter hitrost, zato jo uporabimo tudi v naši aplikaciji. Za primerjavo uporabimo še dve izmed naprednejših metod za klasifikacijo, tj. globoke nevronske mreže ter naključni gozd. Prve izmed njiju kot univerzalnega aproksimatorja, učečega se algoritma in predstavnika algoritmov črne škatle ter drugega izmed njiju, algoritma za združevanje posameznih odločitvenih dreves v ansambel z zaščito proti prekomernemu učenju. Izbira teh treh algoritmov je raznovrstna in zagotavlja tri različne poglede na klasifikacijo. Poglavitni cilji raziskave so: razviti avtomatizirano tehniko priprave (pred-procesiranja) bančnih podatkov, implementirati sistem za preizkušanje metod za klasifikacijo iz baze podatkov, medsebojno primerjati tri različne metode za klasifikacijo ter preveriti veljavnost metod umetne inteligence in strojnega učenja kot univerzalnih orodij, ki bi ponujata primat na vseh področjih. Pridobljene rezultate v raziskavi želimo primerjati z raziskavo avtorjev baze podatkov Moro, Cortez in Rita, 2014, ki v svoji študiji uporabijo štiri klasifikacijske algoritme: logistično regresijo, odločitvena drevesa, nevronsko mrežo ter metodo podpornih vektorjev. Naš model klasifikatorjev se od predlaganih loči po uporabi naprednejših metod (naključni gozdovi in globoke nevronske mreže). Dodatna razlika nastopi pri uporabi podatkov. Avtorji baze podatkov uporabljajo dodatne spremenljivke, ki so jih sami zbrali, medtem ko mi želimo uporabiti le originalne podatke. Uporabljajo tudi metodo zmanjševanja dimenzionalnosti vhodnih pojasnjevalnih spremenljivk, kar v našem primeru ne velja. Medtem ko modele za analizo podatkov implementirajo v programskem jeziku R, mi implementacijo izvedemo v programskem jeziku Python. Pri tem striktno sledimo načelu Occamove britve (Blumer et al., 1987), kjer velja, da je treba v dani situaciji uporabiti najenostavnejši model. Struktura članka je naslednja: v drugem poglavju podrobneje opišemo bazo podatkov, lastnosti odvisne spremenljivke ter nabor pojasnjevalnih. Prav tako priložimo temeljno statistično in korelacijsko analizo. Tretje poglavje opisuje uporabljeno metodologijo, tj. logistično regresijo, globoko nevronsko mrežo ter naključni gozd. Predstavljen je koncept globokega učenja (angl. deep learning), kratko pa je opisan tudi učni postopek nevronske mreže ter naključnega gozda. Četrto poglavje zaobjema pridobljene rezultate ter primerjavo med uporabljenimi metodami. Članek končamo s sklepom ter smernicami za prihodnje delo. 2 Baza podatkov Naša analiza sloni na javno dostopni bazi podatkov»bank Marketing Data Set«(Moro, Cortez, Rita, 2014), ki je pridobljena s spletne strani https://archive.ics.uci. edu/ml/datasets/bank+marketing. V bazi je vsebovanih 41.188 vpisov (telefonskih kampanjskih klicev). Odvisna spremenljivka je v našem primeru opisna binarna, saj predstavlja komitentovo odločitev za sklenitev bančnega depozita: da, če se komitent odloči za depozit, ter ne, če se ne odloči. Pojasnjevalnih spremenljivk je v naboru baze podatkov dvajset in so razdeljene v štiri dele: osnovne osebne podatke, zgodovino telefonskih klicev, druge podatke ter pomembnejše ekonomske in finančne kazalnike. Baza podatkov zajema obdobje od maja 2008 do novembra 2010. Preglednica 1 prikazuje nabor vseh pojasnjevalnih spremenljivk, ki so prisotne v bazi. V binarno obliko je treba spremeniti/kodirati vse kategorične in binarne tipe spremenljivk, pri čemer upoštevamo načelo, da n razredov tvori n binarnih spremenljivk, npr. delovni dnevi v tednu tvorijo pet binarnih spremenljivk. Numerični tip podatkov zaradi najugodnejših lastnosti učenja nevronske mreže preslikamo v območje od 0 do 1. Skupno dobimo po razširitvi 63 pojasnjevalnih spremenljivk. Dana baza podatkov je neuravnotežena, saj je razmerje med ugodnimi ter vsemi dogodki 11,3 %, kar lahko kakovost napovedovanja oz. izkoriščanja modela znatno poslabša. Nemalo raziskovalcev se zato odloči za zmanjšanje števila enot v bazi podatkov, saj tako dosežejo uravnoteženost (problem so raziskovali Mazurowski et al., 2008). Druga možnost uravnoteženja baze podatkov je večkratna uporaba posamezne spremenljivke, kar smo storili v tej raziskavi. Za standardizirano napovedovanje in enake pogoje vseh raziskovalcev je poleg celotne baze podatkov priložena tudi vzorčna baza podatkov za preizkušanje (testna baza), ki sestoji iz 10 % originalne baze podatkov. Na sliki 1 je predstavljena korelacijska analiza pojasnjevalnih spremenljivk z izračunanimi Pearsonovimi koefi- BV 6/2018 13

Pregl. 1: Nabor pojasnjevalnih spremenljivk v bazi podatkov (angl. tab. 1: Regression variables in the dataset) Pojasnjevalna spremenljivka Tip spremenljivke Razpon spremenljivke 1. Starost komitenta (starost) Numeričen 17 98 let 2. Zaposlenost komitenta (zaposlenost) Kategoričen Uprava, proizvodnja, podjetnik, hišni pomočnik, menedžer, upokojen, samo-zaposlen, storitve, študent, tehnik, nezaposlen, neznano 3. Status komitenta (status) Kategoričen Poročen, ločen, samski, neznano 4. Izobrazba komitenta (izobrazba) Kategoričen OŠ (4 razredi), OŠ (6 razredov), OŠ (9 razredov), SŠ, nepismen, poklicna izobrazba, univerzitetna izobrazba, neznano 5. Neplačila kredita Kategoričen Da, ne, neznano 6. Stanovanjski kredit (stanovanjski) Kategoričen Da, ne, neznano 7. Osebni kredit (osebni) Kategoričen Da, ne, neznano 8. Tip pogovora (pogovor) Kategoričen Mobilni telefon, stacionarni telefon 9. Mesec pogovora (mesec) Kategoričen Marec, april, maj, junij, julij, avgust, september, oktober, november, december 10. Dan v tednu, ko je pogovor potekal Kategoričen Ponedeljek, torek, sreda, četrtek, petek (dan) 11. Trajanje pogovora v sekundah Numeričen 0 4918 (trajanje) 12. Število pogovorov v kampanji Numeričen 1 56 (kampanja) 13. Število dni od zadnjega pogovora* Opisni binarni Da, ne (sodelovanje) 14. Število pogovorov pred kampanjo Numeričen 0 27 (p_kampanja) 15. Uspešnost prejšnjega pogovora Kategoričen Uspeh, neuspeh, ne obstaja (prejsnjic) 16. Sprememba variacije zaposlenosti Numeričen -3,4 1,4 (variacija) 17. Indeks cen življenjskih potrebščin Numeričen 92,201 94,767 mesečni izračun (icžp) 18. Kazalnik zaupanja potrošnikov Numeričen -50,8-26,9 mesečni izračun (kzp) 19. Euribor 3-mesečni tečaj (euribor) Numeričen 0,634 5,045 20. Število zaposlenih (zaposleni) Numeričen 4963,6 5228,1 21. Odvisna spremenljivka: sklenjen bančni depozit (depozit) Opisni binarni Da, ne Opomba: 13. alineja (spremenljivka sodelovanje ) originalno predstavlja število dni, ki je poteklo od zadnjega pogovora. Zaradi lažje manipulacije s podatki smo slednjo poenostavili v binarno spremenljivko, pri čemer 0 pove, da komitent predhodno ni bil kontaktiran, in 1 pove, da je bil. Vir podatkov: Moro et al. (2014). cienti (Pearson, 1900). Rezultati analize pričajo o nizki korelaciji med spremenljivkami, saj slednja redkokdaj dosega vrednosti nad 0,5 (pri tem je treba omeniti, da so vzete absolutne vrednosti). Svetlejša polja prikazujejo spremenljivke z nizko korelacijo, medtem ko temnejša polja spremenljivke z višjo korelacijo. Močnejše korelacije se pojavljajo med dnevi v tednu, meseci ter izobrazbo kakor tudi med neplačilom in prejšnjimi sodelovanji. Visoka korelacija se prav tako pojavlja pri spremenljivkah Euribor ter zaposleni. Podobno so to že ugotovili Moro et al. (2014). Ker je pomembna prednost metod na področju umetne inteligence zajem velikega obsega zelo heterogenih podatkov, smo v naši analizi uporabili vse razpoložljive lastnosti (spremenljivke), kar nas pomembno loči od originalne analize avtorjev Moro et al. (2014). Tudi nabor metod je specifičen, ker sledi temeljnemu cilju preverjanju smiselnosti uporabe metod umetne inteligence na izbranem primeru. 14 BV 6/2018

Slika 1: Korelacijska analiza (angl. ill. 1: Correlation analysis) 3 Metodologija Logistična regresija (Cox, 1948) je prva uporabljena metoda klasifikacije. Je preprosta za implementacijo in je deterministična, zato v vsakem primeru vrne enake rezultate. Logistična regresija omogoča poleg modeliranja tudi napovedovanje; slednjo dosežemo z vstavljanjem atributov pojasnjevalnih spremenljivk ter z množenjem s posameznimi regresijskimi koeficienti. Drugo uporabljeno načelo sloni na umetnih, usmerjenih nevronskih mrežah. Postopek prilagajanja v tem primeru ni determinističnega tipa, ampak je iterativen in posnema delovanje človeških možganov. Postopek modeliranja se zato temu primerno imenuje učenje. Ker je nevronske mreže možno uporabiti na najrazličnejših področjih strojnega učenja (angl. machine learning), od modeliranja in klasifikacije, gručenja in zmanjševanja dimenzialnosti ter obdelave slik in strojnega vida, so postale klasično orodje raziskovalcev. Nevronska mreža je sestavljena iz osnovnih gradnikov nevronov ter povezav med njimi. Povezave med nevroni imenujemo uteži, učenje pa postopek spreminjanja uteži med posameznimi plastmi nevronske mreže. Število plasti neposredno določa kompleksnost nevronske mreže ter časovno zahtevnost učenja. Za kompleksne mreže se je uveljavil izraz»globoko učenje«(angl. deep learning), s štirimi uporabljenimi plastmi pa veljavnost izraza upravičuje tudi naša aplikacija; podobno se v našem primeru uveljavi tudi izraz»množični podatki«(angl. big data). Slika 2 prikazuje globoko, usmerjeno nevronsko mrežo s tremi skritimi plastmi nevronov. Usmerjenost nevronske mreže določuje tok informacije, ki poteka od leve strani vhodne plasti nevronov proti desni k izhodni plasti skozi skrite plasti. Učenju globokih, usmerjenih nevronskih mrež botrujejo številni učni algoritmi, za katere je značilno spreminjanje uteži po različnih strategijah. Ena izmed najpopularnejših strategij se imenuje»backpropagation«(bpg), ta Slika 2: Globoka, usmerjena globoka nevronska mreža (angl. ill. 2: Deep, feed-forward deep neural network) BV 6/2018 15

izračunava napako (gradient) med dejanskim izhodom ter tarčo ter napako»propagira nazaj«v skrite plasti. Učenje mreže je kombinacija simuliranja (propagacije naprej) ter modeliranja (propagacija nazaj), postopek pa poteka po vseh enotah baze podatkov (zaželen je njihov naključni vrstni red jemanja). V aplikaciji uporabimo učno strategijo Adam (angl. Adaptive Moment Estimation) avtorjev Kingma in Ba (2014), ki je za izvedbo zahtevnejša kakor BPG. Je stohastični optimizacijski algoritem, ki zraven gradienta izračunava tudi prvi in drugi moment (odvod) gradienta, tj. srednjo vrednost ter varianco. Prispevek izračunavanja prvega ter drugega momenta leži v uspešnejši in hitrejši konvergenci k globalnemu optimumu; pri nevronskih mrežah se sicer ujetje v lokalni optimum pogosto dogaja. Z vpeljavo višjih momentov gradienta, tj. srednje vrednosti in variance, nadgradimo osnovni stohastični gradientni algoritem z značilnostmi algoritmov AdaGrad ter RMSProp, ki sta uspešna na področju spoprijemanja z raztresenimi in nestacionarnimi signali. Prednost algoritma Adam pred stohastičnim gradientnim algoritmom je v adaptaciji učne konstante, ki je pri gradientnem algoritmu med učenjem konstantna (Hecht-Nielsen, 1992). Učni bazi podatkov za potrebe validacije pri nevronski mreži dodatno odvzamemo 20 % enot ter tvorimo validacijsko bazo podatkov, nevidno pri učenju. Validacija je uveljavljen postopek za preprečevanje prekomernega učenja (angl. overfitting) ter preizkušanje generalizacijskih sposobnosti nevronske mreže, tj. sposobnosti napovedovanja vmesnih (zveznih) rezultatov. Ta poteka s sprotnim in konstantnim izračunavanjem natančnosti preslikave za validacijsko bazo podatkov in primerjanjem z natančnostjo učne baze podatkov. Povečevanje natančnosti učne baze in zmanjševanje validacijske je prvi znanilnik prekomernega učenja mreže (zapomnjenja pojasnjevalnih spremenljivk) in posledične izgube generalizacijskih sposobnosti. V tem trenutku je priporočljivo učenje nevronske mreže predčasno prekiniti, zato se ta postopek imenuje zgodnje ustavljanje (angl. early stopping). Dodatno lahko lastnost prekomernega učenja zmanjšamo z uvedbo paketov (angl. batch). Praktično to pomeni, da ne bomo uteži prilagajali za vsako enoto, temveč le vsakih n-enot, pri čemer je n določen z velikostjo paketa (angl. batch size). Z uvedbo paketov zmanjšamo minimalna in nepotrebna prilagajanja za vsako enoto posebej. Naključni gozdovi (angl. Random Forests) (Breiman, 2001) so metoda strojnega učenja, ki ustvarijo več klasifikatorjev in jih nato združijo v»ansambel«odločitvenih dreves, ki so posamezni gradniki gozdov. Primer ansambla si lahko predstavljamo z glasbenim orkestrom, kjer vsak glasbenik k melodiji doda določen ton; melodija zato poteka tekoče in je prijetna za posluh, kar pa ne bi toliko veljalo, če bi vsak glasbenik igral posebej. Naključne gozdove je razvil Leo Breiman leta 2001 z dodajanjem plasti naključnosti predhodnemu klasifikatorju»bagging«(breiman, 1996). Naključni gozdovi so, podobno kot preostale metode strojnega učenja, primerni tako za klasifikacijo in regresijo; za dodatno razumevanje vabimo bralca k branju Gilles (2014) in Breiman (1984). Algoritem naključnega gozda sestoji iz treh korakov. Prvi izmed njih je oblikovanje n vzorcev iz nabora originalnih podatkov. Vzorci morajo biti izbrani naključno, po načelu vzorčenja z vračanjem. Iz posameznih vzorcev sledi tvorjenje odločitvenih dreves po standardnem algoritmu. V ansamblu dreves se vsako odločitveno drevo obnaša kot posamezen simulator (prediktor), zato je nujno implementirati tudi algoritem za spajanje posameznih prediktorjev v celoto; slednje poteka na podlagi algoritma glasovanja (angl. voting). Od namena aplikacije, tj. klasifikacije ali regresije, je odvisna obravnava glasov, pri čemer se za klasifikacijo upošteva večina glasov, medtem ko za regresijo njihovo povprečje. Strukturo naključnega gozda, sestavljenega iz treh dreves, ponazarja slika 3. V okviru naše analize smo iz celotne baze podatkov najprej izluščili učno bazo podatkov ter jo uporabili za ocenjevanje regresijskih koeficientov ter učenje globoke nevronske mreže in naključnega gozda. Napovedovalno moč modela smo preizkusili z bazo podatkov za preizkušanje, katere enote niso zajete v učni bazi podatkov. Rezultat napovedovanja, tj. zvezno verjetnost sklenitve bančnega depozita, z vpeljavo praga (angl. treshold, cutoff) preoblikujemo v binarno vrednost. Vpeljemo dva osnovna kazalnika za primerjanje napovedovalne moči, tj. kontingenčno tabelo (angl. confusion matrix) s pripadajočimi izpeljankami ter kazalnik AUC (angl. Area Under Curve), tj. površino pod krivuljo ROC (angl. Receiver Operating Characteristic), oz. sprejemno operativno karakteristiko. Kazalnik AUC in krivuljo ROC podrobneje obravnavata Hanley in McNeil (1982). Preoblikovanje pridobljenih zveznih rezultatov v binarno obliko (angl. tresholding) vnaša določeno napako. Slednjo želimo čimbolj odpraviti, zato se poslužimo univerzalne rešitve večkratnega poskušanja in izbire praga, ki zagotavlja najugodnejšo (največjo možno) vrednost kazalnika AUC. V okviru testiranj smo kot optimalno arhitekturo nevronske mreže izbrali obliko, kot to prikazuje slika 2: 63 vhodnih nevronov z linearno aktivacijsko funkcijo (število nevronov ustreza številu vhodnih spremenljivk), 30 ne- 16 BV 6/2018

Slika. 3: Naključni gozd, sestavljen iz treh dreves (angl. ill. 3: Random Forest, consisting of three trees) vronov v prvi in drugi skriti plasti z linearno aktivacijsko funkcijo, 35 nevronov v tretji skriti plasti z linearno aktivacijsko funkcijo ter enim izhodnim nevronom s sigmoidno aktivacijsko funkcijo. S krogci označujemo vozlišča (nevrone) usmerjene nevronske mreže, s povezavami pa vmesne uteži. Sprva izvedemo za določitev optimalnega števila epoh oz. trajanja učenja zagon s 500 epohami. Pri 120 epohah ugotovimo padec in konstantno zmanjševanje natančnosti validacijske baze, ob počasnem, a stabilnem naraščanju natančnosti učne baze. Nadaljnje eksperimente zato omejimo na 120 epoh. Nevronsko mrežo smo implementirali s prilagojeno stroškovno klasifikacijsko funkcijo binary cross entropy. Za določanje parametrov β strategije Adam uporabimo priporočila avtorjev Kingma in Ba, ki navajata naslednje vrednosti konstant: β 1 = 0,9 in β 2 = 0,999, parameter α pa zaradi ugodnejših rezultatov v našem primeru zmanjšamo na stotino predlaganega (α = 0,00001). Nevronska mreža je od vseh treh uporabljenih klasifikatorjev najbolj zahtevna glede števila parametrov in napovedovalne moči, ki je najbolj odvisna prav od vrednosti in izbire parametrov. Pri implementaciji naključnih gozdov je pomembna določitev števila odločitvenih dreves. V ansamblu uporabimo 1000 odločitvenih dreves, kar pomeni, da učno bazo podatkov (brez vzorčenja za validacijo) razdelimo na 1000 vzorcev. Za preizkušanje in pridobivanje rezultatov uporabimo računalnik HP ProDesk 400 G4 z operacijskim sistemom Ubuntu Linux 16.04 LTS, Intel Core i5-7500 @ 3,40 GHz x 4 procesorjem ter 8 GB RAM-a. Za implementacijo uporabimo programski jezik Python z dodatnimi knjižnicami pandas za pripravo podatkov, numpy za matematično analizo, scikit-learn za implementacijo logistične regresije ter naključnega gozda in Keras za implementacijo globoke nevronske mreže. 4 Rezultati Izvedemo dve testiranji napovedovanje na podlagi neuravnotežene (originalne) ter uravnotežene baze podatkov za vse tri klasifikatorje. Začetno razmerje enot sklenjenih bančnih depozitov (ugodnih dogodkov) proti vsem je 11,27 %, po sedemkratnem dodajanju enot sklenitev pa 50,47 %. Baza podatkov se z dodajanjem poveča na 66392 enot, za zmanjšanje učinka zgoščenosti podatkov pa po končanem dodajanju uporabimo še naključno pomešanje enot. Za doseganje pravičnosti pomešamo enote za obe bazi podatkov. Za preverjanje veljavnosti napovedovanja uporabimo bazo podatkov za preizkušanje, v kateri je skupno 4119 enot, od tega 451 dejanskih sklenitev bančnih depozitov ter 3668 zavrnitev. Razmerje sklenitev proti zavrnitvam bančnih depozitov v testnem vzorcu dosega 12,30 %. Preglednici 2 in 3 predstavljata rezultate klasifikacije z logistično regresijo. Občutljivost slednje je na neuravnoteženi bazi podatkov 95,34 %, z uravnoteženjem pa naraste na 95,79 %. Prav tako z uravnoteženjem baze podatkov naraste specifičnost, ki se z 80,40 % poveča na 81,49 %. Splošni kazalnik AUC (površina pod krivuljo ROC) je na neuravnoteženi bazi podatkov 0,8787, z uravnoteženjem pa se poveča na 0,8864. Praga, pri katerih sklepamo o sklenitvi bančnega depozita, sta 0,12 in 0,55. Iz rezultatov kontingenčne tabele (preglednica 2) sklepamo, da metoda logistične regresije od 451 testnih podatkov pravilno napove 430, uravnoteženje pa veličino še dodatno poveča na 432. Nevronska mreža, katere rezultati so predstavljeni v preglednicah 4 in 5, pravilno napove 421 sklenitev bančnih depozitov od 451, kar je 93,35 %. Napovedani rezultat je nekoliko nižji kot pri logistični regresiji, se pa z uravnoteženjem napovedana vrednost poviša na 425. Nevronska mreža pravilno napove 3037 zavrnitev bančnih depozitov ter pri 30 primerih napačno napove zavrnitev depozita, ko je ta sklenjen. Kazalnik AUC je 0,8807, kar BV 6/2018 17

Preglednica 2: Kontingenčna tabela z rezultati logistične regresije (angl. tab. 2: Confusion matrix of the logistic regression matrix) Neuravnotežena baza podatkov Uravnotežena baza podatkov Napoved DA Napoved NE Napoved DA Napoved NE Dejansko DA 430 21 432 19 Dejansko NE 719 2949 679 2989 Skupaj 1149 2970 1111 3008 Preglednica 3: Klasifikacijski rezultati logistične regresije (angl. tab. 3: Classification results of logistic regression) Kriterij Neuravnotežena baza podatkov Uravnotežena baza podatkov Občutljivost 95,34 % 95,79 % Specifičnost 80,40 % 81,49 % Kazalnik AUC 0,8787 0,8864 Prag 0,12 0,55 Preglednica 4: Kontingenčna tabela z rezultati globoke nevronske mreže (angl. tab. 4: Confusion matrix of the deep neural network results) Neuravnotežena baza podatkov Uravnotežena baza podatkov Napoved DA Napoved NE Napoved DA Napoved NE Dejansko DA 421 30 425 26 Dejansko NE 631 3037 645 3023 Skupaj 1052 3067 1070 3049 Preglednica 5: Klasifikacijski rezultati globoke nevronske mreže (angl. tab. 5: Classification results of deep neural network) Kriterij Neuravnotežena baza podatkov Uravnotežena baza podatkov Občutljivost 93,35 % 94,24 % Specifičnost 82,80 % 82,42 % Kazalnik AUC 0,8807 0,8833 Prag 0,15 0,60 je v primerjavi z logistično regresijo le nekoliko, ne pa bistveno več. Z uravnoteženjem se število pravilno napovedanih zavrnitev zmanjša, s tem tudi specifičnost, a se na račun povečanja občutljivosti kazalnik AUC poveča na 0,8833. V skladu s tem se zmanjšata napaka I. vrste, ki pade s 30 na 26, ter specifičnost (ta dosega 82,42 %), a se poveča napaka II. vrste (s 631 na 645). Napovedovalna moč zato nevronski mreži z uravnoteženjem naraste, a ne toliko kot pri logistični regresiji. Prag se spremeni z 0,15 na 0,60, kar je približno enako kot pri logistični regresiji. Menimo, da izbira slednjega pomembno vpliva na napovedovalno moč modela. Pri nevronski mreži prilagamo tudi grafikon natančnosti učne baze, baze podatkov za preizkušanje ter časovni razvoj stroškovne funkcije (epohe). Kazalnike prikazuje slika 4. Zgornji del slike 4 prikazuje razvoj stroškovne funkcije, ki s časom upada; želena je njena minimizacija, saj neposredno meri napako preslikav. Spodnji del slike 4 prikazuje natančnosti učne baze (debelejša modra črta) ter testne baze (zelena črta). Glede na to, da nevronska mreža (tudi druga klasifikatorja) v procesu učenja ne dostopa do testnega vzorca, natančnost slednjega ne dosega natančnosti učnega vzorca. Iz slike je razvidno, da obe natančnosti v vseh epohah naraščata. Iz slike 5 vidimo, da natančnost testne baze podatkov dosega natančnost učnega pri uravnoteženi bazi podatkov. Vidno je hitrejše naraščanje natančnosti, kar nakazuje na hitrejšo konvergenco, a je začetna vrednost natančnosti precej manjša od slike 4, približno za 15 %. Tudi končna vrednost natančnosti dosega manjšo vrednost natančnosti. Ta hitro doseže ustaljeno (končno) vrednost, kar dokazuje, da povečanje števila epoh s 30 na 120 ne prinese bistvene razlike. Od tod lahko sklepamo, da 18 BV 6/2018

Slika 4: Grafikon natančnosti učne baze podatkov, testne baze podatkov ter vrednosti stroškovne funkcije za neuravnoteženo bazo podatkov (angl. ill. 4: Accuracy of learning dataset, testing dataset and loss function for imbalanced dataset) Slika 5: Grafikon natančnosti učnega vzorca, testnega vzorca ter vrednosti stroškovne funkcije za uravnoteženo bazo podatkov (angl. ill. 5: Accuracy of learning dataset, testing dataset and loss function for balanced dataset) se natančnost uravnotežene baze asimptotično približa vrednosti verjetnosti 0.87, vsakršno večanje števila epoh pa natančnosti ne bi izboljšalo. Rezultati naključnega gozda so predstavljeni v pregled- -nicah 6 in 7. Naključni gozd napove izmed vseh treh metod za klasifikacijo največ pravilnih sklenitev bančnih depozitov. Absolutno to pomeni 431 sklenitev ter 3023 pravilno napovedanih zavrnitev bančnih depozitov, kar je nekoliko manj kot nevronska mreža. Občutljivost je največja izmed vseh algoritmov, saj je pri naključnem gozdu 95,57 %. Kazalnik AUC je 0,8899, prag pa 0,22. Uravnoteženje baze podatkov pomembno vpliva na algoritem naključnega gozda. Napovedovalna moč se, glede na kazalnik AUC, precej zniža, na 0,8796. Kljub temu se število pravilnih napovedi sklenitev kaže le v malenkostnem padcu, tj. s 431 enot na 428. Občutljivost zaradi tega upade na 94,90 %, kar ni tako bistveno pomembno, pomembno pa uravnoteženje pokvari napovedovanje zavrnitev bančnega depozita, saj specifičnost upade z 82,42 % na 81,03 %. Prag se pri naključnem gozdu najmanj spremeni, z 0,22 naraste na 0,26. Četudi smo menili, da se bo uravnoteženje ugodno izkazalo v vseh primerih, to ne velja za naključni gozd. Ugotavljamo, da uravnoteženje negativno vpliva na delovanje naključnega gozda, kar povezujemo s poveča- BV 6/2018 19

Preglednica 6: Kontingenčna tabela z rezultati naključnega gozda (angl. tab. 6: Confusion matrix of random forest results) Neuravnotežena baza podatkov Uravnotežena baza podatkov Napoved DA Napoved NE Napoved DA Napoved NE Dejansko DA 431 20 428 23 Dejansko NE 645 3023 696 2972 Skupaj 1076 3043 1124 2995 Preglednica 7: Klasifikacijski rezultati naključnega gozda (angl. tab. 7: Classification results of random forest) Kriterij Neuravnotežena baza podatkov Uravnotežena baza podatkov Občutljivost 95,57 % 94,90 % Specifičnost 82,42 % 81,03 % Kazalnik AUC 0,8899 0,8796 Prag 0,22 0,26 njem števila enot v bazi podatkov ob ohranjenem številu dreves v gozdu. S povečevanjem učne baze podatkov bi enako morali povečati tudi število dreves, kar pa zaradi ohranjanja konsistentnosti ne storimo. Naključni gozd je tako edini algoritem, kateremu se z vpeljavo uravnoteženja napovedovalna moč zniža. Slika 6 grafično prikazuje vse zbrane rezultate vrednosti kazalnika AUC. Z AUC1 (modro barvo) je označena vrednost neuravnoteženega vzorca AUC, z AUC2 (oranžno barvo) pa vrednost uravnoteženega vzorca AUC. Vidimo, da vrednost kazalnika AUC1 pri nevronski mreži ter naključnem gozdu presega vrednost kazalnika AUC1 logistične regresije, a se rezultat z uravnoteženjem obrne. To priča o nujnosti povečanja števila dreves. Logistična regresija zato uravnoteženje najbolj izrabi. Sklep V članku smo opisali, predstavili ter izvedli model za klasificiranje sklenitve bančnih depozitov. Uporabili smo tri metode za klasifikacijo, in sicer logistično regresijo, globoko nevronsko mrežo ter naključni gozd. Razvili smo avtomatizirano tehniko priprave bančnih podatkov kot tudi implementirali sistem za preizkušanje metod za klasifikacijo. Z implementiranim sistemom smo lahko primerjali vse tri posamezne metode za klasifikacijo. Kot možni dodatni korak bi lahko posegli tudi po zmanjšanju dimenzionalnosti (angl. dimensionality reduction) z metodo izbire značilk (angl. feature selection). Čeprav se tako pokvari izvirnost baze podatkov, lahko ta korak bistveno pripomore k povečanju napovedovalne moči modela in ostaja motivacija za naše nadaljnje delo. Slika 6: Primerjava med vrednostmi AUC (angl. ill. 6: Comparison between AUC scores) 0,892 0,89 0,888 0,886 0,884 0,882 0,88 0,878 0,876 0,874 0,872 Logistična regresija AUC1 AUC2 Globoka nevronska mreža Naključni gozd Moro et al. (2014) se v svoji študiji tovrstnega širjenja tudi poslužijo, uporabijo dodatne finančne kazalnike in izvedejo izbiro značilk. Kljub temu dosežejo slabše rezultate kot naši modeli. AUC je na podlagi baze podatkov za testiranje 0,794 za nevronsko mrežo, kar je precej manj kot v našem primeru, ter 0,715 za logistično regresijo. Odločitvena drevesa dosežejo vrednost kazalnika AUC 0,757 ter metoda podpornih vektorjev 0,767. V našem primeru je vrednost kazalnika AUC na neuravnoteženi bazi podatkov 0,8807 za nevronsko mrežo, 0,8787 za logistično regresijo ter 0,8899 za naključni gozd. Seveda velja pri tem opozoriti, da je testiranje v raziskavah različno, saj je testni vzorec grajen drugače. Ugotavljamo, da ponuja v našem primeru klasična klasifikacijska metoda (logistična regresija) popolnoma zadovoljivo rešitev. Na neuravnoteženem vzorcu nekoliko zaostaja, vendar ne bistveno, na uravnoteženem vzorcu 20 BV 6/2018

pa celo preseže rezultate pridobljene z novejšima tehnikama klasifikacije strojnega učenja globoke nevronske mreže ter naključnih gozdov. Klasični model zelo ugodno vpliva na čas razvoja modela in čas izvajanja algoritma. Na doseganje podobne napovedovalne moči vseh algoritmov pomembno vpliva tudi specifičnost baze podatkov obstajajo namreč problemi, kjer algoritmi strojnega učenja ne izkazujejo bistvenih prednosti, zato jih tudi ne moremo enačiti z univerzalnim orodjem, ki bo zagotavljalo prednost vedno in povsod. LITERATURA IN VIRI (REFERENCES) Breiman, L. (1984). Classification and Regression Trees. New York: Routledge. Breiman, L. (1996). Bagging predictors. Machine learning, 24(2), 123-140. Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32. Cox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society. Series B (Methodological), 215-242. Eiben, A. E., & Smith, J. E. (2003). Introduction to evolutionary computing (Vol. 53). Heidelberg: springer. Hanley, J. A., & McNeil, B. J. (1982). The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, 143(1), 29-36. Hecht-Nielsen, R. (1992). Theory of the backpropagation neural network. In Neural networks for perception (pp. 65-93). Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. arxiv preprint arxiv:1412.6980. Mazurowski, M. A., Habas, P. A., Zurada, J. M., Lo, J. Y., Baker, J. A., & Tourassi, G. D. (2008). Training neural network classifiers for medical decision making: The effects of imbalanced datasets on classification performance. Neural networks, 21(2-3), 427-436. Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22-31. Pearson, K. (1900). X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 50(302), 157-175. BV 6/2018 21