OSOVE UMETE ITELIGECE 07/8 regresijsa drevesa ocenjevanje učenja linearni modeli - Zoran Bosnić del gradiva povzet po: Brato: Prolog programming for AI, Pearson (0) in Russell, orvig: AI: A Modern Approach, Pearson (00) Obravnava atributov Regresijsa drevesa potrebno je nasloviti še naslednja problema: manjajoči podati v atributih: ignorirati cele primere z neznanimi vrednostmi? uporabiti vrednost A/UKOW? nadomestiti manjajočo vrednost (povprečna, najbolj pogosta, naljučna, napovedana) primer obravnavamo verjetnostno glede na vse možne vrednosti atributa (s tao utežjo laho sodeluje pri gradnji modela in lasifiaciji) zvezna ciljna spremenljiva regresijsi problem so podobna odločitvenim drevesom, le za regresijse probleme sistemi: CART (Breiman et al 984), RETIS (Karalič 99), M5 (Quinlan 99), WEKA (Witten and Fran, 000) listi v regresijsem drevesu predstavljajo: predstavljajo povprečno vrednost označb ("razreda") primerov v listu preprost napovedni model (npr linearna regresija) za nove primere obravnava numeričnih atributov: običajno izvedemo disretizacijo v dva (binarizacija) ali več disretnih intervalov intervali z enao frevenco primerov (equal-frequency) intervali enae širine (equal-width) intervali, i masimizirajo informacijsi dobite Bora Beran, On Anything Data, domena MPG Regresijsa drevesa Gradnja regresijsih dreves atribut delimo glede na izbrano mejno vrednost drugačna mera za merjenje nedoločenosti/nečistoče: srednja vadratna napaa v vozlišču v: MSE v n y n i y i cilj: minimiziramo rezidualno nedoločenost po delitvi primerov glede na vrednosti atributa A pričaovana rezidualna nečistost I res A p left I left + p right I right p left A p right I left I right João eto, Classification & Regression Trees, http://wwwdifculpt/~jpn/r/tree/treehtml
Ocenjevanje učenja riteriji za ocenjevanje hipotez: točnost (angl accuracy) omplesnost (angl complexity) razumljivost (angl comprehensibility) subjetivni riterij ocenjevanje : na učnih podatih (angl training set, learning set) na testnih podatih (angl testing set, test set) izločimo del učnih podatov, s aterimi simuliramo ne-videne podate želimo si, da je testna množica reprezentativna za nove podate uporabimo laho intervale zaupanja v oceno uspešnosti na testni množici, i upoštevajo število testnih primerov na novih (ne-videnih) podatih (angl new data, unseen data) na njih bo naučeni sistem dejanso deloval Ocenjevanje učenja Prečno preveranje nasprotujoča si cilja: potrebujemo čim več podatov za uspešno učenje potrebujemo čim več podatov za zanesljivo ocenjevanje (večje število testnih primerov nam daje ožji interval zaupanja v oceno ) rešitev: adar je učnih podatov dovolj, laho izločimo testno množico (angl holdout test set) alternativa: večratne delitve na učno in testno množico različni načini vzorčenja testnih primerov: naljučno, nenaljučno (npr prečno preverjanje) poljubno ali stratificirano (zagotovimo enao porazdelitev razredov ot v učni množici) poseben primer večratnega učenja in testiranja -ratno prečno preverjanje (angl -fold cross-validation): celo učno množico razbij na disjuntnih podmnožic za vsao od podmnožic: uporabi množico ot testno množico uporabi preostalih - množic ot učno množico povpreči dobljenih ocen v ončno oceno testna množica učna množica ocena ocena ocena ončna (povprečna) ocena Prečno preveranje v prasi najpogosteje: 0 (0-ratno prečno preverjanje) vplive izbranega razbitja podatov na podmnožice laho zmanjšamo tao, da tudi prečno preverjanje večrat (npr 0x) ponovimo (torej 0 000 izvajanj učnega algoritma) in rezultate povprečimo poseben primer prečnega preverjanja je metoda izloči enega (angl leaveone-out, LOO) je ena številu primerov (vsaa testna množica ima samo en primer) najbolj stabilna ocena glede učinov razbitja na podmnožice časovno zelo zamudno, primerno za manjše množice iz meritev na vseh podmnožicah je možno izračunati tudi varianco/ intervale zaupanja
Linearni modeli Linearna regresija uporaba pri lasifiaciji (ot separator razredov) in regresiji (ot prileganje sozi podane toče) linearni model z eno odvisno spremenljivo (angl univariate linear model): h x w x + w 0 w 0 in w sta uteži (angl weights) spremenljiv (oeficienta) linearna regresija: postope isanja funcije h(x) (oziroma uteži w 0 in w ), i se najbolje prilega učnim podatom optimizacijo izvedemo z minimizacijo srednje vadratne napae: napaa h y j w x j + w 0 j prostor oeficientov je onvesen, loalni minimumi ne obstajajo (samo globalni) obstaja analitična rešitev: w x jy j x j y j x j x j w 0 y j w x j primer: cene hiš v Bereley, CA (009) napaa Linearna regresija Posplošitev v več dimenzij primer linearne regresije x j y j 8 9 9 4 6 5 4 6 7 8 9 4 0 x jy j 8 8 7 4 0 8 8 6 0 x j 4 9 6 5 6 49 64 8 00 x j 55 y j 48 x jy j 90 x j 85 w x jy j x j y j x j x j 0,897 w 0 y j w x j 0 90 55 48 0 85 55 48 0,897 55 9,7 0 možna je posplošitev v višje število dimenzij več neodvisnih spremenljiv (atributov) (angl multivariate linear regression) h x w 0 + i w i x j,i jer so w i uteži (oeficienti), x j,i pa i-ta spremenljiva (atribut) primera x j uteži laho določimo analitično: w X T X X T y jer je X matria s podati (vrstice učni primeri, stolpci atributi), y pa vetor z vrednostmi odvisnih spremenljiv primerov v prasi se odločamo za isanje oeficientov z gradientnim spustom w naljučna začetna rešitev ponavljaj do onvergence za vsa w i v w: w i w i α w i napaa(w) problem s pretiranim prilagajanjem, regularizacija Linearni modeli pri lasifiaciji Linearni modeli pri lasifiaciji linearni model se uporablja za ločevanje primerov, i pripadajo različnim razredom iščemo odločitveno mejo (angl decision boundary) oz linearni separator (obstaja samo pri linearno ločljivih problemih) za spodnji primer je linearno separator laho funcija 49 + 7x x 0 hipoteza je torej: h x prag(w x), jer prag z z 0 0 sicer primer linearno ločljivega in neločljivega problema (domena o potresih), x - jaost v tleh, x - jaost na površju stopničasta pragovna funcija možnih ustreznih premic je več preprosto isanje rešitve stohastični gradientni spust s posodabljanjem uteži za vsa učni primer x, y izvedi posodobitev uteži: w i w i + α y h x x i jer so w i uteži (oeficienti), α pa vpliva na hitrost spremembe (ora) intuicija: če y h(x), potem se w i ne spremeni če y in h x 0 (preniza vrednost hipoteze), potem se za pozitiven x i utež poveča in za negativen x i utež zmanjša če y 0 in h(x) (previsoa vrednost hipoteze), potem se za pozitiven x i utež zmanjša in za negativen x i utež poveča algoritem laho pri ustreznem α najde optimalno rešitev tudi za linearno neločljive podate smiselna izboljšava: logistična pragovna funcija
Linearni modeli pri lasifiaciji demo onvergenca algoritma pri linearno ločljivih podatih (levo) in linearno neločljivih podatiih (desno) Metoda najbližjih sosedov Metoda najbližjih sosedov angl nearest neighbors lastnosti: neparametrična metoda (ne ocenjuje parametre izbranega modela) učenje na podlagi posameznih primerov (angl instance-based learning) leno učenje (angl lazy learning): z učenjem odlaša vse do povpraševanja o novem primeru ideja: ob vprašanju po vrednosti odvisne spremenljive za novi primer: poišči primerov, i so najbližji glede na podano mero razdalje napovej pri lasifiaciji: npr večinsi razred med sosedi pri regresiji: npr povprečno vrednost/mediano označb sosedov v izogib neodločenemu glasovanju za večinsi razred pri lasifiaciji običajno izberemo, da je liho število pomembna izbira ustreznega : premajhen : pretirano prilagajanje preveli : prešibo posploševanje (pri : napoved večinsega razreda) v prasi običajno: 5 Hastie, Tibshirani, Friedman: Elements of Statistical Learning, 009 Metoda najbližjih sosedov Opombe razdaljo običajno merimo z razdaljo Minowsega: L p p x i, x j x i, x j, za p je to evlidsa razdalja: L x i, x j x i, x j, za p je to manhattansa razdalja: L x i, x j x i, x j, za zvezne atribute: razlia za disretne atribute: Hammingova razdalja (število disretnih disretnih atributov z ujemajočimi vrednostmi pri obeh primerih) p p p vpliv intervala vrednosti na izračunano razdaljo vpliva na najdene najbližje sosede potrebna normalizacija pri veliem številu dimenzij laho postanejo primeri zelo oddaljeni preletstvo dimenzionalnosti (angl the curse of dimensionality) implementacije isanja: O(), O(log), O() 4
Bayesov lasifiator 5