UNIVERZA V LJUBLJANI FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO Sašo Moškon Nomogramsko iskanje podprostorov neodvisnih atributov DIPLOMSKO DELO NA INT
|
|
- Peter Sušnik
- pred 4 leti
- Pregledov:
Transkripcija
1 UNIVERZA V LJUBLJANI FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO Sašo Moškon Nomogramsko iskanje podprostorov neodvisnih atributov DIPLOMSKO DELO NA INTERDISCIPLINARNEM UNIVERZITETNEM ŠTUDIJU Mentor: akad. prof. dr. Ivan Bratko Ljubljana, 2009
2
3 Rezultati diplomskega dela so intelektualna lastnina Fakultete za računalništvo in informatiko Univerze v Ljubljani. Za objavljanje ali izkoriščanje rezultatov diplomskega dela je potrebno pisno soglasje Fakultete za računalništvo in informatiko ter mentorja.
4 Namesto te strani vstavite original izdane teme diplomskega dela s podpisom mentorja in dekana ter žigom fakultete, ki ga diplomant dvigne v študentskem referatu, preden odda izdelek v vezavo!
5
6 IZJAVA O AVTORSTVU diplomskega dela Spodaj podpisani Sašo Moškon, z vpisno številko , sem avtor diplomskega dela z naslovom: Nomogramsko iskanje podprostorov neodvisnih atributov S svojim podpisom zagotavljam, da: sem diplomsko delo izdelal samostojno pod mentorstvom akad. prof. dr. Ivan Bratko so elektronska oblika diplomskega dela, naslov (slov., angl.), povzetek (slov., angl.) ter ključne besede (slov., angl.) identični s tiskano obliko diplomskega dela soglašam z javno objavo elektronske oblike diplomskega dela v zbirki Dela FRI. V Ljubljani, dne Podpis avtorja:
7
8 Zahvala Zahvalil bi se svojemu mentorju akademskemu profesorju Ivanu Bratku za vse nasvete ob izdelavi tega dela. Predvsem pa gre zahvala Juretu Žabkarju iz laboratorija za umetno inteligenco, ki mi je veliko svetoval in me ves čas spodbujal. Zahvalil bi se tudi punci, družini in prijateljem za potrpljenje in oporo.
9
10 Kazalo Povzetek 1 Abstract 2 1 Uvod 3 2 Pregled področja Naivni Bayesov klasifikator Nomogrami Algoritem knn Izbirni nomogrami Uvod v izbirne nomograme Pogojne odvisnosti med atributi Teoretično ozadje odkrivanja podprostorov neodvisnih atributov Implementacija izbirnih nomogramov Eksperimentalno ovrednotenje izbirnih nomogramov Delovanje na domeni XOR Opis domene XOR Eksperiment na domeni XOR Delovanje na umetni domeni UM Opis umetne domene UM Eksperiment na umetni domeni UM Delovanje na domeni TITANIC Opis domene TITANIC Eksperiment na domeni TITANIC Delovanje na domeni RIBE Opis domene RIBE Eksperiment na domeni RIBE
11 5 Klasifikacija s pomočjo izbirnih nomogramov Širjenje okolice Implementacija širjenja okolice Implementacija klasifikatorja Opis algoritma Rezultati Zaključek 39 Seznam slik 41 Seznam tabel 43 Literatura 44
12 Seznam uporabljenih kratic in simbolov knn - metoda najbližjih sosedov (k-nearest Neighbours) SVM - metoda podpornih vektorjev (Support Vector Machine) logor - logaritem relativnega tveganja (log Odds Ratio)
13 Povzetek V diplomskem delu predstavimo izbirne nomograme, izboljšavo nomogramov naivnega Bayesovega klasifikatorja, ki omogočajo interaktivno raziskovanje domenskega prostora in odkrivanje pogojnih (ne)odvisnosti med atributi. Predlagamo tudi metodo iskanja okolice primera s pomočjo izbirnih nomogramov. Najprej predstavimo izbirne nomograme, definiramo pogojne odvisnosti med atributi in podamo teoretično osnovo za odkrivanje (ne)odvisnosti med atributi z uporabo izbirnih nomogramov. Delovanje izbirnih nomogramov predstavimo na primerih in jih eksperimentalno ovrednotimo. Nato predstavimo še idejo uporabe izbirnih nomogramov pri iskanju okolice danega primera. Podamo način implementacije iskanja okolice in opišemo, kako smo te okolice uporabili pri implementaciji klasifikatorja. Klasifikator eksperimentalno ovrednotimo in opišemo razloge za slabo delovanje le-tega. V zaključku predstavimo zadane smernice za nadaljnje delo. Ključne besede: nomogrami, pogojne odvisnosti, okolice primera, vizualizacija 1
14 Abstract In thesis we introduce selective nomograms, an improvement of nomograms for visualization of naive Bayesian classifier. Selective nomograms allow us to interactively explore the domain and discover conditional dependencies between the attributes. We also propose a classification algorithm based on the idea of selectable nomograms. First, we introduce selective nomograms, define conditional dependencies and describe the theoretical background for discovering conditional dependencies between the attributes using selective nomograms. We present experiments and empirically evaluate selective nomograms. Then we propose the idea of using selective nomograms for searching the neighborhood of given example. We present an implementation of searching the neighborhood and describe how it can be used as a classification method. We empirically evaluate the classifier and discuss the results. Finally we propose some ideas for future work. Key words: nomograms, conditional dependencies, example neighborhood, visualization 2
15 Poglavje 1 Uvod Namen tega diplomskega dela je razvoj postopka za nomogramsko iskanje podprostorov neodvisnih atributov. V okviru izdelave tega dela smo razvili izbirne nomograme in pokazali, kako lahko z njimi odkrivamo pogojne odvisnosti med atributi ter podprostore neodvisnih atributov. Izbirne nomograme smo implementirali v okolju Orange [1] in jih preizkusili. Postopek iskanja pogojnih odvisnosti smo tudi teoretično utemeljili. Idejo o izbirnih nomogramih smo uporabili pri implementaciji širjenja okolice primera. Z uporabo tega širjenja okolice smo nato razvili klasifikator in preizkusili njegovo delovanje. Naivni Bayesov klasifikator je hiter, enostaven in pogosto uporabljan algoritem v strojnem učenju. K njegovi razširjenosti je pripomogla tudi enostavna razlaga njegovih odločitev. Za vizualizacijo modela se uporablja nomograme naivnega Bayesovega klasifikatorja [10]. Nomogram naivnega Bayesovega klasifikatorja nam za vsak atribut nariše po eno os. Na oseh so razporejene vrednosti atributov. Pozicija posamezne vrednosti prikazuje vpliv le-te na verjetnost ciljnega razreda. Ker naivni Bayesov klasifikator predpostavlja pogojno neodvisnost atributov, se nomogramska os za vsak atribut računa neodvisno od ostalih atributov. Vsak atribut je torej obravnavan individualno. Primer lahko grafično klasificiramo tako, da se na vsaki od nomogramskih osi pomaknemo na vrednost, ki ustreza primeru. Iz vsote vplivov vrednosti primera se nato izračuna verjetnost ciljnega razreda za dani primer. Ob pomikanju po neki nomogramski osi se spreminja le vsota vplivov vrednosti, ostale nomogramske osi pa ostajajo nespremenjene. Če velja predpostavka o pogojni neodvisnosti atributov je to seveda pravilno. V primeru, da imamo opraviti s pogojno odvisnimi atributi pa temu ni tako. Recimo, da imamo v domeni pogojno odvisna atributa A in B. Ko se pomikamo po nomogramski osi atributa A, se vpliv atributa B na ciljni razred spreminja. 3
16 4 Poglavje 1: Uvod Analogno se tudi vpliv atributa A na ciljni razred spreminja ob pomikanju po nomogramski osi atributa B. Če se vplivi spreminjajo, bi se morale spreminjati tudi nomogramske osi. V navadnih nomogramih pa le-te ves čas ostajajo enake, saj temeljijo le na apriornih pogojnih verjetnostih. Navaden nomogram naivnega Bayesovega klasifikatorja nam torej v takem primeru ne prikaže pravih vplivov atributov na ciljni razred. V tem diplomskem delu predstavimo izbirne nomograme [11], ki pravilno prikažejo vplive pogojno odvisnih atributov na razred. Izbirni nomogrami so za razliko od navadnih nomogramov dinamični. Ob izbiri vrednosti nekega atributa nam omogočajo izris novega nomograma, ki upošteva to izbiro. Z izbiranjem vrednosti atributov in primerjanjem nomogramov lahko tako podrobneje raziščemo domenski prostor in celo odkrijemo pogojne odvisnosti med atributi. Tako kot nomogrami naivnega Bayesovega klasifikatorja, so tudi izbirni nomogrami preprosti in lahko razumljivi, od uporabnika pa ne zahtevajo poznavanja metod strojnega učenja. Predvsem uporabni so za eksperte z domenskim znanjem, saj jim omogočajo podrobnejšo analizo vpliva atributov na ciljni razred. Pogojne odvisnosti med atributi so sicer pogosto obravnavana tema v strojnem učenju. Jakulin in Bratko [3] predstavita mero za zaznavanje interakcije med atributi in metodo za grafičen prikaz interakcij v domeni. S pogojnimi odvisnostmi so tesno povezane tudi Bayesove verjetnostne mreže. Struktura Bayesove mreže namreč neposredno modelira pogojne odvisnosti med atributi. Učenje strukture Bayesove mreže je torej odkrivanje pogojnih odvisnosti med atributi. Med Bayesovimi verjetnostnimi mrežami je za klasifikacijo posebej zanimiv drevesno razširjeni naivni Bayes (angl. tree augmented naive Bayes) [2]. Zanimiv je tudi pristop v [4], kjer se avtorja osredotočita na učenje neusmerjenih modelov (Markovskih mrež). Naša metoda se razlikuje v tem, da vizualizacija temelji na nomogramih in uporabniku omogoča interaktivno raziskovanje prostora in odkrivanje pogojnih (ne)odvisnosti med atributi. V drugem poglavju so podrobneje predstavljeni naivni Bayesov klasifikator, knn in nomogrami naivnega Bayesovega klasifikatorja. To poglavje služi predvsem za uvajanje bralca v področje in predstavitev osnovnih algoritmov, katerih poznavanje je potrebno za lažje razumevanje diplomskega dela. V tretjem poglavju so predstavljeni izbirni nomogrami ter teoretično ozadje odkrivanja (ne)odvisnosti med atributi s pomočjo izbirnih nomogramov. V četrtem poglavju prikažemo delovanje izbirnih nomogramov na nekaj domenah ter jih eksperimetalno ovrednotimo. V petem poglavju predstavimo idejo o iskanju okolice primera s pomočjo izbirnih nomogramov in predstavimo klasifikacijo, ki temelji omenjenemu širjenju okolice. Klasifikator tudi empirično ovrednotimo.
17 Ker se klasifikator slabo izkaže ob koncu poglavja podamo razloge za težave le-tega. 5
18 Poglavje 2 Pregled področja Diplomsko delo spada na področje umetne inteligence. Ožje spada na področje strojnega učenja. Za razumevanje tega diplomskega dela je potrebno podrobneje poznati delovanje naivnega Bayesovega klasifikatorja, nomogramov in algoritma knn. 2.1 Naivni Bayesov klasifikator Bayesov klasifikator [6] izračuna pogojne verjetnosti za vsak razred pri danih vrednostih atributov za dani novi primer, ki ga želimo klasificirati. Bayesov klasifikator, ki natančno izračuna pogojne verjetnosti razredov je optimalen, v tem smislu, da minimizira pričakovano napako. Ker natančno računanje vseh pogojnih verjetnosti ni vedno mogoče in bi bilo pogosto prezahtevno, se uporabljajo določene predpostavke. Naivni Bayesov klasifikator predpostavi pogojno neodvisnost atributov pri danem razredu. To omogoči, da učna množica običajno zadošča za zanesljivo oceno vseh potrebnih verjetnosti za izračun končne pogojne verjetnosti vsakega razreda. Uporabili bomo naslednje oznake: P (r k ) apriorna verjetnost razreda r k V =< v 1,, v a > vektor vrednosti za vse atribute P (r k V ) verjetnost razreda pri danih vrednostih atributov P (r k v i ) verjetnost razreda pri dani vrednosti i-tega atributa Verjetnosti razredov se računa po enačbi P (r k V ) = P (r k ) a i=1 P (r k v i ) P (r k ) (2.1) Naloga učnega algoritma je s pomočjo učne množice podatkov aproksimirati verjetnosti na desni strani enačbe. Znanje naivnega Bayesovega klasifikatorja 6
19 2.2 Nomogrami 7 je torej tabela aproksimacij apriornih verjetnosti razredov P (r k ), k = 1,, n 0 in tabela pogojnih verjetnosti razredov r k, k = 1,, v 0 pri dani vrednosti v i atributa A i, i = 1,, a : P (r k v i ). Za ocenjevanje apriornih verjetnosti se pogosto uporablja Laplaceov zakon zaporednosti P (r k ) = N k + 1 N + n 0 (2.2) Za ocenjevanje pogojnih verjetnosti se pogosto uporablja m-ocena P (r k v i ) = N k,i + mp (r k ) N i + m, (2.3) kjer je N k,i število učnih primerov iz razreda r k in z vrednostjo i-tega atributa v i ter N i število vseh učnih primerov z vrednostjo i-tega atributa v i. 2.2 Nomogrami Nomograme je leta 1891 prvič predstavil francoski matematik Maurice d Ocagne. Njihov namen je bil omogočiti uporabniku, da grafično izračuna rezultat enačbe, ne da bi pri tem moral kaj preračunavati. V strojnem učenju so nomograme prvič uporabili Lubsen in soavtorji [9] pri vizualizaciji modelov logistične regresije. Pokazali so uporabnost nomogramov na medicinski domeni. Njihov nomogram je bil načrtovan tako, da ga je bilo mogoče natisniti na list papirja in uporabljati brez računalnika. Poznamo tudi nomograme za vizualizacijo metode podpornih vektrojev. Vizualizacija z nomogrami za to metodo je predstavljena v [5]. Nas najbolj zanimajo nomogrami naivnega Bayesovega klasifikatorja [10]. Za izris nomogramov naivnega Bayesovega klasifikatorja moramo najprej izračunati logaritem relativnega tveganja (log odds ratio) logor(a i ) = log P (A i r k ) P (A i r k ) = log P (r k A i ) P ( r k A i ) P (r k ) P ( r k ) (2.4) Tako ocenimo kako posamezna vrednost atributa vpliva na verjetnost ciljnega razreda. Pozitiven logor pomeni, da je verjetnost ciljenga razreda pri dani vrednosti atributa q i večja kot apriorna verjetnost ciljnega razreda. Negativen pa, da je le-ta manjša.
20 8 Poglavje 2: Pregled področja Iz tako dobljenih logor vrednosti lahko nato izračunamo verjetnost ciljnega razreda. Najprej seštejemo prispevke posameznih atributov F (r k X) = logor(a i ) (2.5) nato izračunamo verjetnost ciljnega razreda z naslednjo formulo P (r k X) = [1 + e logp (r k)/(1 P (r k )) F (r k X) ] 1 (2.6) Slika 2.1: Primer nomograma na podatkih o preživetju nesreče titanica 2.3 Algoritem knn Algoritem knn [7] je klasifikator, ki klasificira na podlagi najbližjih sosedov. Najpreprostejša varianta algoritma najbližjih sosedov kot znanje uporablja kar množico vseh učnih primerov. Učni algoritem si torej le zapomni vse primere. Ker učenja skorajda ni, pravimo tej vrsti učenja tudi leno učenje. Pri klasifikaciji novega primera se iz učne množice poišče k najbolj podobnih (najbližjih) primerov. Nov primer klasificiramo v razred, ki mu pripada največ
21 2.3 Algoritem knn 9 bližnjih sosedov. Pri tem je potrebno zaradi ustrezne metrike v prostoru atributov normalizirati vrednosti zveznih atributov in definirati razdaljo med vrednostmi vsakega diskretnega atributa. Pri klasifikaciji se navadno uporablja tudi uteževanje primerov glede na njihovo oddaljenost od primera, ki ga klasificiramo. Uporablja se različne razdalje: za zvezne atribute najpogosteje evklidsko in za diskretne Hammingovo razdaljo. Hammingova razdalja Hammingova razdalja nam pove, na koliko mestih se vektorja razlikujeta. Za binarna vektorja x = (x 1,...x n ) in y = (y 1,...y n ) enakih dolžin je definirana kot n d(x, y) = x i y i (2.7) i=1 Če si posamezen primer v strojnem učenju predstavljamo kot vektor vrednosti (v 1,...v n ) lahko Hammingovo razdaljo med primeri definiramo kot kjer je n d(x, y) = f(x i, y i ) (2.8) i=1 f(x i, y i ) = { 0 if xi = y i 1 sicer (2.9) Hammingova razdalja nam torej pove, po kolikih atributih se primera razlikujeta. Za primer vzemimo vektorja x = (2, 3, 1, 1) in y = (2, 3, 7, 1), ki naj predstavljata primera v domeni s štirimi atributi. Hammingova razdalja teh dveh vektorjev je ena. Razlikujeta se na tretjem mestu v vektorju. x = (2, 3, 1, 1) y = (2, 3, 7, 1) (2.10) Pomembno je torej le, da se vrednosti razlikujeta, ne pa za koliko se razlikujeta. To lastnost je uporabna predvsem v diskretnih domenah, kjer imamo pogosto opravka z nominalnimi vrednostmi atributov in razdalje med posameznimi vrednostmi ne poznamo.
22 Poglavje 3 Izbirni nomogrami 3.1 Uvod v izbirne nomograme Nomogrami naivnega Bayesovega klasifikatorja [10] so zelo koristni za vizualizacijo odločitev naivnega Bayesovega klasifikatorja. Omogočajo nam pregled nad tem kako posamezne vrednosti atributov vplivajo na verjetnost ciljnega razreda. Vendar se v podatkih pogosto skriva več informacije kot jo lahko prikaže nomogram naivnega Bayesovega klasifikatorja. Na sliki 3.1 vidimo nomogram naivnega Bayesovega klasifikatorja za podatke o ulovih pri muharjenju. Domeno sestavljajo atribut riba z vrednostmi <soška postrv, lipan, šarenka>, atribut muha z vrednostmi <potezanka, suha, ličinka> ter atribut vreme z vrednostima <sončno, oblačno>. Vsi atributi so diskretni. Razred je diskreten atribut prijem z vrednostima <da,ne>. Iz nomograma lahko razberemo, da je najbolje loviti v oblačnem vremenu, najboljša vaba je imitacija ličinke, najpogostejši ulov pa šarenka. Imamo torej vse potrebne informacije za uspešen lov, le še pogledamo vremensko napoved, pripravimo opremo in se odpravimo za vodo. Prvi dan se vrnemo z nekaj šarenkami, drugi dan s še več šarenkami tudi tretji dan se kljub sončnemu vremenu odpravimo na lov in uplenimo nekaj šarenk in lipana. Dnevi se vrstijo in naveličani smo uvoženih šarenk, želimo si prijema domače, soške postrvi. A ta noče prijeti. Iz nomograma smo razbrali, da je verjetnost prijema soške postrvi majhna a ne nična. Morda smo kaj spregledali? Naveličani šarenk se ponovno posvetimo nomogramom. Tokrat si poglejmo podatke le za soško postrv. Nomogram je prikazan na sliki 3.2. Zanimivo, ta nomogram nam pove, da ličinka ni primerna vaba za soško postrv in da je ob sončnem vremenu bolje doma pokositi travo kot izgubljati 10
23 3.1 Uvod v izbirne nomograme 11 Slika 3.1: Primer nomograma naivnega Bayesovega klasifikatorja za podatke o ulovih pri muharjenju Slika 3.2: Primer nomograma naivnega Bayesovega klasifikatorja za podatke o ulovih pri muharjenju, omejene le na ulove soške postrvi čas za vodo. Na lov se odpravimo tik pred nevihto, na predvrvico navežemo potezanko in kmalu se vrnemo domov z nasmeškom na obrazu. Začetni nomogram nas je očitno zavedel, ličinka, ki naj bi bila najbolj uspešna vaba, se je izkazala za zelo slabo pri lovu soške postrvi. Začetni nomogram ni bil napačen. Pokazal je tisto kar lahko naivni Bayes izračuna na danih podatkih. Vendar
24 12 Poglavje 3: Izbirni nomogrami naivni Bayes predpostavlja pogojno neodvisnost atributov, ribam pa ni vseeno katero vabo jim ponudimo. Če si pogledamo nomogram na sliki 3.3 vidimo, da jim tudi za vreme ni vseeno. Lipan namreč najraje prijema na suho muho v sončnih dneh. Če se ga že lotimo v oblačnem vremenu pa je za vabo vendarle bolje uporabiti ličinko, saj na suho muho ne bo prijel, kot je razvidno iz nomograma na sliki 3.4. Slika 3.3: Primer nomograma naivnega Bayesovega klasifikatorja za podatke o ulovih pri muharjenju, omejene le na ulove lipana Slika 3.4: Primer nomograma naivnega Bayesovega klasifikatorja za podatke o ulovih pri muharjenju, omejene le na ulove lipana v oblačnem vremenu Podatki lahko torej skrivajo veliko več informacij, kot jih lahko nomo-
25 3.2 Pogojne odvisnosti med atributi 13 gram prikaže. Hkrati to pomeni, da je v podatkih lahko veliko več relacij, kot jih naivni Bayes odkrije. Naivni Bayesov klasifikator bi se na podatkih iz prejšnjega primera sicer solidno izkazal, a očitno je, da se da tudi bolje. Zmotijo ga seveda pogojne odvisnosti med atributi. 3.2 Pogojne odvisnosti med atributi Ko velja predpostavka o pogojni neodvisnosti med atributi, je naivni Bayesov klasifikator optimalen. V tem primeru nam nomogram naivnega Bayesovega klasifikatorja nudi popolno informacijo o vplivu atributov na razred. Poigravanje s podatki, kakršno smo prikazali v prejšnjem razdelku, ne privede do novih spoznanj. Predpostavka o pogojni neodvisnosti v realnih podatkih le redko drži. Če poznamo izid c sta dogodka a in b pogojno neodvisna ko velja P (a, b c) = P (a c) P (b c) (3.1) Primer pogojne odvisnosti med atributoma je podan v tabeli 3.1. Čeprav sta vrednosti atributov neodvisni, postaneta močno pogojno odvisni ko je podana vrednost razreda. Na sliki 3.5 je nomogram naivnega Bayesovega klasifikatorja za podatke iz tabele 3.1. Če sklepamo po tem nomogramu, je vrednost X1 X2 Y Tabela 3.1: Primer pogojne odvisnosti med atributoma X1 in X2 razreda popolnoma neodvisna od vrednosti posameznega atributa. Vendar to ni res. Kot lahko razberemo iz tabele 3.1 velja med atributoma in razredom naslednja odvisnost: Y = (X1 X2) (3.2) Po zgledu iz poglavja 3.1, bi moral torej nomogram za nek podprostor podatkov razkriti kaj več. Izberimo le podatke, ki imajo vrednost atributa X1 enako 1. Nomogram naivnega Bayesovega klasifikatorja za take podatke je
26 14 Poglavje 3: Izbirni nomogrami prikazan na sliki 3.6. Opazimo, da se je vpliv atributa X2 na razred močno spremenil. Slika 3.5: Primer nomograma naivnega Bayesovega klasifikatorja za podatke iz tabele 3.1 Slika 3.6: Primer nomograma naivnega Bayesovega klasifikatorja za primere iz tabele 3.1 ki imajo vrednost atributa X1 enako 1 Atributa sta torej pogojno odvisna če poznavanje vrednosti enega atributa spremeni vpliv vrednosti drugega atributa na razred. To pomeni, da se spremeni nomogramska os za ta atribut. Spremenijo se lahko le razdalje med vrednostmi atributov na nomogramski osi ali celo vrstni red le-teh. Zanimivi so predvsem dogodki, ko se spremeni vrstni red vrednosti atributov na nomogramskih oseh. To se je dogajalo v primeru, ki smo ga uporabili v razdelku
27 3.3 Teoretično ozadje odkrivanja podprostorov neodvisnih atributov , ko smo ugotovili, da se za različne ribe dobro obnesejo različne vabe. Upoštevati je potrebno tudi dejansko velikost spremembe. Ni namreč vseeno ali se na izbirnem nomogramu ob izbiri neke vrednosti atributa na obravnavani osi zamenjata vrednosti, ki sta bili v originalnem nomogramu zelo skupaj, ali vrednosti, ki sta bili precej oddaljeni. Pomembno je tudi za koliko se spremeni vpliv posamezne vrednosti na končni razred. Ko govorimo o razdalji mislimo na razliko v logaritmu relativnega tveganja. Pomembno je tudi upoštevati zastopanost podprostora, za katerega smo izrisali nomogram naivnega Bayesovega klasifikatorja. Če dobimo zelo različne nomogramske osi za nek atribut, pa so te izračunane le na podlagi malega števila primerov, iz tega seveda ne moremo sklepati na pogojne odvisnosti med atributi. 3.3 Teoretično ozadje odkrivanja podprostorov neodvisnih atributov Vrednosti logor za i-to vrednost atributa A izračunamo po enačbi logor(a i ) = log P (A i r k ) P (A i r k ) = log P (r k A i ) P ( r k A i ) P (r k ) P ( r k ) (3.3) Če izberemo j-to vrednost atributa B izračunamo logor po sledeči formuli logor(a i B j ) = log P (A i, B j r k ) P (A i, B j r k ) = log P (r k A i,b j ) P ( r k A i,b j ) P (r k B j ) P ( r k B j ) (3.4) Če velja predpostavka o pogojni neodvisnosti atributov lahko enačbo 3.4 poenostavimo. Zaradi pogojne neodvisnosti namreč velja iz tega sledi P (r k A i, B j ) = P (r k A i ) (3.5) logor(a i B j ) = log P (A i, B j r k ) P (A i, B j r k ) = log P (r k A i,b j ) P ( r k A i,b j ) P (r k B j ) P ( r k B j ) = log P (r k A i ) P ( r k A i ) P (r k B j ) P ( r k B j ) (3.6) Enačbi za izračun vrednosti logor(a i ) in logor(a i B j ) se torej razlikujeta le v imenovalcu. Števec je pri obeh enak. To pomeni, da se vrstni red vrednosti na nomogramski osi, ko velja predpostavka o pogojni neodvisnosti atributov,
28 16 Poglavje 3: Izbirni nomogrami ne more spremeniti. To sledi direktno iz lastnosti logaritma. Ker delamo z verjetnostmi, ki so seveda vedno pozitivne, vedno velja, da večje število v števcu pomeni večjo vrednost logaritma. To velja ne glede na vrednost v imenovalcu, ki je, kot smo že poudarili, vedno pozitivna. Zaradi te monotone relacije med vrednostmi števca in vrednostmi logor imenovalec ne more vplivati na vrstni red na nomogramski osi. Torej lahko trdimo, da izbira vrednosti enega atributa, ob veljavnosti predpostavke o neodvisnosti med atributi, ne more spremeniti vrstnega reda vrednosti na nomogramski osi kateregakoli drugega atributa. Iz tega sledi, da lahko iz spremebe vrstnega reda vrednosti na nomogramski osi nekega atributa A1, po tem ko smo izbrali vrednost atributa A2, sklepamo na odvisnost med atributoma. Sedaj si poglejmo še razdaljo na nomogramski osi. Osredotočimo se na razdaljo med dvema vrednostima atributa A, vrednostima A i in A j. Njuno razdaljo na nomogramski osi v osnovnem nomogramu naivnega Bayesovega klasifikatorja lahko izračunamo kot d = logor(a i ) logor(a j ) = log P (r k A i ) P ( r k A i ) P (r k ) P ( r k ) log P (r k A j ) P ( r k A j ) P (r k ) P ( r k ) = log P (r k A i ) P ( r k A i ) log P (r k) P ( r k ) log P (r k A j ) P ( r k A j ) + log P (r k) P ( r k ) = log P (r k A i ) P ( r k A i ) log P (r k A j ) P ( r k A j ) Kot lahko razberemo iz zgornje izpeljave, je tudi razdalja med atributoma odvisna le od imenovalca. Že v enačbi 3.6 smo pokazali, da se ob veljavni predpostavki o neodvisnosti atributov, ob izbiri vrednosti enega izmed atributov v enačbah za izračun novih logor spremeni le imenovalec. Iz tega lahko zaključimo, da se ob izbiri vrednosti enega izmed atributov in veljavni predpostavki o pogojni neodvisnosti atributov, razdalje na nomogramskih oseh ostalih atributov ne spremenijo. To pomeni, da lahko iz velike spremembe razdalje med vrednostmi atributa A na nomogramski osi po tem ko smo izbrali neko vrednost atributa B sklepamo na pogojno odvisnost med tema dvema atributoma.
29 3.3 Teoretično ozadje odkrivanja podprostorov neodvisnih atributov 17 Primer Domena naj vsebuje binarni razred Y ter dva binarna atributa X 1 in X 2. Za primer vzemimo naslednje podatke o verjetnostih: P (Y = 1) = 0.6 P (Y = 1 X 1 = 1) = 0.5 P (Y = 1 X 1 = 0) = 0.8 P (Y = 1 X 2 = 1) = 0.45 P (Y = 1 X 2 = 0) = 0.78 Za izračun vrednosti logor potrebujemo še pogojne verjetnosti P (Y 1), P (Y 1 X 2 = 1) in P (Y 1 X 2 = 0). Izračunamo jih iz že znanih verjetnosti P (Y 1)1 P (Y = 1) = = 0.4 P (Y 1 X 2 = 1) = 1 P (Y = 1 X 2 = 1) = = 0.55 P (Y 1 X 2 = 0) = 1 P (Y = 1 X 2 = 0) = = 0.22 S temi podatki lahko izračunamo logor vrednosti za atribut X 2 logor(x 2 = 1) = log logor(x 2 = 0) = log P (Y =1 X 2 =1) P (Y 1 X 2 =1) P (Y =1) P (Y 1) P (Y =1 X 2 =0) P (Y 1 X 2 =0) P (Y =1) P (Y 1) = log = log = = Vrednost atributa X 2 = 1 torej poveča verjetnost razreda Y = 1, vrednost X 2 = 0 pa jo zmanjša. Sedaj izberimo vrednost atributa X 1 = 1. To pomeni, da od sedaj upoštevamo le primere, ki imajo vrednost atributa X 1 = 1. Ker sta atributa X 1 in X 2 pogojno neodvisna, ostanejo pogojne verjetnosti za atribut X 2 enake. Sicer bi bila atributa pogojno odvisna. Zaradi izbire vrednosti atributa X 1 se spremeni verjetnost razreda Y = 1. Po enačbi 3.6 izracunamo nove logor vrednosti za atribut X 2 logor(x 2 = 1 X 1 = 1) = log logor(x 2 = 0 X1 = 1) = log P (Y =1 X 2 =1) P (Y 1 X 2 =1) P (Y =1 X 1 =1) P (Y 1 X 1 =1) P (Y =1 X 2 =0) P (Y 1 X 2 =0) P (Y =1 X 1 =1) P (Y 1 X 1 =1) = log = log = = 1.266
30 18 Poglavje 3: Izbirni nomogrami Vrednosti logor so se spremenile, vendar vrstni red vrednosti atributa ostaja enak. logor za vrednost X 2 = 1 je namreč pred in po izbiri manjši od logor za vrednost X 2 = 0. Izračunajmo še razdaljo med vrednostima pred izbiro X 1 = 1 logor(x 2 = 1) logor(x 2 = 0) = = (3.7) in po izbiri X 1 = 1 logor(x 2 = 1 X 1 = 1) logor(x 2 = 0 X 1 = 1) = = (3.8) Po pričakovanjih se vrednosti ujemata. 3.4 Implementacija izbirnih nomogramov V okviru tega diplomskega dela smo implementirali izbirne nomograme naivnega Bayesovega klasifikatorja. Izbirni nomogrami so nomogrami, ki poleg funkcionalnosti navadnih nomogramov uporabniku omogočajo še določanje posameznih vrednosti atributov in s tem analizo izbranih podprostorov podatkov. Izbirne nomograme smo implementirali v programskem jeziku Python kot del orodja ORANGE [1]. Implementacija je razširitev že obstoječega čarovnika za risanje nomogramov v odprtokodnem orodju ORANGE. Izgled okna izbirnih nomogramov je prikazan na sliki 3.7. Poleg gumbov in polj za nastavitve, ki so bili že del čarovnika, smo dodali še Gumbe SE- LECT, UNDO in MARK. Dodano je tudi polje za določanje m-ocene, ki naj se uporablja pri preračunavanju pogojnih verjetnosti. Uporaba izbirnih nomogramov je zelo enostavna. Uporabnik mora le s kurzorjem miške premakniti drsnik izbranega atributa na določeno vrednost in klikniti gumb SELECT. če drsnik nastavimo med dve vrednosti, se ob pritisku gumba SELECT izpiše opozorilo, da nismo izbrali nobene vrednosti. Gumb UNDO služi za razveljavljanje prejšnjih izbir. Z vsakim pritiskom tega gumba se razveljavi ena prejšnja izbira, ki smo jo naredili s pritiskom gumba SELECT. Gumb MARK služi za izbiranje intervalom pri zveznih atributih. Funkcija gumba SELECT Čarovnik si zapomni, kateri drsnik smo nazadnje premikali. Ob pritisku gumba SELECT se izbrana vrednost atributa ali izbrani interval doda v posebno tabelo pogojev. Nato se tabele primerov odstrani vse primere, ki ne ustrezajo pogojem v tabeli pogojev. Na teh primerih se ponovno izračuna vse potrebno
31 3.4 Implementacija izbirnih nomogramov 19 Slika 3.7: Okno čarovnika Izbirni nomogrami za izris nomograma naivnega Bayesovega klasifikatorja. Izriše se nomogram, v konzolo se izpišejo pogoji iz tabele pogojev in število primerov, ki ustrezajo tem pogojem. Funkcija gumba UNDO Gumb UNDO iz tabele pogojev odtrani zapis, ki je bil v tabelo dodan zadnji. Gumb lahko uporabimo tudi večkrat. Če je ob pritisku gumba tabela pogojev prazna, nas čarovnik na to utrezno opozori. Funkcija gumba MARK Gumb MARK služi za označevanje intervalov na 2D krivuljah zveznih atributov v nomogramu. Pri zveznih atributih so vrednosti navadno zelo raznolike in nesmiselno bi bilo izbirati posamezne vrednosti. Za izbiro intervala vred-
32 20 Poglavje 3: Izbirni nomogrami nosti zveznega atributa mora biti izbran prikaz zveznih atributov z 2D krivuljo. Gumb uporabljamo tako da drsnik najprej pomaknemo na začetek željenega intervala in kliknemo gumb. Na mesto kjer je drsnik se izriše kratka črtica. Nato drsnik pomaknemo na konec željenega intervala in ponovno kliknemo gumb. Okoli izbranega intervala se izriše kvadrat, ki označuje interval. Z uporabo gumba SELECT lahko nato izrišemo nomogram za podatke, ki imajo vrednost obravnavanega atributa znotraj izbranega intervala. Na sliki 3.8 je prikazan izbran interval sepal width [2.2, 3.6], na sliki 3.9 pa izrisan nomogram po pritisku gumba SELECT. Slika 3.8: Primer nomograma na zveznih podatkih iris z označenim intervalom sepal width = [2.2, 3.6]
33 3.4 Implementacija izbirnih nomogramov 21 Slika 3.9: Primer nomograma na podatkih iris z izbranim intervalom sepal width = [2.2, 3.6]
34 22 Poglavje 3: Izbirni nomogrami Slika 3.10: Primer nomograma na podatkih o preživetju nesreče titanica
35 Poglavje 4 Eksperimentalno ovrednotenje izbirnih nomogramov Kot smo ugotovili v razdelku 3.2, lahko pogojne odvisnosti med atributi odkrijemo že z opazovanjem nomogramskkih osi medtem, ko raziskujemo prostor podatkov. Dva atributa sta pogojno neodvisna, če izbira vrednosti enega atributa ne vpliva na vrstni red in niti na razdalje na nomogramski osi drugega atributa. Seveda moramo, ko imamo opravka z realnimi podatki, te trditve vzeti nekoliko z rezervo. Majhne spremembe v razdalji še ne pomenijo odvisnosti med atributi. Tudi sprememba vrstnega reda atributov nam ne pove veliko, če ni podprta z zadostnim številom primerov. 4.1 Delovanje na domeni XOR Opis domene XOR Domena XOR je sestavljena iz dveh diskretnih atributov X1 in X2 ter diskretnega razreda Y. Zveza med atributoma in razredom je podana z enačbo Y = (X1 X2) (4.1) Gre za ekskluzivni ali. Vrednost razreda Y je torej enaka ena, ko natanko eden izmed atributov X1 in X2 zavzame vrednost ena. Atributa X1 in X2 sta med seboj močno pogojno odvisna. 23
36 24 Poglavje 4: Eksperimentalno ovrednotenje izbirnih nomogramov Eksperiment na domeni XOR Naivni Bayesov klasifikator predpostavlja pogojno neodvisnost, zato je na taki domeni neuspešen. Posledično nam tudi nomogram naivnega Bayesovega klasifikatroja za podatke iz te domene ne pove ničesar. Nomogram je prikazan na sliki 3.5. Na tem mestu se izkažejo izbirni nomogrami. Če namreč izberemo eno izmed vrednosti atributa X1, nam novi nomogram, ki temelji le na podatkih z izbrano vrednostjo atributa X1, razkrije nove informacije o atributih. Kot je razvidno iz slike 3.6, nam v tem primeru vrednost drugega atributa natančno določa vrednost razreda. Analogno velja za izbiro ene izmed vrednosti atributa X2. Ob izbiri vrednosti enega izmed atributov se torej nomogramska os drugega atributa močno spremeni. To nam pove, da sta atributa med seboj močno odvisna. Tako smo z izbirnimi nomogrami odkrili odvisnost med atributoma. 4.2 Delovanje na umetni domeni UM Opis umetne domene UM1 Za prikaz delovanja izbirnih nomogramov smo ustvarili umetno domeno s tremi diskretnimi atributi X1, X2 in X3 ter diskretnim razredom Y. Vsi imajo zalogo vrednosti 0, 1. Primere smo dodajali tako, da smo ustvarili nekatere pogojne odvisnosti med atributi. Atributa X2 in X3 sta pogojno neodvisna. Oba pa sta odvisna od vrednosti atributa X1. V podatkovni zbirki je 1000 primerov. Primeri so generirani po naslednjih pravilih: V polovici primerov je X 1 enak 1 Če je X 1 enak 1: se razred ujema z vrednostjo X 1 v 50% primerov X 2 se ujema z vrednostjo razreda v 80% primerov X 3 se ujema z vrednostjo razreda v 80% primerov Če je X 1 enak 0: se razred ujema z vrednostjo X 1 v 50% primerov X 2 se ujema z vrednostjo razreda v 40% primerov X 3 se ujema z vrednostjo razreda v 40% primerov
37 4.2 Delovanje na umetni domeni UM Eksperiment na umetni domeni UM1 Slika 4.1: Primer nomograma naivnega Bayesovega klasifikatorja na umetnih domeni UM1 Poglejmo ali lahko te pogojne odvisnosti in neodvisnosti odkrijemo s pomočjo izbirnih nomogramov. Na sliki 4.1 je prikazan začetni nomogram naivnega Bayesovega klasifikatorja. Ko izberemo vrednost atributa X2 = 1, dobimo nomogram na sliki 4.2. Vrednosti atributa X3 na nomogramski osi ostaneta enako oddaljeni in v enakem vrstnem redu. Če izberemo še drugo vrednost atributa X2 = 0, se zgodi podobno. Razdalja med vrednostima atributa X3 se sicer nekoliko zmanjša, vendar ne bistveno. Nomogram je prikazan na sliki 4.3. Atributa X2 in X3 torej izgledata pogojno neodvisna. Povsem nekaj drugega se dogaja z atributom X1. Na nomogramu 4.2 se vrednosti močno oddaljita, v primerjavi z nomogramom 4.1. Ob izbrani vrednosti atributa X2 = 0 pa celo zamenjata strani, kar je prikazano na sliki 4.3. Opazimo torej močno pogojno odvisnost med atributoma X2 in X1. Če se osredotočimo na atribut X3 in izbiramo vrednosti tega atributa, pridemo do podobnih ugotovitev. Ponovno opazimo pogojno neodvisnost med atributoma X2 in X1 ter pogojno odvisnost med atributoma X3 in X1. Ugotovitve lahko preverimo še na atributu X1. Na sliki 4.4 je prikazan nomogram za izbiro X1 = 0. Na tem nomogramu sta nomogramskih osi obeh atributov, atributa X2 in atributa X3 bistveno ra-
38 26 Poglavje 4: Eksperimentalno ovrednotenje izbirnih nomogramov Slika 4.2: Primer nomograma naivnega Bayesovega klasifikatorja na umetnih domeni UM1 z izbrano vrednostjo atributa X2 = 1 Slika 4.3: Primer nomograma naivnega Bayesovega klasifikatorja na umetnih domeni UM1 z izbrano vrednostjo atributa X2 = 0 zlični od tistih na sliki 4.1. Z nadaljnjim izbiranjem vrednosti preostalih dveh atributov lahko le še potrdimo ugotovitev o neodvisnosti med tema atribu-
39 4.3 Delovanje na domeni TITANIC 27 Slika 4.4: Primer nomograma naivnega Bayesovega klasifikatorja na umetnih domeni UM1 z izbrano vrednostjo atributa X1 = 0 toma. Z izbirnimi nomogramu smo torej na enostaven in hiter način odkrili pogojne (ne)odvisnosti med atributi. 4.3 Delovanje na domeni TITANIC Opis domene TITANIC V podatkih domene TITANIC je 2201 primer. Domena vsebuje tri diskretne atribute. Atribut sex z vrednostima female in male, atribut age z vrednostima adult in child ter atribut status z vrednostmi first, second, third in crew. Razred je diskretni atribut survived z vrednostima yes in no. Večinskemu razredu no pripada Eksperiment na domeni TITANIC Ta domena je vsekakor bolj kompleksna kot prejšnji dve. Na sliki 4.5 je nomogram naivnega Bayesovega klasifikatorja za podatke iz domene TITANIC s ciljnim razredom survived = yes. Kot lahko razberemo iz nomograma, imajo najvec moznosti za prezivetje otroci zenskega spola iz prvega razreda, najmanj pa odrasli moški iz posadke. Sedaj si podrobneje
40 28 Poglavje 4: Eksperimentalno ovrednotenje izbirnih nomogramov Slika 4.5: Nomogram naivnega Bayesovega klasifikatorja za podatke iz domene TITANIC poglejmo moške. Izberemo vrednost atributa sex = male. Nov nomogram je prikazan na sliki 4.6. Na tem nomogramu opazimo, da imajo pravzaprav moški iz drugega ali tretjega razreda manj možnosti za preživetje kot moški iz posadke. To se ne ujema s prejšnjimi ugotovitvami. To spremembo bi lahko povzročila visoka smrtnost med ženskami iz posadke. Na sliki 4.7 je nomogram za osebe ženskega spola. Zanimivo tudi tukaj se izkaže bivanje v tretjem razredu bolj smrtonoseno kot mesto med posadko. Ob podrobnejšem pregledu opazimo da sta drugi in tretji razred na nomogramih z ženskami in nomogramih z moškimi zamenjana. Torej je bilo med ženskami več smrtnih žrtev v tretjem razredu, med moškimi pa v drugem. Naivni Bayesov klasifikator računa le pogojne verjetnosti P (r k v i ), torej verjetnost ciljnega razreda pri posameznih vrednostih atributa. V tem primeru se vpliv tretjega in drugega razreda, ki sta pri moških in ženskah obratna, izniči. Zato se za najbolj smrtonoseno izkaže mesto med posadko. Tudi pri večvrednostnih atributih torej veljajo enake zakonitosti odkrivanja pogojnih odvisnosti med podatki.
41 4.3 Delovanje na domeni TITANIC 29 Slika 4.6: Nomogram naivnega Bayesovega klasifikatorja za podatke iz domene TITANIC z izbrano vrednostjo atributa sex = male Slika 4.7: Nomogram naivnega Bayesovega klasifikatorja za podatke titanic.tab z izbrano vrednostjo atributa sex = female
42 30 Poglavje 4: Eksperimentalno ovrednotenje izbirnih nomogramov 4.4 Delovanje na domeni RIBE Opis domene RIBE Domena RIBE je sestavljena iz treh diskretnih atributov in diskretnega razreda. Atribut riba lahko zavzame vrednosti soška postrv, šarenka ali lipan. Atribut muha lahko zavzame vrednosti suha, ličinka ali potezanka. Atribut vreme ima le dve možni vrednosti in sicer oblačno in sončno. Razred je atribut prijem z možnima vrednostima da in ne. Primeri opisujejo katero ribo je ribič lovil, katero vrsto muhe je uporabil in kakšno je bilo vreme vreme med ribolovom. Razred prijem nam pove, ali je bil pri ribolovu uspešen Eksperiment na domeni RIBE V domeni RIBE je skritih veliko pogojnih odvisnosti. Lipan ima najraje sončno vreme in suho muho, soška postrv bo prijela le v oblačnem vremenu na potezanko, šarenka poje vse kar vidi, bolj aktivna pa je v oblačnih dneh. Vse to nam lahko povedo izkušeni ribiči. Ribič začetnik, ki še nima dovolj izkušenj, zna povedati le, da najpogosteje ujame šarenko, ribe najbolj prijemajo na ličinko in najraje v oblačnem vremenu. To je pravzaprav znanje, opisano na nomogramu s slike 3.1. Znanje izkušenega ribiča pa je znanje, ki ga pridobimo z uporabo izbirnih nomogramov. Del tega znanja je predstavljen na nomogramih s slik 3.2, 3.3 in 3.4. Želimo si ujeti katerokoli ribo. Za nasvet vprašamo izkušenega ribiča, ki povzema znanje pridobljeno z izbirnimi nomogrami. Svetuje nam lov šarenke z ličinko v oblačnem vremenu. Enako nam svetuje tudi začetnik. Lovimo uspešno in obe napovedi se izkažeta za točni. Naslednji dan je sončen, a to nas ne odvrne od ribolova. Za nasvet spet povprašamo oba ribiča. Izkušen ribič svetuje lov lipana s suho muho, začetnik pa ponovno lov šarenke z ličinko. Še več, začetnik nam svetuje naj ne upoštevamo nasveta izkušenega ribiča, saj sicer ne bomo ujeli ribe. Poizkusimo oba načina in ujamemo lipana na suho muho. Napoved začetnika se izkaže za zgrešeno. Poglejmo še enkrat na sliko 3.1, kjer je nomogram, ki prikazuje njegovo znanje. Vrednosti atributov riba=lipan in muha=suha ne vplivata bistveno na verjetnost prijema. Vrednost atributa vreme=sončno pa zmanjša verjetnost prijema. To je razlog, da je začetnik napovedal neuspeh te strategije. Kombinacija vrednosti riba=šarenka in muha=ličinka pa dovolj pozitivno vplivata na verjetnost prijema, da je začetnik napovedal prijem kljub sončnemu vremenu. Težava je v tem, da začetnik našo namero, da bomo lovili v sončnem vremenu upošteva le
43 4.4 Delovanje na domeni RIBE 31 kot odločitev, ki nam zmanjša verjetnost prijema. Izkušen ribič premisli, kako se ribe v sončnem vremenu obnašajo in na kaj prijemajo. Izkušen ribič je torej v prednosti, saj se zna prilagajati situaciji. Prav tako so izbirni nomogrami v prednosti pred navadnimi, ker znajo upoštevajo odvisnosti med atributi. Ta prednost bi se lahko dobro izkazala pri klasifikaciji.
44 Poglavje 5 Klasifikacija s pomočjo izbirnih nomogramov Idejo o izbirnih nomogramih bi lahko uporabili pri klasifikaciji. Podobno kot izkušnje pomagajo ribiču med ribolovom, lahko znanje pridobljeno s pomočjo izbirnih nomogramov pomaga pri klasifikaciji. Če izkušenemu ribiču povemo kdaj bomo lovili, katero vabo bomo uporabili in katero ribo bomo lovili, nam bo znal dokaj zanesljivo povedati ali bomo pri lovu uspešni. Medtem ko bo začetnik napovedoval precej nezanesljivo. Tako je zaradi pogojnih odvisnosti med tem kaj, na kaj in kdaj lovimo. Če teh odvisnosti ne bi bilo, bi oba napovedovala enako. Prav tako nam izbirni nomogrami ne bi razkrili nič novega, če bi bili vsi atributi pogojno neodvisni. Kako pa naj si z idejo o izbirnih nomogramih pomagamo pri klasifikaciji? Tako kot izkušen ribič, moramo upoštevati vrednosti atributov primera, ki bi ga radi klasificirali. V skrajnem primeru bi lahko klasificirali tako, da bi v izbirnih nomogramih izbrali prav vse vrednosti atributa, ki ustrezajo vrednostim v primeru. Tako bi dobili podprostor primerov, ki so identični našemu primeru po vseh atributih. Na podlagi teh primerov bi nato napovedali, kateremu razredu najverjetneje pripada naš primer. Tak pristop pa prinese neželene posledice. Namesto izboljšanja klasifikacijske točnosti se ta pogosto zmanjša. Pogosto se tudi zgodi, da je v učni množici primerov, ki se s testnim primerom ujemajo v vrednosti vseh atributov, zelo malo ali jih celo ni. V tem primeru je napoved podana na podlagi zelo malo primerov in posledično nezanesljiva. To težavo lahko omilimo s širjenjem okolice. 32
45 5.1 Širjenje okolice Širjenje okolice Če moramo klasificirati primer, ki je v učni množici redko zastopan, imamo težavo. Na podlagi le nekaj primerov težko sklepamo kateremu razredu pripada primer. Zato je smiselno pri napovedovanju upoštevati še nekaj najbolj podobnih primerov, torej razširiti okolico primera in na podlagi te okolice napovedati razred. Zaplete pa se pri podobnosti. Kaj je podobnost v diskretnem prostoru? Kaj je razdalja med primeri? Lahko bi uporabili Hammingovo razdaljo, ki meri v vrednosti koliko atributov se primera razlikujeta. Vendar ali je res vseeno po katerem atributu se razlikujeta? Vrnimo se k našemu izkušenemu ribiču. Recimo, da ga povprašamo ali lahko ujamemo soško postrv na suho muho v oblačnem vremenu on pa je to poizkusil le enkrat in to neuspešno. Ali naj nam na podlagi enkratne izkušnje odvrne, da je ne bomo ujeli? Tega seveda ne stori. Vendar na podlagi česa naj nam odgovori? Tudi šarenka spada v družino postrvi, morda lahko pri svoji odločitvi upošteva izkušnje s šarenko in suho muho v oblačnem vremenu. Ličinka je po velikosti podobna suhi muhi, morda lahko upošteva izkušnje pri lovu soške postrvi z ličinko v oblačnem vremenu. Lahko pa bi nam svetoval na podlagi lova soške postrvi na suho muho v sončnem vremenu. Ribič mora pravzaprav ugotoviti, kaj bolj vpliva na uspešnost lova, vrsta ribe, ki jo lovimo, tip muhe ki jo uporabljamo ali morda vreme. Po Hammingovi razdalji so vsi omenjeni primeri enako oddaljeni od obravnavanega primera, dvomim pa, da bi se ribič strinjal, da je vseeno kako se odloči. Če se odloči, da je najmanj pomembno vreme, bo njegov odgovor ne, saj soška postrv ne prijema na suho muho v sončnem vremenu. Če se odloči, da je najmanj pomembna vaba, bo njegov odgovor ne, saj soška postrv ne prijema na ličinko v oblačnem vremenu. Če pa se odloči, da je najmanj pomembna vrsta ribe, ki jo lovimo, bo odgovor da, saj šarenka rada zagrize v suho muho ko so na nebu oblaki. Našemu ribiču bi bilo najbolj všeč, če bi se lahko vzdržal odgovora, morda se tako kdaj počutijo tudi klasifikatorji? Implementacija širjenja okolice Poleg pomembnosti tega, po katerem atributu se primera razlikujeta, prihaja do razlik tudi med samimi vrednostmi atributa. Naš ribič je na podlagi izkušenj sklepal, da je soški postrvi bolj podobna šarenka kot pa lipan. Obe sta namreč postrvi. V tem elementu je ribič korak pred nami, saj mi načeloma ne vemo, kateri vrednosti posameznega diskretnega atributa sta si bolj podobni. Seveda tudi ni nujno, da je primer, ki se od obravnavanega primera razlikuje v vrednosti enega atributa, bolj podoben le-temu kot nek drug primer, ki ima različni
46 34 Poglavje 5: Klasifikacija s pomočjo izbirnih nomogramov vrednosti dveh atributov. V zveznih domenah si je to lažje predstavljati. Tam sta si primera, ki se rahlo razlikujeta v vrednosti dveh atributov po evklidski razdalji bližje kot primera, ki se bistveno razlikujeta v vrednosti le enega. Primer na domeni TITANIC Primer širjenja okolice bomo prikazali na domeni TITANIC, saj je ta domena dovolj kompleksna za nazoren prikaz delovanja. Težave z razdaljami v diskretnih domenah smo se lotili nomogrami Naivnega Bayesovega klasifikatorja. Razdaljo med primeri lahko namreč določimo na nomogramskih oseh nomograma. To naredimo tako, da v izbirnem Nomogramu izberemo vse vrednosti atributov, v katerih se primera ujemata, ostale pa pustimo nedoločene. Na nomogramskih oseh nato razberemo razdalje med vrednostima atributa, po katerem se primera razlikujeta. Končna razdalja je vsota teh razdalj. Nomogrami naivnega Bayesovega klasifikatorja namreč prikazujejo, kako posamezna vrednost atributa vpliva na verjetnost ciljnega razreda. Če se primera ujemata v vseh razen enem atributu in sta vrednosti atributa obeh primerov zelo blizu na nomogramski osi, potem imata ta dva primera zelo podoben vpliv na ciljni razred. Vpliv na ciljni razred pa je to kar nas zanima. Vzemimo primer z naslednjimi vrednostmi atributov: [status = first, sex = male, age = adult] Na sliki 5.1 je prikazan nomogram z izbranima vrednostima age=adult in sex=male. Najbližja vrednost na sliki 5.1 je status=crew z razdaljo 0,52. Slika 5.1: Razdalja med primeri z različnimi vrednostmi atributa status Na sliki 5.2 je prikazan nomogram z izbranima vrednostima atributov status=first in age=adult. Najbližja vrednost na sliki 5.2 je sex=female z razdaljo 4,29. Na sliki 5.3 je prikazan nomogram z izbranima vrednostima atributov sex=male
47 5.1 Širjenje okolice 35 Slika 5.2: Razdalja med primeri z različnimi vrednostmi atributa sex in status=first. Najbližja vrednost na sliki 5.3 je sex=female z razdaljo 9,93. Slika 5.3: Razdalja med primeri z različnimi vrednostmi atributa age Z izbirnimi nomogrami lahko tako določimo, kateri primeri imajo najbolj podoben vpliv na končni razred. Za najbolj podobne našemu primeru se izkažejo primeri, ki se od našega razlikujejo le po atributu status. Natančneje tisti primeri, ki imajo vrednost atributa status enako crew, v vrednostih ostalih atributov pa se ujemajo z našim primerom. Okolico torej razširimo tako da vanjo dodamo te primere. Sedaj moramo paziti pri nadaljnjem širjenju. Upoštevati moramo, da smo že dodali primere z vrednostjo atributa status enako crew. Med kandidate za širitev poleg tistih, ki se od našega primera razlikujejo po enem atributu, dodamo še primere, ki imajo vrednost atributa status enako crew in se od našega primera razlikujejo še po vrednosti nekega drugega atributa. Razdalja se izračuna kot vsota razdalj na nomogramskih oseh med vrednostmi atributov našega primera in vrednostmi kandidata za širitev. Nomogram v takem primeru je prikazan na sliki 5.4. S takim postopkom omogočimo, da se okolica prej razširi s primeri, ki se od obravnavanega primera razlikujejo v vrednosti večih atributov, če so te primeri bolj podobni obravnavanemu primeru kot ostali primeri. Skupna razdalja na nomogramu 5.4 je 1,79. To nam pove, da so primeri z vrednostmi atributov status=crew, age=child, sex=male bližje našemu primeru kot primeri, ki se od našega razlikujejo le po vrednosti enega atributa. Tako
48 36 Poglavje 5: Klasifikacija s pomočjo izbirnih nomogramov Slika 5.4: Razdalja med primeri z vrednostjo različnimi vrednostmi atributa age in status postopamo in dodajamo primere v okolico, dokler ne dosežemo zadostnega števila primerov. Na tako dobljeni okolici lahko nato izvajamo poljubne operacije. 5.2 Implementacija klasifikatorja Zgoraj opisan način širjenja okolice privede do ideje o uporabnosti postopka pri klasifikaciji. Če naj bi bilo zgoraj opisano širjenje okolice boljše od širjenja s pomočjo Hammingove razdalje, bi ga lahko uporabili pri klasifikaciji podobni algoritmu knn. Ta temelji ravno na lokalni klasifikaciji. Bližnje primere uteži glede na njihovo oddaljenost in nato uteženo upošteva vrednosti njihovih razredov pri klasifikaciji. V diskretnih domenah to počne s Hammingovo razdaljo. V tem razdelku bomo predstavili klasifikator, ki za iskanje okolice uporablja postopek opisan v prejšnjem razdelku Opis algoritma Vhod: primer p, št. primerov v okolici numex Izhod: razred primera p Za vsako vrednost razreda naredimo sledeče: določimo obravnavano vrednost razreda za ciljno razširimo okolico primera p do numex primerov utežimo primere v okolici uporabimo uteženo vsoto za določitev verjetnosti ciljnega razreda
49 5.3 Rezultati 37 Nato kot razred vrnemo tisto vrednost razreda, ki ima največjo verjetnost. Uteževal sem glede na razdalje, izračunane enako kot v postopku širjenja okolice. Uteževal sem po formuli e t2 /s 2 (5.1) kjer je t razdalja od začetenga primera, vrednost s je določena tako, da ima najbolj oddaljen primer utež 0, Rezultati Algoritem smo implementirali v okolju Orange. Za testiranje klasifikatorja smo uporabljali 10-kratno prečno preverjanje. Primerjali smo ga z Bayesovim klasifikatorjem in klasifikatorjem knn. Pri algoritmu knn in algoritmu, ki ga obravnavamo v tem diplomskem delu je bilo uporabljeno enako število sosedov. S tem smo omogočili primerjanje kakovosti okolic posameznega algoritma. V tabeli 5.1 so podani rezultati testiranja klasifikatorjev. naš klasifikator naivni Bayes knn titanic 76.69% 77.83% 78.87% zoo 87.12% 96.18% 91.18% breast-cancer 63.33% 72.32% 74.83% UM % 70.00% 73.33% UM % 64.6% 69% Tabela 5.1: Rezultati prečnega preverjanja klasifikatorjev Klasifikatorje smo testirali na domenah TITANIC, BREAST-CANCER, ZOO, umetni domeni UM1 s 50 primeri ter umetni domeni UM1 s 1000 primeri. Klasifikator se v praksi ni izkazal. Boljši je le od naivnega Bayesa na umetni domeni UM1 s 1000 primeri. Želeli bi si, da je boljši od metode knn, saj bi to nakazovalo na kvalitetnejše iskanje okolice. Metodi knn se približa le na umetni domeni UM1 s 1000 primeri. Po natančni analizi algoritma in analizi okolic, ki jih le-ta zgradi in uporablja pri klasifikaciji, smo odkrili vzrok slabe klasifikacije. Težava je v širjenju okolice. V praksi pride do težav, ko je prostor redek. Torej ko je atributov veliko, primerov pa relativno malo, glede na število možnih kombinacij vrednosti atributov. V domeni Titanic imamo 2201 primer in le 16 možnih kombinacij vrednosti atributov (če ne upoštevamo razreda sicer jih je 32). Veliko primerov
Univerza v Mariboru Fakulteta za naravoslovje in matematiko Oddelek za matematiko in računalništvo Enopredmetna matematika IZPIT IZ VERJETNOSTI IN STA
Enopredmetna matematika IN STATISTIKE Maribor, 31. 01. 2012 1. Na voljo imamo kovanca tipa K 1 in K 2, katerih verjetnost, da pade grb, je p 1 in p 2. (a) Istočasno vržemo oba kovanca. Verjetnost, da je
Prikaži večOSNOVE UMETNE INTELIGENCE
OSNOVE UMETNE INTELIGENCE 2017/18 regresijska drevesa ocenjevanje učenja linearni modeli k-nn Zoran Bosnić del gradiva povzet po: Bratko: Prolog programming for AI, Pearson (2011) in Russell, Norvig: AI:
Prikaži večKazalo 1 DVOMESTNE RELACIJE Operacije z dvomestnimi relacijami Predstavitev relacij
Kazalo 1 DVOMESTNE RELACIJE 1 1.1 Operacije z dvomestnimi relacijami...................... 2 1.2 Predstavitev relacij............................... 3 1.3 Lastnosti relacij na dani množici (R X X)................
Prikaži večIme in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost Pisni izpit 5. februar 2018 Navodila Pazljivo preberite
Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost Pisni izpit 5 februar 018 Navodila Pazljivo preberite besedilo naloge, preden se lotite reševanja Nalog je
Prikaži večRAM stroj Nataša Naglič 4. junij RAM RAM - random access machine Bralno pisalni, eno akumulatorski računalnik. Sestavljajo ga bralni in pisalni
RAM stroj Nataša Naglič 4. junij 2009 1 RAM RAM - random access machine Bralno pisalni, eno akumulatorski računalnik. Sestavljajo ga bralni in pisalni trak, pomnilnik ter program. Bralni trak- zaporedje
Prikaži večUniverza v Ljubljani Fakulteta za računalništvo in informatiko David Možina Argumentirano strojno učenje z uporabo logistične regresije MAGISTRSKO DEL
Univerza v Ljubljani Fakulteta za računalništvo in informatiko David Možina Argumentirano strojno učenje z uporabo logistične regresije MAGISTRSKO DELO MAGISTRSKI PROGRAM DRUGE STOPNJE RAČUNALNIŠTVO IN
Prikaži večOsnove matematicne analize 2018/19
Osnove matematične analize 2018/19 Neža Mramor Kosta Fakulteta za računalništvo in informatiko Univerza v Ljubljani Funkcija je predpis, ki vsakemu elementu x iz definicijskega območja D f R priredi natanko
Prikaži večglava.dvi
Lastnosti verjetnosti 1. Za dogodka A in B velja: P(A B) = P(A) + P(B) P(A B) 2. Za dogodke A, B in C velja: P(A B C) = P(A) + P(B) + P(C) P(A B) P(A C) P(B C) + P(A B C) Kako lahko to pravilo posplošimo
Prikaži več7. VAJA A. ENAČBA ZBIRALNE LEČE
7. VAJA A. ENAČBA ZBIRALNE LEČE 1. UVOD Enačbo leče dobimo navadno s pomočjo geometrijskih konstrukcij. V našem primeru bomo do te enačbe prišli eksperimentalno, z merjenjem razdalj a in b. 2. NALOGA Izračunaj
Prikaži večDN5(Kor).dvi
Koreni Število x, ki reši enačbo x n = a, imenujemo n-ti koren števila a in to označimo z n a. Pri tem je n naravno število, a pa poljubno realno število. x = n a x n = a. ( n a ) n = a. ( n a ) m = n
Prikaži večresitve.dvi
FAKULTETA ZA STROJNISTVO Matematika Pisni izpit. junij 22 Ime in priimek Vpisna st Navodila Pazljivo preberite besedilo naloge, preden se lotite resevanja. Veljale bodo samo resitve na papirju, kjer so
Prikaži večPodatkovni model ER
Podatkovni model Entiteta- Razmerje Iztok Savnik, FAMNIT 2018/19 Pregled: Načrtovanje podatkovnih baz Konceptualno načtrovanje: (ER Model) Kaj so entite in razmerja v aplikacijskem okolju? Katere podatke
Prikaži večIme in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 6. julij 2018 Navodila Pazljivo preberite be
Ime in priimek: Vpisna št: FAKULEA ZA MAEMAIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 6 julij 2018 Navodila Pazljivo preberite besedilo naloge, preden se lotite reševanja Za pozitiven rezultat
Prikaži večINFORMATOR BIROKRAT 1/2011
ta Veleprodaja Maloprodaja Storitve Računovodstvo Proizvodnja Gostinstvo Turizem Hotelirstvo Ticketing CRM Internetna trgovina Izdelava internetnih strani Grafično oblikovanje NOVOSTI IN NASVETI ZA DELO
Prikaži večIme in priimek
Polje v osi tokovne zanke Seminar pri predmetu Osnove Elektrotehnike II, VSŠ (Uporaba programskih orodij v elektrotehniki) Ime Priimek, vpisna številka, skupina Ljubljana,.. Kratka navodila: Seminar mora
Prikaži večOsnove statistike v fizični geografiji 2
Osnove statistike v geografiji - Metodologija geografskega raziskovanja - dr. Gregor Kovačič, doc. Bivariantna analiza Lastnosti so med sabo odvisne (vzročnoposledično povezane), kadar ena lastnost (spremenljivka
Prikaži večpredstavitev fakultete za matematiko 2017 A
ZAKAJ ŠTUDIJ MATEMATIKE? Ker vam je všeč in vam gre dobro od rok! lepa, eksaktna veda, ki ne zastara matematičnoanalitično sklepanje je uporabno povsod matematiki so zaposljivi ZAKAJ V LJUBLJANI? najdaljša
Prikaži večVrste
Matematika 1 17. - 24. november 2009 Funkcija, ki ni algebraična, se imenuje transcendentna funkcija. Podrobneje si bomo ogledali naslednje transcendentne funkcije: eksponentno, logaritemsko, kotne, ciklometrične,
Prikaži večDatum in kraj
Ljubljana, 5. 4. 2017 Katalog znanj in vzorci nalog za izbirni izpit za vpis na magistrski študij Pedagoško računalništvo in informatika 2017/2018 0 KATALOG ZNANJ ZA IZBIRNI IZPIT ZA VPIS NA MAGISTRSKI
Prikaži večPoročilo za 1. del seminarske naloge- igrica Kača Opis igrice Kača (Snake) je klasična igrica, pogosto prednaložena na malce starejših mobilnih telefo
Poročilo za 1. del seminarske naloge- igrica Kača Opis igrice Kača (Snake) je klasična igrica, pogosto prednaložena na malce starejših mobilnih telefonih. Obstaja precej različic, sam pa sem sestavil meni
Prikaži večIme in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 31. avgust 2018 Navodila Pazljivo preberite
Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 31 avgust 018 Navodila Pazljivo preberite besedilo naloge, preden se lotite reševanja Za pozitiven
Prikaži večMladi za napredek Maribora srečanje DOLŽINA»SPIRALE«Matematika Raziskovalna naloga Februar 2015
Mladi za napredek Maribora 015 3. srečanje DOLŽINA»SPIRALE«Matematika Raziskovalna naloga Februar 015 Kazalo 1. Povzetek...3. Uvod...4 3. Spirala 1...5 4. Spirala...6 5. Spirala 3...8 6. Pitagorejsko drevo...10
Prikaži večLABORATORIJSKE VAJE IZ FIZIKE
UVOD LABORATORIJSKE VAJE IZ FIZIKE V tem šolskem letu ste se odločili za fiziko kot izbirni predmet. Laboratorijske vaje boste opravljali med poukom od začetka oktobra do konca aprila. Zunanji kandidati
Prikaži večUrejevalna razdalja Avtorji: Nino Cajnkar, Gregor Kikelj Mentorica: Anja Petković 1 Motivacija Tajnica v posadki MARS - a je pridna delavka, ampak se
Urejevalna razdalja Avtorji: Nino Cajnkar, Gregor Kikelj Mentorica: Anja Petković 1 Motivacija Tajnica v posadki MARS - a je pridna delavka, ampak se velikokrat zmoti. Na srečo piše v programu Microsoft
Prikaži več1 Diskretni naklju ni vektorji 1 1 Diskretni naklju ni vektorji 1. Dopolni tabelo tako, da bosta X in Y neodvisni. X Y x x x x x
1 Diskretni naklju ni vektorji 1 1 Diskretni naklju ni vektorji 1. Dopolni tabelo tako, da bosta X in Y neodvisni. X Y 0 1 2 1 1-1 x x 20 10 1 0 x x x 10 1 1 x x x 20 x x x 1 Dolo i ²e spremenljivko Z,
Prikaži več11. Navadne diferencialne enačbe Začetni problem prvega reda Iščemo funkcijo y(x), ki zadošča diferencialni enačbi y = f(x, y) in začetnemu pogo
11. Navadne diferencialne enačbe 11.1. Začetni problem prvega reda Iščemo funkcijo y(x), ki zadošča diferencialni enačbi y = f(x, y) in začetnemu pogoju y(x 0 ) = y 0, kjer je f dana dovolj gladka funkcija
Prikaži večMatematika Diferencialne enačbe prvega reda (1) Reši diferencialne enačbe z ločljivimi spremenljivkami: (a) y = 2xy, (b) y tg x = y, (c) y = 2x(1 + y
Matematika Diferencialne enačbe prvega reda (1) Reši diferencialne enačbe z ločljivimi spremenljivkami: (a) y = 2xy, (b) y tg x = y, (c) y = 2x(1 + y 2 ). Rešitev: Diferencialna enačba ima ločljive spremenljivke,
Prikaži večMicrosoft Word - UP_Lekcija04_2014.docx
4. Zanka while Zanke pri programiranju uporabljamo, kadar moramo stavek ali skupino stavkov izvršiti večkrat zaporedoma. Namesto, da iste (ali podobne) stavke pišemo n-krat, jih napišemo samo enkrat in
Prikaži večEKVITABILNE PARTICIJE IN TOEPLITZOVE MATRIKE Aleksandar Jurišić Politehnika Nova Gorica in IMFM Vipavska 13, p.p. 301, Nova Gorica Slovenija Štefko Mi
EKVITABILNE PARTICIJE IN TOEPLITZOVE MATRIKE Aleksandar Jurišić Politehnika Nova Gorica in IMFM Vipavska 13, p.p. 301, Nova Gorica Slovenija Štefko Miklavič 30. okt. 2003 Math. Subj. Class. (2000): 05E{20,
Prikaži več3. Metode, ki temeljijo na minimalnem ostanku Denimo, da smo z Arnoldijevim algoritmom zgenerirali ON bazo podprostora Krilova K k (A, r 0 ) in velja
3. Metode, ki temeljijo na minimalnem ostanku Denimo, da smo z Arnoldijevim algoritmom zgenerirali ON bazo podprostora Krilova K k (A, r 0 ) in velja AV k = V k H k + h k+1,k v k+1 e T k = V kh k+1,k.
Prikaži večOptimizacija z roji delcev - Seminarska naloga pri predmetu Izbrana poglavja iz optimizacije
Univerza v Ljubljani Fakulteta za matematiko in fiziko Seminarska naloga pri predmetu Izbrana poglavja iz optimizacije 2. junij 2011 Koncept PSO Motivacija: vedenje organizmov v naravi Ideja: koordinirano
Prikaži večMicrosoft Word - SI_vaja1.doc
Univerza v Ljubljani, Zdravstvena fakulteta Sanitarno inženirstvo Statistika Inštitut za biostatistiko in medicinsko informatiko Š.l. 2011/2012, 3. letnik (1. stopnja), Vaja 1 Naloge 1. del: Opisna statistika
Prikaži večIskanje in razvršcanje spletnih trgovin
Univerza v Ljubljani Fakulteta za računalništvo in informatiko Aron Birsa Iskanje in razvrščanje spletnih trgovin DIPLOMSKO DELO VISOKOŠOLSKI STROKOVNI ŠTUDIJSKI PROGRAM PRVE STOPNJE RAČUNALNIŠTVO IN INFORMATIKA
Prikaži več6.1 Uvod 6 Igra Chomp Marko Repše, Chomp je nepristranska igra dveh igralcev s popolno informacijo na dvo (ali vec) dimenzionalnem prostoru
6.1 Uvod 6 Igra Chomp Marko Repše, 30.03.2009 Chomp je nepristranska igra dveh igralcev s popolno informacijo na dvo (ali vec) dimenzionalnem prostoru in na končni ali neskončni čokoladi. Igralca si izmenjujeta
Prikaži večPoglavje 3 Reševanje nelinearnih enačb Na iskanje rešitve enačbe oblike f(x) = 0 (3.1) zelo pogosto naletimo pri reševanju tehničnih problemov. Pri te
Poglavje 3 Reševanje nelinearnih enačb Na iskanje rešitve enačbe oblike f(x) = 0 (3.1) zelo pogosto naletimo pri reševanju tehničnih problemov. Pri tem je lahko nelinearna funkcija f podana eksplicitno,
Prikaži večOsnove verjetnosti in statistika
Osnove verjetnosti in statistika Gašper Fijavž Fakulteta za računalništvo in informatiko Univerza v Ljubljani Ljubljana, 26. februar 2010 Poskus in dogodek Kaj je poskus? Vržemo kovanec. Petkrat vržemo
Prikaži večMicrosoft Word - 021_01_13_Pravilnik_o_zakljucnem delu
Na podlagi 64. člena Pravil o organizaciji in delovanju Fakultete za humanistične študije, št. 011-01/13 z dne 27. 6. 2013, je Senat Univerze na Primorskem Fakultete za humanistične študije na svoji 4.
Prikaži večMicrosoft Word - A-3-Dezelak-SLO.doc
20. posvetovanje "KOMUNALNA ENERGETIKA / POWER ENGINEERING", Maribor, 2011 1 ANALIZA OBRATOVANJA HIDROELEKTRARNE S ŠKOLJČNIM DIAGRAMOM Klemen DEŽELAK POVZETEK V prispevku je predstavljena možnost izvedbe
Prikaži večAKCIJSKO RAZISKOVANJE INOVACIJSKI PROJEKT ZA ZNANJE IN SPOŠTOVANJE Udeleženci: Učenci 2. c Razredničarka: Irena Železnik, prof. Učni predmet: MAT Učna
AKCIJSKO RAZISKOVANJE INOVACIJSKI PROJEKT ZA ZNANJE IN SPOŠTOVANJE Udeleženci: Učenci 2. c Razredničarka: Irena Železnik, prof. Učni predmet: MAT Učna vsebina: Ustno seštevanje in odštevanje do 20 sprehodom
Prikaži večGHOSTBUSTERS navodila za učitelje O PROJEKTU S tem projektom se učenci sami naučijo izdelati igro. Ustvariti morajo več ikon (duhcov ali kaj drugega)
GHOSTBUSTERS navodila za učitelje O PROJEKTU S tem projektom se učenci sami naučijo izdelati igro. Ustvariti morajo več ikon (duhcov ali kaj drugega) in za vsako napisati svojo kodo. Dve ikoni imata isto
Prikaži večUNIVERZA V LJUBLJANI FAKULTETA ZA MATEMATIKO IN FIZIKO Katja Ciglar Analiza občutljivosti v Excel-u Seminarska naloga pri predmetu Optimizacija v fina
UNIVERZA V LJUBLJANI FAKULTETA ZA MATEMATIKO IN FIZIKO Katja Ciglar Analiza občutljivosti v Excel-u Seminarska naloga pri predmetu Optimizacija v financah Ljubljana, 2010 1. Klasični pristop k analizi
Prikaži večUniverza v Ljubljani FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO Tržaška c. 25, 1000 Ljubljana Realizacija n-bitnega polnega seštevalnika z uporabo kvan
Univerza v Ljubljani FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO Tržaška c. 25, 1000 Ljubljana Realizacija n-bitnega polnega seštevalnika z uporabo kvantnih celičnih avtomatov SEMINARSKA NALOGA Univerzitetna
Prikaži večBrownova kovariancna razdalja
Brownova kovariančna razdalja Nace Čebulj Fakulteta za matematiko in fiziko 8. januar 2015 Nova mera odvisnosti Motivacija in definicija S primerno izbiro funkcije uteži w(t, s) lahko definiramo mero odvisnosti
Prikaži večTuringov stroj in programiranje Barbara Strniša Opis in definicija Definirajmo nekaj oznak: Σ abeceda... končna neprazna množica simbolo
Turingov stroj in programiranje Barbara Strniša 12. 4. 2010 1 Opis in definicija Definirajmo nekaj oznak: Σ abeceda... končna neprazna množica simbolov (običajno Σ 2) Σ n = {s 1 s 2... s n ; s i Σ, i =
Prikaži večFGG13
10.8 Metoda zveznega nadaljevanja To je metoda za reševanje nelinearne enačbe f(x) = 0. Če je težko poiskati začetni približek (še posebno pri nelinearnih sistemih), si lahko pomagamo z uvedbo dodatnega
Prikaži večUniverza na Primorskem FAMNIT, MFI Vrednotenje zavarovalnih produktov Seminarska naloga Naloge so sestavni del preverjanja znanja pri predmetu Vrednot
Univerza na Primorskem FAMNIT, MFI Vrednotenje zavarovalnih produktov Seminarska naloga Naloge so sestavni del preverjanja znanja pri predmetu Vrednotenje zavarovalnih produktov. Vsaka naloga je vredna
Prikaži večMrežni modeli polimernih verig Boštjan Jenčič 22. maj 2013 Eden preprostejših opisov polimerne verige je mrežni model, kjer lahko posamezni segmenti p
Mrežni modeli polimernih verig Boštjan Jenčič. maj 013 Eden preprostejših opisov polimerne verige je mrežni model, kjer lahko posameni segmenti polimera asedejo golj ogljišča v kvadratni (ali kubični v
Prikaži več4. tema pri predmetu Računalniška orodja v fiziki Ljubljana, Grafi II Jure Senčar
4. tema pri predmetu Računalniška orodja v fiziki Ljubljana, 6.4.29 Grafi II Jure Senčar Relativna sila krčenja - F/Fmax [%]. Naloga Nalogo sem delal v Excelu. Ta ima vgrajeno funkcijo, ki nam vrne logaritemsko
Prikaži večMERJENJE GORIŠČNE RAZDALJE LEČE
MERJENJE GORIŠČNE RAZDALJE LEČE 1. UVOD: V tej vaji je bilo potrebno narediti pet nalog, povezanih z lečami. 2. NALOGA: -Na priloženih listih POTREBŠČINE: -Na priloženih listih A. Enačba zbiralne leče
Prikaži večMicrosoft PowerPoint _12_15-11_predavanje(1_00)-IR-pdf
uporaba for zanke i iz korak > 0 oblika zanke: for i iz : korak : ik NE i ik DA stavek1 stavek2 stavekn stavek1 stavek2 stavekn end i i + korak I&: P-XI/1/17 uporaba for zanke i iz korak < 0 oblika zanke:
Prikaži večELEKTRIČNI NIHAJNI KROG TEORIJA Električni nihajni krog je električno vezje, ki služi za generacijo visokofrekvenče izmenične napetosti. V osnovi je "
ELEKTRIČNI NIHAJNI KROG TEORIJA Električni nihajni krog je električno vezje, ki služi za generacijo visokofrekvenče izmenične napetosti. V osnovi je "električno" nihalo, sestavljeno iz vzporedne vezave
Prikaži večMicrosoft PowerPoint - Lapajne&Randl2015.pptx
RAZISKAVA OB PREDVIDENI SELITVI KNJIŽNIC OHK Raziskava je potekala v okviru predmetov Raziskovalne metode in Uporabniki informacijskih virov in storitev pod mentorstvom treh profesorjev (dr. Pisanski,
Prikaži večOrodje za izvoz podatkov
Pomoč uporabnikom -NA-SI-200, V6.13-00 IZUM, 2018 COBISS, COMARC, COBIB, COLIB, IZUM so zaščitene znamke v lasti javnega zavoda IZUM. KAZALO VSEBINE 1 Uvod... 1 2 Predstavitev orodja za izvoz podatkov...
Prikaži večUčinkovita izvedba algoritma Goldberg-Tarjan Teja Peklaj 26. februar Definicije Definicija 1 Naj bo (G, u, s, t) omrežje, f : E(G) R, za katero v
Učinkovita izvedba algoritma Goldberg-Tarjan Teja Peklaj 26. februar 2009 1 Definicije Definicija 1 Naj bo (G, u, s, t) omrežje, f : E(G) R, za katero velja 0 f(e) u(e) za e E(G). Za v V (G) definiramo presežek
Prikaži večGOALS
BELGIAN DEFENCE FORCES General Directorate Material Resources Section Ammunition Risk Management HQ Queen ELISABETH Rue d'evere, 1 1140 BRUSSELS BELGIUM (BE)AC326(SG5) IWP 2012-01(I) 26. marec 2012 ORODJE
Prikaži večNapovedovanje custvene naravnanosti avtorjev v spletnih komentarjih
Univerza v Ljubljani Fakulteta za računalništvo in informatiko Urška Kosec Napovedovanje čustvene naravnanosti avtorjev v spletnih komentarjih DIPLOMSKO DELO UNIVERZITETNI ŠTUDIJSKI PROGRAM RAČUNALNIŠTVO
Prikaži večINFORMATOR BIROKRAT 1/2011
ta Veleprodaja Maloprodaja Storitve Računovodstvo Proizvodnja Gostinstvo Turizem Hotelirstvo Ticketing CRM Internetna trgovina Izdelava internetnih strani Grafično oblikovanje NOVOSTI IN NASVETI ZA DELO
Prikaži več(Microsoft Word - U\350enje telegrafije po Kochovi metodi.doc)
MORSE UČENJE PO KOCHOVI METODI Računalniški program za učenje skupaj z nekaterimi dodatnimi datotekami dobite na spletni strani avtorja: http://www.g4fon.net/. Zanimive strani so tudi: - http://www.qsl.net/n1irz/finley.morse.html
Prikaži večMicrosoft Word - M docx
Š i f r a k a n d i d a t a : Državni izpitni center *M15245112* JESENSKI IZPITNI ROK Izpitna pola 2 / 90 minut Dovoljeno gradivo in pripomočki: Kandidat prinese nalivno pero ali kemični svinčnik in računalo.
Prikaži večDelavnica Načrtovanje digitalnih vezij
Laboratorij za načrtovanje integriranih vezij Univerza v Ljubljani Fakulteta za elektrotehniko Digitalni Elektronski Sistemi Osnove jezika VHDL Strukturno načrtovanje in testiranje Struktura vezja s komponentami
Prikaži večMere kompleksnih mrež (angl. Network Statistics) - Seminarska naloga pri predmetu Izbrana poglavja iz diskretne matematike
Mere kompleksnih mrež (angl. Network Statistics) Seminarska naloga pri predmetu Izbrana poglavja iz diskretne matematike Ajda Pirnat, Julia Cafnik in Živa Mitar Fakulteta za matematiko in fiziko April
Prikaži večC:/Users/Matevž Èrepnjak/Dropbox/FKKT/TESTI-IZPITI-REZULTATI/ /Izpiti/FKKT-avgust-17.dvi
Vpisna številka Priimek, ime Smer: K KT WA Izpit pri predmetu MATEMATIKA I Računski del Ugasni in odstrani mobilni telefon. Uporaba knjig in zapiskov ni dovoljena. Dovoljeni pripomočki so: kemični svinčnik,
Prikaži večReliability estimation of individual predictions
Ocenjevanje zanesljivosti posameznih napovedi pri nadzorovanem učenju Darko Pevec DOKTORSKA DISERTACIJA PREDANA FAKULTETI ZA RAčUNALNIšTVO IN INFORMATIKO KOT DEL IZPOLNJEVANJA POGOJEV ZA PRIDOBITEV NAZIVA
Prikaži večNAJRAJE SE DRUŽIM S SVIČNIKOM, SAJ LAHKO VADIM ČRTE IN KRIVULJE, PA VELIKE TISKANE ČRKE IN ŠTEVILKE DO 20. Preizkusite znanje vaših otrok in natisnite
NAJRAJE SE DRUŽIM S SVIČNIKOM, SAJ LAHKO VADIM ČRTE IN KRIVULJE, PA VELIKE TISKANE ČRKE IN ŠTEVILKE DO 20. Preizkusite znanje vaših otrok in natisnite vzorčne strani iz DELOVNIH LISTOV 1 v štirih delih
Prikaži večMODEL PRIMERNOSTI OBMOČIJ ZA POVEZOVANJE
MODEL PRIMERNOSTI OBMOČIJ ZA POVEZOVANJE doc. dr. Špela Pezdevšek Malovrh prof. dr. Lidija Zadnik Stirn prof. dr. Janez Krč VSEBINA Raziskovalni problem UVOD GOSPODARJENJE V ZASEBNIH GOZDOVIH Ni optimalno
Prikaži večN
Državni izpitni center *N19141132* 9. razred FIZIKA Ponedeljek, 13. maj 2019 NAVODILA ZA VREDNOTENJE NACIONALNO PREVERJANJE ZNANJA v 9. razredu Državni izpitni center Vse pravice pridržane. 2 N191-411-3-2
Prikaži večBYOB Žogica v vesolju Besedilo naloge Glavna ideja igre je paziti, da žoga ne pade na tla igralne površine, pri tem pa zbrati čim več točk. Podobno ig
BYOB Žogica v vesolju Besedilo naloge Glavna ideja igre je paziti, da žoga ne pade na tla igralne površe, pri tem pa zbrati čim več točk. Podobno igro najdemo tudi v knjigi Scratch (Lajovic, 2011), vendar
Prikaži večresitve.dvi
FAKULTETA ZA STROJNIŠTVO Matematika 4 Pisni izpit 3. februar Ime in priimek: Vpisna št: Navodila Pazljivo preberite besedilo naloge, preden se lotite reševanja. Veljale bodo samo rešitve na papirju, kjer
Prikaži večMicrosoft Word - ELEKTROTEHNIKA2_ junij 2013_pola1 in 2
Šifra kandidata: Srednja elektro šola in tehniška gimnazija ELEKTROTEHNIKA PISNA IZPITNA POLA 1 12. junij 2013 Čas pisanja 40 minut Dovoljeno dodatno gradivo in pripomočki: Kandidat prinese nalivno pero
Prikaži večStrojna oprema
Asistenta: Mira Trebar, Miha Moškon UIKTNT 2 Uvod v programiranje Začeti moramo razmišljati algoritmično sestaviti recept = napisati algoritem Algoritem za uporabo poljubnega okenskega programa. UIKTNT
Prikaži večMicrosoft Word - Astronomija-Projekt19fin
Univerza v Ljubljani Fakulteta za matematiko in fiziko Jure Hribar, Rok Capuder Radialna odvisnost površinske svetlosti za eliptične galaksije Projektna naloga pri predmetu astronomija Ljubljana, april
Prikaži večFGG14
Iterativne metode podprostorov Iterativne metode podprostorov uporabljamo za numerično reševanje linearnih sistemov ali računanje lastnih vrednosti problemov z velikimi razpršenimi matrikami, ki so prevelike,
Prikaži večANALITIČNA GEOMETRIJA V RAVNINI
3. Analitična geometrija v ravnini Osnovna ideja analitične geometrije je v tem, da vaskemu geometrijskemu objektu (točki, premici,...) pridružimo števila oz koordinate, ki ta objekt popolnoma popisujejo.
Prikaži večRAČUNALNIŠKA ORODJA V MATEMATIKI
DEFINICIJA V PARAVOKOTNEM TRIKOTNIKU DEFINICIJA NA ENOTSKI KROŢNICI GRAFI IN LASTNOSTI SINUSA IN KOSINUSA POMEMBNEJŠE FORMULE Oznake: sinus kota x označujemo z oznako sin x, kosinus kota x označujemo z
Prikaži večSTAVKI _5_
5. Stavki (Teoremi) Vsebina: Stavek superpozicije, stavek Thévenina in Nortona, maksimalna moč na bremenu (drugič), stavek Tellegena. 1. Stavek superpozicije Ta stavek določa, da lahko poljubno vezje sestavljeno
Prikaži večRačunalniški praktikum Projektna naloga - Izdelava spletne strani Avtor: Matej Tekavčič Skupina: Matej Tekavčič - koordinator Simon Vrhovnik Tine Kavč
Računalniški praktikum Projektna naloga - Izdelava spletne strani Avtor: Matej Tekavčič Skupina: Matej Tekavčič - koordinator Simon Vrhovnik Tine Kavčič Matjaž Jerman 8. februar 2006 Kazalo 1 Uvod 2 2
Prikaži večPoskusi s kondenzatorji
Poskusi s kondenzatorji Samo Lasič, Fakulteta za Matematiko in Fiziko, Oddelek za fiziko, Ljubljana Povzetek Opisani so nekateri poskusi s kondenzatorji, ki smo jih izvedli z merilnim vmesnikom LabPro.
Prikaži večSlide 1
Vsak vektor na premici skozi izhodišče lahko zapišemo kot kjer je v smerni vektor premice in a poljubno število. r a v Vsak vektor na ravnini skozi izhodišče lahko zapišemo kot kjer sta v, v vektorja na
Prikaži več4.Racionalna števila Ulomek je zapis oblike. Sestavljen je iz števila a (a ), ki ga imenujemo števec, in iz števila b (b, b 0), ki ga imenujemo imenov
4.Racionalna števila Ulomek je zapis oblike. Sestavljen je iz števila a (a ), ki ga imenujemo števec, in iz števila b (b, b 0), ki ga imenujemo imenovalec, ter iz ulomkove črte. Racionalna števila so števila,
Prikaži večSlide 1
INTERAKTIVNA MULTIMEDIJA P4 in P5 doc. dr. Matej Zajc Pregled P4 Pregled P3: 4 pristopi k načrtovanju interaktivnosti PACT P4: PACT Nadaljevanje Prototipiranje Izbrani zakoni interaktivnosti People Ljudje
Prikaži večPoslovilno predavanje
Poslovilno predavanje Matematične teme z didaktiko Marko Razpet, Pedagoška fakulteta Ljubljana, 20. november 2014 1 / 32 Naše skupne ure Matematične tehnologije 2011/12 Funkcije več spremenljivk 2011/12
Prikaži večSpoznajmo PowerPoint 2013
Spoznajmo PowerPoint 2013 13 Nova predstavitev Besedilo v predstavitvi Besedilo, ki se pojavlja v predstavitvah lahko premaknemo kamorkoli v diapozitivu. Kadar izdelamo diapozitiv z že ustvarjenimi okvirji
Prikaži večE-nepremična inženirska zakladnica
Smetanova ulica 17 2000 Maribor, Slovenija E-NEPREMIČNA INŽENIRSKA ZAKLADNICA - TEHNIŠKE FAKULTETE Naročnik: Energetika Maribor d.o.o. Vodja projekta: Daniela Dvornik Perhavec Fakultete za gradbeništvo,
Prikaži večVerjetnost in vzorčenje: teoretske porazdelitve standardne napake ocenjevanje parametrov as. dr. Nino RODE prof. dr. Blaž MESEC
Verjetnost in vzorčenje: teoretske porazdelitve standardne napake ocenjevanje parametrov as. dr. Nino RODE prof. dr. Blaž MESEC VERJETNOST osnovni pojmi Poskus: dejanje pri katerem je izid negotov met
Prikaži večMicrosoft Word - 10-Selekcijski intervju _4.del_.docx
številka 10,27.avg. 2004, ISSN 1581-6451, urednik:radovan Kragelj Pozdravljeni! V prejšnji številki mesečnika smo si ogledali, katera področja moramo vsebinsko obdelati v sklopu delovne zgodovine. V današnji
Prikaži več2
Drsni ležaj Strojni elementi 1 Predloga za vaje Pripravila: doc. dr. Domen Šruga as. dr. Ivan Okorn Ljubljana, 2016 STROJNI ELEMENTI.1. 1 Kazalo 1. Definicija naloge... 3 1.1 Eksperimentalni del vaje...
Prikaži več5 SIMPLICIALNI KOMPLEKSI Definicija 5.1 Vektorji r 0,..., r k v R n so afino neodvisni, če so vektorji r 1 r 0, r 2 r 0,..., r k r 0 linearno neodvisn
5 SIMPLICIALNI KOMPLEKSI Definicija 5.1 Vektorji r 0,..., r k v R n so afino neodvisni, če so vektorji r 1 r 0, r 2 r 0,..., r k r 0 linearno neodvisni. Če so krajevni vektorji do točk a 0,..., a k v R
Prikaži večNEVTRIN d.o.o. Podjetje za razvoj elektronike, Podgorje 42a, 1241 Kamnik, Slovenia Telefon: Faks.: in
NEVTRIN d.o.o. Podjetje za razvoj elektronike, Podgorje 42a, 1241 Kamnik, Slovenia Telefon: +386 1 729 6 460 Faks.: +386 1 729 6 466 www.nevtrin.si info@elektrina.si USB RFID READER Navodila za uporabo?
Prikaži večDNEVNIK
POROČILO PRAKTIČNEGA USPOSABLJANJA Z DELOM PRI DELODAJALCU DIJAKA / DIJAKINJE. ( IME IN PRIIMEK) Izobraževalni program FRIZER.. Letnik:.. oddelek:. PRI DELODAJALCU. (NASLOV DELODAJALCA) Šolsko leto:..
Prikaži večSlide 1
Projektno vodenje PREDAVANJE 7 doc. dr. M. Zajc matej.zajc@fe.uni-lj.si Projektno vodenje z orodjem Excel Predstavitev Najbolj razširjeno orodje za delo s preglednicami Dva sklopa funkcij: Obdelava številk
Prikaži več2019 QA_Final SL
Predhodni prispevki v enotni sklad za reševanje za leto 2019 Vprašanja in odgovori Splošne informacije o metodologiji izračuna 1. Zakaj se je metoda izračuna, ki je za mojo institucijo veljala v prispevnem
Prikaži večNavodila Trgovina iCenter
Napredovanja v plačne razrede javnih uslužbencev 2019 S pomočjo SAOP programa Kadrovska evidenca lahko ob dokupljeni kodi vodimo napredovanja javnih uslužbencev. Za napredovanja v letu 2019 je potrebno
Prikaži večMicrosoft PowerPoint - UN_OM_G03_Marketinsko_raziskovanje
.: 1 od 10 :. Vaja 3: MARKETINŠKO KO RAZISKOVANJE Marketinško ko raziskovanje Kritičen del marketinškega informacijskega sistema. Proces zagotavljanja informacij potrebnih za poslovno odločanje. Relevantne,
Prikaži večVaje: Matrike 1. Ugani rezultat, nato pa dokaži z indukcijo: (a) (b) [ ] n 1 1 ; n N 0 1 n ; n N Pokaži, da je množica x 0 y 0 x
Vaje: Matrike 1 Ugani rezultat, nato pa dokaži z indukcijo: (a) (b) [ ] n 1 1 ; n N n 1 1 0 1 ; n N 0 2 Pokaži, da je množica x 0 y 0 x y x + z ; x, y, z R y x z x vektorski podprostor v prostoru matrik
Prikaži večMicrosoft Word - CelotniPraktikum_2011_verZaTisk.doc
Elektrotehniški praktikum Sila v elektrostatičnem polju Namen vaje Našli bomo podobnost med poljem mirujočih nabojev in poljem mas, ter kakšen vpliv ima relativna vlažnost zraka na hitrost razelektritve
Prikaži večMicrosoft Word - SI_vaja5.doc
Univerza v Ljubljani, Zdravstvena fakulteta Sanitarno inženirstvo Statistika Inštitut za biostatistiko in medicinsko informatiko Š.l. 2011/2012, 3. letnik (1. stopnja), Vaja 5 Naloge 1. del: t test za
Prikaži večPREDMETNI KURIKULUM ZA RAZVOJ METEMATIČNIH KOMPETENC
MATEMATIKA 1.razred OSNOVE PREDMETA POKAZATELJI ZNANJA SPRETNOSTI KOMPETENCE Naravna števila -pozna štiri osnovne računske operacije in njihove lastnosti, -izračuna številske izraze z uporabo štirih računskih
Prikaži večACAD-BAU-Analiza-prostorov
ANALIZA PROSTOROV Ko obdelujemo večje projekte, je analiza prostorov zelo pomembna v vseh fazah projektiranja. Pri idejnem snovanju moramo npr. za določeno površino trgovske namembnosti zagotoviti primerno
Prikaži večAlgoritmicno podprta optimizacija pospeševanja prodaje
Univerza v Ljubljani Fakulteta za računalništvo in informatiko Nikolaj Janko Algoritmično podprta optimizacija pospeševanja prodaje MAGISTRSKO DELO MAGISTRSKI PROGRAM DRUGE STOPNJE RAČUNALNIŠTVO IN INFORMATIKA
Prikaži več