Geografska segmentacija uporabnikov za uporabo v oglaševanju

Velikost: px
Začni prikazovanje s strani:

Download "Geografska segmentacija uporabnikov za uporabo v oglaševanju"

Transkripcija

1 Univerza v Ljubljani Fakulteta za računalništvo in informatiko Blaž Dolenc Geografska segmentacija uporabnikov za uporabo v oglaševanju DIPLOMSKO DELO UNIVERZITETNI ŠTUDIJSKI PROGRAM PRVE STOPNJE RAČUNALNIŠTVO IN INFORMATIKA Mentor: prof. dr. Blaž Zupan Ljubljana 2015

2

3 Diplomsko delo je izdano pod Creative Commons licenco. Podrobnosti licence so dostopne na spletni strani Pripadajoča programska koda je objavljena pod MIT licenco. Podrobnosti licence so dostopne na spletni strani Besedilo je oblikovano z urejevalnikom besedil L A TEX.

4

5 Fakulteta za računalništvo in informatiko izdaja naslednjo nalogo: Tematika naloge: V diplomski nalogi na osnovi podatkov poiščite geografsko smiselne skupine spletnih uporabnikov, za katere so podani podatki o klikih na oglase, lokacije uporabnikov in dodatni demografski parametri, ki opisujejo posamezne lokacije. Skupine potem uporabite v namene napovedovanja, ali bo uporabnik kliknil na izbrani oglas. Metodološke rešitve uporabite in preverite na izzivu podjetja Zemanta s področja geografske segmentacije uporabnikov.

6

7 Izjava o avtorstvu diplomskega dela Spodaj podpisani Blaž Dolenc sem avtor diplomskega dela z naslovom: Geografska segmentacija uporabnikov za uporabo v oglaševanju S svojim podpisom zagotavljam, da: sem diplomsko delo izdelal samostojno pod mentorstvom prof. Blaža Zupana. dr. so elektronska oblika diplomskega dela, naslov (slov., angl.), povzetek (slov., angl.) ter ključne besede (slov., angl.) identični s tiskano obliko diplomskega dela, soglašam z javno objavo elektronske oblike diplomskega dela na svetovnem spletu preko univerzitetnega spletnega arhiva. V Ljubljani, dne 10. septembra 2015 Podpis avtorja:

8

9 Zahvaljujem se mentorju prof. dr. Blažu Zupanu za strokovno pomoč in ideje pri izdelavi diplomske naloge. Zahvala gre tudi podjetju Zemanta za dovoljenje za uporabo podatkov pri diplomskem delu. Posebej se zahvaljujem družini, prijateljem in dekletu za podporo med študijem in pisanjem diplomske naloge.

10

11

12

13 Kazalo Povzetek Abstract 1 Uvod Cilji Opis problema 3 3 Odkrivanje skupin Pregled področja in tehnik iskanja skupin Podatki Uporabljene metode in izvedba Prikaz in interpretacija skupin Rezultati iskanja skupin Napovedovanje Pregled področja in metod napovedovanja Podatki Uporabljene metode in praktična izvedba Rezultati Sklepne ugotovitve 39

14

15 Povzetek V današnjem spletnem oglaševanju ni več edini cilj prikazati oglasa čim večjemu številu potencialnih kupcev, temveč si oglaševalci vse bolj prizadevajo oglas prikazati tistemu, ki ga bo najverjetneje zanimal. Na primer, če poznamo uporabnikovo okvirno lokacijo, lahko na podlagi prejšnjih obiskovalcev napovemo klik oglasa. Potrebo po geografski segmentaciji uporabnikov so zaznali tudi pri podjetju Zemanta, kjer so študentom zastavili izziv, pri katerem je bilo potrebno obiskovalce spletnih strani razdeliti glede na poštno številko iz katere prihajajo, ter to uporabiti kot podlago za napoved klika. Cilj naloge je bilo poiskati čim bolj smiselne skupine uporabnikov, ter jih ustrezno predstaviti, v drugem delu pa zgraditi napovedni model za napovedovanje klika na oglas, ki bo dosegal točnost napovedi AUC okoli 0,75. V nalogi poročamo o naši rešitvi tega problema, ki uporablja vrsto tehnik s področja strojnega učenja. Končna razdelitev uporabnikov, ki jo predlagamo, je obsegala 20 skupin, ki so se med seboj močno razlikovale glede na gostoto poselitve, urbanizacije in ostalih demografskih dejavnikov. Prikaz skupin na zemljevidu je pokazal, da je razdelitev smiselna. Končni AUC na testnih podatkih je znašal 0,79. Ključne besede: Iskanje skupin v podatkih, gručenje, strojno učenje.

16

17 Abstract In modern web advertising the goal is not only deliver an ad to a broad number of customers, but to target particular customers who are more likely to be interested in content. If the user location is known, we can estimate click on ad based on previous visitors. The company Zemanta recognized the need for geographic audience segmentation, and they have invited students to solve their challenge. The goal was geographic segmentation of web pages visitors based on the ZIP code they come from and development of a prediction model, which can estimate the probability of click on the ad, with accuracy (AUC score) around 0,75. In this dissertation, we describe our the solution to the challenge. Our user segmentation identified 20 groups. There were large differences between them considering population density, urbanization and other demographic indicators. Plotting results on map revealed, that segmentation is meaningful. Our final AUC score on test data was 0,79. Keywords: Clustering, Data mining, Machine learning.

18

19 Poglavje 1 Uvod Področje strojnega učenja in odkrivanja znanja v podatkih oziroma podatkovnega rudarjenja se v zadnjih letih bliskovito razvija [2]. Na to vpliva več dejavnikov, najpomembnejši pa je potreba podjetij po boljšem poznavanju svojih kupcev in doseganju konkurenčnih prednosti, ki jih uporaba teh tehnik omogoča [12]. Obdelava in uporaba podatkov je še posebej vse prisotna na spletu. Večini spletnih strani in družabnih omrežij je (vsaj delni) vir prihodka prikaz oglasov, poleg prikaza pa je zelo pomemben tudi odziv uporabnika, torej klik na oglas. Oglaševalci si želijo optimizirati stroške prikaza oglasa, in ga ponuditi le tistim, za katerega verjamejo, da jih oglas utegne zanimati. Posledično so se razvile številne oglaševalske platforme 1, katerih cilj je prav to - optimizirati prikaz oglasov in vsebin pravim uporabnikom. Osnova za diplomsko delo je programerski izziv podjetja Zemanta 2, ki se ukvarja z razvojem platforme za dostavo oglasnih vsebin. Pri tem se močno zanašajo na strojno učenje in podatkovno rudarjenje. Da je dostava vsebin čim bolj uspešna je potrebno obiskovalce segmentirati in prepoznati tiste, ki jih bo določen tip vsebin zanimal. Ena izmed možnosti segmentacije je tudi geografska, kjer posamezna področja (na primer države, regije, občine) razdelimo v take skupine, da se v njih nahajajo čim bolj podobni uporabniki

20 2 POGLAVJE 1. UVOD To razdelitev lahko nato uporabimo za napovedovanje obnašanja, če poznamo lokacijo uporabnika in imamo pretekle podatke o obiskih in obnašanju. V diplomskem delu smo iskali skupine, v katere smo združevali poštne številke (območja, ki jih pokrivajo) v ZDA. Država je za potrebe dostave pošte razdeljena na več kot poštnih številk, o vsakem območju, ki ga poštna številka pokriva pa je na voljo veliko podatkov, s pomočjo katerih je bila narejena razdelitev. Po dobljenih skupinah in gradnji napovednega modela smo ga preizkusili na učnih in testnih podatkih, ki so jih pri podjetju Zemanta dobili iz svoje platforme. 1.1 Cilji Cilj naloge je poiskati skupine poštnih številk tako, da se v posamezni skupini nahajajo čim bolj podobni prebivalci. Skupine je potrebno tudi smiselno vizualizirati in dokazati, da so res smiselne. Za iskanje skupin bosta preizkušena algoritma DBScan [13] in hierarhično gručenje 3, ter analiza osnovnih komponent za vizualizacijo [16]. Za iskanje skupin smo uporabili podatke ameriškega statističnega urada Census Bureau 4. Na voljo so natančni demografski in geografski statistični podatki o posamezni poštni številki, pa tudi o podjetjih in ustanovah, ki se nahajajo na določenem območju, ki ga pokriva. Skupine smo želeli prikazati na zemljevidu, pri čemer naj bi bilo možno prikazati posamezno skupino, ali vse skupine na enkrat, označene z različnimi barvami. Za napoved klika smo želeli preizkusiti logistično regresijo 5, naključne gozdove [11], ter združitev večih algoritmov z skladanjem [17]. Pri tem najboljše rezultate pričakujemo pri zadnji metodi, ki združuje prednosti obeh prej omenjenih in tipično dosega najboljše rezultate. Na testnih podatkih želimo doseči površino pod krivuljo ROC [5] okoli 0,

21 Poglavje 2 Opis problema Glavni cilj naloge je napoved klika na oglas, če poznamo lokacijo obiskovalca, oziroma natančneje poštno številko, ki je določena za območje iz katerega prihaja. Zgraditi moramo napovedni model, ki bo iz učnih podatkov, kjer poznamo lokacijo obiskovalca (poštno številko) in klik na oglas (0 ali 1) na testnih podatkih, kjer je klik skrit, podal verjetnost, da se je klik zgodil. Če bi napovedovali klik samo na podlagi poštnih številk, bi bili rezultati slabi, saj jih je zelo veliko, s tem pa se zmanjša nabor učnih primerov za posamezno številko. Če pa poštne številke smiselno združimo, v denimo 20 skupin, pa število učnih primerov na skupino močno naraste. Smotrno je namreč predvidevati, da se bodo obiskovalci iz sorodnih lokacij na spletu obnašali podobno. Poštne številke je torej potrebno združiti v skupine tako, da so prebivalci in sama področja čim bolj podobna. Vsako številko oz. območje, ki ga pokriva moramo za potrebe iskanja skupin opremiti z čim več atributi, ki jo opisujejo. Poleg tega, da skupine poiščemo, je izziv zahteval tudi čim boljšo utemeljitev, zakaj določene poštne številke spadajo v to skupino. Odločili smo se za prikaz na zemljevidu, ki geografske podatke najbolj smiselno prikaže. Za vsako skupino smo tudi izračunali povprečje, ter ga primerjali z posameznimi poštnimi številkami, ter vse to interaktivno prikazali. Za drugi del naloge sta bila na voljo učni in testni nabor podatkov. 3

22 4 POGLAVJE 2. OPIS PROBLEMA Točnost in kvaliteto napovednega modela smo preverjali z metriko površine pod ROC krivuljo (AUC) na testnih podatkih. Za uspešno rešitev je bilo potrebno pravilno indentificirati skupine, ter na podlagi teh skupin na učnih podatkih zgraditi napovedni model. Testni podatki so bili do konca izziva skriti, zato je bilo potrebno testiranje opraviti na delu učnih podatkov. Za to smo uporabili k-kratno prečno preverjanje [10], tehniko, s katero napovedni model učimo in testiramo na istem naboru podatkov, ne da bi se model pretirano prilagodil učnim podatkom.

23 Poglavje 3 Odkrivanje skupin Odkrivanje skupin (angl. clustering) je ena od osnovnih tehnik podatkovnega rudarjenja [8]. Iščemo take skupine, kjer je primer iz skupine bolj podoben ostalim v njegovi skupini, kot primerom v ostalih skupinah. Za iskanje obstaja več različnih algoritmov, značilno pa je, da ni absolutno najboljšega [1], zato moramo na danih podatkih testirati več njih, in poiskati tistega, ki najde najboljše skupine. 3.1 Pregled področja in tehnik iskanja skupin Že od vsega začetka se področje podatkovnega rudarjenja osredotoča na iskanje vzorcev v podatkih [2]. Podatkovno rudarjenje se je razvilo iz strojnega učenja in statistke, z razvojem strojne opreme in zmogljivih računalniških sistemov za obdelavo velikih količin podatkov pa so se odprle številne nove možnosti. Poleg aplikacije principov podatkovnega rudarjenja na standardne podatke (npr. poslovne ipd.) se je uporaba razširila tudi na slike, video in multimedijske vsebine. Običajno iščemo skupine točk v višjem dimenzionalnem prostoru 1. Podobnost je definirana kot razdalja med točkami, denimo kot evklidska razdalja

24 6 POGLAVJE 3. ODKRIVANJE SKUPIN Poleg razdalje med samimi točkami, pa je za razumevanje problema pomembna tudi definicija podobnosti skupin. Če smo prej merili razdaljo med samo dvema točkama, moramo zdaj izmeriti razdaljo med dvema skupinama točk 3. Najpogostejše mere, ki se za to uporabljajo so povprečna razdalja (angl. average linkage), razdalja med najbližjima primeroma (angl. single linkage), ali razdalja med najbolj oddaljenima primeroma (angl. complete linkage). Razdaljo med posameznimi primeri moramo oceniti. Ena od možnih ocen, ki smo jo uporabili v diplomski nalogi, je evklidska razdalja. Ta je za n- dimenzionalen prostor in primera p in q določena z: d(p, q) = (p 1 q 1 ) 2 + (p 2 q 2 ) (p i q i ) (p n q n ) 2 kjer so p i in q i koordinate primera v i-ti dimenziji. (3.1) 3.2 Podatki V ZDA statistični urad Census Bureau spremlja množico različnih podatkov in statistik, in jih tudi prosto objavlja za uporabo. Na voljo so tudi statistike za poštne številke, kar smo tudi uporabili v diplomskem delu. Te podatke smo uporabili skupaj z osnovnimi podatki. Za te so s strani podjetja Zemanta bili dani podatki o vrsti in številu podjetij, ki se nahajajo v posamezni poštni številki, ter gostoti poselitve in stopnji brezposelnosti. Za večjo natančnost napovedi in smiselnost najdenih skupin smo poiskali in dodali še demografske podatke o starosti, delež posamezne rase, ter razmerje med moškimi in ženskami. Pred uporabo smo podatke primerno strukturirali in združili v eno csv 4 datoteko. Velikost datoteke z podatki je obsegala kar 4 GB, zato smo pri obdelavi naleteli tudi na nekaj težav z zmogljivostjo in porabo pomnilnika, ter dolge čase izvajanja kode. Končen format datoteke z zbranimi podatki je

25 3.2. PODATKI 7 bil podan v obliki, kot jo prikazuje tabela 3.1. Taka oblika podatkov omogoča enostavno računanje razdalj med poštnimi številkami. Tabela 3.1: Oblika podatkov Poštna številka Brezposelnost Povprečna starost % % Združevanje podatkov Ko smo pridobili vse želene podatke, jih je bilo potrebno urediti v zgoraj omenjeno obliko in odstraniti nepotrebne atribute. Zaradi velikosti, števila ameriških poštnih številk (33.000) in v nekaterih primerih tudi neučinkovite oblike, v kateri so bili zapisani smo se odločili za uporabo knjižnice Pandas 5, ki je dostopna za programski jezik Python. Knjižnica Pandas uvaja strukturo za shranjevanje podatkov dataframe, ki tudi pri večjem obsegu podatkov omogoča hitro in enostavno združevanje po atributih. podatke o nezaposlenosti in populaciji združili z sledečo kodo: merge = pd. merge ( df_ unemployment, df_ population, how = left, left_on = ZIP, right_on = Zip / ZCTA ) Tako smo denimo S tem smo se izognili tudi težavam, ki so se pojavljale zaradi pomanjkljivih podatkov. Za nekatera področja določeni podatki namreč niso bili na voljo, ali pa so nekatere poštne številke manjkale. Z zgornjo kodo smo obdržali samo tiste poštne številke, ki so se nahajale v viru podatkov o nezaposlenosti. Ker so vhodni podatki manjkali večinoma za bolj periferna območja, ki so bila v testnih podatkih slabo zastopana to ni posebej vplivalo na končno točnost našega modela. 5

26 8 POGLAVJE 3. ODKRIVANJE SKUPIN Shranjevanje podatkov Pridobljeni podatkovni viri so bili v različnih tekstovnih formatih (tsv, csv, xlsx). Za lažjo implementacijo in možnost izvajanja ter sestavljanja končnega nabora podatkov po delih smo uporabljali csv format zapisa. V prid odločitvi je bila tudi dobra podpora csv datotekam v Pythonu, kar je omogočalo enostavno branje in pisanje datotek. 3.3 Uporabljene metode in izvedba Iskanja skupin smo se lotili s pregledom primernih metod za iskanje. Odločili smo se za metodi DBScan [13] in hierarhično gručenje Algoritem DBScan Algoritem DBScan angl. density-based spatial clustering of applications with noise je bil prvič predlagan v članku [13] iz leta Ideja algoritma je, da okoli izhodiščne točke poišče tiste, ki so v dosegu razdalje ɛ, pri čemer upošteva gostoto točk na območju. Te točke so uvrščene v skupno gručo, ki ji nato pa doda še vse tiste, ki so v dosegu razdalje ɛ na novo dodanih točk. Algoritem na opisani način upošteva gostoto točk. Kjer je gostota visoka, točke združi v isto skupino, na območjih z nizko gostoto pa točke označi za osamelce. Ali se točka uvrsti v skupino ali pod osamelce uravnavamo z parametrom ɛ. Večja kot je razdalja, manjše je število osamelcev. Prednost algoritma je, da dobro deluje tudi na podatkih, pri katerih ostali algoritmi, npr. hierarhično gručenje ali metoda voditeljev ne najdejo pravih gruč. Primer takih podatkov, kjer DBScan pravilno najde gruči, metoda voditeljev pa ne je prikazan na sliki 3.1. Drugi prednosti sta še, da ni potrebno vnaprej določiti števila gruč, ter da zna pravilno določiti osamelce. Osamelci so tisti primeri, ki so preveč različni od ostalih gruč, da bi bili uvrščeni v katero izmed njih. 6

27 3.3. UPORABLJENE METODE IN IZVEDBA 9 Slika 3.1: Primer pravilno določenih gruč z DBScan algoritmom Slabosti algoritma DBScan so nevarnost uvrstitve vseh primerov v eno gručo, ali pa vseh primerov med osamelce. Prav s to pomanjkljivostjo algoritma smo se srečali pri analizi naših podatkov. Izvedba Uporabili smo implementacijo algoritma DBScan, ki je dostopna v knjižnici Scikit learn 7. Uporaba knjižnic nam poenostavi kodo, hkrati pa tudi izboljša hitrost programa, saj so algoritmi dobro optimizirani. Primer klica algoritma nad podatki v spremenljivki data podaja spodnja koda, ki najdene gruče shrani v spremenljivko labels: db = DBSCAN ( eps =10, min_samples =10). fit ( data ) labels = db. labels_ V namene vrednotenja najdenih skupin smo dobljene gruče grafično prikazali, pri čemer pa smo morali najprej več dimenzionalni prostor preslikati v dvodimenzionalnega. Uporabili smo analizo osnovnih komponent, o kateri več v nadaljevanju. Grafični prikaz rezultatov gručenja je pokazal prve težave 7

28 10 POGLAVJE 3. ODKRIVANJE SKUPIN Slika 3.2: Primer neustreznega gručenja, kjer je najdena le ena gruča (vijolično), ostali primeri pa so uvrščeni kot osamelci algoritma DBScan. Glede na razdaljo, ki smo jo določili (parameter eps=10 v zgornji kodi), sta se dogajala dva scenarija. V prvem (slika 3.2), kjer je bila razdalja, pri kateri je primer še spadal v isto gručo večja, so bili vsi primeri uvrščeni v eno ali dve gruči, ostali primeri pa so bili uvrščeni kot osamelci. Tak rezultat je bil že intuitivno neustrezen, saj lahko brez zadržkov trdimo, da v ZDA prebivalci živijo v več kot enem ali dveh različnih okoljih. Težava je torej bila, da je algoritem zaradi prevelike razdalje uvrščal v isto gručo, zato smo se odločili razdaljo zmanjšati. Zmanjšanje razdalje je prineslo novo težavo. Število gruč je nenadoma preseglo smiselne meje, saj je bilo najdenih več kot 300, pri čemer se je ne glede na večjo eps razdaljo močno povečalo število osamelcev, kar je razvidno iz slike 3.3. Izkazalo se je, da glede na vhodne podatke, ki smo jih imeli na voljo DBScan ni primerna metoda za iskanje gruč.

29 3.3. UPORABLJENE METODE IN IZVEDBA 11 Slika 3.3: Primer izvedbe DBScan z manjšo eps razdaljo, pri čemer je bilo najdenih 320 gruč, osamelci pa močno prevladujejo. Gruče se nahajajo samo na skrajni desni Hierarhično gručenje Hierarhično gručenje je pogosto uporabljan za iskanje gruč. Gradi hierarhijo med posameznimi gručami. Ločimo dva pristopa. Pri prvem algoritem gradi gruče od spodaj navzgor in jih združuje v končno gručo, medtem ko pri drugem pristopu iz začetne, ki zajema vse primere rekurzivno deli v manjše gruče. Nastalo hierarhijo lahko prikažemo z dendrogramom 8. Kot že omenjeno v poglavju Pregled področja in tehnik iskanja skupin, je pri hierarhičnem gručenju pomembna izbira metoda za izračun razdalje med skupinami. Preizkusili smo povprečno 9 (angl. average linkage) in wardowo razdaljo 10 (angl. ward linkage). Povprečna razdalja med dvema skupinama A in B je izračunana tako, da vzamemo povprečje vse razdalj med pari točk (a in b) iz teh dveh wards.html

30 12 POGLAVJE 3. ODKRIVANJE SKUPIN skupin: d(a, B) = 1 A B d(a, b) (3.2) a A b B Wardova razdalja združi gruče združuje tako, da minimizira vsoto kvadratov razlik med njimi. Hierarhično gručenje ima težnjo, da večje gruče postajajo še večje, kar lahko pripelje do rezultatov, kot smo jih dobili pri DBScan. To težavo delno omili izbira Wardove razdalje, kar se je izkazalo tudi na naših podatkih. d ij = d({x i }, {X j }) = X i X j 2 (3.3) Pri izvedbi hierarhičnega gručenja z uporabo povprečne razdalje smo naleteli na podobne težave kot pri algoritmu DBScan, kar je razvidno iz slike 3.4. Namesto osamelcev smo dobili prevladujočo gručo, ostale pa so bile zastopane minimalno. Pri hierarhičnem gručenju je potrebno število skupin, ki naj jih algoritem poišče omejiti, zato smo se odločili za 20 skupin oz. gruč. V naslednjem poskusu smo uporabili Wardowo razdaljo, s katero smo pridobili najbolj smiselne rezultate, ki so bili tudi uporabljeni za napovedovanje. Gruče so bile bolj enakomerno zastopane in so se najbolj približale rezultatu, ki smo ga intuitivno pričakovali. Ponovno smo uporabili Python knjižnico Scikit-learn, s pomočjo katere je implementacija gručenja enostavna: hc = AgglomerativeClustering ( n_clusters =40, linkage = ward ). fit ( data ) V spremenljivko hc se shrani oznaka skupine kateri pripada za vsak vhodni primer. Tako je bila vsaka izmed 33, 000 poštnih številk z pripadajočimi atributi uvrščena v eno izmed 20 skupin. Sama izvajanje kode je bilo dolgotrajno (več ur), saj smo imeli opravka z velikim številom primerov (vse poštne številke), pa tudi z velikim številom atributov za vsak primer. To je tudi nekoliko otežilo gručenje z različno

31 3.3. UPORABLJENE METODE IN IZVEDBA 13 Slika 3.4: Hierarhično gručenje z povprečno razdaljo. Slika 3.5: Hierarhično gručenje z Wardowo razdaljo.

32 14 POGLAVJE 3. ODKRIVANJE SKUPIN omejitvijo števila gruč, ki naj jih algoritem najde, saj sta večkratno izvajanje in primerjava rezultatov vzela veliko časa. 3.4 Prikaz in interpretacija skupin Prikaz rezultatov v podatkovnem rudarjenju predstavlja svojevrsten izziv, saj se pogosto srečujemo z več dimenzionalnim prostorom, ki ga je potrebno smiselno prikazati. Posledično so se razvile številne tehnike, ki omogočajo preslikavo iz več dimenzionalnega prostora v 2 ali 3 dimenzije, ki jih nato lahko prikažemo. Ena izmed takih tehnik je analiza osnovnih komponent [16], ki smo jo uporabili za vizualizacijo rezultatov hierarhičnega gručenja na slikah 3.2, 3.3, 3.4 in 3.5. Ker pa vse skozi govorimo o geografski segmentaciji, poštne številke pa imajo točno določeno lokacijo smo podatke prikazali tudi na zemljevidu s pomočjo zemljevidov Google Earth Vizualizacija z analizo osnovnih komponent Analiza osnovnih komponent [16] (angl. principal component analisys, PCA) je metoda, s katero poiščemo linearno preslikavo iz večdimenzionalnega prostora v nekaj dimenzionalni prostor. V našem primeru je cilj dvodimenzionalna slika, ki prikazuje najdene gruče. Analiza osnovnih komponent išče vektorje oz. osnovne komponente, ki pojasnijo čim več variance v podatkih. Če imamo 100 dimenzionalni prostor, bi 100 komponent popolnoma pojasnilo varianco podatkov. Ker pa nas zanima približna preslikava v nižje dimenzije pa je dovolj, da vzamemo samo prvi dve komponenti, ki pojasnita največ variance: colors = plt.cm. Spectral (np. linspace (0, 1, len ( unique_labels ))) i_ pca = IncrementalPCA ( n_ components =2, batch_ size =10000) X = i_pca. fit ( data ). transform ( data ) 11

33 3.4. PRIKAZ IN INTERPRETACIJA SKUPIN 15 print "done ---" for i in range ( len (X )): plt. scatter (X[i, 0], X[i, 1], c= colors [ labels [i ]]) plt. show () Zaradi velikega števila poštnih številk, nad katerimi smo izvajali hierarhično gručenje, smo naleteli na težave z porabo pomnilnika pri izvedbi analize osnovnih komponent. Kot je razvidno iz zgornje kode smo zato uporabili inkrementalno izvedbo PCA, ki vhodne podatke obdeluje po delih, (batch size), v našem primeru hkrati. V spremenljivko colors smo najprej shranili toliko različnih barv, kolikor je bilo najdenih gruč. Nato smo izvedli PCA in nazadnje v zanki še izrisali vsak primer v ustrezni barvi Prikaz rezultatov na zemljevidu Grafični prikaz točk z analizo osnovnih komponent je služil predvsem kot pomoč za lažje razumevanje rezultatov gručenja. Same najdene skupine pa smo grafično utemeljili z prikazom na zemljevidu, ki se je izkazal za zelo informativnega in smiselnega. Ker je bilo potrebno prikazati vse poštne številke smo pri večini spletnih servisov (Google Maps, Bing Map) naleteli na omejitve, ki veljajo za prikaz večjega števila lokacij na zemljevidu. Omejitve veljajo tudi za kodiranje naslovov v koordinate. Preden lahko posamezen naslov (ali poštno številko) prikažemo, moramo najprej pridobiti njene koordinate. To omogočajo omenjeni ponudniki, a v precej manjšem dnevnem obsegu kot za naše potrebe. Omejitve smo zaobšli z uporabo Google Earth z KML datotekami, pri čemer smo na spletu pridobili bazo ameriških poštnih številk z že podanimi koordinatami. S tem smo zaobšli vse omejitve, ki so se pojavile zaradi velike količine lokacij.

34 16 POGLAVJE 3. ODKRIVANJE SKUPIN KML zapis podatkov datoteka KML 12 opisuje geografske podatke, ki jih želimo prikazati v za to namenjenih aplikacijah, kot je denimo Google Earth 13. Gre za prilagojeno obliko bolj znanega XML zapisa. Definirane so značke, s katerimi določimo izgled in lokacijo na zemljevidu. Odločili smo se za prikaz posamezne poštne številke z t. i. žebljičkom, kjer je pripadnost posamezni skupini določena z barvo. < Placemark > < ExtendedData > <Data name =" ZIP "> <value >35004 </ value > </Data > <Data name =" CLUSTER STATS "> <value >/ </ value > </Data >... <Point > <coordinates > , </ coordinates > <color ># CC9900 </ color > </ Point > <styleurl >#4</ styleurl > </ Placemark > Zgornji izsek iz datoteke KML definira lokacijo s koordinatami, ki smo jih pridobili na spletu. Z <styleurl> značko je določena barva in oblika žebljička, <ExtendedData> pa opisuje vrednosti, ki so prikazane na oknu, ki se prikaže ob kliku na posamezen žebljiček. Gradnja datoteke KML Tudi za gradnjo datoteke KML smo uporabili Python. Za osnovo nam je služila koda podana iz strani Googla 14, ki smo jo prilagodili za naše potrebe. V prvem koraku smo izračunali povprečja za vsako najdeno skupino. Nato smo iz datoteke z koordinatami vsaki poštni številki dodelili zemljepisno širino in dolžino. Glede na oznako skupine, kateri je posamezna poštna

35 3.4. PRIKAZ IN INTERPRETACIJA SKUPIN 17 Slika 3.6: Rezultat gručenja, prikazan na zemljevidu. Pripadnost skupini je označena z barvo. številka oz. točka na zemljevidu pripadala je bila določena barva, na okno, ki se prikaže ob kliku pa smo dodali izračunana povprečja in dejanske podatke za poštno številko, kar je olajšalo evaluacijo rezultatov. Končen rezultat je datoteka KML, katero lahko odpremo v programu kot je Google Earth, ki poskrbi, da se poštne številke prikažejo na zemljevidu. Google Earth Uvoz datoteke v program Google Earth da sledeč rezultat 3.6. Hitro lahko prepoznamo najbolj pogosto skupino, ter ocenimo smiselnost gručenja. Pripravili smo tudi KML datoteke za posamezno skupino, da je bila analiza skupin lažja. Ob izboru posameznega žebljička se prikažejo vsi podatki za poštno številko, kot prikazuje slika 3.7.

36 18 POGLAVJE 3. ODKRIVANJE SKUPIN Slika 3.7: Informacije o posamezni poštni številki in povprečje skupine, kateri pripada. 3.5 Rezultati iskanja skupin Ko smo bili z rezultati gručenja in vizualizacijo zadovoljni, smo dobljene skupine natančneje analizirali. Izbrali smo pet najbolj izstopajočih skupin in jih natančneje opisali, ostale skupine pa smo samo poimenovali, glede na najbolj izstopajočo lastnost. Opisi skupin so podkrepljeni z izseki iz grafičnega prikaza na zemljevidu Najznačilnejše skupine Spodaj naštejemo in opišemo najznačilnejše skupine, ki smo jih identificirali iz podatkov.

37 3.5. REZULTATI ISKANJA SKUPIN 19 Skupina 1, okolica centrov velikih mest Za skupino je značilna nizka brezposelnost, visok odstotek temnopoltih prebivalcev, nizka povprečna starost in povprečni prihodki. Iz grafičnega prikaza na zemljevidu je razvidno, da je center mesta vedno v bližini, prebivalci pa živijo v hišah ali v večstanovanjskih zgradbah. Skupina je dobro zastopana in zelo homogena. Slika 3.8: Naselja hiš, značilnih za skupino 1. Skupina 3, velemesta, srednji razred V tej skupini najdemo ameriška velemesta (New York, Miami, Chicago, Phoenix ipd.), značilna je visoka gostota prebivalstva, ki večinoma živi v stolpnicah. Povprečna gostota poselitve je prebivalcev na kvadratno miljo. Prihodki so nizki, zelo visok je odstotek temnopoltega prebivalstva, saj na področjih, ki jih pokrivajo poštne številke pripadajoče tej skupini presegajo 50 odstotkov. Skupina 10, prostrana ruralna območja na jugu ZDA Večino poštnih številk v tej skupini najdemo na jugu ZDA v bližini mehiške meje. Povprečno število prebivalcev je nizko, gostota poselitve je manjša od 100 prebivalcev na kvadratno miljo. Značilna je še visoka brezposelnost, ki se giblje okoli 10 odstotkov in velike površine, ki jih posamezne poštne številke pokrivajo - preko 500 kvadratnih milj.

38 20 POGLAVJE 3. ODKRIVANJE SKUPIN Slika 3.9: Chicago in New York - vsi primeri se nahajajo v centru mest. Slika 3.10: Prostrana območja v bližini mehiške meje. Skupina 7, gosto poseljena, rasno mešana območja. Visoka gostota poselitve, in nizek odstotek belopoltih prebivalcev sta značilnost skupine. Območja so večinoma locirana v velikih mestih. Povprečna brezposelnost za skupino je 9 odstotna, kar je nad ameriškim povprečjem 15 (5.6 odstotka). Skupina 8, ameriški višji razred, urbane soseske Vile z bazeni so tipični pogled, ki ga dobimo ob približanju posameznega področja na zemljevidu, ki pripada tej skupini. Urban življenski slog v pred- 15

39 3.5. REZULTATI ISKANJA SKUPIN 21 Slika 3.11: Na področju, ki ga pokriva ta poštna številka živi več kot ljudi. mestjih, z visokimi prihodki in nekoliko starejšim prebivalstvom. Slika 3.12: Tipična vila z bazenom, v skupini Ostale skupine Preostale skupine, ki niso med zgoraj naštetimi, so: Skupina 0, ruralna območja z visoko brezposelnostjo

40 22 POGLAVJE 3. ODKRIVANJE SKUPIN Skupina 2, prostrana območja Aljaske Skupina 4, predmestna naselja Skupina 5, kmetije in kmetijske površine Skupina 6, mešano območje, prevladuje podeželje Skupina 9, manjše vasi na podeželju Skupina 10, nizko poseljena prostrana območja Skupina 11, predmestja Skupina 12, mesta na zahodni obali Skupina 13, podeželje, 90 odstotni delež belopoltih Skupina 14, rasno mešana urbana območja z prevladujočim temnopoltim in latino prebivalstvom Skupina 15, predmestja Skupina 16, industrijska območja Skupina 17, mesta Alabame Skupina 18, trgovski centri Skupina 19, bogate soseske z nizko brezposelnostjo

41 Poglavje 4 Napovedovanje Napovedovanje 1 (angl. Predictive modelling) je področje podatkovnega rudarjenja, ki se ukvarja z napovedovanjem bodočih dogodkov na podlagi podatkov o dogodkih, ki so se že zgodili. Tako je možno napovedati, kolikšna je verjetnost za ponovno pojavitev zdravstvenih težav, s čimer so v bolnišnici Parkland Health and Hospital System 2 v Dallasu zmanjšali število bolnikov, ki jih je potrebno ponovno sprejeti v bolnišnico za 33 odstotkov. Napovedovanje je poleg zdravstva množično uporabljeno tudi v prodajnem sektorju, spletnih aplikacijah, biologiji, financah, zavarovalništvu, ter tudi v oglaševanju, s čimer se ukvarjamo v diplomski nalogi, kjer je cilj čim bolj natančno napovedati verjetnost klika na oglas. V praksi nam to daje možnost ciljnega oglaševanja, kjer oglas prikažemo tistim obiskovalcem, za katere je napovedana najvišja verjetnost klika How-Predictive-Modeling-Cuts-Hospital-Readmissions 23

42 24 POGLAVJE 4. NAPOVEDOVANJE 4.1 Pregled področja in metod napovedovanja Pregled področja in metod napovedovanja povzemamo po Jiawei in Kamber [4]. Pri napovedovanju ločimo dva osnovna principa - uvrščanje oz. klasifikacijo in napovedovanje zveznih vrednosti Uvrščanje Pri uvrščanju so razredi, v katere lahko primeri spadajo, že določeni. Če glede na simptome napovedujemo bolezen, gre za uvrščanje, saj imamo končno množico možnih bolezni, v katere posamezen primer lahko uvrstimo. Na podlagi atributov, ki posamezen primer opisujejo torej določamo razred. Učni podatki pri uvrščanju vsebujejo primere, opisane z atributi, ter razred, v katerega spadajo. Na podlagi učnih podatkov zgradimo model, ki zna v enega izmed razredov bolj ali manj natančno uvrstiti tudi nove primere (testni podatki), pri katerih razred ni podan, oz. je skrit. Pri uvrščanju je zelo pomembno kateri atribut je najbolj informativen, kar pomeni, da je njegov prispevek najvišji za uvrstitev v določen razred. Za določanje informativnosti atributa se uporablja več mer, denimo informacijski prispevek, relativni informacijski prispevek ali ginijev indeks. Preprosto orodje s katerim lahko gradimo napovedne modele za uvrščanje v razrede so klasifikacijska drevesa 3. Na vsaki vejitvi drevesa začetno množico podatkov razbijemo na dve novi podmnožici, kar nas pripelje do čistih podmnožic. Večji informacijski prispevek ima atribut, višje v drevesu ga uporabimo za odločanje, kako bomo razdelili primere na podmnožice. Pogosto uporabljane metode za uvrščanje so še naključni gozdovi [11], kjer združimo več dreves, ki glasujejo glede uvrstitve primera v razred, metoda podpornih vektorjev [9] in metoda k najbližjih sosedov [14]. 3

43 4.1. PREGLED PODROČJA IN METOD NAPOVEDOVANJA 25 Slika 4.1: Primer klasifikacijskega drevesa, ki uvršča v dva razreda Napovedovanje zveznih vrednosti Pri napovedovanju zveznih vrednosti razred pri učnih razredih ni podan, pač pa je podana zvezna vrednost, ki jo posamezen primer zavzema. Tudi pri napovedovanju torej ne uvrščamo v enega izmed določenih razredov, ampak glede na atribute novega primera napovemo zvezno vrednost. Uporabljamo tehnike regresijske analize, kot sta linearna in logistična regresija. Pri linearni regresiji 4 tako zgradimo model, ki ga lahko predstavimo s premico na sliki 4.2. Nove vrednosti so preslikane v skladu z funkcijo, ki določa premico Pretirano prilagajanje učnim podatkom Pretirano prilagajanje učnim podatkom [7] (angl. overfitting) je težava, ki se pojavi, ko se model pretirano prilagodi učnim podatkom, kar posledično 4

44 26 POGLAVJE 4. NAPOVEDOVANJE Slika 4.2: Linearna regresija. pomeni nizke napovedne točnosti na testnih podatkih. Brez težav namreč zgradimo model, ki se bo popolnoma prilagodil učnim podatkom, seveda pa bi takšen model na testnih podatkih praviloma dosegal zelo slabe rezultate. Želimo si torej modela, ki se iz podatkov uči, ne pa da si jih skuša zapomniti 5. Informacije, ki jih algoritem zna pridobiti iz učnih podatkov, lahko namreč razdelimo na dva tipa. Tiste, ki bodo imele vpliv na prihodnost in tiste informacije, ki so specifične in pri napovedovanju prihodnosti pomenijo šum. Pomembno vlogo pri pretiranem prilagajanju igra kompleksnost modela. Bolj ko je model kompleksen, na manj primerih se ta nauči vrednost svojih parametrov. Želimo si torej čim bolj preprostih modelov, z majhnim številom parametrov, saj s tem zmanjšamo nevarnost pretiranega prilagajanja. Če se model uspešno izogne tem težavam, pravimo da je robusten. V namene detekcije prevelikega prileganja uporabljamo testiranje točnosti modelov s prečnim preverjanjem [10]. Tehnike, ki nam pri gradnji modelov 5

45 4.2. PODATKI 27 omogočajo gradnjo preprostejših modelov, so regularizacija 6 in rezanje dreves Podatki Učni podatki so bili podani iz strani podjetja Zemante. Pridobili so jih iz njihove oglaševalske platforme. Gre torej za realne podatke o obiskovalcih spletnih strani njihovih strank. Testni podatki so bili do konca izziva skriti, ter so bili uporabljeni za evaluacijo naših rešitev. Za interno preverjanje točnosti naših modelov smo, kot je pri takšnih tekmovanjih praksa, morali uporabiti učne podatke, o čemer več v poglavju 4.4. Oblika podatkov je podana na primeru v tabeli 4.1. V stolpcu click je zabeleženo, ali je obiskovalec, ki mu je bil oglas prikazan kliknil nanj. Creative id je številka, dodeljena posameznemu oglaševalcu iz strani Zemantinega sistema in za naše potrebe nima večje vloge. V naslednjem stolpcu se nahaja poštna številka, iz katere je bil obiskovalec, pri čemer je potrebno dodati, da je ta številka pogosto manjkala, zato smo manjkajoče vrednosti zamenjali z ničlo. Podana sta bila še stolpca domena in stran, ki sta povedala, na kateri domeni in strani je bil oglas prikazan. Učni podatki so obsegali približno 2,5 milijona vrstic, zate se pomanjkanja primerov ni bilo bati. So se pa posledično pojavile nekatere performančne težave, predvsem dolgi časi izvajanja bolj kompleksnih modelov. Za večjo natančnost napovedi smo obstoječim podatkom dodali stolpec skupina, v kateri smo vsaki poštni številki dodali informacijo o skupini, kateri je glede na rezultate prvega dela naloge spadala. S tem se je vrednost oz. informativnost lokacije povečala, saj smo vsako izmed poštnih številk opisali z eno od 20 najdenih skupin. Za pravilno pripenjanje podatka o pripadnosti skupini za poštne številke je skrbela sledeča koda: with open ( labels_file, mode = r ) as file_in :

46 28 POGLAVJE 4. NAPOVEDOVANJE reader = csv. reader ( file_in ) c_labels = { float ( rows [0]): rows [1] for rows in reader } # change ZIP with label l_set [ zip ] = l_set [ zip ]. convert_objects ( convert_numeric = True ). dropna () l_set [ zip ] = l_set [ zip ]. map ( c_labels. get ) Podatki o pripadnosti skupini so bili zapisani v datoteki labels file, stolpec ZIP, ki je vseboval poštne številke pa smo nato z funkcijo map 8 zamenjali poštno številko z skupino. Tabela 4.1: Oblika učnih podatkov click creative id ZIP domain page townhall.com twitchy.com townhall.com allday.com Uporabljene metode in praktična izvedba Pri napovedovanju vrednosti smo morali na podlagi učnih primerov napovedati verjetnost klika, torej uvrstitve v razred 1. Gre torej za klasifikacijski problem, kjer pa nismo napovedovali razreda, oz. ali se bo klik zgodil ali ne, temveč verjetnost tega dogodka. Odločili smo se za preizkus algoritmov logistične regresije, naključnih gozdov in tehnike skladanja (angl. stacking), kjer združimo več napovednih modelov. Vsi algoritmi so bili implementirani z knjižnico Scikit Learn. 8

47 4.3. UPORABLJENE METODE IN PRAKTIČNA IZVEDBA 29 Slika 4.3: Graf logistične funkcije Logistična regresija Logistična regresija 9 je regresijski model, s katerim običajno napovedujemo binarno odvisno spremenljivko. To pomeni, da napovedujemo le dva razreda, tako kot v našem primeru. Obstaja tudi možnost napovedi več razredov, ki pa za naš primer ni aktualna. Osnova za logistično regresijo je logistična funkcija (4.1), s katero ocenjujemo verjetnost kategorične spremenljivke. Logistična funkcija ne glede na vhod vedno vrne rezultat med 0 in 1. σ(t) = et e t + 1 = 1 (4.1) 1 + e t V našem primeru je logistična regresija služila za združevanje napovedi ostalih modelov pri skladanju. 9

48 30 POGLAVJE 4. NAPOVEDOVANJE Naključni gozdovi Metoda naključnih gozdov [11] (angl. Random forest) spada med sestavljene metode (angl. ensemble methods), ki združujejo rezultate več različnih klasifikatorjev. V primeru naključnih gozdov združujemo napovedi posameznih dreves, lahko rečemo, da skupina dreves, ki sestavlja gozd o vsakem primeru glasuje. Naključni gozd primer uvrsti v razred, ki ga napove večina dreves. Kako izgleda posamezno drevo lahko vidimo na sliki 4.1. Uporablja se lahko tako za regresijo kot za klasifikacijo. Naključni gozdovi odpravljajo največjo težavo odločitvenih dreves, pri katerih hitro pride do pretiranega prilagajanja učnim podatkom, pojem ki smo ga obravnavali v podpoglavju Želimo si čim bolj različnih dreves, s katerimi bomo našli tudi kakšno specifiko podatkov, ki jih posamezno drevo ne zazna. Če bi vsako drevo zgradili iz vseh dostopnih podatkov, bi dobili enaka drevesa, kar ne bi imelo smisla. Zato drevesa gradimo z metodo stremena (angl. bootstrap), kjer za vsako drevo naključno z vračanjem iz učne množice izberemo podmnožico primerov. Na tej podmnožici v naslednjem koraku zgradimo odločitveno drevo, pri čemer v vozliščih drevesa ne upoštevamo vseh atributov, ampak naključno izberemo manjše število le-teh. Z omenjenim postopkom pridobimo različna drevesa, katerih napovedi združimo. Pri klasifikaciji upoštevamo večinsko napoved, pri regresiji pa vzamemo povprečje napovedi. Naključni gozdovi so ena izmed najbolj točnih metod uvrščanja. Slabosti metode sta, da v primerjavi s posameznimi drevesi ne moremo interpretirati modela, poveča pa se tudi zahtevnost izvedbe. Izvedba Knjižnica Scikit Learn vključuje tudi implementacijo naključnih gozdov 10. Vnaprej se je potrebno odločiti za število dreves, ki bodo glasovala o uvrstitvi v razred. Odločili smo se za 100 dreves, saj je manjše število dreves vodilo 10 RandomForestClassifier.html

49 4.3. UPORABLJENE METODE IN PRAKTIČNA IZVEDBA 31 v padanje točnosti, povečevanje pa v težave z zmogljivostjo in dolge čase izvedbe algoritma. X_train, X_test, y_train, y_ test = cross_validation. train_test_split (X, y, test_size =0.4) forest = RandomForestClassifier ( n_estimators = n_estimators ) # fit training data prob = forest. fit ( X_train, y_train,). predict_proba ( X_test ) # compute ROC fpr, tpr, thresholds = roc_ curve ( y_test, prob [:, 1]) roc_auc = auc (fpr, tpr ) print roc_ auc Z zgornjo kodo smo implementirali napoved verjetnosti razreda. Vhodne podatke smo razdelili na učni in testni set, da smo lahko takoj vrednotili točnost naše implementacije. Spremenljivka forest hrani objekt iz knjižnice. V naslednji vrstici pridobimo verjetnosti razreda 1 za testne primere, saj z metodo fit() model naučimo na učnih podatkih, z predict proba(x test) pa že napovemo verjetnosti razredov za testne podatke. Z metodo roc curve() iz knjižnice scikit.metrics izračunamo delež napačno pozitivnih in zadetih primerov, kar je podlaga za izračun AUC v naslednji vrstici, o čemer več v poglavju Skladanje Skladanje [15], [17] (angl. stacking oz. stacked generalization) je metoda, pri kateri združujemo več različnih napovednih modelov. V prvem koraku zberemo napovedi vseh modelov na nivoju 0 v nov nabor podatkov, ki jih skupaj z napovedjo razreda in dejanskim pravilnim razredom obravnavamo kot nov odločitveni problem, za rešitev katerega uporabimo model na nivoju 1, navadno logistično regresijo. Gre za metodo, ki običajno daje najboljše rezultate, z njeno izpeljanko pa je bila dosežena tudi zmaga na prestižnem Netflixovem tekmovanju 11. V našem primeru smo na nivoju 0 uporabili sledeče napovedne modele: Random Forest (Naključni gozdovi), Extra Trees[3] (Ekstremno naključna 11

50 32 POGLAVJE 4. NAPOVEDOVANJE drevesa) in Gradient Boosting. Random Forest oz. naključne gozdove smo že predstavili, Extra trees pa mu je zelo podoben. Razlikujeta se pri gradnji posameznih dreves, ki so v primeru Extra trees bolj naključna zaradi načina delitve v listih. S tem dobimo nov pogled na podatke, je pa metoda zaradi tako velike naključnosti primerna samo za uporabo pri skladanju, ne pa kot samostojna metoda. Tudi Gradient Boosting 12 sestavlja množica dreves, ki jih algoritem združi z optimiziranjem cenilne funkcije. Napovedi omenjenih treh modelov smo združili z logistično regresijo, ki smo jo natančneje opisali v poglavju Izvedba Implementacija skladanja temelji na primeru 13 in je bila ustrezno prilagojena za napovedovanje verjetnosti razreda. Podatke smo najprej razdelili na učni in testni nabor, pri čemer smo za testiranje namenili 20 odstotkov podatkov. X_train, X_test, y_train, y_ test = cross_validation. train_test_split (X, y, test_size =0.2) Učne primere smo razdelili na pet delov. Za vsak klasifikator in za vseh 5 delov na katerega so bili razdeljeni podatki (5-kratno prečno preverjanje) smo vsakega izmed modelov naučili na štirih petinah podatkov (metoda clf.fit(), in shranili napovedi na petini podatkov v spremenljivko out train. V naslednji vrstici smo shranili še napoved na zunanjem testnem naboru v spremenljivko proba test. Na ta način smo pridobili 5 različnih napovedi, od katerih smo izračunali povprečje. py t_cv = list ( StratifiedKFold ( y_train, n_folds =5)) for i, clf in enumerate ( base_ classifiers ): cv_probabilities = np. zeros (( X_test. shape [0], len ( t_cv ))) # cross validation train for j, ( train_i, test_i ) in enumerate ( t_cv ): X_train_0 = X_train [ train_i ] y_train_0 = y_train [ train_i ] X_test_0 = X_train [ test_i ]

51 4.4. REZULTATI 33 # train each classifier clf. fit ( X_train_0, y_train_0 ) # Get probabilities for click on internal data proba = clf. predict_proba ( X_test_0 ) out_train [ test_i, i] = proba [:, 1] # Probabilities for test data proba_test = clf. predict_proba ( X_test ) cv_ probabilities [:, j] = proba_ test [:, 1] # Average of predictions out_test [:, i] = cv_probabilities. mean (1) V naslednjem koraku rezultate združimo z logistično regresijo. Uporabili smo stopnjo regularizacije 10, katero smo določili z poizkušanjem in preverjanjem točnosti. Z končnim združenim modelom smo napovedali verjetnosti razreda 1 na petini podatkov, ki smo jo v ta namen rezervirali na začetku. Sledil je še izračun točnosti AUC. stack_ clf = LogisticRegression ( C =10) stack_clf. fit ( out_train, y_train ) stack_ prediction = stack_ clf. predict_ proba ( out_ test ) Metoda skladanja je bila za samo izvajanje pričakovano najbolj procesorsko in časovno zahtevna, saj smo za vsakega izmed modelov na nivoju 0 zgradili 100 odločitvenih dreves, a je dala tudi najboljše rezultate. 4.4 Rezultati Rezultati, ki smo jih dosegli pri napovedovanju so bili v skladu s začetnimi cilji, saj smo ciljali na AUC okoli 0,75. Na Zemantinem izzivu je naša metoda skladanja dosegla najboljši rezultat Merjenje točnosti napovedi Za merjenje točnosti napovedi moramo najprej uvesti nekaj osnovnih mer 14. Ko govorimo o točnosti modela imamo vedno v mislih razkorak med vrednostmi, ki jih model napove, in dejanske vrednosti. Poimenovanje teh mer prikazuje kontigenčna tabela na sliki html

52 34 POGLAVJE 4. NAPOVEDOVANJE Slika 4.4: Kontingenčna matrika. Za razumevanje mere, ki smo jo uporabljali, je pomemben delež zadetkov (TP) in delež napačno pozitivnih (FP). Omenjena deleža dobimo po enačbah 4.2 in 4.3. T P R = T P/(T P + F N) (4.2) F P R = F P/(F P + T N) (4.3) Površina pod krivuljo ROC [5] (angl. area under Receiving Operator Characteristics Curve) je mera za ocenjevanje točnosti. Med drugo svetovno vojno so jo uporabljali za ocenjevanje dela operaterjev radarskih sistemov, ki so morali pravilno razlikovati med sovražnikovimi in domačimi letali. Kasneje se je uporabljala v medicini, v zadnjem času pa je zelo popularna v strojnem učenju in statistiki. Krivulja ROC je določena kot razmerje med deležem zadetih 4.2 in deležem napačno pozitivnih 4.3. Na horizontalni osi beležimo FPR, na vertikalni pa TPR. Če vse primere razglasimo za pozitivne, smo dosegli FPR in TPR 1, če pa vse za negativne pa sta oba deleža 0. Za ostale vrednosti verjetja bosta FPR in TPR nekje med 0 in 1, zato moramo za vsak prag, pri katerem se FPR in TPR spremenita, deleža izračunati in ju vnesti v graf. Dobimo

53 4.4. REZULTATI 35 Slika 4.5: Površina pod krivuljo ROC. krivuljo iz slike Površina pod to krivuljo torej določa točnost našega modela. Več napovedi, kot jih je model uvrstil med TPR, večja je površina pod krivuljo (angl. Area under curve) in posledično je naš model bolj natančen. Napovedni model, ki bi uvrščal popolnoma naključno, bi dosegel AUC 0.5, medtem ko bi model, ki bi vse primere uvrstil pravilno dosegel AUC Točnost napovednih modelov Točnost modelov smo merili na 40 odstotkih učnih podatkov, preostanek pa je bil uporabljen za učenje. Vsak model smo testirali z 10 in 100 drevesi. Izkazalo se je, da povečanje števila dreves močno izboljša napovedno točnost. Rezultati so prikazani v tabeli 4.2. Metoda naključnih gozdov je pričakovano dosegla slabše rezultate, saj smo pri skladanju poleg nje vključili še dve dodatni metodi. Je pa njena izvedba približno 3-krat hitrejša od metode skladanja pri enakem številu dreves, kar je 15

54 36 POGLAVJE 4. NAPOVEDOVANJE Tabela 4.2: Rezultati, ki so jih dosegli napovedni modeli. Model Število dreves AUC Naključni gozdovi Naključni gozdovi Skladanje Skladanje pričakovano, saj namesto enega pri skladanju učimo in napovedujemo z tremi algoritmi, na koncu pa uporabimo še logistično regresijo. Na sliki 4.6 vidimo krivuljo AUC za metodo naključnih gozdov z 10 drevesi (modra krivulja) in 100 drevesi (zelena krivulja). Opazimo, da imata modela do določenega praga precej enak rezultat, potem pa pride do manjše razlike, kjer več dreves da boljši rezultat. Na sliki 4.7 je razvidno, da je imelo število dreves v posameznem klasifikatorju večji vpliv kot pri naključnih gozdovih. Z skladanjem naključnih gozdov, Extra Trees in Gradient Boostinga smo dosegli najboljši rezultat na delu učnih podatkov in sicer 0.79, končni rezultat v okviru tekmovanja na skritih testnih podatki pa je bil Slabši rezultat je najverjetneje posledica nekoliko specifičnih testnih podatkov.

ŠTEVCI PROMETA IN NJIHOVA UPORABA ZA NAMENE STATISTIK ČRT GRAHONJA

ŠTEVCI PROMETA IN NJIHOVA UPORABA ZA NAMENE STATISTIK ČRT GRAHONJA ŠTEVCI PROMETA IN NJIHOVA UPORABA ZA NAMENE STATISTIK ČRT GRAHONJA Navdih Poizvedovanje po BD podatkovnih virih, ki imajo časovno dimenzijo in so dostopni. Večji promet pomeni večje število dobrin in močnejšo

Prikaži več

OSNOVE UMETNE INTELIGENCE

OSNOVE UMETNE INTELIGENCE OSNOVE UMETNE INTELIGENCE 2017/18 regresijska drevesa ocenjevanje učenja linearni modeli k-nn Zoran Bosnić del gradiva povzet po: Bratko: Prolog programming for AI, Pearson (2011) in Russell, Norvig: AI:

Prikaži več

Univerza v Mariboru Fakulteta za naravoslovje in matematiko Oddelek za matematiko in računalništvo Enopredmetna matematika IZPIT IZ VERJETNOSTI IN STA

Univerza v Mariboru Fakulteta za naravoslovje in matematiko Oddelek za matematiko in računalništvo Enopredmetna matematika IZPIT IZ VERJETNOSTI IN STA Enopredmetna matematika IN STATISTIKE Maribor, 31. 01. 2012 1. Na voljo imamo kovanca tipa K 1 in K 2, katerih verjetnost, da pade grb, je p 1 in p 2. (a) Istočasno vržemo oba kovanca. Verjetnost, da je

Prikaži več

PowerPoint Presentation

PowerPoint Presentation Napovedno oglaševanje Kombiniranje internih in eksternih podatkov za boljšo učinkovitost oglaševanja Miloš Suša, iprom Andraž Zorko, Valicon Mojca Pesendorfer, Atlantic Grupa Ljubljana, 22.10.2018 PREDIKTIVNO

Prikaži več

Microsoft Word - SI_vaja5.doc

Microsoft Word - SI_vaja5.doc Univerza v Ljubljani, Zdravstvena fakulteta Sanitarno inženirstvo Statistika Inštitut za biostatistiko in medicinsko informatiko Š.l. 2011/2012, 3. letnik (1. stopnja), Vaja 5 Naloge 1. del: t test za

Prikaži več

Optimizacija z roji delcev - Seminarska naloga pri predmetu Izbrana poglavja iz optimizacije

Optimizacija z roji delcev - Seminarska naloga pri predmetu Izbrana poglavja iz optimizacije Univerza v Ljubljani Fakulteta za matematiko in fiziko Seminarska naloga pri predmetu Izbrana poglavja iz optimizacije 2. junij 2011 Koncept PSO Motivacija: vedenje organizmov v naravi Ideja: koordinirano

Prikaži več

Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 6. julij 2018 Navodila Pazljivo preberite be

Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 6. julij 2018 Navodila Pazljivo preberite be Ime in priimek: Vpisna št: FAKULEA ZA MAEMAIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 6 julij 2018 Navodila Pazljivo preberite besedilo naloge, preden se lotite reševanja Za pozitiven rezultat

Prikaži več

Osnove statistike v fizični geografiji 2

Osnove statistike v fizični geografiji 2 Osnove statistike v geografiji - Metodologija geografskega raziskovanja - dr. Gregor Kovačič, doc. Bivariantna analiza Lastnosti so med sabo odvisne (vzročnoposledično povezane), kadar ena lastnost (spremenljivka

Prikaži več

2. Model multiple regresije

2. Model multiple regresije 2. Model multiple regresije doc. dr. Miroslav Verbič miroslav.verbic@ef.uni-lj.si www.miroslav-verbic.si Ljubljana, februar 2014 2.1 Populacijski regresijski model in regresijski model vzorčnih podatkov

Prikaži več

Univerza v Ljubljani Fakulteta za računalništvo in informatiko David Možina Argumentirano strojno učenje z uporabo logistične regresije MAGISTRSKO DEL

Univerza v Ljubljani Fakulteta za računalništvo in informatiko David Možina Argumentirano strojno učenje z uporabo logistične regresije MAGISTRSKO DEL Univerza v Ljubljani Fakulteta za računalništvo in informatiko David Možina Argumentirano strojno učenje z uporabo logistične regresije MAGISTRSKO DELO MAGISTRSKI PROGRAM DRUGE STOPNJE RAČUNALNIŠTVO IN

Prikaži več

Microsoft Word - SI_vaja1.doc

Microsoft Word - SI_vaja1.doc Univerza v Ljubljani, Zdravstvena fakulteta Sanitarno inženirstvo Statistika Inštitut za biostatistiko in medicinsko informatiko Š.l. 2011/2012, 3. letnik (1. stopnja), Vaja 1 Naloge 1. del: Opisna statistika

Prikaži več

Verjetnost in vzorčenje: teoretske porazdelitve standardne napake ocenjevanje parametrov as. dr. Nino RODE prof. dr. Blaž MESEC

Verjetnost in vzorčenje: teoretske porazdelitve standardne napake ocenjevanje parametrov as. dr. Nino RODE prof. dr. Blaž MESEC Verjetnost in vzorčenje: teoretske porazdelitve standardne napake ocenjevanje parametrov as. dr. Nino RODE prof. dr. Blaž MESEC VERJETNOST osnovni pojmi Poskus: dejanje pri katerem je izid negotov met

Prikaži več

Napovedovanje obsega komentiranja spletnih novic z modeli strojnega ucenja

Napovedovanje obsega komentiranja spletnih novic z modeli strojnega ucenja Univerza v Ljubljani Fakulteta za računalništvo in informatiko Marko Vidoni Napovedovanje obsega komentiranja spletnih novic z modeli strojnega učenja DIPLOMSKO DELO UNIVERZITETNI ŠTUDIJSKI PROGRAM PRVE

Prikaži več

Datum in kraj

Datum in kraj Ljubljana, 5. 4. 2017 Katalog znanj in vzorci nalog za izbirni izpit za vpis na magistrski študij Pedagoško računalništvo in informatika 2017/2018 0 KATALOG ZNANJ ZA IZBIRNI IZPIT ZA VPIS NA MAGISTRSKI

Prikaži več

RAM stroj Nataša Naglič 4. junij RAM RAM - random access machine Bralno pisalni, eno akumulatorski računalnik. Sestavljajo ga bralni in pisalni

RAM stroj Nataša Naglič 4. junij RAM RAM - random access machine Bralno pisalni, eno akumulatorski računalnik. Sestavljajo ga bralni in pisalni RAM stroj Nataša Naglič 4. junij 2009 1 RAM RAM - random access machine Bralno pisalni, eno akumulatorski računalnik. Sestavljajo ga bralni in pisalni trak, pomnilnik ter program. Bralni trak- zaporedje

Prikaži več

Avtomatizirano modeliranje pri celostnem upravljanju z vodnimi viri

Avtomatizirano modeliranje pri celostnem upravljanju z vodnimi viri Univerza v Ljubljani Fakulteta za gradbeništvo in geodezijo 36. Goljevščkov spominski dan Modeliranje kroženja vode in spiranja hranil v porečju reke Pesnice Mateja Škerjanec 1 Tjaša Kanduč 2 David Kocman

Prikaži več

Strojna oprema

Strojna oprema Asistenta: Mira Trebar, Miha Moškon UIKTNT 2 Uvod v programiranje Začeti moramo razmišljati algoritmično sestaviti recept = napisati algoritem Algoritem za uporabo poljubnega okenskega programa. UIKTNT

Prikaži več

predstavitev fakultete za matematiko 2017 A

predstavitev fakultete za matematiko 2017 A ZAKAJ ŠTUDIJ MATEMATIKE? Ker vam je všeč in vam gre dobro od rok! lepa, eksaktna veda, ki ne zastara matematičnoanalitično sklepanje je uporabno povsod matematiki so zaposljivi ZAKAJ V LJUBLJANI? najdaljša

Prikaži več

Orodje za izvoz podatkov

Orodje za izvoz podatkov Pomoč uporabnikom -NA-SI-200, V6.13-00 IZUM, 2018 COBISS, COMARC, COBIB, COLIB, IZUM so zaščitene znamke v lasti javnega zavoda IZUM. KAZALO VSEBINE 1 Uvod... 1 2 Predstavitev orodja za izvoz podatkov...

Prikaži več

Microsoft Word - A-3-Dezelak-SLO.doc

Microsoft Word - A-3-Dezelak-SLO.doc 20. posvetovanje "KOMUNALNA ENERGETIKA / POWER ENGINEERING", Maribor, 2011 1 ANALIZA OBRATOVANJA HIDROELEKTRARNE S ŠKOLJČNIM DIAGRAMOM Klemen DEŽELAK POVZETEK V prispevku je predstavljena možnost izvedbe

Prikaži več

Microsoft Word - Objave citati RIF in patentne prijave za MP.doc

Microsoft Word - Objave citati RIF in patentne prijave za MP.doc Primerjalna analiza gibanja števila objav, citatov, relativnega faktorja vpliva in patentnih prijav pri Evropskem patentnem uradu I. Uvod Število objav in citatov ter relativni faktor vpliva so najbolj

Prikaži več

Napovedovanje custvene naravnanosti avtorjev v spletnih komentarjih

Napovedovanje custvene naravnanosti avtorjev v spletnih komentarjih Univerza v Ljubljani Fakulteta za računalništvo in informatiko Urška Kosec Napovedovanje čustvene naravnanosti avtorjev v spletnih komentarjih DIPLOMSKO DELO UNIVERZITETNI ŠTUDIJSKI PROGRAM RAČUNALNIŠTVO

Prikaži več

Geometrija v nacionalnih preverjanjih znanja

Geometrija v nacionalnih preverjanjih znanja Geometrija v nacionalnih preverjanjih znanja Aleš Kotnik, OŠ Rada Robiča Limbuš Boštjan Repovž, OŠ Krmelj Struktura NPZ za 6. razred Struktura NPZ za 9. razred Taksonomska stopnja (raven) po Gagneju I

Prikaži več

Orodje za razporejanje clankov na konferencah

Orodje za razporejanje clankov na konferencah Univerza v Ljubljani Fakulteta za računalništvo in informatiko Tadej Škvorc Orodje za razporejanje člankov na konferencah DIPLOMSKO DELO UNIVERZITETNI ŠTUDIJSKI PROGRAM PRVE STOPNJE RAČUNALNIŠTVO IN INFORMATIKA

Prikaži več

E-nepremična inženirska zakladnica

E-nepremična inženirska zakladnica Smetanova ulica 17 2000 Maribor, Slovenija E-NEPREMIČNA INŽENIRSKA ZAKLADNICA - TEHNIŠKE FAKULTETE Naročnik: Energetika Maribor d.o.o. Vodja projekta: Daniela Dvornik Perhavec Fakultete za gradbeništvo,

Prikaži več

UNIVERZA V LJUBLJANI FAKULTETA ZA MATEMATIKO IN FIZIKO Katja Ciglar Analiza občutljivosti v Excel-u Seminarska naloga pri predmetu Optimizacija v fina

UNIVERZA V LJUBLJANI FAKULTETA ZA MATEMATIKO IN FIZIKO Katja Ciglar Analiza občutljivosti v Excel-u Seminarska naloga pri predmetu Optimizacija v fina UNIVERZA V LJUBLJANI FAKULTETA ZA MATEMATIKO IN FIZIKO Katja Ciglar Analiza občutljivosti v Excel-u Seminarska naloga pri predmetu Optimizacija v financah Ljubljana, 2010 1. Klasični pristop k analizi

Prikaži več

2

2 LETNO POROČILO O KAKOVOSTI ZA RAZISKOVANJE ČETRTLETNO STATISTIČNO RAZISKOVANJE O ELEKTRONSKIH KOMUNIKACIJSKIH STORITVAH (KO-TEL/ČL) IN LETNO STATISTIČNO RAZISKOVANJE O ELEKTRONSKIH KOMUNIKACIJSKIH STORITVAH

Prikaži več

Microsoft Word - Analiza rezultatov NPZ slovenscina 2018.docx

Microsoft Word - Analiza rezultatov NPZ slovenscina 2018.docx OSNOVNA ŠOLA SOSTRO POROČILO O ANALIZI DOSEŽKOV NACIONALNEGA PREVERJANJA ZNANJA IZ SLOVENŠČINE leta 2018 Pripravile učiteljice slovenščine: Renata More, Martina Golob, Petra Aškerc, Katarina Leban Škoda

Prikaži več

Microsoft PowerPoint _12_15-11_predavanje(1_00)-IR-pdf

Microsoft PowerPoint _12_15-11_predavanje(1_00)-IR-pdf uporaba for zanke i iz korak > 0 oblika zanke: for i iz : korak : ik NE i ik DA stavek1 stavek2 stavekn stavek1 stavek2 stavekn end i i + korak I&: P-XI/1/17 uporaba for zanke i iz korak < 0 oblika zanke:

Prikaži več

Delavnica Načrtovanje digitalnih vezij

Delavnica Načrtovanje digitalnih vezij Laboratorij za načrtovanje integriranih vezij Univerza v Ljubljani Fakulteta za elektrotehniko Digitalni Elektronski Sistemi Osnove jezika VHDL Strukturno načrtovanje in testiranje Struktura vezja s komponentami

Prikaži več

Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 31. avgust 2018 Navodila Pazljivo preberite

Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 31. avgust 2018 Navodila Pazljivo preberite Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 31 avgust 018 Navodila Pazljivo preberite besedilo naloge, preden se lotite reševanja Za pozitiven

Prikaži več

Podatkovni model ER

Podatkovni model ER Podatkovni model Entiteta- Razmerje Iztok Savnik, FAMNIT 2018/19 Pregled: Načrtovanje podatkovnih baz Konceptualno načtrovanje: (ER Model) Kaj so entite in razmerja v aplikacijskem okolju? Katere podatke

Prikaži več

Microsoft PowerPoint - Lapajne&Randl2015.pptx

Microsoft PowerPoint - Lapajne&Randl2015.pptx RAZISKAVA OB PREDVIDENI SELITVI KNJIŽNIC OHK Raziskava je potekala v okviru predmetov Raziskovalne metode in Uporabniki informacijskih virov in storitev pod mentorstvom treh profesorjev (dr. Pisanski,

Prikaži več

Osnove matematicne analize 2018/19

Osnove matematicne analize  2018/19 Osnove matematične analize 2018/19 Neža Mramor Kosta Fakulteta za računalništvo in informatiko Univerza v Ljubljani Funkcija je predpis, ki vsakemu elementu x iz definicijskega območja D f R priredi natanko

Prikaži več

Microsoft Word - vprasalnik_AZU2007.doc

Microsoft Word - vprasalnik_AZU2007.doc REPUBLIKA SLOVENIJA Anketa o zadovoljstvu uporabnikov statističnih podatkov in informacij Statističnega urada RS 1. Kako pogosto ste v zadnjem letu uporabljali statistične podatke in informacije SURS-a?

Prikaži več

Microsoft Word - M doc

Microsoft Word - M doc Državni izpitni center *M11145113* INFORMATIKA SPOMLADANSKI IZPITNI ROK NAVODILA ZA OCENJEVANJE Petek, 10. junij 2011 SPLOŠNA MATURA RIC 2011 2 M111-451-1-3 IZPITNA POLA 1 1. b 2. a 3. Pojem se povezuje

Prikaži več

FGG13

FGG13 10.8 Metoda zveznega nadaljevanja To je metoda za reševanje nelinearne enačbe f(x) = 0. Če je težko poiskati začetni približek (še posebno pri nelinearnih sistemih), si lahko pomagamo z uvedbo dodatnega

Prikaži več

GHOSTBUSTERS navodila za učitelje O PROJEKTU S tem projektom se učenci sami naučijo izdelati igro. Ustvariti morajo več ikon (duhcov ali kaj drugega)

GHOSTBUSTERS navodila za učitelje O PROJEKTU S tem projektom se učenci sami naučijo izdelati igro. Ustvariti morajo več ikon (duhcov ali kaj drugega) GHOSTBUSTERS navodila za učitelje O PROJEKTU S tem projektom se učenci sami naučijo izdelati igro. Ustvariti morajo več ikon (duhcov ali kaj drugega) in za vsako napisati svojo kodo. Dve ikoni imata isto

Prikaži več

Microsoft Word - UP_Lekcija04_2014.docx

Microsoft Word - UP_Lekcija04_2014.docx 4. Zanka while Zanke pri programiranju uporabljamo, kadar moramo stavek ali skupino stavkov izvršiti večkrat zaporedoma. Namesto, da iste (ali podobne) stavke pišemo n-krat, jih napišemo samo enkrat in

Prikaži več

ACAD-BAU-Analiza-prostorov

ACAD-BAU-Analiza-prostorov ANALIZA PROSTOROV Ko obdelujemo večje projekte, je analiza prostorov zelo pomembna v vseh fazah projektiranja. Pri idejnem snovanju moramo npr. za določeno površino trgovske namembnosti zagotoviti primerno

Prikaži več

Poročilo za 1. del seminarske naloge- igrica Kača Opis igrice Kača (Snake) je klasična igrica, pogosto prednaložena na malce starejših mobilnih telefo

Poročilo za 1. del seminarske naloge- igrica Kača Opis igrice Kača (Snake) je klasična igrica, pogosto prednaložena na malce starejših mobilnih telefo Poročilo za 1. del seminarske naloge- igrica Kača Opis igrice Kača (Snake) je klasična igrica, pogosto prednaložena na malce starejših mobilnih telefonih. Obstaja precej različic, sam pa sem sestavil meni

Prikaži več

Microsoft Word - CNC obdelava kazalo vsebine.doc

Microsoft Word - CNC obdelava kazalo vsebine.doc ŠOLSKI CENTER NOVO MESTO VIŠJA STROKOVNA ŠOLA STROJNIŠTVO DIPLOMSKA NALOGA Novo mesto, april 2008 Ime in priimek študenta ŠOLSKI CENTER NOVO MESTO VIŠJA STROKOVNA ŠOLA STROJNIŠTVO DIPLOMSKA NALOGA Novo

Prikaži več

Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost Pisni izpit 5. februar 2018 Navodila Pazljivo preberite

Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost Pisni izpit 5. februar 2018 Navodila Pazljivo preberite Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost Pisni izpit 5 februar 018 Navodila Pazljivo preberite besedilo naloge, preden se lotite reševanja Nalog je

Prikaži več

MATLAB programiranje MATLAB... programski jezik in programersko okolje Zakaj Matlab? tipičen proceduralni jezik enostaven za uporabo hitro učenje prir

MATLAB programiranje MATLAB... programski jezik in programersko okolje Zakaj Matlab? tipičen proceduralni jezik enostaven za uporabo hitro učenje prir MATLAB programiranje MATLAB... programski jezik in programersko okolje Zakaj Matlab? tipičen proceduralni jezik enostaven za uporabo hitro učenje priročno programsko okolje tolmač interpreter (ne prevajalnik)

Prikaži več

AKCIJSKO RAZISKOVANJE INOVACIJSKI PROJEKT ZA ZNANJE IN SPOŠTOVANJE Udeleženci: Učenci 2. c Razredničarka: Irena Železnik, prof. Učni predmet: MAT Učna

AKCIJSKO RAZISKOVANJE INOVACIJSKI PROJEKT ZA ZNANJE IN SPOŠTOVANJE Udeleženci: Učenci 2. c Razredničarka: Irena Železnik, prof. Učni predmet: MAT Učna AKCIJSKO RAZISKOVANJE INOVACIJSKI PROJEKT ZA ZNANJE IN SPOŠTOVANJE Udeleženci: Učenci 2. c Razredničarka: Irena Železnik, prof. Učni predmet: MAT Učna vsebina: Ustno seštevanje in odštevanje do 20 sprehodom

Prikaži več

PKP projekt SMART WaterNet_Opis

PKP projekt SMART WaterNet_Opis PKP projekt SMART WaterNet Po kreativni poti do znanja (PKP) opis programa Program Po kreativni poti do znanja omogoča povezovanje visokošolskih zavodov s trgom dela in tako daje možnost študentom za pridobitev

Prikaži več

Microsoft Word - RAZISKAVA_II._del.doc

Microsoft Word - RAZISKAVA_II._del.doc DEJAVNIKI VARNOSTI CESTNEGA PROMETA V SLOVENIJI Raziskava II. del Inštitut za kriminologijo pri Pravni fakulteti v Ljubljani Ljubljana, avgusta 2010 Vodja raziskave: dr. Dragan Petrovec Izvajalci in avtorji:

Prikaži več

Algoritmicno podprta optimizacija pospeševanja prodaje

Algoritmicno podprta optimizacija pospeševanja prodaje Univerza v Ljubljani Fakulteta za računalništvo in informatiko Nikolaj Janko Algoritmično podprta optimizacija pospeševanja prodaje MAGISTRSKO DELO MAGISTRSKI PROGRAM DRUGE STOPNJE RAČUNALNIŠTVO IN INFORMATIKA

Prikaži več

EKVITABILNE PARTICIJE IN TOEPLITZOVE MATRIKE Aleksandar Jurišić Politehnika Nova Gorica in IMFM Vipavska 13, p.p. 301, Nova Gorica Slovenija Štefko Mi

EKVITABILNE PARTICIJE IN TOEPLITZOVE MATRIKE Aleksandar Jurišić Politehnika Nova Gorica in IMFM Vipavska 13, p.p. 301, Nova Gorica Slovenija Štefko Mi EKVITABILNE PARTICIJE IN TOEPLITZOVE MATRIKE Aleksandar Jurišić Politehnika Nova Gorica in IMFM Vipavska 13, p.p. 301, Nova Gorica Slovenija Štefko Miklavič 30. okt. 2003 Math. Subj. Class. (2000): 05E{20,

Prikaži več

Navodila za pripravo spletnih oglasov

Navodila za pripravo spletnih oglasov Navodila za pripravo spletnih oglasov Gradivo pošljite na naslov spletnioglasi@finance.si. Rok oddaje: dva delovna dneva pred začetkom akcije. Zahtevajte potrditev prejema gradiva in njegovo ustreznost.

Prikaži več

Chapter 1

Chapter 1 - 1 - Poglavje 1 Uvod v podatkovne baze - 2 - Poglavje 1 Cilji (Teme).. Nekatere domene, kjer se uporabljajo podatkovne baze Značilnosti datotečnih sistemov Problemi vezani na datotečne sisteme Pomen izraza

Prikaži več

Učinkovita izvedba algoritma Goldberg-Tarjan Teja Peklaj 26. februar Definicije Definicija 1 Naj bo (G, u, s, t) omrežje, f : E(G) R, za katero v

Učinkovita izvedba algoritma Goldberg-Tarjan Teja Peklaj 26. februar Definicije Definicija 1 Naj bo (G, u, s, t) omrežje, f : E(G) R, za katero v Učinkovita izvedba algoritma Goldberg-Tarjan Teja Peklaj 26. februar 2009 1 Definicije Definicija 1 Naj bo (G, u, s, t) omrežje, f : E(G) R, za katero velja 0 f(e) u(e) za e E(G). Za v V (G) definiramo presežek

Prikaži več

3. Metode, ki temeljijo na minimalnem ostanku Denimo, da smo z Arnoldijevim algoritmom zgenerirali ON bazo podprostora Krilova K k (A, r 0 ) in velja

3. Metode, ki temeljijo na minimalnem ostanku Denimo, da smo z Arnoldijevim algoritmom zgenerirali ON bazo podprostora Krilova K k (A, r 0 ) in velja 3. Metode, ki temeljijo na minimalnem ostanku Denimo, da smo z Arnoldijevim algoritmom zgenerirali ON bazo podprostora Krilova K k (A, r 0 ) in velja AV k = V k H k + h k+1,k v k+1 e T k = V kh k+1,k.

Prikaži več

Vaje: Matrike 1. Ugani rezultat, nato pa dokaži z indukcijo: (a) (b) [ ] n 1 1 ; n N 0 1 n ; n N Pokaži, da je množica x 0 y 0 x

Vaje: Matrike 1. Ugani rezultat, nato pa dokaži z indukcijo: (a) (b) [ ] n 1 1 ; n N 0 1 n ; n N Pokaži, da je množica x 0 y 0 x Vaje: Matrike 1 Ugani rezultat, nato pa dokaži z indukcijo: (a) (b) [ ] n 1 1 ; n N n 1 1 0 1 ; n N 0 2 Pokaži, da je množica x 0 y 0 x y x + z ; x, y, z R y x z x vektorski podprostor v prostoru matrik

Prikaži več

Reliability estimation of individual predictions

Reliability estimation of individual predictions Ocenjevanje zanesljivosti posameznih napovedi pri nadzorovanem učenju Darko Pevec DOKTORSKA DISERTACIJA PREDANA FAKULTETI ZA RAčUNALNIšTVO IN INFORMATIKO KOT DEL IZPOLNJEVANJA POGOJEV ZA PRIDOBITEV NAZIVA

Prikaži več

Matematika Diferencialne enačbe prvega reda (1) Reši diferencialne enačbe z ločljivimi spremenljivkami: (a) y = 2xy, (b) y tg x = y, (c) y = 2x(1 + y

Matematika Diferencialne enačbe prvega reda (1) Reši diferencialne enačbe z ločljivimi spremenljivkami: (a) y = 2xy, (b) y tg x = y, (c) y = 2x(1 + y Matematika Diferencialne enačbe prvega reda (1) Reši diferencialne enačbe z ločljivimi spremenljivkami: (a) y = 2xy, (b) y tg x = y, (c) y = 2x(1 + y 2 ). Rešitev: Diferencialna enačba ima ločljive spremenljivke,

Prikaži več

ČLANKI UDK :004.8 Umetna inteligenca v bančništvu univerzalno orodje? Dušan Fister, Iztok Jr. Fister in Timotej Jagrič* ARTIFICIAL INTELLIGENCE

ČLANKI UDK :004.8 Umetna inteligenca v bančništvu univerzalno orodje? Dušan Fister, Iztok Jr. Fister in Timotej Jagrič* ARTIFICIAL INTELLIGENCE UDK 336.71:004.8 Umetna inteligenca v bančništvu univerzalno orodje? Dušan Fister, Iztok Jr. Fister in Timotej Jagrič* ARTIFICIAL INTELLIGENCE IN BANKING A UNIVERSAL TOOL? This article presents the application

Prikaži več

COBISS3/Medknjižnična izposoja

COBISS3/Medknjižnična izposoja 3/Medknjižnična izposoja 2.2 KATALOG Katalog nam omogoča: iskanje gradiva prikaz izbranih bibliografskih zapisov ali pripadajočih podatkov o zalogi iz lokalne baze podatkov v formatu COMARC vpogled v stanje

Prikaži več

PowerPointova predstavitev

PowerPointova predstavitev SKLOP 1: EKONOMIKA KMETIJSKEGA GOSPODARSTVA Upravljanje kmetijskih gospodarstev Tomaž Cör, KGZS Zavod KR Vsem značilnostim kmetijstva mora biti prilagojeno tudi upravljanje kmetij. Ker gre pri tem za gospodarsko

Prikaži več

Folie 1

Folie 1 S&TLabs Innovations mag. Damjan Kosec, S&T Slovenija d.d. marec 2013 S&TLabs Laboratorij za inovacije in razvoj spletnih in mobilnih informacijskih rešitev Kako boste spremenili svoj poslovni model na

Prikaži več

Teorija kodiranja in kriptografija 2013/ AES

Teorija kodiranja in kriptografija 2013/ AES Teorija kodiranja in kriptografija 23/24 AES Arjana Žitnik Univerza v Ljubljani, Fakulteta za matematiko in fiziko Ljubljana, 8. 3. 24 AES - zgodovina Septembra 997 je NIST objavil natečaj za izbor nove

Prikaži več

PRIPOROČILA ZA OBLIKOVANJE KATALOGOV ZNANJA ZA MODULE V PROGRAMIH VIŠJEGA STROKOVNEGA IZOBRAŽEVANJA

PRIPOROČILA ZA OBLIKOVANJE KATALOGOV ZNANJA ZA MODULE V PROGRAMIH VIŠJEGA STROKOVNEGA IZOBRAŽEVANJA KATALOG ZNANJA 1. IME PREDMETA ZBIRKE PODATKOV I ZBIRKE PODATKOV II 2. SPLOŠNI CILJI Splošni cilji predmeta so: razvijanje sposobnosti za uporabo znanstvenih metod in sredstev, razvijanje odgovornosti

Prikaži več

2019 QA_Final SL

2019 QA_Final SL Predhodni prispevki v enotni sklad za reševanje za leto 2019 Vprašanja in odgovori Splošne informacije o metodologiji izračuna 1. Zakaj se je metoda izračuna, ki je za mojo institucijo veljala v prispevnem

Prikaži več

glava.dvi

glava.dvi Lastnosti verjetnosti 1. Za dogodka A in B velja: P(A B) = P(A) + P(B) P(A B) 2. Za dogodke A, B in C velja: P(A B C) = P(A) + P(B) + P(C) P(A B) P(A C) P(B C) + P(A B C) Kako lahko to pravilo posplošimo

Prikaži več

LaTeX slides

LaTeX slides Statistični modeli - interakcija - Milena Kovač 23. november 2007 Biometrija 2007/08 1 Število živorojenih pujskov Biometrija 2007/08 2 Sestavimo model! Vplivi: leto, farma Odvisna spremenljivka: število

Prikaži več

1 MMK - Spletne tehnologije Vaja 5: Spletni obrazci Vaja 5 : Spletni obrazci 1. Element form Spletni obrazci so namenjeni zbiranju uporabniških podatk

1 MMK - Spletne tehnologije Vaja 5: Spletni obrazci Vaja 5 : Spletni obrazci 1. Element form Spletni obrazci so namenjeni zbiranju uporabniških podatk 1 MMK - Spletne tehnologije Vaja 5: Spletni obrazci Vaja 5 : Spletni obrazci 1. Element form Spletni obrazci so namenjeni zbiranju uporabniških podatkov in njihov prenos med spletnimi mesti. Obrazec v

Prikaži več

Microsoft PowerPoint - Mocnik.pptx

Microsoft PowerPoint - Mocnik.pptx MATEMATIČNA PISMENOST IN MATEMATIČNI PROBLEMI Metoda Močnik in Alenka Podbrežnik KAJ NAS JE ZANIMALO? ugotoviti, v kolikšni meri so učenci uspešni pri samostojnem, nevodenemreševanju matematičnih besedilnih,

Prikaži več

Microsoft Word - 021_01_13_Pravilnik_o_zakljucnem delu

Microsoft Word - 021_01_13_Pravilnik_o_zakljucnem delu Na podlagi 64. člena Pravil o organizaciji in delovanju Fakultete za humanistične študije, št. 011-01/13 z dne 27. 6. 2013, je Senat Univerze na Primorskem Fakultete za humanistične študije na svoji 4.

Prikaži več

scratch

scratch Scratch 2 Igra Možganov V tem projektu se boste naučili, kako narediti kviz za množenje števil. V kvizu bo potrebno v 30 sekundah pravilno odgovoriti na čimveč vprašanj. Seznam aktivnosti Testiraj svoj

Prikaži več

Kazalo 1 DVOMESTNE RELACIJE Operacije z dvomestnimi relacijami Predstavitev relacij

Kazalo 1 DVOMESTNE RELACIJE Operacije z dvomestnimi relacijami Predstavitev relacij Kazalo 1 DVOMESTNE RELACIJE 1 1.1 Operacije z dvomestnimi relacijami...................... 2 1.2 Predstavitev relacij............................... 3 1.3 Lastnosti relacij na dani množici (R X X)................

Prikaži več

GOALS

GOALS BELGIAN DEFENCE FORCES General Directorate Material Resources Section Ammunition Risk Management HQ Queen ELISABETH Rue d'evere, 1 1140 BRUSSELS BELGIUM (BE)AC326(SG5) IWP 2012-01(I) 26. marec 2012 ORODJE

Prikaži več

7. VAJA A. ENAČBA ZBIRALNE LEČE

7. VAJA A. ENAČBA ZBIRALNE LEČE 7. VAJA A. ENAČBA ZBIRALNE LEČE 1. UVOD Enačbo leče dobimo navadno s pomočjo geometrijskih konstrukcij. V našem primeru bomo do te enačbe prišli eksperimentalno, z merjenjem razdalj a in b. 2. NALOGA Izračunaj

Prikaži več

Naslov

Naslov Kriminaliteta v mestnih občinah v Republiki Sloveniji KATJA EMAN ROK HACIN 1 Uvod Meško (2016) kriminaliteto zločinstvenost ali hudodelstvo opredeli kot skupek ravnanj, ki napadajo ali ogrožajo tako temeljne

Prikaži več

FGG14

FGG14 Iterativne metode podprostorov Iterativne metode podprostorov uporabljamo za numerično reševanje linearnih sistemov ali računanje lastnih vrednosti problemov z velikimi razpršenimi matrikami, ki so prevelike,

Prikaži več

6.1 Uvod 6 Igra Chomp Marko Repše, Chomp je nepristranska igra dveh igralcev s popolno informacijo na dvo (ali vec) dimenzionalnem prostoru

6.1 Uvod 6 Igra Chomp Marko Repše, Chomp je nepristranska igra dveh igralcev s popolno informacijo na dvo (ali vec) dimenzionalnem prostoru 6.1 Uvod 6 Igra Chomp Marko Repše, 30.03.2009 Chomp je nepristranska igra dveh igralcev s popolno informacijo na dvo (ali vec) dimenzionalnem prostoru in na končni ali neskončni čokoladi. Igralca si izmenjujeta

Prikaži več

PowerPointova predstavitev

PowerPointova predstavitev Obravnava kotov za učence s posebnimi potrebami Reading of angles for pupils with special needs Petra Premrl OŠ Danila Lokarja Ajdovščina OSNOVNA ŠOLA ENAKOVREDNI IZOBRAZBENI STANDARD NIŽJI IZOBRAZBENI

Prikaži več

Document ID / Revision : 0519/1.3 ID Issuer System (sistem izdajatelja identifikacijskih oznak) Navodila za registracijo gospodarskih subjektov

Document ID / Revision : 0519/1.3 ID Issuer System (sistem izdajatelja identifikacijskih oznak) Navodila za registracijo gospodarskih subjektov ID Issuer System (sistem izdajatelja identifikacijskih oznak) Navodila za registracijo gospodarskih subjektov Gospodarski subjekti Definicija: V skladu z 2. členom Izvedbene uredbe Komisije (EU) 2018/574

Prikaži več

NAVODILA AVTORJEM PRISPEVKOV

NAVODILA AVTORJEM PRISPEVKOV Predmetna komisija za nižji izobrazbeni standard matematika Opisi dosežkov učencev 6. razreda na nacionalnem preverjanju znanja Slika: Porazdelitev točk pri matematiki (NIS), 6. razred 1 ZELENO OBMOČJE

Prikaži več

Slide 1

Slide 1 Vsak vektor na premici skozi izhodišče lahko zapišemo kot kjer je v smerni vektor premice in a poljubno število. r a v Vsak vektor na ravnini skozi izhodišče lahko zapišemo kot kjer sta v, v vektorja na

Prikaži več

Univerza v Ljubljani FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO Tržaška c. 25, 1000 Ljubljana Realizacija n-bitnega polnega seštevalnika z uporabo kvan

Univerza v Ljubljani FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO Tržaška c. 25, 1000 Ljubljana Realizacija n-bitnega polnega seštevalnika z uporabo kvan Univerza v Ljubljani FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO Tržaška c. 25, 1000 Ljubljana Realizacija n-bitnega polnega seštevalnika z uporabo kvantnih celičnih avtomatov SEMINARSKA NALOGA Univerzitetna

Prikaži več

1 Diskretni naklju ni vektorji 1 1 Diskretni naklju ni vektorji 1. Dopolni tabelo tako, da bosta X in Y neodvisni. X Y x x x x x

1 Diskretni naklju ni vektorji 1 1 Diskretni naklju ni vektorji 1. Dopolni tabelo tako, da bosta X in Y neodvisni. X Y x x x x x 1 Diskretni naklju ni vektorji 1 1 Diskretni naklju ni vektorji 1. Dopolni tabelo tako, da bosta X in Y neodvisni. X Y 0 1 2 1 1-1 x x 20 10 1 0 x x x 10 1 1 x x x 20 x x x 1 Dolo i ²e spremenljivko Z,

Prikaži več

PRILOGA 2 Minimalni standardi kakovosti oskrbe za izbrane dimenzije kakovosti oskrbe in raven opazovanja posameznih parametrov kakovosti oskrbe 1. NEP

PRILOGA 2 Minimalni standardi kakovosti oskrbe za izbrane dimenzije kakovosti oskrbe in raven opazovanja posameznih parametrov kakovosti oskrbe 1. NEP PRILOGA 2 Minimalni standardi kakovosti oskrbe za izbrane dimenzije kakovosti oskrbe in raven opazovanja posameznih parametrov kakovosti oskrbe 1. NEPREKINJENOST NAPAJANJA 1.1. Ciljna raven neprekinjenosti

Prikaži več

EU-TPD 1 PODROBNOSTI KODIRANJA Informacije za trgovino JB za DCTA, (Final 1.2) Obveznost kodiranja izdelka, urejena s predpisom EU-TPD se n

EU-TPD 1 PODROBNOSTI KODIRANJA Informacije za trgovino JB za DCTA, (Final 1.2) Obveznost kodiranja izdelka, urejena s predpisom EU-TPD se n EU-TPD 1 PODROBNOSTI KODIRANJA Informacije za trgovino Obveznost kodiranja izdelka, urejena s predpisom EU-TPD se nanaša na tobačne izdelke na trgu EU in na tobačne izdelke, izdelane v EU, vključno s tistimi

Prikaži več

Slide 1

Slide 1 Projektno vodenje PREDAVANJE 7 doc. dr. M. Zajc matej.zajc@fe.uni-lj.si Projektno vodenje z orodjem Excel Predstavitev Najbolj razširjeno orodje za delo s preglednicami Dva sklopa funkcij: Obdelava številk

Prikaži več

Iskanje in razvršcanje spletnih trgovin

Iskanje in razvršcanje spletnih trgovin Univerza v Ljubljani Fakulteta za računalništvo in informatiko Aron Birsa Iskanje in razvrščanje spletnih trgovin DIPLOMSKO DELO VISOKOŠOLSKI STROKOVNI ŠTUDIJSKI PROGRAM PRVE STOPNJE RAČUNALNIŠTVO IN INFORMATIKA

Prikaži več

PowerPoint-Präsentation

PowerPoint-Präsentation ENERGETSKO POGODBENIŠTVO (EPC) V JAVNIH STAVBAH Podpora pri izvajanju energetske prenove stavb na lokalni ravni z mehanizmom energetskega pogodbeništva 12.10.2016, LJUBLJANA NIKO NATEK, KSSENA Projekt

Prikaži več

Vrste

Vrste Matematika 1 17. - 24. november 2009 Funkcija, ki ni algebraična, se imenuje transcendentna funkcija. Podrobneje si bomo ogledali naslednje transcendentne funkcije: eksponentno, logaritemsko, kotne, ciklometrične,

Prikaži več

Diapozitiv 1

Diapozitiv 1 Računalništvo in informatika Program: Mehatronika dr. Hubert Fröhlich, univ. dipl. el. Podatkovne baze 2 Podatkovne baze Podatki osnova za odločanje in izvajanje akcij tiskana oblika elektronska oblika

Prikaži več

Navodila za pripravo oglasov na strani Med.Over.Net v 2.2 Statistično najboljši odziv uporabnikov je na oglase, ki hitro in neposredno prenesejo osnov

Navodila za pripravo oglasov na strani Med.Over.Net v 2.2 Statistično najboljši odziv uporabnikov je na oglase, ki hitro in neposredno prenesejo osnov Navodila za pripravo oglasov na strani Med.Over.Net v 2.2 Statistično najboljši odziv uporabnikov je na oglase, ki hitro in neposredno prenesejo osnovno sporočilo. Izogibajte se daljših besedil in predolgih

Prikaži več

3. Preizkušanje domnev

3. Preizkušanje domnev 3. Preizkušanje domnev doc. dr. Miroslav Verbič miroslav.verbic@ef.uni-lj.si www.miroslav-verbic.si Ljubljana, februar 2014 3.1 Izračunavanje intervala zaupanja za vrednosti regresijskih koeficientov Motivacija

Prikaži več

Diapozitiv 1

Diapozitiv 1 9. Funkcije 1 9. 1. F U N K C I J A m a i n () 9.2. D E F I N I C I J A F U N K C I J E 9.3. S T A V E K r e t u r n 9.4. K L I C F U N K C I J E I N P R E N O S P A R A M E T R O V 9.5. P R E K R I V

Prikaži več

DN5(Kor).dvi

DN5(Kor).dvi Koreni Število x, ki reši enačbo x n = a, imenujemo n-ti koren števila a in to označimo z n a. Pri tem je n naravno število, a pa poljubno realno število. x = n a x n = a. ( n a ) n = a. ( n a ) m = n

Prikaži več

Osnove verjetnosti in statistika

Osnove verjetnosti in statistika Osnove verjetnosti in statistika Gašper Fijavž Fakulteta za računalništvo in informatiko Univerza v Ljubljani Ljubljana, 26. februar 2010 Poskus in dogodek Kaj je poskus? Vržemo kovanec. Petkrat vržemo

Prikaži več

Analiza infrardecih spektrov z globokimi nevronskimi mrežami

Analiza infrardecih spektrov z globokimi nevronskimi mrežami Univerza v Ljubljani Fakulteta za računalništvo in informatiko Tina Avbelj Analiza infrardečih spektrov z globokimi nevronskimi mrežami DIPLOMSKO DELO INTERDISCIPLINARNI UNIVERZITETNI ŠTUDIJSKI PROGRAM

Prikaži več

STAVKI _5_

STAVKI _5_ 5. Stavki (Teoremi) Vsebina: Stavek superpozicije, stavek Thévenina in Nortona, maksimalna moč na bremenu (drugič), stavek Tellegena. 1. Stavek superpozicije Ta stavek določa, da lahko poljubno vezje sestavljeno

Prikaži več

Turingov stroj in programiranje Barbara Strniša Opis in definicija Definirajmo nekaj oznak: Σ abeceda... končna neprazna množica simbolo

Turingov stroj in programiranje Barbara Strniša Opis in definicija Definirajmo nekaj oznak: Σ abeceda... končna neprazna množica simbolo Turingov stroj in programiranje Barbara Strniša 12. 4. 2010 1 Opis in definicija Definirajmo nekaj oznak: Σ abeceda... končna neprazna množica simbolov (običajno Σ 2) Σ n = {s 1 s 2... s n ; s i Σ, i =

Prikaži več

UPRAVLJANJE RAZPRŠENIH PODATKOV Shranjevanje, zaščita in vzdrževanje informacij, ki jih najbolj potrebujete

UPRAVLJANJE RAZPRŠENIH PODATKOV Shranjevanje, zaščita in vzdrževanje informacij, ki jih najbolj potrebujete UPRAVLJANJE RAZPRŠENIH PODATKOV Shranjevanje, zaščita in vzdrževanje informacij, ki jih najbolj potrebujete ELEKTRONSKI PODATKI, KI JIH ORGANIZACIJA USTVARJA IN POTREBUJE ZA DOSTOP, SE KAŽEJO V RAZLIČNIH

Prikaži več

5 SIMPLICIALNI KOMPLEKSI Definicija 5.1 Vektorji r 0,..., r k v R n so afino neodvisni, če so vektorji r 1 r 0, r 2 r 0,..., r k r 0 linearno neodvisn

5 SIMPLICIALNI KOMPLEKSI Definicija 5.1 Vektorji r 0,..., r k v R n so afino neodvisni, če so vektorji r 1 r 0, r 2 r 0,..., r k r 0 linearno neodvisn 5 SIMPLICIALNI KOMPLEKSI Definicija 5.1 Vektorji r 0,..., r k v R n so afino neodvisni, če so vektorji r 1 r 0, r 2 r 0,..., r k r 0 linearno neodvisni. Če so krajevni vektorji do točk a 0,..., a k v R

Prikaži več

Microsoft Word - M docx

Microsoft Word - M docx Š i f r a k a n d i d a t a : Državni izpitni center *M17178111* SPOMLADANSKI IZPITNI ROK Izpitna pola 1 Četrtek, 1. junij 2017 / 90 minut Dovoljeno gradivo in pripomočki: Kandidat prinese nalivno pero

Prikaži več