Matej Mlakar SAMOOJAČITVENO UČENJE Diplomsko delo Maribor, junij 2012
|
|
- Bogomir Majcen
- pred 4 leti
- Pregledov:
Transkripcija
1 Matej Mlakar SAMOOJAČITVENO UČENJE Diplomsko delo Maribor, junij 2012
2 Diplomsko delo univerzitetnega študijskega programa SAMOOJAČITVENO UČENJE Diplomsko delo Študent: Študijski program: Mentor(ica): Somentor(ica): Matej Mlakar Univerzitetni, Računalništvo in informacijske tehnologije izr. prof. dr. Strnad Damjan red. prof. dr. Guid Nikola
3 i
4 ZAHVALA Zahvaljujem se mentorju, izr. prof. dr. Damjanu Strnadu, za pomoč in vodenje pri opravljanju diplomskega dela. Prav tako se zahvaljujem somentorju, red. prof. dr. Nikoli Guidu. Posebna zahvala velja staršem, ki so mi omogočili študij. ii
5 SAMOOJAČITVENO UČENJE Ključne besede: strojno učenje, nenadzorovano učenje, mreţno okolje lovec-plen UDK: :004.4(043.2) Povzetek: V diplomskem delu predstavljamo samoojačitveno učenje, ki je področje strojnega učenja in se ukvarja z vprašanjem, kako naj agent deluje v okolju, da doseže čim večjo nagrado. V nalogi opravimo splošen pregled te teme, nato podrobneje opišemo nekaj pomembnejših metod, eno izmed njih pa implementiramo v mrežnem okolju lovecplen. Na koncu predstavimo še naš program ter analiziramo dobljene rezultate. iii
6 REINFORCEMENT LEARNING Keywords: machine learning, unsupervised learning, predator-prey grid world UDK: :004.4(043.2) Abstract: In this diploma work we present reinforcement learning, which is an area of machine learning that studies the question of how an agent ought to act in an environment to achieve maximum reward. In this work we take a general look at the topic, then describe a few of the more important methods in detail and implement one of them in the predator-prey grid world domain. In the end, we present our program and analyze its results. iv
7 KAZALO 1 UVOD SAMOOJAČITVENO UČENJE METODE MONTE CARLO METODE ČASOVNE RAZLIKE Sarsa Q-učenje APLIKACIJA LOVEC-PLEN Opis Algoritem učenja Rezultati SKLEP...21 v
8 KAZALO SLIK Slika 2.1: Diagram interakcije agenta in okolja... 2 Slika 2.2: Začetno stanje igre backgammon s prikazano smerjo igre Slika 5.1: Delna predstavitev okolja Slika 5.2: Psevdokod Q-učenja...11 Slika 5.3: Premik plena na polje cilj...12 Slika 5.4: Mreţno okolje A Slika 5.5: Mreţno okolje B Slika 5.6: Mreţno okolje C Slika 5.7: Okno naše aplikacije Slika 5.8: Rezultati učenja plena proti naključnemu premikanju lovcev Slika 5.9: Rezultati ob učenju tako plena kot lovcev Slika 5.10: Rezultati učenja lovcev proti naključnemu premikanju plena Slika 5.11: Lovci so zaprli vse poti do cilja Slika 5.12: Lovec se je premaknil tako, kot si je ţelel plen Slika 5.13: Plen se premakne na mesto lovca Slika 5.14: Plen ima neovirano pot do cilja vi
9 1 UVOD Ideja poskusov in učenja na napakah je ena prvih, na katero pomislimo ob temi učenja. Ko smo se kot majhni otroci učili hoditi, smo dobivali informacije iz okolja če smo padli, smo naredili napako, in tako počasi ugotovili, kako drţati ravnoteţje. Dojenčki hitro ugotovijo, da jok prinese pozornost staršev. Tudi kasneje v ţivljenju se učimo s pomočjo interakcije z okoljem. Ko se učimo voziti ali pa med pogovorom, vidimo odziv okolja na naše akcije in poskušamo vplivati na rezultate s spremembo obnašanja. Tako učenje prevladuje v vsem ţivljenju. Ob napakah iz okolja prejmemo negativen signal - kazen, v nasprotnem primeru pa smo nagrajeni. Le redko pa nam kdo pove, kaj natančno naj naredimo. Verjetno ni presenetljivo, da so na področju strojnega učenja relativno zgodaj uporabili ideje iz učenja ţivali in iz psihologije. Te ideje so skupaj z idejami s področja dinamičnega programiranja pripeljale do tega, kar danes imenujemo samoojačitveno učenje [1]. To je metodologija, ki jo lahko uporabimo, ko ţelimo sprotno učenje, še posebej v okoljih, za katera nimamo dobrih modelov. V tem diplomskem delu bomo predstavili nekaj metod samoojačitvenega učenja ter implementacijo ene izmed metod. V naslednjem poglavju bomo podrobneje predstavili samoojačitveno učenje. V tretjem poglavju bomo spoznali metode Monte Carlo, v četrtem pa metode časovne razlike. Nato bomo opisali aplikacijo samoojačitvenega učenja v mreţnem okolju z lovcem in plenom in prikazali rezultate implementiranega algoritma. V zadnjem poglavju bomo podali sklep. 1
10 2 SAMOOJAČITVENO UČENJE Naloga samoojačitvenega učenja (reinforcement learning) je ugotoviti, kaj mora agent narediti v določeni situaciji, da bo nagrada za opravljeno akcijo čim večja. Agentu ne povemo neposredno, kaj naj naredi, kot je to pri večini oblik strojnega učenja. Sam mora izbrati najboljšo akcijo, ki jo mora odkriti s poizkušanjem. Zato je tako učenje nenadzorovano, saj se agent ne uči iz vnaprej pripravljenih primerov, pač pa vso znanje pridobi preko interakcije z okoljem. Posledično lahko tako učenje odkrije obnašanje agenta, ki za določeno okolje ni bilo predvideno, a je boljše kot uveljavljeno obnašanje. Prav tako je laţje določiti nagrajevanje ob dobrem rezultatu ter kaznovanje ob slabem, kot pa določiti optimalno ravnanje agenta v vseh situacijah za neko okolje [1]. Začetki samoojačitvenega učenja so nastali po idejah psihologije učenja ţivali, konkretneje z metodo poskusov in napak. Ločeno pa se je samoojačitveno učenje razvijalo iz dinamičnega programiranja, ki ga je uvedel Richard Bellman [2]. V osemdesetih letih prejšnjega stoletja sta se ti ločeni veji zdruţili. Diagram na sliki 2.1 prikazuje splošen potek samoojačitvenega učenja. Agent v vsakem časovnem koraku t dobi predstavitev stanja okolja s t. Na osnovi tega signala izbere akcijo a t. V naslednjem koraku agent dobi nagrado r t in se znajde v novem stanju s t+1. Slika 2.1: Diagram interakcije agenta in okolja Nagrada je vrednost, ki jo okolje dodeli agentu v vsakem koraku učenja. Odvisna je od novega stanja, na katerega je deloma vplival agent s svojo akcijo. 2
11 Ob agentu ter okolju so glavni elementi samoojačitvenega učenja: pravilnik (policy), funkcija nagrade, funkcija vrednosti in opcijsko model okolja. Pravilnik določa obnašanje agenta v določenem trenutku. Označimo ga s π(s) in agentu pove, katero akcijo naj izvede v stanju s. Funkcija nagrade opredeljuje cilj problema. Vsako stanje okolja oziroma par stanje-akcija preslika v številsko vrednost (nagrado), ki določa zaţeljenost stanja. Funkcija nagrade torej definira dobre ter slabe dogodke za agenta. Funkcija vrednosti, ki jo v odvisnosti od izbrane metode učenja označujemo z V(s) ali Q(s,a), za razliko od funkcije nagrade določa, kaj je dobro na dolgi rok. Vrednost Q(s,a): S A je na primer skupna nagrada, ki jo agent lahko pričakuje v prihodnosti, če v stanju s izbere akcijo a [3]. Preprostejša oblika funkcije vrednosti V(s): S samo ocenjuje vrednost nekega stanja in se ne ukvarja z vrednostmi akcij v stanjih. S je mnoţica stanj, A pa mnoţica akcij. V najpreprostejšem primeru je funkcija vrednosti predstavljena s tabelo, v kateri vsakemu stanju ustreza naučena ocena vrednosti stanja. Veliko okolij pa ima preveliko število stanj, da bi lahko uporabili tabelo, saj bi s tem bilo učenje izjemno počasno. Zato je potrebna posplošitev preslikave iz strnjenega opisa stanja v njegovo vrednost. To lahko doseţemo z nevronskimi mreţami, odločitvenimi drevesi ali linearno aproksimacijo [3]. Naloga agenta je pridobiti največjo moţno skupno nagrado, kar pomeni, da mora izbirati akcije, ki imajo najvišjo vrednost. Na ţalost je določitev teh vrednosti veliko teţja kot določitev nagrad, ki so največkrat takoj razvidne iz okolja. Vrednosti morajo zato biti določene s prilagajanjem kot posledica opazovanj, ki jih agent opravi skozi ţivljenje. Preprost primer izračuna skupne nagrade od trenutka t naprej je v enačbi (2.1). (2.1) Tu je: t trenuten časovni korak, T zadnji korak, R t skupna nagrada. 3
12 Enačba (2.1) je primerna le za naloge, ki imajo konec. V nasprotnem primeru moramo uvesti faktor zmanjševanja vrednosti γ, kot je to prikazano v enačbi (2.2). (2.2) Vrednost γ definira pomembnost prihodnjih nagrad. Vrednost 0 povzroči, da agent vzame v poštev le takojšnje nagrade, ko se faktor pribliţuje 1, pa se trudi za visoko nagrado na dolgi rok. Eden izmed problemov, ki se pojavijo pri samoojačitvenem učenju, je kompromis med raziskovanjem (exploration), tj. preizkušanjem novih akcij v istih stanjih, ter izkoriščanjem (exploitation) obstoječega znanja, tj. izvajanjem znanih dobrih akcij v istih stanjih [1, 4]. Da lahko agent dobi čim višjo nagrado, mora izbirati akcije, ki so se v preteklosti izkazale kot dobre. Te akcije pa mora odkriti s preizkušanjem novih. Agent mora preizkusiti veliko akcij in vedno pogosteje izbirati tiste, ki dajo najboljše rezultate. Dve najbolj znani metodi izbire akcije sta poţrešna izbira akcije s parametrom ε, ki večinoma izbira najboljšo, z verjetnostjo ε pa naključno akcijo, in metoda softmax, ki akcijam priredi verjetnost izbire sorazmerno njihovi vrednosti v trenutnem stanju. Stanje okolja so vse informacije, ki so dosegljive agentu. Kako je signal stanja sestavljen, je odvisno od problema, ki ga rešujemo. Prav gotovo je del signala trenutno zaznavanje okolja, lahko pa je veliko več. Pogosto so izrednega pomena tudi prejšnja stanja, kar pomeni, da mora nov signal vsebovati tudi pretekla stanja. Seveda pa ima agent redko dostop do vseh podatkov. Pri igri pokra ne more vedeti, kakšne karte imajo nasprotniki, čeprav bi mu tak podatek izjemno poenostavil delovanje. Ţelimo torej, da stanje vsebuje strnjene pretekle dogodke, a obdrţi vse potrebne podatke. V splošnem okolju, kjer je stanje v času t+1 odvisno od vseh prejšnjih stanj in akcij, lahko njegovo dinamiko definiramo le s popolno verjetnostno porazdelitvijo, ki je predstavljena z enačbo (2.3). * + (2.3) 4
13 Kadar je stanje okolja v času t+1 odvisno le od stanja in akcije v času t, rečemo, da ima stanje markovsko lastnost [1]. V tem primeru lahko dinamiko okolja definiramo z enačbo (2.4). * + (2.4) Primer okolja z markovskimi stanji je šah. Trenutna razporeditev vseh figur na deski povzame vse pomembno o vseh preteklih pozicijah. Večina informacij o zaporedju potez je izgubljenih, vendar je ohranjeno vse, kar je vaţno za prihodnost igre. Nalogo samoojačitvenega učenja, ki ima stanja z markovsko lastnostjo, imenujemo markovski odločitveni proces (Markov decision process MDP). Ena izmed najzanimivejših aplikacij samoojačitvenega učenja je program Geralda Tesaura za igranje igre backgammon. Tesaurov program TD-Gammon ni potreboval veliko znanja o igri, a se je naučil igrati blizu nivoja največjih velemojstrov. Algoritem je bil preprosta zdruţitev metode časovne razlike ter aproksimacije z večplastno nevronsko mreţo [5]. Backgammon je igra na igralni deski za dve osebi, ki se igra po vsem svetu. Pogosti so razni turnirji in redne tekme svetovnega prvenstva. Po vsej verjetnosti obstaja več profesionalnih igralcev backgammona kot šaha. Igra se igra s petnajstimi belimi in petnajstimi črnimi figurami na deski s 24 konicami. Premikanje figur se odloči z metom dveh igralnih kock. Cilj igre je čimprej spraviti vseh petnajst figur z igralne površine. Bele figure se premikajo v nasprotni smeri urinega kazalca, črne pa obratno, kot prikazuje slika 2.2 [6]. Slika 2.2: Začetno stanje igre backgammon s prikazano smerjo igre. 5
14 Hitro postane jasno, da je število moţnosti v igri ogromno. Za povprečen met kock obstaja morda 20 različnih načinov igranja, za predvidevanje nasprotnikovega odziva pa je potrebno predvideti tudi met dveh kock. Vse to naredi igro backgammon neprimerno za metode, ki so se dobro izkazale pri šahu. Metode samoojačitvenega učenja so primerne, ker imamo vedno popolno predstavitev stanja, nagrade pa sledijo preprosto iz zmage oziroma poraza. Tesauro je prvo verzijo svojega programa učil z igranjem proti sebi. Za izbiro poteze je TD-Gammon preveril vse moţne poteze in stanja, ki bi sledila potezi, ovrednotil z nevronsko mreţo. Nato je izbral potezo z najvišjo ocenjeno vrednostjo. Po pribliţno takih igrah je program igral na nivoju najboljših takratnih računalniških programov za igranje igre backgammon, ki so uporabljali ogromne baze podatkov o igri. Naslednja verzija programa je bila razširjena z znanjem o igri, kar ga je še izboljšalo. TD-Gammon 3.0 je na nivoju najboljših človeških igralcev. Zanimivo je, da se je program naučil igrati določene poteze drugače, kot je bil standard med najboljšimi igralci. Po podrobni analizi teh potez velemojstri zdaj igrajo te poteze, kot jih je program [5]. 6
15 3 METODE MONTE CARLO Metode Monte Carlo so oblika samoojačitvenega učenja, ki temelji na povprečenju rezultatov. Te metode so namenjene epizodičnim nalogam. To pomeni, da so pretekle izkušnje razdeljene na epizode, ki imajo končna stanja ne glede na izbrane akcije agenta. Ocene vrednosti in pravilnik se posodobijo šele po koncu epizode. Izraz Monte Carlo se pogosto uporablja pri metodah, katerih delovanje temelji na naključni izbiri akcij. Pri samoojačitvenem učenju je uporabljen izrecno za metode, ki temeljijo na povprečenju [1]. Naj Q(s,a) označuje vrednost izvajanja akcije a v stanju s. Posodobitev vrednosti vsakega para stanje-akcija, ki je bil obiskan v epizodi, se izračuna po enačbi (3.1). ( ) ( ) ( ( )) (3.1) Tu je: skupna nagrada od časa t do konca epizode, α hitrost učenja, t čas, ko je določen par stanje-akcija bil prvič obiskan. Hitrost učenja α določa, v kolikšni meri bodo nove vrednosti posodobile prejšnje. Faktor 0 pomeni, da se agent sploh ne uči, s faktorjem 1 pa agent upošteva le najnovejše rezultate. Metode Monte Carlo za določitev α pogosto uporabljajo enačbo (3.2), kjer je N(s,a) število dosedanjih izvedb akcije a v stanju s. V tem primeru vsebuje funkcija vrednosti prava povprečja vseh preteklih rezultatov. ( ) (3.2) Zmanjševanje hitrosti učenja v splošnem pomaga konvergenci k optimalnemu pravilniku. Metode Monte Carlo pa delujejo tudi s konstantnim parametrom α. 7
16 4 METODE ČASOVNE RAZLIKE Učenje s časovno razliko (temporal difference learning) je zdruţitev metod Monte Carlo ter dinamičnega programiranja [1]. Kot metode Monte Carlo se tudi metode časovne razlike učijo neposredno iz izkušenj brez modela okolja. Podobno kot pri dinamičnem programiranju pa metode časovne razlike sproti posodabljajo ocene po vsaki izvedeni akciji in ne čakajo na konec epizode. Posledično so te metode primerne tudi za neepizodične, t.j. neprekinjene naloge. Večino metod učenja s časovno razliko je mogoče dopolniti z uporabo sledov upravičenosti (eligibility traces) [1, 3]. Gre za mehanizem, ki omogoča dodeljevanje dela nagrade tudi predhodnim stanjem, ki so agenta pripeljala do trenutnega stanja. Posledično je učenje hitrejše, saj se z vsakim korakom posodobijo mnoge vrednosti. Take metode uporabljajo dodaten parameter λ, ki določa, kolikšen deleţ nagrade dobijo pretekla stanja. Manjša vrednost pomeni manjšo nagrado, z vrednostjo 0 pa dobimo enako delovanje kot z metodami časovne razlike brez sledov upravičenosti. Pri λ=1 je posodabljanje vrednosti enako kot pri metodah Monte Carlo. To lahko vidimo v enačbi (4.1), ki prikazuje eno izmed moţnosti za sledenje upravičenosti stanj. V vsakem koraku je potrebno posodobiti vse pare stanje-akcija. ( ) { ( ) ( ) (4.1) Tukaj je e t (s,a) sled upravičenosti akcije a v stanju s. 4.1 Sarsa Sarsa je ena izmed metod učenja s časovno razliko, ki se uči po pravilniku (on-policy). Ime izhaja iz funkcije posodobitve, ki je prikazana v enačbi (4.2), saj so posamezne črke uporabljene v enačbi s, a, r, s' ter a'. Tu s in a predstavljata začetno stanje ter akcijo, r je nagrada, ki je posledica akcije, s' ter a' pa sta novo stanje in izbrana akcija v tem novem stanju. ( ) ( ) ( ( ) ( )) (4.2) 8
17 Sarsa se uči po pravilniku, kar pomeni, da za posodabljanje pravilnika uporabi izvedeno akcijo, tudi če je to naključna akcija, ki je posledica raziskovanja. V naučenih vrednostih je tako odraţeno tudi tveganje raziskovanja. Z uporabo sledov upravičenosti se enačba (4.2) spremeni v enačbo (4.3). Razlika je še v tem, da je potrebno v vsakem času t posodobiti vrednost vseh parov stanje-akcija. To metodo imenujemo Sarsa(λ). ( ) ( ) ( ) (4.3) Pri tem je definiran v enačbi (4.4). ( ) ( ) (4.4) 4.2 Q-učenje Q-učenje (Q-learning) je podobno metodi Sarsa. Razlika je v tem, da namesto vrednosti naslednje izbrane akcije uporabi vrednost najboljše moţne akcije v novem stanju. Ta je največkrat enaka kot dejanska izvedena akcija, občasno pa je to naključna akcija, ki omogoča raziskovanje agenta. Iz tega razloga je Q-učenje primer učenja mimo pravilnika (off-policy). Natančna funkcija posodobitve je zapisana v enačbi (4.5). ( ) ( ) ( ( ) ( )) (4.5) Z uporabo najboljše moţne akcije se Q-učenje pribliţuje optimalnemu pravilniku ne glede na dejansko izbrane akcije. Pravilnik, ki se ga Q-učenje nauči, je tako načeloma boljši od pravilnika Sarse. V primeru uporabe sledov upravičenosti je funkcija posodobitve enaka kot v enačbi (4.3), le da se izračuna po enačbi (4.6). ( ) ( ) (4.6) Da je učenje še vedno mimo pravilnika, je potrebno vse sledove upravičenosti nastaviti na 0, ko je izvedena naključna akcija, ki ni najboljša. Ta metoda je znana kot Watkinsov Q(λ). 9
18 5 APLIKACIJA LOVEC-PLEN 5.1 Opis Mreţno okolje lovec-plen sestoji iz ovir, začetne točke in izhoda. V tem okolju se nahajajo plen in lovci. Naloga plena je čim hitreje doseči izhod in pobegniti lovcem. Naloga slednjih pa je, da ulovijo plen, preden ta uide. Točka izhoda je dosegljiva le plenu. Dva lovca sta lahko v nekem trenutku na isti lokaciji. Lovec ulovi plen, ko sta oba v isti celici mreţe. Akcije, ki jih agent lahko izvede, so premik gor, dol, desno ali levo. Vsi agenti se premikajo istočasno. Ko vsi opravijo svojo akcijo, se preveri ali je plen dosegel izhod ali če je bil ulovljen. To dovoljuje tvegane poteze plena. Če sta plen in lovec v sosednjih celicah, lahko zamenjata poziciji, v kolikor se oba premakneta v smer nasprotnika, plen pa v tem primeru ni ulovljen. Agentom ni dovoljeno ostati na istem mestu, vedno morajo izvesti akcijo. Če pa se agent poskusi premakniti v steno, ostane na istem mestu, kjer je bil. Nagrade v tem okolju so sledeče: +1 plenu, če doseţe izhod, -1, če je ulovljen, +1 vsem lovcem, če eden izmed njih ulovi plen, in -1 vsem lovcem, če plen pobegne iz okolja. V vseh drugih primerih je nagrada 0. Naivna predstavitev stanj, torej koordinati x in y vsakega agenta, ni primerna, saj ţe pri relativno majhnih mreţah obstaja preveliko število stanj, kar izjemno upočasni učenje [3]. Razen s posplošitvijo stanj, ki smo jo ţe omenili v drugem poglavju, lahko ta problem rešimo tudi z delno predstavitvijo stanj [4], pri kateri vsak agent zaznava samo to, kar se nahaja v oddaljenosti dveh celic v vseh smereh. Taki predstavitvi rečemo delno viden markovski odločitveni proces (partially observable MDP POMDP). To rešitev smo tudi uporabili v praktičnem delu te diplomske naloge. Slika 5.1 prikazuje primer stanja v enem izmed testiranih svetov. Plen je predstavljen z zeleno črko P, lovci z rdečimi L, izhod iz labirinta, oziroma cilj plena, pa je modra črka C. Sive celice so stene. Zelen kvadrat je zaznavno območje plena. O vsem, kar je izven tega območja, plen nima nikakršne informacije. 10
19 Slika 5.1: Delna predstavitev okolja. Vredno je omeniti, da taka predstavitev ni popolnoma markovska [3], saj se lahko več lovcev nahaja v isti celici. Če si dva lovca delita celico, ju plen zazna kot enega. V takem primeru ni mogoče vedeti, katera celica z zaznanimi lovci vsebuje dva. Za kaj takega bi morali poznati prejšnja stanja. Kljub temu pa ima to na učenje plena zanemarljiv vpliv. 5.2 Algoritem učenja V tej diplomski nalogi smo implementirali Q-učenje s tabelarično funkcijo vrednosti. Psevdokod algoritma je na sliki 5.2. Slika 5.2: Psevdokod Q-učenja 11
20 Za izbiro akcije smo uporabili metodo poţrešne izbire akcije z verjetnostjo ε=0.1 izbire naključne akcije. Hitrost učenja α je bila 0.01, faktor zmanjševanja vrednosti γ pa 0.9. Na zgledu si poglejmo delovanje algoritma. Slika 5.3 prikazuje zadnji korak epizode, kjer je plenu uspelo pobegniti iz okolja. V stanju, ki je prikazano na sliki 5.3(a), je plen izbral najboljše ocenjeno akcijo (premik navzgor), kar ga privede do stanja na sliki 5.3(b). Do tega trenutka je bila vrednost te akcije 0.3. V novem stanju je plen na cilju, kar pomeni, da se mu dodeli nagrada v vrednosti 1. Nova vrednost para stanje-akcija je izračunana v enačbi (5.1). Zaradi dobrega rezultata se ta vrednost poveča, kar zagotavlja, da bo plen v prihodnosti izvedel enako akcijo, če se bo znašel v tem stanju. Slika 5.3: Premik plena na polje cilj ( ) ( ) (5.1) Implementirali smo učenje plena proti lovcem, ki se premikajo naključno, ter učenje tako lovcev kot plena. Algoritem smo poganjali na treh različicah mreţnega sveta. Prvi svet je prikazan s sliko 5.4 in je popolnoma odprt, tako da je precej enostavno iz njega pobegniti. Sliki 5.5 in 5.6 prikazujeta drugi dve okolji, ki vsebujeta stene in imata ozke poti, kar ju naredi precej teţji za plen. 12
21 Slika 5.4: Mreţno okolje A. Slika 5.5: Mreţno okolje B. 13
22 Slika 5.6: Mreţno okolje C. Program smo napisali v jeziku C#. Izgled aplikacije je razviden iz slike 5.7. Omogočeno je grafično prikazovanje agentov v okolju, kar olajša spremljanje dogajanja. Nastavimo lahko število epizod, s spustnim menijem pa izberemo mreţno okolje, ki ga ţelimo uporabiti. S potrditvenima poljema vklopimo oziroma izklopimo naključno obnašanje plena ali lovcev. V oknu se tudi izpisujejo osnovni podatki o uspešnosti plena, ki jih lahko ponastavimo s klikom na gumb Resetiraj statistiko. Slika 5.7: Okno naše aplikacije. 14
23 5.3 Rezultati V vseh testnih zagonih smo učenje izvajali na sto tisoč epizodah, ob tem pa smo beleţili odstotek uspešnih pobegov plena. Ko se je učil le plen, lovci pa so se premikali naključno, se je po pričakovanjih izkazalo, da se je plen sposoben naučiti zelo dobre strategije. Skozi celotno učenje je namreč dosegel 93 odstotno uspešnost v okolju A, ki nima ovir in je najenostavnejši med testiranimi svetovi. Ţe po dvajset tisoč epizodah je imel plen okoli 90 odstotno uspešnost, skozi vse epizode pa je ta odstotek zviševal. To pomeni, da bi se plen z več epizodami naučil še bolje izogibati lovcem, čeprav je napredek v kasnejših epizodah znatno počasnejši. V tem svetu smo poskusili tudi z učenjem z milijonom epizod. Ob zaključku je bila uspešnost plena ţe več kot 95 odstotna, izboljšanje pa je bilo proti koncu ţe skoraj popolnoma zanemarljivo. Tak odstotek pa je izjemno dober, če upoštevamo, da je skozi vso ţivljenje plen imel ob vsakem premiku deset odstotno moţnost naključne akcije, saj smo parameter ε nastavili na 0.1. To je še posebej zanimivo, ker smo uporabili metodo Q-učenja, ki moţnosti naključne akcije pri učenju ne upošteva, kot je to denimo pri metodi Sarsa ter drugih metodah, ki se učijo po pravilniku. Tudi v okolju B z ovirami in posledično manj prostora za izmikanje, je plen po končanem učenju beleţil skoraj 80 odstotno uspešnost. Tudi v tem primeru je učenje potekalo zelo hitro v zgodnejših epizodah, kasneje pa se je ustalilo. V okolju C, ki je najteţje izmed testiranih, je plen le nekaj odstotkov slabši kot v okolju B. Dosegel je 76 odstotno uspešnost. V tem svetu je bilo učenje najpočasnejše. Podrobnejši rezultati so grafično prikazani na sliki
24 Slika 5.8: Rezultati učenja plena proti naključnemu premikanju lovcev. Nato smo preverili, kaj se zgodi, ko se uči tako plen kot lovci. V okolju A je po koncu učenja plen imel skoraj 81 odstotno uspešnost, kar je le nekaj več kot deset odstotkov slabše kot pri naključnih akcijah lovcev. Izkazalo se je, da je v tem svetu kljub učenju lovcev zelo teţko uloviti plen, saj mu popolnoma odprto okolje omogoča pazljivo premikanje brez tveganja. Bolj zanimivi sta okolji B in C. Čeprav je plen s 65 odstotki v okolju B ter 63 odstotki v okolju C tudi tu prekosil učenje lovcev, je s slike 5.9 jasno, da so se lovci učili, saj graf ni več enakomeren. Taki rezultati so bili pričakovani, saj je v testiranem okolju laţje ostati neulovljen, kot pa agenta uloviti, pa četudi so lovci trije. 16
25 Slika 5.9: Rezultati ob učenju tako plena kot lovcev. Kot zanimivost smo testirali še učenje lovcev proti naključnemu premikanju plena. Natančni rezultati so prikazani na sliki V okolju A je bil plen uspešen le v 7 odstotkih. Čeprav je imel na voljo veliko prostora, se je lovcem uspelo naučiti zelo dobre taktike. V okolju B so se lovci odrezali veliko bolje, plenu so dovolili pobegniti v manj kot treh odstotkih primerov. Z drugimi besedami so lovci plen ulovili v več kot 97 odstotkih vseh epizod. Največje presenečenje teh testov je bila skoraj osem odstotna uspešnost plena v okolju C, ki bi moralo biti najteţje. V tem svetu se je odrezal bolje kot v obeh drugih. Ponovljeni zagoni so razkrili, da je prvi test sicer dal nadpovprečne rezultate, a tudi v nekaj deset dodatnih testih ni uspešnost plena nikoli padla pod šest odstotkov. Pregled poteka epizod pri koncu testiranja ni razkril nobenega očitnega vzroka. Odkrili smo, da je razlog tega kombinacija taktike, ki se je naučijo lovci, ter oblika sveta. Lovci namreč ugotovijo, da je najbolje preprečiti dostop plena do cilja in ne nujno lovljenje. Ker pa ima okolje C vsaj štiri moţne poti do cilja, trije lovci ne morejo uspešno pokriti vseh, kar razloţi rahlo višjo uspešnost plena od pričakovane. 17
26 Slika 5.10: Rezultati učenja lovcev proti naključnemu premikanju plena. V obeh primerih, ko so se lovci učili v okolju A, so razvili podobno taktiko. S pregledom nekaj epizod ob koncu učenja smo ugotovili, da so se naučili čakati ob cilju, čeprav njegove lokacije niso vnaprej poznali. Ker si lovci delijo nagrade, ni pomembno, kdo izmed njih dejansko ulovi plen. V primeru, ko je plen zašel v območje zaznavanja enega izmed lovcev, mu je ta lovec poskusil slediti, dokler ga ni ujel ali pa mu je plen pobegnil. V okoljih B in C so lovci prav tako čakali ob cilju, niso pa več slepo sledili plenu za vsako ceno. Naučili so se, da je bolje čakati plen na ključnih poloţajih sveta in mu odrezati vse poti do cilja. To taktiko lahko vidimo na sliki Po drugi strani se je pri učenju plena pokazalo, da se je naučil biti zelo potrpeţljiv. Ob prisotnosti lovca v njegovi bliţini je storil vse, da mu pobegne. Izhod iz sveta je v takem primeru bil drugotnega pomena, še posebej, če je bil predaleč od ciljnega polja, da bi ga lahko zaznal. Ko v bliţini plena ni bilo lovcev, se je le-ta premikal po najhitrejši poti do cilja. Znal je tudi izkoristiti lastnosti okolja. Primer tega je najlepše viden v zaporedju slik Slika 5.11 prikazuje situacijo v okolju B, kjer ima plen blokirane vse poti do cilja. V tem primeru je njegova najboljša poteza, da ostane v isti celici s premikanjem v eno izmed stranskih sten. To ponavlja, dokler se najbliţji lovec ne premakne. Za plen je najbolje, da 18
27 lovec izbere premik navzdol v sredino okolja, kot je to na sliki Tudi če se lovci naučijo, da se tja ne smejo premakniti, se to še vedno zgodi zaradi naključnega raziskovanja. Ker je to edino polje tega sveta, ki nima v nobeno smer ovire, se bo v naslednji potezi lovec primoran ponovno premakniti. Plen to izkoristi in se sam premakne navzgor, na mesto kjer je pravkar bil lovec, kakor je prikazano na sliki Če se je lovec premaknil kamorkoli razen navzgor, je sedaj plen neoviran na poti do cilja, kar lahko vidimo na sliki V primeru, da se je lovec premaknil nazaj na svoje prejšnje mesto in tako ponovno blokiral pot plena, se je le-ta umaknil nazaj in ponovno čakal na svojo priloţnost. Slika 5.11: Lovci so zaprli vse poti do cilja. Slika 5.12: Lovec se je premaknil tako, kot si je ţelel plen. 19
28 Slika 5.13: Plen se premakne na mesto lovca. Slika 5.14: Plen ima neovirano pot do cilja. 20
29 6 SKLEP V diplomski nalogi smo predstavili področje samoojačitvenega učenja. Seznanili smo se s teţavami, na katere lahko naletimo, in njihovimi rešitvami. Opisali smo pomembnejše metode samoojačitvenega učenja ter implementirali Q-učenje. V praktičnem delu smo napisali program za učenje agentov v mreţnem okolju lovec-plen. Agenti so se učili hitro, njihovo znanje pa je po koncu učenja bilo zelo dobro. Analiza obnašanja agentov ob koncu učenja je razkrila delovanje, ki bi ga teţko izboljšali z lastno domišljijo. Sklepamo lahko, da je naučen pravilnik dober pribliţek optimalnemu pravilniku za posamezen svet. Rezultati so bili bolj ali manj taki, kot smo jih pričakovali. Edina izjema je bila nepredvidena posledica oblike enega izmed svetov. Čeprav smo uporabili majhna okolja (po milijonu epizod je bilo videnih le okoli stanj), je naša predstavitev stanj primerna tudi za večje svetove, le da se učenje s tem seveda upočasnjuje. Hitrost izvajanja programa bi lahko pohitrili z uporabo jezika, ki omogoča hitrejše izvajanje algoritma, na primer z jezikom C++, vendar pa pri svetovih take velikosti, kot smo jih uporabili, hitrost ne predstavlja ovire. Tudi pri reševanju problemov v praksi je hitrost skoraj nepomembna, saj moramo učenje izvajati le enkrat, naučene vrednosti pa lahko shranimo, tako da ni pomembno, kako dolgo traja učenje. Pomembnejša je prostorska zahtevnost. Ţe pri majhnih okoljih bi hitro zmanjkalo pomnilnika, če bi ţeleli popolno predstavitev stanj. To se največkrat rešuje z aproksimacijo stanj, za kar so najbolj popularne nevronske mreţe. V nadaljnjem delu bi lahko spremenili predstavitev stanj v aproksimacijo z linearno funkcijo ali pa z nevronsko mreţo. Prav tako bi lahko testirali večje svetove, morda bi bilo zanimivo videti zelo velike svetove. 21
30 VIRI [1] Sutton, R. S., Barto, A. G. Reinforcement Learning: An Introduction. Cambridge, Massachusetts: A Bradford Book, [2] Bellman, R. E. Dynamic Programming. Princeton, New Jersey: Princeton University Press, [3] Schrum, J. Competition Between Reinforcement Learning Methods in a Predator-Prey Grid World, [4] Kaelbling, P. L., Littman, L. M., Moore, W. A. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, 4, (1996), str [5] Tesauro, G., Keith, T. Temporal Difference Learning and TD-Gammon, Dostopno na: [ ]. [6] Backgammon. Dostopno na: [ ].
31
32
33
Poročilo za 1. del seminarske naloge- igrica Kača Opis igrice Kača (Snake) je klasična igrica, pogosto prednaložena na malce starejših mobilnih telefo
Poročilo za 1. del seminarske naloge- igrica Kača Opis igrice Kača (Snake) je klasična igrica, pogosto prednaložena na malce starejših mobilnih telefonih. Obstaja precej različic, sam pa sem sestavil meni
Prikaži večBYOB Žogica v vesolju Besedilo naloge Glavna ideja igre je paziti, da žoga ne pade na tla igralne površine, pri tem pa zbrati čim več točk. Podobno ig
BYOB Žogica v vesolju Besedilo naloge Glavna ideja igre je paziti, da žoga ne pade na tla igralne površe, pri tem pa zbrati čim več točk. Podobno igro najdemo tudi v knjigi Scratch (Lajovic, 2011), vendar
Prikaži večUniverza v Mariboru Fakulteta za naravoslovje in matematiko Oddelek za matematiko in računalništvo Enopredmetna matematika IZPIT IZ VERJETNOSTI IN STA
Enopredmetna matematika IN STATISTIKE Maribor, 31. 01. 2012 1. Na voljo imamo kovanca tipa K 1 in K 2, katerih verjetnost, da pade grb, je p 1 in p 2. (a) Istočasno vržemo oba kovanca. Verjetnost, da je
Prikaži večTuringov stroj in programiranje Barbara Strniša Opis in definicija Definirajmo nekaj oznak: Σ abeceda... končna neprazna množica simbolo
Turingov stroj in programiranje Barbara Strniša 12. 4. 2010 1 Opis in definicija Definirajmo nekaj oznak: Σ abeceda... končna neprazna množica simbolov (običajno Σ 2) Σ n = {s 1 s 2... s n ; s i Σ, i =
Prikaži več6.1 Uvod 6 Igra Chomp Marko Repše, Chomp je nepristranska igra dveh igralcev s popolno informacijo na dvo (ali vec) dimenzionalnem prostoru
6.1 Uvod 6 Igra Chomp Marko Repše, 30.03.2009 Chomp je nepristranska igra dveh igralcev s popolno informacijo na dvo (ali vec) dimenzionalnem prostoru in na končni ali neskončni čokoladi. Igralca si izmenjujeta
Prikaži večISOFT , računalniški inženiring
ISOFT, računalniški inženiring Marko Kastelic s.p. Sad 2, 1296 Šentvid pri stični Spletna stran podjetja:http://www.isoft.si podjetja ISOFT Spletna stran sistema sledenja vozil track.si: http://www.track.si
Prikaži večDelavnica Načrtovanje digitalnih vezij
Laboratorij za načrtovanje integriranih vezij Univerza v Ljubljani Fakulteta za elektrotehniko Digitalni Elektronski Sistemi Osnove jezika VHDL Strukturno načrtovanje in testiranje Struktura vezja s komponentami
Prikaži večOsnove verjetnosti in statistika
Osnove verjetnosti in statistika Gašper Fijavž Fakulteta za računalništvo in informatiko Univerza v Ljubljani Ljubljana, 26. februar 2010 Poskus in dogodek Kaj je poskus? Vržemo kovanec. Petkrat vržemo
Prikaži večSpace Invaders Opis igre: Originalna igra: Space Invaders je arkadna igra, ki so jo ustvarili leta Bila je ena izmed prvih streljaških iger, v k
Space Invaders Opis igre: Originalna igra: Space Invaders je arkadna igra, ki so jo ustvarili leta 1978. Bila je ena izmed prvih streljaških iger, v kateri je igralec vodil laserski top ali vesoljsko ladjo,
Prikaži več2.1 Osnovni pojmi 2 Nim Ga²per Ko²mrlj, Denicija 2.1 P-poloºaj je poloºaj, ki je izgubljen za igralca na potezi. N- poloºaj je poloºaj, ki
2.1 Osnovni pojmi 2 Nim Ga²per Ko²mrlj, 2. 3. 2009 Denicija 2.1 P-poloºaj je poloºaj, ki je izgubljen za igralca na potezi. N- poloºaj je poloºaj, ki je dobljen za igralca na potezi. Poloºaj je kon en,
Prikaži večGHOSTBUSTERS navodila za učitelje O PROJEKTU S tem projektom se učenci sami naučijo izdelati igro. Ustvariti morajo več ikon (duhcov ali kaj drugega)
GHOSTBUSTERS navodila za učitelje O PROJEKTU S tem projektom se učenci sami naučijo izdelati igro. Ustvariti morajo več ikon (duhcov ali kaj drugega) in za vsako napisati svojo kodo. Dve ikoni imata isto
Prikaži večUčinkovita izvedba algoritma Goldberg-Tarjan Teja Peklaj 26. februar Definicije Definicija 1 Naj bo (G, u, s, t) omrežje, f : E(G) R, za katero v
Učinkovita izvedba algoritma Goldberg-Tarjan Teja Peklaj 26. februar 2009 1 Definicije Definicija 1 Naj bo (G, u, s, t) omrežje, f : E(G) R, za katero velja 0 f(e) u(e) za e E(G). Za v V (G) definiramo presežek
Prikaži večOsnove matematicne analize 2018/19
Osnove matematične analize 2018/19 Neža Mramor Kosta Fakulteta za računalništvo in informatiko Univerza v Ljubljani Funkcija je predpis, ki vsakemu elementu x iz definicijskega območja D f R priredi natanko
Prikaži večŠTEVCI PROMETA IN NJIHOVA UPORABA ZA NAMENE STATISTIK ČRT GRAHONJA
ŠTEVCI PROMETA IN NJIHOVA UPORABA ZA NAMENE STATISTIK ČRT GRAHONJA Navdih Poizvedovanje po BD podatkovnih virih, ki imajo časovno dimenzijo in so dostopni. Večji promet pomeni večje število dobrin in močnejšo
Prikaži večSPREJEM UDARCA
METODIČNI ALGORITMI SPREJEM UDARCA gibanje v nizki preži (orisovanje kvadrata) podajanje žoge (z obema rokama iz polčepa) in sledenje podani žogi (gibanje po prostoru) pomočnik hitro spreminja let žoge
Prikaži večUniverza v Ljubljani FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO Tržaška c. 25, 1000 Ljubljana Realizacija n-bitnega polnega seštevalnika z uporabo kvan
Univerza v Ljubljani FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO Tržaška c. 25, 1000 Ljubljana Realizacija n-bitnega polnega seštevalnika z uporabo kvantnih celičnih avtomatov SEMINARSKA NALOGA Univerzitetna
Prikaži večMicrosoft Word - Delac_napad Union Olimpije v sezoni 2005_06.doc
Teddy DELAČ Napadalne kombinacije KK UNION OLIMPIJA proti osebni obrambi na začetku sezone 2005/06 Uvod V tekmovalni sezoni 2005/06 je prišlo v člansko ekipo KK Union Olimpije veliko novih igralcev, zato
Prikaži večMicrosoft Word - M docx
Š i f r a k a n d i d a t a : Državni izpitni center *M15245112* JESENSKI IZPITNI ROK Izpitna pola 2 / 90 minut Dovoljeno gradivo in pripomočki: Kandidat prinese nalivno pero ali kemični svinčnik in računalo.
Prikaži večOsnove statistike v fizični geografiji 2
Osnove statistike v geografiji - Metodologija geografskega raziskovanja - dr. Gregor Kovačič, doc. Bivariantna analiza Lastnosti so med sabo odvisne (vzročnoposledično povezane), kadar ena lastnost (spremenljivka
Prikaži večRAM stroj Nataša Naglič 4. junij RAM RAM - random access machine Bralno pisalni, eno akumulatorski računalnik. Sestavljajo ga bralni in pisalni
RAM stroj Nataša Naglič 4. junij 2009 1 RAM RAM - random access machine Bralno pisalni, eno akumulatorski računalnik. Sestavljajo ga bralni in pisalni trak, pomnilnik ter program. Bralni trak- zaporedje
Prikaži več3. Preizkušanje domnev
3. Preizkušanje domnev doc. dr. Miroslav Verbič miroslav.verbic@ef.uni-lj.si www.miroslav-verbic.si Ljubljana, februar 2014 3.1 Izračunavanje intervala zaupanja za vrednosti regresijskih koeficientov Motivacija
Prikaži večMicrosoft Word - Analiza rezultatov NPZ matematika 2018.docx
Analiza dosežkov pri predmetu matematika za NPZ 28 6. razred NPZ matematika 28 Dosežek šole Povprečno število točk v % Državno povprečje Povprečno število točk v % Odstopanje v % 49,55 52,52 2,97 Povprečni
Prikaži večLaTeX slides
Statistični modeli - interakcija - Milena Kovač 23. november 2007 Biometrija 2007/08 1 Število živorojenih pujskov Biometrija 2007/08 2 Sestavimo model! Vplivi: leto, farma Odvisna spremenljivka: število
Prikaži večOptimizacija z roji delcev - Seminarska naloga pri predmetu Izbrana poglavja iz optimizacije
Univerza v Ljubljani Fakulteta za matematiko in fiziko Seminarska naloga pri predmetu Izbrana poglavja iz optimizacije 2. junij 2011 Koncept PSO Motivacija: vedenje organizmov v naravi Ideja: koordinirano
Prikaži večRC MNZ - kategorija U12 in U13 TRENING 3-4 SKLOP: Igra 1:1 USMERITEV TRENINGA: CILJ: Igra 1:1 v napadu Utrjevanje uspešnosti igre 1:1 v napadu UVODNI
RC MNZ - kategorija U12 in U13 TRENING 3-4 SKLOP: Igra 1:1 USMERITEV TRENINGA: CILJ: Igra 1:1 v napadu Utrjevanje uspešnosti igre 1:1 v napadu UVODNI DEL (20 minut) 1. NAVAJANJE NA ŽOGO (12 minut) S klobučki
Prikaži več(Microsoft Word - U\350enje telegrafije po Kochovi metodi.doc)
MORSE UČENJE PO KOCHOVI METODI Računalniški program za učenje skupaj z nekaterimi dodatnimi datotekami dobite na spletni strani avtorja: http://www.g4fon.net/. Zanimive strani so tudi: - http://www.qsl.net/n1irz/finley.morse.html
Prikaži večVST: 1. kviz
jsmath Učilnica / VST / Kvizi / 1. kviz / Pregled poskusa 1 1. kviz Pregled poskusa 1 Končaj pregled Začeto dne nedelja, 25. oktober 2009, 14:17 Dokončano dne nedelja, 25. oktober 2009, 21:39 Porabljeni
Prikaži večVerjetnost in vzorčenje: teoretske porazdelitve standardne napake ocenjevanje parametrov as. dr. Nino RODE prof. dr. Blaž MESEC
Verjetnost in vzorčenje: teoretske porazdelitve standardne napake ocenjevanje parametrov as. dr. Nino RODE prof. dr. Blaž MESEC VERJETNOST osnovni pojmi Poskus: dejanje pri katerem je izid negotov met
Prikaži večIme in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost Pisni izpit 5. februar 2018 Navodila Pazljivo preberite
Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost Pisni izpit 5 februar 018 Navodila Pazljivo preberite besedilo naloge, preden se lotite reševanja Nalog je
Prikaži večSlide 1
Projektno vodenje PREDAVANJE 7 doc. dr. M. Zajc matej.zajc@fe.uni-lj.si Projektno vodenje z orodjem Excel Predstavitev Najbolj razširjeno orodje za delo s preglednicami Dva sklopa funkcij: Obdelava številk
Prikaži večUpravljanje sistema COBISS Navodila za uporabo tiskalnika CITIZEN S310II V1.0 VIF-NA-27-SI
Navodila za uporabo tiskalnika CITIZEN S310II V1.0 VIF-NA-27-SI IZUM, 2015 COBISS, COMARC, COBIB, COLIB, IZUM so zaščitene znamke v lasti javnega zavoda IZUM. KAZALO VSEBINE 1 Uvod... 1 2 Uporaba tiskalnika...
Prikaži večMicrosoft Word - CNC obdelava kazalo vsebine.doc
ŠOLSKI CENTER NOVO MESTO VIŠJA STROKOVNA ŠOLA STROJNIŠTVO DIPLOMSKA NALOGA Novo mesto, april 2008 Ime in priimek študenta ŠOLSKI CENTER NOVO MESTO VIŠJA STROKOVNA ŠOLA STROJNIŠTVO DIPLOMSKA NALOGA Novo
Prikaži večSvajper_prezentacija
SVAJPER Svajpaj, stari. Za vse, kar sledi. UVOD Mladi danes živijo v trenutku. Svoj pogled pa namesto v prihodnost raje usmerjajo kar v pametni telefon. So družba individualistov, ki čustveno potešitev
Prikaži večNAJRAJE SE DRUŽIM S SVIČNIKOM, SAJ LAHKO VADIM ČRTE IN KRIVULJE, PA VELIKE TISKANE ČRKE IN ŠTEVILKE DO 20. Preizkusite znanje vaših otrok in natisnite
NAJRAJE SE DRUŽIM S SVIČNIKOM, SAJ LAHKO VADIM ČRTE IN KRIVULJE, PA VELIKE TISKANE ČRKE IN ŠTEVILKE DO 20. Preizkusite znanje vaših otrok in natisnite vzorčne strani iz DELOVNIH LISTOV 1 v štirih delih
Prikaži večNAVODILA ZA UPORABO K01-WIFI Hvala, ker ste se odločili za nakup našega izdelka. Pred uporabo enote skrbno preberite ta Navodila za uporabo in jih shr
NAVODILA ZA UPORABO Hvala, ker ste se odločili za nakup našega izdelka. Pred uporabo enote skrbno preberite ta in jih shranite za prihodnjo rabo Vsebina 1. Pregled 2. Sistem 3. Prednosti 4. Upravljanje
Prikaži večMicrosoft Word - Objave citati RIF in patentne prijave za MP.doc
Primerjalna analiza gibanja števila objav, citatov, relativnega faktorja vpliva in patentnih prijav pri Evropskem patentnem uradu I. Uvod Število objav in citatov ter relativni faktor vpliva so najbolj
Prikaži večMicrosoft Word - SEP, koncnaaaaaaaaaaaaaaaaaaaaaaaaaaa
Osnovna šola bratov Letonja telefon/fax: (03) 8965300, 8965304 Šmartno ob Paki 117 e-pošta: os-bl-smartno@guest.arnes.si 3327 Šmartno ob Paki spl. stran: www.ossmartno.si SAMOEVALVACIJSKO POROČILO SODELOVANJE
Prikaži več_ _BDA_CapitalSports_CS-Timer.indd
10028194 10029391 CS Timer 6 Spoštovani kupci, Čestitamo Vam za nakup. Prosimo, da skrbno preberete navodilo in da skrbite za nasvete o namestitvi in uporabi, da bi ste izognili tehničnim poškodbam. Za
Prikaži večSezana_porocilo okt2013
Občani Sežane o aktualnih vprašanjih telefonska raziskava Izvajalec: Ninamedia d.o.o. Ljubljana, oktober 2013 1. POVZETEK Zaposlitvene možnosti so trenutno največji problem, ki ga zaznavajo anketiranci.
Prikaži večrm.dvi
1 2 3 4 5 6 7 Ime, priimek Razred 14. DRŽAVNO TEKMOVANJE V RAZVEDRILNI MATEMATIKI NALOGE ZA PETI IN ŠESTI RAZRED OSNOVNE ŠOLE Čas reševanja nalog: 90 minut Točkovanje 1., 2., in 7. naloge je opisano v
Prikaži večFGG14
Iterativne metode podprostorov Iterativne metode podprostorov uporabljamo za numerično reševanje linearnih sistemov ali računanje lastnih vrednosti problemov z velikimi razpršenimi matrikami, ki so prevelike,
Prikaži večMicrosoft Word - Kolaric_napad krozeci prst.doc
Marko KOLARIČ ZNAČILNOSTI NAPADA»KROŽEČI PRST«ČLANSKE EKIPE KK PARKLJI BEŽIGRAD 1 UVOD V članku bom predstavil enega izmed napadov, ki jih je članska ekipa KK Parklji Bežigrad najpogosteje uporabljala
Prikaži večPowerPointova predstavitev
U K 20 P K U P M 2 0 1 2 12 M OBLIKOVANJE POJMA ŠTEVILO PRI OTROKU V 1. RAZREDU Sonja Flere, Mladen Kopasid Konferenca o učenju in poučevanju matematike, M a r i b o r, 2 3. i n 2 4. avgusta 2 0 1 2 Oblikovanje
Prikaži večStrojna oprema
Asistenta: Mira Trebar, Miha Moškon UIKTNT 2 Uvod v programiranje Začeti moramo razmišljati algoritmično sestaviti recept = napisati algoritem Algoritem za uporabo poljubnega okenskega programa. UIKTNT
Prikaži večDN5(Kor).dvi
Koreni Število x, ki reši enačbo x n = a, imenujemo n-ti koren števila a in to označimo z n a. Pri tem je n naravno število, a pa poljubno realno število. x = n a x n = a. ( n a ) n = a. ( n a ) m = n
Prikaži večMicrosoft Word - M docx
Š i f r a k a n d i d a t a : ržavni izpitni center *M15178112* SPOMLNSKI IZPITNI ROK Izpitna pola 2 Četrtek, 4. junij 2015 / 90 minut ovoljeno gradivo in pripomočki: Kandidat prinese nalivno pero ali
Prikaži večMicrosoft Word - avd_vaje_ars1_1.doc
ARS I Avditorne vaje Pri nekem programu je potrebno izvršiti N=1620 ukazov. Pogostost in trajanje posameznih vrst ukazov računalnika sta naslednja: Vrsta ukaza Štev. urinih period Pogostost Prenosi podatkov
Prikaži večINFORMATOR BIROKRAT 1/2011
ta Veleprodaja Maloprodaja Storitve Računovodstvo Proizvodnja Gostinstvo Turizem Hotelirstvo Ticketing CRM Internetna trgovina Izdelava internetnih strani Grafično oblikovanje NOVOSTI IN NASVETI ZA DELO
Prikaži več1. izbirni test za MMO 2018 Ljubljana, 16. december Naj bo n naravno število. Na mizi imamo n 2 okraskov n različnih barv in ni nujno, da imam
1. izbirni test za MMO 018 Ljubljana, 16. december 017 1. Naj bo n naravno število. Na mizi imamo n okraskov n različnih barv in ni nujno, da imamo enako število okraskov vsake barve. Dokaži, da se okraske
Prikaži večProgramska sprememba oddelka šole
Pomoč uporabnikom Programska sprememba oddelka šole -NA-SI-355, V1.0 IZUM, 2018 COBISS, COMARC, COBIB, COLIB, IZUM so zaščitene znamke v lasti javnega zavoda IZUM. KAZALO VSEBINE 1 Navodila... 1 2 Postopek...
Prikaži več11. Navadne diferencialne enačbe Začetni problem prvega reda Iščemo funkcijo y(x), ki zadošča diferencialni enačbi y = f(x, y) in začetnemu pogo
11. Navadne diferencialne enačbe 11.1. Začetni problem prvega reda Iščemo funkcijo y(x), ki zadošča diferencialni enačbi y = f(x, y) in začetnemu pogoju y(x 0 ) = y 0, kjer je f dana dovolj gladka funkcija
Prikaži večpredstavitev fakultete za matematiko 2017 A
ZAKAJ ŠTUDIJ MATEMATIKE? Ker vam je všeč in vam gre dobro od rok! lepa, eksaktna veda, ki ne zastara matematičnoanalitično sklepanje je uporabno povsod matematiki so zaposljivi ZAKAJ V LJUBLJANI? najdaljša
Prikaži večNavodila za pripravo oglasov na strani Med.Over.Net v 2.2 Statistično najboljši odziv uporabnikov je na oglase, ki hitro in neposredno prenesejo osnov
Navodila za pripravo oglasov na strani Med.Over.Net v 2.2 Statistično najboljši odziv uporabnikov je na oglase, ki hitro in neposredno prenesejo osnovno sporočilo. Izogibajte se daljših besedil in predolgih
Prikaži večMicrosoft PowerPoint _12_15-11_predavanje(1_00)-IR-pdf
uporaba for zanke i iz korak > 0 oblika zanke: for i iz : korak : ik NE i ik DA stavek1 stavek2 stavekn stavek1 stavek2 stavekn end i i + korak I&: P-XI/1/17 uporaba for zanke i iz korak < 0 oblika zanke:
Prikaži večCOBISS3/Medknjižnična izposoja
3/Medknjižnična izposoja 2.2 KATALOG Katalog nam omogoča: iskanje gradiva prikaz izbranih bibliografskih zapisov ali pripadajočih podatkov o zalogi iz lokalne baze podatkov v formatu COMARC vpogled v stanje
Prikaži večMicrosoft Word - Seštevamo stotice.doc
UČNA PRIPRAVA: MATEMATIKA UČNI SKLOP: Računske operacije UČNA TEMA: Seštevamo in odštevamo stotice Seštevamo stotice UČNE METODE: razlaga, prikazovanje, demonstracija, grafično in pisno delo UČNE OBLIKE:
Prikaži več7. VAJA A. ENAČBA ZBIRALNE LEČE
7. VAJA A. ENAČBA ZBIRALNE LEČE 1. UVOD Enačbo leče dobimo navadno s pomočjo geometrijskih konstrukcij. V našem primeru bomo do te enačbe prišli eksperimentalno, z merjenjem razdalj a in b. 2. NALOGA Izračunaj
Prikaži večIme in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 31. avgust 2018 Navodila Pazljivo preberite
Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 31 avgust 018 Navodila Pazljivo preberite besedilo naloge, preden se lotite reševanja Za pozitiven
Prikaži večPowerPointova predstavitev
Dostopnost elektronskih virov za slepe, slabovidne in druge osebe z motnjami branja Kristina Janc ZSSML - 27. Seja TIFLO sekcije 22.3.2012 Možnost izkoriščanja elektronskih virov za slepe, slabovidne in
Prikaži večGOALS
BELGIAN DEFENCE FORCES General Directorate Material Resources Section Ammunition Risk Management HQ Queen ELISABETH Rue d'evere, 1 1140 BRUSSELS BELGIUM (BE)AC326(SG5) IWP 2012-01(I) 26. marec 2012 ORODJE
Prikaži večDatum in kraj
Ljubljana, 5. 4. 2017 Katalog znanj in vzorci nalog za izbirni izpit za vpis na magistrski študij Pedagoško računalništvo in informatika 2017/2018 0 KATALOG ZNANJ ZA IZBIRNI IZPIT ZA VPIS NA MAGISTRSKI
Prikaži večIJS EDS IJS Elektronski Dokumentni Sistem Osnovna uporaba sistema uporabniška navodila Institut "Jožef Stefan" Ljubljana
IJS Elektronski Dokumentni Sistem Osnovna uporaba sistema uporabniška navodila Institut "Jožef Stefan" Ljubljana Projekt: (RD JN19 16) Naročnik projekta: Institut "Jožef Stefan" Izvajalec projekta: BuyITC
Prikaži večKer so pri Microsoftu z igro Age of Empires (in dodatkom Rise of Rome) poželi tolikšen uspeh, so izdali tudi nadaljevanje te igre. Kakor prvi del igre
Ker so pri Microsoftu z igro Age of Empires (in dodatkom Rise of Rome) poželi tolikšen uspeh, so izdali tudi nadaljevanje te igre. Kakor prvi del igre Age of Empires, je tudi drugi del realnočasovna strategija.
Prikaži več2. Model multiple regresije
2. Model multiple regresije doc. dr. Miroslav Verbič miroslav.verbic@ef.uni-lj.si www.miroslav-verbic.si Ljubljana, februar 2014 2.1 Populacijski regresijski model in regresijski model vzorčnih podatkov
Prikaži večMicrosoft PowerPoint - 14 IntrerspecifiOna razmerja .ppt
IV. POPULACIJSKA EKOLOGIJA 14. Interspecifična razmerja Št.l.: 2006/2007 1 1. INTERSPECIFIČNA RAZMERJA Osebki ene vrste so v odnosih z osebki drugih vrst, pri čemer so lahko ti odnosi: nevtralni (0), pozitivni
Prikaži večN
Državni izpitni center *N19141132* 9. razred FIZIKA Ponedeljek, 13. maj 2019 NAVODILA ZA VREDNOTENJE NACIONALNO PREVERJANJE ZNANJA v 9. razredu Državni izpitni center Vse pravice pridržane. 2 N191-411-3-2
Prikaži več2019 QA_Final SL
Predhodni prispevki v enotni sklad za reševanje za leto 2019 Vprašanja in odgovori Splošne informacije o metodologiji izračuna 1. Zakaj se je metoda izračuna, ki je za mojo institucijo veljala v prispevnem
Prikaži večUNIVERZA V LJUBLJANI FAKULTETA ZA MATEMATIKO IN FIZIKO Katja Ciglar Analiza občutljivosti v Excel-u Seminarska naloga pri predmetu Optimizacija v fina
UNIVERZA V LJUBLJANI FAKULTETA ZA MATEMATIKO IN FIZIKO Katja Ciglar Analiza občutljivosti v Excel-u Seminarska naloga pri predmetu Optimizacija v financah Ljubljana, 2010 1. Klasični pristop k analizi
Prikaži večMicrosoft PowerPoint - IPPU-V2.ppt
Informatizacija poslovnih procesov v upravi VAJA 2 Procesni pogled Diagram aktivnosti IPPU vaja 2; stran: 1 Fakulteta za upravo, 2006/07 Procesni pogled Je osnova za razvoj programov Prikazuje algoritme
Prikaži večNAVODILA AVTORJEM PRISPEVKOV
Predmetna komisija za nižji izobrazbeni standard matematika Opisi dosežkov učencev 6. razreda na nacionalnem preverjanju znanja Slika: Porazdelitev točk pri matematiki (NIS), 6. razred 1 ZELENO OBMOČJE
Prikaži večACAD-BAU-Analiza-prostorov
ANALIZA PROSTOROV Ko obdelujemo večje projekte, je analiza prostorov zelo pomembna v vseh fazah projektiranja. Pri idejnem snovanju moramo npr. za določeno površino trgovske namembnosti zagotoviti primerno
Prikaži večNavodila za uporabo Mini prenosna HD kamera s snemalnikom
Navodila za uporabo Mini prenosna HD kamera s snemalnikom www.spyshop.eu Izdelku so priložena navodila v angleščini, ki poleg teksta prikazujejo tudi slikovni prikaz sestave in delovanja izdelka. Lastnosti
Prikaži večLABORATORIJSKE VAJE IZ FIZIKE
UVOD LABORATORIJSKE VAJE IZ FIZIKE V tem šolskem letu ste se odločili za fiziko kot izbirni predmet. Laboratorijske vaje boste opravljali med poukom od začetka oktobra do konca aprila. Zunanji kandidati
Prikaži večDES11_realno
Laboratorij za načrtovanje integriranih vezij Univerza v Ljubljani Fakulteta za elektrotehniko Digitalni Elektronski Sistemi Delovanje realnega vezja Omejitve modela vezja 1 Model v VHDLu je poenostavljeno
Prikaži večArial 26 pt, bold
3 G MATEMATIKA Milan Černel Osnovna šola Brežice POUČEVANJE MATEMATIKE temeljni in zahtevnejši šolski predmet, pomembna pri razvoju celovite osebnosti učenca, prilagajanje oblik in metod poučevanja učencem
Prikaži več3. Metode, ki temeljijo na minimalnem ostanku Denimo, da smo z Arnoldijevim algoritmom zgenerirali ON bazo podprostora Krilova K k (A, r 0 ) in velja
3. Metode, ki temeljijo na minimalnem ostanku Denimo, da smo z Arnoldijevim algoritmom zgenerirali ON bazo podprostora Krilova K k (A, r 0 ) in velja AV k = V k H k + h k+1,k v k+1 e T k = V kh k+1,k.
Prikaži večMicrosoft Word - agrobilten_ doc
Dekadni bilten vodnobilančnega stanja v Sloveniji 1. april 3. april 9 OBVESTILO Ob prehodu v drugo polovico aprila so se tla že zelo izsušila. A visoke temperature zraka so popustile in po večini Slovenije
Prikaži večRačunalniški praktikum Projektna naloga - Izdelava spletne strani Avtor: Matej Tekavčič Skupina: Matej Tekavčič - koordinator Simon Vrhovnik Tine Kavč
Računalniški praktikum Projektna naloga - Izdelava spletne strani Avtor: Matej Tekavčič Skupina: Matej Tekavčič - koordinator Simon Vrhovnik Tine Kavčič Matjaž Jerman 8. februar 2006 Kazalo 1 Uvod 2 2
Prikaži večDiapozitiv 1
Samoevalvacija: POČUTJE UČENCEV V ŠOLI IN OCENA RAZLIČNIH ŠOLSKIH DEJAVNOSTI TER POGOJEV ZA DELO Šolsko leto 2018/19 PREDSTAVITEV REZULTATOV ANKETNEGA VPRAŠALNIKA ZA UČENCE OD 4. DO 9. RAZREDA IN UGOTOVITVE
Prikaži večPKP projekt SMART WaterNet_Opis
PKP projekt SMART WaterNet Po kreativni poti do znanja (PKP) opis programa Program Po kreativni poti do znanja omogoča povezovanje visokošolskih zavodov s trgom dela in tako daje možnost študentom za pridobitev
Prikaži večORFFOV JESENSKI SEMINAR 2015 Plesna delavnica Tadeja Mraz Novak 1. Ritmično ogrevanje Prostor: večji odprti prostor Pripomočki: Ročni boben ali drug t
1. Ritmično ogrevanje Pripomočki: Ročni boben ali drug tolkalni inštrument za podporo ritma Hodimo prosto po prostoru na vsako 8. dobo = PLOSK Hodimo, na 4. dobo = TLESK + na vsako 8. dobo = PLOSK Preštejemo
Prikaži večMicrosoft Word - SI_vaja1.doc
Univerza v Ljubljani, Zdravstvena fakulteta Sanitarno inženirstvo Statistika Inštitut za biostatistiko in medicinsko informatiko Š.l. 2011/2012, 3. letnik (1. stopnja), Vaja 1 Naloge 1. del: Opisna statistika
Prikaži večMicrosoft Word - UP_Lekcija04_2014.docx
4. Zanka while Zanke pri programiranju uporabljamo, kadar moramo stavek ali skupino stavkov izvršiti večkrat zaporedoma. Namesto, da iste (ali podobne) stavke pišemo n-krat, jih napišemo samo enkrat in
Prikaži večAlbert Einstein in teorija relativnosti
Albert Einstein in teorija relativnosti Rojen 14. marca 1879 v judovski družini v Ulmu, odraščal pa je v Münchnu Obiskoval je katoliško osnovno šolo, na materino željo se je učil igrati violino Pri 15
Prikaži večMATLAB programiranje MATLAB... programski jezik in programersko okolje Zakaj Matlab? tipičen proceduralni jezik enostaven za uporabo hitro učenje prir
MATLAB programiranje MATLAB... programski jezik in programersko okolje Zakaj Matlab? tipičen proceduralni jezik enostaven za uporabo hitro učenje priročno programsko okolje tolmač interpreter (ne prevajalnik)
Prikaži večSpoznajmo PowerPoint 2013
Spoznajmo PowerPoint 2013 13 Nova predstavitev Besedilo v predstavitvi Besedilo, ki se pojavlja v predstavitvah lahko premaknemo kamorkoli v diapozitivu. Kadar izdelamo diapozitiv z že ustvarjenimi okvirji
Prikaži večMicrosoft PowerPoint - Lapajne&Randl2015.pptx
RAZISKAVA OB PREDVIDENI SELITVI KNJIŽNIC OHK Raziskava je potekala v okviru predmetov Raziskovalne metode in Uporabniki informacijskih virov in storitev pod mentorstvom treh profesorjev (dr. Pisanski,
Prikaži večVaje: Matrike 1. Ugani rezultat, nato pa dokaži z indukcijo: (a) (b) [ ] n 1 1 ; n N 0 1 n ; n N Pokaži, da je množica x 0 y 0 x
Vaje: Matrike 1 Ugani rezultat, nato pa dokaži z indukcijo: (a) (b) [ ] n 1 1 ; n N n 1 1 0 1 ; n N 0 2 Pokaži, da je množica x 0 y 0 x y x + z ; x, y, z R y x z x vektorski podprostor v prostoru matrik
Prikaži večMicrosoft Word - SI_vaja5.doc
Univerza v Ljubljani, Zdravstvena fakulteta Sanitarno inženirstvo Statistika Inštitut za biostatistiko in medicinsko informatiko Š.l. 2011/2012, 3. letnik (1. stopnja), Vaja 5 Naloge 1. del: t test za
Prikaži večTermin in lokacija izvedbe Naslov delavnice Ciljna skupina Cilji in/ali kratek opis Izvajalec Kontaktni e-naslov 6. oktober 2018 Gimnazija Franceta Pr
Termin in lokacija izvedbe Naslov delavnice Ciljna skupina Cilji in/ali kratek opis Izvajalec Kontaktni e-naslov 6. oktober 2018 Gimnazija Franceta Prešerna, Kranj (ponovitev izvedbe 23. oktobra na OE
Prikaži večPostopek poracuna 2007 za JU
POSTOPEK PORAČUNA PLAČ V JAVNEM SEKTORJU ZA OBDOBJE JANUAR-JUNIJ 2007 Ljubljana, julij 2007 verzija 1.00 Stran - 1 Skladno z objavo Zakona o spremembah in dopolnitvah zakona o sistemu plač v javnem sektorju
Prikaži večDiapozitiv 1
Ključne kompetence za uspešno delo knjižničarja Kako jih razvijati? Dr. Vlasta Zabukovec Oddelek za bibliotekarstvo, informacijsko znanost in knjigarstvo FF, UL Kompetence Študij, vseživljenjsko učenje
Prikaži večNavodila za programsko opremo FeriX Namestitev na trdi disk Avtor navodil: Martin Terbuc Datum: December 2007 Center odprte kode Slovenije Spletna str
Navodila za programsko opremo FeriX Namestitev na trdi disk Avtor navodil: Martin Terbuc Datum: December 2007 Center odprte kode Slovenije Spletna stran: http://www.coks.si/ Elektronski naslov: podpora@coks.si
Prikaži več(Microsoft Word - 3. Pogre\232ki in negotovost-c.doc)
3.4 Merilna negotovost Merilna negotovost je parameter, ki pripada merilnem rezltat. Označje razpršenost vrednosti, ki jih je mogoče z določeno verjetnostjo pripisati merjeni veličini. Navaja kakovost
Prikaži večDiapozitiv 1
IGRE NA SREČO IN NEVARNOSTI ZASVOJENOSTI Pripravile: FKPV - Komerciala I IGRALNIŠTVO Seminarska naloga Marec 2012 HAZARDERSTVO: RAZVADA, BOLEZEN, POSEL? Iskanje tveganja in tveganje prekletstva Magična
Prikaži večPOVEZOVANJE REJCEV DROBNICE NA OBMOČJU LAS POVEZOVANJE REJCEV DROBNICE NA OBMOČJU LAS Meso drobnice priložnost in izziv 1
POVEZOVANJE REJCEV DROBNICE NA OBMOČJU LAS POVEZOVANJE REJCEV DROBNICE NA OBMOČJU LAS 1 Dokument Povezovanje rejcev drobnice na območju LAS je nastal v okviru LEADER projekta Ugotovitev stanja rejcev drobnice
Prikaži večFOR SMARTER PEOPLE TAKO SE VLOMI PREPREČUJEJO DANES REHAU Smart Guard System plus preventivna protivlomna zaščita WINDOWS. REINVENTED FOR MODERN LIFE.
FOR SMARTER PEOPLE TAKO SE VLOMI PREPREČUJEJO DANES REHAU Smart Guard System plus preventivna protivlomna zaščita WINDOWS. REINVENTED FOR MODERN LIFE. NA NOVO ZASNOVANA OKNA Za današnje življenje Naše
Prikaži večVPOGLED V DELO AKADEMIJE ATLETICA IN BENFICE Marjetka Orel Foto: Marko Nešić Strokovno delo v športu obsega načrtovanje, organiziranje, izvajanje, spr
VPOGLED V DELO AKADEMIJE ATLETICA IN BENFICE Marjetka Orel Foto: Marko Nešić Strokovno delo v športu obsega načrtovanje, organiziranje, izvajanje, spremljanje in vrednotenje športnih aktivnosti. Pri tem
Prikaži večPravila škofjeloške poletne teniške lige 2019 Splošno o ligi pravica nastopa, formiranje skupin, igrišča in uradna žoga 1. Pravico igranja imajo (v ko
Pravila škofjeloške poletne teniške lige 2019 Splošno o ligi pravica nastopa, formiranje skupin, igrišča in uradna žoga 1. Pravico igranja imajo (v kolikor tekmovalna komisija na podlagi prijav ne odloči
Prikaži več