Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 31 avgust 018 Navodila Pazljivo preberite besedilo naloge, preden se lotite reševanja Za pozitiven rezultat morate zbrati vsaj 5 točk od 100 možnih Veliko uspeha! Naloga a b c d 1 3 Skupaj REˇSITVE
1 5 Ljubiteljski kolesar Bernard vsak dan od ponedeljka do sobote z verjetnostjo 1/ prevozi 0, z verjetnostjo 1/ pa 5 km V nedeljo pa z verjetnostjo 3/ počiva, z verjetnostjo 1/ pa naredi izlet, na katerem prevozi 100 km Privzamemo, da so vse Bernardove odločitve neodvisne a 15 Čim natančneje izračunajte verjetnost, da v 1 tednih prevozi več kot 000 km Rešitev: Označimo z X kl število kilometrov, ki jih Bernard prevozi l-ti dan k- tega tedna od ponedeljka do sobote torej 0 ali 5, z N 1 pa število nedelj v prvih 1 tednih, ko Bernard naredi izlet V prvih 1 tednih Bernard prevozi S 1 := T 1 + 100 N kilometrov, kjer je T 1 := 1 6 k=1 l=1 X kl Glede na to, da nedeljski kilometri izstopajo, se splača pogojevati na N, ki je porazdeljena binomsko Bin1, 1/ Velja torej 1 P S 1 > 000 = P N = n P S 1 > 000 N = n = n=0 1 = n=0 1 n 1 n 1 n 3 P T 1 > 000 100n slučajna spremenljivka T 1 pa je vsota velikega števila neodvisnih in enako porazdeljenih slučajnih spremenljivk, torej je po centralnem limitnem izreku porazdeljena približno normalno Ker je je približno EX kl = 0 + 5 =,5, varx kl = 5 = 6,5, ET 1 = 1 6,5 = 160, vart 1 = 1 6 6,5 = 50, P S 1 > 000 = P S 1 > 00,5 1 1 1 n n=0 n 3 1 n [ ] 38,5 100n 1 Φ 50 Tabeliramo ustrezne normalne verjetnosti, zaokrožene na decimalke natančno: n 0 1 3 5 1 Φ 38,5 100n 50 0,0000 0,0000 0,0000 0,0001 0,7953 1,0000 in vidimo, da je edina netrivialna normalna verjetnost pri n =, poleg tega pa še, da se bolj splača računati nasprotno verjetnost: P S 1 000 3 n=0 1 n = 0,6886 1 n 1 n 3 + 1 1 8 3 0,07 Verjetnost, da Bernard v prvih 1 tednih prevozi več kot 000 km, je torej približno 0,311
Preprostejši način, ki tipično da manj natančen približek, pa bi bil, da bi zapisali S 1 = Y 1 + Y + + Y 1, kjer je Y k število kilometrov, ki jih Bernard prevozi v k-tem tednu Slučajne spremenljivke Y k so neodvisne in enako porazdeljene, jih je pa le 1, kar je malo Velja: EY k = 6,5 + 100 1 = 160, vary k = 6 6,5 + 10000 1 3 = 191,5, ES 1 = 1 160 = 190, vars 1 = 1 191,5 = 950, kar nam da približek P S 1 > 000 = P S 1 > 00,5 1 Φ Točen rezultat: 0,311588 00,5 190 950 = 0,930 b 10 Približno po koliko tednih postane verjetnost, da prevozi več kot 0000 km, večja od 95%? Rešitev: Tu uporabimo manj natančni približek iz prve točke Upoštevajoč ES n = 160 n in vars n = 191,5 n, nastavimo 000,5 160 n 1 Φ = 0,95 191,5 n oziroma 160 n 000,5 = Φ 1 0,95 191,5 n Če uvedemo u = n, dobimo rešitvi u 1 = 10,959 in u = 11,08 Prava je rešitev s pozitivnim korenom, ker je n po dogovoru nenegativno število Iz = 130,15 dobimo, da postane verjetnost večja od 95% po približno 131 tednih u V resnici je 131 tednov potrebnih in zadostnih: po 130 tednih verjetnost pride 0,98069, po 131 tednih pa 0,975078 3
5 Populacija velikosti N je za namene vzorčenja razdeljena na K podskupin velikosti M, tako da je N = KM Vzorec velikosti n izberemo tako, da najprej izberemo enostavni slučajni vzorec k izmed K skupin, v vsaki izbrani skupini pa izberemo enostavni slučajni vzorec m enot neodvisno do izbir na prvem koraku vzorčenja, tako da je n = km Populacijsko povprečje ocenimo z vzorčnim povprečjem Naj bo µ i populacijsko povprečje, σ i pa populacijska varianca v i-ti skupini za i = 1,,, K; µ naj bo populacijsko povprečje Označite Označite z X vzorčno povprečje σ b = 1 K µ i µ a 5 Utemeljite, da je vzorčno povprečje nepristranska cenilka populacijskega povprečja µ Rešitev: Če je x ij vrednost spremenljivke na j-ti enoti v i-ti skupini na populaciji, je populacijsko povprečje enako µ = 1 KM M x ij Nadalje, če z I i označimo indikator dogodka, da je i-ta skupina izbrana v vzorec, z I ij pa indikator dogodka, da je j-ta enota v i-ti skupini izbrana v vzorec, je vzorčno povprečje enako X = 1 km M x ij I i I ij Iz vzorčnega načrta sledi, da je EI i I ij = k K b 5 Definirajte Izračunajte { 1 če je i-ta podskupina izbrana I i = 0 sicer E X I1, I,, I K m, od koder sledi, da je E X = µ M in var X I1, I,, I K Rešitev: Predstavljamo si lahko, da najprej vzamemo vzorce iz vseh skupin, nakar upoštevamo le izbrane skupine Naj bo X i vzorčno povprečje v i-ti skupini Tedaj je X = 1 X i I i k Iz vzorčnega načrta sledi, da je X i neodvisen od I 1,, I K Iz standardne teorije vzorčenja dobimo E X i I 1,, I K = E X i = µ i, var X i I 1,, I K = var X i = M 1m σ i
Torej je tudi E X i I i I 1,, I K = µ i I i in var X i I i I 1,, I K = M 1m σ i I i Spet iz vzorčnega načrta sledi, da so slučajne spremenljivke X i I i I 1,, I K neodvisne Sledi pogojno na E X I 1,, I K = 1 k µ i I i in var X I 1,, I K = M 1m 1 k σi I i c 10 Naj bo X i vzorčno povprečje v i-ti skupini Izračunajte E X i I i in E X Rešitev: Iz vmesnih rezultatov prejšnje točke dobimo torej je E X i I i I1,, I K = E X i I1,, I K Ii = [ = var Xi I1,, I K + E Xi I 1,, I K ] I i = M 1m σ i + µ i I i, E X i I i = E E X i I i I1,, I K = k K Podobno iz rezultatov prejšnje točke dobimo M 1m σ i + µ i E X I1,, I K = var X I1,, I K + E X I1,, I K = 1 k M 1 Izračunajmo [ 1 ] E µ i I i = 1 K k k = 1 Kk = = σi I i + µ i µ j EI i I j µ i + k 1 KK 1k 1 k µ i I i 1 i,j K i j µ i µ j k 1 K µ i + K k KK 1k KK 1k Kk 1 kk 1 µ + K k KK 1k µ i µ i 5
Poberemo skupaj in dobimo E X = E E X I1,, I K = 1 Kk M 1m σi + Kk 1 kk 1 µ + K k KK 1k µ i d 5 Predlagajte nepristransko cenilko količine σ b Rešitev: Pišimo σ b = 1 K µ i µ To količino bomo znali nepristransko oceniti, če bomo znali nepristransko oceniti µ i in µ Kot osnova cenilke za µ i se ponuja opazljiva količina X i I i, a njena pričakovana vrednost se izraža še s σ i, kar pa znamo nepristransko oceniti Iz teorije vzorčenja namreč vemo, da bi bila količina M 1 Mm 1 M x ij X i I ij nepristranska cenilka za σ i, če bi bila opazljiva; tu si spet mislimo, da iz vsake skupine vzamemo podvzorec Opazljiva pa je količina M 1 Mm 1 M x ij X i I i I ij in iz vzorčnega načrta sledi, da ima le-ta pričakovano vrednost k K σ i Tako dobimo, da je σ i := K M 1 M x ij k Mm 1 X i I i I ij nepristranska cenilka za σ i Sledi, da je µ i := K k X i I i M 1m nepristranska cenilka za µ i Nadalje je kk 1 µ := X 1 σ i Kk 1 Kk M 1m K k µ i KK 1k kk 1 = X 1 σ i Kk 1 Kk M 1m K k X k i I i K 1 + K k σ i KK 1k M 1m = kk 1 Kk 1 X K k Kkk 1 X i I i 1 K σ i M 1m σ i 6
nepristranska cenilka za µ Iskana nepristranska cenilka za σ b pa je σ b := 1 K µ i µ = K 1 Kk 1 = K 1 K X i I i kk 1 Kk 1 X K 1 K 1 k 1 X i X 1 k Mmm 1 M 1m σ i M x ij X i I ij I i 7
3 5 Prepostavljajte, da so podatki x 1, x,, x n, y 1, y,, y n nastali kot med sabo neodvisne slučajne spremenljivke X 1,, X n, Y 1,, Y n z X k Nµ, σ in Y k Nµ, τ za k = 1,,, n Za cenilko parametra µ predlagamo Označite in ˆµ = X k=1 Y k Ȳ + Ȳ k=1 X k X k=1 X k X + k=1 Y k Ȳ U = V = k=1 Y k Ȳ n k=1 X k X + k=1 Y k Ȳ k=1 X k X k=1 X k X + k=1 Y k Ȳ a 5 Izračunajte E X U, V in EȲ U, V Je cenilka ˆµ nepristranska? Rešitev: Vemo, da so slučajne spremenljivke X, Ȳ, U in V med sabo neodvisne, torej je E X U, V = E X = µ in EȲ U, V = EȲ = µ Nadalje velja ˆµ = X U + Ȳ V, torej je Eˆµ = E X EU + EȲ EV = µ EU + EV Ker je U + V = 1, je tudi EU + EV = 1, zato je ˆµ nepristranska cenilka za µ b 5 Izračunajte varˆµ U, V Rešitev: Zaradi neodvisnosti je varˆµ U, V = var XU + Ȳ V U, V = U var X U, V + UV cov X, Ȳ U, V + V varȳ U, V = U var X + UV cov X, Ȳ + V varȳ = σ U n + τ V n c 5 Pokažite, da je varˆµ = σ n EU + τ n EV in sklepajte, da je vedno varˆµ σ + τ n Rešitev: Velja Iz prejšnje točke sledi varˆµ = E [ varˆµ U, V ] + var [ Eˆµ U, V ] E [ varˆµ U, V ] = σ n EU + τ n EV, 8
iz neodvisnosti pa dobimo Eˆµ U, V = U E X + V EȲ = U + V µ = µ, torej je var [ Eˆµ U, V ] = 0 Prva trditev je tako dokazana Druga trditev pa sledi iz dejstva, da je U 1 in posledično EU 1 ter podobno za EV d 10 Naj bo µ cenilka µ po metodi največjega verjetja Cenilke vam ni treba izračunati, navedite pa aproksimacijo standardne napake z uporabo Fisherjeve matrike Rešitev: Lahko si predstavljamo, da so podatki dobljeni kot neodvisni pari X 1, Y 1,, X n, Y n Fisherjevo informacijo je zato dovolj izračunati za n = 1 Za ta primer velja lµ, σ, τ x, y = log σ log τ logπ Prvi parcialni odvodi so x µ y µ σ τ l µ = x µ + y µ, σ τ drugi parcialni odvodi pa so l σ = 1 x µ +, σ σ 3 l τ = 1 τ + y µ, τ 3 l µ = 1 σ 1 τ, l µ σ l σ = 1 3x µ +, σ σ = x µ σ 3, l µ τ = y µ τ 3, l τ = 1 3y µ +, τ τ l σ τ = 0 Iz EX 1 = EY 1 = µ ter E [ X 1 µ ] = σ in E [ Y 1 µ ] = τ dobimo, da je Fisherjeva matrika za n = 1 enaka 1 + 1 0 0 σ Iµ, σ, τ = τ 0 0 σ 0 0 τ Iz nje dobimo aproksimativno standardno napako se µ στ nσ + τ Opomba Morda se zdi, kot da je za izračun aproksimativne standardne napake dovolj izračunati pričakovano vrednost drugega parcialnega odvoda po µ, saj je [ aproksimativna standardna napaka enaka n E l µ, σ, τ X µ 1, Y 1 ] 1/ To pa ni vedno res Res je, če je Fisherjeva matrika diagonalna, kar se zgodi tudi v našem primeru Tega pa ne moremo vedeti vnaprej, zato je treba izračunati celo Fisherjevo matriko ali pa na določen način pokazati, da je diagonalna 9
0 Predpostavimo naslednji regresijski model: Y i1 = βx i1 + ɛ i, Y i = βx i + η i za i = 1,,, n Predpostavljamo, da so pari ɛ 1, η 1,, ɛ n, η n med sabo neodvisni in enako porazdeljeni z Eɛ i = Eη i = 0, varɛ i = varη i = σ in corrɛ i, η i = ρ Privzemite, da je ρ znan in ρ < 1 a 5 Oglejmo si cenilko ˆβ = Y i1x i1 + Y i x i x i1 + x i Je ta cenilka nepristranska? Izračunajte njeno standardno napako Rešitev: Da je cenilka nepristranska, sledi iz definicije in dejstva, da je EY ij = βx ij Za izračun variance pa cenilko zapišimo kot poseben primer cenilke oblike n ˆβ = a i Y i1 + b i Y i Iz neodvisnosti ter dejstva, da je vary i1 = vary i = σ in covy i1, Y i = ρσ, dobimo var ˆβ n n = vara i Y i1 + b i Y i = σ a i + ρa i b i + b i / V našem primeru je a i = x n / i1 x j1 + x j in b i = x n i x j1 + x j Dobimo var ˆβ = σ 1 n x i1 + x i + ρ x iy i x i1 + x i b 5 Enačbi lahko seštejemo in dobimo Y i1 + Y i = βx i1 + x i + ξ i, kjer je ξ i = ɛ i +η i Napake ξ 1,, ξ n so med sabo nekorelirane in velja Eξ i = 0 in varξ i = σ + ρ Parameter β lahko ocenimo kot ˆβ = Y i1 + Y i x i1 + x i x i1 + x i Je ta cenilka nepristranska? Izračunajte njeno standardno napako Rešitev: Tudi ta cenilka je nepristranska, kar se ponovno vidi neposredno iz definicije Za izračun variance pa si pomagamo z nastavkom iz točke a: tokrat je a i = b i = x i1 + x i / x j1 + x j Dobimo var ˆβ = 1 + ρσ x i1 + x i 10
c 5 Drugo enačbo lahko nadomestimo z zvezo Y i ρy i1 = β x i ρx i1 + η i ρɛ i Označimo Ỹ i = Y i ρy i1 in x i = x i ρx i1, parameter β pa ocenimo z ˆβ = Y i1x i1 + Ỹi x i x i1 + x i Je ta cenilka nepristranska? Izračunajte njeno standardno napako Rešitev: Tudi ta cenilka je nepristranska, kar se ponovno vidi neposredno iz definicije Za izračun variance si lahko tudi tokrat pomagamo z nastavkom iz točke a cenilka ustreza izbiri a i = b i = 1 x j1 + x j x i1 1 x j1 + x j x i = ρ x i = x ix i x jx j1x j + x j, x i ρx i1 x jx j1x j + x j Po krajšem računu dobimo var ˆβ = σ x ix i1x i + x i d 10 Katera od zgornjih cenilk ima po vašem mnenju najmanjšo standardno napako? Je cenilka z najmanjšo standardno napako tudi najboljša linearna nepristranska cenilka? Utemeljite vaš odgovor Rešitev: Pišimo Ỹi = β x i + η i, kjer je η i = η i ρɛ i Krajši račun pokaže, da je ta slučajna spremenljivka nekorelirana z ɛ i ter da je E η i = 0 in var η i = σ V primeru c so tako izpolnjeni pogoji izreka Gauss Markova Če postavimo x 11 Y 11 X := x n1 x 1, Ỹ := Y n1 Ỹ 1, x n Ỹ n 11
se cenilka iz točke c ujema z XT X 1 XỸ, torej je to najboljša linearna nepristranska cenilka na podlagi opaženih vrednosti Y 11,, Y n1 in Ỹ1, Ỹn Ta nabor opaženih vrednosti pa je v bijektivni linearni zvezi z izvirnim naborom Y 11,, Y n1 in Y 1,, Y n, zato gre v tem primeru tudi za najboljšo linearno nepristransko cenilko v izvirnem modelu, torej tudi za najboljšo izmed vseh treh predlaganih cenilk Opomba Pogoji izreka Gauss Markova so izpolnjeni tudi pri točki b, a za nabor opaženih vrednosti Y 11 + Y 1,, Y n1 + Y n Ta nabor pa ni v v bijektivni linearni zvezi z izvirnim naborom Y 11,, Y n1 in Y 1,, Y n Cenilka iz točke b je torej najboljša linearna nepristranska cenilka na podlagi opaženih vrednosti Y 11 + Y 1,, Y n1 + Y n, ni pa najboljša linearna nepristranska cenilka na podlagi izvirnega nabora, ki nudi več informacije 1