Bivariatna analiza

Podobni dokumenti
Četrta vaja iz matematike 1 Andrej Perne Ljubljana, 2006/07 zaporedja Zaporedje je predpis, ki vsakemu n N priredi a n R. Monotonost zaporedij: Zapore

FORMULE 1. Pravokotni koordinatni sistem v ravnini, linearna funkcija 2 2 Razdalja dveh točk v ravnini: d( A, B) ( x2 x1) ( y2 y1) y2 y1 Linearna funk

MATEMATIKA – IZPITNA POLA 1 – OSNOVNA IN VIŠJA RAVEN

O EKSPONENTNI FUNKCIJI Martin Raič Jesen 2013

Informativni test

LaTeX slides

6.6 Simetrični problem lastnih vrednosti Če je A = A T, potem so lastne vrednosti realne, matrika pa se da diagonalizirati. Schurova forma za simetrič

NAVADNA (BIVARIATNA) LINEARNA REGRESIJA O regresijski analizi govorimo, kadar želimo opisati povezanost dveh numeričnih spremenljivk. Opravka imamo to

Vsebinska struktura predmetnih izpitnih katalogov za splošno maturo

vaja4.dvi

Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 6. julij 2018 Navodila Pazljivo preberite be

FGG13

Univerza v Mariboru Fakulteta za naravoslovje in matematiko Oddelek za matematiko in računalništvo Enopredmetna matematika IZPIT IZ VERJETNOSTI IN STA

Osnove statistike v fizični geografiji 2

Matematika Diferencialne enačbe prvega reda (1) Reši diferencialne enačbe z ločljivimi spremenljivkami: (a) y = 2xy, (b) y tg x = y, (c) y = 2x(1 + y

Microsoft PowerPoint _SPO-UPES_05_Racunovodsko-financna_funkcija.ppt

Matematika II (UN) 2. kolokvij (7. junij 2013) RE ITVE Naloga 1 (25 to k) ƒasovna funkcija f je denirana za t [0, 2] in podana s spodnjim grafom. f t

Vaje: Matrike 1. Ugani rezultat, nato pa dokaži z indukcijo: (a) (b) [ ] n 1 1 ; n N 0 1 n ; n N Pokaži, da je množica x 0 y 0 x

Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Statistika Pisni izpit 31. avgust 2018 Navodila Pazljivo preberite

1. Kako opišemo povezano in pogojno verjetnost dogodkov A in B? Kdaj sta dogodka A in B statistično povezana in kdaj neodvisna? Kaj je popolna verjetn

C:/Users/Matevž Èrepnjak/Dropbox/FKKT/TESTI-IZPITI-REZULTATI/ /Izpiti/FKKT-avgust-17.dvi

Microsoft Word - 04 Inferencna statistika - Katja

Ponovitev prejšnjega predavanja Množico vseh možnih izidov poskusa, ki ustreza celotemu vzorčnemu prostoru S imenujemo populacija X. Izbrano podmnožic

UNIVERZA V MARIBORU FAKULTETA ZA KEMIJO IN KEMIJSKO TEHNOLOGIJO Petra Žigert Pleteršek MATEMATIKA III Maribor, september 2017

C:/Users/Matevž Èrepnjak/Dropbox/FKKT/testi in izpiti/ /IZPITI/FKKT-februar-14.dvi

glava.dvi

2. izbirni test za MMO 2017 Ljubljana, 17. februar Naj bosta k 1 in k 2 dve krožnici s središčema O 1 in O 2, ki se sekata v dveh točkah, ter

LaTeX slides

Poslovilno predavanje

2. Model multiple regresije

FAKULTETA ZA STROJNIŠTVO Matematika 2 Pisni izpit 9. junij 2005 Ime in priimek: Vpisna št: Zaporedna številka izpita: Navodila Pazljivo preberite bese

Microsoft PowerPoint _12_15-11_predavanje(1_00)-IR-pdf

Ime in priimek: Vpisna št: FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost Pisni izpit 5. februar 2018 Navodila Pazljivo preberite

C:/Users/Matevz/Dropbox/FKKT/TESTI-IZPITI-REZULTATI/ /Izpiti/FKKT-januar-februar-15.dvi

ŠTEVCI PROMETA IN NJIHOVA UPORABA ZA NAMENE STATISTIK ČRT GRAHONJA

RAM stroj Nataša Naglič 4. junij RAM RAM - random access machine Bralno pisalni, eno akumulatorski računalnik. Sestavljajo ga bralni in pisalni

resitve.dvi

Microsoft Word - UP_Lekcija04_2014.docx

NAVODILA AVTORJEM PRISPEVKOV

UNIVERZA V LJUBLJANI FAKULTETA ZA MATEMATIKO IN FIZIKO Katja Ciglar Analiza občutljivosti v Excel-u Seminarska naloga pri predmetu Optimizacija v fina

resitve.dvi

EKVITABILNE PARTICIJE IN TOEPLITZOVE MATRIKE Aleksandar Jurišić Politehnika Nova Gorica in IMFM Vipavska 13, p.p. 301, Nova Gorica Slovenija Štefko Mi

resitve.dvi

1 Diskretni naklju ni vektorji 1 1 Diskretni naklju ni vektorji 1. Dopolni tabelo tako, da bosta X in Y neodvisni. X Y x x x x x

Numeri na analiza - podiplomski ²tudij FGG doma e naloge - 1. skupina V prvem delu morate re²iti toliko nalog, da bo njihova skupna vsota vsaj 10 to k

P182C10111

Microsoft Word - Analiza rezultatov NPZ matematika 2018.docx

PowerPoint Presentation

Verjetnost in vzorčenje: teoretske porazdelitve standardne napake ocenjevanje parametrov as. dr. Nino RODE prof. dr. Blaž MESEC

P181C10111

PRIPRAVA NA 1. Š. N.: KVADRATNA FUNKCIJA IN KVADRATNA ENAČBA 1. Izračunaj presečišča parabole y=5 x x 8 s koordinatnima osema. R: 2 0, 8, 4,0,,0

Osnove matematicne analize 2018/19

Rešene naloge iz Linearne Algebre

Nimenrix, Meningococcal group A, C, W135 and Y conjugate vaccine

ELEKTRIČNI NIHAJNI KROG TEORIJA Električni nihajni krog je električno vezje, ki služi za generacijo visokofrekvenče izmenične napetosti. V osnovi je "

predstavitev fakultete za matematiko 2017 A

Naloge iz kolokvijev Analize 1 (z rešitvami) E-UNI, GING, TK-UNI FERI dr. Iztok Peterin Maribor 2009 V tej datoteki so zbrane naloge iz kolokvijev za

Kinematika

C:/Users/Matevž Èrepnjak/Dropbox/FKKT/TESTI-IZPITI-REZULTATI/ /Izpiti/FKKT-junij-17.dvi

Vrste

Mrežni modeli polimernih verig Boštjan Jenčič 22. maj 2013 Eden preprostejših opisov polimerne verige je mrežni model, kjer lahko posamezni segmenti p

11. Navadne diferencialne enačbe Začetni problem prvega reda Iščemo funkcijo y(x), ki zadošča diferencialni enačbi y = f(x, y) in začetnemu pogo

Brownova kovariancna razdalja

3. Preizkušanje domnev

OSNOVE UMETNE INTELIGENCE

DOMACA NALOGA - LABORATORIJSKE VAJE NALOGA 1 Dani sta kompleksni stevili z in z Kompleksno stevilo je definirano kot : z = a + b, a p

Slide 1

Mladi za napredek Maribora srečanje DOLŽINA»SPIRALE«Matematika Raziskovalna naloga Februar 2015

MAGIČNI KVADRATI DIMENZIJE 4n+2

3. Metode, ki temeljijo na minimalnem ostanku Denimo, da smo z Arnoldijevim algoritmom zgenerirali ON bazo podprostora Krilova K k (A, r 0 ) in velja

Popravki nalog: Numerična analiza - podiplomski študij FGG : popravljena naloga : popravljena naloga 14 domače naloge - 2. skupina

Microsoft Word - SI_vaja5.doc

LaTeX slides

Univerza v Ljubljani Fakulteta za elektrotehniko Kristjan Ažman Identifikacija dinamičnih sistemov z Gaussovimi procesi z vključenimi linearnimi model

resitve.dvi

4. tema pri predmetu Računalniška orodja v fiziki Ljubljana, Grafi II Jure Senčar

Poročilo za 1. del seminarske naloge- igrica Kača Opis igrice Kača (Snake) je klasična igrica, pogosto prednaložena na malce starejših mobilnih telefo

RAČUNALNIŠKA ORODJA V MATEMATIKI

ANALITIČNA GEOMETRIJA V RAVNINI

Urejevalna razdalja Avtorji: Nino Cajnkar, Gregor Kikelj Mentorica: Anja Petković 1 Motivacija Tajnica v posadki MARS - a je pridna delavka, ampak se

Univerza v Mariboru Fakulteta za naravoslovje in matematiko Oddelek za matematiko in ra unalni²tvo Izobraºevalna matematika Pisni izpit pri predmetu K

Matematika 1 Rešitve 9. sklopa nalog Nedoločeni integral (4) Izračunaj integrale trigonometričnih funkcij: 1 (a) cos x dx, 1 (b) sin 2 x + 2 cos

Matematika II (UN) 1. kolokvij (13. april 2012) RE ITVE Naloga 1 (25 to k) Dana je linearna preslikava s predpisom τ( x) = A x A 1 x, kjer je A

Zgledi:

PowerPoint Presentation

Kazalo 1 DVOMESTNE RELACIJE Operacije z dvomestnimi relacijami Predstavitev relacij

Vektorji - naloge za test Naloga 1 Ali so točke A(1, 2, 3), B(0, 3, 7), C(3, 5, 11) b) A(0, 3, 5), B(1, 2, 2), C(3, 0, 4) kolinearne? Naloga 2 Ali toč

CpE & ME 519

Univerza na Primorskem FAMNIT, MFI Vrednotenje zavarovalnih produktov Seminarska naloga Naloge so sestavni del preverjanja znanja pri predmetu Vrednot

Diapozitiv 1

Namesto (x,y)R uporabljamo xRy

UNIVERZA V LJUBLJANI FAKULTETA ZA MATEMATIKO IN FIZIKO ODDELEK ZA FIZIKO Peter Smerkol SEMINARSKA NALOGA Brownovo Gibanje MENTOR: dr. Tomaž Podobnik L

Geometrija v nacionalnih preverjanjih znanja

KAKO BRATI IN UPORABITI REZULTATE PRIMERJALNE ANALIZE PRIMERI ZA ODVAJANJE IN ČIŠČENJE ODPADNE VODE ag. Sta ka Cerkve ik, I štitut za jav e služ e

Equation Chapter 1 Section 24Trifazni sistemi

Osnove teorije kopul in maksmin kopule

Matematika II (UNI) Izpit (23. avgust 2011) RE ITVE Naloga 1 (20 to k) Vektorja a = (0, 1, 1) in b = (1, 0, 1) oklepata trikotnik v prostoru. Izra una

FGG14

Učinkovita izvedba algoritma Goldberg-Tarjan Teja Peklaj 26. februar Definicije Definicija 1 Naj bo (G, u, s, t) omrežje, f : E(G) R, za katero v

Transkripcija:

11 Bivariata aaliza V tem poglavju obravavamo statističo aalizo slučajega vektorja dveh slučajih spremeljivk Iz vzorca i z uporabo ustrezih statističih metod lahko ugotovimo, ali sta dve slučaji spremeljivki statističo začilo medsebojo odvisi Drugi del tega poglavja opisuje aalizo lieare povezaosti dveh slučajih spremeljivk Vzorec običajo sestavljajo pari vredosti slučajih spremeljivk: X i, Y i, i = 1,,, kjer je velikost vzorca 111 Preizkušaje statističe odvisosti Postavimo ičelo i alterativo domevo: H 0 : spremeljivki X i Y sta eodvisi, H 1 : spremeljivki X i Y sta odvisi Za preizkušaje domeve o statističi povezaosti med dvema slučajima spremeljivkama X i Y a osovi vzorčih podatkov uporabimo test χ Ta test temelji a primerjavi empiričih (dejaskih frekvec s teoretičimi frekvecami Vzorec slučajega vektorja X l, Y l, l = 1,, razporedimo v razrede (k X razredov za spremeljivko X i k Y razredov za spremeljivko Y Števila elemetov vzorca v razredih, to so empiriče oziroma dejaske frekvece ˆ ij, i = 1,, k X, j = 1,, k Y, prikažemo v kotigeči pregledici (pregledica 111 Teoretiče frekvece oziroma teoretiče velikosti razredov ij v kotigeči pregledici izračuamo po asledji eačbi: ij = P [(X = x i (Y = y j ] (111 Z izrazom (X = x i (Y = y j opišemo dogodek, da slučaja spremeljivka X zavzame vredost v i-tem razredu, slučaja spremeljivka Y pa v j-tem razredu Ob predpostavki, da velja ičela hipoteza, da sta slučaji spremeljivki X i Y eodvisi, lahko verje-

184 11 Bivariata aaliza tost produkta dogodkov (X = x i (Y = y j zapišemo kot produkt verjetosti P [X = x i Y = y j ] = P [X = x i ] P [Y = y j ] Pregledica 111: Dejaske velikosti razredov Spremeljivka X Vsota za vse Spremeljivka Y 1 k X razrede Y 1 ˆ 11 ˆ 1 ˆ kx 1 ˆ Y 1 ˆ 1 ˆ ˆ kx ˆ Y k Y ˆ 1 ky ˆ ky ˆ kx k Y ˆ Y ky Vsota za vse razrede X ˆ X1 ˆ X ˆ X kx Verjetosti, da je X = x i oziroma Y = y j lahko oceimo iz vzorca: P [X = x i ] = ˆ Xi i P [Y = y j ] = ˆ Y j (11 Če eačbi (11 upoštevamo v eačbi (111, lahko zapišemo koči izraz za določitev teoretičih velikosti razredov ij ij = ˆ Xi ˆ Y j (113 Sestavimo kotigečo pregledico teoretičih frekvec ij ter jih s statistiko H primerjamo z dejaskimi: H = k X k Y j=1 ( ij ˆ ij ij (114 Statistika H se porazdeljuje po porazdelitvi χ z ν = (k X 1(k Y 1 prostostimi stopjami Kritičo območje za zavritev ičele domeve je [χ 1 α,ν, Če je statistika H > χ 1 α,ν, ičelo domevo zavremo i trdimo, da sta slučaji spremeljivki statističo začilo medsebojo odvisi Primer 111 Aketirace, ki jih razporedimo po starosti v tri skupie (mlajši, sredji, starejši, vprašamo, kaj si mislijo o ekem ukrepu ašega župaa Moža sta dva odgovora: za ali proti Rezultate podajamo v asledji kotigeči pregledici

111 Preizkušaje statističe odvisosti 185 Pregledica 11: Dejaske velikosti razredov Meje o Starost Vsota ukrepu mlajši sredji starejši za 18 13 03 598 proti 154 138 110 40 Vsota 336 351 313 1000 Ugotoviti želimo ali starost meščaov vpliva a meje o ukrepu župaa Tvegaje aj bo eako 5 % Rešitev: Postavimo ičelo i alterativo domevo: H 0 : Meje o ukrepu je eodvisa od starosti meščaov, H 1 : Meje o ukrepu je odvisa od starosti meščaov Statistiko H bomo določili po eačbi (114 Zato moramo ajprej izračuati teoretiče velikosti razredov ij po eačbi (113, ki jih prikazujemo v asledji pregledici Pregledica 113: Teoretiče velikosti razredov Meje o Starost Vsota ukrepu mlajši sredji starejši za 009 099 187 598 proti 1351 1411 158 40 Vsota 336 351 313 1000 Glede a tvegaje α = 005 lahko zapišemo kritičo območje: [χ 1 α,ν,, kjer je število prostostih stopej eako ν = (3 1( 1 = Če bo statistika H večja od χ 1 α,ν, ičelo hiptezo zavremo i trdimo, da sta meje o ukrepu i starost aketiracev odvisi slučaji spremeljivki Mejo kritičega območja odčitamo iz pregledic ali izračuamo z račuališkim programom (a primer EXCEL χ 1 α,ν = χ 095, = 5991 Statistika H je H = k X k Y j=1 ( ij ˆ ij (009 18 (099 13 (158 110 = + + + ij 009 099 158 = 7878 Ker je H = 7878 > χ 095, = 5991, ičelo hipotezo zavremo i trdimo, da je meje o ukrepu statističo začilo odviso od starosti meščaov

186 11 Bivariata aaliza Ugotovimo še dejasko tvegaje ob zavritvi ičele hipoteze! Iz porazdelitvee fukcije porazdelitve F χ (glej sliko 105 lahko izračuamo 1 α = F χ (7878 α = 1 F χ (7878 = 1 09805 = 00195 Tvegaje je torej ekoliko pod % Ker je to tvegaje ižje od predpisaega tvegaja α = 5 %, smo ičelo hipotezo zavrili 11 Preizkušaje lieare povezaosti Povezaost med dvema številskima spremeljivkama grafičo poazorimo z razsevim grafom (slika 111 Y 60 40 R = 09059 Y 60 40 R = 0948 0 0 0 0 10 0 X 30 60 Y R = 07353 40 Y 0 60 40 0 10 0 30 X R = 00189 0 0 0 0 10 0 X 30 60 Y R = 0186 40 0 0 10 0 X 30 0 0 0 10 0 X 30 Slika 111: Vzorci X i Y z različo liearo povezaostjo

11 Preizkušaje lieare povezaosti 187 Liearo povezaost med dvema spremeljivkama merimo s kovariaco (glej tudi primera 63 i 64: σ XY = X Y j=1 (x i m X (y j m Y p XY (x i, y j oziroma σ XY = (x m X (y m Y f XY (x, y dx dy Brezdimezijska mera liere povezaosti je Pearsoov koeficiet korelacije: ρ XY = σ XY σ X σ Y Iz vzorčih podatkov X i, Y i, i = 1,, lahko oceimo kovariaco po asledji eačbi: ˆσ XY = S XY = 1 (X i X(Y i Ȳ, kjer je število opazovaj v vzorcu, X povprečje vzorca Xi i Ȳ povprečje vzorca Y i Ocea koeficieta korelacije pa je ˆρ XY = R XY = S XY S X S Y = (X i X(Y i Ȳ (X i X (Y i Ȳ Pome parametra ρ XY oziroma R XY za različe vzorce prikazujemo a sliki 111 V primerih, kjer je parameter R blizu ič, lahko govorimo o zelo slabi lieari povezaosti Če se R približuje vredosti ea, sta spremeljivki močo pozitivo liearo povezai, če pa se približuje vredosti 1, sta spremeljivki močo egativo liearo povezai Statističo sklepaje o lieari povezaosti Postavimo ičelo i alterativo domevo: H 0 : ρ XY = 0 (spremeljivki ista liearo povezai H 1 : ρ XY 0 (spremeljivki sta liearo povezai Statistika T T = R XY 1 RXY (115

188 11 Bivariata aaliza se v tem primeru porazdeljuje po Studetovi porazdelitvi t z ν = prostostimi stopjami Kritičo območje oziroma območje zavritve je (, t 1 α/ ], [t 1 α/, Če je torej vredost statistike T majša od t 1 α/ ali večja od t 1 α/, lahko s tvegajem α zaključimo, da sta spremeljivki statističo začilo liearo povezai 113 Regresija Regresijska fukcija Ŷ = f(x opisuje, kakše je vpliv spremeljivke X a Y brez drugih vplivov, ki so lahko posledica vpliva drugih spremeljivk ali slučajega odstopaja Slučajo spremeljivko Y lahko zapišemo kot vsoto dveh spremeljivk Y = Ŷ + ε = f(x + ε, kjer spremeljivko X imeujemo eodvisa spremeljivka, slučajo spremeljivko Y pa odvisa spremeljivka ter ε apaka (ali slučajo odstopaje Neodvisa spremeljivka X je determiističa ali slučaja Poglejmo dva primera: 1 Ugotavljamo zvezo med trdostjo zemljie Y i globio od površja X Glede a to, da si globio lahko sami izberemo, lahko privzamemo, da je eodvisa slučaja spremeljivka determiističa Aaliziramo, kako sta povezaa elastiči modul X i trdost Y betoa V tem primeru moramo arediti preizkus, kjer a istem preizkušacu ajprej izmerimo elastiči modul, ato pa še trdost V tem primeru sta obe spremeljivki slučaji Običajo predpostavimo, da se ε porazdeljuje ormalo s pričakovao vredostjo 0 i stadardo deviacijo σ E[ε] = 0 var[ε] = σ 1131 Lieara regresija V primeru, da je regresijska fukcija lieara Ŷ = f(x = a + b X, zapišemo regresijsko eačbo takole: Y = Ŷ + ε = f(x + ε = a + b X + ε Za posamezi elemet vzorca X i i Y i zapišemo asledjo regresijsko eačbo: Y i = Ŷi + ε i = a + b X i + ε i Z regresijo določimo tiste vredosti oce â i ˆb, da je prilegaje regresijske premice elemetom vzorca čimboljše Če za določitev ocee parametrov â i ˆb uporabimo metodo ajmajših kvadratov, moramo poiskati miimum fukcije S(a, b, ki predstavlja vsoto kvadratov odstopaj ε i S(a, b = ε i = (Y i Ŷi = (Y i (a + b X i

113 Regresija 189 Fukcijo S(a, b odvajamo po a i b i zahtevamo, da so ti odvodi eaki ič S a = S b = (Y i â ˆb X i ( 1 = 0, (Y i â ˆb X i ( X i = 0 Po preureditvi zgorjih izrazov dobimo sistem dveh liearih eačb z dvema ezakama â i ˆb Temu sistemu pravimo tudi sistem ormalih eačb: ( â + X i ˆb = Y i, ( ( X i â + X i ˆb = Y i X i, ki ga lahko zapišemo tudi v matriči obliki X i X i X i â = ˆb Y i Y i X i Sistem liearih eačb lahko rešimo a različe ačie Morda ajbolj običaje ači je reševaje z Gaussovo elimiacijo, tako da sistem preoblikujemo tako, da je matrika sistema zgorja trikota Prvo eačbo pomožimo z X i/ i prištejemo drugi eačbi: ( â + X i ˆb = Y i, 0 â + ( ( Xi 1 ( X i 1 ˆb = Y i X i Y i X i Iz druge eačbe v sistemu (116 lahko določimo oceo ˆb ˆb = ( ( 1 Y i X i Y i X i ( Xi 1 X i (116

190 11 Bivariata aaliza Če imeovalec i števec delimo z i upoštevamo eačbi (6 i (14, dobimo ˆb = 1 ( ( Y i X i 1 1 Y i X i ( 1 = Xi 1 X i 1 1 Y i X i Ȳ X = Xi X Uporabimo še prvo eačbo iz sistema (116 i določimo oceo parametra â S XY S X (117 â = 1 Y i 1 X iˆb = Ȳ X ˆb = Ȳ S XY S X X (118 Ocei parametrov â i ˆb sta slučaji spremeljivki, za katere lahko zapišemo sredji vredosti i variaci: E[â] = a var[â] = σ E[ˆb] = b var[ˆb] = σ S X (1 + X S X (119 Izraza za sredji vredosti pričata, da sta obe ocei epristraski Iz izrazov za variaco pa vidimo, da velikost odstopaj ε, ki se odraža z variaco σ vpliva a povečaje variace obeh oce, medtem ko ta variaca pada z velikostjo vzorca Variaci obeh oce parametrov smo izrazili z variaco σ slučaje spremeljivke ε, ki predstavlja odstopaja elemetov vzorca od modela oziroma regresijske premice Te variace običajo e pozamo, zato jo moramo oceiti iz vzorca Nepristrasko oceo ˆσ določimo po asledji eačbi ˆσ = 1 ε i = 1 (Y i â ˆb X i = S Y (1 R XY, (1110 kjer smo pri račuu variace delili z, saj se je število prostostih stopej pri določitvi dveh oce parametrov â i ˆb zmajšalo za dve Preizkušaje domeve o vredosti koeficieta b Postavimo ičelo i alterativo domevo: H 0 : b = b 0, H 1 : b b 0 Testa statistika T je ormiraa ocea parametra ˆb tako, da ima sredjo vredost eako ič i stadardo deviacijo ea Če amesto variace σ zapišemo jeo oceo ˆσ i uporabimo eačbi (117 i (1110,

113 Regresija 191 dobimo asledji izraz T = ˆb E[ˆb] var[ˆb] = ˆb b 0 σ S X = S XY SX b 0 S Y 1 R XY 1 S X Ta statistika se porazdeljuje po porazdelitvi t z ν = prostostimi stopjami Z ičelo domevo ajpogosteje predpostavimo, da je b = 0, kar ustreza predpostavki, da sta slučaji spremeljivki X i Y liearo eodvisi V tem primeru lahko iz zgorjega izraza izpeljemo eačbo za določitev statistike T T = S XY S X S Y 1 R XY = R XY, (1111 1 RXY ki smo jo že uporabili pri preizkušaju domev o lieari eodvisosti med dvema slučajima spremeljivkama Primer 11 V asledji pregledici podajamo lete povpreče kocetracije žveplovega dioksida SO v Mariboru za obdobje od 199 do 00 Glavi vir oesažeja z žveplovim dioksidom so termocetrale, ki za gorivo uporabljajo premog (pri as Šoštaj i Trbovlje, majši izvori pa so termocetrale oziroma toplare, ki za gorivo uporabljajo afto Meja vredost povpreče lete kocetracije SO po Direktivi Sveta EU (99/30/EEC je eaka 0 µg/m 3 Pregledica 114: Lete povpreče kocetracije SO v Mariboru v µg/m 3 Leto 199 1993 1994 1995 1996 1997 1998 1999 000 001 00 SO 47 4 30 8 4 3 18 17 13 10 8 Vir: Oesažeost zraka v Sloveiji v letu 00, Poročilo Agecije Republike Sloveije za okolje (ARSO, Miistrstvo za okolje i prostor Določimo ocei za parametra â i ˆb lieare regresije Če bi veljal lieari model, katerega leta bi bila kocetracija eaka ič? Določimo oceo stadarde deviacije odstopaj od modela sigma ˆ i preizkusimo domevo o parametru b oziroma domevo o lieari eodvisosti med spremeljivkama Tvegaje aj bo eaodstoto Rešitev: Prede začemo z reševajem aloge, bomo vredosti za leta spremeili tako, da bodo leta (spremeljivka X tekla od 0 do 10 To aredimo zato, da vredosti S X, S XY i ocee parametra â e bodo prevelike številke Povprečo leto kocetracijo SO ozačimo z Y Nove podatke podajamo v pregledici 115, skupaj z rezultati za vredost modela i odstopaj od modela

19 11 Bivariata aaliza Pregledica 115: Lete povpreče kocetracije SO, lieari model i odstopaja X 0 1 3 4 5 6 7 8 9 10 Y 47 4 30 8 4 3 18 17 13 10 8 Model 4191 386 3460 3095 79 364 1998 1633 167 90 536 Odstopaja 509 375 460 95 39 064 198 067 033 098 64 Ocei parametrov â i ˆb ter oceo stadarde deviacije ˆσ določimo iz eačb (117, (118 i (1110 Iz vredosti osovih statistik za dae podatke X = 5, Ȳ = 3636, S X = 10, S Y = 14050, S XY = 36545 R XY = 09696 lahko izračuamo ocee S XY ˆb = SX = 36545 = 36545, 10 â = Ȳ ˆb X = 3636 ( 3655 5 = 41909, ˆσ = S Y (1 RXY = 11 9 14050 (1 ( 09696 = 103798 Zapišemo lahko lieari model, ki se po metodi ajmajših kvadratov ajbolje prilega podatkom: Ŷ = f(x = 41909 36545 X (111 Z eačbo (111 lahko izračuamo vredosti modela v točkah, kjer imamo podatke i odstopaje modela od pravih vredosti (pregledica 115 Iz eačbe (111 lahko izračuamo tudi leto, ko bi morala biti povpreča leta kocetracija SO eaka ič, če bi bil lieari model ustreze 41909 36545 X = 0 X = 41909 36545 = 1147 To bi pomeilo, da bi morala biti povpreča leta kocetracija SO eaka ič ajpozeje v letu 004 To se seveda i zgodilo, kar pomei, da je lieari model sicer ustreze za obdobje od 199 do 00, ekstrapolacija z liearo fukcijo pa v tem primeru i bila ustreza Grafiči prikaz podatkov i liearega modela prikazujemo a sliki 11

113 Regresija 193 Kocetracija SO 50 40 30 0 10 0 0 1 3 4 5 6 7 8 9 10 11 1 Leta (od 199 dalje Slika 11: Povpreča leta kocetracija SO v obdobju od 199 do 00 Nazadje preizkusimo še domevo o lieari eodvisosti spremeljivk X i Y Postavimo ičelo i alterativo domevo: H 0 : b = 0, H 1 : b 0 Statistiko T izračuamo po eačbi (115 T = R XY = 1 RXY 09696 9 1 ( 09696 = 11897 Meja kritičega območja je t 1 α/ = 350 Ker je vredost statistike T = 11897 majša od t 1 α/ = 350, moramo ičelo domevo zavriti i trdimo, da je parameter b statističo začilo različe od 0 Zaključimo lahko tudi z izjavo, da sta spremeljivki X i Y statističo začilo liearo odvisi 113 Nelieara regresija Rezultati pogosto kažejo, da zveza med dvema spremeljivkama i lieara Obravavajmo ajprej fukcijo z dvema parametroma a i b Y = Ŷ + ε = f(x, a, b + ε Ocei parametrov â i ˆb določimo po metodi ajmajših kvadratov tako, da poiščemo miimum fukcije S(a, b = ε i = (Y i Ŷi = (Y i f(x, a, b

194 11 Bivariata aaliza Ta fukcija je v splošem elieara glede a parametra a i b, zato je iskaje miimuma lahko zelo zahteva Nelieara fukcija ima lahko mogo lokalih ekstremov, iskaje globalega miimuma pa je še vedo problem, ki ga poskušajo rešiti mogi raziskovalci Metod i jihovih različic je mogo, v grobem jih lahko delimo a gradiete metode (a primer Newtoova metoda i geetske algoritme Problem se zelo poeostavi, če je fukcija f(x, a, b lieara glede a parametra a i b, sicer pa je lahko poljuba elieara fukcija f(x, a, b = a f 1 (X + b f (X Taki primeri so: f(x, a, b = a + b X, f(x, a, b = a si X + b cos X, f(x, a, b = a log X + b cos X Ocei parametrov â i ˆb določimo po metodi ajmajših kvadratov S(a, b = ε i = (Y i Ŷi = (Y i a f 1 (X + b f (X Fukcijo S(a, b odvajamo po parametrih a i b ter zahtevamo, da sta odvoda eaka ič S a = S b = (Y i â f 1 (X i ˆb f (X i ( f 1 (X i = 0, (Y i â f 1 (X i ˆb f (X i ( f (X i = 0 Podobo kot pri lieari regresiji dobimo tudi v tem primeru sistem liearih eačb ( ( f1 (X i â + f 1 (X i f (X i ˆb = f 1 (X i Y i, ( f 1 (X i f (X i â + ( f (X i ˆb = f (X i Y i, ki ima eoličo rešitev le v primeru, da je determiata sistema različa od ič Ta pogoj je izpolje v primeru, da sta fukciji f 1 (x i f (x liearo eodvisi Iz zadjega sistema eačb lahko hitro izpeljemo sistem eačb za liearo regresijo, če zapišemo, da je f 1 (x = 1 i f (x = x Včasih je fukcija f(x, a, b taka, da jo s preprosto trasformacijo prevedemo v liearo fukcijo Tudi

113 Regresija 195 v tem primeru je določitev oce parametrov â i ˆb relativo preprosto Nekaj takih fukcij z ustrezo trasformacijo opisujemo z asledjimi izrazi: Y = 1 a + b X Y = a b X Y = a e bx Y = a X b Y = l(a + b X 1 Y 1 Y = a + b X Z = a + b X l Y l Y = l a + X l b Z = A + B X l Y l Y = l a + X b Z = A + b X l Y l Y = l a + b l X Z = A + b W e Y e Y = a + b X Z = a + b X (1113 Druga i tretja eačba predstavljata isti model, drugače je le zapis eačbe Primer 113 Vrimo se k problemu, ki smo ga obravavali v primeru 11 Namesto lieare regresije poskusimo, ali je morda bolje uporabiti eliearo (ekspoeto regresijo S primerjavo oce variace odstopaj ˆσ lahko ugotovimo, kateri model se bolje prilega podatkom Rešitev: Regresijska fukcija je v tem primeru Ŷ = f(x = a e bx Eačbo logaritmiramo i dobimo l Ŷ = l a + b X Z = A + b X Podatke iz pregledice 115 preuredimo tako, da izračuamo še vredosti spremeljivke Z = l Y V pregledici 116 prikazujemo vredosti spremeljivke Z ter vredosti, ki jih določimo z ekspoetim modelom, i odstopaja ekspoetega modela od dejaskih podatkov Pregledica 116: Vredosti spremeljivk X, Y i Z, ekspoeti model i odstopaja X 0 1 3 4 5 6 7 8 9 10 Y 47 4 30 8 4 3 18 17 13 10 8 Z = l Y 3850 3738 3401 333 3178 3135 890 833 565 303 079 Model 4764 4030 3410 885 441 065 1747 1478 151 1058 895 Odstopaja 064-170 410 085 041-35 -053 - -049 058 095 Izračuati moramo še osove statistike za slučajo spremeljivko Z: Z = 308, SZ = 0866, S XZ = 16717

196 11 Bivariata aaliza i ocei parametrov  i ˆb S XZ ˆb = SX = 16717 = 016717, 10  = Z ˆb X = 308 ( 016717 5 = 38636, â = eâ = 47636 Če primerjamo vredosti modela v pregledicah 115 i 116, vidimo, da so odstopaja bistveo majša pri ekspoeti regresiji Oceo variace odstopaj ˆσ določimo po eačbi (1110 ˆσ = 1 ε i = 1 ( X Y i âeˆb i 1 ( = 064 + ( 170 + = 3686 9 Ocea variace odstopaj ˆσ je torej bistveo majša kot v primeru lieare regresije Primerjavo med liearo i ekspoeto regresijo prikazujemo tudi a sliki 113 Tudi iz slike je očito, da je v tem primeru ekspoeta regresija boljša od lieare Kocetracija SO 50 40 30 0 10 0 0 1 3 4 5 6 7 8 9 10 11 1 Leta (od 199 dalje Slika 113: Povpreča leta kocetracija SO v obdobju od 199 do 00 1133 Lieara regresija več spremeljivk Lieara regresija več spremeljivk oziroma multipla lieara regresija je posplošitev lieare regresije ee same eodvise spremeljivke Ta problem pravzaprav e sodi v poglavje Bivariata aaliza, saj tu aaliziramo več kot dve spremeljivki Vseeo bomo to sov podali a kocu tega poglavja, saj se eposredo avezuje a liearo regresijo V tem primeru obravavamo model odvisosti med spremeljivkami X j, j = 1,, k i slučajo spremeljivko Y

113 Regresija 197 Vzorec je v tem primeru običajo poda z vredostmi X ij, i = 1,,, j = 1,, k eodvisih sremeljivk i ustreze vredosti Y i, i = 1,, spremeljivke Y Lieari model zapišemo z eačbo Y = Ŷ + ε = a + b 1 X 1 + b X + + b k X k + ε, kjer ε, podobo kot pri lieari regresiji ee spremeljivke, predstavlja odstopaje od modela Običajo predpostavimo, da je ε porazdelje ormalo s pričakovao vredostjo ič i stadardo deviacijo σ Za posamezi elemet vzorca X ij, Y i zapišemo regresijsko eačbo takole: Y i = a + b 1 X i1 + b X i + + b k X ik + ε i = a + k b j X ij + ε i Z regresijo želimo določiti ocee ezaih regresijskih parametrov â i ˆb j tako, da bodo odstopaja dejaskih vredosti Y i od modela čimmajša Uporabimo metodo ajmajših kvadratov, s katero iščemo miimum fukcije k S(a, b j = ε i = Y i a b j X ij = (Y i a b 1 X i1 b X i b k X ik j=1 Miimum te fukcije določimo tako, da jo odvajamo po a i b j ter postavimo pogoj, da so ti odvodi eaki ič: S a = (Y i â ˆb 1 X i1 ˆb X i ˆb k X ik ( 1 = 0 S b 1 = S b = S b k = j=1 (Y i â ˆb 1 X i1 ˆb X i ˆb k X ik ( X i1 = 0 (Y i â ˆb 1 X i1 ˆb X i ˆb k X ik ( X i = 0 (Y i â ˆb 1 X i1 ˆb X i ˆb k X ik ( X ik = 0 Po preureditvi zgorjih eačb dobimo sistem k + 1 liearih eačb za k + 1 ezao oceo parametrov â i ˆb j â + Xi1 â + Xi1 ˆb1 + Xi ˆb + + Xik ˆbk = Y i, X i1 ˆb1 + X i X i1 ˆb + + X ik X i1 ˆbk = Y i X i1, Xi â + X i1 X i ˆb1 + X i ˆb + + X ik X i ˆbk = Y i X i, Xik â + X i1 X ik ˆb1 + X i X ik ˆb + + X ik ˆbk = Y i X ik,

198 11 Bivariata aaliza kjer smo z zakom za vsoto zapisali vsoto Ta sistem ormalih eačb lahko zapišemo tudi v matriči obliki Xi1 Xi Xik â Xi1 X i1 Xi X i1 Xik X i1 ˆb1 Yi Yi X i1 Xi Xi1 X i X i Xik X i = Yi X i (1114 ˆb Xik Xi1 X ik Xi X ik X ik ˆbk Yi X ik Primer 114 V okviru projekta za določitev trdosti lesa smo izmerili različe lastosti a istih leseih deskah Na spodji pregledici prikazujemo rezultate za 0 desk Predpostavimo, da je upogiba trdost f leseih desk odvisa od elastičega modula E i gostote ρ Določimo ocee za koeficiete regresijske fukcije y = a + b 1 x 1 + b x x 1 = E [MPa] x = ρ [kg/m 3 ] y = f [MPa] 9150 538 3103 10487 500 57 11357 43 39 4683 394 13 878 413 3639 14633 519 5864 10615 509 313 804 384 339 135 509 00 6711 500 1731 11647 471 418 11673 43 3300 13785 44 4566 5787 43 1338 10369 471 80 13530 43 469 11131 500 998 1068 413 538 1753 45 3071 10658 43 3316 Rešitev: Za določitev oce â, ˆb 1 i ˆb uporabimo prve tri vrstice v eačbi (1114 izračuati asledje vsote: Zato moramo

113 Regresija 199 X i1 = 9150 + 10487 + = 08404, X i = 538 + 500 + = 9139, Xi1 = 9150 + 10487 + = 301198018, Xi = 538 + 500 + = 416487, X i1 X i = 9150 538 + 10487 500 + = 959910, Y i = 3103 + 57 + = 6609, X i1 Y i = 9150 3103 + 10487 57 + = 6956369, X i Y i = 538 3103 + 500 57 + = 87018 Iz liearega sistema eačb 0 08404 9139 08404 301198018 959910 9139 959910 416487 izračuamo ocee parametrov lieare regresije â ˆb1 ˆb = 9664 000351 0037 â ˆb1 ˆb = 6609 6956369 87018