Brownova kovariančna razdalja Nace Čebulj Fakulteta za matematiko in fiziko 8. januar 2015
Nova mera odvisnosti Motivacija in definicija S primerno izbiro funkcije uteži w(t, s) lahko definiramo mero odvisnosti V: V 2 (X, Y ; w) = ϕ X,Y (t, s) ϕ X (t)ϕ Y (s) 2 w= = ϕ X,Y (t, s) ϕ X (t)ϕ Y (s) 2 w(t, s)dtds. R p+q Pomembna lastnost te mere je: V(X, Y ; w) = 0 X in Y sta neodvisni. Standardizirano verzijo V(X, Y ; w) definiramo kot R w (X, Y ; w) = V(X, Y ; w) V(X ; w)v(y ; w).
Izbira norme Motivacija in definicija Iščemo funkcijo uteži w oz. normo w, da bo veljalo 1 R w 0, 2 R w = 0 samo v primeru neodvisnosti, torej je R w strogo pozitiven za odvisne spremenljivke, 3 R w je invarianten glede na množenje s skalarjem, tj. za poljuben ε > 0 je R w (X, Y ; w) = R w (εx, εy ; w).
Motivacija in definicija Lema (Szekely) Pri poljubnem α (0, 2) za vsak x R d velja kjer je R d 1 cos t, x t d+α d dt = C(d, α) x α d, C(d, α) = 2πd/2 Γ(1 α/2) α2 α Γ((d + α)/2). Lema predlaga funkcije uteži oblike w(t, s; α) = (C(p, α)c(q, α) t p+α p s q+α q ) 1, 0 < α < 2. Posledica takšne izbire funkcije uteži je, da pripadajoči koeficienti R w zadostujejo pogoju invariantnosti glede na množenje s skalarjem.
Kovariančna razdalja Motivacija in definicija Definicija Kovariančna razdalja (dcov) med slučajnima vektorjema X in Y s končnima prvima momentoma je nenegativno število V(X, Y ), ki je definirano z V 2 (X, Y ) = ϕ X,Y (t, s) ϕ X (t)ϕ Y (s) 2 = 1 Rp+q ϕ X,Y (t, s) ϕ X (t)ϕ Y (s) 2 c p c q t 1+p p s 1+q dtds. q Variančno razdaljo (dvar) definiramo kot V 2 (X ) = V 2 (X, X ), korelacijsko razdaljo (dcor) pa kot V 2 (X,Y ) R 2 (X, Y ) =, V 2 (X )V 2 (Y ) V2 (X )V 2 (Y ) > 0, 0, V 2 (X )V 2 (Y ) = 0.
Motivacija in definicija Naj bo (X, Y) = {(X k, Y k ), k = 1, 2,..., n} slučajni vzorec. Definiramo matriki evklidskih razdalj [a k,l ] k,l = [ X k X l p ] k,l in [b k,l ] k,l = [ Y k Y l q ] k,l. Definirajmo kjer so A k,l = a k,l ā k, ā,l + ā,, k, l = 1, 2,..., n, ā k, = 1 n a k,l, n l=1 ā,l = 1 n n a k,l, ā, = 1 n n 2 a k,l. k=1 k,l=1 Na analogen način definiramo tudi B k,l = b k,l b k, b,l + b,, k, l = 1, 2,..., n.
Vzorčna kovariančna razdalja Motivacija in definicija Definicija Vzorčna kovariančna razdalja V n(x, Y) in vzorčna korelacijska razdalja R n(x, Y) sta nenegativni števili, definirani z V 2 1 n (X, Y) = n 2 n k,l=1 A k,l B k,l in R 2 n (X, Y) = { V2 n (X,Y), V V n 2 n 2 (X)V2 n (Y) > 0, (X)V2 n (Y) 0, Vn 2 (X)V2 n (Y) = 0. Izrek (Szekely in Rizzo) Če je E[ X p] < in E[ Y q] <, potem velja lim V n(x, Y) = V(X, Y ) n s.g., lim R 2 n (X, Y) = R2 (X, Y )s.g. n
Motivacija in definicija Za X R p in Y R q, E[ X p ] < in E[ Y q ] <, velja: (i) 0 R(X, Y ) 1. (ii) R(X, Y ) = 0 natanko tedaj, ko sta X in Y neodvisna. (iii) V(a 1 + b 1 C 1 X, a 2 + b 2 C 2 Y ) = b 1 b 2 V(X, Y ) za vse vektorje konstant a 1 R p, a 2 R q, skalarje b 1, b 2 in ortonormirani matriki C 1 R p p, C 2 R q q. (iv) Če je slučajni vektor (X 1, Y 1 ) neodvisen od vektorja (X 2, Y 2 ), potem je V(X 1 + X 2, Y 1 + Y 2 ) V(X 1, Y 1 ) + V(X 2, Y 2 ). Enakost drži natanko tedaj, ko drži ena izmed spodnjih izjav: (a) X 1 in Y 1 sta konstanti, (b) X 2 in Y 2 sta konstanti, (c) X 1, X 2, Y 1 in Y 2 so paroma neodvisni. (v) Če je V(X ) = 0, potem je X = E[X ] skoraj gotovo.
Motivacija in definicija Lastnosti V n in R n Za poljuben slučajni vzorec (X, Y) imata V n (X, Y) in R n (X, Y) naslednje lastnosti: (i) Vn(X, 2 Y) = ϕ n X,Y (t, s) ϕn X (t)ϕn Y (s) 2 (ii) V n (X, Y) 0. (iii) V n (X) = 0 natanko tedaj ko so vse vrednosti vzorca X enake. (iv) 0 R n (X, Y) 1. (v) Če je R n (X, Y) = 1, potem sta razsežnosti linearnih podprostorov, ki jih razpenjata X in Y, skoraj gotovo enaki. Če predpostavimo še, da sta X in Y v istem prostoru, potem velja Y = a + bxc za nek vektor a, neničelno število b in ortogonalno matriko C.
Motivacija in definicija Multivariatni test neodvisnosti je določen s statistiko nvn 2 ali nv2 n T 2, kjer je T 2 = ā, b,. Trditev (Szekely in Rizzo) Bodita X in Y slučajni spremenljivki, za kateri je E[ X p + Y q ] <. Potem veljajo naslednje trditve: (i) Če sta X in Y neodvisni, potem nv2 D n Q 1, kjer je Q 1 n nenegativna kvadratna forma standardno normalno porazdeljenih slučajnih spremenljivk in E[Q 1 ] = E[ X X ]E[ Y Y ]. (ii) Če sta X in Y neodvisni, potem nv2 D n/t 2 Q, kjer je Q n nenegativna kvadratna forma standardno normalno porazdeljenih slučajnih spremenljivk in E[Q] = 1. (iii) Če sta X in Y odvisni, potem nv2 n/t 2 D in n nv2 D n. n
Definicija Brownove kovariance Zveza W = V Centrirana slučajna spremenljivka in kovarianca Definicija Naj bo X slučajna spremenljivka z zalogo vrednosti v R p in U poljuben slučajni proces, definiran za vse t R p, ki je neodvisen od X. Potem je U-centrirana verzija X definirana kot X U = U(X ) E[U(X ) U], če pogojno upanje v definiciji obstaja. Dalje, bodita Y R q slučajna spremenljivka in V poljuben slučajni proces, definiran za vse t R q in neodvisen od Y. Potem je (U, V ) kovarianca slučajnih spremenljivk X in Y nenegativno število, definirano preko svojega kvadrata Cov 2 U,V (X, Y ) = E[X U X UY V Y V ], če je izpolnjen pogoj nenegativnosti in končnosti desne strani enačbe.
Definicija Brownove kovariance Definicija Brownove kovariance Zveza W = V Definicija oz. Wienerjeva kovarianca slučajnih spremenljivk X R p in Y R q, za kateri je E[ X 2 p + Y 2 q] <, je nenegativno število W, definirano z W 2 (X, Y ) = Cov 2 W (X, Y ) = Cov 2 W,W (X, Y ) = E[X W X W Y W Y W ], kjer je (W, W ) neodvisen od (X, Y, X, Y ). Brownov korelacijski koeficient je definiran kot Cor W (X, Y ) = W(X, Y ) W(X )W(Y ), če je imenovalec ulomka v enačbi neničeln, sicer je Cor W (X, Y ) = 0.
Obstoj W(X, Y ) Definicija Brownove kovariance Zveza W = V Izrek (Szekely in Rizzo) Bodita X slučajna spremenljivka z vrednostmi v R p in Y slučajna spremenljivka z vrednostmi v R q. Če je E[ X 2 + Y 2 ] <, potem je 0 E[X W X W Y W Y W ] < ter W 2 (X, Y ) = E[X W X W Y W Y W ] = = E[ X X Y Y ] + E[ X X ]E[ Y Y ] E[ X X Y Y ] E[ X X Y Y ],
Zveza W = V Definicija Brownove kovariance Zveza W = V Izrek (Szekely in Rizzo) Za poljubno slučajni spremenljivki X R p in Y R q s končnima drugima momentoma velja W(X, Y ) = V(X, Y ).
Dokaz enakosti W = V Najprej razpišemo Definicija Brownove kovariance Zveza W = V ϕ X,Y (t, s) ϕ X (t)ϕ Y (s) 2 = ϕ X,Y (t, s) 2 2 Re{ϕ X,Y (t, s)ϕ X (t)ϕ Y (s)}+ ϕ X (t)ϕ Y (s) 2. Za vsak člen posebej dalje izračunamo ϕ X,Y (t, s) 2 = E[cos( X X, t ) cos( Y Y, s )] + V, Re{ϕ X,Y (t, s)ϕ X (t)ϕ Y (s)} = E[cos( t, X X + s, Y Y )], ϕ X (t)ϕ Y (s) 2 = E[cos t, X X cos s, Y Y, ], kjer je z V označena liha funkcija. Z uporabo zveze cos u cos v = 1 (1 cos u) (1 cos v) + (1 cos u)(1 cos v) po poenostavitvi dobimo ϕ X,Y (t, s) ϕ X (t)ϕ Y (s) 2 = E[(1 cos X X, t )(1 cos Y Y, s )] 2E[(1 cos X X, t )(1 cos Y Y, s )] +E[(1 cos X X, t )(1 cos Y Y, s )] +V.
Definicija Brownove kovariance Zveza W = V Dokaz enakosti W = V - nadaljevanje Uporabimo dejstvo, da je integral lihe funkcije po celotnem celotnem prostoru enak nič, Szekelyjevo lemo in Fubinijev izrek. Za integral prvega člena zadnjega izraza tako dobimo E[(1 cos X X, t )(1 cos Y Y, s )]w(t, s)dtds = R p+q [ ] = E (1 cos X X, t )(1 cos Y Y, s )w(t, s)dtds = R p+q = E [ 1 cos X k X l, t R p c p t p+1 dt p = E[ X X Y Y ]. 1 cos Y k Y m, s R q c q s q+1 q Na enak način izračunamo še integral po ostalih dveh členih in res dobimo V 2 (X, Y ) = E[ X X Y Y ] + E[ X X ]E[ Y Y ] 2E[ X X Y Y ] = W 2 (X, Y ). ds ] =
Slabosti klasičnega testa neodvisnosti Imamo slučajna vzorca X 1, X 2,..., X n in Y 1, Y 2,..., Y n porojena iz porazdelitev slučajnih spremenljivk X oz. Y. V sledečih primerih klasični test korelacije težko zazna odvisnost med X in Y, tudi če ta obstaja. (i) X i lahko merimo le preko opazovane vrednosti A i = X i + ε i, kjer so ε i neodvisni od X i (in med seboj). Podobno velja tudi za Y. (ii) Merimo lahko le realizacije slučajnih spremenljivk, ki so (ne)slučajne funkcije X in Y, npr. A i = φ(x i ) in B i = ψ(y i ). (iii) Primeri, ki so kombinacije (i) in (ii) za določene vrste slučajnih funkcij φ in ψ. Težave so predvsem v primeru nelinearne ali nemonotone odvisnosti.
Prednosti dcov testa Glavna praktična dodana vrednost dcov testa je zajeta v naslednjih točkah: zazna kakršnokoli vrsto odvisnosti, pomaga prepoznati potencialne vplivne neobičajne opazovane vrednosti v raziskovalni analizi podatkov, omogoča ločeno analizo linearne in nelinearne odvisnosti za poljubne razsežnosti.