M9750 Robustní a neparametrické statistické metody Robustní a neparametrické metody Statistické modely • X = (Xi,..., Xn)' je vektor pozorování. Parametrický model - X má sdruženou distribuční funkci F(x, 0), F známe až na hodnotu neznámého parametru 0. o Neparametrický model - nepředpokládá žádný specifický tvar rozdělení, neznámý parametr je nekonečněrozměrný. • Semiparametrický model - model má parametrickou i neparametrickou složku s konečně i nekonečněrozměrným parametrem. Robustní a neparametrické metody Robustní postupy Robustní metody 9 nejsou citlivé na porušení předpokladů modelu (normalita, odlehl pozorovaní, a pod.). • zachovávají si eficienci, pokud předpoklady porušeny nejsou. Odlehlá pozorování (outliers). Proč je hned neodstraníme z dat? o Jsme líní. Neodhalíme je. • Nejsme líní, ale neodhalíme je (typicky ve vyšších dimenzích). • Máme málo pozorování, nechceme ztratit informaci obsaženou v datech. 9 Odstraněním podhodnotíme odhad rozptylu. Robustní a neparametrické metody Normalita Poincaré (1912): Všichni věří v normální rozdělení chyb. Experimentátoři proto, že je pokládají za matematický teorém, matematikové proto, že je pokládají za experimentální fakt. □ S ► < -š ► Robustní a neparametrické metody Overovaní normality Obecně mluvíme o metodách pro ověření shody teoretického a empirického rozdělení = vyhovují data naší představě (našemu modelu)? Dále se budeme zabývat ověřováním předpokladu normality dat. Grafické metody: • histogram • jádrový odhad hustoty • boxplot • Q-Q plot • P-P plot Robustní a neparametrické metody Statistické testy sloužící k ověřování normality 9 regresní testy: Shapirův - Wilkův test • testy založené na empirických distribučních funkcích: Kolmogorovův - Smirnovův test • testy dobré shody: Pearsonův x2 test Matematický model: • Xi,..., Xn je náhodný výběr z rozdělení s distribuční funkcí F. 9 Hq: F je distribuční funkce (nějakého) normálního rozdělení. • Hi: F není distribuční funkce normálního rozdělení. Robustní a neparametrické metody Shapirův - Wilkův test je založen na porovnání dvou odhadů rozptylu a2 - výběrového rozptylu S2 a nejlepšího odhadu získaného metodou nejmenších čtverců za předpokladu normality. Testová statistika: W = ELA*-*)2 Tw-l w ydi, . . . , dnj — (m7-V-iV-1m)1/2 ' 9 m = (mi,..., mn)T, m-, = EYjy), • v = W!j=i> ^ = c(v(/),n/)). • Vi,..., Yn je náhodný výběr z normovaného normálního rozdělení M(0,1). • 1/1/ < 1 a pro alternativu svědčí malé hodnoty W. • Rozdělení W za Hq je tabelováno. • Test se hodí pro malé rozsahy výběru (n < 50). Robustní a neparametrické metody 7/27 Kolmogorovův - Smirnovův test 9 Nulová hypotéza Hq: F = F*, kde F* je distribuční funkce JV^/a, a2) s ijl a a2 známými. Definujme empirickou distribuční funkci 1 n Fn(x) = -^I{xi(M)). Nechť P, Q E P a 0 < ř < 1. Rozdělení pravděpodobnosti Pt{Q) — (1 — t)P + tQ nazveme kontaminací P rozdělením Q v poměru t. Gateauxově smyslu) podle P ve směru Q, jestliže existuje limita Definition Necht T je funkcionál na V. Řeknem e, že T je diferencovatelný (v T{{l-ť)P+tQ)-T{P) t Tq(P) se nazývá Gáteauxova derivace T podle P ve směru Q. Robustní a neparametrické metody Taylorův rozvoj • Taylorův rozvoj funkcionálu T: T(Q) = T(P) + T'Q(P) + oP(l). o Nyní zvolme Q = Pn = ^ zC/Li ^xř. kde 5X je Diracova míra v x, tj. 5x(x) = 1, Sx(y) = 0 jinak. T(Pn)-T(P) = T'Pn{P) + oP{l) = -nJ^TÍ{P) + oP{l) i=l = -nÍ2T'xXP)+oP{i). i=l • ~n E/Li 7"x;(p) Je (přibližně) chyba odhadu T(P„). • Člen Tfx.(P) je příspěvek X, k této chybě. Robustní a neparametrické metody Influenční funkce Definition Influenční funkcí funkcionálu T v bodě P nazveme derivaci T podle P ve směru 5X1 xGR, tj. ,F(x,7.P)=rx(P)=l.m H(l-«)»+*.)-TW t-»0+ t 9 Influenční funkce popisuje efekt kontaminace našeho rozdělení jedním bodem x na na odhad, který hledáme. • Má-li být odhad robustní, influenční funkce by měla být omezená Robustní a neparametrické metody 15 / 27 Kvantitativní charakteristiky robustnosti • Globální citlivost funkcionálu T pro rozdělení pravděpodobnosti P 7* =supx€R|/F(x, 7, P)|. • Lokální citlivost funkcionálu 7" pro rozdělení pravděpodobnosti P\ A* = supXjyGR>x^y • Bod selhání e*. • A další... IF(y,T,P)-IF(x,T,P) y-x = Robustní a neparametrické metody Bod selhání • Označme x počáteční realizaci náhodného výběru a příslušný funkcionál Tn(x°). • Dále v x° nahradíme m jeho složek co nej nepříznivějším i hodnotami (i H— oo), označme jej a příslušný funkcionál 7~n(x(m)). • Bod selhání odhadu Tn ve výběru x° nazveme číslo ^ í 0 \ e*(7"n,x°) = „ , kde m*(x°) je nejmenší celé číslo, pro které supxW |7n(x(m))-7n(x°)| = TO. • Pokud e*(7"n,x°) nezávisí na x° definujeme bod selhání odhadu Tn jako e* = lim^ooe^T^x0). Robustní a neparametrické metody M-odhady jednorozměrného parametru 6 M-odhad parametru 9 je definován jako 9 = arg min^e X^/Li P{^h #)3 kde p je nějaká, vhodně zvolená funkce. • Existuje-li derivace = dpjf^ a je spojitá, pak 6 je (jedním z) řešení rovnice X)/Li VK^n — 0. • Influenční funkce M-odhadu je /f(x, r, p) = - ^(x, r(P)) JR c/<9 \0=T(P) W' Má-li být M-odhad robustní, měl by mít omezenou funkci i/;, Robustní a neparametrické metody 18 / 27 M-odhady parametru polohy (posunutí) • Model polohy: X, mají distribuční funkci F(x — 9), kde F je symetrická kolem bodu 9. • Ekvivalentně: X, = 9 + e,-, kde e; mají distibuční funkci F, symetrickou kolem 0. • M-odhad parametru polohy 9 je definován jako 9 = arg min^e Xw=i Pféi — 9), kde p je nějaká, vhodně zvolená funkce. Existuje-li derivace ip(y) = p'{y) a je spojitá, pak 9 je (jedním z) řešení rovnice ^PC' — #) = 0. • Influenční funkce M-odhadu pro parametr polohy je /F(x, T, P) Hx - T(P)) Lny)dP(yY Robustní a neparametrické metody 19 / 27 M-odhady parametru polohy - volba funkce i/j o p(x) = x2, ^(x) = x ... výběrový průměr - není robustní. • p(x) = x|, ^(x) = sign(x) ... výběrový medián x, Ixl < /c. k • sign(x) x > k , kde /c > 0 je pevně zvolená konstanta ... Huberův odhad • ^(x) = ... věrohodnostní funkce Cauchyho rozdělení. • ^r(x) x 0. l-(f) x x > k kde k > 0 je pevně zvolená konstanta ... Tukeyho biweight. , , , [sin ($) x 0. x < kir, > kir , kde k > 0 je pevně zvolená konstanta ... Andrewsova sinusová funkce. Robustní a neparametrické metody M-odhady parametru polohy - volba funkce i/j - pokrač. x| • sign(x) 3 • sign(x), x < a. c— X sign(x) 3 < b< x x < c. kde 0 < a < b < c jsou 0. x > c pevně zvolené konstanty ... Hampel x, Ixl < k. • ip(x) 0. x > k , kde k > 0 je pevně zvolená konstanta skipped mean. sign(x), 0, skipped median x x < k. > k kde k > 0 je pevně zvolená konstanta Robustní a neparametrické metody 21 / 27 L-odhady parametru polohy • Označme X(i) < ... < X(„) pořádkové statistiky (uspořádaný náhodný výběr) pro náhodný výběr Xi,..., Xn. 9 L-odhad parametru polohy je definován jako Tn = Xw=i C/'K^(/))' kde h je nějaká funkce a q jsou vhodné konstanty. • Pro odvozování teoretických vlastností se předpokládá, že J(s)ds, kde J : [0,1] —>► M je nějaká funkce. Robustní a neparametrické metody L-odhady parametru polohy - příklady • Výběrový průměr X. a Výběrový medián X. 9 Střed rozpětí X(1)+X(n) » a - useknutý průměr X U OL n — 2[na n— \_nctj /= [na] +1 f O v 9a- winsorizovany prumer X„ = - < /= [naj +1 Robustní a neparametrické metody 23 / 27 R-odhady parametru polohy Jsou inverzí pořadových testů o parametru polohy 9. Testujme hypotézu Ho : 9 = 9q, kde 9o je známá hodnota, pomocí pořadového testu. Testová statistika je Sn(9o) = sign(^v — @o)3n(R^(0o))- R^(9o) je pořadí \X-, — 9o\ mezi \Xi — #0|,..., \Xn — 9q\ a an : {1,..., n} —>► M je nějaká funkce pořadí. • Za platnosti nulové hypotézy platí ESn(0o) = 0. • To nás vede k tomu, hledat odhad 9 jako řešení rovnice Sn(9o) = 0. • Sn(9o) je nerostoucí, schodovitá funkce - řešení nemusí existovat. • R-odhad parametru 9 tedy definujeme jako Tn = |(7~+ + 7~), kde 7+ = inf{r : S„(r) > 0} a 7" = sup{r : Sn(t) < 0}. Robustní a neparametrické metody 24 / 27 R-odhady parametru polohy - příklady • 3n(l) = ... = an(n) = 1, pak Tn = X je výběrový medián (inverze znaménkového testu). • an(i) = /, pak Tn = med < f2 7,1 < / < j < n > je Hodgesův -Lehmannův odhad (inverze Wilcoxonova testu). o ani') = (ň+i)' Je 'nverzí van ^er Waerdenova testu; musí být počítán numericky. Robustní a neparametrické metody 25 / 27 Odhady parametru polohy ve více dimenzích • Buď nyní 0 neznámý p-rozměrný parametr polohy. Označme jeho odhad 0. • Uvažujme kvadratickou ztrátovou funkci /-(0,0) = ||0 — 0 2 • Riziko odhadu 0 definujeme jako /?(0, 0) = E/_(0, 0). Definition Buďte 0i,02 dva odhady parametru 0. Řekneme, že 0i dominuje 02, jestliže /?(0i,0) < /?(02,0) pro všechny hodnoty 0 a existuje 0o tak, že K(0i,0o) < K(02,0o). Definition Odhad 0 parametru 0 je přípustný (admissible), jestliže neexistuje žádný jiný odhad parametru 0, který by jej dominoval. Robustní a neparametrické metody 26 / 27 Jamesův - Steinův odhad • Nechť Xi,... ,X„ je náhodný výběr z p-rozměrného normálního rozdělení Np{0, 0 je známé. • Je-li p > 3, pak výběrový průměr X není přípustný odhad parametru 6. 9 Dominuje jej mj. Jamesův - Steinův odhad Ojs = ^1 — ) * • Tento odhad také není přípustný, dominuje jej mj. positive rule Jamesův - Steinův odhad 6JS = (l — ^ 1 X. Robustní a neparametrické metody