Hraniční efekty v jádrových odhadech distribuční funkce Jan Koláček Seminář „Vybrané partie z aplikované matematiky" ^ % Ústav matematiky a statistiky Janáčkovo nám. 2a Brno %\ ¥ #i 28.2.2008, Brno NĽ£>' OBSAH Obsah Základní pojmy Jádrové odhady hustoty a distribuční funkce Hraniční efekty Navrhovaný odhad Aplikace 28.2.2008, Brno ft H 4 Základní pojmy 2-1 Jádrová funkce Nechť z/, k jsou celá nezáporná čísla taková, že platí 0 < v < k — 2, i/ a fc mají stejnou paritu. Funkci X G Lip[—1,1], nosič(if) = [—1,1 splňující podmínky (i) if(-l) =if(l) = 0 0, 0< j 0 na [—1,1] a parametr ft > 0 je tzv. s/f/ca vyhlazovacího okna (ft = ft (n), lim ft = 0, lim nft = oo). ^^ n—>oo n—>oo ' -5%^ ^\ % ¥ #i 28.2.2008, Brno NĽ£>' Jadrové odhady----------------------------------------------------------------------------------------------------------------------------------- 3-2 Optimální šířka okna pro F^k • kritérium kvality odhadu je MISE (Mean Integrated Square Error) MISE(FhiK) = E J{FhiK{x) - F(x))2dx avní člen MISE (Bowman, A., Hall, P., Prvan, T. [2]) MŠE(Fh}K) = ^ íF{x){l-F{x))dx-qi^+ q2h S-----------------------------v-----------------------------' var(FhjK) 1 Qi = -l Odtud bias (FhjK) w{,){i - w(x))ä, > o, ,2 = f l(Fm[x)?ir.. Co,2 = í*"17' ( |H «5&W^ \ 28.2.2008, Brno ^SsS^ Hraniční efekty------------------------------------------------------------------------------------------------------------------------------------ 4-1 Hraniční efekty Předpoklady: • hustota / má nosič [0, oo), tj. Xi > 0, i = 1,..., n • /(o) ŕ o • distribuční funkce F má také nosič [0,oo) Hraniční efekty vznikají při odhadech v bodech „blízko" levé hranice, tj. pro x G [0, h]. V dalším budeme psát x = ch, 0 < c < 1. 28.2.2008, Brno - X|# Hraniční efekty 4-2 X ~ Exp(l) - odhad hustoty f (n = 100, hfopt02 = 0.786) i%, u Si 28.2.2008, Brno % Hraniční efekty 4-3 X ~ Exp(l) - odhad hustoty f (n = 100, hfopt02 = 0.786) 28.2.2008, Brno Hraniční efekty 4-4 X ~ Exp(l) - odhad distrib. funkce F (n = 100, Kpt02 = 0.8479) 0.9 0.8 0.7 - 0.6 0.5 0.4 - 0.3 0.2 0.1 - so*» >ohIbc*c mox. x< x x><><. yk x-----x xx------x x x xx-----x- 28.2.2008, Brno i%, u Si % Hraniční efekty 4-5 X ~ Exp(l) - odhad distrib. funkce F (n = 100, Kpt02 = 0.8479) ife pT Si 28.2.2008, Brno % Hraniční efekty 4-6 X ~ Rs(0,2) - odhad hustoty f (n = 100, hfopt02 = 0.8304) 28.2.2008, Brno *«*&&** Hraniční efekty 4-7 X ~ Rs(0,2) - odhad hustoty f (n = 100, hfopt02 = 0.8304) 28.2.2008, Brno *«*&&** Hraniční efekty 4-8 X ~ ižs(0,2) - odhad distrib. funkce F [n = 100, Kpt02 = 0.9163) 28.2.2008, Brno *«*&&** Hraniční efekty 4-9 X ~ ižs(0,2) - odhad distrib. funkce F [n = 100, Kpt02 = 0.9163) 28.2.2008, Brno *«*&&** Hraniční efekty---------------------------------------------------------------------------------------------------------------------------------- 4-10 Vychýlení odhadu F^k{x) v bodě x = ch, • „blízko" hranice (0 < c < 1): — c E(FKK(x)) - F (x) = hf(0) I W(t)dt i — c 2 + Ä2/(1) (0) \ — + c / W(ť)dt - í tW(ť)dt { -i -i + o{h2) „uvnitř" (c > 1): E(Fh>K(x)) - F (x) = y/(1)(0) / tW(t)dt + o(h2) %\ ¥ #i 28.2.2008, Brno Xsl>* Hraniční efekty 4-1 Řešení problému • hraniční jádra • pseudo-data transformace dat zrcadlení Fh,k(x) x-Xj h W x + Xj kombinace výše uvedených 28.2.2008, Brno ■fa »LKT ^ % Navrhovaný odhad 5-1 Navrhovaný odhad „Zobecněná" metoda zrcadlení (pro hustoty - viz [5]) Fh,k(x) x- g1(Xi) h W x + g2(Xi) h 9i =92 => Fh^K(0) = 0 Položme g := g1 = g2 Předpoklady pro funkci g: • g je spojitá, nezáporná rostoucí funkce na [0,oo) • g-1 existuje • <7(0) = 0 • 2(1)(o) = i 9 (0 2,3 existují a jsou spojité na [0, oo) 28.2.2008, Brno ife pT Ji % Navrhovaný odhad 5-2 Vychýlení odhadu Fh,K(x) v bodě x = ch. 0 < c< 1 E(FhyK(x)) - F{x) = ti {/(1)(0)[ c2 /2 + 2ch - h f(0)g^(0)[c2+2ch-l2}} \ch* {fW(0)ß2 - 5(2)(0)[/(1)(0) - /(0)ff(2)(0)] x(3/32+c2)-/(0)5(3)(0)(/32 + c2/3) + 0(h4), + 2 X — c kde h= j W(ť)dt, h = / tW(t)dt -1 -c i%, jf Si 28.2.2008, Brno % Navrhovaný odhad 5-3 Vychýlení odhadu F^^ix) v bodě x = ch. Ol E(Fh,K(x))-F(x) ^2{/(1)(0)Ä-/(0)3(2)(0)[c2 + ft \ctf {/(2)(0)/32 - 5(2)(0)[/(1)(0) - /(0)ff(2)(0)] x(3/32+c2)-/(0)5(3)(0)(/32 + c2/3) + 0(h4) + 2 X 28.2.2008, Brno ife pf Ji % Navrhovaný odhad 5-4 Z předchozího volíme ff(2)(0) í , ^-+2c/i-/2 ai c2+2cl1-l2 ' d\ /32 c2+/32' pro 0 < c < 1 pro c > 1 (=^c) £(3)(0) = kde A 3/32 a2c2+3/32 J 3/32 tt2c2+3/32 ,2/2 72 3c^(c^+4c/i-2/2) al 4(c2+2c/i-/2)2 ' d2 3 c2 ß2 (c2+/32)2' pro 0 < c < 1 pro c > 1 di = /(1)(Q) /(O) do = /(2)(Q) /(O) (=*c) 28.2.2008, Brno ife pf Ji % Navrhovaný odhad 5-5 Konstrukce funkce g (y) Odhad di, d2 di = ^^Mln/^io^^1^0-111^ /(O) -—=" - hl d2 podobně, viz Karunamuni R.J., Alberts T. [ ]. hi « n 6 •s /s Odtud di, d2 => Ac, i?< ^ 3 i A. A . 6» +T» +ž/ ?(ž/)=-c,.3 , ~c„.2 28.2.2008, Brno ák ft Navrhovaný odhad 5-6 Odhady dľj d2 pro X ~ Exp(l) (1000 simulací, n = 100) 20 15 - 10 C/3 CD _^ CO > 5 0- -5 i i + + + + + i i i i i - + i i i - d cL i 2 - 1 - i l i - Column Number 28.2.2008, Brno *«*&&** Simulace 6-1 Příklady • Pro výsledný jádrový odhad používáme Epanečnikovo jádro 3 K0i2(x) = -(1-x )J[_M], kde I a je indikátor množiny A. • Pro odhad optimální šířky okna používáme iterační metodu popsanou v Horová I., Zelinka J. [4] 28.2.2008, Brno i%, JÍ Ji % Simulace 6-2 X ~ Exp(l) - odhad distrib. funkce F (n = 100, Kpt02 = 0.8479) pro F, - - pro F ife pT Ji 28.2.2008, Brno % Simulace 6-3 X ~ Exp(l) - odhad distrib. funkce F (1000 simulací, n = 100) 0.9 0.8 0.7 - 0.6 0.5 0.4 - 0.3 0.2 0.1 I "7---------------1______— I---------------- 1 _____-------U - -4------------ ď ^-^"^ ■ —- "■"•"" // / " / // " / yy _ 1/ / " II / " / // II / // II / // // / « II " , / 1 — II / / // "/ // _ "/ // "/ // K II ľ II II II II II "I 1 III 1 III 1 - T ' VI III Ju III III J I 1 1 1 1 1 10 12 14 28.2.2008, Brno pro F, - - pro F *«*&&** Simulace 6-4 X ~ Exp(l) - boxplot pro ASE (1000 simulací, n = 100) x 10 C/5 < method 28.2.2008, Brno 1 pro F, 2 pro F Ifi vi» a *#/ ft 34 {x) = {x-lf + l; n = 100, h^ptfi>2 = 0.401 O 0.1 0.2 0.3 0.4 0.5 0.6 0.7 pro F, - - pro F Simulace 6-6 F (x) = (x- l)3 + 1: 1000 simulací, n= 100 0.1 0.2 0.3 0.4 0.5 0.6 pro F, - - pro F 28.2.2008, Brno šik \% o si ft Simulace 6-7 F (x) = (x- 1)3 + 1: boxplot pro ASE (1000 simulací, n = 100) x IQ"3 10 i + - 9 + - 8 + - 7 - 6 + _ LU OJ 5 4 + + - 3 Í - 2 Í 1 i 1 I 0 i i method 1 pro F, 2 pro F 28.2.2008, Brno *«*&&** Aplikace------------------------------------------------------------------------------------------------------------------------------------ 7-1 ROC křivky • Uvažujeme 2 skupiny objektů Qq (negativní) a Q\ (pozitivní). • ROC křivka (Receiver Operating Characteristic) popisuje kvalitu diagnostického testu, který rozděluje dané subjekty do skupin Qq a Qx na základě hodnot spojité n.v. X (prediktoru), tj. subjekt je klasifikován jako prvek Q\ jestliže X > d, jinak jako prvek Qq pro danou hodnotu dGR. • ROC křivka je definována jako pravděpodobnost nesprávně klasifikovaných objektů z Qq {FPR) proti pravděpodobnosti správně klasifikovaných objektů z Q\ (TPR) pro všechny možné hodnoty d G R, tj. ROC je dána [FPR, TPR]. 28.2.2008, Brno Xsl> Aplikace 7-2 ROC 0.4 0.35 0.3 - 0.25 0.2 - 0.15 0.1 - 0.05 28.2.2008, Brno *«*&&** Aplikace 7-3 Nechť Fq a F\ jsou distribuční funkce rozdělení X v Go resp. Q\ Pak ROC(d) = [1 - F0(d), 1 - Fi(d)], deR Jiný zápis ROC .-i R(p) = 1 - F1(F-L(l-p))1 0, 2), no = ri\ = 50 0.45 0.35 0.25 0.15 - 0.05 28.2.2008, Brno Aplikace 7-6 ROC 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 28.2.2008, Brno pro F, - - pro F i%, jf Si % Aplikace 7-7 0.05 - 0.04 - LU C/5 0.03 - 0.02 - 0.01 boxplot pro ISE (1000 simulací) method 28.2.2008, Brno 1 pro F, 2 pro F Aplikace 7-8 Reálná data Půjčky zákazníkům Použití (blíže nespecifikované) scoringové funkce pro ohodnocení zákazníka. Zajímá nás, kteří zákazníci budou schopni splácet svoji půjčku. Testovací množina: 327 zákazníků - 309 splatilo úvěr (skupina Qo), 18 neplatilo (skupina Q\). Použijeme ROC křivku, abychom zhodnotili rozdělení mezi zákazníky s dobrou a se špatnou schopností splácet. Zajímá nás, jestli naše scoringová funkce je dobrý „prediktor". 28.2.2008, Brno i%, JÍ Si % Aplikace 7-9 Odhad hustot f0(x) (/4%?2 = 0.0032) a fľ(x) (/^0?2 = 0.0153) s hraničními efekty. - pro /o . - Pro h 28.2.2008, Brno *«*&&** Aplikace 7-10 Odhad hustot fo(x) Chf0°pt,o,2 = 0-0032) a h{x) (/^0?2 = 0.0153) BEZ hraničních efektů. - pro /o , - pro /i 28.2.2008, Brno *«*&&** Aplikace 7-11 Odhad distribučních funkcí F0(x) Chopt,o,2 = 0.0068) a Fľ(x) (hopt02 = 0.0286) s hraničními efekty. -0.04 28.2.2008, Brno -0.02 - pro F0 , - pro Fľ 0.08 i%, JÍ Si % Aplikace 7-12 Odhad distribučních funkcí F0(x) Chopt,o,2 = 0.0068) a Fľ(x) (hopt,o,2 = 0.0286) BEZ hraničních efektů. -0.04 28.2.2008, Brno -0.02 - pro F0 , - pro Fľ 0.08 i%, JÍ Si % Aplikace 7-13 Odhad ROC křivky 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 - pro hraniční efekty, pro F, - - pro F 28.2.2008, Brno i%, JÍ Ji % Aplikace 7-14 Reálná data II Zranění hlavy Použití množství isoenzymu CK-BB (creative kinase - BB) naměřeného během 24 hodin od poranění hlavy pro předpověď následků tohoto poranění. Zajímá nás, kteří pacienti budou mít trvalé následky (resp. smrt) po zranění hlavy. 60 pacientů: 19 - dobré nebo úplné uzdravení, 41 - trvalé následky nebo smrt. Použijeme ROC křivku, abychom popsali kvalitu testu rozdělení mezi pacienty s trvalými následky a bez nich. Zajímá nás, jestli CK-BB isoenzym je dobrý „prediktor". %\ ¥ #i 28.2.2008, Brno Xsl>* Aplikace 7-15 Odhad hustot f0(x) (hfo°t02 = 145.7135) a fľ(x) (h opt,0,2 253.6472) s hraničními efekty. 3.5 x 10 28.2.2008, Brno -500 1000 1500 - pro f0 , - pro /i 2000 2500 i%, jf Si % Aplikace 7-16 Odhad hustot f0(x) (hfo°t02 = 145.7135) a fľ(x) (h opt,0,2 253.6472) BEZ hraničních efektů, 3.5 x 10 28.2.2008, Brno -500 1000 1500 - pro f0 , - pro /i 2000 2500 i%, JÍ Ji % Aplikace 7-17 Odhad distribučních funkcí Fq(x) (hopt,o,2 (hopt,o,2 = 276.5697) s hraničními efekty. 158.6975) a F1(x) - pro F0 , - pro Fľ 2500 28.2.2008, Brno *«*&&** Aplikace 7-18 Odhad distribučních funkcí F0(x) Chopt,o,2 = 158.6975) a Fľ(x) (hopt,o,2 = 276.5697) BEZ hraničních efektů. - pro F0 , - pro Fľ 2500 28.2.2008, Brno *«*&&** Aplikace 7-19 Odhad ROC křivky 1 i i i i i i i i i ,- -* — x ^ -~ ^^^- 0.9 x ^; *^~--"— 0.8 ^ŕ^— 0.7 0.6 s >> «* .»» "X 0.5. i - 0.4. : - 0.3 ) : : 0.2) i c < 0.1) «- — 0i «— I I I I I I I I I 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 - pro hraniční efekty, pro F, - - pro F 28.2.2008, Brno ife pf Ji % LITERATURA 8-1 Literatura [1] Azzalini, A.: A note on the estimation of a distribution function and quantiles by a kernel method. Biometrika, 68, No 1, pp. 326-328, 1981. [2] Bowman, A., Hall, P., Prvan, T.: Bandwidth selection for the smoothing of distribution functions. Biometrika, 85, No 4, pp. 799-808, 1998. [3] Härdle, W.: Applied nonparametirc regression. Cambridge University Press, 1991. [4] Horová, I., Zelinka, J.: Different approaches to ROC curve fitting for a continuous diagnostic test. CSDA, submitted, 2007. [5] Karunamuni, R.J., Alberts T.: On boundary correction in kernel density estimation. Statistical Methodology 2, pp. 191-212, 20 •|R«t*% 28.2.2008, Brno ** LITERATURA 8-2 [6] Lloyd, C.J., Zhou Yong: Kernel estimators of the ROC curve are better than empirical. Statistics and Prob. Letters 44, pp. 221-228, 1999. [7] Silverman, B.W.: Density estimation for statistics and Data Analysis. Chapman and Hall, New York, 1986. [8] Terrell, G. R.: The maximal smoothing principle in density estimation. Journal of the American Statistical Association. Vol. 85, No. 410, pp. 440-447, 1990. [9] Wand, LP. and Jones, I.C: Kernel smoothing. Chapman & Hall, London, 1995. \& (Q ^ 28.2.2008, Brno X»