Přednáška V.  Úvod do teorie odhadu Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs. medián Tomáš Pavlík Biostatistika Opakování – střední hodnota Uvažujme diskrétní náhodnou veličinu  X = {x1, …, xk} P(X=x1) = p1,…, P(X=xk) = pk Pak střední hodnota má tvar: Jaká je její interpretace?   k i ii xpxXE 1 )()(  Tomáš Pavlík Biostatistika Opakování – pravidlo ±3 sigma Co to znamená? K čemu to může být dobré? 1. Pojmy a principy teorie odhadu Tomáš Pavlík Biostatistika Jak se vlastně přišlo na použití průměru? Použití průměru jako sumarizace n pozorovaných hodnot se učí už na základní  škole, nicméně zmínka o jeho používání je až z konce 17. století. Byl navržen bez ohledu na jakoukoliv souvislost s teorií pravděpodobnosti jako  hodnota, označme ji a, která má následující vlastnosti: 1. Hodnota a minimalizuje reziduální součet čtverců, tedy součet čtverců rozdílů  pozorovaných hodnot a hodnoty a: 2. Součet reziduí vzhledem k hodnotě a je nula, tedy kladná i záporná rezidua  jsou v rovnováze: Tyto dvě kritéria zohledňují pouze pozorovaná data, vůbec se nezabývají  jakýmkoliv rozdělením pravděpodobnosti a jeho parametry.   n i i ax 1 0)( 2 1 2 1 2 )()()( axnxxax n i i n i i    Tomáš Pavlík Biostatistika Příklad – průměr pozorovaných hodnot V případě, že osa x nepředstavuje žádnou informaci, je použití průměru v pořádku  (kladná i záporná rezidua jsou v rovnováze). Co když osa x ponese nějakou informaci? Tomáš Pavlík Biostatistika Cíl snažení v teorii odhadu Na základě reálných pozorování náhodné veličiny X chceme získat informaci o  parametrech rozdělení pravděpodobnosti této veličiny. Teorie odhadu se snaží sestrojit statistiku, která by na základě pozorovaných dat  poskytla nejlepší možný odhad neznámého parametru / parametrů. Teorie odhadu předpokládá, že pozorované hodnoty nesou informaci o  neznámém parametru.  Někdy je třeba pozorované hodnoty před použitím statistiky „značně“ upravit  → normalizace dat z DNA mikročipů. Tomáš Pavlík Biostatistika Základní pojmy Náhodná veličina X – číselné ohodnocení výsledku experimentu, zajímá nás její  pravděpodobnostní chování – popisuje ho rozdělení pravděpodobnosti  náhodné veličiny X. Parametr rozdělení pravděpodobnosti – neznámá hodnota, θ, na které závisí  předpis rozdělení pravděpodobnosti Parametrická funkce – reálná funkce parametru θ. Realizace náhodné veličiny (n realizací) – představují je pozorované hodnoty:  x = x1, x2, …, xn. Předpokládám jejich vzájemnou nezávislost. Odhad parametru θ – reálná funkce x = d(x) = . Odhad parametrické funkce g(θ) – reálná funkce x = d(x) =          . ˆ )ˆ(g Tomáš Pavlík Biostatistika Klasifikace odhadů Parametrické odhady – vycházejí z předpokladu znalosti rozdělení  pravděpodobnosti, kterým se náhodná veličina řídí. Případně předpokládají i  znalost rozdělení pravděpodobnosti sledovaného parametru (tedy náhodné  veličiny) – Bayesovské odhady. Neparametrické odhady – v tomto případě nejsou uvažovány žádné  předpoklady o pravděpodobnostním chování dat. Výsledkem jsou robustní  odhady se širokým použitím, u kterých ale nelze hodnotit optimálnost  vzhledem k pravděpodobnostnímu modelu. Tomáš Pavlík Biostatistika Klíčové otázky v teorii odhadu Jak najít bodový odhad? Jak hodnotit kvalitu odhadu? Tomáš Pavlík Biostatistika Jak najít bodový odhad? Existuje řada postupů k nalezení bodového odhadu neznámého parametru – liší  se jak filozofií (např. Bayesovské odhady) tak definicí kritéria optimálních  vlastností odhadu. Zaměříme se pouze na vybrané pojmy a postupy. Metoda založená na Rao‐Blackwellově větě – slouží k nalezení nestranného  odhadu s nejmenší variabilitou (ne vždy to však lze spočítat). Metoda maximální věrohodnosti – slouží k nalezení odhadu (hodnoty), který je  ve smyslu pozorovaných dat nejvíce pravděpodobný. Respektive lze říci, že při  „platnosti“ této hodnoty jsou data nejvíce věrohodná. Bayesovské metody – nehledají jednu hodnotu parametru, ale celé rozdělení  pravděpodobnosti (parametr je zde vlastně náhodná veličina). … 2. Nestranné odhady Tomáš Pavlík Biostatistika Střední kvadratická chyba odhadu Významnou rizikovou funkcí ve statistice je tzv. střední kvadratická chyba  odhadu („mean squared error“) definovaná jako Výraz pro MSE, respektive MSE odhadu, se dá rozdělit na dvě komponenty – vychýlení (jeho druhou mocninu) a variabilitu: ))ˆ(()ˆ,( 2    EMSE )ˆvar()ˆ(bias)ˆ,( )))ˆ(ˆ(())ˆ(()))ˆ()ˆ(ˆ(()ˆ,( 2 222      MSE EEEEEEMSE vychýlení2 + variabilita „bias2“ + „precision“ Tomáš Pavlík Biostatistika Příklad Máme dva odhady neznámého  parametru θ. Jeden je vychýlený s malou  variabilitou.  Druhý je nevychýlený s větší  variabilitou. Ne vždy musí být lepším odhadem  ten, který je nevychýlený! Výběrové rozdělení  odhadu    .  Výběrové rozdělení  odhadu  . Statistika Skutečnost  )ˆ(E )ˆ( * E * ˆ ˆ Tomáš Pavlík Biostatistika Nestrannost Celkem logickým omezením odhadů, které nás zajímají, je jejich nestrannost. Odhad d(x) parametru θ je nestranný když Platí tedy: V množině nestranných odhadů se poté snažíme najít odhad s nejmenší  variabilitou – abychom měli i minimální MSE. V úvodní přednášce jsme mluvili o zkreslení výsledků („biased results“) – nestrannost je ve své podstatě to samé.   každépro))(( XdE   každépro0))(( XdE Tomáš Pavlík Biostatistika Průměr – nestranný odhad? Normální rozdělení pravděpodobnosti: Poissonovo rozdělení pravděpodobnosti: Použití průměru pro tato rozdělení má smysl, ale je třeba si ověřit dané  rozdělení pravděpodobnosti. REXXEXE NX inin i     každépro)()( ),(~ 11 2 REXXEXE PoX inin i     každépro)()( )(~ 11 Tomáš Pavlík Biostatistika Nestranný odhad – příklad Měříme čas, který trvá lékaři určitá činnost (např. ambulantní ošetření).  Chceme najít odhad maxima tohoto času, tedy jak maximálně dlouho mu daná  činnost může trvat. Uvažujme rovnoměrně spojité rozdělení pravděpodobnosti na intervalu [0,θ]: Jak můžeme hodnotu θ odhadnout? ),0(každépro0)( ),0(každépro/1)( ),0(~      xxf xxf RsX Tomáš Pavlík Biostatistika Nestranný odhad – příklad Máme tedy náhodný výběr X1, X2,…,Xn i.i.d. z rozdělení Rs[0,θ], které ještě  seřadíme podle velikosti: X(1), X(2),…,X(n). Máme dvě zajímavé hodnoty: Uvažujeme dva odhady: )( iXE in n i in XX XX max)( 1 1    2 12 1 )( iXD in n nn n n i in XXT XXT max 2 1 )( 1 2 1 2 1      Který je lepší?  Tomáš Pavlík Biostatistika Nestranný odhad – příklad Máme tedy X1, X2,…,Xn, které seřadíme podle velikosti: X(1), X(2),…,X(n). Máme dvě zajímavé hodnoty: Uvažujeme dva odhady: in n i in XX XX max)( 1 1    in n nn n n i in XXT XXT max 2 1 )( 1 2 1 2 1      )2()1()( 2 12 1 2 2 )( )(    nn n n n XD XD     1)( 1 1 )(max 2/      n n in n i in XEEX EXXE )2(2 2 3 1 1 2 )( )(   nn n TD TD         1 1 )( 1 2 21 )( )(2)2( n n n n nn n XEET XEET Který je lepší? Tomáš Pavlík Biostatistika Nestranný odhad – příklad Máme tedy X1, X2,…,Xn, které seřadíme podle velikosti: X(1), X(2),…,X(n). Máme dvě zajímavé hodnoty: Uvažujeme dva odhady: in n i in XX XX max)( 1 1    in n nn n n i in XXT XXT max 2 1 )( 1 2 1 2 1      )2()1()( 2 12 1 2 2 )( )(    nn n n n XD XD     1)( 1 1 )(max 2/      n n in n i in XEEX EXXE )2(2 2 3 1 1 2 )( )(   nn n TD TD         1 1 )( 1 2 21 )( )(2)2( n n n n nn n XEET XEET Vítězem se stal odhad T2, jeho variabilita s rostoucím n rychleji klesá k 0. Tomáš Pavlík Biostatistika Vztah vychýlení a variability odhadu Odhady můžeme kombinací vychýlení a  variability rozdělit (hypoteticky) do čtyř  skupin. Význam není až tak v jednoduchých  sumarizacích dat, ale spíš ve  stochastickém modelování. Odhad neznámého parametru Skutečná hodnota neznámého parametru Tomáš Pavlík Biostatistika Poznámka o stochastickém modelování Modely, které jsou příliš jednoduché (mají málo vysvětlujících proměnných)  mohou být nepřesné kvůli velkému vychýlení, protože nejsou dostatečně  flexibilní vzhledem k pozorovaným datům. Modely, které jsou příliš složité (mají mnoho vysvětlujících proměnných) mohou být nepřesné kvůli velké variabilitě, protože se příliš přizpůsobují  pozorovaným datům (tzv. „overfitting“). Tomuto fenoménu se říká „bias‐variance tradeoff“. Identifikovat správný model není jednoduché, je třeba najít správný počet  vysvětlujících proměnných („model complexity“). 3. Metoda maximální věrohodnosti Tomáš Pavlík Biostatistika Metoda maximální věrohodnosti Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation“. Máme n nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s  hustotou . Sdružená hustota odpovídající n pozorovaným hodnotám x1, x2,…, xn je: Jaká? A proč? );( xf Tomáš Pavlík Biostatistika Metoda maximální věrohodnosti Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation“. Máme n nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s  hustotou . Sdružená hustota odpovídající n pozorovaným hodnotám x1, x2,…, xn je: Sdružená hustota vyjadřuje(za předpokladu, že známe θ), jak moc je  pravděpodobné, že pozorované hodnoty pochází z rozdělení s hustotou Pointa metody maximální věrohodnosti: Dívat se na sdruženou hustotu jako na  funkci θ a vybrat θ takové, aby výraz  byl co  největší (maximum).   n i in xfxxf 1 1 );()|,,(  );( xf );( xf   n i in xfxxf 1 1 );()|,,(  Tomáš Pavlík Biostatistika Věrohodnostní funkce Zavádíme tzv. věrohodnostní funkci („likelihood function“): Maximálně věrohodný odhad, značíme ho   , je číslo, které maximalizuje  věrohodnostní funkci, tedy Výpočetně se jedná o řešení rovnice (rovnic): Musíme si ještě ověřit, že se jedná o maximum – např. pomocí druhých  derivací. MLEˆ )|,,(),,|( 11  nn xxfxxL   0/),,|( 1  dxxdL n ),,|(maxargˆ 1 nMLE xxL     Tomáš Pavlík Biostatistika Logaritmus věrohodnostní funkce Často je výhodnější (hlavně výpočetně jednodušší) maximalizovat logaritmus  věrohodnostní funkce: Bude maximum pro věrohodnostní funkci i logaritmus věrohodnostní funkce  stejné? Pokud ano, tak proč?    n i i n i inn xfxfxxLxxl 11 11 );(ln);(ln),,|(ln),,|(   Tomáš Pavlík Biostatistika ML odhad parametru λ Poissonova rozdělení Máme n i.i.d. pozorování z Poissonova rozdělení: x1, x2,…, xn. Sdružená hustota má tvar: Věrohodnostní funkce má tvar: Logaritmus věrohodnostní funkce má tvar: Jak vypadá ?    n i i x n x e xxf i 1 1 ! )|,,(       i i xn nn xexxfxxL ii !/)|,,(),,|( 11    )!ln(ln),,|(ln 1   i i i in xnxxxL   MLEˆ Tomáš Pavlík Biostatistika ML odhad parametru λ Poissonova rozdělení 0/ ln   nx d Ld i i   Derivace logaritmu věrohodnostní funkce má tvar: Výsledkem je průměr: Je to maximum? n xi iˆ 0/ ln 2 2 2  i ix d Ld   Tomáš Pavlík Biostatistika ML odhad parametru μ normálního rozdělení Máme n i.i.d. pozorování z normálního rozdělení: x1, x2,…, xn. Sdružená hustota má tvar: Logaritmus věrohodnostní funkce má tvar: Parciální derivace logaritmu věrohodnostní funkce mají tvar:    n i x n i exxf 1 2/)( 2 2 1 22 2 1 ),|,,(      n i in x nn xxL 1 2 2 2 1 )( 2 1 ln 2 2ln 2 ),,|(ln     0)( 1 /ln 1 2   n i ixL    0)( 2 1 2 /ln 1 2 42 2   n i ix n L    Tomáš Pavlík Biostatistika ML odhad parametru μ normálního rozdělení Výsledkem jsou následující odhady:   n i iMLE xx n 1 22 )( 1 ˆ xx n n i iMLE  1 1 ˆ 4. Srovnání průměru a mediánu Tomáš Pavlík Biostatistika Nesmyslné použití průměru u asymetrických dat Chceme‐li charakterizovat log‐normální rozdělení z hlediska střední hodnoty, je  použití průměru nesmyslné. Není totiž splněn model, pro který byl jako  optimální odhad odvozen! průměr geometrický průměr = medián Vhodnějším odhadem je medián a   geometrický průměr (jsou teoreticky  ekvivalentní pro log‐normální data) Geometrický průměr je průměr  spočítaný na normálních datech, tedy  po transformaci y = ln(x). Příklad: počty bílých krvinek. Tomáš Pavlík Biostatistika Smysluplné použití průměru u asymetrických dat Chceme‐li charakterizovat log‐normální rozdělení z hlediska celkového součtu  pozorovaných hodnot, je použití průměru smysluplné. Jedná‐li se totiž např. o  spotřebu nějakého materiálu, alkoholu nebo peněz, průměr popisuje z hlediska  celkového součtu spotřebu lépe. průměr geometrický průměr = medián Příklad: plánování celkové spotřeby  nějakého materiálu, alkoholu nebo  peněz do budoucna. Tomáš Pavlík Biostatistika Smysluplné použití průměru u symetrických dat Pokud je splněn pravděpodobnostní model, tedy zejména normalita dat, je  použití průměru na místě. Průměr je konzistentní odhad – pro n → ∞ konverguje k θ podle  pravděpodobnosti. Pro rostoucí n máme zaručeno, že se průměr přibližuje k θ. průměr mediánskutečná hodnota n = 10 n = 50 n = 500 Tomáš Pavlík Biostatistika Shrnutí – průměr vs. medián Výhody Nevýhody Průměr Využívá informace celého  souboru dat Citlivý na odlehlá  pozorování Jednoduché rozdělení  pravděpodobnosti Omezené použití u  asymetrických dat Medián Není citlivý na odlehlá  pozorování Využívá informaci pouze  jednoho pozorování Použití pro všechny typy  dat Komplikované rozdělení  pravděpodobnosti Tomáš Pavlík Biostatistika Shrnutí Používejte průměr! Ale vždy si ověřte předpoklad normality (nebo alespoň symetrie), případně  Poissonova rozdělení dat! A taky se nezapomeňte podívat na odlehlé hodnoty! Pokud si něčím nejste jistí, použijte i medián. Useknutý průměr – odhad, který je svými vlastnostmi mezi průměrem a  mediánem, spočítáme ho tak, že „odsekneme“ m nebo m % minimálních a  maximálních hodnot a ze zbytku spočítáme průměr. Tomáš Pavlík Biostatistika Poděkování… Rozvoj studijního oboru „Matematická biologie“ PřF MU  Brno je finančně podporován prostředky projektu ESF č.  CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia  Matematické biologie“ a státním rozpočtem České republiky