Přednáška V. Úvod do teorie odhadu Pojmy a principy teorie odhadu Nestranné odhady Metoda maximální věrohodnosti Průměr vs. medián Tomáš Pavlík Biostatistika Opakování – výběrová distribuční funkce Sestrojíme výběrovou distribuční funkci pro výšku a hmotnost lidské postavy, respektive výšku a hmotnost studentů na přednášce Biostatistiky v matematické biologii (samozřejmě anonymně). Použijeme volně dostupný software R. Chci srovnat výběrová rozdělení výšky a hmotnosti. Budou obě indikovat normální rozdělení? Hmotnost by neměla mít normální rozdělení. Tomáš Pavlík Biostatistika Opakování – střední hodnota Uvažujme diskrétní náhodnou veličinu X = {x1, …, xk} P(X=x1) = p1,…, P(X=xk) = pk Pak střední hodnota má tvar: Jaká je její interpretace? ∑= == k i ii xpxXE 1 )()( µ Tomáš Pavlík Biostatistika Opakování – pravidlo ±3 sigma Co to znamená? K čemu to může být dobré? 1. Pojmy a principy teorie odhadu Tomáš Pavlík Biostatistika Jak se vlastně přišlo na použití průměru? Použití průměru jako sumarizace n pozorovaných hodnot se učí už na základní škole, nicméně zmínka o jeho používání je až z konce 17. století. Byl navržen bez ohledu na jakoukoliv souvislost s teorií pravděpodobnosti jako hodnota, označme ji a, která má následující vlastnosti: 1. Hodnota a minimalizuje reziduální součet čtverců, tedy součet čtverců rozdílů pozorovaných hodnot a hodnoty a: 2. Součet reziduí vzhledem k hodnotě a je nula, tedy kladná i záporná rezidua jsou v rovnováze: Tyto dvě kritéria zohledňují pouze pozorovaný data, vůbec se nezabývají jakýmkoliv rozdělením pravděpodobnosti a jeho parametry. ∑= =− n i i ax 1 0)( 2 1 2 1 2 )()()( axnxxax n i i n i i −+−=− ∑∑ == Tomáš Pavlík Biostatistika Příklad – průměr pozorovaných hodnot V případě, že osa x nepředstavuje žádnou informaci, je použití průměru v pořádku (kladná i záporná rezidua jsou v rovnováze). Co když osa x ponese nějakou informaci? Tomáš Pavlík Biostatistika Cíl snažení v teorii odhadu Na základě reálných pozorování náhodné veličiny X chceme získat informaci o parametrech rozdělení pravděpodobnosti této veličiny. Teorie odhadu se snaží sestrojit statistiku, která by na základě pozorovaných dat poskytla nejlepší možný odhad neznámého parametru / parametrů. Teorie odhadu předpokládá, že pozorované hodnoty nesou informaci o neznámém parametru. Někdy je třeba pozorované hodnoty před použitím statistiky „značně“ upravit → normalizace dat z DNA mikročipů. Tomáš Pavlík Biostatistika Základní pojmy Náhodná veličina X – číselné ohodnocení výsledku experimentu, zajímá nás její pravděpodobnostní chování – popisuje ho rozdělení pravděpodobnosti náhodné veličiny X. Parametr rozdělení pravděpodobnosti – neznámá hodnota, θ, na které závisí předpis rozdělení pravděpodobnosti Parametrická funkce – reálná funkce parametru θ. Realizace náhodné veličiny (n realizací) – představují je pozorované hodnoty: x = x1, x2, …, xn. Předpokládám jejich vzájemnou nezávislost. Odhad parametru θ – reálná funkce x = d(x) = . Odhad parametrické funkce g(θ) – reálná funkce x = d(x) = . θˆ )ˆ(θg Tomáš Pavlík Biostatistika Klasifikace odhadů Parametrické odhady – vycházejí z předpokladu znalosti rozdělení pravděpodobnosti, kterým se náhodná veličina řídí. Případně předpokládají i znalost rozdělení pravděpodobnosti sledovaného parametru (tedy náhodné veličiny) – Bayesovské odhady. Neparametrické odhady – v tomto případě nejsou uvažovány žádné předpoklady o pravděpodobnostním chování dat. Výsledkem jsou robustní odhady se širokým použitím, u kterých ale nelze hodnotit optimalitu vzhledem k pravděpodobnostnímu modelu. Tomáš Pavlík Biostatistika Klíčové otázky v teorii odhadu Jak najít bodový odhad? Jak hodnotit kvalitu odhadu? Tomáš Pavlík Biostatistika Jak najít bodový odhad? Existuje řada postupů k nalezení bodového odhadu neznámého parametru – liší se jak filozofií (např. Bayesovské odhady) tak definicí kritéria optimálních vlastností odhadu. Zaměříme se pouze na vybrané pojmy a postupy. Metoda založená na Rao-Blackwellově větě – slouží k nalezení nestranného odhadu s nejmenší variabilitou (ne vždy to však lze spočítat). Metoda maximální věrohodnosti – slouží k nalezení odhadu (hodnoty), který je ve smyslu pozorovaných dat nejvíce pravděpodobný. Respektive lze říci, že při „platnosti“ této hodnoty jsou data nejvíce věrohodná. Bayesovské metody – nehledají jednu hodnotu parametru, ale celé rozdělení pravděpodobnosti (parametr je zde vlastně náhodná veličina). … Tomáš Pavlík Biostatistika Jak hodnotit kvalitu odhadu? Vezmeme-li hodnotu jako odhad parametru θ, pak lze obecně vyjádřit důsledek tohoto odhadu pomocí tzv. ztrátové funkce („loss function“), která má následující vlastnosti: a Celkově můžeme kvalitu odhadu vyjádřit pomocí tzv. rizikové funkce („risk function“): Logicky chceme najít odhad, který by minimalizoval rizikovou funkci pro všechny hodnoty θ. θθθθ ˆ,každépro0)ˆ,( ≥L θθθ každépro0),( =L )))(ˆ,(()ˆ,( xLER θθθθ θ= θˆ Tomáš Pavlík Biostatistika Špatná zpráva To však není možné – obecně neexistuje odhad, který by minimalizoval rizikovou funkci pro všechny hodnoty θ. Vždy jsme totiž schopni najít odhad, který bude mít pro dané θ0 nulové riziko, ale zároveň bude nepřijatelný pro θ ≠ θ0. Máme tedy na výběr: 1. Buď se omezíme pouze na určitou třídu odhadů – to znamená omezíme množinu odhadů nějakou požadovanou vlastností → nestranné odhady. 2. Nebo upravíme přístup k získávání odhadů – více se zaměříme na pozorované hodnoty → metoda maximální věrohodnosti. 2. Nestranné odhady Tomáš Pavlík Biostatistika Střední kvadratická chyba odhadu Významnou rizikovou funkcí ve statistice je tzv. střední kvadratická chyba odhadu („mean squared error“) definovaná jako Výraz pro MSE, respektive MSE odhadu, se dá rozdělit na dvě komponenty – vychýlení (jeho druhou mocninu) a variabilitu: ))ˆ(()ˆ,( 2 θθθθ θ −= EMSE )ˆvar()ˆ(bias)ˆ,( )))ˆ(ˆ(())ˆ(()))ˆ()ˆ(ˆ(()ˆ,( 2 222 θθθθ θθθθθθθθθθ θ += −−−=−+−= MSE EEEEEEMSE vychýlení2 + variabilita „bias2“ + „precision“ Tomáš Pavlík Biostatistika Příklad Máme dva odhady neznámého parametru θ. Jeden je vychýlený s malou variabilitou. Druhý je nevychýlený s větší variabilitou. Ne vždy musí být lepším odhadem ten, který je nevychýlený! Výběrové rozdělení odhadu . Výběrové rozdělení odhadu . Statistika Skutečnost θ )ˆ(θE )ˆ( * θE *ˆθ θˆ Tomáš Pavlík Biostatistika Nestrannost Celkem logickým omezením odhadů, které nás zajímají, je jejich nestrannost. Odhad d(x) parametru θ je nestranný když Platí tedy: V množině nestranných odhadů se poté snažíme najít odhad s nejmenší variabilitou – abychom měli i minimální MSE. V úvodní přednášce jsme mluvili o zkreslení výsledků („biased results“) – nestrannost je ve své podstatě to samé. Θ∈= θθθ každépro))(( XdE Θ∈=− θθθ každépro0))(( XdE Tomáš Pavlík Biostatistika Průměr – nestranný odhad? Normální rozdělení pravděpodobnosti: Poissonovo rozdělení pravděpodobnosti: Použití průměru pro tato rozdělení má smysl, ale je třeba si ověřit dané rozdělení pravděpodobnosti. REXXEXE NX inin i ∈=== ∑∑ µµ σµ každépro)()( ),(~ 11 2 REXXEXE PoX inin i ∈=== ∑∑ λλ λ každépro)()( )(~ 11 Tomáš Pavlík Biostatistika Nestranný odhad – příklad Měříme čas, který trvá lékaři určitá činnost (např. ambulantní ošetření). Chceme najít odhad maxima tohoto času, tedy jak maximálně dlouho mu daná činnost může trvat. Uvažujme rovnoměrně spojité rozdělení pravděpodobnosti na intervalu [0,θ]: Jak můžeme hodnotu θ odhadnout? ),0(každépro0)( ),0(každépro/1)( ),0(~ θ θθ θ ∉=→ ∈=→ xxf xxf RsX Tomáš Pavlík Biostatistika Nestranný odhad – příklad Máme tedy náhodný výběr X1, X2,…,Xn i.i.d. z rozdělení Rs[0,θ], které ještě seřadíme podle velikosti: X(1), X(2),…,X(n). Máme dvě zajímavé hodnoty: Uvažujeme dva odhady: θ=)( iXE in n i in XX XX max)( 1 1 = = ∑= 2 12 1 )( θ=iXD in n nn n n i in XXT XXT max 2 1 )( 1 2 1 2 1 ++ = == == ∑ Který je lepší? Tomáš Pavlík Biostatistika Nestranný odhad – příklad Máme tedy X1, X2,…,Xn, které seřadíme podle velikosti: X(1), X(2),…,X(n). Máme dvě zajímavé hodnoty: Uvažujeme dva odhady: in n i in XX XX max)( 1 1 = = ∑= in n nn n n i in XXT XXT max 2 1 )( 1 2 1 2 1 ++ = == == ∑ )2()1()( 2 12 1 2 2 )( )( ++ = = nn n n n XD XD θ θ θ θ 1)( 1 1 )(max 2/ + = == == ∑ n n in n i in XEEX EXXE )2(2 2 3 1 1 2 )( )( += = nn n TD TD θ θ θθ θθ === === + ++ 1 1 )( 1 2 21 )( )(2)2( n n n n nn n XEET XEET Který je lepší? Tomáš Pavlík Biostatistika Nestranný odhad – příklad Máme tedy X1, X2,…,Xn, které seřadíme podle velikosti: X(1), X(2),…,X(n). Máme dvě zajímavé hodnoty: Uvažujeme dva odhady: in n i in XX XX max)( 1 1 = = ∑= in n nn n n i in XXT XXT max 2 1 )( 1 2 1 2 1 ++ = == == ∑ )2()1()( 2 12 1 2 2 )( )( ++ = = nn n n n XD XD θ θ θ θ 1)( 1 1 )(max 2/ + = == == ∑ n n in n i in XEEX EXXE )2(2 2 3 1 1 2 )( )( += = nn n TD TD θ θ θθ θθ === === + ++ 1 1 )( 1 2 21 )( )(2)2( n n n n nn n XEET XEET Vítězem se stal odhad T2, jeho variabilita s rostoucím n rychleji klesá k 0. Tomáš Pavlík Biostatistika Vztah vychýlení a variability odhadu Odhady můžeme kombinací vychýlení a variability rozdělit (hypoteticky) do čtyř skupin. Význam není až tak v jednoduchých sumarizacích dat, ale spíš ve stochastickém modelování. Odhad neznámého parametru Skutečná hodnota neznámého parametru Tomáš Pavlík Biostatistika Poznámka o stochastickém modelování Modely, které jsou příliš jednoduché (mají málo vysvětlujících proměnných) mohou být nepřesné kvůli velkému vychýlení, protože nejsou dostatečně flexibilní vzhledem k pozorovaným datům. Modely, které jsou příliš složité (mají mnoho vysvětlujících proměnných) mohou být nepřesné kvůli velké variabilitě, protože se příliš přizpůsobují pozorovaným datům (tzv. „overfitting“). Tomuto fenoménu se říká „bias-variance tradeoff“. Identifikovat správný model není jednoduché, je třeba najít správný počet vysvětlujících proměnných („model complexity“). 3. Metoda maximální věrohodnosti Tomáš Pavlík Biostatistika Metoda maximální věrohodnosti Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation“. Máme n nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s hustotou . Sdružená hustota odpovídající n pozorovaným hodnotám x1, x2,…, xn je: Jaká? A proč? );( θxf Tomáš Pavlík Biostatistika Metoda maximální věrohodnosti Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation“. Máme n nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s hustotou . Sdružená hustota odpovídající n pozorovaným hodnotám x1, x2,…, xn je: Sdružená hustota vyjadřuje(za předpokladu, že známe θ), jak moc je pravděpodobné, že pozorované hodnoty pochází z rozdělení s hustotou Pointa metody maximální věrohodnosti: Dívat se na sdruženou hustotu jako na funkci θ a vybrat θ takové, aby výraz byl co největší (maximum). ∏= = n i in xfxxf 1 1 );()|,,( θθ );( θxf );( θxf ∏= = n i in xfxxf 1 1 );()|,,( θθ Tomáš Pavlík Biostatistika Věrohodnostní funkce Zavádíme tzv. věrohodnostní funkci („likelihood function“): Maximálně věrohodný odhad, značíme ho , je číslo, které maximalizuje věrohodnostní funkci, tedy Výpočetně se jedná o řešení rovnice (rovnic): Musíme si ještě ověřit, že se jedná o maximum – např. pomocí druhých derivací. MLEθˆ )|,,(),,|( 11 θθ nn xxfxxL  = 0/),,|( 1 =θθ dxxdL n ),,|(maxargˆ 1 nMLE xxL θθ θ Θ∈ = Tomáš Pavlík Biostatistika Logaritmus věrohodnostní funkce Často je výhodnější (hlavně výpočetně jednodušší) maximalizovat logaritmus věrohodnostní funkce: Bude maximum pro věrohodnostní funkci i logaritmus věrohodnostní funkce stejné? Pokud ano, tak proč? ∑∏ == === n i i n i inn xfxfxxLxxl 11 11 );(ln);(ln),,|(ln),,|( θθθθ  Tomáš Pavlík Biostatistika ML odhad parametru λ Poissonova rozdělení Máme n i.i.d. pozorování z Poissonova rozdělení: x1, x2,…, xn. Sdružená hustota má tvar: Věrohodnostní funkce má tvar: Logaritmus věrohodnostní funkce má tvar: Jak vypadá ? ∏= − = n i i x n x e xxf i 1 1 ! )|,,( λ λ λ  ∏Σ− == i i xn nn xexxfxxL ii !/)|,,(),,|( 11 λλλ λ  )!ln(ln),,|(ln 1 ∏∑ −−= i i i in xnxxxL λλλ  MLEθˆ Tomáš Pavlík Biostatistika ML odhad parametru λ Poissonova rozdělení 0/ ln =−= ∑ nx d Ld i i λ λ Derivace logaritmu věrohodnostní funkce má tvar: Výsledkem je průměr: Je to maximum? n xi i∑=λˆ 0/ ln 2 2 2 <−= ∑i ix d Ld λ λ Tomáš Pavlík Biostatistika ML odhad parametru μ normálního rozdělení Máme n i.i.d. pozorování z normálního rozdělení: x1, x2,…, xn. Sdružená hustota má tvar: Logaritmus věrohodnostní funkce má tvar: Parciální derivace logaritmu věrohodnostní funkce mají tvar: ∏= −− = n i x n i exxf 1 2/)( 2 2 1 22 2 1 ),|,,( σµ πσ σµ ∑= −−−−= n i in x nn xxL 1 2 2 2 1 )( 2 1 ln 2 2ln 2 ),,|(ln µ σ σπλ  0)( 1 /ln 1 2 =−=∂∂ ∑= n i ixL µ σ µ 0)( 2 1 2 /ln 1 2 42 2 =−+−=∂∂ ∑= n i ix n L µ σσ σ Tomáš Pavlík Biostatistika ML odhad parametru μ normálního rozdělení Výsledkem jsou následující odhady: ∑= −= n i iMLE xx n 1 22 )( 1 ˆσ xx n n i iMLE == ∑=1 1 ˆµ 4. Srovnání průměru a mediánu Tomáš Pavlík Biostatistika Nesmyslné použití průměru u asymetrických dat Chceme-li charakterizovat log-normální rozdělení z hlediska střední hodnoty, je použití průměru nesmyslné. Není totiž splněn model, pro který byl jako optimální odhad odvozen! průměr geometrický průměr = medián Vhodnějším odhadem je medián a geometrický průměr (jsou teoreticky ekvivalentní pro log-normální data) Geometrický průměr je průměr spočítaný na normálních datech, tedy po transformaci y = ln(x). Příklad: počty bílých krvinek. Tomáš Pavlík Biostatistika Smysluplné použití průměru u asymetrických dat Chceme-li charakterizovat log-normální rozdělení z hlediska celkového součtu pozorovaných hodnot, je použití průměru smysluplné. Jedná-li se totiž např. o spotřebu nějakého materiálu, alkoholu nebo peněz, průměr popisuje z hlediska celkového součtu spotřebu lépe. průměr geometrický průměr = medián Příklad: plánování celkové spotřeby nějakého materiálu, alkoholu nebo peněz do budoucna. Tomáš Pavlík Biostatistika Smysluplné použití průměru u symetrických dat Pokud je splněn pravděpodobnostní model, tedy zejména normalita dat, je použití průměru na místě. Průměr je konzistentní odhad – pro n → ∞ konverguje k θ podle pravděpodobnosti. Pro rostoucí n máme zaručeno, že se průměr přibližuje k θ. průměr mediánskutečná hodnota n = 10 n = 50 n = 500 Tomáš Pavlík Biostatistika Shrnutí – průměr vs. medián Výhody Nevýhody Průměr Využívá informace celého souboru dat Citlivý na odlehlá pozorování Jednoduché rozdělení pravděpodobnosti Omezené použití u asymetrických dat Medián Není citlivý na odlehlá pozorování Využívá informaci pouze jednoho pozorování Použití pro všechny typy dat Komplikované rozdělení pravděpodobnosti Tomáš Pavlík Biostatistika Shrnutí Používejte průměr! Ale vždy si ověřte předpoklad normality (nebo alespoň symetrie), případně Poissonova rozdělení dat! A taky se nezapomeňte podívat na odlehlé hodnoty! Pokud si něčím nejste jistí, použijte i medián. Useknutý průměr – odhad, který je svými vlastnostmi mezi průměrem a mediánem, spočítáme ho tak, že „odsekneme“ m nebo m % minimálních a maximálních hodnot a ze zbytku spočítáme průměr. Tomáš Pavlík Biostatistika Poděkování… Rozvoj studijního oboru „Matematická biologie“ PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia Matematické biologie“ a státním rozpočtem České republiky