logo-IBA logomuni Přednáška V. Úvod do teorie odhadu * Pojmy a principy teorie odhadu * Nestranné odhady * Metoda maximální věrohodnosti * Průměr vs. medián esf-komplet-barva.jpg logo-IBA logomuni 1. Pojmy a principy teorie odhadu logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Jak se vlastně přišlo na použití průměru? * Použití průměru jako sumarizace n pozorovaných hodnot se učí už na základní škole, nicméně zmínka o jeho používání je až z konce 17. století. * Byl navržen bez ohledu na jakoukoliv souvislost s teorií pravděpodobnosti jako hodnota, označme ji a, která má následující vlastnosti: 1.Hodnota a minimalizuje reziduální součet čtverců, tedy součet čtverců rozdílů pozorovaných hodnot a hodnoty a: 2. 2. 2.Součet reziduí vzhledem k hodnotě a je nula, tedy kladná i záporná rezidua jsou v rovnováze: * * Tyto dvě kritéria zohledňují pouze pozorovaná data, vůbec se nezabývají jakýmkoliv rozdělením pravděpodobnosti a jeho parametry. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad – průměr pozorovaných hodnot * V případě, že osa x nepředstavuje žádnou informaci, je použití průměru v pořádku (kladná i záporná rezidua jsou v rovnováze). * * * * * * * * * * * * Co když osa x ponese nějakou informaci? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Cíl snažení v teorii odhadu * Na základě reálných pozorování náhodné veličiny X chceme získat informaci o parametrech rozdělení pravděpodobnosti této veličiny. * * Teorie odhadu se snaží sestrojit statistiku, která by na základě pozorovaných dat poskytla nejlepší možný odhad neznámého parametru / parametrů. * * Teorie odhadu předpokládá, že pozorované hodnoty nesou informaci o neznámém parametru. * * Někdy je třeba pozorované hodnoty před použitím statistiky „značně“ upravit → normalizace dat z DNA mikročipů. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Základní pojmy * Náhodná veličina X – číselné ohodnocení výsledku experimentu, zajímá nás její pravděpodobnostní chování – popisuje ho rozdělení pravděpodobnosti náhodné veličiny X. * Parametr rozdělení pravděpodobnosti – neznámá hodnota, θ, na které závisí předpis rozdělení pravděpodobnosti * Parametrická funkce – reálná funkce parametru θ. * * Realizace náhodné veličiny (n realizací) – představují je pozorované hodnoty: x = x1, x2, …, xn. Předpokládám jejich vzájemnou nezávislost. * Odhad parametru θ – reálná funkce x = d(x) = . * Odhad parametrické funkce g(θ) – reálná funkce x = d(x) = . logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klasifikace odhadů * Parametrické odhady – vycházejí z předpokladu znalosti rozdělení pravděpodobnosti, kterým se náhodná veličina řídí. Případně předpokládají i znalost rozdělení pravděpodobnosti sledovaného parametru (tedy náhodné veličiny) – Bayesovské odhady. * * Neparametrické odhady – v tomto případě nejsou uvažovány žádné předpoklady o pravděpodobnostním chování dat. Výsledkem jsou robustní odhady se širokým použitím, u kterých ale nelze hodnotit optimálnost vzhledem k pravděpodobnostnímu modelu. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Klíčové otázky v teorii odhadu * Jak najít bodový odhad? * Jak hodnotit kvalitu odhadu? * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Jak najít bodový odhad? * Existuje řada postupů k nalezení bodového odhadu neznámého parametru – liší se jak filozofií (např. Bayesovské odhady) tak definicí kritéria optimálních vlastností odhadu. Zaměříme se pouze na vybrané pojmy a postupy. * * Metoda založená na Rao-Blackwellově větě – slouží k nalezení nestranného odhadu s nejmenší variabilitou (ne vždy to však lze spočítat). * Metoda maximální věrohodnosti – slouží k nalezení odhadu (hodnoty), který je ve smyslu pozorovaných dat nejvíce pravděpodobný. Respektive lze říci, že při „platnosti“ této hodnoty jsou data nejvíce věrohodná. * Bayesovské metody – nehledají jednu hodnotu parametru, ale celé rozdělení pravděpodobnosti (parametr je zde vlastně náhodná veličina). * … logo-IBA logomuni 2. Nestranné odhady logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Střední kvadratická chyba odhadu * Významnou rizikovou funkcí ve statistice je tzv. střední kvadratická chyba odhadu („mean squared error“) definovaná jako * * * Výraz pro MSE, respektive MSE odhadu, se dá rozdělit na dvě komponenty – vychýlení (jeho druhou mocninu) a variabilitu: vychýlení2 + variabilita „bias2“ + „precision“ logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad * Máme dva odhady neznámého parametru θ. * * Jeden je vychýlený s malou variabilitou. * Druhý je nevychýlený s větší variabilitou. * * Ne vždy musí být lepším odhadem ten, který je nevychýlený! bias_variance.jpeg Výběrové rozdělení odhadu . Výběrové rozdělení odhadu . Statistika Skutečnost logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Nestrannost * Celkem logickým omezením odhadů, které nás zajímají, je jejich nestrannost. * Odhad d(x) parametru θ je nestranný když * * * Platí tedy: * * * V množině nestranných odhadů se poté snažíme najít odhad s nejmenší variabilitou – abychom měli i minimální MSE. * * V úvodní přednášce jsme mluvili o zkreslení výsledků („biased results“) – nestrannost je ve své podstatě to samé. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Průměr – nestranný odhad? * Normální rozdělení pravděpodobnosti: * * * * Poissonovo rozdělení pravděpodobnosti: * * * * * Použití průměru pro tato rozdělení má smysl, ale je třeba si ověřit dané rozdělení pravděpodobnosti. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Nestranný odhad – příklad * Měříme čas, který trvá lékaři určitá činnost (např. ambulantní ošetření). Chceme najít odhad maxima tohoto času, tedy jak maximálně dlouho mu daná činnost může trvat. * * Uvažujme rovnoměrně spojité rozdělení pravděpodobnosti na intervalu [0,θ]: * * * * * * Jak můžeme hodnotu θ odhadnout? Uniform_distribution_PDF.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Nestranný odhad – příklad * Máme tedy náhodný výběr X1, X2,…,Xn i.i.d. z rozdělení Rs[0,θ], které ještě seřadíme podle velikosti: X(1), X(2),…,X(n). * * * Máme dvě zajímavé hodnoty: * * * * Uvažujeme dva odhady: Který je lepší? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Nestranný odhad – příklad * Máme tedy X1, X2,…,Xn, které seřadíme podle velikosti: X(1), X(2),…,X(n). * Máme dvě zajímavé hodnoty: * * * * * Uvažujeme dva odhady: Který je lepší? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Nestranný odhad – příklad * Máme tedy X1, X2,…,Xn, které seřadíme podle velikosti: X(1), X(2),…,X(n). * Máme dvě zajímavé hodnoty: * * * * * Uvažujeme dva odhady: Vítězem se stal odhad T2, jeho variabilita s rostoucím n rychleji klesá k 0. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Vztah vychýlení a variability odhadu * Odhady můžeme kombinací vychýlení a variability rozdělit (hypoteticky) do čtyř skupin. * * Význam není až tak v jednoduchých sumarizacích dat, ale spíš ve stochastickém modelování. Odhad neznámého parametru Skutečná hodnota neznámého parametru logo-IBA logomuni 3. Metoda maximální věrohodnosti logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Metoda maximální věrohodnosti * Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation“. * Máme n nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s hustotou . * Sdružená hustota odpovídající n pozorovaným hodnotám x1, x2,…, xn je: * Jaká? A proč? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Metoda maximální věrohodnosti * Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation“. * Máme n nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s hustotou . * Sdružená hustota odpovídající n pozorovaným hodnotám x1, x2,…, xn je: * * * * Sdružená hustota vyjadřuje(za předpokladu, že známe θ), jak moc je pravděpodobné, že pozorované hodnoty pochází z rozdělení s hustotou * Pointa metody maximální věrohodnosti: Dívat se na sdruženou hustotu jako na funkci θ a vybrat θ takové, aby výraz byl co největší (maximum). * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Věrohodnostní funkce * Zavádíme tzv. věrohodnostní funkci („likelihood function“): * * * Maximálně věrohodný odhad, značíme ho , je číslo, které maximalizuje věrohodnostní funkci, tedy * * * Výpočetně se jedná o řešení rovnice (rovnic): * * * Musíme si ještě ověřit, že se jedná o maximum – např. pomocí druhých derivací. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Logaritmus věrohodnostní funkce * Často je výhodnější (hlavně výpočetně jednodušší) maximalizovat logaritmus věrohodnostní funkce: * * * * Bude maximum pro věrohodnostní funkci i logaritmus věrohodnostní funkce stejné? Pokud ano, tak proč? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika ML odhad parametru λ Poissonova rozdělení * Máme n i.i.d. pozorování z Poissonova rozdělení: x1, x2,…, xn. * Sdružená hustota má tvar: * * * Věrohodnostní funkce má tvar: * * * Logaritmus věrohodnostní funkce má tvar: * * * Jak vypadá ? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika ML odhad parametru λ Poissonova rozdělení * Derivace logaritmu věrohodnostní funkce má tvar: * * * * Výsledkem je průměr: * * * * Je to maximum? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika ML odhad parametru μ normálního rozdělení * Máme n i.i.d. pozorování z normálního rozdělení: x1, x2,…, xn. * Sdružená hustota má tvar: * * * Logaritmus věrohodnostní funkce má tvar: * * * Parciální derivace logaritmu věrohodnostní funkce mají tvar: * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika ML odhad parametru μ normálního rozdělení * Výsledkem jsou následující odhady: logo-IBA logomuni 4. Srovnání průměru a mediánu logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Nesmyslné použití průměru u asymetrických dat * Chceme-li charakterizovat log-normální rozdělení z hlediska střední hodnoty, je použití průměru nesmyslné. Není totiž splněn model, pro který byl jako optimální odhad odvozen! průměr geometrický průměr = medián * Vhodnějším odhadem je medián a geometrický průměr (jsou teoreticky ekvivalentní pro log-normální data) * Geometrický průměr je průměr spočítaný na normálních datech, tedy po transformaci y = ln(x). * * Příklad: počty bílých krvinek. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Smysluplné použití průměru u asymetrických dat * Chceme-li charakterizovat log-normální rozdělení z hlediska celkového součtu pozorovaných hodnot, je použití průměru smysluplné. Jedná-li se totiž např. o spotřebu nějakého materiálu, alkoholu nebo peněz, průměr popisuje z hlediska celkového součtu spotřebu lépe. průměr geometrický průměr = medián * Příklad: plánování celkové spotřeby nějakého materiálu, alkoholu nebo peněz do budoucna. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Smysluplné použití průměru u symetrických dat * Pokud je splněn pravděpodobnostní model, tedy zejména normalita dat, je použití průměru na místě. * Průměr je konzistentní odhad – pro n → ∞ konverguje k θ podle pravděpodobnosti. Pro rostoucí n máme zaručeno, že se průměr přibližuje k θ. mean_median_N180_n500.jpeg mean_median_N180_n10.jpeg mean_median_N180_n50.jpeg průměr medián skutečná hodnota n = 10 n = 50 n = 500 logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Shrnutí – průměr vs. medián Výhody Nevýhody Průměr Využívá informace celého souboru dat Citlivý na odlehlá pozorování Jednoduché rozdělení pravděpodobnosti Omezené použití u asymetrických dat Medián Není citlivý na odlehlá pozorování Využívá informaci pouze jednoho pozorování Použití pro všechny typy dat Komplikované rozdělení pravděpodobnosti logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Shrnutí * Používejte průměr! * Ale vždy si ověřte předpoklad normality (nebo alespoň symetrie), případně Poissonova rozdělení dat! A taky se nezapomeňte podívat na odlehlé hodnoty! * Pokud si něčím nejste jistí, použijte i medián. * * Useknutý průměr – odhad, který je svými vlastnostmi mezi průměrem a mediánem, spočítáme ho tak, že „odsekneme“ m nebo m % minimálních a maximálních hodnot a ze zbytku spočítáme průměr.