logo-IBA logomuni Přednáška VI. Intervalové odhady * Motivace * Směrodatná odchylka a směrodatná chyba * Centrální limitní věta * Intervaly spolehlivosti esf-komplet-barva.jpg logo-IBA logomuni 1. Motivace logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Spolehlivost bodového odhadu 600px-Icon-Warning-Red.svg.png R 0 x1 tiroles-icon.png african-icon.png arabian-icon.png esquimal-icon.png russian-icon.png R 0 x2 earth.gif R 0 x Umíme-li „změřit“ celou cílovou populaci, nepotřebujeme interval spolehlivosti, protože jsme schopni odhadnout sledovaný parametr přesně – v praxi je tato situace nereálná. R 0 x1 R 0 x2 ( ) ( ) Celá cílová populace Výběr číslo 2 Výběr číslo 1 Pracujeme-li s výběrem z cílové populace, je třeba na základě variability pozorovaných dat spočítat tzv. interval spolehlivosti pro bodový odhad. Interval spolehlivosti na základě výběru číslo 1. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Intervalový odhad * Bodový odhad je prvním krokem ve statistickém popisu dat. * * Co nám říká jedno číslo? Studie 1 může publikovat číslo x1, studie 2 číslo x2. Které je správnější, lepší, přesnější? * * Bodový odhad je sám o sobě nedostatečný pro popis parametru rozdělení pravděpodobnosti náhodné veličiny. * * Zajímá nás přesnost (spolehlivost) bodového odhadu. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni 2. Variabilita pozorování a variabilita výběrového průměru logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Populace a náhodná veličina * Cílová populace – skupina subjektů, o které chceme zjistit nějakou informaci. * Realizujeme-li náhodně výběr z cílové populace, dostaneme výběrovou populaci (experimentální vzorek). * * Znak X = náhodná veličina X – vlastnost, která nás zajímá. * Realizace náhodné veličiny – reálné číslo, pozorovaná hodnota na vybraném subjektu. * * Náhodný výběr – množina n nezávislých náhodných veličin se stejným rozdělením: X1, X2,…, Xn. * Realizace náhodného výběru – reálná čísla, hodnoty pozorované na výběrové populaci. ω1 R 0 x Náhodná veličina X logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pravděpodobnostní chování náhodné veličiny * F(x), f(x) a p(x) – popisují chování náhodné veličiny úplně, ale složitě. * Dvě charakteristiky odráží vlastnosti rozdělení jedním číslem: střední hodnota a rozptyl. Odmocnina z rozptylu je směrodatná odchylka. * * * Platí následující: * Jednotlivé realizace náhodné veličiny vykazují variabilitu (dle SD(X)). * Jakákoliv statistika (např. průměr) je jako transformace náhodných veličin také náhodnou veličinou. Má tedy i rozdělení pravděpodobnosti. * Jednotlivé realizace statistiky nad různými náhodnými výběry také vykazují variabilitu (opět úměrnou SD(X)). logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co je zajímavé – výběrový průměr * Rozdělení pravděpodobnosti výběrového průměru tím méně variabilní čím více pozorování je v průměru zahrnuto. * * * Rozdělení pravděpodobnosti výběrového průměru se s rostoucím n přestává podobat rozdělení původních dat a začíná se podobat rozdělení normálnímu. * * * Proč? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co je zajímavé – výběrový průměr * Rozdělení pravděpodobnosti výběrového průměru tím méně variabilní čím více pozorování je v průměru zahrnuto → plyne z vlastností rozptylu transformované náhodné veličiny. * * Rozdělení pravděpodobnosti výběrového průměru se s rostoucím n přestává podobat rozdělení původních dat a začíná se podobat rozdělení normálnímu → plyne z centrální limitní věty. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Charakteristiky výběrového průměru * Máme posloupnost X1, …, Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu μ a rozptyl σ2. Pro odhad, respektive statistiku, se tomuto výrazu říká směrodatná chyba nebo standardní chyba („standard error“) a značí se SE. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad – výběrový průměr ω1 R 0 x Náhodná veličina X R 0 x3 x1 x2 x5 x4 Náhodný výběr X1, X2,…, Xn Výběrový průměr X R 0 x logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Shrnutí * Směrodatná odchylka (SD) není směrodatná chyba popisné statistiky (SE)! * * Směrodatná odchylka (SD) je odrazem variability náhodné veličiny ve sledované populaci. * * Směrodatná chyba (SE) je odrazem přesnosti popisné statistiky jako odhadu střední hodnoty náhodné veličiny. * * Pozor na rozdíl mezi SD a SE v článcích a knihách – tabulkách a grafech! 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad – výška člověka * Náhodná veličina bude výška člověka: , tedy uvažujme střední hodnotu 175 cm a směrodatnou odchylku 15 cm. Jak se chovají průměry pro náhodné výběry o velikosti n = 10, n = 100 a n = 1000? * Kód v R: x <- rep(0, 100) # vytvořím si vektor pro ukládání průměrů for (i in 1:100) { pom <- rnorm(10, 175, 15) x[i] <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=10 hist(x, breaks=10, xlim=c(160,190)) # vykreslení histogramu pro výběrové průměry pro n=10 for (i in 1:100) { pom <- rnorm(100, 175, 15) x[i] <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=100 hist(x, breaks=10, xlim=c(160,190)) # vykreslení histogramu pro výběrové průměry pro n=100 for (i in 1:100) { pom <- rnorm(1000, 175, 15) x[i] <- mean(pom)} # cyklus pro výpočet výběrových průměrů pro n=1000 hist(x, breaks=10, xlim=c(160,190)) # vykreslení histogramu pro výběrové průměry pro n=1000 logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad – výška člověka hist_mean_n1000.jpeg hist_mean_n10.jpeg hist_mean_n100.jpeg Výběrové průměry ze vzorku n = 10 Výběrové průměry ze vzorku n = 100 Výběrové průměry ze vzorku n = 1000 * Původní pozorování mají rozsah hodnot zhruba od 120 cm do 220 cm. Kde se pohybují jednotlivé průměry? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad – výška člověka hist_mean_n1000.jpeg hist_mean_n10.jpeg hist_mean_n100.jpeg Výběrové průměry ze vzorku n = 10 Výběrové průměry ze vzorku n = 100 Výběrové průměry ze vzorku n = 1000 * Původní pozorování mají rozsah hodnot zhruba od 120 cm do 220 cm. Kde se pohybují jednotlivé průměry? od 160 cm do 190 cm od 170 cm do 180 cm od 173 cm do 177 cm logo-IBA logomuni 3. Centrální limitní věta logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Připomenutí: standardizace normálního rozdělení * Standardizace je transformace náhodné veličiny s N(μ,σ2) na N(0,1). * Důvod: řada statistických metod byla odvozena pro standardizované normální rozdělení, N(0,1). Děláme to tedy opět kvůli lepší možnosti hodnocení dat. * * Teoretická standardizace náhodné veličiny: * * Praktická standardizace naměřených hodnot: * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Centrální limitní věta * Klíčová věta umožňující sestrojení intervalových odhadů. * * Máme posloupnost X1, …, Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu μ a rozptyl σ2. * * Pak platí, že pro má suma Xi přibližně normální rozdělení pravděpodobnosti. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Centrální limitní věta * Máme posloupnost X1, …, Xn nezávislých, stejně rozdělených náhodných veličin, které mají konečnou střední hodnotu μ a rozptyl σ2. Pak platí, že pro má výběrový průměr přibližně normální rozdělení se střední hodnotou μ a rozptylem σ2/n. * * Tedy má přibližně standardizované normální rozdělení pravděpodobnosti: logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika CLV – zjednodušená interpretace * Pokud je rozdělení pravděpodobnosti náhodné veličiny normální, pak je i rozdělení průměru pozorovaných hodnot normální (a to i pro n = 1). * * Pokud rozdělení pravděpodobnosti náhodné veličiny není normální, pak je rozdělení průměru pozorovaných hodnot přibližně normální, když n je dostatečně velké ( ). * * „Dostatečně velké“ znamená > 30 pro rozdělení podobná normálnímu a > 100 pro rozdělení nepodobná normálnímu. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co je super… * Centrální limitní věta funguje i když rozdělení původní náhodné veličiny není normální rozdělení pravděpodobnosti. A dokonce i když není spojité! logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad – binomické rozdělení * Chceme sledovat s jakou přesností lze odhadnout podíl hypertoniků v dospělé populaci ČR. * * Předpokládejme, že skutečný podíl dospělých s hypertenzí je 0,2. * * Náhodná veličina X: osoba trpí / netrpí hypertenzí. * * Pravděpodobnostní funkce X (alternativní rozdělení) prob_fnc_binom.jpeg Ne Ano Hypertenze logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad – binomické rozdělení * Náhodná veličina S bude součet Xi, i = 1, …, n. * Náhodná veličina Y bude definována jako S/n. * * * * * Jak se chová Y pro náhodné výběry o velikosti n = 10, n = 100 a n = 1000? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad – binomické rozdělení p = 0,2 p = 0,2 p = 0,2 1000 realizací veličiny Y při n = 10 1000 realizací veličiny Y při n = 100 1000 realizací veličiny Y při n = 1000 logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co když ale n nejde do nekonečna? * Není-li velikost vzorku n dostatečně velká, nelze rozdělení výběrových průměrů považovat za normální. * * Aproximace Studentovým t rozdělením (viz přednáška o jednotlivých rozdělení pravděpodobnosti: Lze ho chápat jako aproximaci normálního rozdělení pro malé vzorky, pro velké velikosti souborů konverguje k normálnímu rozdělení). * logo-IBA logomuni 4. Intervalové odhady logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co je super … pokračování * Centrální limitní věta mi říká, že rozdělení pravděpodobnosti výběrového průměru můžu při dostatečném n aproximovat normálním rozdělením. * * Když provedu standardizaci, tak dokonce standardizovaným normálním rozdělením. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Interval spolehlivosti * Princip vytvoření intervalového odhadu pro výběrový průměr, respektive konstrukce intervalu spolehlivosti pro výběrový průměr, je shodný s teoretickým pozadím pravidla ± 3σ. 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Kvantily standardizovaného normální rozdělení * Oblast, kde se náhodná veličina se standardizovaným normálním rozdělením realizuje s pravděpodobností 1 – α lze vyjádřit pomocí následujícího vztahu: 1 - α α / 2 α / 2 90 % 95 % 99 % logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Kvantily standardizovaného normální rozdělení z0,025 = -1,96 z0,050 = -1,64 1,96 = z0,975 1,64 = z0,950 z0,005 = -2,58 2,58 = z0,995 1 - α α / 2 α / 2 90 % 95 % 99 % Pravděpodobnosti Kvantily logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika 100(1–α)% interval spolehlivosti pro μ * Máme náhodný výběr X1, X2, …, Xn z normálního rozdělení. * Budeme předpokládat, že σ známe! * Z předchozího snímku víme, že platí: * * * Když si rozepíšeme a upravíme výraz na levé straně, dostaneme: * * * * * 100(1–α)% IS pro μ má tvar: logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika 100(1–α)% interval spolehlivosti pro μ * Co ten vzorec znamená? * * * * * * * * Tedy zjednodušeně: logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Interpretace intervalu spolehlivosti * Poloha neznámého parametru je konstantní (jsme-li frekventisti)! * * 95% interval spolehlivosti má následující interpretaci: * Pokud bychom opakovaně vybírali skupiny subjektů o stejné velikosti (n) a počítali výběrový průměr s 95% IS, pak 95 % těchto intervalů spolehlivosti neznámý parametr obsahuje a 5 % ho neobsahuje. Tedy 95% IS obsahuje neznámý parametr s rizikem α. R 0 μ x1 ( ) d1 h1 x2 ( ) d2 h2 x3 ( ) d3 h3 x100 ( ) d100 h100 x99 ( ) d99 h99 cca 95 % cca 5 % x ( ) d h x ( ) d h logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co když neznáme σ? * V předchozím případě jsme předpokládali, že známe přesnou hodnotu rozptylu / směrodatné odchylky. To je v praxi nereálné! * Musíme použít jinou statistiku s jiným rozdělením pravděpodobnosti. * * Čím bychom mohli nahradit σ? * K čemu to povede? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co když neznáme σ? * Musíme použít jinou testovou statistiku s jiným rozdělením pravděpodobnosti. * * Čím bychom mohli nahradit σ? * Logické je použít výběrovou směrodatnou odchylku s. * Náhrada ale není úplně jednoduchá – není to dosazení s za σ. * * K čemu to bude? * Pomocí s2 vytvoříme statistiku s chí-kvadrát rozdělením (χ2) – tu pak použijeme pro vytvoření statistiky se Studentovým t rozdělením (viz přednáška o jednotlivých rozděleních pravděpodobnosti): logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co když neznáme σ? * Lze ukázat, že statistika * * Použijeme ještě standardizovanou normální veličinu * * A obě dohromady použijeme pro vytvoření T statistiky: * * * * Z toho plyne tvar 100(1–α)% intervalu spolehlivosti pro μ v případě, že neznáme hodnotu σ: logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad – konstrukce intervalu spolehlivosti * Chceme sestrojit 95% IS pro odhad střední hodnoty systolického tlaku studentů vysokých škol. naměřené hodnoty z tabulek logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Šířka intervalu spolehlivosti * Co ovlivňuje šířku intervalu spolehlivosti? * * * * 1.Velikost vzorku – s rostoucí velikostí vzorku je IS užší (máme více informace a odhad je přesnější), zároveň se kvantily t rozdělení blíží kvantilům standardizovaného normálního rozdělení. 2.Variabilita náhodné veličiny 3.Spolehlivost, kterou požadujeme logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Šířka intervalu spolehlivosti * Co ovlivňuje šířku intervalu spolehlivosti? * * * * 1.Velikost vzorku 2.Variabilita náhodné veličiny – čím náhodná veličina vykazuje větší variabilitu, tím je IS pro odhad střední hodnoty širší, tedy odhad je méně přesný. 3.Spolehlivost, kterou požadujeme logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Šířka intervalu spolehlivosti * Co ovlivňuje šířku intervalu spolehlivosti? * * * * 1.Velikost vzorku 2.Variabilita náhodné veličiny 3.Spolehlivost, kterou požadujeme – chceme-li mít větší jistotu, že náš IS pokrývá neznámou střední hodnotu, IS musí být samozřejmě širší, stačí-li nám menší spolehlivost, bude užší. Standardně se používá 95% IS (ale také 90% anebo 99%) logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Poznámka 1 * Lze vytvořit i IS pro odhad parametru σ, který je založen na již zmíněné statistice K. * * * Lze vytvořit i IS pro odhad podílu dvou parametrů σ1 a σ2 (pomocí F statistiky). Ten lze použít pro hodnocení homogenity rozptylů dvou výběrů, která je jedním z předpokladů v testování hypotéz. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Poznámka 2 * Velmi důležitý je i IS pro odhad střední hodnoty rozdílu dvou náhodných veličin. * * * * * Známe-li σ1 a σ2, provedeme standardizaci a pak odvodíme 100(1-α)% IS: * * * Neznáme-li σ1 a σ2, použijeme statistiky K1 a K2, abychom se zbavili σ1 a σ2, výsledná statistika má opět Studentovo t rozdělení. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad * Radiofrekvenční ablace tkáně slinivky břišní u prasat. Sledujeme vliv typu chlazení okolních struktur (A – žádné, B – průplach vodou) na největší rozměr nekrózy. Zajímá nás rozdíl v efektu obou typů chlazení a jeho 95% IS. * * * * Dosadíme do vzorce s použitím příslušného t kvantilu: logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Poznámka 3 * Interval spolehlivosti počítá pouze s variabilitou danou náhodným výběrem, nepočítá se zdroji systematického zkreslení. * * Příklady: * Měření krevního tlaku může být systematicky zkresleno starým měřidlem („technical bias“). * Měření krevního tlaku může být systematicky zkresleno tím, že se do studie přihlásí pouze určitá skupina osob („selection bias“).