logo-IBA logomuni Přednáška IV. Náhodná veličina, rozdělení pravděpodobnosti a reálná data * Náhodná veličina * Rozdělení pravděpodobnosti náhodných veličin * Normální rozdělení a rozdělení příbuzná * Transformace náhodných veličin esf-komplet-barva.jpg logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Opakování – popis dat * Co chceme u dat popsat? * Jak to můžeme udělat? logo-IBA logomuni 1. Náhodná veličina logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pojem náhodná veličina * Číselné vyjádření výsledku náhodného pokusu. Matematicky je to funkce, která každému elementárnímu jevu ω z Ω přiřadí hodnotu X(ω) z nějaké množiny možných hodnot. * * * Náhodná veličina se netýká pouze kvantitativních proměnných. Číselné vyjádření výsledku náhodného pokusu může popisovat i pohlaví. * * Chování náhodné veličiny lze popsat pomocí rozdělení pravděpodobnosti: * Funkce zadaná analyticky * Výčet možností a příslušných pravděpodobností * 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Význam náhodných veličin * Množina Ω často není známa (může být i nekonečná) a nejsme tak schopni ji popsat. Náhodná veličina převádí Ω na čísla, se kterými se pracuje lépe. * Neznáme-li Ω, nejsme schopni popsat ani X, ale jsme schopni ho pozorovat. ω1 R 0 R 0 x 1 P(A) Náhodná veličina X Pravděpodobnost P logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pravděpodobnostní chování náhodné veličiny * Pravděpodobnostní chování náhodné veličiny je jednoznačně popsáno tzv. rozdělením pravděpodobnosti náhodné veličiny . * * Rozdělením náhodné veličiny X definované na prostoru s pravděpodobností P rozumíme předpis, který jednoznačně určuje všechny pravděpodobnosti typu * * pro každou . * * Distribuční funkce * Hustota – spojité náhodné veličiny * Pravděpodobnostní funkce – diskrétní náhodné veličiny logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Opět vztah populace × vzorek * Rozdělení pravděpodobnosti představuje model cílové populace. * Pomocí vzorku (naměřených pozorování) se ptáme, jestli byl model správný – snažíme se z dat usuzovat na vlastnosti tohoto rozdělení pravděpodobnosti. * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Popis rozdělení pravděpodobnosti * Distribuční funkce popisuje rozdělení pravděpodobnosti kumulativním způsobem. * Hustota a pravděpodobnostní funkce popisují rozdělení pravděpodobnosti pro jednotlivé „body“ (respektive intervaly) na reálné ose. * * Distribuční funkce a hustota, respektive pravděpodobnostní funkce, jsou navzájem ekvivalentní, tedy známe-li jednu nepotřebujeme druhou. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Distribuční funkce * Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné ose. * * * Vlastnosti distribuční funkce? * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Distribuční funkce * Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné ose. * * * Vlastnosti distribuční funkce: 1.Neklesající 2.Zprava spojitá 3. 4. 5. * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Distribuční funkce logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Výběrová distribuční funkce * Distribuční funkce je teoretická záležitost, která definuje pravděpodobnostní model pro náhodnou veličinu X. Často neznáme její přesné vyjádření. * Výběrová distribuční funkce je charakteristika pozorovaných dat. Je odhadem teoretické distribuční funkce (je-li vzorek reprezentativní). * * Vyjádření: logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Výběrová distribuční funkce – příklad * Výška studentů 2. ročníku Matematické biologie logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Spojité a diskrétní náhodné veličiny * Náhodné veličiny dělíme dle podstaty na: * Spojité – mohou nabývat všech hodnot v daném intervalu. * Diskrétní – mohou nabývat nejvýše spočetně mnoha hodnot. * * Spojitou náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. hustota pravděpodobnosti, což je funkce taková, že platí: * * * Diskrétní náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. pravděpodobnostní funkce, což je funkce taková, že platí: * * 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika prob_fnc.jpg F(x) a f(x) a p(x) dist_fnc_N01.jpeg vyb_dist_fnc.jpeg hustota_N01.jpeg Spojitá náhodná veličina Diskrétní náhodná veličina logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Spojité a diskrétní náhodné veličiny - příklady * Spojité náhodné veličiny: * Medicína: * Biologie: * * * Diskrétní náhodné veličiny: * Medicína: * Biologie: logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Spojité a diskrétní náhodné veličiny - příklady * Spojité náhodné veličiny: * Medicína: výška, váha, krevní tlak, glykémie, čas do sledované události, … * Biologie: biomasa na m2, listová plocha, pH, koncentrace látek ve vodě, ovzduší, … * * Diskrétní náhodné veličiny: * Medicína: počet krvácivých epizod, počet hospitalizací, počet dní po operaci do odeznění bolesti, … * Biologie: počet zvířat na jednotku (plochu, objem), počet kolonií na misku, … logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Kvantilová funkce * Inverzní funkce k distribuční funkci, výsledkem není pravděpodobnost, ale číslo na reálné ose, které odpovídá určité pravděpodobnosti. * * Distribuční funkce * Kvantilová funkce * dist_fnc_N01.jpeg Spojitá náhodná veličina P x logo-IBA logomuni 2. Charakteristiky náhodných veličin logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co chceme u dat popsat? * Kvalitativní data – četnosti (absolutní i relativní) jednotlivých kategorií. * Kvantitativní data – těžiště a rozsah pozorovaných hodnot. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Charakteristiky náhodných veličin * Distribuční funkce, hustota a pravděpodobnostní funkce popisují chování náhodné veličiny sice kompletně, ale trochu neprakticky – složitě. * Jsou definovány dvě charakteristiky, které odráží vlastnosti rozdělení jedním číslem: střední hodnota a rozptyl. * * Střední hodnota je definována * pro spojitou náhodnou veličinu X s hustotou f(x) jako integrál (pokud existuje): * * * pro diskrétní náhodnou veličinu X s pravděpodobnostní funkcí p(x) jako součet: 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Charakteristiky náhodných veličin * Rozptyl je definován pro spojitou i diskrétní náhodnou veličinu X jako střední hodnota: * * Pro výpočet je používán vzorec: * * * * Nevýhoda rozptylu je, že není ve stejných jednotkách jako střední hodnota, proto se používá tzv. směrodatná odchylka – odmocnina z rozptylu. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Charakteristiky náhodných veličin * To, co nás zajímalo u pozorovaných dat má teoretický ekvivalent (ve smyslu pravděpodobnosti) ve formě charakteristik náhodných veličin: * Těžiště ≈ Střední hodnota Rozsah ≈ Rozptyl * * Těmto charakteristikám pak odpovídají parametry rozdělení pravděpodobnosti. * * Charakteristiky však mohou být i lehce zavádějící: náhodná veličina nemusí nabývat své střední hodnoty. Příklad: Náhodná veličina X nabývá hodnot −1 a 1, obou s pravděpodobností 0,5. Její střední hodnota je 0! logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Význam střední hodnoty * Jedná se o formu váženého průměru možných hodnot na základě jejich pravděpodobností. * * Uvažujme diskrétní náhodnou veličinu * X = {x1, …, xk} * P(X=x1) = p1,…, P(X=xk) = pk * * Pak střední hodnota má tvar: Jednotlivé možné hodnoty Váhu pro jednotlivé hodnoty hraje jejich pravděpodobnost 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika K čemu všechny ty funkce a čísla vlastně jsou? * Popis vlastností cílové populace – na základě pozorovaných dat (histogram, box plot, popisné statistiky) jsme schopni usuzovat na charakter rozdělení pravděpodobnosti sledované veličiny. Dokonce jsme schopni otestovat míru shody s teoretickým rozdělením. * * Srovnání vlastností cílové populace/populací – na základě pozorovaných dat a našich předpokladů o teoretickém modelu (hypotéz) jsme schopni pomocí statistických testů srovnávat vlastnosti jedné nebo více cílových populací. * * Predikce vlastností cílové populace – nevyvrátíme-li na základě pozorovaných dat platnost teoretického modelu, jsme schopni se ptát, jak a s jakou pravděpodobností se bude cílová populace v budoucnu chovat. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Příklad – srovnání * Pacienti s hypertenzí, léčení ACE-I nebo AIIA. * * Teď předbíháme: * Vizualizace a popis → zhodnotíme tvar rozdělení a přítomnost odlehlých hodnot. * Testem můžeme ověřit normalitu hodnot. * Testem můžeme ověřit rovnost rozptylů. * Rozhodneme o aplikovatelnosti jednotlivých testů. TKs v sedě (mmHg) B ACE-I B AIIA p-hodnota A vs. B Čas 0 – medián 155 155 0,929 Čas 12 měsíců - medián 135 135 p-hodnota 0 vs. 12 <0,001 <0,001 Pacienti s ACE-I Pacienti s AIIA N = 1 416 N = 1 394 0 12 0 12 logo-IBA logomuni 3. Normální rozdělení pravděpodobnosti a rozdělení z něj odvozená logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Normální rozdělení pravděpodobnosti * Klíčové rozdělení pravděpodobnosti. Jak pro teoretickou statistiku, tak pro biostatistiku. * Označení „normální“ neznamená, že by bylo normálnější než ostatní rozdělení. * Popisuje proměnné, jejichž hodnoty se symetricky shlukují kolem střední hodnoty. Rozptyl kolem střední hodnoty je dán aditivním vlivem mnoha „slabě působících“ faktorů. * Příklad: výška člověka, krevní tlak logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Normální rozdělení pravděpodobnosti * Je kompletně popsáno dvěma parametry: * μ – střední hodnota, tedy E(X) * σ2 – rozptyl, tedy D(X) * Označení: N(μ, σ2) * * Hustota pravděpodobnosti: * * * Čím bychom mohli jednotlivé parametry normálního rozdělení odhadnout? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Normální rozdělení dle hodnot parametrů μ a σ2 Normal_Distribution_density.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Normální rozdělení pravděpodobnosti * Normalita je klíčovým předpokladem řady statistických metod – zejména testů a modelů. * Není-li splněna podmínka normality hodnot, je špatně celý model se kterým daná metoda pracuje, což vede k neinterpretovatelným závěrům. * Její ověření je tak stejně důležité jako výběr správného testu. * Pro ověření normality existuje řada testů a grafických metod. non_norm2.jpg non_norm1.jpg 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Standardizované normální rozdělení * Jakékoliv normální rozdělení může být převedeno (zatím schválně neříkám transformováno) na tzv. standardizované normální rozdělení: * * * * Hustota pravděpodobnosti: * * * Klíčové rozdělení řady testů. * Výhoda je, že všechny hodnoty distribuční i kvantilové funkce jsou tabelovány a obsaženy ve všech dostupných softwarech. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pravidlo ±3 sigma * U normálního rozdělení lze vyčíslit procento hodnot, které by se měly vyskytovat v rozmezí ± x násobku směrodatné odchylky od střední hodnoty. * Lze říci, že v rozmezí μ ± 3σ by se mělo vyskytovat přes 99,5 % všech hodnot. 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pravidlo ±3 sigma – k čemu to je? * Lze ho použít pro jednoduché (ale pouze orientační) ověření normality rozdělení pozorovaných dat. * Příklad 1: Hladina sérového albuminu u 216 pacientů s cirhózou jater. * Sumarizace pozorovaných hodnot: 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pravidlo ±3 sigma – k čemu to je? * Příklad 2: Simulovaná data, 50 hodnot z N(0,1) + 1 odlehlá hodnota (200). * Sumarizace pozorovaných hodnot: example_outlier_in_N.jpeg logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pravidlo ±3 sigma – k čemu to je? * Pravidlo 3 sigma můžeme použít pro identifikaci odlehlých hodnot. * Pravidlo 3 sigma můžeme použít pro orientační ověření normality dat. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Chí-kvadrát rozdělení * Vzniká jako součet druhých mocnin k nezávislých náhodných veličin se standardizovaným normálním rozdělením, N(0,1). Konstanta k je nazývána počet stupňů volnosti. * * * * Velký význam v teoretické statistice: * Výpočet intervalu spolehlivosti pro rozptyl * Testování hypotéz o nezávislosti kvalitativních dat * Testy dobré shody Chi-square_distributionPDF.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Studentovo t rozdělení * Charakterizuje rozdělení průměru jako odhadu střední hodnoty veličiny s normálním rozdělením, v případě, že neznáme rozptyl (což je téměř vždy). * Vzniká jako podíl dvou nezávislých veličin, jedné s rozdělením N(0,1) a druhé s rozdělením χ2(k). Parametrem t rozdělení je opět počet stupňů volnosti k. * Lze ho chápat jako aproximaci normálního rozdělení pro malé vzorky, pro velké velikosti souborů konverguje k normálnímu rozdělení. * Teoretický základ t testu. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Log-normální rozdělení * Náhodná veličina Y má log-normální rozdělení, když X=ln(Y) má normální rozdělení. A naopak, když X má normální, pak Y=exp(X) má log-normální. * * Hustota: * * Normální rozdělení – aditivní efekt faktorů * Log-normální rozdělení – multiplikativní efekt faktorů * * Řada jevů v přírodě se řídí log-normálním rozdělením: délka inkubační doby infekčního onemocnění, abundance druhů, řada krevních parametrů (např. sérový bilirubin u pacientů s cirhózou), počet bakteriálních buněk v daném objemu,… logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Binomické rozdělení * Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém experimentu je stejná pravděpodobnost výskytu události a je p = θ. * * Pravděpodobnostní funkce: * * * * Základ binomických testů pro srovnávání výskytu sledovaných událostí v populaci nebo mezi populacemi. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Poissonovo rozdělení * Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (parametr λ). * Jedná se o zobecnění binomického rozdělení pro a . * * Pravděpodobnostní funkce: * * Střední hodnota, rozptyl: * * Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních komplikací během určitého časového intervalu po výkonu. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Poissonovo rozdělení – vliv λ logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Exponenciální rozdělení * Spojité rozdělení, které popisuje délky časových intervalů mezi jednotlivými událostmi Poissonova procesu. Popisuje tedy časový interval mezi událostmi, když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (parametr λ). * * Hustota: * Střední hodnota, rozptyl: * * Význam v analýze přežití, je to „nejjednodušší“ modelové rozdělení pro délku doby do výskytu sledované události – předpokládá totiž konstantní intenzitu (systém nemá paměť). * Zobecněním jsou další rozdělení: Weibullovo, Gamma. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Bimodální rozdělení * Představuje většinou problém, neboť se zřejmě jedná o směs dvou souborů s unimodálním rozdělením. * Bimodální rozdělení má např. tento tvar: example_bimodal.jpeg muži ženy logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Existuje ±3 sigma i u asymetrických rozdělení? * Pro nenormální rozdělení existuje pomůcka v podobě obecného pravidla – Čebyševovy nerovnosti: Máme-li náhodnou veličinu X se střední hodnotou μ a a konečným rozptylem σ2, pak pro libovolné reálné číslo k > 0 platí: logo-IBA logomuni 4. Transformace náhodných veličin logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Transformace náhodné veličiny * Transformací náhodné veličiny X rozumíme aplikaci matematické funkce g tak, že vzniká nová náhodná veličina (tzv. transformovaná) Y = g(X). * * Nová veličina nabývá nových hodnot → má také jiné rozdělení pravděpodobnosti → je třeba ho najít (hustotu, pravděpodobnostní funkci). * * S transformací se mění škála – mění se i interpretace „vzdáleností“ mezi jednotlivými hodnotami. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Transformace náhodné veličiny * Spojitá veličina: chceme najít hustotu fY(y). * * * * * * * * * Diskrétní veličina: chceme najít pravděpodobnostní funkci pY(y). logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Transformace náhodné veličiny – příklad * Máme rozdělení náhodné veličiny X dáno tabulkou a chceme najít rozdělení pravděpodobnosti transformované náhodné veličiny Y = X2 – 1. x -2 -1 0 1 2 p(x) 0,1 0,25 0,15 0,3 0,2 x -2 -1 0 1 2 p(x) 0,1 0,25 0,15 0,3 0,2 y 3 0 -1 0 3 p(y) 0,3 0,55 0,15 - - logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Význam transformací pro zpracování dat * Teoretické vlastnosti transformovaných náhodných veličin nám dávají nástroj pro práci s pozorovanými daty. * * Transformace můžeme použít pro následující cíle: 1.Normalizaci pozorovaných hodnot 2.Standardizaci normálních hodnot 3.Stabilizaci rozptylu pozorovaných hodnot – teď vynecháme 4.Lepší interpretaci pozorovaných hodnot logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika 1. Normalizace pozorovaných hodnot * Normalita pozorovaných hodnot je silný předpoklad řady statistických metod, který musí být splněn, aby výsledky byly interpretovatelné! * Hodnocení normality dat – vizuálně, na základě testu. * Nenormální data je nutné transformovat nebo použít test bez předpokladu normality. * * Logaritmická transformace Y = ln(X) * Odmocninová transformace Y = sqrt(X) * Box-Coxova transformace logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika 2. Standardizace normálních hodnot * Standardizace je transformace náhodné veličiny s N(μ,σ2) na N(0,1). * Důvod: řada statistických metod byla odvozena pro standardizované normální rozdělení, N(0,1). Děláme to tedy opět kvůli lepší možnosti hodnocení dat. * * Teoretická standardizace: * * Praktická standardizace: * * Obrázek: standardizace je převod „modré“, „zelené“ a „okrové“ na „červenou“. Normal_Distribution_density.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika 4. Lepší interpretace pozorovaných hodnot * Někdy se nám hodí transformovat pozorovaná data kvůli lepší interpretaci. * Příklad: Microarray experiment se dvěma vzorky, měříme intenzitu genu XY v jedné tkáni (hodnota intenzity AXY) a v druhé tkáni (hodnota intenzity BXY). * Následně hodnoty převádíme na logaritmus se základem 2 jejich podílu: * * * * Jaké to má výhody?