Přednáška IV. Náhodná veličina, rozdělení pravděpodobnosti a reálná data Náhodná veličina Rozdělení pravděpodobnosti náhodných veličin Normální rozdělení a rozdělení příbuzná Transformace náhodných veličin Tomáš Pavlík Biostatistika Opakování – typy dat Jaké znáte typy dat? Uveďte příklady… Tomáš Pavlík Biostatistika Opakování – popis dat Co chceme u dat popsat? Jak to můžeme udělat? Tomáš Pavlík Biostatistika Opakování – který histogram je správný a proč? Chceme pomocí histogramu vykreslit počty zraněných při automobilových haváriích na předměstí Londýna v roce 1985. Data máme zadána jako počty v daných věkových kategoriích. 1. Náhodná veličina Tomáš Pavlík Biostatistika Pojem náhodná veličina Číselné vyjádření výsledku náhodného pokusu. Matematicky je to funkce, která každému elementárnímu jevu ω z Ω přiřadí hodnotu X(ω) z nějaké množiny možných hodnot. Náhodná veličina se netýká pouze kvantitativních proměnných. Číselné vyjádření výsledku náhodného pokusu může popisovat i pohlaví. Chování náhodné veličiny lze popsat pomocí rozdělení pravděpodobnosti: Funkce zadaná analyticky Výčet možností a příslušných pravděpodobností RX →Ω: Tomáš Pavlík Biostatistika Význam náhodných veličin Množina Ω často není známa (může být i nekonečná) a nejsme tak schopni ji popsat. Náhodná veličina převádí Ω na čísla, se kterými se pracuje lépe. Neznáme-li Ω, nejsme schopni popsat ani X, ale jsme schopni ho pozorovat. Základní prostor Ω Jev A ω1 R0R0 x1P(A) Náhodná veličina XPravděpodobnost P Tomáš Pavlík Biostatistika Pravděpodobnostní chování náhodné veličiny Pravděpodobnostní chování náhodné veličiny je jednoznačně popsáno tzv. rozdělením pravděpodobnosti náhodné veličiny . Rozdělením náhodné veličiny X definované na prostoru s pravděpodobností P rozumíme předpis, který jednoznačně určuje všechny pravděpodobnosti typu pro každou . Distribuční funkce Hustota – spojité náhodné veličiny Pravděpodobnostní funkce – diskrétní náhodné veličiny ))(:()()( BXPBXPBP iiX ∈Ω∈=∈= ωω RB ⊂ Tomáš Pavlík Biostatistika Opět vztah populace × vzorek Rozdělení pravděpodobnosti představuje model cílové populace. Pomocí vzorku (naměřených pozorování) se ptáme, jestli byl model správný – snažíme se z dat usuzovat na vlastnosti tohoto rozdělení pravděpodobnosti. Hypotéza Model cílové populace Experimentální vzorek Ověření hypotézy na základě dat Tomáš Pavlík Biostatistika Popis rozdělení pravděpodobnosti Distribuční funkce popisuje rozdělení pravděpodobnosti kumulativním způsobem. Hustota a pravděpodobnostní funkce popisují rozdělení pravděpodobnosti pro jednotlivé „body“ (respektive intervaly) na reálné ose. Distribuční funkce a hustota, respektive pravděpodobnostní funkce, jsou navzájem ekvivalentní, tedy známe-li jednu nepotřebujeme druhou. Tomáš Pavlík Biostatistika Distribuční funkce Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné ose. Vlastnosti distribuční funkce? ))(:()()( xXPxXPxF ii ≤Ω∈=≤= ωω Tomáš Pavlík Biostatistika Distribuční funkce Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné ose. Vlastnosti distribuční funkce: 1. Neklesající 2. Zprava spojitá 3. 4. 5. 1)(0 ≤≤ xF ))(:()()( xXPxXPxF ii ≤Ω∈=≤= ωω ∞→→ −∞→→ xxF xxF pro1)( pro0)( Tomáš Pavlík Biostatistika Distribuční funkce )(xFy = 1x 2x x )( 1xF )( 2xF y )( 21 xXx ≤< )( 21 xXxP ≤< Tomáš Pavlík Biostatistika Distribuční funkce – příklad Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců. Jak vypadá distribuční funkce X? Tomáš Pavlík Biostatistika Distribuční funkce – příklad Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců. Jak vypadá distribuční funkce X? X = {0, 1, 2, 3, 4, 5} P(0) = 1 / 32 P(1) = 5 / 32 P(2) = 10 / 32 P(3) = 10 / 32 P(4) = 5 / 32 P(5) = 1 / 32 Tomáš Pavlík Biostatistika Výběrová distribuční funkce Distribuční funkce je teoretická záležitost, která definuje pravděpodobnostní model pro náhodnou veličinu X. Často neznáme její přesné vyjádření. Výběrová distribuční funkce je charakteristika pozorovaných dat. Je odhadem teoretické distribuční funkce (je-li vzorek reprezentativní). Vyjádření: ∑= ≤= ≤ = n i i i n xxI nn xx xF 1 )( 1)(# )( Tomáš Pavlík Biostatistika Výběrová distribuční funkce – příklad Výška studentů 2. ročníku Matematické biologie Tomáš Pavlík Biostatistika Spojité a diskrétní náhodné veličiny Náhodné veličiny dělíme dle podstaty na: Spojité – mohou nabývat všech hodnot v daném intervalu. Diskrétní – mohou nabývat nejvýše spočetně mnoha hodnot. Spojitou náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. hustota pravděpodobnosti, což je funkce taková, že platí: Diskrétní náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. pravděpodobnostní funkce, což je funkce taková, že platí: ∫ ∞− = x XX dtxfxF )()( ∑∑ ≤≤ === xtxt XX tXPtpxF )()()( Tomáš Pavlík Biostatistika F(x) a f(x) a p(x) Spojitá náhodná veličina Diskrétní náhodná veličina )20( ≤< XP )20( ≤< XP )3( =XP Tomáš Pavlík Biostatistika Spojité a diskrétní náhodné veličiny - příklady Spojité náhodné veličiny: Medicína: výška, váha, krevní tlak, glykémie, čas do sledované události, … Biologie: biomasa na m2, listová plocha, pH, koncentrace látek ve vodě, ovzduší, … Diskrétní náhodné veličiny: Medicína: počet krvácivých epizod, počet hospitalizací, počet dní po operaci do odeznění bolesti, … Biologie: počet zvířat na jednotku (plochu, objem), počet kolonií na misku, … Tomáš Pavlík Biostatistika Kvantilová funkce Inverzní funkce k distribuční funkci, výsledkem není pravděpodobnost, ale číslo na reálné ose, které odpovídá určité pravděpodobnosti. Distribuční funkce Kvantilová funkce )()( xXPxF ≤= )())(( 11 pFxXPFxp −− =≤= Spojitá náhodná veličina P x 2. Charakteristiky náhodných veličin Tomáš Pavlík Biostatistika Co chceme u dat popsat? Kvalitativní data – četnosti (absolutní i relativní) jednotlivých kategorií. Kvantitativní data – těžiště a rozsah pozorovaných hodnot. Tomáš Pavlík Biostatistika Charakteristiky náhodných veličin Distribuční funkce, hustota a pravděpodobnostní funkce popisují chování náhodné veličiny sice kompletně, ale trochu neprakticky – složitě. Jsou definovány dvě charakteristiky, které odráží vlastnosti rozdělení jedním číslem: střední hodnota a rozptyl. Střední hodnota je definována pro spojitou náhodnou veličinu X s hustotou f(x) jako integrál (pokud existuje): pro diskrétní náhodnou veličinu X s pravděpodobnostní funkcí p(x) jako součet: ∑∈ == Rx xxpXE )()( µ ∫ ∞ ∞− == dxxfxXE )()( µ Tomáš Pavlík Biostatistika Charakteristiky náhodných veličin Rozptyl je definován pro spojitou i diskrétní náhodnou veličinu X jako střední hodnota: Pro výpočet je používán vzorec: Nevýhoda rozptylu je, že není ve stejných jednotkách jako střední hodnota, proto se používá tzv. směrodatná odchylka – odmocnina z rozptylu. 2222 222 )()()()()(2)( ))()(2())(()( XEXEXEXEXEXE XEXEXXEXEXEXD −=+−= +−=−= 22 ))(()( XEXEXD −== σ Tomáš Pavlík Biostatistika Charakteristiky náhodných veličin To, co nás zajímalo u pozorovaných dat má teoretický ekvivalent (ve smyslu pravděpodobnosti) ve formě charakteristik náhodných veličin: Těžiště ≈ Střední hodnota Rozsah ≈ Rozptyl Těmto charakteristikám pak odpovídají parametry rozdělení pravděpodobnosti. Charakteristiky však mohou být i lehce zavádějící: náhodná veličina nemusí nabývat své střední hodnoty. Příklad: Náhodná veličina X nabývá hodnot −1 a 1, obou s pravděpodobností 0,5. Její střední hodnota je 0! Tomáš Pavlík Biostatistika Význam střední hodnoty Jedná se o formu váženého průměru možných hodnot na základě jejich pravděpodobností. Uvažujme diskrétní náhodnou veličinu X = {x1, …, xk} P(X=x1) = p1,…, P(X=xk) = pk Pak střední hodnota má tvar: ∑= == k i ii xpxXE 1 )()( µ Jednotlivé možné hodnoty Váhu pro jednotlivé hodnoty hraje jejich pravděpodobnost Tomáš Pavlík Biostatistika K čemu všechny ty funkce a čísla vlastně jsou? Popis vlastností cílové populace – na základě pozorovaných dat (histogram, box plot, popisné statistiky) jsme schopni usuzovat na charakter rozdělení pravděpodobnosti sledované veličiny. Dokonce jsme schopni otestovat míru shody s teoretickým rozdělením. Srovnání vlastností cílové populace/populací – na základě pozorovaných dat a našich předpokladů o teoretickém modelu (hypotéz) jsme schopni pomocí statistických testů srovnávat vlastnosti jedné nebo více cílových populací. Predikce vlastností cílové populace – nevyvrátíme-li na základě pozorovaných dat platnost teoretického modelu, jsme schopni se ptát, jak a s jakou pravděpodobností se bude cílová populace v budoucnu chovat. Tomáš Pavlík Biostatistika Příklad – srovnání Pacienti s hypertenzí, léčení ACE-I nebo AIIA. Teď předbíháme: Vizualizace a popis → zhodnotíme tvar rozdělení a přítomnost odlehlých hodnot. Testem můžeme ověřit normalitu hodnot. Testem můžeme ověřit rovnost rozptylů. Rozhodneme o aplikovatelnosti jednotlivých testů. TKs v sedě (mmHg) B ACE-I B AIIA p-hodnota A vs. B Čas 0 – medián 155 155 0,929 Čas 12 měsíců - medián 135 135 p-hodnota 0 vs. 12 <0,001 <0,001 Pacienti s ACE-I Pacienti s AIIA N = 1 416 N = 1 394 Medián 25%-75% 5%-95% 0 12 mmHg 0 12 3. Normální rozdělení pravděpodobnosti a rozdělení z něj odvozená Tomáš Pavlík Biostatistika Normální rozdělení pravděpodobnosti Klíčové rozdělení pravděpodobnosti. Jak pro teoretickou statistiku, tak pro biostatistiku. Označení „normální“ neznamená, že by bylo normálnější než ostatní rozdělení. Popisuje proměnné, jejichž hodnoty se symetricky shlukují kolem střední hodnoty. Rozptyl kolem střední hodnoty je dán aditivním vlivem mnoha „slabě působících“ faktorů. Příklad: výška člověka, krevní tlak Tomáš Pavlík Biostatistika Normální rozdělení pravděpodobnosti Je kompletně popsáno dvěma parametry: μ – střední hodnota, tedy E(X) σ2 – rozptyl, tedy D(X) Označení: N(μ, σ2) Hustota pravděpodobnosti: Čím bychom mohli jednotlivé parametry normálního rozdělení odhadnout? 22 2/)( 2 2 2 1 ),;( σµ πσ σµ −− = x exf Tomáš Pavlík Biostatistika Normální rozdělení dle hodnot parametrů μ a σ2 Tomáš Pavlík Biostatistika Normální rozdělení pravděpodobnosti Normalita je klíčovým předpokladem řady statistických metod – zejména testů a modelů. Není-li splněna podmínka normality hodnot, je špatně celý model se kterým daná metoda pracuje, což vede k neinterpretovatelným závěrům. Její ověření je tak stejně důležité jako výběr správného testu. Pro ověření normality existuje řada testů a grafických metod. Tomáš Pavlík Biostatistika Standardizované normální rozdělení Jakékoliv normální rozdělení může být převedeno (zatím schválně neříkám transformováno) na tzv. standardizované normální rozdělení: Hustota pravděpodobnosti: Klíčové rozdělení řady testů. Výhoda je, že všechny hodnoty distribuční i kvantilové funkce jsou tabelovány a obsaženy ve všech dostupných softwarech. 2/2 2 1 )1,0;( x exf − = π )1,0(~),(~ 2 2 NY X YNX → − =→ σ µ σµ Tomáš Pavlík Biostatistika Pravidlo ±3 sigma U normálního rozdělení lze vyčíslit procento hodnot, které by se měly vyskytovat v rozmezí ± x násobku směrodatné odchylky od střední hodnoty. Lze říci, že v rozmezí μ ± 3σ by se mělo vyskytovat přes 99,5 % všech hodnot. 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot Tomáš Pavlík Biostatistika Pravidlo ±3 sigma – k čemu to je? Lze ho použít pro jednoduché (ale pouze orientační) ověření normality rozdělení pozorovaných dat. Příklad 1: Hladina sérového albuminu u 216 pacientů s cirhózou jater. Sumarizace pozorovaných hodnot: 68,3 % všech hodnot 95,6 % všech hodnot 99,7 % všech hodnot g/l84,5 g/l46,34 = = s x hodnot%99,07 g/l98,5194,163 hodnot%95,83 g/l14,4678,222 hodnot%73,15 g/l30,4062,281 ≈ −=± ≈ −=± ≈ −=± sx sx sx Tomáš Pavlík Biostatistika Pravidlo ±3 sigma – k čemu to je? Příklad 2: Simulovaná data, 50 hodnot z N(0,1) + 1 odlehlá hodnota (200). Sumarizace pozorovaných hodnot: 02,28 ,873 = = s x hodnot%99,7hodnot%98,04 95,8721,803 hodnot%95,6hodnot%98,04 92,5918,522 hodnot%68,3hodnot%98,04 90,3115,241 ≠= −−=± ≠= −−=± ≠= −−=± sx sx sx Tomáš Pavlík Biostatistika Pravidlo ±3 sigma – k čemu to je? Pravidlo 3 sigma můžeme použít pro identifikaci odlehlých hodnot. Pravidlo 3 sigma můžeme použít pro orientační ověření normality dat. Tomáš Pavlík Biostatistika Chí-kvadrát rozdělení Vzniká jako součet druhých mocnin k nezávislých náhodných veličin se standardizovaným normálním rozdělením, N(0,1). Konstanta k je nazývána počet stupňů volnosti. Velký význam v teoretické statistice: Výpočet intervalu spolehlivosti pro rozptyl Testování hypotéz o nezávislosti kvalitativních dat Testy dobré shody )(~)1,0(~ 2 1 2 kQXQNX k i ii χ→=→ ∑= Tomáš Pavlík Biostatistika Studentovo t rozdělení Charakterizuje rozdělení průměru jako odhadu střední hodnoty veličiny s normálním rozdělením, v případě, že neznáme rozptyl (což je téměř vždy). Vzniká jako podíl dvou nezávislých veličin, jedné s rozdělením N(0,1) a druhé s rozdělením χ2(k). Parametrem t rozdělení je opět počet stupňů volnosti k. )(~ / )(~),1,0(~ 2 ktT kQ X TkQNX →=→χ Lze ho chápat jako aproximaci normálního rozdělení pro malé vzorky, pro velké velikosti souborů konverguje k normálnímu rozdělení. Teoretický základ t testu. Tomáš Pavlík Biostatistika Log-normální rozdělení Náhodná veličina Y má log-normální rozdělení, když X=ln(Y) má normální rozdělení. A naopak, když X má normální, pak Y=exp(X) má log-normální. Hustota: Normální rozdělení – aditivní efekt faktorů Log-normální rozdělení – multiplikativní efekt faktorů Řada jevů v přírodě se řídí log-normálním rozdělením: délka inkubační doby infekčního onemocnění, abundance druhů, řada krevních parametrů (např. sérový bilirubin u pacientů s cirhózou), počet bakteriálních buněk v daném objemu,… 0, 2 1 ),;( 22 2/)(ln 2 2 >= −− xe x xf x σµ πσ σµ Tomáš Pavlík Biostatistika Binomické rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém experimentu je stejná pravděpodobnost výskytu události a je p = θ. Pravděpodobnostní funkce: Základ binomických testů pro srovnávání výskytu sledovaných událostí v populaci nebo mezi populacemi. knk k n kXP − −      == )1()( θθ Tomáš Pavlík Biostatistika Poissonovo rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (parametr λ). Jedná se o zobecnění binomického rozdělení pro a . Pravděpodobnostní funkce: Střední hodnota, rozptyl: Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních komplikací během určitého časového intervalu po výkonu. 0, ! );()( ≥=== − x x e xpxXP x X λ λ λ ∞→n 0→p λλ == DXEX , Tomáš Pavlík Biostatistika Poissonovo rozdělení – vliv λ Tomáš Pavlík Biostatistika Exponenciální rozdělení Spojité rozdělení, které popisuje délky časových intervalů mezi jednotlivými událostmi Poissonova procesu. Popisuje tedy časový interval mezi událostmi, když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (parametr λ). Hustota: Střední hodnota, rozptyl: Význam v analýze přežití, je to „nejjednodušší“ modelové rozdělení pro délku doby do výskytu sledované události – předpokládá totiž konstantní intenzitu (systém nemá paměť). Zobecněním jsou další rozdělení: Weibullovo, Gamma. 2 1,1 0,);( λλ λλ λ == ≥= − DXEX xexf x X Tomáš Pavlík Biostatistika Bimodální rozdělení Představuje většinou problém, neboť se zřejmě jedná o směs dvou souborů s unimodálním rozdělením. Bimodální rozdělení má např. tento tvar: muži ženy Tomáš Pavlík Biostatistika Existuje ±3 sigma i u asymetrických rozdělení? Pro nenormální rozdělení existuje pomůcka v podobě obecného pravidla – Čebyševovy nerovnosti: Máme-li náhodnou veličinu X se střední hodnotou μ a a konečným rozptylem σ2, pak pro libovolné reálné číslo k > 0 platí: 2 1 )|(| k kXP ≤≥− σµ 4. Transformace náhodných veličin Tomáš Pavlík Biostatistika Transformace náhodné veličiny Transformací náhodné veličiny X rozumíme aplikaci matematické funkce g tak, že vzniká nová náhodná veličina (tzv. transformovaná) Y = g(X). Nová veličina nabývá nových hodnot → má také jiné rozdělení pravděpodobnosti → je třeba ho najít (hustotu, pravděpodobnostní funkci). S transformací se mění škála – mění se i interpretace „vzdáleností“ mezi jednotlivými hodnotami. Tomáš Pavlík Biostatistika Transformace náhodné veličiny Spojitá veličina: chceme najít hustotu fY(y). Diskrétní veličina: chceme najít pravděpodobnostní funkci pY(y). .),())(())(()()( )( 1 1 RyxpygXPyXgPyYPyp ygx XY ∑− ∈ − ∈=∈===== .)),(())(())(()()( 11 RyygFygXPyXgPyYPyF XY ∈=≤=≤=≤= −− .),())(()))((1()()(:klesající)(Pro 111 Ryyg dy d ygfygF dy d yF dy d yfxg XXYY ∈−=−== −−− .),())(())(()()(:rostoucí)(Pro 111 Ryyg dy d ygfygF dy d yF dy d yfxg XXYY ∈=== −−− .,)())(()(:jakoukoliv)(Pro 11 Ryyg dy d ygfyfxg XY ∈= −− Tomáš Pavlík Biostatistika Transformace náhodné veličiny – příklad Máme rozdělení náhodné veličiny X dáno tabulkou a chceme najít rozdělení pravděpodobnosti transformované náhodné veličiny Y = X2 – 1. x -2 -1 0 1 2 p(x) 0,1 0,25 0,15 0,3 0,2 x -2 -1 0 1 2 p(x) 0,1 0,25 0,15 0,3 0,2 y 3 0 -1 0 3 p(y) 0,3 0,55 0,15 - - Tomáš Pavlík Biostatistika Význam transformací pro zpracování dat Teoretické vlastnosti transformovaných náhodných veličin nám dávají nástroj pro práci s pozorovanými daty. Transformace můžeme použít pro následující cíle: 1. Normalizaci pozorovaných hodnot 2. Standardizaci normálních hodnot 3. Stabilizaci rozptylu pozorovaných hodnot – teď vynecháme 4. Lepší interpretaci pozorovaných hodnot Tomáš Pavlík Biostatistika 1. Normalizace pozorovaných hodnot Normalita pozorovaných hodnot je silný předpoklad řady statistických metod, který musí být splněn, aby výsledky byly interpretovatelné! Hodnocení normality dat – vizuálně, na základě testu. Nenormální data je nutné transformovat nebo použít test bez předpokladu normality. Logaritmická transformace Y = ln(X) Odmocninová transformace Y = sqrt(X) Box-Coxova transformace Tomáš Pavlík Biostatistika 2. Standardizace normálních hodnot Standardizace je transformace náhodné veličiny s N(μ,σ2) na N(0,1). Důvod: řada statistických metod byla odvozena pro standardizované normální rozdělení, N(0,1). Děláme to tedy opět kvůli lepší možnosti hodnocení dat. Teoretická standardizace: Praktická standardizace: Obrázek: standardizace je převod „modré“, „zelené“ a „okrové“ na „červenou“. 2 σ µ− = X U 2 s xx u i i − = Tomáš Pavlík Biostatistika 4. Lepší interpretace pozorovaných hodnot Někdy se nám hodí transformovat pozorovaná data kvůli lepší interpretaci. Příklad: Microarray experiment se dvěma vzorky, měříme intenzitu genu XY v jedné tkáni (hodnota intenzity AXY) a v druhé tkáni (hodnota intenzity BXY). Následně hodnoty převádíme na logaritmus se základem 2 jejich podílu: Jaké to má výhody?       = XY XY XY B A Z 2log Tomáš Pavlík Biostatistika Poděkování… Rozvoj studijního oboru „Matematická biologie“ PřF MU Brno je finančně podporován prostředky projektu ESF č. CZ.1.07/2.2.00/07.0318 „Víceoborová inovace studia Matematické biologie“ a státním rozpočtem České republiky