logo-IBA logomuni Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky * Statistika vychází z pravděpodobnosti * Podmíněná pravděpodobnost, Bayesův vzorec * Senzitivita, specificita, prediktivní hodnoty * Frekventistická a Bayesovská statistika * esf-komplet-barva.jpg logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Opakování – klíčové principy biostatistiky 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Statistika, biostatistika a analýza dat Statistika Biostatistika Analýza dat §Primárně je zaměřena na vývoj metod a algoritmů pro řešení teoretických problémů. §Nicméně i statistika je vždy primárně motivována reálnými problémy. §Vychází z teorie pravděpodobnosti. §Propojení znalosti statistických metod a dané problematiky v řešení biologických a klinických úloh. §Na prvním místě není teoretický vývoj, ale aplikace. §Velmi obecná oblast bez jasné definice. §Prostupuje různými odvětvími. §Zahrnuje komplexní postupy hodnocení dat (čištění, kódování). §Nemusí být založena na statistice. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Biostatistika vychází ze statistiky * Biostatistika je aplikace statistických metod v řešení biologických a klinických problémů. * * Snahou je získat z pozorovaných dat užitečnou informaci. V popředí zájmu je pozorovaná variabilita mezi studovanými subjekty, kterou chceme vysvětlit. * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Statistický pohled na problém * Cílová populace – chceme postihnout konkrétní problém. * Získáme experimentální vzorek cílové populace (pozorování), která převedeme na číselné vyjádření (data). Vzorek by měl být reprezentativní a náhodný. * Předpokládáme pravděpodobnostní chování (model) tohoto vzorku (tedy i cílové populace). * Konkrétní problém vyjádříme ve vybraném modelu jako hypotézu. * Zhodnotíme hypotézu na základě vybraného modelu a pozorovaných dat. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Statistika vychází z pravděpodobnosti * Teorie pravděpodobnosti se zabývá modelováním náhody. * Lze nějak ale vyjádřit, co je to náhoda? * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Statistika vychází z pravděpodobnosti * Teorie pravděpodobnosti se zabývá modelováním náhody. * Lze nějak ale vyjádřit, co je to náhoda? Objektivní nepředvídatelnost? Nedostatek informací? * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Statistika vychází z pravděpodobnosti * Teorie pravděpodobnosti se zabývá modelováním náhody. * Lze nějak ale vyjádřit, co je to náhoda? Objektivní nepředvídatelnost? Nedostatek informací? “Chance is only ignorance of the connections between phenomena.” Pierre Simon de Laplace logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Statistika Statistika vs. pravděpodobnost Pravděpodobnost Cílová populace Vzorek Cílová populace Vzorek logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Statistika Statistika vs. pravděpodobnost Pravděpodobnost Cílová populace Vzorek Cílová populace Vzorek Cílem statistiky je získání informace o cílové populaci na základě pozorovaného experimentálního vzorku. V teorii pravděpodobnosti se ptáme na pravděpodobnost získání konkrétního výsledku, máme-li danou strukturu cílové populace. 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Značení * Základní prostor (Ω) – množina všech možných výsledků experimentu * Elementární jev (ω) – konkrétní výsledek experimentu * Náhodný jev (A) – podmnožina základního prostoru * Množina všech jevů (A) – množina (všech) podmnožin základního prostoru * Ø představuje jev nemožný, Ω zase jev jistý * Množinové operace mají v teorii pravděpodobnosti svůj význam: -jev A nastane, když nastane ω -jev A nenastane, když nastane ω -nastání jevu A implikuje nastání jevu B -nastání jevu A a zároveň jevu B -nastání jevu A nebo jevu B -jevy A a B se navzájem vylučují, jsou disjunktní -nastání jevu opačného k jevu A logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pravděpodobnost * Pravděpodobnost lze definovat jako funkci, která přiřazuje náhodnému jevu reálné číslo mezi 0 a 1. Je to tedy funkce P: A → [0,1]. Musí platit následující: * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Definice pravděpodobnosti * Klasická definice pravděpodobnosti: předpokládáme, že Ω je konečná a všechny ω jsou stejně pravděpodobné. Pak kde |A| je počet prvků množiny A (počet elementárních jevů jevu A). * * Axiomatická definice pravděpodobnosti: Ω je libovolná množina elementárních jevů, A’ je množina měřitelných jevů (A’ je podmnožina A). Funkce P: A’ → [0,1], která splňuje * * * se nazývá pravděpodobnost. Trojice (Ω, A’, P) se nazývá pravděpodobnostní prostor. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Definice pravděpodobnosti – najděte rozdíly * Klasická definice pravděpodobnosti: předpokládáme, že Ω je konečná a všechny ω jsou stejně pravděpodobné. Pak kde |A| je počet prvků množiny A (počet elementárních jevů jevu A). * * Axiomatická definice pravděpodobnosti: Ω je libovolná množina elementárních jevů, A’ je množina měřitelných jevů (A’ je podmnožina A). Funkce P: A’ → [0,1], která splňuje * * * se nazývá pravděpodobnost. Trojice (Ω, A’, P) se nazývá pravděpodobnostní prostor. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Co to znamená? * Axiomatická definice připouští i nespočetný základní prostor, tedy nespočetnou množinu elementárních jevů. * Příklady: hod kostkou × měření výšky lidské postavy * * * Axiomatická definice připouští různou pravděpodobnost různých elementárních jevů. * Příklady: hod kostkou × měření výšky lidské postavy * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Nezávislost jevů * Dva jevy A a B jsou nezávislé právě tehdy, když platí * * * Jsou-li dva jevy A a B nezávislé, pak i Ac je nezávislé na B A je nezávislé na Bc Ac je nezávislé na Bc logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Nezávislost jevů * Dva jevy A a B jsou nezávislé právě tehdy, když platí * * * Jsou-li dva jevy A a B nezávislé, pak i Ac je nezávislé na B A je nezávislé na Bc Ac je nezávislé na Bc * * Příklad: Uvažujme opět hod kostkou a jevy A = {1, 3, 5} a B = {4, 5, 6}. * * * Jevy A a B tedy nejsou nezávislé. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Podmíněná pravděpodobnost * Máme-li jev B s pravděpodobností P(B) > 0, pak podmíněnou pravděpodobnost jevu A za podmínky nastoupení jevu B definujeme jako * * * * Pro nezávislé jevy A a B platí * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Podmíněná pravděpodobnost 600px-Icon-Warning-Red.svg.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Podmíněná pravděpodobnost * Příklad: Osoba X má všechny typické příznaky chřipky. Pravděpodobnost, že se jedná o klasickou chřipku je 0,7 (jev A), prasečí chřipku 0,2 (jev B), ptačí chřipku 0,05 (jev C) a dosud neznámou formu 0,05 (jev D). Diagnostický test prokázal, že klasická chřipka to není. Jaká je nyní pravděpodobnost, že se jedná o novou formu chřipky? * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Podmíněná pravděpodobnost * Příklad: Osoba X má všechny typické příznaky chřipky. Pravděpodobnost, že se jedná o klasickou chřipku je 0,7 (jev A), prasečí chřipku 0,2 (jev B), ptačí chřipku 0,05 (jev C) a dosud neznámou formu 0,05 (jev D). Diagnostický test prokázal, že klasická chřipka to není. Jaká je nyní pravděpodobnost, že se jedná o novou formu chřipky? * * Řešení: logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Celková pravděpodobnost a Bayesův vzorec * Můžeme-li rozdělit základní prostor na k po dvou disjunktních podmnožin (Hi, i = 1, …, k), pro které zároveň platí, že jejich sjednocení je celý základní prostor (tzv. systém hypotéz), pak pravděpodobnost jevu A lze získat jako * * * Dále platí 600px-Icon-Warning-Red.svg.png Bayesův vzorec Vzorec pro celkovou pravděpodobnost logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Počasí a podmíněná pravděpodobnost * Co má počasí společného s pravděpodobností? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Počasí a podmíněná pravděpodobnost * Co má počasí společného s pravděpodobností? * U každého jevu (A) se můžeme ptát na jeho pravděpodobnost za slunečného počasí, za deště, za bouřky, atd. Celkovou pravděpodobnost jevu A potom můžeme získat jako součet přes tyto možnosti. * Tyto stavy lze chápat jako výchozí hypotézy ovlivňující výsledek, přičemž vždy nastává (platí) pouze jeden z těchto stavů (hypotéz). Pokud pozorujeme jev A, můžeme se zpětně ptát na platnost těchto hypotéz (s použitím Bayesova vzorce). H0 Ω H1 H2 H3 H4 H5 logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Celková pravděpodobnost – jiný příklad * Populaci můžeme rozdělit dle věku na tři skupiny: děti (H0), dospělé v produktivním věku (H1) a dospělé v postproduktivním věku (H2), přičemž známe rozdělení populace, tedy známe P(H0), P(H1) a P(H2). * * * * * Označme jev A: stane se úraz. * Známe-li pravděpodobnost úrazu u dítěte, P(A|H0), u dospělého v produktivním věku, P(A|H1), a u dospělého v postproduktivním věku, P(A|H2), jsme schopni pomocí vzorce pro celkovou pravděpodobnost spočítat P(A). * Ω H0 H1 H2 logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Bayesův vzorec * Příklad: Uvažujme populaci mužů nekuřáků ve věku 50 – 60 let, u kterých sledujeme výskyt chronického kašle (jev A). Dle stavu plic můžeme muže zjednodušeně rozdělit na zdravé (jev H1), nemocné plicním karcinomem (jev H2) a nemocné sarkoidózou (jev H3). Pravděpodobnosti výskytu jednotlivých plicních onemocnění jsou známé, navíc známe i pravděpodobnosti výskytu chronického kašle dle stavu plic: P(H1) = 0,991, P(H2) = 0,001, P(H3) = 0,008 P(A|H1)=0,002, P(A|H2)=0,900, P(A|H3)=0,950 * * Zajímá nás, s jakou pravděpodobností bude u pacienta s chronickým kašlem při podrobnějším vyšetření diagnostikován karcinom plic. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Bayesův vzorec * Příklad: Uvažujme populaci mužů nekuřáků ve věku 50 – 60 let, u kterých sledujeme výskyt chronického kašle (jev A). Dle stavu plic můžeme muže zjednodušeně rozdělit na zdravé (jev H1), nemocné plicním karcinomem (jev H2) a nemocné sarkoidózou (jev H3). Pravděpodobnosti výskytu jednotlivých plicních onemocnění jsou známé, navíc známe i pravděpodobnosti výskytu chronického kašle dle stavu plic: P(H1) = 0,991, P(H2) = 0,001, P(H3) = 0,008 P(A|H1)=0,002, P(A|H2)=0,900, P(A|H3)=0,950 * * Zajímá nás, s jakou pravděpodobností bude u pacienta s chronickým kašlem při podrobnějším vyšetření diagnostikován karcinom plic. * * Řešení: logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Význam podmíněné pravděpodobnosti v biostatistice * Princip podmíněné pravděpodobnosti je v biostatistice velmi častý – máme systém hypotéz (nejčastěji dvou) o vlastnostech cílové populace a pozorovaná data. Na jejich základě pak rozhodujeme o platnosti stanovených hypotéz. * * Přímé použití podmíněné pravděpodobnosti lze demonstrovat na příkladu binárních diagnostických testů: * Osoba ve skutečnosti má (jev H) nebo nemá (jev Hc) sledované onemocnění. * Diagnostický test u dané osoby indikuje přítomnost (jev A+) nebo nepřítomnost (jev A-) sledovaného onemocnění. * Nás zajímají diagnostické schopnosti testu. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Senzitivita, specificita * Senzitivita testu: schopnost testu rozpoznat skutečně nemocné osoby, tedy pravděpodobnost, že test bude pozitivní, když je osoba skutečně nemocná. * Senzitivita testu = P(A+|H) = T / (T + V). * * Specificita testu: schopnost testu rozpoznat osoby bez nemoci, tedy pravděpodobnost, že test bude negativní, když osoba není nemocná. * Specificita testu = P(A-|Hc) = W / (U + W). Skutečnost – přítomnost nemoci Ano (H) Ne (Hc) Výsledek diagnostického testu Pozitivní (A+) T U Negativní (A-) V W logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pozitivní a negativní prediktivní hodnota * Prediktivní hodnota pozitivního testu: pravděpodobnost, že osoba je skutečně nemocná, když je test pozitivní. * Prediktivní hodnota pozitivního testu = P(H|A+) = T / (T + U). * * Prediktivní hodnota negativního testu: pravděpodobnost, že osoba není nemocná, když je test negativní. * Prediktivní hodnota negativního testu = P(Hc|A-) = W / (V + W). Skutečnost – přítomnost nemoci Ano (H) Ne (Hc) Výsledek diagnostického testu Pozitivní (A+) T U Negativní (A-) V W logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Shrnutí Skutečnost – přítomnost nemoci Ano (H) Ne (Hc) Výsledek diagnostického testu Pozitivní (A+) T U T + U Negativní (A-) V W V + W T + V U + W Senzitivita testu Specificita testu Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Senzitivita, specificita * Příklad: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy schopnost vyšetření UTZ identifikovat maligní ložisko v pacientových játrech. Přesnost je vztažena k histologickému ověření odebrané tkáně. Výsledky jsou dány tabulkou: * Vyšetření UTZ Histologické ověření Maligní Benigní Celkem Maligní 32 2 34 Benigní 3 24 27 Celkem 35 26 61 * Senzitivita testu = P(A+|H) = ? * Specificita testu = P(A-|Hc) = ? logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Senzitivita, specificita * Příklad: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy schopnost vyšetření UTZ identifikovat maligní ložisko v pacientových játrech. Přesnost je vztažena k histologickému ověření odebrané tkáně. Výsledky jsou dány tabulkou: * Vyšetření UTZ Histologické ověření Maligní Benigní Celkem Maligní 32 2 34 Benigní 3 24 27 Celkem 35 26 61 * Senzitivita testu = P(A+|H) = 32 / 35 = 91,4 % (IS = 75,8 – 97,8) * Specificita testu = P(A-|Hc) = 24 / 26 = 92,3 % (IS = 73,4 – 98,7) logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Bayesův vzorec pro výpočet prediktivních hodnot * Obě prediktivní hodnoty testu lze vypočítat s pomocí charakteristik testu, senzitivity a specificity, a celkové prevalence onemocnění v cílové populaci. Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu Senzitivita testu Specificita testu Prevalence logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pozitivní a negativní prediktivní hodnota * Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. 1.Uvažujme jihoafrickou zemi s prevalencí HIV pozitivních cca 20 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,2. * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pozitivní a negativní prediktivní hodnota * Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. 1.Uvažujme jihoafrickou zemi s prevalencí HIV pozitivních cca 20 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,2. * Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pozitivní a negativní prediktivní hodnota * Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. 2. Uvažujme evropskou zemi s prevalencí HIV pozitivních cca 0,2 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,002. * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Pozitivní a negativní prediktivní hodnota * Příklad: Zajímají nás pozitivní a negativní prediktivní hodnoty diagnostického testu na HIV pozitivitu, u kterého výrobce garantuje 98% senzitivitu a 99% specificitu. 2. Uvažujme evropskou zemi s prevalencí HIV pozitivních cca 0,2 %: P(A+|H) = 0,98; P(A-|Hc) = 0,99; P(H) = 0,002. * Prediktivní hodnota pozitivního testu Prediktivní hodnota negativního testu logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Dva směry statistiky * Ve statistice existují dva hlavní filozofické směry: frekventistický a Bayesovský. * * Liší se v pohledu na pravděpodobnostní chování neznámých hodnot, které se snažíme odhadnout. * * Frekventistická statistika: všechny neznámé hodnoty považujeme za konstantní (parametry). Na základě dat se snažíme tuto hodnotu „lokalizovat“. * * Bayesovská statistika: všechny neznámé hodnoty mají pravděpodobnostní chování (rozdělení pravděpodobnosti). Na základě dat se snažíme toto pravděpodobnostní chování „upřesnit“. logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Frekventistická statistika * Neznámou charakteristiku cílové populace (konstantu) se snažíme odhadnout pouze na základě pozorovaných dat. * Důležitý je předpoklad reprezentativnosti vzorku – pracujeme pouze s daty jako obrazem neznámé charakteristiky. Bude-li špatný vzorek, bude špatný i odhad (výsledky mohou být velmi odlišné od známých hodnot). * Často pracuje s asymptotickým chováním, kdy velikost vzorku jde do nekonečna; řada odhadů a testů je odvozena právě pro tyto situace. dice.png logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Bayesovská statistika * Neznámá charakteristika cílové populace má pravděpodobnostní chování, které se snažíme pomocí pozorovaných dat upřesnit. * * * * Předpoklad reprezentativnosti vzorku je stále důležitý, ale již nepracujeme pouze s daty – pracujeme i s tzv. apriorní pravděpodobností, P(H), což je náš vstupní předpoklad o chování neznámé charakteristiky. * Nevýhodou je neznalost apriorní pravděpodobnosti. * logo-IBA logomuni logo-IBA logomuni Tomáš Pavlík Biostatistika Reklama na další týdny… Středem zájmu statistiky a biostatistiky je tzv. náhodná veličina. ω1 R 0 R 0 x 1 P(A) Náhodná veličina X Pravděpodobnost P 600px-Icon-Warning-Red.svg.png