Opakování základů biostatistiky Bi7491 Regresní modelování Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Co byste po dnešní hodině měli vědět a umět? Vyjmenovat různé typy dat, okomentovat jejich specifika Chápat pojem náhodné veličiny a znát jejich základní rozdělení Umět se zorientovat v datovém souboru – jak vypadají jednotlivé proměnné a jak spolu mohou vzájemně souviset Znát cíle a obecné postupy statistické inference Opakování základů biostatistiky Typy dat Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Typy dat Kvalitativní proměnná (kategoriální) – lze ji řadit do kategorií, ale nelze ji kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné vyjádření. Příklady: pohlaví, HIV status, užívání drog, barva vlasů Kvantitativní proměnná (numerická) – můžeme jí přiřadit číselnou hodnotu. Rozlišujeme dva typy kvantitativních proměnných: Spojité: může nabývat jakýchkoliv hodnot v určitém rozmezí. Příklady: výška, váha, vzdálenost, čas, teplota. Diskrétní: může nabývat pouze spočetně mnoha hodnot. Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok, počet dětí v rodině. Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Kvalitativní data lze dělit dále Binární data – pouze dvě kategorie typu ano / ne. Nominální data – více kategorií, které nelze vzájemně seřadit. Nemá smysl ptát se na relaci větší/menší. Ordinální data – více kategorií, které lze vzájemně seřadit. Má smysl ptát se na relaci větší/menší. Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Kvalitativní data – příklady Binární data diabetes (ano/ne) pohlaví (muž/žena) stav (ženatý/svobodný) Nominální data krevní skupiny (A/B/AB/0) stát EU (Belgie/…/Česká republika/…/Velká Británie) stav (ženatý/svobodný/rozvedený/vdovec) Ordinální data stupeň bolesti (mírná/střední/velká/nesnesitelná) spotřeba cigaret (nekuřák/ex-kuřák/občasný kuřák/pravidelný kuřák) stadium maligního onemocnění (I/II/III/IV) Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Kvantitativní → kvalitativní ? Kvůli interpretaci je někdy výhodné kvantitativní data agregovat do kategorií (např. věk) – tímto krokem však ztrácíme část informace. Zpětně nejsme schopni data rekonstruovat. Diskrétní data Spojitá data Kategoriální data Kategoriální data Opakování základů biostatistiky Náhodná veličina Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Pojem náhodná veličina Číselné vyjádření výsledku náhodného pokusu. Matematicky je to funkce, která každému elementárnímu jevu ω z Ω přiřadí hodnotu X(ω) z nějaké množiny možných hodnot. Náhodná veličina se netýká pouze kvantitativních proměnných. Číselné vyjádření výsledku náhodného pokusu může popisovat i pohlaví. Chování náhodné veličiny lze popsat pomocí rozdělení pravděpodobnosti: Funkce zadaná analyticky Výčet možností a příslušných pravděpodobností RX : Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Význam náhodných veličin Množina Ω často není známa (může být i nekonečná) a nejsme tak schopni ji popsat. Náhodná veličina převádí Ω na čísla, se kterými se pracuje lépe. Neznáme-li Ω, nejsme schopni popsat ani X, ale jsme schopni ho pozorovat. Základní prostor Ω Jev A ω1 R0R0 x1P(A) Náhodná veličina XPravděpodobnost P Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Pravděpodobnostní chování náhodné veličiny Pravděpodobnostní chování náhodné veličiny je jednoznačně popsáno tzv. rozdělením pravděpodobnosti náhodné veličiny . Rozdělením náhodné veličiny X definované na prostoru s pravděpodobností P rozumíme předpis, který jednoznačně určuje všechny pravděpodobnosti typu pro každou . Distribuční funkce Hustota – spojité náhodné veličiny Pravděpodobnostní funkce – diskrétní náhodné veličiny ))(:()()( BXPBXPBP iiX   RB  Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Popis rozdělení pravděpodobnosti Distribuční funkce popisuje rozdělení pravděpodobnosti kumulativním způsobem. Hustota a pravděpodobnostní funkce popisují rozdělení pravděpodobnosti pro jednotlivé „body“ (respektive intervaly) na reálné ose. Distribuční funkce a hustota, respektive pravděpodobnostní funkce, jsou navzájem ekvivalentní, tedy známe-li jednu nepotřebujeme druhou. Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Distribuční funkce Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné ose. Vlastnosti distribuční funkce? ))(:()()( xXPxXPxF ii   Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Distribuční funkce Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné ose. Vlastnosti distribuční funkce: 1. Neklesající 2. Zprava spojitá 3. 4. 5. 1)(0  xF ))(:()()( xXPxXPxF ii     xxF xxF pro1)( pro0)( Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Distribuční funkce )(xFy  1x 2x x )( 1xF )( 2xF y )( 21 xXx  )( 21 xXxP  Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Distribuční funkce – příklad Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců. Jak vypadá distribuční funkce X? Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Distribuční funkce – příklad Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců. Jak vypadá distribuční funkce X? X → {0, 1, 2, 3, 4, 5} P(0) = 1 / 32 P(1) = 5 / 32 P(2) = 10 / 32 P(3) = 10 / 32 P(4) = 5 / 32 P(5) = 1 / 32 Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Spojité a diskrétní náhodné veličiny Náhodné veličiny dělíme dle podstaty na: Spojité – mohou nabývat všech hodnot v daném intervalu. Diskrétní – mohou nabývat nejvýše spočetně mnoha hodnot. Spojitou náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. hustota pravděpodobnosti, což je funkce taková, že platí: Diskrétní náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. pravděpodobnostní funkce, což je funkce taková, že platí:    x XX dttfxF )()(    xtxt XX tXPtpxF )()()( Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky F(x) a f(x) a p(x) Spojitá náhodná veličina Diskrétní náhodná veličina )20(  XP )20(  XP )3( XP Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Spojité a diskrétní náhodné veličiny - příklady Spojité náhodné veličiny: Medicína: výška, váha, krevní tlak, glykémie, čas do sledované události, … Biologie: biomasa na m2, listová plocha, pH, koncentrace látek ve vodě, ovzduší, … Diskrétní náhodné veličiny: Medicína: počet krvácivých epizod, počet hospitalizací, počet dní po operaci do odeznění bolesti, … Biologie: počet zvířat na jednotku (plochu, objem), počet kolonií na misku, … Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Normální rozdělení pravděpodobnosti Je kompletně popsáno dvěma parametry: μ – střední hodnota, tedy E(X) σ2 – rozptyl, tedy D(X) Označení: N(μ, σ2) Hustota pravděpodobnosti: 22 2/)( 2 2 2 1 ),;(      x exf Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Binomické rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém experimentu je stejná pravděpodobnost výskytu události a je p = θ. Pravděpodobnostní funkce: knk k n kXP         )1()(  Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Poissonovo rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (jediný parametr λ). Jedná se o zobecnění binomického rozdělení pro a . Pravděpodobnostní funkce: Střední hodnota, rozptyl: Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních komplikací během určitého časového intervalu po výkonu. 0, ! );()(   x x e xpxXP x X    n 0p   DXEX , Opakování základů biostatistiky S jakými typy proměnných se můžeme potýkat v modelech? Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Příklad: Lineární regrese • Odhalení vztahu mezi stravováním ve fast-foodech, sledování televize a BMI (spojitá závislá proměnná) • Zařazeny proměnné: věk, vzdělání, kouření, strava, pohyb • U mužů nebyl zjištěn žádný vliv • U žen se na obezitě významně podílelo sledování televize i stravování ve fastfoodech (silněji u nízkopříjmových) Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Příklad: Logistická regrese Způsobuje refluxní choroba jícnu („pálení žáhy“) zhoubný nádor jícnu? (binární závisle proměnná) Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Příklad: Logistická regrese Byla odhalena průkazná souvislost mezi refluxní chorobou a rakovinou Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Příklad: smíšený model • Jak dlouhodobě ovlivňuje léčba tímto chemoterapeutikem kvalitu života pacientů? • Kvalita života – skóre, budeme považovat za spojité (obyčejná lineární regrese?) • Hodnoceno při pěti následujících návštěvách – od jednotlivých pacientů máme 5 pozorování!!! (jaké jsou předpoklady lineární regrese?) Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Příklad: smíšený model (opakovaná měření) Opakování základů biostatistiky Vizualizace Jedna proměnná Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Vizualizace a popis nominálních dat Proměnná n % Kategorie 10 5.0 Kategorie 40 20.0 Kategorie 130 65.0 Kategorie 20 10.0 Celkem 200 100.0 65,0% 10,0% 5,0% 20,0% 10 40 130 20 0 30 60 90 120 150 1 2 3 4 N Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost. Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. K popisu může sloužit i tzv. modus – nejčetnější pozorovaná hodnota. Frekvenční tabulka Sloupcový graf Koláčový graf Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Vizualizace a popis ordinálních dat Proměnná n % Kategorie 1 10 5.0 Kategorie 2 40 20.0 Kategorie 3 130 65.0 Kategorie 4 20 10.0 Celkem 200 100.0 65,0% 10,0% 5,0% 20,0% 10 40 130 20 0 30 60 90 120 150 1 2 3 4 N Frekvenční tabulka Sloupcový graf Koláčový graf Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost. Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. K popisu může sloužit i tzv. modus, případně medián (pouze dává-li to smysl). Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Frekvenční tabulka pro kvantitativní data 1,21 1,48 1,56 0,31 1,21 1,33 0,33 0,21 1,32 1,11 . . . . n = 100 i-tý interval di ni ni / n % <0 – 0,4) 0,4 20 0,2 20 <0,4 – 0,8) 0,4 10 0,1 10 <0,8 – 1,2) 0,4 40 0,4 40 <1,2 – 1,4) 0,2 20 0,2 20 <1,4 – 1,6) 0,2 10 0,1 10 Celkem 1,6 100 1 100 Primární data Frekvenční tabulka di – šířka intervalu ni – absolutní četnost v daném intervalu ni / n – relativní četnost v daném intervalu Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Krabicový graf – box plot Minimum = 0% kvantil Maximum = 100% kvantil Horní kvartil = 75% kvantil Medián = 50% kvantil Dolní kvartil = 25% kvantil nebo 1,5krát délka krabičky od krabičky nebo 1,5krát délka krabičky od krabičky co se nevejde, je zobrazeno jako odlehlá hodnota Opakování základů biostatistiky Vizualizace Více proměnných Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Jak hodnotit vztah dvou kvantitativních veličin? Nejjednodušší formou je bodový graf (x-y graf). např. vztah mezi podílem tukové tkáně a BMI 10 15 20 25 30 35 40 15202530354045 adiposity obesity Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Jak hodnotit vztah dvou kvalitativních veličin? kontingenční tabulka graficky – sloupcové grafy Podvaha Normalni Nadvaha Obezita Hyp. krize Hypertenze II Hypertenze I Prehypertenze Normotenze Telesna hmotnost Zastoupeni-krevnitlak 0.00.20.40.60.81.0 Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Jak hodnotit vztah kvalitativní a kvantitativní veličiny? tabulka dle kategorií s popisnými statistikami krabicový graf (box and whisker plot) páskový graf (stripchart) Podvaha Normalni Nadvaha Obezita 100120140160180200220 Systolickytlakkrve Opakování základů biostatistiky Statistická inference a modelování Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Základní pojmy Náhodná veličina X – číselné ohodnocení výsledku experimentu, zajímá nás její pravděpodobnostní chování – popisuje ho rozdělení pravděpodobnosti náhodné veličiny X. Parametr rozdělení pravděpodobnosti – neznámá hodnota, θ, na které závisí předpis rozdělení pravděpodobnosti Náhodný výběr (rozsahu n) – vzájemně nezávislé a stejně rozdělené náhodné veličiny x = x1, x2, …, xn Statistika – funkce náhodného výběru Odhad parametru θ – statistika, kterou se snažíme „uhodnout“ skutečnou hodnotu parametru, obvykle značíme ˆ Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Co je cílem inference? sestavit tvrzení o mechanismu, který stojí za vznikem dat ve statistickém modelování se obvykle snažíme vztáhnout nějaký výsledek (závisle proměnnou, u níž předpokládáme konkrétní rozdělení) k jiným měřeným charakteristikám klíčové části modelu jsou parametry, např. střední hodnota hmotnosti, pravděpodobnost úmrtí po operaci srdce, nárůst rizika úmrtí při větší zjištěné velikosti nádoru, apod. Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Parametr? 0 10 20 30 40 50 60 020406080100120140 BMI VitaminD 111,05 Intercept (posun, absolutní člen) 23,9 (na 10 jednotek) Slope (směrnice přímky) , ni xEY ii ,...,1 110    Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Postup praktická hypotéza přeformulování řečí statistického modelu statistická inference: odhad parametrů ověření předpokladů modelu testování hypotéz Platí to i pro statistické úlohy, které dávno znáte? Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Odhad parametrů modelu parametry jsou neznámé konstanty představují cíl našeho snažení ve statistice nikdy nepoznáme, ale můžeme „hádat“ musíme vyřešit odhadovací rovnice zřídkakdy mají jednoduché explicitní řešení obyčejná lineární regrese je výjimkou – metoda nejmenších čtverců obecnou metodou je metoda maximální věrohodnosti „náš“ odhad parametrů bude ten, který nejspíše vede k pozorovaným datům Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Nejistota v odhadech kdybychom experiment zopakovali, dostaneme odlišný odhad, byť použijeme úplně stejný model... vychýlení (bias) – odlišnost střední hodnoty odhadu a skutečné hodnoty parametru rozdělení odhadu → interval spolehlivosti parametru souvisí se směrodatnou odchylkou tohoto odhadu – standardní chybou (často můžeme předpokládat normální rozdělení – centrální limitní věta) Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Interpretace intervalu spolehlivosti Poloha neznámého parametru je konstantní!!! 95% interval spolehlivosti má následující interpretaci: Pokud bychom opakovaně vybírali skupiny subjektů o stejné velikosti (n) a počítali výběrový průměr s 95% IS, pak 95 % těchto intervalů spolehlivosti neznámý parametr obsahuje a 5 % ho neobsahuje. Tedy 95% IS obsahuje neznámý parametr s rizikem α. R0 μ x1 ( ) d1 h1 x2 ( ) d2 h2 x3 ( ) d3 h3 ……… x100 ( ) d100 h100 x99 ( ) d99 h99 cca 95 % cca 5 % x ( ) d h x ( ) d h Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Ověření předpokladů modelu Grafické nástroje REZIDUA - rozdíl mezi pozorováním a modelovanou hodnotou složitější definice u dalších typů výsledků Numerické nástroje postavit obecnější (větší) model, testovat, zda přináší novou informaci VAROVÁNÍ... Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky „Rybářská výprava“ ke správné vědecké metodologii patří stanovení hypotéz před provedením experimentu v praxi se běžně objevují studie, které naopak slouží ke hledání (screeningu) budoucích hypotéz interpretace (často vícenásobného) testování musí být v takovém případě velmi obezřetná a odlišná od případu, kdy je studie vykonána k ověření konkrétní hypotézy (typicky klinické studie fáze III) zvláštním případem jsou automatické metody pro hledání vysvětlujících proměnných (extrémem je best subsets) Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Ověření předpokladů modelu Grafické nástroje REZIDUA - rozdíl mezi pozorováním a modelovanou hodnotou složitější definice u dalších typů výsledků Numerické nástroje postavit obecnější (větší) model, testovat hypotézu testy např. na normalitu reziduí – nepříliš užitečné srovnání pozorovaného a očekávaného počtu případů (Chí kvadrát test) Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Hypotézy Nulová hypotéza („null hypothesis“) – tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny (na cílové populaci). Může být tvrzením o parametrech rozdělení nebo tvaru rozdělení pravděpodobnosti. Nulová hypotéza má tvar: Alternativní hypotéza – tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny, které popírá platnost nulové hypotézy. Vymezuje, jaká situace nastává, když nulová hypotéza neplatí. Alternativní hypotéza má tvar: 00 :  H 01 01 01 : : :       H H H Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Testování hypotéz Testování hypotéz se zabývá rozhodováním o platnosti stanovených hypotéz na základě pozorovaných dat. Platnost hypotéz ověřujeme pomocí statistického testu – rozhodovacího pravidla, které každému náhodnému výběru přiřadí právě jedno ze dvou možných rozhodnutí – H0 nezamítáme nebo H0 zamítáme. Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Pravděpodobnost výsledků rozhodovacího procesu Rozhodnutí Skutečnost H0 platí H0 neplatí H0 nezamítneme správné rozhodnutí P = 1 – α chyba II. druhu P = β H0 zamítneme chyba I. druhu P = α správné rozhodnutí P = 1 – β Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Hypotézy - shrnutí Obecný postup – najít testovou statistiku (kritérium), která odráží rozdíl mezi daty a zkoumanou hypotézou Musíme znát její rozložení, pak můžeme odvodit pravděpodobnost, že jsme pozorovali příslušná data při platnosti nulové hypotézy testování není v modelování to nejdůležitější... více závěrů můžeme obvykle činit z intervalů spolehlivosti Opakování základů biostatistiky Závěr Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, Tomáš Pavlík, 2018 Bi7491 Regresní modelování – Opakování základů biostatistiky Co byste po dnešní hodině měli vědět a umět? Vyjmenovat různé typy dat, okomentovat jejich specifika Chápat pojem náhodné veličiny a znát jejich základní rozdělení Umět se zorientovat v datovém souboru – jak vypadají jednotlivé proměnné a jak spolu mohou vzájemně souviset Znát cíle a obecné postupy statistické inference