Opakování základů biostatistiky Bi7491 Regresní modelování Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste po dnešní hodině měli vědět a umět? Vyjmenovat různé typy dat, okomentovat jejich specifika Chápat pojem náhodné veličiny a znát jejich základní rozdělení Umět se zorientovat v datovém souboru – jak vypadají jednotlivé proměnné a jak spolu mohou vzájemně souviset Znát cíle a obecné postupy statistické inference Opakování základů biostatistiky Typy dat Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Typy dat Kvalitativní proměnná (kategoriální) – lze ji řadit do kategorií, ale nelze ji kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné vyjádření. Příklady: pohlaví, HIV status, užívání drog, barva vlasů Kvantitativní proměnná (numerická) – můžeme jí přiřadit číselnou hodnotu. Rozlišujeme dva typy kvantitativních proměnných: Spojité: může nabývat jakýchkoliv hodnot v určitém rozmezí. Příklady: výška, váha, vzdálenost, čas, teplota. Diskrétní: může nabývat pouze spočetně mnoha hodnot. Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok, počet dětí v rodině. Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kvalitativní data lze dělit dále Binární data – pouze dvě kategorie typu ano / ne. Nominální data – více kategorií, které nelze vzájemně seřadit. Nemá smysl ptát se na relaci větší/menší. Ordinální data – více kategorií, které lze vzájemně seřadit. Má smysl ptát se na relaci větší/menší. Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kvalitativní data – příklady Binární data diabetes (ano/ne) pohlaví (muž/žena) stav (ženatý/svobodný) Nominální data krevní skupiny (A/B/AB/0) stát EU (Belgie/…/Česká republika/…/Velká Británie) stav (ženatý/svobodný/rozvedený/vdovec) Ordinální data stupeň bolesti (mírná/střední/velká/nesnesitelná) spotřeba cigaret (nekuřák/ex-kuřák/občasný kuřák/pravidelný kuřák) stadium maligního onemocnění (I/II/III/IV) Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kvantitativní → kvalitativní ? Kvůli interpretaci je někdy výhodné kvantitativní data agregovat do kategorií (např. věk) – tímto krokem však ztrácíme část informace. Zpětně nejsme schopni data rekonstruovat. Diskrétní data Spojitá data Kategoriální data Kategoriální data Opakování základů biostatistiky Náhodná veličina Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Pojem náhodná veličina Číselné vyjádření výsledku náhodného pokusu. Matematicky je to funkce, která každému elementárnímu jevu ω z Ω přiřadí hodnotu X(ω) z nějaké množiny možných hodnot. Náhodná veličina se netýká pouze kvantitativních proměnných. Číselné vyjádření výsledku náhodného pokusu může popisovat i pohlaví. Chování náhodné veličiny lze popsat pomocí rozdělení pravděpodobnosti: Funkce zadaná analyticky Výčet možností a příslušných pravděpodobností RX →: Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Význam náhodných veličin Množina Ω často není známa (může být i nekonečná) a nejsme tak schopni ji popsat. Náhodná veličina převádí Ω na čísla, se kterými se pracuje lépe. Neznáme-li Ω, nejsme schopni popsat ani X, ale jsme schopni ho pozorovat. Základní prostor Ω Jev A ω1 R0R0 x1P(A) Náhodná veličina XPravděpodobnost P Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Pravděpodobnostní chování náhodné veličiny Pravděpodobnostní chování náhodné veličiny je jednoznačně popsáno tzv. rozdělením pravděpodobnosti náhodné veličiny . Rozdělením náhodné veličiny X definované na prostoru s pravděpodobností P rozumíme předpis, který jednoznačně určuje všechny pravděpodobnosti typu pro každou . Distribuční funkce Hustota – spojité náhodné veličiny Pravděpodobnostní funkce – diskrétní náhodné veličiny ))(:()()( BXPBXPBP iiX ==  RB  Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Popis rozdělení pravděpodobnosti Distribuční funkce popisuje rozdělení pravděpodobnosti kumulativním způsobem. Hustota a pravděpodobnostní funkce popisují rozdělení pravděpodobnosti pro jednotlivé „body“ (respektive intervaly) na reálné ose. Distribuční funkce a hustota, respektive pravděpodobnostní funkce, jsou navzájem ekvivalentní, tedy známe-li jednu nepotřebujeme druhou. Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Distribuční funkce Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné ose. Vlastnosti distribuční funkce? ))(:()()( xXPxXPxF ii ==  Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Distribuční funkce Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné ose. Vlastnosti distribuční funkce: 1. Neklesající 2. Zprava spojitá 3. 4. 5. 1)(0  xF ))(:()()( xXPxXPxF ii ==  →→ −→→ xxF xxF pro1)( pro0)( Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Distribuční funkce )(xFy = 1x 2x x )( 1xF )( 2xF y )( 21 xXx  )( 21 xXxP  Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Distribuční funkce – příklad Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců. Jak vypadá distribuční funkce X? Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Distribuční funkce – příklad Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců. Jak vypadá distribuční funkce X? X → {0, 1, 2, 3, 4, 5} P(0) = 1 / 32 P(1) = 5 / 32 P(2) = 10 / 32 P(3) = 10 / 32 P(4) = 5 / 32 P(5) = 1 / 32 Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Spojité a diskrétní náhodné veličiny Náhodné veličiny dělíme dle podstaty na: Spojité – mohou nabývat všech hodnot v daném intervalu. Diskrétní – mohou nabývat nejvýše spočetně mnoha hodnot. Spojitou náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. hustota pravděpodobnosti, což je funkce taková, že platí: Diskrétní náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. pravděpodobnostní funkce, což je funkce taková, že platí:  − = x XX dttfxF )()(   === xtxt XX tXPtpxF )()()( Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita F(x) a f(x) a p(x) Spojitá náhodná veličina Diskrétní náhodná veličina )20(  XP )20(  XP )3( =XP Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Spojité a diskrétní náhodné veličiny - příklady Spojité náhodné veličiny: Medicína: výška, váha, krevní tlak, glykémie, čas do sledované události, … Biologie: biomasa na m2, listová plocha, pH, koncentrace látek ve vodě, ovzduší, … Diskrétní náhodné veličiny: Medicína: počet krvácivých epizod, počet hospitalizací, počet dní po operaci do odeznění bolesti, … Biologie: počet zvířat na jednotku (plochu, objem), počet kolonií na misku, … Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Normální rozdělení pravděpodobnosti Je kompletně popsáno dvěma parametry: μ – střední hodnota, tedy E(X) σ2 – rozptyl, tedy D(X) Označení: N(μ, σ2) Hustota pravděpodobnosti: 22 2/)( 2 2 2 1 ),;(    −− = x exf Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Binomické rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém experimentu je stejná pravděpodobnost výskytu události a je p = θ. Pravděpodobnostní funkce: knk k n kXP − −      == )1()(  Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Poissonovo rozdělení Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně nezávisle s konstantní intenzitou (jediný parametr λ). Jedná se o zobecnění binomického rozdělení pro a . Pravděpodobnostní funkce: Střední hodnota, rozptyl: Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních komplikací během určitého časového intervalu po výkonu. 0, ! );()( === − x x e xpxXP x X    →n 0→p  == DXEX , Opakování základů biostatistiky S jakými typy proměnných se můžeme potýkat v modelech? Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Lineární regrese • Odhalení vztahu mezi stravováním ve fast-foodech, sledování televize a BMI (spojitá závislá proměnná) • Zařazeny proměnné: věk, vzdělání, kouření, strava, pohyb • U mužů nebyl zjištěn žádný vliv • U žen se na obezitě významně podílelo sledování televize i stravování ve fastfoodech (silněji u nízkopříjmových) Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Logistická regrese Způsobuje refluxní choroba jícnu („pálení žáhy“) zhoubný nádor jícnu? (binární závisle proměnná) Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: Logistická regrese Byla odhalena průkazná souvislost mezi refluxní chorobou a rakovinou Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: smíšený model • Jak dlouhodobě ovlivňuje léčba tímto chemoterapeutikem kvalitu života pacientů? • Kvalita života – skóre, budeme považovat za spojité (obyčejná lineární regrese?) • Hodnoceno při pěti následujících návštěvách – od jednotlivých pacientů máme 5 pozorování (jaké jsou předpoklady lineární regrese?) Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad: smíšený model (opakovaná měření) Opakování základů biostatistiky Vizualizace Jedna proměnná Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Vizualizace a popis nominálních dat Proměnná n % Kategorie 10 5.0 Kategorie 40 20.0 Kategorie 130 65.0 Kategorie 20 10.0 Celkem 200 100.0 65,0% 10,0% 5,0% 20,0% 10 40 130 20 0 30 60 90 120 150 1 2 3 4 N Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost. Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. K popisu může sloužit i tzv. modus – nejčetnější pozorovaná hodnota. Frekvenční tabulka Sloupcový graf Koláčový graf Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Vizualizace a popis ordinálních dat Proměnná n % Kategorie 1 10 5.0 Kategorie 2 40 20.0 Kategorie 3 130 65.0 Kategorie 4 20 10.0 Celkem 200 100.0 65,0% 10,0% 5,0% 20,0% 10 40 130 20 0 30 60 90 120 150 1 2 3 4 N Frekvenční tabulka Sloupcový graf Koláčový graf Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost. Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce. Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků. K popisu může sloužit i tzv. modus, případně medián (pouze dává-li to smysl). Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Frekvenční tabulka pro kvantitativní data 1,21 1,48 1,56 0,31 1,21 1,33 0,33 0,21 1,32 1,11 . . . . n = 100 i-tý interval di ni ni / n % <0 – 0,4) 0,4 20 0,2 20 <0,4 – 0,8) 0,4 10 0,1 10 <0,8 – 1,2) 0,4 40 0,4 40 <1,2 – 1,4) 0,2 20 0,2 20 <1,4 – 1,6) 0,2 10 0,1 10 Celkem 1,6 100 1 100 Primární data Frekvenční tabulka di – šířka intervalu ni – absolutní četnost v daném intervalu ni / n – relativní četnost v daném intervalu Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Krabicový graf – box plot Minimum = 0% kvantil Maximum = 100% kvantil Horní kvartil = 75% kvantil Medián = 50% kvantil Dolní kvartil = 25% kvantil nebo 1,5krát délka krabičky od krabičky nebo 1,5krát délka krabičky od krabičky co se nevejde, je zobrazeno jako odlehlá hodnota Opakování základů biostatistiky Vizualizace Více proměnných Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Jak hodnotit vztah dvou kvantitativních veličin? Nejjednodušší formou je bodový graf (x-y graf). např. vztah mezi podílem tukové tkáně a BMI 10 15 20 25 30 35 40 15202530354045 adiposity obesity Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Jak hodnotit vztah dvou kvalitativních veličin? kontingenční tabulka graficky – sloupcové grafy Podvaha Normalni Nadvaha Obezita Hyp. krize Hypertenze II Hypertenze I Prehypertenze Normotenze Telesna hmotnost Zastoupeni-krevnitlak 0.00.20.40.60.81.0 Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Jak hodnotit vztah kvalitativní a kvantitativní veličiny? tabulka dle kategorií s popisnými statistikami krabicový graf (box and whisker plot) páskový graf (stripchart) Podvaha Normalni Nadvaha Obezita 100120140160180200220 Systolickytlakkrve Opakování základů biostatistiky Statistická inference a modelování Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Základní pojmy Náhodná veličina X – číselné ohodnocení výsledku experimentu, zajímá nás její pravděpodobnostní chování – popisuje ho rozdělení pravděpodobnosti náhodné veličiny X. Parametr rozdělení pravděpodobnosti – neznámá hodnota, θ, na které závisí předpis rozdělení pravděpodobnosti Náhodný výběr (rozsahu n) – vzájemně nezávislé a stejně rozdělené náhodné veličiny x = x1, x2, …, xn Statistika – funkce náhodného výběru Odhad parametru θ – statistika, kterou se snažíme „uhodnout“ skutečnou hodnotu parametru, obvykle značíme ˆ Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co je cílem inference? sestavit tvrzení o mechanismu, který stojí za vznikem dat ve statistickém modelování se obvykle snažíme vztáhnout nějaký výsledek (závisle proměnnou, u níž předpokládáme konkrétní rozdělení) k jiným měřeným charakteristikám klíčové části modelu jsou parametry, např. střední hodnota hmotnosti, pravděpodobnost úmrtí po operaci srdce, nárůst rizika úmrtí při větší zjištěné velikosti nádoru, apod. Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Parametr? 0 10 20 30 40 50 60 020406080100120140 BMI VitaminD 111,05 Intercept (posun, absolutní člen) 23,9 (na 10 jednotek) Slope (směrnice přímky) , ni xEY ii ,...,1 110 = +=  Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Postup praktická hypotéza přeformulování řečí statistického modelu statistická inference: odhad parametrů ověření předpokladů modelu testování hypotéz Platí to i pro statistické úlohy, které dávno znáte? Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Odhad parametrů modelu parametry jsou neznámé konstanty představují cíl našeho snažení ve statistice nikdy nepoznáme, ale můžeme „hádat“ musíme vyřešit odhadovací rovnice zřídkakdy mají jednoduché explicitní řešení obyčejná lineární regrese je výjimkou – metoda nejmenších čtverců obecnou metodou je metoda maximální věrohodnosti „náš“ odhad parametrů bude ten, který nejspíše vede k pozorovaným datům Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Nejistota v odhadech kdybychom experiment zopakovali, dostaneme odlišný odhad, byť použijeme úplně stejný model... vychýlení (bias) – odlišnost střední hodnoty odhadu a skutečné hodnoty parametru rozdělení odhadu → interval spolehlivosti parametru souvisí se směrodatnou odchylkou tohoto odhadu – standardní chybou (často můžeme předpokládat normální rozdělení – centrální limitní věta) Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Interpretace intervalu spolehlivosti Poloha neznámého parametru je konstantní!!! 95% interval spolehlivosti má následující interpretaci: Pokud bychom opakovaně vybírali skupiny subjektů o stejné velikosti (n) a počítali výběrový průměr s 95% IS, pak 95 % těchto intervalů spolehlivosti neznámý parametr obsahuje a 5 % ho neobsahuje. Tedy 95% IS obsahuje neznámý parametr s rizikem α. R0 μ x1 ( ) d1 h1 x2 ( ) d2 h2 x3 ( ) d3 h3 ……… x100 ( ) d100 h100 x99 ( ) d99 h99 cca 95 % cca 5 % x ( ) d h x ( ) d h Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Ověření předpokladů modelu Grafické nástroje REZIDUA - rozdíl mezi pozorováním a modelovanou hodnotou složitější definice u dalších typů výsledků Numerické nástroje postavit obecnější (větší) model, testovat, zda přináší novou informaci VAROVÁNÍ... Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita „Rybářská výprava“ ke správné vědecké metodologii patří stanovení hypotéz před provedením experimentu v praxi se běžně objevují studie, které naopak slouží ke hledání (screeningu) budoucích hypotéz interpretace (často vícenásobného) testování musí být v takovém případě velmi obezřetná a odlišná od případu, kdy je studie vykonána k ověření konkrétní hypotézy (typicky klinické studie fáze III) zvláštním případem jsou automatické metody pro hledání vysvětlujících proměnných (extrémem je best subsets) Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Ověření předpokladů modelu Grafické nástroje REZIDUA - rozdíl mezi pozorováním a modelovanou hodnotou složitější definice u dalších typů výsledků Numerické nástroje postavit obecnější (větší) model, testovat hypotézu testy např. na normalitu reziduí – nepříliš užitečné srovnání pozorovaného a očekávaného počtu případů (Chí kvadrát test) Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Hypotézy Nulová hypotéza („null hypothesis“) – tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny (na cílové populaci). Může být tvrzením o parametrech rozdělení nebo tvaru rozdělení pravděpodobnosti. Nulová hypotéza má tvar: Alternativní hypotéza – tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny, které popírá platnost nulové hypotézy. Vymezuje, jaká situace nastává, když nulová hypotéza neplatí. Alternativní hypotéza má tvar: 00 :  =H 01 01 01 : : :       H H H Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Testování hypotéz Testování hypotéz se zabývá rozhodováním o platnosti stanovených hypotéz na základě pozorovaných dat. Platnost hypotéz ověřujeme pomocí statistického testu – rozhodovacího pravidla, které každému náhodnému výběru přiřadí právě jedno ze dvou možných rozhodnutí – H0 nezamítáme nebo H0 zamítáme. Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Pravděpodobnost výsledků rozhodovacího procesu Rozhodnutí Skutečnost H0 platí H0 neplatí H0 nezamítneme správné rozhodnutí P = 1 – α chyba II. druhu P = β H0 zamítneme chyba I. druhu P = α správné rozhodnutí P = 1 – β Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Hypotézy - shrnutí Obecný postup – najít testovou statistiku (kritérium), která odráží rozdíl mezi daty a zkoumanou hypotézou Musíme znát její rozložení, pak můžeme odvodit pravděpodobnost, že jsme pozorovali příslušná data při platnosti nulové hypotézy testování není v modelování to nejdůležitější... více závěrů můžeme obvykle činit z intervalů spolehlivosti Opakování základů biostatistiky Závěr Ondřej Májek, Tomáš Pavlík, 2020 Bi7491 Regresní modelování – Opakování základů biostatistiky Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste po dnešní hodině měli vědět a umět? Vyjmenovat různé typy dat, okomentovat jejich specifika Chápat pojem náhodné veličiny a znát jejich základní rozdělení Umět se zorientovat v datovém souboru – jak vypadají jednotlivé proměnné a jak spolu mohou vzájemně souviset Znát cíle a obecné postupy statistické inference