Opakování základů
biostatistiky
Bi7491 Regresní modelování
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Co byste po dnešní hodině měli
vědět a umět?
Vyjmenovat různé typy dat, okomentovat jejich specifika
Chápat pojem náhodné veličiny a znát jejich základní rozdělení
Umět se zorientovat v datovém souboru – jak vypadají jednotlivé
proměnné a jak spolu mohou vzájemně souviset
Znát cíle a obecné postupy statistické inference
Opakování základů biostatistiky
Typy dat
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Typy dat
Kvalitativní proměnná (kategoriální) – lze ji řadit do kategorií, ale nelze ji
kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné
vyjádření.
Příklady: pohlaví, HIV status, užívání drog, barva vlasů
Kvantitativní proměnná (numerická) – můžeme jí přiřadit číselnou hodnotu.
Rozlišujeme dva typy kvantitativních proměnných:
Spojité: může nabývat jakýchkoliv hodnot v určitém rozmezí.
Příklady: výška, váha, vzdálenost, čas, teplota.
Diskrétní: může nabývat pouze spočetně mnoha hodnot.
Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých
epizod za rok, počet dětí v rodině.
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Kvalitativní data lze dělit dále
Binární data – pouze dvě kategorie typu ano / ne.
Nominální data – více kategorií, které nelze vzájemně seřadit.
Nemá smysl ptát se na relaci větší/menší.
Ordinální data – více kategorií, které lze vzájemně seřadit.
Má smysl ptát se na relaci větší/menší.
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Kvalitativní data – příklady
Binární data
diabetes (ano/ne)
pohlaví (muž/žena)
stav (ženatý/svobodný)
Nominální data
krevní skupiny (A/B/AB/0)
stát EU (Belgie/…/Česká republika/…/Velká Británie)
stav (ženatý/svobodný/rozvedený/vdovec)
Ordinální data
stupeň bolesti (mírná/střední/velká/nesnesitelná)
spotřeba cigaret (nekuřák/ex-kuřák/občasný kuřák/pravidelný kuřák)
stadium maligního onemocnění (I/II/III/IV)
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Kvantitativní → kvalitativní ?
Kvůli interpretaci je někdy výhodné kvantitativní data agregovat do kategorií
(např. věk) – tímto krokem však ztrácíme část informace. Zpětně nejsme
schopni data rekonstruovat.
Diskrétní data
Spojitá data Kategoriální data
Kategoriální data
Opakování základů biostatistiky
Náhodná veličina
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Pojem náhodná veličina
Číselné vyjádření výsledku náhodného pokusu. Matematicky je to funkce, která
každému elementárnímu jevu ω z Ω přiřadí hodnotu X(ω) z nějaké množiny
možných hodnot.
Náhodná veličina se netýká pouze kvantitativních proměnných. Číselné
vyjádření výsledku náhodného pokusu může popisovat i pohlaví.
Chování náhodné veličiny lze popsat pomocí rozdělení pravděpodobnosti:
Funkce zadaná analyticky
Výčet možností a příslušných pravděpodobností
RX :
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Význam náhodných veličin
Množina Ω často není známa (může být i nekonečná) a nejsme tak schopni ji
popsat. Náhodná veličina převádí Ω na čísla, se kterými se pracuje lépe.
Neznáme-li Ω, nejsme schopni popsat ani X, ale jsme schopni ho pozorovat.
Základní
prostor Ω
Jev A ω1
R0R0 x1P(A)
Náhodná veličina XPravděpodobnost P
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Pravděpodobnostní chování
náhodné veličiny
Pravděpodobnostní chování náhodné veličiny je jednoznačně popsáno tzv.
rozdělením pravděpodobnosti náhodné veličiny .
Rozdělením náhodné veličiny X definované na prostoru s pravděpodobností P
rozumíme předpis, který jednoznačně určuje všechny pravděpodobnosti typu
pro každou .
Distribuční funkce
Hustota – spojité náhodné veličiny
Pravděpodobnostní funkce – diskrétní náhodné veličiny
))(:()()( BXPBXPBP iiX  
RB 
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Popis rozdělení pravděpodobnosti
Distribuční funkce popisuje rozdělení pravděpodobnosti kumulativním
způsobem.
Hustota a pravděpodobnostní funkce popisují rozdělení pravděpodobnosti pro
jednotlivé „body“ (respektive intervaly) na reálné ose.
Distribuční funkce a hustota, respektive pravděpodobnostní funkce, jsou
navzájem ekvivalentní, tedy známe-li jednu nepotřebujeme druhou.
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Distribuční funkce
Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné
ose.
Vlastnosti distribuční funkce?
))(:()()( xXPxXPxF ii  
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Distribuční funkce
Vyjadřuje pravděpodobnost, že náhodná veličina X nepřekročí dané x na reálné
ose.
Vlastnosti distribuční funkce:
1. Neklesající
2. Zprava spojitá
3.
4.
5.
1)(0  xF
))(:()()( xXPxXPxF ii  


xxF
xxF
pro1)(
pro0)(
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Distribuční funkce
)(xFy 
1x 2x x
)( 1xF
)( 2xF
y
)( 21 xXx 
)( 21 xXxP 
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Distribuční funkce – příklad
Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců.
Jak vypadá distribuční funkce X?
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Distribuční funkce – příklad
Uvažujme 5 hodů mincí. Náhodná veličina X představuje počet líců.
Jak vypadá distribuční funkce X?
X → {0, 1, 2, 3, 4, 5}
P(0) = 1 / 32
P(1) = 5 / 32
P(2) = 10 / 32
P(3) = 10 / 32
P(4) = 5 / 32
P(5) = 1 / 32
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Spojité a diskrétní náhodné veličiny
Náhodné veličiny dělíme dle podstaty na:
Spojité – mohou nabývat všech hodnot v daném intervalu.
Diskrétní – mohou nabývat nejvýše spočetně mnoha hodnot.
Spojitou náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv. hustota
pravděpodobnosti, což je funkce taková, že platí:
Diskrétní náhodnou veličinu X s distribuční funkcí F(x) charakterizuje tzv.
pravděpodobnostní funkce, což je funkce taková, že platí:
 

x
XX dttfxF )()(
 

xtxt
XX tXPtpxF )()()(
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
F(x) a f(x) a p(x)
Spojitá
náhodná
veličina
Diskrétní
náhodná
veličina
)20(  XP
)20(  XP
)3( XP
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Spojité a diskrétní náhodné veličiny -
příklady
Spojité náhodné veličiny:
Medicína: výška, váha, krevní tlak, glykémie, čas do sledované události, …
Biologie: biomasa na m2, listová plocha, pH, koncentrace látek ve vodě,
ovzduší, …
Diskrétní náhodné veličiny:
Medicína: počet krvácivých epizod, počet hospitalizací, počet dní po
operaci do odeznění bolesti, …
Biologie: počet zvířat na jednotku (plochu, objem), počet kolonií na misku,
…
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Normální rozdělení
pravděpodobnosti
Je kompletně popsáno dvěma parametry:
μ – střední hodnota, tedy E(X)
σ2 – rozptyl, tedy D(X)
Označení: N(μ, σ2)
Hustota pravděpodobnosti:
22
2/)(
2
2
2
1
),;( 

 
 x
exf
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Binomické rozdělení
Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě
nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém
experimentu je stejná pravděpodobnost výskytu události a je p = θ.
Pravděpodobnostní funkce:
knk
k
n
kXP 






 )1()( 
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Poissonovo rozdělení
Diskrétní rozdělení, které popisuje počet výskytů sledované události na danou
jednotku (času, plochy, objemu), když se tyto události vyskytují vzájemně
nezávisle s konstantní intenzitou (jediný parametr λ).
Jedná se o zobecnění binomického rozdělení pro a .
Pravděpodobnostní funkce:
Střední hodnota, rozptyl:
Příklady: průměrný výskyt mutací bakterií na 1 Petriho misku, počet krvinek
v poli mikroskopu, počet žížal vyskytujících se na 1 m2, počet pooperačních
komplikací během určitého časového intervalu po výkonu.
0,
!
);()( 

x
x
e
xpxXP
x
X



n 0p
  DXEX ,
Opakování základů biostatistiky
S jakými typy proměnných
se můžeme potýkat v modelech?
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Příklad: Lineární regrese
• Odhalení vztahu mezi stravováním ve fast-foodech,
sledování televize a BMI (spojitá závislá proměnná)
• Zařazeny proměnné:
věk, vzdělání, kouření, strava, pohyb
• U mužů nebyl zjištěn žádný vliv
• U žen se na obezitě významně podílelo sledování televize
i stravování ve fastfoodech (silněji u nízkopříjmových)
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Příklad: Logistická regrese
Způsobuje refluxní choroba jícnu („pálení žáhy“) zhoubný nádor jícnu?
(binární závisle proměnná)
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Příklad: Logistická regrese
Byla odhalena průkazná souvislost mezi
refluxní chorobou a rakovinou
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Příklad: smíšený model
• Jak dlouhodobě ovlivňuje léčba
tímto chemoterapeutikem kvalitu
života pacientů?
• Kvalita života – skóre, budeme považovat za spojité
(obyčejná lineární regrese?)
• Hodnoceno při pěti následujících návštěvách – od
jednotlivých pacientů máme 5 pozorování!!!
(jaké jsou předpoklady lineární regrese?)
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Příklad: smíšený model
(opakovaná měření)
Opakování základů biostatistiky
Vizualizace
Jedna proměnná
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Vizualizace a popis nominálních dat
Proměnná n %
Kategorie 10 5.0
Kategorie 40 20.0
Kategorie 130 65.0
Kategorie 20 10.0
Celkem 200 100.0 65,0%
10,0% 5,0%
20,0%
10
40
130
20
0
30
60
90
120
150
1 2 3 4
N
Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost.
Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce.
Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků.
K popisu může sloužit i tzv. modus – nejčetnější pozorovaná hodnota.
Frekvenční tabulka Sloupcový graf Koláčový graf
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Vizualizace a popis ordinálních dat
Proměnná n %
Kategorie 1 10 5.0
Kategorie 2 40 20.0
Kategorie 3 130 65.0
Kategorie 4 20 10.0
Celkem 200 100.0 65,0%
10,0% 5,0%
20,0%
10
40
130
20
0
30
60
90
120
150
1 2 3 4
N
Frekvenční tabulka Sloupcový graf Koláčový graf
Vizualizace sloupcovým / koláčovým grafem – absolutní i relativní četnost.
Sumarizace procentuálním výskytem kategorií v tzv. frekvenční tabulce.
Smysluplná agregace kategorií zjednodušuje interpretaci i validitu výsledků.
K popisu může sloužit i tzv. modus, případně medián (pouze dává-li to smysl).
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Frekvenční tabulka pro
kvantitativní data
1,21
1,48
1,56
0,31
1,21
1,33
0,33
0,21
1,32
1,11
.
.
.
.
n =
100
i-tý interval di ni ni / n %
<0 – 0,4) 0,4 20 0,2 20
<0,4 – 0,8) 0,4 10 0,1 10
<0,8 – 1,2) 0,4 40 0,4 40
<1,2 – 1,4) 0,2 20 0,2 20
<1,4 – 1,6) 0,2 10 0,1 10
Celkem 1,6 100 1 100
Primární data Frekvenční tabulka
di – šířka intervalu
ni – absolutní četnost v daném intervalu
ni / n – relativní četnost v daném intervalu
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Krabicový graf – box plot
Minimum = 0% kvantil
Maximum = 100% kvantil
Horní kvartil = 75% kvantil
Medián = 50% kvantil
Dolní kvartil = 25% kvantil
nebo 1,5krát délka krabičky od krabičky
nebo 1,5krát délka krabičky od krabičky
co se nevejde, je zobrazeno jako odlehlá hodnota
Opakování základů biostatistiky
Vizualizace
Více proměnných
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Jak hodnotit vztah dvou
kvantitativních veličin?
Nejjednodušší formou je bodový graf (x-y graf).
např. vztah mezi podílem tukové tkáně a BMI
10 15 20 25 30 35 40
15202530354045
adiposity
obesity
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Jak hodnotit vztah dvou
kvalitativních veličin?
kontingenční tabulka
graficky – sloupcové grafy
Podvaha Normalni Nadvaha Obezita
Hyp. krize
Hypertenze II
Hypertenze I
Prehypertenze
Normotenze
Telesna hmotnost
Zastoupeni-krevnitlak
0.00.20.40.60.81.0
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Jak hodnotit vztah kvalitativní a
kvantitativní veličiny?
tabulka dle kategorií s popisnými statistikami
krabicový graf (box and whisker plot)
páskový graf (stripchart)
Podvaha Normalni Nadvaha Obezita
100120140160180200220
Systolickytlakkrve
Opakování základů biostatistiky
Statistická inference a modelování
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Základní pojmy
Náhodná veličina X – číselné ohodnocení výsledku experimentu, zajímá nás její
pravděpodobnostní chování – popisuje ho rozdělení pravděpodobnosti
náhodné veličiny X.
Parametr rozdělení pravděpodobnosti – neznámá hodnota, θ, na které závisí
předpis rozdělení pravděpodobnosti
Náhodný výběr (rozsahu n) – vzájemně nezávislé a stejně rozdělené náhodné
veličiny x = x1, x2, …, xn
Statistika – funkce náhodného výběru
Odhad parametru θ – statistika, kterou se snažíme „uhodnout“ skutečnou
hodnotu parametru, obvykle značíme ˆ
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Co je cílem inference?
sestavit tvrzení o mechanismu, který stojí za vznikem dat
ve statistickém modelování se obvykle snažíme vztáhnout nějaký výsledek
(závisle proměnnou, u níž předpokládáme konkrétní rozdělení) k jiným
měřeným charakteristikám
klíčové části modelu jsou parametry, např. střední hodnota hmotnosti,
pravděpodobnost úmrtí po operaci srdce, nárůst rizika úmrtí při větší
zjištěné velikosti nádoru, apod.
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Parametr?
0 10 20 30 40 50 60
020406080100120140
BMI
VitaminD
111,05
Intercept
(posun,
absolutní člen)
23,9 (na 10 jednotek)
Slope
(směrnice přímky)
,
ni
xEY ii
,...,1
110

 
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Postup
praktická hypotéza
přeformulování řečí statistického modelu
statistická inference:
odhad parametrů
ověření předpokladů modelu
testování hypotéz
Platí to i pro statistické úlohy, které dávno znáte?
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Odhad parametrů modelu
parametry jsou neznámé konstanty
představují cíl našeho snažení ve statistice
nikdy nepoznáme, ale můžeme „hádat“
musíme vyřešit odhadovací rovnice
zřídkakdy mají jednoduché explicitní řešení
obyčejná lineární regrese je výjimkou – metoda nejmenších čtverců
obecnou metodou je metoda maximální věrohodnosti
„náš“ odhad parametrů bude ten, který nejspíše vede k pozorovaným datům
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Nejistota v odhadech
kdybychom experiment zopakovali, dostaneme odlišný odhad, byť
použijeme úplně stejný model...
vychýlení (bias) – odlišnost střední hodnoty odhadu a skutečné hodnoty
parametru
rozdělení odhadu → interval spolehlivosti parametru
souvisí se směrodatnou odchylkou tohoto odhadu – standardní chybou
(často můžeme předpokládat normální rozdělení – centrální limitní věta)
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Interpretace intervalu spolehlivosti
Poloha neznámého parametru je
konstantní!!!
95% interval spolehlivosti má následující
interpretaci:
Pokud bychom opakovaně vybírali skupiny
subjektů o stejné velikosti (n) a počítali
výběrový průměr s 95% IS, pak 95 % těchto
intervalů spolehlivosti neznámý parametr
obsahuje a 5 % ho neobsahuje. Tedy 95%
IS obsahuje neznámý parametr s rizikem α.
R0
μ
x1
( )
d1 h1
x2
( )
d2 h2
x3
( )
d3 h3
………
x100
( )
d100 h100
x99
( )
d99 h99
cca 95 %
cca 5 %
x
( )
d h
x
( )
d h
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Ověření předpokladů modelu
Grafické nástroje
REZIDUA - rozdíl mezi pozorováním a modelovanou hodnotou
složitější definice u dalších typů výsledků
Numerické nástroje
postavit obecnější (větší) model, testovat, zda přináší novou informaci
VAROVÁNÍ...
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
„Rybářská výprava“
ke správné vědecké metodologii patří stanovení hypotéz před
provedením experimentu
v praxi se běžně objevují studie, které naopak slouží ke hledání
(screeningu) budoucích hypotéz
interpretace (často vícenásobného) testování musí být v takovém
případě velmi obezřetná a odlišná od případu, kdy je studie vykonána
k ověření konkrétní hypotézy (typicky klinické studie fáze III)
zvláštním případem jsou automatické metody pro hledání
vysvětlujících proměnných (extrémem je best subsets)
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Ověření předpokladů modelu
Grafické nástroje
REZIDUA - rozdíl mezi pozorováním a modelovanou hodnotou
složitější definice u dalších typů výsledků
Numerické nástroje
postavit obecnější (větší) model, testovat hypotézu
testy např. na normalitu reziduí – nepříliš užitečné
srovnání pozorovaného a očekávaného počtu případů (Chí kvadrát test)
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Hypotézy
Nulová hypotéza („null hypothesis“) – tvrzení o neznámých vlastnostech
rozdělení pravděpodobnosti sledované náhodné veličiny (na cílové
populaci). Může být tvrzením o parametrech rozdělení nebo tvaru rozdělení
pravděpodobnosti.
Nulová hypotéza má tvar:
Alternativní hypotéza – tvrzení o neznámých vlastnostech rozdělení
pravděpodobnosti sledované náhodné veličiny, které popírá platnost nulové
hypotézy. Vymezuje, jaká situace nastává, když nulová hypotéza neplatí.
Alternativní hypotéza má tvar:
00 :  H
01
01
01
:
:
:






H
H
H
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Testování hypotéz
Testování hypotéz se zabývá rozhodováním o platnosti stanovených hypotéz
na základě pozorovaných dat.
Platnost hypotéz ověřujeme pomocí statistického testu – rozhodovacího
pravidla, které každému náhodnému výběru přiřadí právě jedno ze dvou
možných rozhodnutí – H0 nezamítáme nebo H0 zamítáme.
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Pravděpodobnost výsledků rozhodovacího procesu
Rozhodnutí
Skutečnost
H0 platí H0 neplatí
H0 nezamítneme
správné rozhodnutí
P = 1 – α
chyba II. druhu
P = β
H0 zamítneme
chyba I. druhu
P = α
správné rozhodnutí
P = 1 – β
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Hypotézy - shrnutí
Obecný postup – najít testovou statistiku (kritérium), která odráží rozdíl
mezi daty a zkoumanou hypotézou
Musíme znát její rozložení, pak můžeme odvodit pravděpodobnost, že jsme
pozorovali příslušná data při platnosti nulové hypotézy
testování není v modelování to nejdůležitější... více závěrů můžeme
obvykle činit z intervalů spolehlivosti
Opakování základů biostatistiky
Závěr
Institut biostatistiky a analýz
Masarykova univerzita
Ondřej Májek, Tomáš Pavlík, 2018
Bi7491 Regresní modelování – Opakování základů biostatistiky
Co byste po dnešní hodině měli
vědět a umět?
Vyjmenovat různé typy dat, okomentovat jejich specifika
Chápat pojem náhodné veličiny a znát jejich základní rozdělení
Umět se zorientovat v datovém souboru – jak vypadají jednotlivé
proměnné a jak spolu mohou vzájemně souviset
Znát cíle a obecné postupy statistické inference