Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
1
MNBS081 Biostatistika
(jaro 2022)
MICHAL SVOBODA
Institut biostatistiky a analýz LF MU
svoboda@iba.muni.cz

Adobe Systems
Institut biostatistiky a analýz LF – Výuka
2
Osnova
̶Excel: opakování, příprava dat, základní vzorce
̶Základy popisné statistiky
̶Základní rozdělení pravděpodobnosti, testování hypotéz
̶Parametrické testy
̶Neparametrické testy
̶Analýza kontingenčních tabulek
̶Základy korelační analýzy a lineární regrese

Adobe Systems
Institut biostatistiky a analýz LF – Výuka
3
Důležité informace
̶Výuka: 14:00–15:40, počítačová učebna F01B1/709
̶Materiály v IS
̶Software: Microsoft Office - Excel, Statistica
̶Pro získání zápočtu/kolokvia je třeba:
1) Účast – povoleny jsou 2 absence
oPři větší absenci – splnění písemky na konci semestru (teoretická část + řešení příkladů na
počítači)
2) Domácí úkoly – povoleno max 1 neodevzdání
oza účelem procvičení, dostanete zpětnou vazbu, na dalším cvičení se vrátíme, kdyby byl problém
3) Závěrečný úkol – datový soubor – praktické úkoly
̶
o
o

Adobe Systems
Institut biostatistiky a analýz LF – Výuka
4
Organizace výuky
•15. 2. – Excel: opakování, příprava dat, základní vzorce
•1. 3. – Základy popisné statistiky (pozor! 22. 2.  setkání nebude)
•15. 3. – Základní rozdělení pravděpodobnosti, testování hypotéz (pozor! 8. 3.  setkání nebude)
•22. 3. – Parametrické testy
•29. 3. – Neparametrické testy
•5. 4. – Analýza kontingenčních tabulek, testy dobré shody
•12. 4. – Korelační analýza + základy lineární regrese
•19. 4. – Volitelné sezení (návrat k některým tématům)
•3. 5. – Ukončení předmětu, test
•10. 5. – Vyhodnocení testu

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
Opakování
1.Co jsou kvalitativní a kvantitativní data?
2.Uveďte příklady binárních / nominálních / ordinálních dat.
3.Jakými charakteristikami popisujeme kvalitativní data?
4.Jakými charakteristikami popisujeme kvantitativní data?
5.Jak správně vizualizujeme kvalitativní data?
6.Jak správně vizualizujeme kvantitativní data?
7.

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
6
Modelová rozdělení
Parametry rozdělení
Přehled modelových rozdělení
Logaritmicko-normální rozdělení

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
7
Výběrové rozdělení hodnot
̶Lze popsat a definovat pravděpodobnost výskytu X
f(x)
x
f(x)
x
f(x)
x
j(x)
j(x)
j(x)

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
8
Parametry rozdělení
̶Proměnné můžeme charakterizovat parametry rozdělení
̶Hlavní skupiny těchto parametrů můžeme charakterizovat jako ukazatele:
̶Středu (medián, průměr, geometrický průměr)
̶Šířky rozdělení (rozsah hodnot, rozptyl, sm. odchylka)
̶Tvaru rozdělení (skewness, kurtosis)
̶Kvantily rozdělení

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
9
Přehled modelových rozdělení
Symetrická data
Binomické
Asymetrická data
Rovnoměr-né diskrétní
Geometri-cké
Negativní binomické
Hypergeo-metrické
Rovnoměr-né spojité
Triangulární
Normální
Logistické
Exponen-ciální
Lognormal, Gamma, Weibull
Diskrétní data
Spojitá data
Symetrická data
Asymetrická data
Hodnoty kolem středu
Hodnoty ne kolem středu
Pozice odlehlých hodnot: pozitivní; negativní
Hodnoty ne kolem středu
Hodnoty kolem středu; různý výskyt odlehlých hodnot
Minimum extreme
Pozice odlehlých hodnot: pozitivní; negativní

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
10
Log-normální a normální rozdělení
f(x)
Medián
x
Průměr
f(y)
Medián
y
Průměr
Y = ln [X]
=
•
EXP (Y) = Geometrický průměr X

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
11
Normální rozdělení
Normální rozdělení
Pravidlo 3 sigma
Parametry normálního rozdělení
Vizuální ověření normality dat

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
12
Normální rozdělení
̶Nejklasičtějším modelovým rozdělením, od něhož je odvozena celá řada statistických analýz je tzv.
normální rozdělení, známé též jako Gaussova křivka.
̶Popisuje rozdělení pravděpodobnosti spojité náhodné veličiny, např. výška v populaci, chyba měření
...
̶Je kompletně popsáno dvěma parametry:
μ – střední hodnota
σ2 – rozptyl
Označení: N(μ, σ2)
Soubor:Normal Distribution PDF.svg
NORMALITA je klíčovým předpo-kladem řady statistických metod
http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
13
Pravidlo 3 sigma
̶V rozmezí μ ± 3σ by se mělo vyskytovat 99,7 % všech hodnot
̶
̶
̶
̶
̶
̶
̶
̶
̶Použití: zhodnotíme tvar rozdělení (pouze orientačně) a přítomnost odlehlých hodnot
̶
Soubor:Standard deviation diagram.svg
99,7 %  všech hodnot

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
14
Vizuální ověření normality
̶Pro hodnocení tvaru rozložení lze využít histogram (nevýhoda: nutné určit „vhodný“ počet  sloupců)
̶
̶
̶
̶
̶
̶
̶
̶Vhodnější jsou:
̶Q-Q graf (kvantil-kvantilový graf)
̶P-P graf (pravděpodobnostně-pravděpodobnostní graf)
̶N-P graf (normálně-pravděpodobnostní graf)

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
15
Rozdíl mezi N-P, Q-Q, P-P grafem
???
•Pouze výměna os
•Znázorněn pozorovaný a teoretický kvantil
•Vykresleno kumulativní rozdělení
PAMATUJ:
Pocházejí-li data z normálního rozložení, pak body budou ležet okolo přímky
http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png

Adobe Systems
Asymetrie v diagnostických grafech
Konkávní
křivka
Konvexní
křivka
Výukové materiály: Výpočetní statistika Dr. Marie Budíková 2011

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
17
Základy testování hypotéz
Princip statistického testování hypotéz
Pojmy statistických testů
Normalita dat a její význam pro testování
Ověření normality dat pomocí testu

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
18
Princip testování hypotéz
̶Formulace hypotézy
̶Výběr cílové populace a z ní reprezentativního vzorku
̶Měření sledovaných parametrů
̶Použití odpovídajícího testu       závěr testu
̶Interpretace výsledků
Cílová
populace
Vzorek
Reprezentativnost ?
Závěr ?
Interpretace
Měření parametrů
Testy hypotéz
?

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
19
Možné chyby při testování hypotéz
̶
̶I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o
(ne)zamítnutí nulové hypotézy dopustit chyby.
β
1- β
1- α
α
Závěr testu
H0 nezamítáme
H0 zamítáme
Chyba I. druhu
Falešně pozitivní závěr testu
Chyba II. druhu
Falešně negativní závěr testu

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
20
Význam chyb při testování hypotéz
̶
̶Pravděpodobnost chyby 1. druhu
̶
̶
̶Pravděpodobnost chyby 2. druhu
̶
̶
̶Síla testu
Pravděpodobnost nesprávného zamítnutí nulové hypotézy, hladina významnosti
Pravděpodobnost nerozpoznání neplatné nulové hypotézy
Pravděpodobnostně vyjádřená schopnost rozpoznat neplatnost nulové hypotézy
α
β
1-β

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
21
Možné chyby při testování hypotéz

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
22
Možné chyby při testování hypotéz

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
23
Způsoby testování
̶Testování H0 proti HA na hladině významnosti α můžeme provést třemi různými  způsoby:
1.Kritický obor neboli obor zamítnutí  H0 ,
2.Interval spolehlivosti,
3.P-hodnota (vyjadřuje pravděpodobnost za platnosti H0, s níž bychom získali stejnou nebo
extrémnější hodnotu testové statistiky).

Adobe Systems
̶Významnost hypotézy hodnotíme dle získané p-hodnoty, která vyjadřuje pravděpodobnost, s jakou
číselné realizace výběru podporují H0, je-li pravdivá.
̶P-hodnotu porovnáme s hladinou významnosti α (stanovujeme ji na 0,05, tzn. připouštíme 5% chybu
testu, tedy, že zamítneme H0, ačkoliv ve skutečnosti platí).
̶P-hodnotu získáme při testování hypotéz ve statistickém softwaru.
̶
Je-li p ≤ α, pak  H0 zamítáme na hladině významnosti α a přijímáme HA.
Je-li p > α, pak H0 nezamítáme na hladině významnosti α.
Institut biostatistiky a analýz LF – Výuka – Biostatistika
24
Způsoby testování: P-hodnota

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
25
Poznámky k testování hypotéz
̶Nezamítnutí nulové hypotézy neznamená automaticky její přijetí! Může se jednat o situaci, kdy pro
zamítnutí nulové hypotézy nemáme dostatečné množství informace.
̶Dosažená hladina významnosti testu (ať už 5 %, 1 % nebo 10 %) nesmí být slepě brána jako hranice
pro (ne)existenci testovaného efektu.
̶Malá p-hodnota nemusí znamenat velký efekt. Hodnota testové statistiky a p-hodnota mohou být
ovlivněny velkou velikostí vzorku a malou variabilitou pozorovaných dat.
̶Na výsledky testování musí být nahlíženo kriticky – jedná se o závěr založeny „pouze“ na jednom
výběrovém souboru.
̶Statistická významnost indikuje, že pozorovaný rozdíl není náhodný, ale nemusí znamenat, že je
významný i ve skutečnosti. Důležitá je i praktická (klinická) významnost.

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
26
Testy normality
̶Testy normality testují nulovou hypotézu, že není rozdíl mezi zpracovávaným rozložením a normálním
rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality,
např. bimodalitu některé testy neodhalí.
Chí-kvadrát test dobré shody
Vhodný pro větší datové soubory. Srovnává pozorované četnosti s očekávanými hodnotami v třídách
podobně jako při tvorbě histogramu.
Kolmogorovův - Smirnovův test
Často používaný test, zaměřuje se zejména na distribuční funkci. Častěji se používá v jeho
modifikaci – Lilieforsův test.
Shapirův-Wilkův test
Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu. Je zaměřen na
testování symetrie.

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
27
Praktické cvičení v programu Statistica

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
28
Datový soubor
Rehabilitace po mozkovém infarktu

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
29
Rehabilitace po mozkovém infarktu
̶Cvičný datový soubor obsahuje záznamy o celkem 407 pacientech hospitalizovaných pro mozkový
infarkt na neurologickém oddělení akutní péče, kde jim byla poskytnuta terapie pro obnovu krevního
oběhu v postižené části mozku.
̶Po zvládnutí akutní fáze byl u pacientů vyhodnocen stupeň soběstačnosti v základních denních
aktivitách (ADL) pomocí tzv. indexu Barthelové (BI) a byli přeloženi na rehabilitační oddělení.
̶Po dvou týdnech byl opět dle BI vyhodnocen stupeň soběstačnosti a pacienti byli buď propuštěni do
ambulantní péče, nebo přeloženi na oddělení následné péče.

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
30
Sbírané informace:
̶základní demografické údaje (pohlaví a věk),
̶informace o samotné diagnóze mozkové příhody (etiologie a lokalizace uzávěru cévy),
̶informace o léčbě (typ indikované terapie a výskyt komplikací)
̶informace o způsobu ukončení rehabilitace.
̶Stupeň soběstačnosti před rehabilitací byl dodatečně zjištěn z neurologie a na konci rehabilitace
byl vyplněn nový dotazník pro určení výsledného indexu Barthelové.
Rehabilitace po mozkovém infarktu

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
31
Úkol č. 1 – Normálně rozdělená data
Zadání: „Ověřte normalitu věku při mozkovém infarktu.“
Postup:
1.Srovnání průměru a mediánu (Statistics – Basic Statistics – Descriptive Statistics – Advanced)
2.Krabicový graf (Graphs – 2D – Box Plots)
3.Histogram (Graphs – Histogram)
4.Diagnostický N-P graf (Graphs – 2D – Normal Probability Plots)
5.Shapirův-Wilkův test nebo Lilieforsovy modifikace Kolmogorovova-Smirnovova testu (lze provést
např. těmito dvěma způsoby: 1) v nastavení histogramu: záložka Advanced → Statistics: vybereme
test, 2) v nastavení N-P grafu: záložka: Quick → Statistics: zaškrtneme test)

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
32
Úkol č. 1 – Řešení v programu Statistica
3
2
•V menu Graphs zvolíme 2D a vybereme Box Plots.
•V menu Graphs zvolíme Histogram
•V menu Graphs zvolíme 2D a vybereme Normal Probability Plots, na záložce Quick zaškrtneme test
4

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
33
Úkol č. 1 – Výsledky v Statistica
① Průměr a medián jsou téměř shodné (cca 71 let) a data jsou tedy nejspíš alespoň symetrická.
Srovnání průměru a mediánu
Histogram
!!! Shapirův-Wilkův test !!!
Věk
Krabicový graf
Diagnostický N-P graf
!!! Shapirův-Wilkův test !!!
② Symetrie je patrná i z krabicového grafu. Navíc histogram naprosto jasně odpovídá průběhu
normálního rozdělení. Z N-P grafu také nejsou patrné odchylky od normality.
③ Na základě p-hodnoty 0,580 nezamítáme nulovou hypotézu o normalitě (tj. nezamítáme, že není
rozdíl mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data jsou normálně
rozdělená).

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
34
Úkol č. 2 – Odlehlá/chybná hodnota
Zadání: „Ověřte normalitu věku při mozkovém infarktu obsahující jeden překlep 40 → 400.“
Postup (přepište hodnotu 40 na 400 a ke stanovení závěru opět použijte vybrané nástroje vhodné pro
ověření normality):
1.Srovnání průměru a mediánu (Statistics – Basic Statistics – Descriptive Statistics – Advanced)
2.Krabicový graf (Graphs – 2D – Box Plots)
3.Histogram (Graphs – Histogram)
4.Diagnostický N-P graf (Graphs – 2D – Normal Probability Plots)
5.Shapirův-Wilkův test nebo Lilieforsovy modifikace Kolmogorovova-Smirnovova testu (lze provést
např. těmito dvěma způsoby: 1) v nastavení histogramu: záložka Advanced → Statistics: vybereme
test, 2) v nastavení N-P grafu: záložka: Quick → Statistics: zaškrtneme test)

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
35
Úkol č. 2 – Výsledky v Statistica
① Průměr a medián jsou stále podobné (cca 71 let) a data by tedy mohla být alespoň symetrická.
③ Na základě p-hodnoty < 0,001 zamítáme nulovou hypotézu o normalitě (tj. zamítáme, že není rozdíl
mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data nejsou normálně rozdělená).
Srovnání průměru a mediánu
Histogram
Diagnostický N-P graf
Krabicový graf
Věk
Odlehlá hodnota (400)
Odlehlá hodnota (400)
Odlehlá hodnota (400)
② Ze všech tří grafických nástrojů lze identifikovat výskyt odlehlé/chybné hodnoty, jejíž
přítomnost zkresluje pohled na zbytek souboru.

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
36
Úkol č. 3 – Asymetrická data
Zadání: „ Ověřte normalitu indexu Barthelové (vyjadřuje stupeň soběstačnosti v základních denních
aktivitách) na konci akutní hospitalizační péče o pacienty s mozkovým infarktem.“
Postup:
1.Srovnání průměru a mediánu (Statistics – Basic Statistics – Descriptive Statistics – Advanced)
2.Krabicový graf (Graphs – 2D – Box Plots)
3.Histogram (Graphs – Histogram)
4.Diagnostický N-P graf (Graphs – 2D – Normal Probability Plots)
5.Shapirův-Wilkův test nebo Lilieforsovy modifikace Kolmogorovova-Smirnovova testu (lze provést
např. těmito dvěma způsoby: 1) v nastavení histogramu: záložka Advanced → Statistics: vybereme
test, 2) v nastavení N-P grafu: záložka: Quick → Statistics: zaškrtneme test)

Adobe Systems
Institut biostatistiky a analýz LF – Výuka – Biostatistika
37
Úkol č. 3 – Výsledky v Statistica
Srovnání průměru a mediánu
① Průměr a medián se výrazně liší (průměr 62 bodů, medián 70 bodů), což znamená, že data jsou
nejspíše asymetrická.
Histogram
Diagnostický N-P graf
③ Na základě p-hodnoty < 0,001 zamítáme nulovou hypotézu o normalitě (tj. zamítáme, že není rozdíl
mezi pozorovanými daty a teoretickým normálním rozdělením, … tj. data nejsou normálně rozdělená).
Krabicový graf
② Asymetrie je patrná i z krabicového grafu a histogramu. Z histogramu je navíc zřetelně vidět
odlišnost od normálního rozdělení. Odchylky od normality jsou patrné i z N-P grafu.
index Barthelové