logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, M. Cvanová
Kontingenční tabulky v Excelu
Základní popisné statistiky
Představení programu Statistica
Import a základní popis dat ve Statistice
ASTAc/01 Biostatistika
2. cvičení

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, M. Cvanová
I. Kontingenční tabulky v Excelu

logo-IBA
Ukázka kontingenční tabulky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, M. Cvanová
Nemocný
Zdravý
Celkem
Muž
a
b
a + b
Žena
c
d
c + d
Celkem
a + c
b + d
a + b + c + d = N
Nemocný
Zdravý
Celkem
Muž
45
11
56
Žena
25
6
31
Celkem
70
17
87
Celkový počet hodnot
Simultánní absolutní četnost
Marginální absolutní
četnost
•Hodnotí vztah dvou kvalitativních proměnných (pro dvě binární proměnné ji nazýváme jako čtyřpolní
tabulka.
•Př.: Vztah pohlaví a výskytu onemocnění (pozor na hodnocení nesmyslného vztahu)
Jsou více nemocní muži nebo ženy?
C:\Users\brozova\Desktop\red-question-mark-cartoon-character-with-a-confused-expression_150426020.j
pg

logo-IBA
Ukázka kontingenční tabulky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, M. Cvanová
Nemocný
Zdravý
Celkem
Muž
45
11
56
Žena
25
6
31
Celkem
70
17
87
Jsou více nemocní muži nebo ženy?
Nemocný
Zdravý
Celkem
Muž
80,4 %
19,6 %
100,0 %
Žena
80,6 %
19,4 %
100,0 %
Větší počet nemocných mužů, který je dán pouze vyšším zastoupení mužů v celkovém vzorku (56 z 87)
C:\Users\brozova\Desktop\happy-red-question-mark-cartoon-character-pointing-with-finger_150257549.j
pg
Po výpočtu relativních četností vidíme, že se muži a ženy neliší ve výskytu onemocnění
Kontingenční tabulka řádkových procent
Kontingenční tabulka absolutních četností

logo-IBA
Zdroj dat a příprava dat
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, M. Cvanová
Kontingenční tabulka se dá vytvořit:
1.z tabulky v daném sešitě
2.z dat z jiného sešitu Excelu
3.z externích dat (např. MS Access)
4.ze sloučených dat z více oblastí - z různých listů nebo různých sešitů
5.z jiné kontingenční tabulky
6.
Data musí být uspořádána formou standardního databázového seznamu:
•V prvním řádku: názvy polí
•Další řádky: data
•Seznam nesmí obsahovat prázdné řádky !
•
Vzhled tabulky: karta Domů → Formátovat jako tabulku

logo-IBA logomuni
Vytvoření kontingenční tabulky v Excelu
Zdroj dat (kromě Excelu i např. externí databáze)
Graf nebo tabulka
Zdrojová oblast dat
Umístění tabulky

logo-IBA logomuni
Kontingenční tabulky – rozvržení
parametry na řádcích
parametry dat
parametry ve sloupcích
parametry, které je možné zobrazit v kontingenční tabulce
filtr

logo-IBA logomuni
Kontingenční tabulky – nastavení II.
Kontingenční tabulka
Způsob sumarizace položky

logo-IBA
Aktualizace dat v kontingenční tabulce
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, M. Cvanová
Při změně dat v tabulce se zdrojovými daty nedojde automaticky k aktualizaci dat v
kontingenční tabulce.
Musíte provést aktualizaci dat.
1.Stůjte kdekoliv v kontingenční tabulce
2.Na kartě Možnosti ve skupině Data klikněte na Aktualizovat (Alt+F5), nebo na Aktualizovat vše
(Ctrl+Alt+F5)
Data z kontingenční tabulky lze vizualizovat pomocí kontingenčního grafu
1.
1.
Aktualizace dat
Možnosti tabulky
Kontingenční graf

logo-IBA
Rozložení kontingenční tabulky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, M. Cvanová
Po vytvoření se kontingenční tabulka zobrazí v tzv. kompaktním formátu. Lze ji zobrazit
ale i ve formě tabulky, nebo ve formě osnovy.
1.Stůjte kdekoliv v kontingenční tabulce
2.Na kartě Návrh vyberte tlačítko Rozložení sestavy a volbu Zobrazit ve formě osnovy nebo zobrazit
ve formě tabulky
Kompaktní formát- uspořádání tabulky aby zabírala co nejméně místa
Forma osnovy- řádková pole nižší úrovně je od vyšších úrovní odsazena, řádky nejsou
odděleny čarami
Forma tabulky- klasická forma tabulky, pole nižší úrovně jsou v dalším sloupci
Vyzkoušej!

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, M. Cvanová
II. Základy popisné statistiky

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jaké úlohy řeší biostatistika?
—Popis cílové populace – odhady charakteristik cílové populace
—
—Srovnání skupin – testování hypotéz
—
—Regresní analýza – stochastické modelování pro vysvětlení variability
—
—Predikce a klasifikace – stochastické modelování a klasifikační algoritmy pro předpovídání
neznámých hodnot

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Motivace
—Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami,
nevýhodami a vlastní sadou využitelných statistických metod - od binárních přes kategoriální,
ordinální až po spojitá data roste míra informace v nich obsažené.
—
—Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických
reprezentací – histogramů.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Typy proměnných
—Kvalitativní (kategoriální) proměnná
—lze ji řadit do kategorií, ale nelze ji kvantifikovat
—Příklady: ??
—
—Kvantitativní (numerická) proměnná
—můžeme ji přiřadit číselnou hodnotu
—Příklady: ??
—

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Typy proměnných
—Kvalitativní (kategoriální) proměnná
—lze ji řadit do kategorií, ale nelze ji kvantifikovat
—Příklady: pohlaví, HIV status, barva vlasů.
—
—Kvantitativní (numerická) proměnná
—můžeme ji přiřadit číselnou hodnotu
—Příklady: výška, váha, počet hospitalizací.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kvalitativní znaky
—Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0
(nepřítomnost sledovaného znaku).
—Příklad: ??
—
—Nominální znaky: několik kategorií (A, B, C), které nelze uspořádat.
—Příklad: ??
—
—Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je
větší/menší (1<2<3).
—Příklad: ??
—

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kvalitativní znaky
—Binární znaky: dvě kategorie, obvykle se kódují pomocí číslic 1 (přítomnost sledovaného znaku) a 0
(nepřítomnost sledovaného znaku).
—Příklady: Diabetes (1-ano, 0-ne), Pohlaví (1-muž, 0-žena).
—
—Nominální znaky: několik kategorií (A,B,C), které nelze uspořádat.
—Příklad: krevní skupiny (A/B/AB/0).
—
—Ordinální znaky: několik kategorií, které lze vzájemně seřadit, tedy můžeme se ptát, která je
větší/menší (1<2<3).
—Příklady: stupeň bolesti (mírná/střední/velká), stadium maligního onemocnění (I/II/III/IV).
—

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kvantitativní znaky
—Intervalové znaky: interpretace rozdílu dvou hodnot (stejný interval mezi jednou a druhou dvojicí
hodnot vyjadřuje i stejný rozdíl v intenzitě zkoumané vlastnosti). Společný znak intervalových
znaků: nula byla stanovena uměle, tedy pouhou konvencí.  Příklad: teplota měřená ve stupních
Celsia, letopočet.
—
—
—
—
—
—
—
—Poměrové znaky: kromě rozdílu interpretujeme i podíl dvou hodnot.
—       Příklady: výška v cm, váha v kg.
—
—
Den
Teplota
Rozdíl 1
Podíl 1
1.
2 °C
-
-
2.
4 °C
+2
2x
3.
6 °C
+2
1.5x
1 Srovnání s měřením z předchozího dne
1.5krát vyšší teplota ve srovnání s 2. dnem, přičemž došlo ke stejnému nárůstu teploty jako při
srovnání 2. a 1. dne

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Různé typy dat znamenají různou informaci
Kolikrát ?
O kolik ?
Větší, menší ?
Rovná se ?
Data poměrová
Data intervalová
Data ordinální
Data nominální
Spojitá data
Diskrétní data *
Spojitá data můžeme agregovat do kategorií.
Ztratíme část informace
Zjednodušíme si interpretaci výsledků
Z vytvořených kategorií již nelze zrekonstruovat původní spojitou proměnnou
* Pozor! I kvantitativní data mohou být diskrétního typu.
Např.: počet dětí v rodině.
•

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
N: 100 dětí (hemofiliků)
x: znak: počet krvácivých epizod za měsíc
n(x) – absolutní četnost x
N(x) – kumulativní četnost hodnot nepřevyšujících x; N(x) = S n(t)
p(x) – relativní četnost; p(x) = n(x) / n
F(x) – kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n
Jak vznikají informace ?
- frekvenční tabulka jako základní nástroj popisu
Primární data
Frekvenční sumarizace
x
n(x)
N(x)
p(x)
F(x)
0
20
20
0,2
0,2
1
10
30
0,1
0,3
2
30
60
0,3
0,6
3
40
100
0,4
1,0
0
0
1
2
1
1
3
1
1
2
.
.
.
.
.
.
n = 100
t Ł x
DISKRÉTNÍ DATA

logo-IBA
n(x)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?
 Grafické výstupy z frekvenční tabulky
x
p(x)
x
N(x)
x
F(x)
x
3
2
1
0
0
1
2
3
0
1
2
3
0
1
2
3

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?                                                                      -
frekvenční tabulka jako základní nástroj popisu
—Příklad: x: koncentrace látky v  krvi n = 100 pacientů
Primární data
Frekvenční sumarizace
n = 100 opakovaných měření (100 pacientů)
x: koncentrace sledované látky v krvi (20 – 100 jednotek)
d(l) – šířka intervalu
n(l) – absolutní četnost
n(l) / n – intervalová relativní četnost
N(x’’) – intervalová kumulativní četnost do horní hranice X’’
F(x’’) – intervalová relativní kumulativní četnost do horní  hranice X’’
* Třídící interval
Interval*
d(l)
n(l)
n(l)/n
N(x’’)
F(x’’)
<20, 40)
20
20
0,2
20
0,2
<40, 60)
20
10
0,1
30
0,3
<60, 80)
20
40
0,4
70
0,7
<80, 100)
20
30
0,3
100
1,0
21
48
56
31
21
33
33
.
.
.
n = 100
SPOJITÁ DATA

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Jak vznikají informace ?                                                                    -
frekvenční sumarizace spojitých dat
x
x
  F(x)
Intervalová relativní kumulativní četnost
Histogram
Výběrová distribuční funkce
  f(x)=
Intervalová hustota četnosti
20
40
60
80
100
Plocha: n(l) / n
n(l) / n
d(l)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Pojem ROZLOŽENÍ - příklad spojitých dat
j(x)
0
F(x)
Hustota pravděpodobnosti =rozložení
x
0
Je - li dána
 distribuční funkce,
 je dáno rozložení
x
Kvantilová funkce
Distribuční funkce

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukazatele tvaru rozložení
—Skewness – ukazatel „šikmosti“ rozložení, asymetrie rozložení
—Kurtosis – ukazatel „špičatosti/plochosti“ rozložení

logo-IBA
Histogram – počet intervalů
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
•Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu
můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěná.
•
•
•
•
•
•
•
•Dvě základní metody volby počtu intervalů m:
1.Odmocnina z celkového počtu:
2.Sturgesovo pravidlo:

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Histogram vyjadřuje tvar výběrového rozložení
x
x
x
x
x
f(x)
f(x)
f(x)
f(x)
f(x)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Příklad: věk účastníků vážných dopravních nehod
Věk (roky)
Věk (roky)
Správný histogram ?
 Věk
 0 - 4
 5 - 9
10 - 15
16 - 19
20 - 24
25 - 59
  > 60
f
28
46
58
20
114
316
103
Správný histogram ?

logo-IBA
Popisné statistiky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Charakteristiky polohy (míry střední hodnoty, míry centrální tendence)
•Udávají, kolem jaké hodnoty se data centrují, resp. které hodnoty jsou nejčastější
•Aritmetický průměr, medián, modus, geometrický průměr
•
Charakteristiky variability (proměnlivosti)
•Zachycují rozptýlení hodnot v souboru (proměnlivost dat)
•Variační rozpětí, rozptyl, směrodatná odchylka, variační koeficient, střední chyba průměru

logo-IBA
Nominální znaky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Charakteristika polohy
—Modus: nejčastěji se vyskytující hodnota proměnné v souboru (hodnota s největší četností). V
tabulce rozdělení četností se modus určí jednoduše z hodnoty znaku s největší četností.

logo-IBA
Ordinální znaky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Charakteristika polohy
—α-kvantil: je-li α Є (0,1), pak α-kvantil xα je číslo, které rozděluje uspořádaný datový soubor na
dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1-α všech
dat.
—Pro speciálně zvolená α užíváme názvů:
     x0,50- medián, x0,25- dolní kvartil, x0,75-horní kvartil, x0,1…. x0,9-decily
—Medián znamená hodnotu, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné
poloviny. Jestliže n je sudé číslo, pak
       Jestliže n je liché číslo, pak
Charakteristika variability
•Kvartilové rozpětí (odchylka): q=x0,75-x0,25

logo-IBA
Intervalové a poměrové znaky I
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Charakteristika polohy
—Aritmetický průměr:   je definován jako součet všech naměřených údajů vydělený jejich
počtem,
                                              kde xi jsou jednotlivé hodnoty a n jejich počet
—
•
•Geometrický průměr: n kladných hodnot xi,                              , má smysl všude, kde má
nějaký informační smysl součin hodnot proměnné. Z  praktického hlediska platí, že logaritmus
geometrického průměru je roven aritmetickému průměru logaritmovaných hodnot souboru.
—

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Průměr vs. medián
—PAMATUJ:
—Průměr je silně ovlivněn extrémními hodnotami (tzv. odlehlá pozorování), medián není ovlivněn
vybočujícími pozorováními
—Průměr je vhodný ukazatel středu u normálního/symetrického rozložení, medián je vhodnou
charakteristikou středu souboru i v případě veličin s neznámým rozdělením
—V případě symetrického rozložení jsou jejich hodnoty v podstatě shodné, v případě asymetrického
rozložení však nikoliv!
—

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Intervalové a poměrové znaky II
—Charakteristiky variability
—Rozptyl (variance) je ukazatelem šířky rozložení získaný na základě odchylky jednotlivých hodnot
od průměru
—
—     Obdobně jako u průměru je jeho vypovídací schopnost nejvyšší v případě
symetrického/normálního rozložení
—Směrodatná odchylka (SD-standard deviation) je druhá odmocnina z rozptylu
—Koeficient variance - podíl SD ku průměru, u poměrových znaků, umožňuje porovnat variabilitu
několika znaků (často se vyjadřuje v procentech-potom udává z kolika procent se podílí směrodatná
odchylka na aritmetickém průměru)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Další parametry rozložení
—Počet hodnot – důležitý ukazatel, znamená jak moc lze na data spoléhat
—Suma hodnot
—Variační rozpětí (minimum - maximum)
—Střední chyba průměru (SE) – měří rozptýlenost vypočítaného aritmetického průměru v různých
výběrových souborech vybraných z jednoho základního souboru

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukázka popisu a vizualizace kvalitativních dat
—Koláčový graf
Sloupcový graf
—Popis kvalitativních dat: frekvence jednotlivých kategorií
—Vizualizace kvalitativních dat: nejčastěji koláčový nebo sloupcový graf
Frekvenční tabulka
Známka
n
%
A
11
18,0
B
20
32,8
C
16
26,2
D
9
14,8
E
5
8,2
F
0
0,0
Celkem
61
100,0
Příklad: Známka z biostatistiky (podzim 2014)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Ukázka popisu kvantitativních dat
—Popis kvantitativních dat: charakteristika středu (průměr, medián aj.), charakteristika
variability (rozptyl, rozsah hodnot, interkvartilové rozpětí aj.)
Popisné statistiky
Příklad: Popis výšky (cm) pacientů
Charakteristika
N
61
Průměr (cm)
161,0
Medián (cm)
161,5
Sm. odchylka (cm)
4,7
Rozptyl (cm2)
22,2
min-max (cm)
144,1 - 169,2
dolní-horní kvartil (cm)
158,1 - 164,2
Průměr a medián se téměř shodují. Co nám to říká?

logo-IBA
Ukázka vizualizace kvantitativních dat
—Vizualizace kvantitativních dat: nejčastěji pomocí krabicového grafu nebo histogramu
—Histogram
Krabicový graf
maximum (100% kvantil)
horní kvartil (75% kvantil)
medián (50% kvantil)
dolní kvartil (25% kvantil)
minimum (0% kvantil)
Příklad: Popis výšky (cm) pacientů
Jsou data symetrická?
Odlehlá hodnota?