logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
 ASTAc/02 Biostatistika
6. cvičení
Opakování
Analýza kontingenčních tabulek
Základy korelační analýzy

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Co byste měli umět z minula:
1.Určit, kdy je vhodné použít pro testování hypotéz parametrické
a neparametrické testy – ověřování předpokladů.
2.Vybrat typ neparametrického testu – jednovýběrový, párový nebo dvouvýběrový?
3.Provést testování v softwaru Statistica – Wilcoxonův test, znaménkový test, Mannův-Whitneyho
test, Kruskalův-Wallisův test, mediánový test.
4.Interpretovat výsledky testování.
5.
5.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kontingenční tabulky
Pearsonův chí-kvadrát test (test dobré shody)
Fisherův exaktní test
McNemarův test
Analýza kontingenčních tabulek

logo-IBA
Kontingenční tabulka - opakování
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, M. Cvanová
•Frekvenční sumarizace dvou kategoriálních proměnných (binárních, nominálních nebo ordinálních
proměnných).
•Obecně: R x C kontingenční tabulka (R – počet kategorií jedné proměnné, C – počet kategorií druhé
proměnné).
•Speciální případ: 2 x 2 tabulka = čtyřpolní tabulka.
•Kontingenční tabulky: absolutních četností, celkových procent, řádkových/sloupcových četností
•
•Př.: Sumarizace vyšetřených osob podle pohlaví a výsledku diagnostického testu.
Pohlaví
Výsledek vyšetření
Nemocný
Zdravý
Celkem
Muž
45
11
56
Žena
25
6
31
Celkem
70
17
87

logo-IBA
Ukázka kontingenční tabulky
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, M. Cvanová
Nemocný
Zdravý
Celkem
Muž
a
b
a + b
Žena
c
d
c + d
Celkem
a + c
b + d
a + b + c + d = N
Nemocný
Zdravý
Celkem
Muž
45
11
56
Žena
25
6
31
Celkem
70
17
87
Celkový počet hodnot
Simultánní absolutní četnost
Marginální absolutní
četnost
•Vztah pohlaví a výskytu onemocnění (pozor na hodnocení nesmyslného vztahu)
•
Jsou více nemocní muži nebo ženy?
C:\Users\brozova\Desktop\red-question-mark-cartoon-character-with-a-confused-expression_150426020.j
pg

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Co analyzujeme u kontingenčních tabulek?
—Analýza kontingenčních tabulek umožňuje analyzovat vazbu mezi dvěma kategoriálními proměnnými.
Základním způsobem testování je tzv. chí-kvadrát test, který srovnává pozorované četnosti kombinací
kategorií oproti očekávaným četnostem, které vychází z teoretické situace, kdy je vztah mezi
proměnnými náhodný.
—
—Test dobré shody je využíván také pro srovnání pozorovaných četností proti očekávaným četnostem
daných určitým pravidlem (typickým příkladem je Hardy-Weinbergova rovnováha v genetice).
—
—Specifickým typem výstupů odvozených z kontingenčních tabulek jsou tzv. poměry šancí a relativní
rizika, využívaná často v medicíně pro identifikaci a popis rizikových skupin pacientů.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Test dobré shody - základní teorie
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
=
+
2
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
1. jev
2. jev
-
2
-
+
…
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
=
2
-
∑
... zamítáme H0
Testová statistika:
1 - hladina významnosti
stupně volnosti

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
        Test dobré shody: příklad  I
Binomické jevy (1/0)
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
=
+
2
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
I. jev 1
II. jev 2
-
2
-
Příklad
10 000 lidí hází mincí           rub: 4 000 případů (R)
                                            líc: 6 000 případů (L)
ü
Lze výsledek považovat za statisticky významně odlišný
(nebo neodlišný) od očekávaného poměru R : L = 1 : 1
(tzn. že je výsledek hodu mincí náhodný)?
?
 Rozdíl je vysoce statisticky významný (p < 0,001)
Tabulková hodnota:

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Celkem bylo zkoumáno 250 semen určitého druhu rostliny a roztříděno do následujících kategorií:
žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité. Předpokládaný poměr výskytu těchto
kategorií v populaci je 9 : 3 : 3 : 1. Následující tabulka obsahuje původní data z pozorování a
dále postup při testování H0.
žluté/hladké
žluté/vrásčité
zelené/hladké
zelené/vrásčité
n
f poz.
152
39
53
6
250
f oček.
140,6250
46,8750
46,8750
15,6250
n = k - 1 = 3
Zamítáme hypotézu shody pozorovaných četností s očekávanými
Test dobré shody: příklad II
Tabulková hodnota:

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kontingenční tabulka - hypotézy
—NEZÁVISLOST (Pearsonův chí-kvadrát test, Fisherův exaktní test)
ØJeden výběr, 2 charakteristiky – obdoba nepárového uspořádání
ØNapř.: existence vztahu mezi barvou očí a známkou z biostatistiky u studentů
Ø
—SHODA STRUKTURY (Pearsonův chí-kvadrát test, Fisherův exaktní test)
ØTzv. test homogenity
ØVíce výběrů, jedna charakteristika – obdoba nepárového uspořádání
ØNapř.: věková struktura pacientů s diabetem v K nemocnicích (tj. K výběrů)
Ø
—SYMETRIE (McNemarův test)
ØJeden výběr, opakovaně jedna charakteristika – obdoba párového uspořádání
ØNapř.: posouzení stavu stromů ve dvou sezónách

logo-IBA
Základní rozhodování o výběru statistických testů
- analýza kontingenčních tabulek
Typ dat
Spojitá x spojitá data
Spojitá x kategoriální data
Kategoriální x kategoriální data
Jeden výběr
Dva výběry
Tři a více výběrů (nepárově)
Jeden výběr
Více výběrů
Párová data
Nepárová data
Pearsonův korelační koeficient
Jednovýběrový
t-test
Párový t-test
Dvouvýběrový
t-test
ANOVA
Párová data
Nepárová data
Chí-kvadrát test
Spearmanův korelační koeficient
Wilcoxonův / znaménkový test
Wilcoxonův / znaménkový test
Mannův-Whitneyho / mediánový t.
Kruskalův-Wallisův test / mediánový t.
Jednovýběrový binomický test
McNemarův test
Fisherův exaktní test
Parametrické testy
Neparametrické testy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
E. Janoušová, L. Dušek

logo-IBA
—Máme dvě nominální veličiny, X (má r variant) a Y (má s variant)
—Kontingenční tabulka typu r x s
—
—
—
—
—
—
—
—
—Označení:
     njk- simultánní absolutní četnost,
     nj.- marginální absolutní četnost
—
—
Kontingenční tabulka - obecně
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
y[1]
…..
…..
y[s]
nj.
x[1]
n11
…..
.....
n1s
n1.
.
.
…..
…..
.
.
.
.
…..
…..
.
.
x[r]
nr1
…..
…..
nrs
nr.
n.k
n.1
.
.
n.s
n
x[j]
y[k]
Simultánní absolutní
četnost
Marginální absolutní
četnost
Marginální absolutní
četnost

logo-IBA
Testování nezávislosti – Pearsonův chí-kvadrát test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
—Souvisí spolu výskyt dvou nominálních znaků měřených na jediném výběru?
—Příklad: Barva očí (modrá, zelená, hnědá) a barva vlasů (hnědá, černá, blond) u vybraných 30
studentů jsou nezávislé.
—Nulová hypotéza: Znaky X a Y jsou nezávislé náhodné veličiny.
—Alternativní hypotéza: Znaky X a Y jsou závislé náhodné veličiny.
—Test: Pearsonův chí-kvadrát
—
—
—
     Očekávané (teoretické) četnosti ejk :
•H0 zamítáme na hladině významnosti α, pokud
•
•Předpoklady testu ?
H0 platí

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
—Předpoklady Pearsonova chí-kvadrát testu:
1.Jednotlivá pozorování shrnutá v kontingenční tabulce jsou nezávislá, tj. každý prvek patří jen do
jedné buňky kont. tabulky, nemůže zároveň patřit do dvou.
2.Podmínky dobré aproximace: Očekávané (teoretické) četnosti jsou aspoň v 80 % případů větší nebo
rovné 5 a ve 100 % případů nesmí být pod 2 (pokud není tento předpoklad splněn, je vhodné sloučit
kategorie s nízkými četnostmi).
3.
—Měření síly závislosti:
       Cramérův koeficient:
        Význam hodnot: 0-0,1….zanedbatelná závislost
                                           0,1-0,3…slabá závislost
                                           0,3-0,7…střední závislost
                                           0,7-1 silná závislost
•
1.
1.
Testování nezávislosti – Pearsonův chí-kvadrát test

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kontingenční tabulky
 H0 :Nezávislost dvou jevů A a B
Kontingenční tabulka
2 x 2
N = a + b + c + d
+
-
Podíl (+)
+
a
b
-
c
d
Podíl (+)
B
A
p1
p2
Očekávané četnosti:

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Kontingenční tabulky: příklad
FA = 102 * 30 / 166 = 18,43
FB = 102 * 136 / 166 = 83,57
FC = 11,57
FD = 52,43
Ano
Ne
S
Ano
20
82
102
Ne
10
54
64
S
30
136
166
gen
…
Kontingenční tabulka v obrázku
Gen: ANO
Gen: NE

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Řešení v softwaru Statistica
—Datový soubor může být zadán 2 způsoby:
—
ØPůvodní data (co řádek, to subjekt charakterizovaný danými kategoriálními proměnnými),
Ø
ØAgregovaná data (kontingenční tabulka, četnosti všech kombinací kategorií 2 kategoriálních
proměnných) – analýza agregovaných dat možná i pomocí webových kalkulátorů.
1.
1.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Způsob 1: Řešení v softwaru Statistica I
—Na hladině významnosti 0,05 testujte hypotézu o nezávislosti genu a stavu pacienta. Simultánní
četnosti znázorněte graficky.
•
1.
1.
• Původní datový soubor
(co řádek, to subjekt)
•
• V menu Statistics zvolíme
Basic statistics,
Vybereme Tables and banners
(v češtině Kontingenční tabulky)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Způsob 1: Řešení v softwaru Statistica II
• Vybereme proměnné, které chceme testovat

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Způsob 1: Řešení v softwaru Statistica III
• Na záložce Options zaškrtneme Expected frequencies (Očekávané četnosti)
(k ověření podmínek dobré aproximace)
•
•
• Zaškrtneme Pearsonův
 chí-kvadrát
• Pokud chceme vypočítat
i Cramérův koeficient
zaškrtneme
Phi & Cramer‘s V
• Poté se vrátíme na záložku Advanced,
kde a zvolíme Detailed two-way tables
•

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Způsob 1: Řešení v softwaru Statistica IV
Tab.1: Pozorované četnosti
Jsou splněny podmínky dobré aproximace?

Tab. 3: Paersonův chí-kvadrát
p- hodnota
Hodnota testové statistiky
Počet stupňů volnosti
http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png
Tab. 2: Očekávané četnosti

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Způsob 2: Řešení v softwaru Statistica I
—Na hladině významnosti 0,05 testujte hypotézu o nezávislosti genu a stavu pacienta. Simultánní
četnosti znázorněte graficky.
•
1.
1.
• Agregovaný datový soubor
•
• V menu Statistics zvolíme
Basic statistics, vybereme
Tables and banners (v češtině
Kontingenční tabulky)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Způsob 2: Řešení v softwaru Statistica II
• Vybereme proměnné, které chceme testovat

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Způsob 2: Řešení v softwaru Statistica III
• Zapneme váhy (vpravo ikonka černých vah w), jako váhy vybereme proměnnou četnost (tj. proměnnou,
ve které jsou uvedeny počty případů jednotlivých  kombinací kategorií)
3

logo-IBA
• Na záložce Options zaškrtneme Expected frequencies (Očekávané četnosti)
(k ověření podmínek dobré aproximace)
•
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Způsob 2: Řešení v softwaru Statistica IV
•
• Zaškrtneme Pearsonův
 chí-kvadrát
• Pokud chceme vypočítat
i Cramérův koeficient
zaškrtneme
Phi & Cramer‘s V
• Poté se vrátíme na záložku Advanced,
kde a zvolíme Detailed two-way tables
•

logo-IBA
Testování homogenity (shody struktury)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
—Motivace: Zajímá nás výskyt nominálního znaku u r nezávislých výběrů z r různých populací.
—Příklad: Je zájem o sport stejný u děvčat jako u chlapců?
—Nulová hypotéza: pravděpodobnostní rozdělení kategoriální proměnné je stejné v různých populací
—Test: Pearsonův chí-kvadrát
—
Dívky
Chlapci
Zájem
o sport
Ano
a
b
a+b
Ne
c
d
c+d
a+c
b+d
n
Některé marginální četnosti (buď sloupcové nebo řádkové)
jsou předem pevně stanoveny

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina
Fisherův exaktní test
—Využití ve čtyřpolní tabulce s nízkými četnostmi, které znemožňují použití Pearsonova chí-kvadrát
testu.
—Patří mezi neparametrické testy pracující s daty na nominální škále, v nejjednodušší podobě ve
dvou třídách: pozitivní/negativní, úspěch/neúspěch apod.
—Nulová hypotéza předpokládá rovnoměrné zastoupení sledovaného znaku u dvou nezávislých souborů.
—Slovo exaktní (přímý) znamená, že se přímo vypočítává pravděpodobnost odmítnutí, resp. platnosti
nulové hypotézy.

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, S. Littnerová, J. Kalina
Fisherův exaktní test
—Výpočet „přesné“ p-hodnoty, která zde hraje roli testové statistiky:
¡spočítá se parciální pravděpodobnost čtyřpolní tabulky p1:
¡
¡
¡
¡
¡
¡Spočítá se pa všech možných tabulek při zachování marginálních četností (řádkové a sloupcové
součty) a výsledná p-hodnota je součtem pa menších nebo stejných jako p1, která přísluší pozorované
tabulce.

logo-IBA
Řešení v softwaru Statistica:
Fisherův exaktní test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
• Na záložce Options zaškrtneme
Fisher exact
•
• Výstupní tabulka
Pro jednostranný test
http://files.mscck-trmice.webnode.cz/200000297-22250231ed/vyk%C5%99i%C4%8Dn%C3%ADk.png
Pro oboustranný test

logo-IBA
Test hypotézy o symetrii
(McNemarův test pro čtyřpolní tabulku)
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
—Motivace: Na osobách sledujeme binární proměnnou před pokusem a po něm, cílem je zjistit, zda
došlo ke změně v rozdělení této proměnné.
—Analýza párových dichotomických proměnných
—
—
—
—
—
—Nulová hypotéza:               , pokus nemá vliv na výskyt daného znaku
—
—Testová statistika:                                     pokud je větší než kritická hodnota
rozdělení o jednom stupni volnosti (vhodné pro počty údajů b+c > 8), pak nulovou hypotézu zamítáme
—
—
po
+
-
nj.
před
+
a
b
a+b
-
c
d
c+d
n.k
a+c
b+d
n
Četnostní tabulka
Tabulka teoretických pravděpodobností
po
+
-
před
+
p11
p12
p1.
-
p21
p22
p2.
p.1
p.2

logo-IBA
McNemarův test: příklad I
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
 Zjistěte, zda výuka o pozitivním působení sportu na zdraví vede ke změně postojů žáků ke
sportování.
Nulová hypotéza: Počet žáků, kteří změní svůj postoj pozitivním směrem, je pouze náhodně odlišný od
počtu žáků, kteří změní svůj postoj negativním směrem.
Závěr: Výuka má pozitivní vliv na postoj žáků vzhledem k provozování sportu.
Postoj po výuce
+
-
Postoj před výukou
+
5
3
8
-
16
2
18
21
5
26
Tabulky:
H0 zamítnuta
Stupně volnosti

logo-IBA
Řešení v softwaru Statistica: McNemarův test
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
• Na záložce Options zaškrtneme McNemar (2x2)
•
• Výstupní tabulka
Datový soubor
Výstupní kontingenční tabulka
2 hodnoty testových statistik a p-hodnoty, podle toho, kde jsou ve výstupní kontingenční tabulce
uloženy  četnosti, u kterých jsme při opakovaném měření zaznamenali rozdílné výsledky (A/D nebo
B/C)

logo-IBA
Analýza kontingenčních tabulek na webu
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
•2x2 tabulky: http://graphpad.com/quickcalcs/contingency1/
•
•2x3 tabulky: http://www.vassarstats.net/fisher2x3.html
•
•2x5 (nebo menší) tabulky:
http://www.quantitativeskills.com/sisa/statistics/fiveby2.htm

•3x3 tabulky: http://vassarstats.net/fisher3x3.html
•
•

logo-IBA
Společný příklad – testování homogenity
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
 Očkování proti chřipce se zúčastnilo 460 dospělých, z nichž 240 dostalo očkovací látku proti
chřipce a 220 dostalo placebo. Na konci experimentu onemocnělo 100 lidí chřipkou, 20 z nich bylo z
očkované skupiny a 80 z kontrolní skupiny. Je to dostatečný důkaz, že očkovací látka byla účinná?
Nulová hypotéza: Procento výskytu chřipky je v očkované a kontrolní skupině stejné.
1. Vytvořte si na základě zadání datový soubor v softwaru STATISTICA
     (agregovaná data ve formě kontingenční tabulky).
2. Testujte platnost nulové hypotézy pomocí Pearsonova chí-kvadrát testu.
3. Testujte platnost nulové hypotézy pomocí Fisherova exaktního testu.
4. Který z testů je vhodné použít a proč?

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Korelace a regrese
Pearsonův korelační koeficient
Spearmanův korelační koeficient
Základy korelační analýzy

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Proč hodnotit vztah dvou spojitých veličin?
—Vztah mezi dvěma spojitými veličinami v jedné skupině:
—
1.Chceme zjistit, jestli mezi nimi existuje vztah – např. jestli vyšší hodnoty jedné veličiny
znamenají nižší hodnoty jiné veličiny,
2.Chceme predikovat hodnoty jedné veličiny na základě znalosti hodnot jiných veličin,
3.
3.Chceme kvantifikovat vztah mezi dvěma spojitými veličinami –např. pro použití jedné veličiny na
místo druhé veličiny.

logo-IBA
Korelační a regresní analýza
—Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako
jiné statistické metody, i korelace mohou být parametrické nebo neparametrické.
—
—Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna
proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně
jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné.
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina

logo-IBA
Základní rozhodování o výběru statistických testů
- korelační analýza
Typ dat
Spojitá x spojitá data
Spojitá x kategoriální data
Kategoriální x kategoriální data
Jeden výběr
Dva výběry
Tři a více výběrů (nepárově)
Jeden výběr
Více výběrů
Párová data
Nepárová data
Pearsonův korelační koeficient
Jednovýběrový
t-test
Párový t-test
Dvouvýběrový
t-test
ANOVA
Párová data
Nepárová data
Chí-kvadrát test
Spearmanův korelační koeficient
Wilcoxonův / znaménkový test
Wilcoxonův / znaménkový test
Mannův-Whitneyho / mediánový t.
Kruskalův-Wallisův test / mediánový t.
Jednovýběrový binomický test
McNemarův test
Fisherův exaktní test
Parametrické testy
Neparametrické testy
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
E. Janoušová, L. Dušek

logo-IBA
Vizuální hodnocení vztahu dvou proměnných
—Nejjednodušší formou je bodový graf (x‐y graf), tzv. scatterplot.
—
—Vztah výšky a váhy studentů Biostatistiky pro matematické biology – jaro 2010:
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina

logo-IBA
Korelace
Korelace – vztah (závislost) dvou znaků (parametrů)
Y2
X1
Y
2
X
1
Y2
X1
ANO
NE
ANO
a
b
NE
c
d
X1
X2
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina

logo-IBA
Korelační koeficienty
—Korelační koeficient (r) – kvantifikuje míru vztahu mezi dvěma spojitými veličinami (X a Y).
—
ØPearsonův korelační koeficient – parametrický, hodnotí míru lineární závislosti mezi 2 spojitými
proměnnými,
ØSpearmanův korelační koeficient – neparametrický, hodnotí míru pořadové závislosti mezi 2
spojitými proměnnými.
ØHodnota r je kladná, když vyšší hodnoty X souvisí s vyššími hodnotami Y, naopak hodnota r je
záporná, když nižší hodnoty X souvisí s vyššími hodnotami Y.
ØNabývá hodnot od -1 do 1:
¢ r = 0 → nekorelované
r > 0 → kladně korelované
r < 0 → záporně korelované
Ø
Ø
•
—
—
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina

logo-IBA
Test hypotézy H0: r = 0
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
—K měření těsnosti lineárního vztahu 2 spojitých proměnných
r = 0 → nekorelované
r > 0 → kladně korelované
r < 0 → záporně korelované
—
—H0: proměnné X, Y jsou stochasticky nezávislé náhodné veličiny
(r = 0)
HA: proměnné X, Y nejsou stochasticky nezávislé náhodné veličiny (r ≠ 0)
—
—Testování pomoc intervalu spolehlivosti nebo výpočet testové statistiky (srovnání s kritickou
hodnotou nebo výpočet p-hodnoty)

logo-IBA
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek
Problémy s výpočtem r
Problém více skupin
Nelineární vztah
X
Y
X
r = 0,981
(p < 0,001)
r = 0,761
(p = 0,032)
Y
Problém velikosti výběru
Y
X
Y
X
r = 0,891
(p = 0,214)
r = 0,212
(p = 0,008)

logo-IBA
Řešení v softwaru Statistica:
Pearsonův korelační koeficient I
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Prozkoumejte lineární vztah mezi výškou a váhou u 13 studentů. Testujte hypotézu, že jsou tyto
proměnné nezávislé.
1.Záložka Statistics
2.
2.Basic Statistics
3.
3.Correlation matrices
4.
4.Potvrdíme: OK

logo-IBA
Řešení v softwaru Statistica:
Pearsonův korelační koeficient II
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
5. Vybereme spojité proměnné pro hodnocení vztahu (váha a výška).
Na záložce Options můžeme vybrat formu výstupu (pouze p-hodnoty, matice korelačních koeficientů a
p-hodnot ap.).
6. Summary: Correlations
Jedna z možných výstupních tabulek:
p-hodnota < 0,05 - test hypotézy H0: r = 0,
lze vypsat i konkrétní hodnotu (změna formy výstupu na záložce Options)
Pearsonovy korelační koeficienty

logo-IBA
Řešení v softwaru Statistica:
Pearsonův korelační koeficient III
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Záložka Quick / Advanced umožňuje vykreslit různé druhy grafů (2D, 3D v případě více proměnných,
matice bodových grafů s histogramy na diagonále ap.).
Jsou v daném případě splněny předpoklady (dvourozměrné normální rozdělení, absence odlehlých
pozorování, lineární vztah)?
Na záložce Color maps můžeme získat matici korelačních koeficientů (nebo příslušných p-hodnot)
obarvenou dle odpovídající barevné škály. Vhodné zejména při zkoumání vztahů mezi více spojitými
proměnnými.

logo-IBA
Řešení v softwaru Statistica:
Spearmanův korelační koeficient I
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
Prozkoumejte pořadový vztah mezi výškou a váhou u 13 studentů. Testujte hypotézu, že jsou tyto
proměnné nezávislé.
1.Záložka Statistics
2.
2.Nonparametrics
3.
3.Correlations
4.
4.Potvrdíme: OK

logo-IBA
Řešení v softwaru Statistica:
Spearmanův korelační koeficient II
Vytvořil Institut biostatistiky a analýz, Masarykova univerzita
J. Jarkovský, L. Dušek, J. Kalina
5. Výběr proměnných – Variables – Select variables (vyska, vaha) – OK
6. Pod možností Compute můžeme vybrat formu výstupu (čtvercová matice - Square matrix, příp.
detailní výsledky).
7. Lze vykreslit i matici bodových grafů s histogramy na diagonále (Scatterplot matrix for all
variables).
Jedna z forem výstupní tabulky:
p-hodnota <0,05 - test hypotézy H0: r = 0,
  lze vypsat i konkrétní hodnotu
Spearmanovy korelační koeicienty