Janoušová, Dušek: Analýza dat pro neurovědy© Institut biostatistiky a analýz
Analýza dat pro Neurovědy
RNDr. Eva Janoušová
doc. RNDr. Ladislav Dušek, Dr.
Jaro 2014
Janoušová, Dušek: Analýza dat pro neurovědy
Blok 5
Jak analyzovat kategoriální a binární
data I.
2
Janoušová, Dušek: Analýza dat pro neurovědy
Typy dat - opakování
• Kvalitativní (kategoriální) data:
- Binární data
- Nominální data
- Ordinální data
• Kvantitativní data:
- Intervalová data
- Poměrová data
3
Janoušová, Dušek: Analýza dat pro neurovědy
Osnova
1. Analýza kontingenčních tabulek
2. Binomické testy
3. Relativní riziko („relative risk“) a poměr šancí („odds ratio“)
4. Binomické rozdělení
5. Poissonovo rozdělení
4
Janoušová, Dušek: Analýza dat pro neurovědy
1. Analýza kontingenčních
tabulek
5
Janoušová, Dušek: Analýza dat pro neurovědy
Kontingenční tabulka
• Frekvenční sumarizace dvou binárních, nominálních nebo ordinálních
proměnných.
• Obecně: R x C kontingenční tabulka (R – počet kategorií jedné proměnné,
C – počet kategorií druhé proměnné).
• Speciální případ: 2 × 2 tabulka = čtyřpolní tabulka.
• Př.: Sumarizace vyšetřených osob podle typu onemocnění a věkových
kategorií.
6
Typ
onemocnění
Věk
Celkem
<60 let 60-70 let 70-80 let ≥80 let
CN 1 7 176 46 230
MCI 13 85 201 107 406
AD 9 34 90 64 197
Celkem 23 126 467 217 833
Janoušová, Dušek: Analýza dat pro neurovědy
Kontingenční tabulky – absolutní četnosti, řádková,
sloupcová a celková procenta
7
Skupina
Věk
Celkem
<60 let 60-70 let 70-80 let ≥80 let
CN 1 7 176 46 230
MCI 13 85 201 107 406
AD 9 34 90 64 197
Celkem 23 126 467 217 833
Kontingenční tabulka absolutních četností
Skupina
Věk
Celkem
<60 let 60-70 let 70-80 let ≥80 let
CN 0,4 3,0 76,5 20,0 100,0
MCI 3,2 20,9 49,5 26,4 100,0
AD 4,6 17,3 45,7 32,5 100,0
Celkem 2,8 15,1 56,1 26,1 100,0
Kontingenční tabulka řádkových procent
Skupina
Věk
Celkem
<60 let 60-70 let 70-80 let ≥80 let
CN 4,3 5,6 37,7 21,2 27,6
MCI 56,5 67,5 43,0 49,3 48,7
AD 39,1 27,0 19,3 29,5 23,6
Celkem 100,0 100,0 100,0 100,0 100,0
Kontingenční tabulka sloupcových procent
Skupina
Věk
Celkem
<60 let 60-70 let 70-80 let ≥80 let
CN 0,1 0,8 21,1 5,5 27,6
MCI 1,6 10,2 24,1 12,8 48,7
AD 1,1 4,1 10,8 7,7 23,6
Celkem 2,8 15,1 56,1 26,1 100,0
Kontingenční tabulka celkových procent
Janoušová, Dušek: Analýza dat pro neurovědy
Kontingenční tabulky – ukázka finálního popisu a
vizualizace
8
Skupina
Věk
Celkem
<60 let 60-70 let 70-80 let ≥80 let
CN
1
(0,4%)
7
(3,0%)
176
(76,5%)
46
(20,0%)
230
(100,0%)
MCI
13
(3,2%)
85
(20,9%)
201
(49,5%)
107
(26,4%)
406
(100,0%)
AD
9
(4,6%)
34
(17,3%)
90
(45,7%)
64
(32,5%)
197
(100,0%)
Celkem
23
(2,8%)
126
(15,1%)
467
(56,1%)
217
(26,1%)
833
(100,0%)
20.9
17.3
76.5
49.5
45.7
20.0
26.4
32.5
3.2
4.6
3.0
<60 let 60-70 let
n = 230
n = 406
n = 197
CN
MCI
AD
Věk:
Skupina:
70-80 let ≥80 let
Janoušová, Dušek: Analýza dat pro neurovědy
Čtyřpolní tabulky
• Nejjednodušší možná kontingenčí tabulka, kdy obě sledované veličiny mají
pouze dvě kategorie.
• Příklad: Sumarizace vztahu pohlaví a kategorizovaného MMSE skóre
(MMSE skóre v normě (tzn. MMSE ≥ 25) a pod normou (MMSE < 25)) u
pacientů s Alzheimerovou chorobou.
9
Janoušová, Dušek: Analýza dat pro neurovědy
Kontingenční tabulky – hypotézy
• Kontingenční tabulky umožňují testování různých hypotéz:
• Nezávislost a shoda struktury (Pearsonův chí-kvadrát test, Fisherův
exaktní test)
- Jeden výběr, dvě charakteristiky nebo více výběrů, jedna
charakteristika – obdoba nepárového uspořádání
- Př.: pacienti s AD – pohlaví × vzdělání (VŠ, SŠ, ZŠ); pacienti s AD
v několika nemocnicích × věková struktura
• Symetrie (McNemarův test)
- Jeden výběr, opakovaně jedna charakteristika – obdoba párového
uspořádání
- Př.: MMSE v normě a pod normou na začátku studie a dva roky po
zahájení studie
10
Janoušová, Dušek: Analýza dat pro neurovědy
Pearsonův chí-kvadrát test
• Založen na myšlence srovnání pozorovaných a očekávaných četností
kategorií dvou proměnných.
• Pozorované četnosti jednotlivých kategorií první proměnné a druhé
proměnné nám vyjadřují nij.
• Očekávané četnosti jednotlivých
kategorií lze vypočítat pomocí:
‖ (ni. je součet hodnot v řádku,
n.j je součet hodnot ve sloupci)
• Výpočet testové statistiky:
• Nulovou hypotézu o nezávislosti dvou kategoriálních proměnných
zamítáme na hladině významnosti α, když
11
n
nn
e
ji
ij
..
=
åå= =
-
=C
r
i
c
j ij
ijij
e
en
1 1
2
2 )(
( )1)1(2
)1(
2
--³C - crac
Typ
onemocnění
Věk
Celkem
<60 let 60-70 let 70-80 let ≥80 let
CN 𝑛11 𝑛12 𝑛13 𝑛14 𝑛1.
MCI 𝑛21 𝑛22 𝑛23 𝑛24 𝑛2.
AD 𝑛31 𝑛32 𝑛33 𝑛34 𝑛3.
Celkem 𝑛.1 𝑛.2 𝑛.3 𝑛.4 𝑛
Janoušová, Dušek: Analýza dat pro neurovědy
Pearsonův chí-kvadrát test
Příklad: Chceme zjistit, jestli existuje vztah mezi typem onemocnění a
věkovými kategoriemi v našem souboru.
Postup:
Typ
onemocnění
Věk
Celkem
<60 let 60-70 let 70-80 let ≥80 let
CN 1 7 176 46 230
MCI 13 85 201 107 406
AD 9 34 90 64 197
Celkem 23 126 467 217 833
Tabulka
pozorovaných
četností:
Typ
onemocnění
Věk
Celkem
<60 let 60-70 let 70-80 let ≥80 let
CN 6,4 34,8 128,9 59,9 230
MCI 11,2 61,4 227,6 105,8 406
AD 5,4 29,8 110,4 51,3 197
Celkem 23 126 467 217 833
Tabulka
očekávaných
četností:
4,6
833
23023
11 =
×
=e
2,11
833
40623
21 =
×
=e
8,34
833
230126
12 =
×
=e ...
Testová statistika:
( ) ( ) 4,69...
8,34
8,347
4,6
4,61)( 22
1 1
2
2
=+
-
+
-
=
=C
åå= =
r
i
c
j ij
ijij
e
en
( ) 6,12)6(14)13(4,69 2
)95,0(
2
)95,0(
2
==--³=C cc → zamítáme H0 o nezávislosti → Vztah
mezi typem onemocnění a věkovými kategoriemi je statisticky významný.
12
Janoušová, Dušek: Analýza dat pro neurovědy
Předpoklady Pearsonova chí-kvadrát testu
• Nezávislost jednotlivých pozorování
• Alespoň 80 % buněk musí mít očekávanou četnost (eij) větší než 5
• 100 % buněk musí mít očekávanou četnost (eij) větší než 2
• Může nám pomoci slučování kategorií, ale můžeme slučovat jen slučitelné
kategorie!
13
Janoušová, Dušek: Analýza dat pro neurovědy
Úkol 1.
• Zadání: Vhodně kategorizujte výšku a zjistěte, zda existuje vztah
kategorizované výšky a pohlaví.
14
Janoušová, Dušek: Analýza dat pro neurovědy
Fisherův exaktní test
• Určen pro čtyřpolní tabulky, je vhodný i pro tabulky s malými četnostmi –
pro ty, které nesplňují předpoklad Pearsonova chí-kvadrát testu.
• Založen na výpočtu „přesné“ p-hodnoty (pravděpodobnosti, s jakou
bychom dostali stejný nebo ještě extrémnější výsledek při zachování
součtu řádků i sloupců v tabulce).
• Příklad: Chceme ověřit vztah dvou typů
nežádoucích účinků, které jsou sumarizovány
následující tabulkou:
• Postup: Všechny varianty tabulky při zachování součtu řádků a sloupců:
15
2 3
6 4
NÚ I
NÚ II
ano
ne
ano ne
0 5
8 2
1 4
7 3
2 3
6 4
3 2
5 5
4 1
4 6
5 0
3 7
Pravděpodobnosti výskytu jednotlivých tabulek:
0,007 0,093 0,326 0,392 0,163 0,019
Oboustranná p-hodnota (sečtení pravděpodobností stejných nebo menších
než je pravděpodobnost pozorované varianty):
p = 0,326 + 0,093 + 0,007 + 0,163 + 0,019 = 0,608
0,007 0,093 0,326 0,163 0,019
Janoušová, Dušek: Analýza dat pro neurovědy
Fisherův exaktní test
• Příklad: Chceme ověřit vztah pohlaví a kategorizovaného MMSE skóre
(MMSE skóre v normě (tzn. MMSE ≥ 25) a pod normou (MMSE < 25)) u
pacientů s Alzheimerovou chorobou.
• Řešení:
16
Janoušová, Dušek: Analýza dat pro neurovědy
Fisherův x Pearsonův test
• Pearsonův chí-kvadrát test lze použít na jakoukoliv kontingenční tabulku,
ALE je nutné hlídat předpoklady: 100% očekávaných četností větších než 2
a 80 % očekávaných četností větších než 5 – u čtyřpolní tabulky to
znamená, že všechny očekávané četnosti musí být větší než 5.
• Nedodržení předpokladů pro Pearsonův chí-kvadrát test může stejně
jako u t-testu a analýzy rozptylu vést k nesmyslným závěrům!
• Pro hodnocení čtyřpolních tabulek je Fisherův exaktní test standardem
v klinických analýzách.
17
Janoušová, Dušek: Analýza dat pro neurovědy
Analýza kontingenčních tabulek na webu
• 2x2 tabulky: http://graphpad.com/quickcalcs/contingency1/
• 2x3 tabulky: http://www.vassarstats.net/fisher2x3.html
• 2x5 (nebo menší) tabulky:
http://www.quantitativeskills.com/sisa/statistics/fiveby2.htm
18
Janoušová, Dušek: Analýza dat pro neurovědy
Úkol 2.
• Zadání: Zjistěte, zda existuje vztah mezi typem onemocnění (AD a MCI) a
kategorizovaného MMSE skóre (pod normou a v normě) u žen.
• Řešení:
19
Janoušová, Dušek: Analýza dat pro neurovědy
McNemarův test
• Je to obdoba párového testu (test symetrie pro kontingenční tabulku).
• Testová statistika pro čtyřpolní tabulku:
• Zaměřuje se pouze na pozorování, u kterých jsme při opakovaném měření
zaznamenali rozdílné výsledky – za platnosti H0 by jejich četnosti
(označeny b a c) měly být stejné.
• Testová statistika pro obecnou čtvercovou kontingenční tabulku:
20
cb
cb
+
-
=C
2
2 )( Veličina X
Veličina Y
Y = 1 Y = 2 Celkem
X = 1 a b a + b
X = 2 c d c + d
Celkem a + c b + d n
å< +
-
=C
ji jiij
jiij
nn
nn 2
2 )(
rozdílné výsledky
Janoušová, Dušek: Analýza dat pro neurovědy
McNemarův test
• Příklad: Zjistěte, zda se liší kategorizované MMSE skóre při vstupu do
studie a dva roky po zahájení studie.
• Řešení:
21
rozdílné výsledky
Janoušová, Dušek: Analýza dat pro neurovědy
2. Binomické testy
22
Janoušová, Dušek: Analýza dat pro neurovědy
Binomické testy
Pokud máme spočítané podíly pacientů s výskytem sledovaného jevu,
můžeme k testování použít i binomické testy:
1. Liší se podíl (p) pacientů s výskytem sledovaného jevu od
předpokládané (referenční) hodnoty (π)?
(Např. liší se procento pacientů s nežádoucími účinky léčby od
předpokládaného procenta?)
→ jednovýběrový binomický test (tzn. test pro podíl u jednoho výběru)
2. Liší se podíly pacientů s výskytem sledovaného jevu ve dvou
souborech?
(Např. liší se podíl pacientů s nežádoucími účinky léčby podle typu léčby?)
→ dvouvýběrový binomický test (tzn. test pro podíl u dvou výběrů)
23
Janoušová, Dušek: Analýza dat pro neurovědy
Jednovýběrový binomický test
• Příklad: Mezi 50 pacienty s Alzheimerovou chorobou je 12 pacientů s
MMSE skóre nižším než daná hranice. Ověřte, zda podíl pacientů s nižším
skóre je stejný jako v běžné populaci.
• Tzn. hypotézy budou mít tvar: a
• Řešení:
• π = 0,05 (v populaci – hranice
skóre jsou dělána tak, aby 5%
populace bylo nižší než hranice)
• p = 12/50 = 0,24
• Závěr:
Podíl pacientů s nižším MMSE skóre
je statisticky významně odlišný od
podílu v běžné populaci.
p=pH :0 p¹pH :1
Co největší N2 Vypočtená p-hodnota
24
Janoušová, Dušek: Analýza dat pro neurovědy
Dvouvýběrový binomický test
• Příklad: Mezi 42 pacienty s Alzheimerovou chorobou (AD) je 11 pacientů s
MMSE skóre nižším než daná hranice. Mezi 18 pacienty s mírnou kognitivní
poruchou (MCI) je 6 pacientů s MMSE skóre nižším než daná hranice.
Ověřte, zda se podíly pacientů s nižším skóre u pacientů s AD a MCI liší.
• Tzn. hypotézy budou mít tvar: a
• Řešení:
• p1 = 11/42 = 0,262
• p2 = 6/18 = 0,333
• Závěr:
Neprokázali jsme, že by se podíl
subjektů s nižším MMSE skóre
lišil u pacientů s AD a MCI.
210 : ppH = 211 : ppH ¹
Vypočtená p-hodnota
25
Janoušová, Dušek: Analýza dat pro neurovědy
3. Relativní riziko („relative risk“)
a poměr šancí („odds ratio“)
26
Janoušová, Dušek: Analýza dat pro neurovědy
Motivace
• Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS).
Výsledky dány v tabulce:
• Pomocí Pearsonova chí-kvadrát nebo Fisherova exaktního testu můžeme
rozhodovat o závislosti/nezávislosti dvou sledovaných veličin. Testy ale
neumožňují tento vztah kvantifikovat.
• Má-li to smysl a chceme-li kvantifikovat (rozhodovat o těsnosti této
závislosti) můžeme použít tzv. relativní riziko a poměr šancí.
27
SIDS
Věk matky
Do 25 let 25 a více let Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
Janoušová, Dušek: Analýza dat pro neurovědy
Grafické srovnání RR a OR
28
A B
RR = 2
10
3
10
6
== OR = 5.3
7
3
4
6
==
Výskyt sledovaného jevu
Bez výskytu sledovaného jevu
Janoušová, Dušek: Analýza dat pro neurovědy
Relativní riziko („Relative Risk“)
• Výpočet relativního rizika (RR) umožňuje srovnat pravděpodobnosti
výskytu sledovaného jevu ve dvou různých skupinách.
• 1. skupina – experimentální nebo skupina s expozicí určitému faktoru
• 2. skupina – kontrolní nebo skupina bez expozice
29
db
b
ca
a
P
P
RR
+
+==
0
1
=RR
Pravděpodobnost výskytu jevu v 1. skupině (experimentální)
Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) 0
1
P
P
=
Sledovaný jev
Skupina
Experimentální Kontrolní Celkem
Ano a b a + b
Ne c d c + d
Celkem a + c b + d n
Janoušová, Dušek: Analýza dat pro neurovědy
Relativní riziko
• Příklad: Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence
(SIDS). Výsledky dány v tabulce:
30
SIDS
Věk matky
Do 25 let 25 a více let Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
97,2
1124115
15
730129
29
0
1
=
+
+=
+
+==
db
b
ca
a
P
P
RR
Riziko výskytu SIDS u dětí
matek ve věku do 25 je
téměř třikrát vyšší než u
dětí matek rodících ve
vyšším věku.
Janoušová, Dušek: Analýza dat pro neurovědy
Relativní riziko
Příklad: Sledujeme souvislost
věku matky a výskytu náhlého
úmrtí kojence (SIDS). Výsledky
dány v tabulce:
31
SIDS
Věk matky
Do 25 let
25 a více
let
Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
Řešení pomocí webového kalkulátoru:
(http://www.medcalc.org/calc/relative_risk.php):
Závěr: Riziko výskytu SIDS u dětí
matek ve věku do 25 je téměř
třikrát vyšší než u dětí matek
rodících ve vyšším věku.
Janoušová, Dušek: Analýza dat pro neurovědy
Poměr šancí („Odds ratio“)
• Poměr šancí (OR) je další charakteristikou, která umožňuje srovnat výskyt
sledovaného jevu ve dvou různých skupinách.
• 1. skupina – experimentální nebo skupina s expozicí určitému faktoru
• 2. skupina – kontrolní nebo skupina bez expozice
32
=OR
Pravděpodobnost výskytu jevu v 1. skupině (experimentální)
Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní)
0
0
1
1
0
1
1
1
P
P
P
P
O
O
-
-
==
1 – Pravděpodobnost výskytu jevu v 1. skupině (experimentální)
1 – Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní)
d
b
c
a
P
P
P
P
OR =
-
-
=
0
0
1
1
1
1
Sledovaný jev
Skupina
Experimentální Kontrolní Celkem
Ano a b a + b
Ne c d c + d
Celkem a + c b + d n
Janoušová, Dušek: Analýza dat pro neurovědy
Poměr šancí
• Příklad: Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence
(SIDS). Výsledky dány v tabulce:
33
SIDS
Věk matky
Do 25 let 25 a více let Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
98,2
11241
15
7301
29
1
1
0
0
1
1
===
-
-
=
d
b
c
a
P
P
P
P
OR
„Šance“ na výskyt SIDS u
dětí matek ve věku do 25 je
téměř třikrát vyšší než u
dětí matek rodících ve
vyšším věku.
Janoušová, Dušek: Analýza dat pro neurovědy
Poměr šancí
34
Příklad: Sledujeme souvislost
věku matky a výskytu náhlého
úmrtí kojence (SIDS). Výsledky
dány v tabulce:
Řešení pomocí webového kalkulátoru:
(http://www.medcalc.org/calc/odds_ratio.php):
SIDS
Věk matky
Do 25 let
25 a více
let
Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
Závěr: „Šance“ na výskyt SIDS u
dětí matek ve věku do 25 je
téměř třikrát vyšší než u dětí
matek rodících ve vyšším věku.
Janoušová, Dušek: Analýza dat pro neurovědy
Úkol 3.
• Zadání: Sledujeme výskyt nežádoucích účinků u mužů a u žen (viz tabulka).
Vypočtěte relativní riziko a poměr šancí.
35
Nežádoucí
účinky
Pohlaví
Muž Žena Celkem
Ano 34 19 53
Ne 16 31 47
Celkem 50 50 100
79,1
3119
19
1634
34
=
+
+=
+
+=
db
b
ca
a
RR 47,3
31
19
16
34
===
d
b
c
a
OR
Riziko výskytu nežádoucích
účinků u mužů je téměř
1,8-krát vyšší než u žen.
„Šance“ na výskyt nežádoucích
účinků u mužů je téměř 3,5-krát
vyšší než u žen.
Janoušová, Dušek: Analýza dat pro neurovědy
Výhody a nevýhody RR a OR
• Nevýhoda OR:
– obtížná interpretace.
• Výhoda i nevýhoda RR:
– nezajímá ho samotná pravděpodobnost výskytu jevu, ale pouze jejich
podíl → korektní použití RR je však pouze v případě, že
pravděpodobnost výskytu jevu v kontrolní skupině je reprezentativní
(není ovlivněna výběrem sledovaných subjektů).
36
Janoušová, Dušek: Analýza dat pro neurovědy
Prospektivní a retrospektivní studie
• Prospektivní studie
• U některých subjektů je rizikový
faktor přítomen a u jiných ne →
sledujeme v čase, zda se
vyskytne událost.
• Retrospektivní studie
• U některých subjektů se událost
vyskytla a u jiných ne → zpětně
hodnotíme, zda se liší s ohledem
na nějaký rizikový faktor.
37
Exponovaní jedinci
Jedinci bez expozice
Případy (s událostí)
Případy (s událostí)
Kontroly (bez události)
Kontroly (bez události)
Exponovaní jedinci
Jedinci bez expozice
Historie Začátekstudie Čas
Začátekstudie Čas
S událostí
Bez události
Průběh studie
Kohorta
subjektů
(náhodně
vybranáze
studované
populace)
S událostí
Bez události
Exponovaníjedinci
Jedinci bez expozice
Janoušová, Dušek: Analýza dat pro neurovědy
Použití RR a OR
• Prospektivní studie – u některých subjektů je rizikový faktor přítomen a u
jiných ne → sledujeme, zda se vyskytne událost.
• Zjištěná pravděpodobnost výskytu události v kontrolní skupině je
reprezentativní, neboť prospektivně zařazujeme všechny pacienty
‖ → korektní použití RR.
• Retrospektivní studie – u některých subjektů se událost vyskytla a u jiných
ne → zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový faktor.
• Zjištěná pravděpodobnost výskytu události v kontrolní skupině není
reprezentativní, neboť ji ovlivňujeme zpětným výběrem skupin subjektů.
‖ → nekorektní použití RR.
‖ → korektní použití OR.
38
Janoušová, Dušek: Analýza dat pro neurovědy
Srovnávané skupiny
• Pomocí RR i OR můžeme srovnat pravděpodobnosti výskytu sledovaného
jevu ve dvou různých skupinách:
• 1. skupina s pravděpodobností výskytu události P1:
– experimentální skupina – např. léčená novou léčbou
– riziková skupina – např. hypertonici
– skupina s expozicí určitému faktoru – např. horníci
• 2. skupina s pravděpodobností výskytu události P0:
– kontrolní skupina
– skupina bez expozice
39
Janoušová, Dušek: Analýza dat pro neurovědy
Další způsoby vyjádření rozdílu rizika
• Relativní redukce rizika (RRR)
• Absolutní redukce rizika (ARR)
40
ARR = %202.0
10
3
10
5
==-=
Bez léčby S léčbou
RRR = 1 - RR = 1 - %406.01
10
5
10
3
1 =-=-=
Janoušová, Dušek: Analýza dat pro neurovědy
Další způsoby vyjádření rozdílu rizika
• Počet pacientů, které je potřeba léčit, abychom zabránili výskytu jedné
události – „number needed to treat“ (NNT).
41
ARR = 20% Pro snížení počtu událostí o 20 je třeba léčit 100 pacientů.
5
20
100
2,0
1
==NNT =
NNT = Pro snížení počtu událostí
o 1 je třeba léčit 5 pacientů.
Janoušová, Dušek: Analýza dat pro neurovědy
Absolutní vs. relativní četnost
• Vyjádření výsledků v relativní formě (procento) má často příjemnou
interpretaci, ale může být zavádějící.
• Relativní vyjádření účinnosti by mělo být vždy doprovázeno absolutním
vyjádřením účinnosti.
• Příklad: Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků.
‖ Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %.
‖ Relativní změna v účinnosti = 40 %; absolutní změna = 8 %.
‖ Studie 2: Výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %.
‖ Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %.
• Výsledkem je rozdílný přínos léčby při stejné relativní účinnosti.
42
Janoušová, Dušek: Analýza dat pro neurovědy
NNT a absolutní vs. relativní četnost
• Srovnání účinnosti léčiva ve smyslu prevence CMP u kardiaků.
‖ Studie 1: Výskyt CMP ve skupině A je 12 %, ve skupině B je 20 %.
‖ Relativní změna v účinnosti = 40 %; absolutní změna = 8 %.
‖ Studie 2: Výskyt CMP ve skupině A je 0,9 %, ve skupině B je 1,5 %.
‖ Relativní změna v účinnosti = 40 %; absolutní změna = 0,6 %.
43
7,166
6,0
100
006,0
1
==NNT =
NNT = Pro snížení počtu událostí
o 1 je třeba léčit 167 pacientů.
5,12
8
100
08,0
1
==NNT =
NNT = Pro snížení počtu událostí
o 1 je třeba léčit 13 pacientů.
Janoušová, Dušek: Analýza dat pro neurovědy
4. Binomické rozdělení
44
Janoušová, Dušek: Analýza dat pro neurovědy
Typy dat - opakování
• Kvalitativní (kategoriální) data:
- Binární data
- Nominální data
- Ordinální data
• Kvantitativní data:
- Intervalová data
- Poměrová data
45
Janoušová, Dušek: Analýza dat pro neurovědy
Motivace
• Nejjednodušším případem kategoriálních dat jsou data binární.
• Binární data jsou popsána binomickým rozložením.
• Od chování binomického rozložení je odvozena:
– popisná statistika binárních dat (procento výskytu jevu)
– interval spolehlivosti pro binární data
– binomické testy pro srovnání procentuálního výskytů jevů v různých
skupinách
46
Janoušová, Dušek: Analýza dat pro neurovědy
Binomické rozdělení
• Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve
formě nastala/nenastala) v sérii n nezávislých pokusech, kdy v každém
pokusu je stejná pravděpodobnost výskytu této události.
• Značení: Bi(n,π)
• Parametry:
‖ n ... počet nezávislých pokusů
‖ r ... počet, kolikrát nastala sledovaná událost (r = 0...n)
‖ p = r/n ... pravděpodobnost nastání sledované události (p ̴π)
• Pravděpodobnost, že sledovaná událost nastane r-krát, lze vypočítat:
• Střední hodnota: EX = n · p
• Rozptyl: DX = n · p · (1 - p)
• Příklady: výskyt nežádoucích účinků léku u léčených pacientů, počet
zemřelých pacientů mezi léčenými pacienty, počet pacientů s výsledkem
neuropsycholog. testu pod normou
( )
( ) rnrrnr
pp
rnr
n
pp
r
n
rXP
--
-××
-
=-÷÷
ø
ö
çç
è
æ
== 1
!!
!
)1()(
47
Janoušová, Dušek: Analýza dat pro neurovědy
Binomické rozdělení – příklad
• Př. Pravděpodobnost narození chlapce je 0,5. Jaká je pravděpodobnost
toho, že mezi čtyřmi dětmi v rodině je 0, 1,... až 4 chlapců. Vypočítejte i
jaký je nejpravděpodobnější počet chlapců v této rodině.
• Řešení: n = 4 (4 děti v rodině)
r = 0, 1, 2, 3, 4 chlapců
( )
( ) rnrrnr
pp
rnr
n
pp
r
n
rXP
--
-××
-
=-÷÷
ø
ö
çç
è
æ
== 1
!!
!
)1()(
( ) 0625,05,015,0
4!0!
!4
)0(
40
=-××==XP
( ) 2500,05,015,0
3!1!
!4
)1(
31
=-××==XP
( ) 3750,05,015,0
2!2!
!4
)2(
22
=-××==XP
Nejpravděpodobnější počet chlapců – střední
hodnota: E(X) = n · p = 4 · 0,5 = 2
2500,0)3( ==XP
0625,0)4( ==XP
0
0.1
0.2
0.3
0.4
0 1 2 3 4
n = 4
p = 0,5
48
Janoušová, Dušek: Analýza dat pro neurovědy
0
0,05
0,1
0,15
0,2
0,25
0,3
0 1 2 3 4 5 6 7 8 9 10
0
0,05
0,1
0,15
0,2
0,25
0,3
0 5 10 15 20 25 30
0
0,05
0,1
0,15
0,2
0,25
0,3
0 10 20 30 40 50 60 70 80 90 100
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 5 10 15 20 25 30 35 40 45 50
0
0,02
0,04
0,06
0,08
0,1
0,12
0 5 10 15 20 25 30 35 40 45 50
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 5 10 15 20 25 30 35 40 45 50
Binomické rozdělení – tvar pro různé n a p
• Čím vícekrát opakujeme experiment, tím menší relativní podíl připadá na
jednotlivé hodnoty X, neboť všechny dohromady musí dát součet 1 (100%).
• Rozdělení s p=0,5 je symetrické kolem středu osy x, menší či větší p posouvá
střed rozdělení směrem k limitním hodnotám (tedy hodnotám 0 či n).
n = 10
p = 0,3
n = 30
p = 0,3
n = 100
p = 0,3
n = 50
p = 0,1
n = 50
p = 0,5
n = 50
p = 0,9
P(r)
P(r)
P(r)
P(r)
P(r)
P(r)
r r r
r r r
49
Janoušová, Dušek: Analýza dat pro neurovědy
Binomické rozložení – speciální případy
• Pokud n=1, jde o tzv. alternativní rozdělení a daná událost buď nenastane
nebo nastane jednou.
• Pokud náhodný experiment opakujeme mnohokrát (n je velké), rozdělení
se začne podobat spojitému rozdělení → aproximace na normální
rozdělení.
• Aproximace normálním rozdělením však nebude platit pro velmi nízké a
velmi vysoké hodnoty p → u nízkých hodnot p aproximace na Poissonovo
rozdělení (pro n > 30 a p < 0,1).
0
0,05
0,1
0,15
0,2
0,25
0,3
0 10 20 30 40 50 60 70 80 90 100
n = 100
p = 0,3
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 5 10 15 20 25 30 35 40 45 50
n = 50
p = 0,09
P(r)
r
P(r)
r
50
Janoušová, Dušek: Analýza dat pro neurovědy
Binomické rozdělení - interval spolehlivosti - příklad
• Př. Sledování výskytu nežádoucích účinků u n = 100 pacientů se
schizofrenií léčených daným přípravkem. Nežádoucí účinky se vyskytly u
60 jedinců. Odhadněte pravděpodobnost výskytu nežádoucích účinků a
tento odhad doplňte o 95% interval spolehlivosti.
• Vzorečky:
• Řešení:
• Pravděpodobnost výskytu nežádoucích účinků je 0,6 (0,503; 0,697).
n
rpp =» ;p (bodový odhad parametru π)
( ) ( )
1
1
1
1
2
1
2
1
-
-
×+££
-
×-
--
n
pp
Zp
n
pp
Zp aa p
(interval spolehlivosti
pro π)
6,0100/60 ==p
( ) ( )
1100
6,016,0
96,16,0
1100
6,016,0
96,16,0
-
-×
×+££
-
-×
×- p
049,096,16,0049,096,16,0 ×+££×- p
697,0503,0 ££ p
51
Janoušová, Dušek: Analýza dat pro neurovědy
Binomické rozdělení – interval spolehlivosti
• Ovlivnění šířky intervalu spolehlivosti (IS):
– hodnotou p – IS bude nejširší pro p = 0,5
– hodnotou n – IS širší při malém n než při velkém
– hodnotou α – IS širší pro malé α (hladinu spolehlivosti) – tzn. 99% IS
bude širší než 95% IS
• Interval spolehlivosti bez aproximace na normální rozdělení (pokud
hodnoty p jsou velmi nízké nebo velmi vysoké):
( )
1
1
2
1
-
×±
-
n
pp
Zp a
( ) ( )21;
2
1 nn
aFrnr
r
D
×+-+
=
( ) rrn 2;12 21 =+-= nn
( ) ( )
( ) ( )21
21
;
2
;
2
1
1
nn
a
nn
a
¢¢
¢¢
×++-
×+
=
Frrn
Fr
H ( )
( ) 22
212
12
21
-=-=¢
+=+=¢
nn
nn
rn
r
... kde:
Dolní hranice IS:
Horní hranice IS:
... kde:
52
Janoušová, Dušek: Analýza dat pro neurovědy
5. Poissonovo rozdělení
53
Janoušová, Dušek: Analýza dat pro neurovědy
Poissonovo rozdělení
• Diskrétní rozdělení, které popisuje počet výskytů sledované události na
danou jednotku (času, plochy, objemu), když se tyto události vyskytují
vzájemně nezávisle s konstantní intenzitou (parametr λ).
• Značení: Po(λ)
• Jedná se o zobecnění binomického rozdělení pro a
‖ (aproximace je funkční již při n > 30, p < 0,1):
‖ Pravděpodobnost, že sledovaná událost nastane r-krát, lze vypočítat:
• Střední hodnota: EX = λ (λ vyjadřuje střední počet jevů na jednu
experimentální jednotku)
• Rozptyl: DX = λ
• Příklady: počet krvinek v poli mikroskopu, počet pooperačních komplikací
během určitého časového intervalu po výkonu, počet pacientů, kteří přišli
do ordinace během jedné hodiny, počet částic, které vyzáří zářič za danou
časovou jednotku
¥®n 0®p
!
)(
r
e
rXP
r l
l -
==
( ) ( )pnpn ×® Po,Bi
54
Janoušová, Dušek: Analýza dat pro neurovědy
Poissonovo rozdělení – příklady
Výskyt jevu na experimentální jednotku
(mutace bakterií na inkubačních miskách)
Výskyt jevu v prostoru
(počet buněk v sčítacím poli preparátu)
Orientační stanovení jevu
(např. produkce plynu bakteriemi)
+ + +- Výskyt
jevu v čase
(vyzáření částice v určitých časových
intervalech)
čas
55
Janoušová, Dušek: Analýza dat pro neurovědy
Poissonovo rozdělení – příklad
• Příklad: Předpokládejme, že v určité populaci krys se vyskytuje albín
s pravděpodobností π=0,001, ostatní krysy jsou normálně pigmentované.
Ve vzorku 100 krys náhodně vybraných z této populace určete
pravděpodobnost, že vzorek a) neobsahuje albína, b) obsahuje právě
jednoho albína.
• Řešení: Pravděpodobnost výskytu albína je π=0,001. Předpokládaný počet
albínů ve výběru o rozsahu n je λ=n*π (průměr binomické náhodné
veličiny), tj. v našem příkladu λ=n*π=100*0,001=0,1. Počet albínů
označme x. Potom:
• Jak je vidět, pravděpodobnost, že ve vzorku 100 krys nebude žádný albín,
je desetkrát vyšší než pravděpodobnost, že ve vzorku bude právě jeden
albín. Pravděpodobnosti výskytu dvou a více albínů jsou již velmi malé.
Převzato z: Zvárová, J. (2001) Základy statistiky pro biomedicínské obory. Praha: Karolinum.
56
Janoušová, Dušek: Analýza dat pro neurovědy
Poissonovo rozdělení – předpoklady
• výskyt jevu je zcela náhodný (tedy náhodný v čase nebo prostoru podle
typu situace)
• výskyt jevu v konkrétní experimentální jednotce nijak nezávisí na tom, co
se stalo v jiných jednotkách
• není možné, aby 2 nebo více jevů nastaly současně, přesně ve stejném
místě prostoru nebo ve stejném časovém okamžiku
• pro každý dílčí časový okamžik, prostorou jednotku apod. je
pravděpodobnost výskytu stejná
ms <2
ms >2
ms =2
Poissonovo rozdělení
výskyt uniformní výskyt shlukový výskyt náhodný
57
Janoušová, Dušek: Analýza dat pro neurovědy
Poissonovo rozdělení – tvar pro různé λ
• Čím větší je λ, tím více se tvar Poissonova rozdělení blíží normálnímu
rozdělení.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 1 2 3 4 5 6 7 8 9 10
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
0 1 2 3 4 5 6 7 8 9 10
l = 0.01 l = 0.1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0 1 2 3 4 5 6 7 8 9 10
l = 0.5
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 1 2 3 4 5 6 7 8 9 10
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
l = 5 l = 10
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0 1 2 3 4 5 6 7 8 9 10
l = 1
58
Janoušová, Dušek: Analýza dat pro neurovědy
Poissonovo rozdělení – intervaly spolehlivosti - příklad
• Př. Za 10 hodin vyzářil zářič 1500 částic. Spočtěte průměrný počet
vyzářených částic za hodinu a tento odhad průměrného počtu částic
doplňte o 95% interval spolehlivosti.
• Vzorečky:
• Řešení:
• Průměrný počet částic vyzářených za hodinu je 150 (142;158).
x»l (bodový odhad parametru λ)
n
x
Zx
n
x
Zx ×+££×- --
2
1
2
1 aa l (interval spolehlivosti pro λ)
15010/1500 ==x
10
150
96,1150
10
150
96,1150 ×+££×- l
873,396,1150873,396,1150 ×+££×- l
158142 ££ l
59
Janoušová, Dušek: Analýza dat pro neurovědy
Poissonovo rozdělení – interval spolehlivosti
• Ovlivnění šířky intervalu spolehlivosti (IS):
– hodnotou λ – IS širší při velkém λ
– hodnotou n – IS širší při malém n než při velkém
– hodnotou α – IS širší pro malé α (hladinu spolehlivosti) – tzn. 99% IS
bude širší než 95% IS
• Interval spolehlivosti bez aproximace na normální rozdělení:
n
x
Zx ×± -
2
1 a
( )
2
1
2
2 nac
=D r21 =n
22212 +=+= rnn
... kde:
Dolní hranice IS:
Horní hranice IS:
... kde:( )
2
2
2
21 nac -
=H
60
Janoušová, Dušek: Analýza dat pro neurovědy
Poděkování…
Příprava výukových materiálů předmětu „DSAN01 Analýza
dat pro Neurovědy “ byla finančně podporována prostředky
projektu FRVŠ č. 942/2013 „Inovace materiálů pro
interaktivní výuku a samostudium předmětu Analýza dat pro
Neurovědy“
61