RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Přínos kurzu
Orientace v principech analýzy dat, plánování a hodnocení experimentů z oblasti medicíny.
Schopnost správné aplikace základních metod analýzy medicínských dat v praxi.
Schopnost správné interpretace dosažených výsledků. Schopnost praktické analýzy dat v softwaru STATISTICA.
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^- (^J
Osnova kurzu
1. Jak medicínská data správně popsat a vizualizovat:
- Typy dat, jejich vizualizace a popisná sumarizace
- Modelová rozdělení dat, transformace dat
- Intervaly spolehlivosti
2. Jak medicínská data správně testovat:
- Formulování hypotéz, hladina významnosti, síla testu, p-hodnota
- Jednovýběrové testy: z-test, jednovýběrový t-test, párový t-test
3. Jak a kdy použít parametrické a neparametrické testy I. :
- Dvou výběrový t-test
- Neparametrické testy: Wilcoxonův test, Mannův-Whitneyův test
- F-test
4. Jak a kdy použít parametrické a neparametrické testy II. :
- Analýza rozptylu (ANOVA) a její předpoklady
- Problém násobného testování hypotéz - Bonferonniho korekce, FDR
- Kruskalův-Wallisův test
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^
Osnova kurzu
5. Jak analyzovat kategoriální a binární data I. :
- Analýza kontingenčních tabulek
- Relativní riziko (relative risk) a poměr šancí (odds ratio)
- Binomické a Poissonovo rozdělení
6. Jak analyzovat kategoriální a binární data II. :
- Hodnocení diagnostických testů - senzitivita, specificita, prediktivní hodnoty
- Hledání diagnostického cut-off pomocí ROC křivek
7. Jak hodnotit vztah spojitých proměnných a základy regresního modelování:
- Základy korelační analýzy - Pearsonův a Spearmanův korelační koeficient
- Základy regresní analýzy - lineární regrese, odstranění vlivu kovariát
8. Jak analyzovat přežití pacientů :
- Analýza přežití
- Coxova regrese
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^
Požadavky ke kolokviu
Předmět je ukončen kolokviem sestávajícím se z analýzy praktických příkladů na počítači.
Je nutné porozumět probíraným tématům a umět aplikovat základní statistické metody při analýze reálného datového souboru.
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^- (^J
Doporučená literatura - v češtině
\-
• Havránek, T., 1993. Statistika pro biologické a lékařské vědy. Praha: Academia.
• Benedík, J., Dušek, L, 1993, Sbírka příkladů z biostatistiky. Brno: Konvoj.
• Zvárová, J., 2001. Základy statistiky pro biomedicínské obory. Praha: Karolinum. (http://ucebnice.euromise.cz/index.php?conn=0&section=biostatl)
MU
Janoušová, Dušek: Analýza dat pro neurovědy *|L
Doporučená literatura - v angličtině
• Zar, J.H., 1998. Biostatistical analysis. London: Prentice Hall.
• StatSoft, Electronic Statistics Textbook (http://www.statsoft.eom/textbook/elementary-statistics-concepts/button/l/)
• Harrington, M., 2011. The Design of Experiments in Neuroscience, London: SAGE.
• Weaver, A. & Goldberg, S., 2012. Clinical Biostatistics and Epidemiology Made Ridiculously Simple, Miami: MedMaster.
• Rumsey, D.J., 2010. Statistics Essentials For Dummies, Hoboken: Wiley.
• Rumsey, D.J., 2011. Statistics For Dummies, Hoboken: Wiley.
• Rumsey, D.J., 2009. Statistics II For Dummies, Hoboken: Wiley.
• Salkind, N.J., 2010. Statistics for People Who (Think They) Hate Statistics, London: SAGE.
• Gonick, L. & Smith, W., 2000. The Cartoon Guide to Statistics, London: Harper Collins.
• Oweiss,  K.G.,  2010.  Statistical  Signal  Processing  for  Neuroscience and Neurotechnology, Burlington: Academic Press.
• Triola, M.M. & Triola, M.F., 2006. Biostatistics for the Biological and Health Sciences, Boston: Pearson.
MU
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^- J^J
Doporučená literatura - workbooky v angličtině
* Rumsey, D.J., 2005. Statistics Workbook For Dummies, Hoboken: Wiley.
* Grove, S.K., 2007. Statistics for Health Care Research: A Practical Workbook, Edinburgh: Elsevier Saunders.
1 Petrie, A. & Sabin, C, 2013. Medical Statistics at a Glance - Workbook, Chichester: Wiley-Blackwell.
1 Barnette, J.J. & Walters, I.C., 2006. Biostatistics Student's Solutions Manual, Boston: Pearson, (k učebnici Triola & Triola, Biostatistics for the Biological and Health Sciences)
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^- (^J
Blokl
Jak medicínská data správně popsat
a vizualizovat.
Janoušová, Dušek: Analýza dat pro neurovědy   *jL ;jyj
Osnova
i-
1. Typy medicínských dat a jejich vizualizace
2. Popisná sumarizace dat
3. Normální rozdělení a rozdělení od něj odvozená
4. Transformace dat
5. Intervaly spolehlivosti
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   |yj 10
1. Typy medicínských dat a jejich vizualizace
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   |yj H
Data
• Cílová populace - skupina subjektů, o které chceme zjistit nějakou informaci (např. všichni pacienti s danou diagnózou v ČR).
• Cílová populace = základní soubor
• Experimentální vzorek -
podskupina (výběr) z cílové populace, kterou „máme k dispozici" (pozorovaný soubor).
- Musí odpovídat svými charakteristikami cílové populaci.
- Chceme totiž zobecnit výsledky na celou cílovou populaci.
• Data - číselný nebo slovní záznam informací o pozorovaném souboru lidí, zdravotnických zařízení apod.
Janoušová, Dušek: Analýza dat pro neurovědy ^! 12
Datová tabulka
PROMĚNNÉ
ID	Pohlaví	Věk	Váha
1	muž	84	85,5
2	žena	25	62,0
3			
4			
I-
CQ I-
CQ O
Janoušová. Dušek: Analvza dat Dro neu
Datový soubor - zásady ukládání dat
)-
• Správné a přehledné uložení dat je základem jejich pozdější analýzy.
• Je vhodné rozmyslet si před zahájením sběru dat, jak budou data ukládána.
• Pro počítačové zpracování dat je nezbytné ukládat data v tabulkové podobě:
- Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce (hlavičky sloupců musejí být unikátní).
- Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.).
- Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty.
- Komentáře jsou uloženy v samostatných sloupcích.
- U textových dat je nezbytné kontrolovat překlepy v názvech kategorií.
- Specifickým typem dat jsou dátumy, u nichž je nezbytné kontrolovat, zda jsou uloženy v korektním formátu.
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^! 14
Typy dat
Kvalitativní (kategoriální) data:
- Binární data
- Nominální data
- Ordinální data
Kvantitativní data:
- Intervalová data
o 6
- Poměrová data
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 15
Binární data (kvalitativní)
• Pouze dvě kategorie
• Příklady: pohlaví (muž x žena), onemocnění (ano x ne), kouření (ano x ne)
• Často číselné kódování pomocí 0 (ne) a 1 (ano)
• Rovná se?
Koláčový graf
52.9%
Pohlaví
N=102
47.1%
I  I Ženy     Q Muži
(N=54) (N=48)
Koláčový graf je vhodné použít v prezentaci, v článku je vhodnější uvést N a %
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 16
Nominální data (kvalitativní)
)-
• Více kategorií, které nelze seřadit
• Příklady: barva očí (hnědá/zelená/...), typ skeneru (Sonata/Avanto/GE), kraj (Jihomoravský/Pardubický/...), krevní skupina (A/B/AB/0)
• Rovná se?
Barva očí
N=117
17.1%
Koláčový graf
29.1%
I I Hnědá O Zelená O Šedá O Modrá
MU
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^- 17
Ordinální data (kvalitativní)
)-
• Více kategorií, které však lze seřadit
• Příklady: kategorizovaný věk (děti/lidé v produktivním věku/staří lidé), stádium onemocnění (l/ll/lll/IV), stupeň bolesti (mírná/střední/velká), vdělání (ZŠ/SŠ/VŠ), četnost epileptických záchvatů (malá/střední/velká)
• Rovná se? Větší x menší?
%
10 - I
8 -    I I
Sloupcový graf e-
4 - I-1 I-
2 -
0 -I—I-1—i—I-1—i—I-1—i—I-1—i
I II III IV
Stádium onemocnění
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^! 18
Intervalová data (kvantitativní)    ^ ^     " '^^"^
* Kvantitativní data, u nichž nula byla stanovena uměle (nula nemusí vyjadřovat absenci daného znaku)
* Příklady: teplota ve stupních Celsia, kalendářní čas
* Rovná se? Větší x menší? O kolik?
Histogram
Krabicový graf (Box Plot)
■10   0    10   20   30   40   50   60   70 80
60
40-
20-
0-
-20
m
□
Maximum
Medián
75% percentu
25% percentu Minimum
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 19
Poměrová data (kvantitativní)
• Kvantitativní data, kde nula odpovídá nepřítomnosti sledovaného znaku
• Příklady: váha, výška, objem mozkové struktury, koncentrace proteinu sAPP(3 v mozkomíšním moku, počet hospitalizací pacientů
• Rovná se? Větší x menší? O kolik? Kolikrát?
Histogram
Krabicový graf (Box Plot)
25 -i 20 -15 -10 -5 -
0    10   20   30   40   50   60   70   80 90
100 n
75 -
50 -
25 -
□
Maximum
Medián
75% percentu
25% percentu Minimum
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 20
Histogramy
Histogram pro absolutní počty
Histogram pro relativní počty
N
120 n
100 80 -60 -
40 -
20 -
				
		100	100	
				
50				50
				
	25			
				
0,4        0,8        1,2 1,4
-> součet je celkové N
1,6
%
40
10 H 5 0
				
-		30,8	30,8	
15,4				15,4
	7,7			
				
0 0,4        0,8        1,2 1,4
-» součet je 100%
Janoušová, Dušek: Analýza dat pro neurovědy
1,6
IBA
W 21
Histogram - počet intervalů
Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěná.
N
4 intervaly
19
16 -	14			
12 -				
8 -			6	
4 -				2
0 -				1
N
20 n 16 -12 -8
4 H 0
6 intervalů
16
8
1-3     4-6     7-9 10-12
1-2   3-4   5-6   7-8 9-10 11-12
12 intervalů
N
20 n 16 -12 -
8 -     6 6
4 - 2
0
11 1 =F=h
123456789 10 11 12
dvě základní metody volby počtu intervalů m:
1. odmocnina z celkového počtu:     m = VjV
2. Sturgesovo pravidlo: m = 1 + log2(7V)
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 22
Jiné dělení kvantitativních dat
Spojitá data  - mohou nabývat jakýchkoliv hodnot v určitém rozmezí
- příklady: výška, váha, teplota, délka časového období od zahájení léčby do vymizení halucinací u schizofreniků
Diskrétní data- mohou nabývat pouze spočetně mnoho hodnot
- příklady: počet hospitalizací, počet dětí v rodině, počet krevních buněk v 1 ml krve, počet epileptických záchvatů
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   |yj 23
Shrnutí typů dat
nominální
ordinální
kvalitativní
kategoriální
intervalové
kvantitativní
V f
poměrové
diskrétní
spojité
MU
Janoušová, Dušek: Analýza dat pro neurovědy   *|L  J^J 24
Možnost převodu typu dat
Proměnné určitého typu můžeme převádět na jiný typ:
kvantitativní spojitá _ ordinální binární (dichotomická)
(věk) (věkové kategorie) (<=70 let, >70 let)
Janoušová, Dušek: Analýza dat pro neurovědy   ^ôx   IJMLJ) 25
Odvozené typy dat
• Pořadí (rank) - místo absolutních hodnot známe někdy jen jejich pořadí. Jedná se sice o ztrátu určitého množství informace, nicméně i pořadí lze v analýze využít.
• Procento (percentage) - sledujeme-li např. zlepšení v určitém parametru, je výhodné sledovat procentuální zlepšení. Př.: ejekční frakce levé srdeční komory.
• Podíl (ratio) - mnoho indexů je odvozeno jako podíl dvou měřených veličin. Př.: BMI.
• Míra pravděpodobnosti (rate) - týká se výskytu různých onemocnění, kdy počet nových pacientů v daném čase (studii) je vztažen na celkový počet zaznamenaných osobo-roků. Př.: výskyt nádorového onemocnění u pacientů ve studii.
• Skóre (score) - jedná se o uměle vytvořené hodnoty charakterizující určitý stav, který nelze jednoduše měřit jako číselné hodnoty. Př.: indexy kvality života.
• Vizuální škála (visual scale) - pacienti často hodnotí svoje obtíže na škále, která má formu úsečky o délce např. 10 cm. Př.: hodnocení kvality života.
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^! 26
Úkol 1
* Vykreslete koláčový graf pro typ skeneru.
* Vykreslete histogram pro objem hipokampu.
* Vykreslete krabicový graf pro objem amygdaly.
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   |yj 27
2. Popisná sumarizace dat
Janoušová, Dušek: Analýza dat pro neurovědy   ^ôx \IJMLJ) 28
Příprava dat pro analýzu - problémy
Chybná kategorie
Pie Chart of Gender
5C0 450 400
350 300 'S 250
o
z:
200 160 100
50
M 0
Histogram of Age
				
		I		
				
				
/			I Odlehlá	
i			_L_                    hnrl nnta	
				
				I
				a) \ J?
				V *
is:
40     50     60     70     80     90     100    110    120    130    140    150    150 1
Age 80
Box Plot of Age
Duplikace
	A	B	C D			F              G              H 1			
1	ID                    0 Group 0		Gender T Age		Weighl ▼	MMSE ▼ MMSE_240CDR    Q ADASQ^			
13	ADNI_005_S_0553	IM S4			56.22 30		30 0		2.33
14	ADM_005_S_0553                1 M 34				66.22 30                         30             0 2.33				
15	ADNI_005_S_06O2	1	M	70	S5.73	29	30	0	4
ie	ADNI005 SO&10	1	M	79	8B.45	29	30	0	3
17	ADM_006_S_04S4	1	M	71	91.31	29		0	2.33
Chybějící hodnota
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 29
Předzpracování dat - chybějící hodnoty
)-
• snaha, aby v datech vůbec nenastaly
• pokud však nastanou, je silně nedoporučováno dělat každou analýzu na jinak velkém souboru (tzv. „pairwise" odstraňování objektů) -> 3 možná řešení:
1. vyloučit z analýzy všechny objekty, u nichž se vyskytla nějaká chybějící hodnota (tzv. „casewise"= „listwise" odstranění objektů):
pokud chybějících hodnot mnoho, zbyde pouze málo objektů
pozor na systematicky chybějící hodnoty - může dojít ke zkreslení výsledků analýz
občas vhodné odstranit proměnné s mnoha chybějícími hodnotami místo objektů, pokud proměnné nejsou důležité pro analýzu
2. definování souboru s vyplněnými „klíčovými" proměnnými:
na tomto souboru provedena většina analýz
další analýzy dělány na podsouboru s menším počtem subjektů
3. doplnění chybějících hodnot (tzv. imputace):
doplnění průměrem z hodnot, které jsou pro danou proměnnou k dispozici
doplnění hodnot na základě regresních modelů
pozor! doplnění hodnot však může zkreslit výsledky analýz
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^! 30
Předzpracování dat - odlehlé hodnoty
)-
• k identifikaci odlehlých hodnot mohou pomoci tečkové, maticové či krabicové grafy
• další možné metody k identifikaci odlehlých hodnot budou probrány na příští přednášce
• je třeba rozlišovat:
1. odlehlé hodnoty, které jsou způsobeny chybou (měřících přístrojů apod.) -jsou to většinou nereálné hodnoty -> je vhodné je smazat a dále s nimi zacházet jako s chybějícími hodnotami
2. odlehlé hodnoty, které jsou fyziologické (tzn. jsou to reálné hodnoty) -> je vhodné tyto hodnoty v datech ponechat, pokud je to možné a nezkreslí to analýzu a použít neparametrické metody analýzy dat
- příklad, kdy je vhodné odlehlou hodnotu v souboru ponechat: pacienti Alzheimerovou chorobou v našem souboru mají hodnotu MMSE skóre větší než 15, jeden pacient má však hodnotu skóre 7 (je to reálná hodnota, smazáním bychom uměle snížili variabilitu)
- příklad, kdy je nevhodné odlehlou hodnotu v souboru ponechat: chceme měřit výšku 15-letých dětí - dítě trpící nanismem měřící 80 cm by průměrnou výšku velice zkreslilo, proto ho ze souboru vyřadíme
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^ 31
Cíle popisné sumarizace dat
zpřehlednění pozorovaných dat - ve vhodných tabulkách (a grafech)
shrnutí pozorovaných dat (nejedná se zatím o testování)
podklad pro stanovení hypotéz, pokud hypotézy již nejsou dány předem
odhalení odlehlých a chybných hodnot odhalení chybějících hodnot (missing values)
sumarizace kvalitativních dat -> cílem popsat absolutní a relativní četnosti jednotlivých kategorií
sumarizace kvantitativních dat -> cílem popsat těžiště (míry polohy) a rozsah (míry variability) pozorovaných hodnot
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   |yj 32
Popisná sumarizace kvalitativních dat
Primární data
Group
AD
CN
CN MCIp
AD
CN MCIs MCIp
N=833
Frekvenční tabulka
X	n %	
CN	230	27,6
MCIp	240	28,8
MCIs	166	19,9
AD	197	23,6
n - absolutní četnost dané kategorie % - relativní četnost; výpočet jako n/N
Vizualizace
MCIs
MCIp
CN      MCIp    MCIs AD Group
K popisu lze použít i modus (nejčetnější pozorovaná hodnota), u ordinálních dat případně i medián (pokud to dává smysl). U11
Janousova, Dušek: Analýza dat pro neurovedy 33
Popisná sumarizace kvantitativních dat
Primární data
Tabulka popisných statistik
Age 84		Age
		
76	N	836
79 89 71	Průměr (Mean) Medián (Median)	75,0 75,0
70	Minimum	54,0
88 86	Maximum	159,0
	Dolní kvartil (Lower Quartile)	71,0
	Horní kvartil (Upper Quartile)	80,0
	Směrodatná odchylka (Standard	7,5
	Deviation)	
	Variační koeficient (Coefficient of	10,0
N=836	variation)	
Vizualizace
Box Plot of Age
40     5a     60 70
90     100    110    120    130    140    150    160 170 Ago
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
m 34
Kvantitativní data - míry polohy
Minimum a maximum - nejmenší a největší pozorovaná hodnota nám dávají obraz o tom, kde se na ose x pohybujeme.
Průměr - charakterizuje hodnotu, kolem které kolísají ostatní pozorované
i n
hodnoty. Je to „těžiště" dat (součet J = ±^^ podprůměrných hodnot je stejný jako n i=\
součet nadprůměrných hodnot).
Medián - je prostřední pozorovaná      x=x{(n+l)/2) pron liché
hodnota. Dělí pozorované hodnoty na dvě půlky, půlka hodnot je menší a
půlka hodnot je větší než medián. Hodnoty x jsou seřazené podle velikosti.
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   |yj 35
Výpočet mediánu - příklady
x -x((n+\)/2) pro n liché
• Příklad 1: N = 9
N liché -> (n + 1) / 2 pozice znamená 5. pozice po seřazení
Data = 3,0 4,2 1,1 2,5 2,2 3,8 5,6 2,7 1,7
..........
Seřazená data = 1,1 1,7 2,2 2,5(2,7)3,0 3,8 4,2 5,6
***• .••**
Medián = 2,7
• Příklad 2: N = 8
N sudé -> vypočítáme hodnotu „mezi" 4. (n/2 -tým) a 5. (n/2+1 -tým) prvkem po seřazení
Data = 61743278
.........,
Seřazená data = 123(46)778 Medián = (4 + 6)/2 = 5
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^! 36
Průměr vs. medián
Symetrická data
Asymetrická data
30 -i 25 -20 -15 -10 -5 -0 -
-K-
Medián Průměr
hodnoty mediánu a průměru téměř splývají
medián i průměr dobrým odhadem frekvenčního středu dat (střední hodnoty)
30 -i 25 -20 -15 -10 -5 -0 -
Medián Průměr
hodnoty mediánu a průměru se
Im V f ISI
průměr není vhodným odhadem frekvenčního středu dat (střední hodnoty)
průměr vhodný, pokud chceme charakterizovat spotřebu (léků, peněz apod.)
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 37
Kvantil
Kvantil lze definovat jako číslo na reálné ose, které rozděluje pozorovaná data na dvě části: p% kvantil rozděluje data na p % hodnot a (100-p) % hodnot.
XP = x(k+\) pro k * np
xP = 2(x(k)+x(k+i))    V™k = np
_ 80% r\	
- hodnot/ \	20%
	\ hodnot
80% kvantil
Máme soubor 20 osob, u nichž měříme výšku. Chceme zjistit 80% kvantil souboru pozorovaných dat.
n = 20
Průměr těchto dvou = 80% kvantil
r
16/20 = 80% hodnot
4/20 = 20% hodnot
^-A-^
110 cm
140 cm
170 cm 200 cm 230 cm
Výška V Cm  jan0ušová, Dušek: Analýza dat pro neurovědy
IBA
W 38
Významné kvantily
Age
Maximum = 100% kvantil
Horní kvartil = 75% kvantil Medián = 50% kvantil
Dolní kvartil = 25% kvantil
Minimum = 0% kvantil
90
80
75
71
54
□ Median = 75
□ 25%-75% = (71, 80)
X Min-Max = (54, 90)
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 39
Kvantitativní data - míry variability I
90
80
<
70
60
50
Max
A
75% kvantil
Rozsah hodnot
(rozpětí)
Kvartilové rozpětí
25% kvantil
v
Min
Rozsah hodnot (rozpětí) = maximum - minimum. Je to nejjednodušší charakteristika variability pozorovaných dat. Je snadno ovlivnitelný netypickými (odlehlými) hodnotami.
Kvantilové rozpětí je definováno p% kvantilem a (100-p)% kvantilem a je méně ovlivněno odlehlými hodnotami. Speciálním případem je kvartilové rozpětí (= 75% kvantil - 25% kvantil), které pokrývá 50% pozorovaných
hodnot. Janoušová, Dušek: Analýza dat pro neurovědy   ^j^- J^J
Kvantitativní data - míry variability II
Rozptyl - průměrný čtverec odchylky od průměru. Velmi ovlivnitelný odlehlými hodnotami.
't2>.-
1 i=l
s2 = —- y; (x. - x)-
n -
Směrodatná odchylka - odmocnina z rozptylu. Výhodou směrodatné odchylky je, že má stejné jednotky jako pozorovaná data.
Variační koeficient (koeficient variace) - podíl směrodatné odchylky a průměru. Používá se na srovnání variability mezi datovými soubory. Často se vyjadřuje v procentech. s
v = 3.100 %
x
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   |yj 41
Výpočet rozptylu a směrodatné odchylky - ukázka
i---
• Příklad čtverců odchylek od průměru pro n = 3.
• Rozptyl je možno značně ovlivnit odlehlými pozorováními.
0,269
x1
0,547   0,638 0,733
x        x 2 x^
Rozptyl:
s2 =
n -1 í=1
Směrodatná odchylka:
1
s =
n -
11=1
xf
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   (yj 42
Úkol 2
• Proveďte popisnou sumarizaci pohlaví.
• Proveďte popisnou sumarizaci objemu všech šesti mozkových struktur (do jedné tabulky).
MU
Janoušová, Dušek: Analýza dat pro neurovědy   *|L  J^J 43
3. Vybraná modelová rozdělení
Janoušová, Dušek: Analýza dat pro neurovědy   ^ôx \IJMLJ) 44
Motivace
Symetrická data
Asymetrická data
30 -i 25 -20 -15 -10 -5 " 0 -
30 -i 25 -20 -15 -10 -5 -0 -
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 45
K čemu je nám znalost o modelových rozděleních?
• Popis vlastností cílové populace - na základě pozorovaných dat (histogram, box plot, popisné statistiky) jsme schopni usuzovat na charakter rozdělení pravděpodobnosti sledované veličiny. Dokonce jsme schopni otestovat míru shody s teoretickým rozdělením.
• Srovnání vlastností cílové populace/populací - na základě pozorovaných dat a našich předpokladů o teoretickém modelu (hypotéz) jsme schopni pomocí statistických testů srovnávat vlastnosti jedné nebo více cílových populací.
• Predikce vlastností cílové populace - nevyvrátíme-li na základě pozorovaných dat platnost teoretického modelu, jsme schopni se ptát, jak a s jakou pravděpodobností se bude cílová populace v budoucnu chovat.
Janoušová, Dušek: Analýza dat pro neurovědy ^ 46
Normální rozdělení
• jiný název - Gaussovo rozdělení
• základní rozdělení - u mnoha klinických a biologických veličin: tělesná výška, délka končetin a kostí, krevní tlak,...
• hodnoty veličiny se symetricky shlukují kolem středu, variabilita je dána aditivním vlivem mnoha „slabě působících faktorů"
Příklad - věk
Příklad vzniku normálního rozdělení - Galtonova deska
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 47
Normální rozdělení
střední hodnota - sumární statistika středu dat (tzn. číslo, které zastoupí střední, typickou, průměrnou hodnotu)
- u normálního rozd. označení: [x
rozptyl - sumarizace variability (tzn. odlišnosti jedinců zahrnutých ve výběrovém souboru);
- u normálního rozd. označení: o2
tvar rozdělení nám popisuje hustota (hustota normálního rozdělení-tzv. Gaussova křivka):
lna
značení: N(n,o2)
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 48
Normální rozdělení - distribuční funkce
interval	d(l)	n(l)	n(l)/n	N(x")	F(x")
<50,55)	5	4	0,005	4	0,005
<55,60)	5	23	0,028	27	0,033
<60,65)	5	64	0,077	91	0,110
1-		
		/ distribuční
0,8-		1/ funkce
0,6-		
0,4-		
0,2		
0-		
T
50 55 60 65 70 7|5 80 85 90 95 *
d(l) - šířka intervalu
n(l) - absolutní četnost
n(l) / n - intervalová relativní četnost
N(x") - intervalová kumulativní četnost do
horní hranice x"
F(x") - intervalová relativní kumulativní četnost do horní hranice X"
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^! 49
Normální rozdělení - různé u. a o2
oo o
o
N(0, 1) N(0, 0.25) N(0, 4) N(2, 1)
<< o
■r
o
o
■r
O
I*
o
.v
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 50
Standardizované normální rozdělení
Jakékoliv normální rozdělení může být převedeno na tzv. standardizované normální rozdělení:    x „ N^ a^ ^ z = ~ N(0,\)
24:
2::
180 160
14: 12: iao
80 60 iO
20
N(75,49)
50   55   60   65  70   75  80   85   90   95 100 Age
-3.0 -2.4 -1.8 -1.2 -0.6 0 0.6  1.2 1.8 2.4 3.0 Age
-> střední hodnota rovna 0, rozptyl roven 1
Hustota pravděpodobnosti: /(z;0,l) =
1
-z1 12
2tt
Klíčové rozdělení řady testů.
Výhoda je, že všechny hodnoty distribuční i kvantilové funkce jsou tabelovány a obsaženy ve všech dostupných softwarech.
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 51
Normální rozdělení - pravidlo ±3 sigma
U normálního rozdělení lze vyčíslit procento hodnot, které by se měly vyskytovat v rozmezí ± x násobku směrodatné odchylky (SD=o) od průměru.
Lze říci, že v rozmezí |i ± 3o by se mělo vyskytovat přes 99,5 % všech hodnot.
68,3 % všech hodnot
95,6 % všech hodnot
99,7 % všech hodnot
•   Použití: orientační ověření normality dat, identifikace odlehlých hodnot
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^! 52
Normalita dat
• Normalita je klíčovým předpokladem řady statistických metod - zejména testů a modelů.
• Není-li splněna podmínka normality hodnot, je špatně celý model, se kterým daná metoda pracuje, což vede k neinterpretovatelným závěrům.
• Její ověření je tak stejně důležité jako výběr správného testu.
• Pro ověření normality existuje řada testů a grafických metod.
Rozdělení není normální Odlehlá hodnota
HIV
Janoušová, Dušek: Analýza dat pro neurovědy 53
Odlehlá hodnota
Netypické pozorování
Závisí však na naší znalosti dané problematiky, jestli je daná hodnota možná či nikoliv!
Grafická identifikace: pomocí histogramu a krabicového grafu
350
300
250
200
150
100
50
Odlehlá hodnota
_l_I_I_I_I_I_I_I_I_I_I_I_L_
0      20     40      60      80     100    120    140    160    180 200
Height
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 54
Odlehlá hodnota
•   Identifikace pomocí popisných statistik: srovnání mediánu a průměru a
pomocí směrodatné odchylky						
	Valid N	Mean	Median	Minimum	Maximum	Std.Dev.
Height Height_cor	833 833	176.0 176.2	178.0 178.0	1.6 154.0	197.0 197.0	11.0 9.2
						
	Valid N	Mean	Median	Minimum	Maximum	Std.Dev.
Height Height_cor	20 20	166.3 174.2	174.0 174.0	1.6 158.0	193.0 193.0	39.6 8.9
• U velkého datového souboru bude průměr méně ovlivněn odlehlou hodnotou, z popisných statistik nemusíme poznat, že by tam mohla být odlehlá hodnota -> vždy provádět vizualizaci dat!
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^! 55
Úkol 3
*   Zjistěte, zda má MMSE skóre normální rozdělení - použijte histogram, krabicový graf a popisnou statistiku.
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   |yj 56
Logaritmicko-normální rozdělení
u zešikmeného rozdělení nám často (ale ne vždy!) může pomoci proměnnou transformovat pomocí logaritmické transformace: X = ln(Y) nebo X = ln(Y+l), pokud data obsahují 0
Log-normální rozdělení Normální rozdělení
• můžeme použít přirozený logaritmus (In), dvojkový logaritmus (log2) nebo dekadický logaritmus (loglO)
• Příklady veličin s log-normálním rozdělením: tělesná hmotnost, délka inkubační doby infekčního onemocnění, řada krevních parametrů (např. počet krevních buněk v daném objemu krve, sérový bilirubin u pacientů s cirhózou), počet bakteriálních buněk v daném objemu,... jrfL |ýj 57
Stručný přehled rozdělení I.
Rozdělení	Parametry	Popis	Graf	
Normální	Průměr Rozptyl	Praktická významnost, spojité. EX=ju, DX=č72 Př. délkové rozměry těla		—m, >)     {\ ........MO.0.25) f —.....-.V(0,4)         i \ — N{2, n    j ! -4-2        0         2 4
Log-normální \nN(iJL,o2)	Geometrický průměr Rozptyl	Praktická významnost, spojité. EX= eM+cj2/2,DX= \eal - ije2^2 Př. objemové rozmery, hmotnost		\ -                           InA^O, 1} ;   \ --------                          ln.\(o, (1,25) i     \                __ biV(l, 1) ^^^^^^ 0,25) 0         12         3         4 5
Studentovo t m	Stupně volnosti (uvažuje velikost vzorku) Průměr, Rozptyl	Teoretická významnost, spojité. Aproximace normálního rozd. pro malé soubory, pro větší soubory (n>100) se limitně blíží normálnímu rozd. Teoretický základ f testu.	t O d o	£\ -k = 1 §   \ ------t-S f 1 \ % -             t 100 J \ -4          -2           0            2 4
Chĺ-kvadrát X2(k)	Stupně volnosti (uvažuje velikost vzorku)	Teoretická významnost, spojité. Porovnávání četností jevů ve 2 a více kategoriích, výpočet intervalu spolehlivosti pro rozptyl.	o _ ■»	0            2            4            ú S
MU
Janoušová, Dušek: Analýza dat pro neurovědy
Stručný přehled rozdělení II.
Rozdělení	Parametry	Popis	Graf	
Fisherovo F Hkpk2)	Dvojí stupně volnosti (uvažuje velikost dvou vzorků)	Teoretická významnost, spojité. Základ ANOVA testu a F-testu, výpočet intervalu spolehlivosti pro podíl rozptylů.		. :      —«i,D i i .....w> !   . -------«ioo,ioO) 0            12            3 4
Exponenciální Exp(X)	Průměr Rozptyl	Praktická význ., spojité. EX= l/X, DX=1/X2 Popisuje dobu mezi událostmi, význam v analýze přežití, zobecněním je Weibullovo a Gamma rozdělení. Př. doba od diagnózy do úmrtí		\ -£>]>(l,S> \ -------Exp(l) ■■, \ - £vpl0,5) '.. \ -£vfi(0,25) 0          12          3          4 5
Binomické Bi(n,n)	Průměr Rozptyl	Praktická významnost, diskrétní. EX=nn, DX=n7t(l-7t) Popisuje počet výskytů sledované události v n nezávislých pokusech. Př. výskyt nežádoucích účinků léků.	o Ö "	.'\                                                   •    71-0 1 "'     \                                  z n 0.25 * n-0.5 *       •       •       •      .       i « 0        2        4        6        8 10
Poissonovo Po(X)	Průměr Rozptyl	Praktická významnost, diskrétní. EX= X, DX=X Popisuje počet výskytů sledované události na danou jednotku času, plochy... Př. počet krvinek v poli mikroskopu.	0.0    0.1    0.2    0.3    0.4    0.5 0.6	. 1-0.5 • i.- 1 . J.-5 - /. 10 i                                    + + t + + *  t • *  • .i 0                 5                 10 15
Janoušová, Dušek: Analýza dat pro neurovědy ^ 59
Bimodální rozdělení
• Představuje většinou problém, neboť se zřejmě jedná o směs dvou souborů s unimodálním rozdělením.
• Bimodální rozdělení má např. tento tvar:
Společná výška mužů a žen
Modus 1   Medián Průměr   Modus 2
•   Nutná další analýza: Co způsobuje bimodalitu? Umožňuje proměnná rozlišit kategorie lidí (např. pacienty od kontrol)? Je vzorek reprezentativní?
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^! 60
Úkol 4 - Přiřaďte k daným veličinám jejich název a typ rozdělení.
XI: 1.58 1.55 1.67 1.69 1.57
i i
i-1-1-1-1
1.5       1.6       1.7       1.8 1.9
X3: 79.5 89.2 75.3 77.8 90.0
i-1-1-1-1-1-1-1
60   65   70   75   80   85   90 95
X2: 10 12 8 7 10
i—i—i—i—i—i—i—i
4    6    8    10   12   14   16 18
X4: 0.49 0.78 6.01 0.47 4.70
i i i i
o
5
10 15
20
Vybraná rozdělení:
I. Normální rozdělení
II. Logaritmicko-normální rozdělení
III. Poissonovo rozdělení
IV. Exponenciální rozdělení
Veličiny:
a) Doba od zahájení léčby do kompletní remise u pacienta s chronickou myeloidní leukémií (v letech)
b) Plocha kůže člověka (v m2)
c) Diastolický tlak (v mm Hg)
d) Počet příjezdů sanitky do okresní nemocnice za hodinu
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 61
4. Transformace dat
Janoušová, Dušek: Analýza dat pro neurovědy   ^ox   W 62
Význam transformací
• Transformace umožní změnit rozsah hodnot proměnné, změnit typ rozložení apod.
• Hlavní cíle transformací:
1. Normalizace dat - převod na normální rozdělení
2. Standardizace dat - převod na standardizované normální rozdělení
3. Centrování dat
4. Lepší interpretace dat
MU
Janoušová, Dušek: Analýza dat pro neurovědy   *|L   j^j 53
Normalizace dat
Převod na normální rozdělení (normalita je předpokladem řady statistických testů).
Např. logaritmická transformace: X = ln(Y) nebo X = ln(Y+l), pokud data obsahují hodnotu 0
Asymetrické rozdělení
Normální rozdělení
f(y)
f(x)
X = ln(Y)
Geometrický průměr
Medián Průměr
ln(y)
Další příklady:
- odmocninová transf. (pro proměnné s Poissonovým rozložením nebo obecně data typu počet jedinců, buněk apod.: X = \ÍY neboX = -Jy + 1
- arcsin transfomace (pro proměnné s binomickým rozložením)
- Box-Coxova tranformace
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
m 64
Standardizace dat
Převod proměnné s normálním rozdělením na standardizované normální rozdělení: N(|i,o2) N(0,1)
Důvod: řada statistických metod byla odvozena pro standardizované normální rozdělení, N(0,1). Děláme to tedy opět kvůli lepší možnosti hodnocení dat.
Standardizace: ui =-
s
Obrázek - standardizace je převod „modré", „zelené" a „okrové" na „červenou".
l.G
u B
u ů
u.4
0 2
OE
	1 1 1	1 1 '	1 1 1	1 1 1	1 1 '	1 1 1	1 1 1				
-								^ = 0, cr^i.o,— ^ = -2, -			—
-											
											-
											-
											
		, 1 .	. 1 ,		, 1 .	. 1 ,		, 1 .	L 1 ,		
-5       -4 -3
-10 1
3 4 5
z-skóre vlastně vyjadřuje, o kolik směrodatných odchylek se i-tá hodnota odchýlila od průměru.
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
m es
Centrování dat
• Odečtení průměru od dat - získáme novou proměnnou, která bude mít střední hodnotu rovnu nule: N(|i,o2) -> N(0, o2)
• Důvod:  Centrování je  důležitou   podmínkou   některých pokročilých statistických metod (např. klasifikačních).
• Centrování: ut = xl; - x
• Obrázek-centrování je převod „modré" a „zelené" na „červenou".
N(-2, o2) -
N(0,a2) -
N(l,a2) -
-5-4-3-2-10   1   2    3 4
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^- 66
Transformace kvůli lepší interpretaci dat
Příklad: Microarray experiment se dvěma vzorky, měříme intenzitu exprese genu XY v jedné tkáni (hodnota intenzity AXY) a v druhé tkáni (hodnota intenzity BXY).
Následně hodnoty převádíme na logaritmus se základem 2 jejich podílu:
zxy = loE:
bxy
Umožní nám to posoudit kolikrát byla exprese jednoho genu větší/menší než druhého genu (2x, 4x, 8x, 16x,....).
			10
čas	B/A	C/A	8 -
1	4	1/4	6 -
2	8	1/8	4 -
3	2	1/2	2 -
			0
♦ B/A
♦ C/A
log.
♦ ...
4
2 -0 -
-2 -
-4
♦log2(B/A) ♦ log2(C/A)
0
3 čas
0
1
♦
3 čas
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 67
Další příklady transformací - odvozené typy dat
i-
• Procento (percentage) - sledujeme-li např. zlepšení v určitém parametru, je výhodné sledovat procentuální zlepšení. Př.: ejekční frakce levé srdeční komory.
• Podíl (ratio) - mnoho indexů je odvozeno jako podíl dvou měřených veličin. Př.: BMI
• Pořadí (rank) - místo absolutních hodnot známe někdy jen jejich pořadí. Jedná se sice o ztrátu určitého množství informace, nicméně i pořadí lze v analýze využít.
• Skóre (score) - jedná se o uměle vytvořené hodnoty charakterizující určitý stav, který nelze jednoduše měřit jako číselné hodnoty. Př.: indexy kvality života.
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   |yj 68
Kategorizace
Vytvoření kvalitativní proměnné z kvantitativní proměnné.
Primární data
Frekvenční tabulka
Age
84 76 79 89 71 70 88 86
Kategorizace -►
	n(x)	N(x)	P(x)	F(x)
<60	23	23	2,8	2,8
60-69	126	149	15,1	17,9
70-79	467	616	56,1	73,9
>80	217	833	26,1	100,0
n=833
Vizualizace
60-69 70-79 Age_kat
x: Kategorizovaný věk n(x) - absolutní četnost x
N(x) - kumulativní četnost hodnot <eo nepřevyšujících x; N(x) = £ n(t)
t<x
p(x) - relativní četnost; p(x) = n(x) / n F(x) - kumulativní relativní četnost hodnot nepřevyšujících x; F(x) = N(x) / n
Janoušová, Dušek: Analýza dat pro neurovědy
>80
IBA
W 69
Úkol 5
* Vytvořte novou proměnnou, která bude obsahovat standardizovaný objem amygdaly.
* Vytvořte novou proměnnou, která bude obsahovat kategorizovanou váhu (kategorie zvolte na základě histogramu).
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   |yj 70
5. Intervaly spolehlivosti
Janoušová, Dušek: Analýza dat pro neurovědy   ^ôx \IJMLJ) 71
Intervaly spolehlivosti - motivace
Výběr číslo 1
Výběr číslo 2
é
Y
H-
Ý
H-
o
0
Xn
Y
Pracujeme-li s výběrem z cílové populace, je třeba na základě variability pozorovaných dat spočítat tzv. interval spolehlivosti pro bodový odhad.
R
J
v H-
o
h—e
o
Y
H-
Interval spolehlivosti na základě výběru číslo 1.
Interval spolehlivosti na
základě výběru číslo 2.
Celá cílová populace
o
x
Umíme-li „změřit" celou cílovou populaci, nepotřebujeme interval spolehlivosti, protože jsme schopni odhadnout sledovaný parametr přesně - v praxi je tato situace nereálná.
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 72
Interval spolehlivosti (IS) - interpretace
1   Interval spolehlivosti ukazuje, jak přesný je výpočet průměru.
95% interval spolehlivosti vymezuje prostor kam s 95% pravděpodobností padne populační průměr vypočtený při dalším vzorkování populace (za stejných podmínek a o stejné velikosti vzorku). Tedy 95% interval spolehlivosti obsahuje populační průměr s rizikem a=0,05 (5%).
* Čím je interval spolehlivosti užší, tím přesnější je náš odhad průměru (tím víc se náš odhad průměru pomocí našeho vzorku blíží populačnímu průměru).
+
o
{—h
95% interval spolehlivosti - ilustrace: Pokud bychom opakovaně vybírali skupiny subjektů o stejné velikosti a počítali průměr a interval spolehlivosti, tak 95% intervalů spolehlivosti by pokrývalo populační průměr |i a 5% intervalů spolehlivosti by populační průměr nepokrývalo.
di
x1
(-\
d-
x
{-I-)
d5
d
99
-)
hi
h-
I-)
'99
h
99
1-)
dicji
xioo h
100
Janoušová, Dušek: Analýza dat pro neur-bvědy
cca 95 %
{-+-)
d     x h
cca 5 %
{-1-)
d
x
h
IBA
W 73
Střední chyba průměru
Nebo též standardní chyba průměru („standard error") - značka SE. Neplést se SD (směrodatnou odchylkou)!!!
SE je založena na směrodatné odchylce dat a počtu hodnot (vlastně jde o směrodatnou odchylku rozložení průměru).
Říká, jak přesný je výpočet průměru:
- velký počet subjektů (n), z nichž počítáme průměr -> tím menší je SE (tzn. tím přesnější je průměr)
- malý počet subjektů (n), z nichž počítáme průměr -> tím větší je SE (tzn. tím méně přesný je průměr)
Janoušová, Dušek: Analýza dat pro neurovědy   ^j^-   |yj 74
Interval spolehlivosti - poznámka
)-
• Interval spolehlivosti (Confidence Interval - Cl)
• Interval spolehlivosti pro průměr se tedy vypočítá jako:
x - SE-l,96< ju<x +SE-1,96
• Interval spolehlivosti má smysl počítat pouze v případě, že mají data normální rozdělení!
• Interval spolehlivosti počítá  pouze s variabilitou danou náhodným výběrem, nepočítá se zdroji systematického zkreslení - např.
- Měření krevního tlaku může být systematicky zkresleno starým měřidlem („technical bias'').
- Měření krevního tlaku může být systematicky zkresleno tím, že se do studie přihlásí pouze určitá skupina osob („selection bias'').
Janoušová, Dušek: Analýza dat pro neurovědy ^! 75
Interval spolehlivosti pro \x
P(D < odhad < H) > 1 - a
Obecný tvar intervalu spolehlivosti (IS):
i----------------------------------------------------------------------1
Odhadovaný +  Chyba     Kvantil modelového
parametr
odhadu    rozložení pro (l-a/2)
Interval spolehlivosti pro \i:
x -
G
_ z
n l-a/2 _
< JU < X +
G
T
_ z
n \-al2
T
dolní mez IS (D)
horní mez IS (H)
x ... výběrový průměr
o... směrodatná odchylka
n ... velikost výběrového souboru
zi-a/2 ••• kvantil standardizovaného normálního rozdělení
a... riziko
-7=... střední chyba odhadu průměru
o
co o
o
Kvantily standardizovaného normálního rozdělení
a/2
1-a
a/2
-4 -2
zo,oo5 = -2/58 Z0,025 = -l/96 zo,050 = -l/64
2 4
2,58 = z0 995 1,96 = z0 975
= Z0,950
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 76
Ovlivnění šířky intervalu spolehlivosti
Interval spolehlivosti: x
'l-©/2
< jU < X +
^ Z\-a/2
Co ovlivňuje šírlarifít^fvalu spolehlivosti?
- Velikost vzorku - s ro^ioucí velikostí vzorku je IS užší (máme více informace, srrak je odnad přesnější)
- Variabilita náhodné veličiny - čím náhodná veličina vykazuje větší variabilitu, tím \é \S pro odhad střední hodnoty širší, tedy odhad je méně přesný.
- Spolehlivost,   kterou   požadujeme  - s
rostoucí spolehlivostí (tzn. menším a), je IS širší, neboť požadujeme větší jistotu, že náš interval skutečně pokrývá hodnotu neznámého parametru). Standardně se používá 95% IS (odpovídající riziku a=5%), ale v literatuře se lze setkat i s 90% anebo 99% IS (99% IS tedy bude širší než 95% IS).
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 77
Interval spolehlivosti pro \x při neznámém o
• IS pro \i při známém o: x - * zx_all < // < x + ^
• IS pro/i při neznámém a:   x -±tx_al2(n - l) < // < x + ±tx_al2(n - l)
Přesnou hodnotu populační o v praxi většinou neznáme -> snažíme se ji
1 w
odhadnout pomocí výběrové směrodatné odchylky s:  s = J-~x)2
1 z=l
/7 -
ři-oc/2(n — 1) Je kvantil Studentova ŕ rozdělení
Příklad: V našem souboru má 833 lidí průměrný věk roven 74,8 let a směrodatná odchylka věku je 6,9 let. Vypočtete 95% IS pro odhad střední hodnoty věku.
Řešení:
n = 833 * " ^i-«/2(" - l) <    < x +^tx_al2(n - l)
X=JnVf 74,8--^ 005/2(833 - l) < //< 74,8 +£ 005/2(833 -l)
5 — 5,9 let -v833   1-0'05/2V 7      ^ ' V833   1-0,05/2 V /
74,3 < ju < 75,3
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^! 78
Další druhy intervalů spolehlivosti
• Interval spolehlivosti pro rozdíl průměrů dvou výběrů (jde nám např. o srovnání objemu hippocampu u pacientů a kontrol):
X-Y- tx_al2(nx +n2- 2)^ + | < //, - i*2 < X - Y + tx_al2(nx + n2 - 2)^ + |
• Interval spolehlivosti pro odhad rozptylu:
(n ~ l)s2   <a2<  (n - l)s2
Interval spolehlivosti pro podíl rozptylů dvou výběrů (lze ho použít pro hodnocení homogenity rozptylů dvou výběrů, která je jedním z předpokladů v testování hypotéz):
2 2 2
F«/2(«l - !» «2 " O ^ -4 ^ 4 ^l-«/2(«l - 1» «2 - O
2 a/2 VI ' "2 V — 2 — 2 *1 ^1 *1
Druhů intervalů spolehlivosti je ještě mnohem více - např. IS pro medián, pro podíl,...
MU
Janoušová, Dušek: Analýza dat pro neurovědy ^! 79
Neparametrické metody pro konstrukci IS
• Bootstrap - je založen na principu opakovaného vzorkování naměřených dat s vracením, kdy pro vytvoření nového vzorku dat může být každý prvek použit více než jednou, právě jednou anebo není použit vůbec (ovšem se zachováním celkové velikosti souboru n i velikosti jednotlivých skupin). Pro každý vzorek je vypočítán výběrový průměr, tyto výběrové průměry seřadíme podle velikosti a vypočítáme 2,5% a 97,5% kvantil (stejně jako jsme počítali 80% kvantil na slidu 32), které nám dají dolní a horní mez pro 95% IS.
• Jackknife - opakovaný výpočet sledované charakteristiky je prováděn vždy s vynecháním právě jednoho pozorování. Tento postup nám stejně jako v případě metody bootstrap poskytuje představu o rozsahu hodnot, ve kterých se námi sledovaná charakteristika může pohybovat, budeme-li považovat naměřená data za reprezentativní vzorek z cílové populace.
Janoušová, Dušek: Analýza dat pro neurovědy ^! 80
Úkol 6
* Vypočtěte průměr, střední chybu průměru a intervaly spolehlivosti pro všech šest mozkových struktur a MMSE skóre.
* Zamyslete se nad tím, zda mělo vůbec smysl počítat intervaly spolehlivosti pro všechny výše uvedené proměnné.
Janoušová, Dušek: Analýza dat pro neurovědy IJMJ) 81
Popis kvantitativních dat-shrnutí
30 -i 25 -20 -15 -10 -5 -0 -
Symetrická data
-K-
Medián Průměr
30 -i
25 -20 -15 -10 -5 -
o -
Asymetrická data
Medián Průměr
	Age
N	833
Průměr (Mean)	74,8
Směrodatná odchylka (SD)	6,9
95% interval spolehlivosti (Cl)	74,3-75,3
Minimum	54,0
Maximum	90,0
	MMSE
N	833
Medián (Median)	27
Minimum	18
Maximum	30
Janoušová, Dušek: Analýza dat pro neurovědy
IBA
W 82
Poděkování..
Příprava výukových materiálů předmětu „DSAN01 Analýza dat pro Neurovědy " byla finančně podporována prostředky
projektu FRVŠ č. 942/2013 „Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro
Neurovědy"
FOND ROZVOJE VYSOKÝCH ŠKOL
Janoušová, Dušek: Analýza dat pro neurovědy IJMJ) 83