Biostatistika
iarkovsky@iba.muni.cz
Přednáška 1
Organizační informace - kódy předmětů
• BÍ5040 B i ostat i štika - základní kurz (tato přednáška)
• Bi5040c Biostatistika - cvičení (nepovinný - samostatné cvičení na PC)
• ASTAp Biostatistika - přednáška (tato přednáška)
• ASTAc Biostatistika - cvičení (povinný - samostatné cvičení na PC)
• BMBS051 Biostatistika-základní kurz (tato přednáška)
• BLBS051p + BLBS051c - Biostatistika (sloučené, tato přednáška)
Organizační informace - poznámka k cvičení Bi5040c a ASTAc
• Cvičení biostatistiky probíhá pro každou seminární skupinu jednou za dva týdny v délce dvou hodin
• Každá seminární skupina absolvuje během semestru 6 cvičení - přesné termíny zašlou vyučujícící
• Materiály ke kurzu budou s předstihem k dispozici v IS.MUNI, jejich prostudování se před cvičením vřele doporučuje
• Pro získání zápočtu je třeba:
• Účast na alespoň 5 z 6 cvičení (větší počet oprávněných absencí bude řešen individuálně)
• Splnění zápočtového testu na konci semestru (teoretická část + řešení příkladů na počítači)
• Cvičení není nutné pro získání zkoušky z předmětu BÍ5040/ASTA, jde o rozšiřující prakticky orientovaný předmět
Organizační informace - výukové materiály
• Tato prezentace v IS.MUNI (tento semestr bude vkládána po částech, snažím se ji letos upgradovat) + prezentace a příklady ovládání SW Statistica + další souhrnné podklady
• www.matematickabiologie.cz/res/file/ucebnice/pavlik-biostatistika.pdf
• portál.matematickabiologie.cz/index.php?pg=aplikovana-analvza-klinickych-a-biologickych-dat-biostatistika-pro-matematickou-biologii
• Tabulky statistických rozdělení www.statsoft.com/Textbook/Distribution-Tables
• Libovolná základní učebnice statistiky - např.
• https://www.amazon.com/Biostatistical-Analvsis-5th-Jerrold-
Zar/dp/0131008463/ref=sr 1 l?ie=UTF8&qid=1505890489&sr=8-l&kevwords=zar+biostatistical+analysis
• https://www.amazon.com/Medical-Statistics-Glance-Aviva-
Petrie/dp/140518051X/ref=sr 1 sc l?s=books&ie=UTF8&qid=1505890508&sr=l-l-spell&keywords=avive+petria
• https://www.amazon.com/Statistics-Veterinarv-Animal-Science-
Petrie/dp/0470670754/ref=sr 1 sc 3?s=books&ie=UTF8&qid=1505890522&sr=l-3-spell&keywords=avive+petria
Organizační informace - software
• Software
• Univerzitní licence na inet.muni.cz (stejný login a passwd jako do is.muni.cz)
• Statistica - www, statsoft. co m, www.statsoft.cz
• SPSS - www.ibm.com/analytics/us/en/technology/spss/
• R - www.r-project.org, www.rstudio.com
• Stata - www.stata.com
Organizační informace - uzavření předmětu
• BÍ5040 Biostatistika - základní kurz
• ASTAp Biostatistika - přednáška
• BMBS051 Biostatistika-základní kurz
• Písemná zkouška (2 hodiny, povoleny materiály + nutná kalkulačka a tabulky statistických rozdělení, praktické řešeni příkladů + teoretické otázky, klíčové ie nalezenia popsání správného postupu, numerická správnost řešení nutná „pouze' pro dosaženi plného počtu bodů)
• Bi5040c Biostatistika - cvičení (nepovinný)
• ASTAc Biostatistika - cvičení (povinný)
• Zápočtová písemka - bližší informace u vyučujících cvičení
• BLBS051p + BLBS051c - Biostatistika (sloučené)
• Zjednodušená písemná zkouška (výběr z možných odpovědí, materiály povoleny)
• Předtermín zkoušky 19.12.2018, další termíny v lednu
Statistika ve vědecké praxi
Pozice statistické analýzy ve vědě a klinické praxi Význam statistických výstupů
Anotace
• Statistická analýza biologických dat je jedním z nástrojů, s jejichž pomocí se snažíme zjistit odpovědi na naše otázky týkající se pochopení živé přírody.
• Jako každý nástroj je i statistickou analýzu nezbytné na jedné straně korektně využívat a na druhou stranu nepřeceňovat její možnosti.
• Klíčovým faktem při statistické analýze dat je nahlížení na realitu prostřednictvím vzorku a přijmutí toho, že výsledky naší analýzy jsou jen tak dobré, jak dobrý je náš vzorek.
• Reprezentativnost, nezávislost a náhodnost vzorku spolu s jeho velikostí jsou důležité faktory ovlivňující věrohodnost našich závěrů.
Life is beautiful with data analysis
Co znamená pro biologa/lékaře statistická analýza dat?
• Matematická statistika je vědecká disciplína na pomezí popisné statistiky a aplikované matematiky. Zabývá se teoretickým rozborem a návrhem metod získávání s analýzy empirických dat obsahujících prvek nahodilosti, tedy teorií plánování experimentů, výběrů, statistických odhadů, testování hypotéz a statistických modelů.
• Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je větví aplikované matematiky.
• Biostatistika = aplikace statistické analýzy dat v biologickém a klinickém výzkumu
• Nástroj pro uchopení dat našeho výzkumu
• Nezbytné chápat principy a limitace
• Není nutná detailní matematická znalost
• Easy to understand, hard to master
_uu A*JSC\ /ÍÍ"g\
í¥$Y i 'ííf!' > Ml 1   Institut biostatistiky a analýz, PřF a LF MU
iba M° tj# W
Výzkum, realita, statistika
Výzkum je naším způsobem porozumění realitě
Ale jak přesné a pravdivé je naše porozumění?
• Statistika je jedním z nástrojů umožňujícím popis a komunikaci výsledků výzkumu.
• Ale je to pouze nástroj, co je skutečně důležité jsou data.
i
Institut biostatistiky a analýz, PřF a LF MU
Realita a data
Klíčovou otázkou výzkumu a následně statistické analýzy je jak dobře naše data popisují realitu
Bez kvalitních dat není kvalitní statistiky ani kvalitního výzkumu.
Každá chyba učiněná v úvodní fázi výzkumu se v dalších fázích znásobí a zřejmě ji již nebude možné eliminovat
■ IMI1   lnstitut biostatistiky a analýz, PřF a LF MU
W H# w
Variabilita jako základní pojem ve statistice
• Naše realita je variabilní a statistika je vědou zabývající se variabilitou
• Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě
• V případě deterministického světa by statistická analýza nebyla potřebná
Spolehlivost a přesnost měření
• Kvalita dat je klíčová pro jakékoliv statistické hodnocení
• Bez spolehlivých a přesných dat není možné získat spolehlivé a přesné výsledky statistického hodnocení
• Ve statistické analýze dat musíme zohlednit jak střed měření, tak variabilitu a zamyslet se nad přesností popisu reality
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Nespolehlivý, nepřesný
Spolehlivý, nepřesný
Variabilita a střední hodnota
• Norma = 5 gramů soli na 1 kg rýže
Nezamícháte
Og soli / 1 kg rýže
lOg soli / 1 kg rýže     5g soli / 1 kg rýže
J
Průměr: 5g soli / 1 kg rýže Vše OK M!
4
Průměr není vše, je nezbytné zohlednit variabilitu
Zamícháte
5g soli / 1 kg rýže
W 1
Průměr: 5g soli / 1 kg rýže Vše OK M!
iba
hl W
I   Institut biostatistiky a analýz, PřF a LF MU
Různé úrovně variability
Variabilita opakovaných měření        Variabilita dat v populaci Variabilita v modelech
Práce s variabilitou v analýze dat
V analýze dat existují tři hlavní přístupy k práci s variabilitou
Popisná analýza: popis variability
Variabilita dat
<ŕ*ZŠS\   .<s?\ «fľ^
" A? A' 'i^V* tIUI1   Institut biostatistiky a analýz, PřF a LF MU
0*0? -T4f>f
o
A
A
Testování hypotéz: vysvětlení variability
mú * dl
A
Stochastické modelování: predikce chování systému
_    n   O  í   X    ^ yj^
I;* Ha a
ISA
Statistika - definice
WWW.WIKIPEDIA.ORG:
Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně i nevědomky zneužita.
Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze pokud jsou splněny předpoklady jejích metod a modelů.
iba _w
m
|   Institut biostatistiky a analýz, PřF a LF MU
Nesprávná aplikace modelu -> zkreslené závěry
Různé popisné statistiky a testy jsou spjaty s různými modelovými rozděleními
Pro správnou interpretaci je třeba ověřit shodu reálných dat s modelem
Některé statistiky je možné vždy spočítat, ale jejich interpretace je v případě nedodržení předpokladů pouze omezená
Skutečné rozložení dat
Průměrný plat 26 985 Kč/měsíc
Proložený model normálního rozdělení. Jakákoliv metoda pracující s modelem normálního rozdělení pracuje s daty jako kdyby jejich reálné rozložení odpovídalo červené křivce.
5000   10000   15000   20000   25000   30000   35000   40000   45000   50000 55000
Měsíční plat (Kč)
iba
|   Institut biostatistiky a analýz, PřF a LF MU
Co může statistika říci o naší realitě?
Statistika není schopna činit závěry o jevech neobsazených v našem vzorku.
Statistika je nasazena v procesu získání informací z vzorkovaných dat a je podporou v získání naší znalosti a pochopení problému.
Statistika není náhradou naší inteligence !!!
Co musíme vědět před zahájením studie nebo experimentu?
• Cílová populace
• Skupina objektů (pacientů, lokalit atd.) na něž je studie zaměřena
• Primární hypotézy
• Hlavní otázka položená ve studii - odhad velikosti vzorku a design studie je vypracován vzhledem k primární hypotéze (v řadě případů nelze v reálném výzkumu formální power analýzu vypracovat, nicméně zamyšlení nad velikostí vzorku je nezbytné vždy)
• Sekundární hypotézy
• Vedlejší otázky, na něž by studie měla odpovědět
• Výběr adekvátní metodiky
• Hypotézy jsou zodpovězeny prostřednictvím konkrétních proměnných (endpointů) - jejich typ {binární, kategoriální, spojité proměnné, biodiverzita, přežití, mortalita atd.) určuje výber způsobu statistického zpracování
Cílová populace
• Cílová populace - klíčový pojem statistického zpracování
• Skupina objektů o nichž se chceme něco dozvědět (např. lokality v daném povodí, laboratorní organismy v daných podmínkách, pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři)
• Musí být definována ještě před zahájením sběru dat
• Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat
Cílová populace        Klíčové faktory      Design experimentu Vzorkovania
Statistika a zobecnění výsledků
Neznámá cílová populace
Vzorek
Analýza
Díky zobecnění výsledků známe vlastnosti cílové populace
Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci
Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům
ä ,$j%s.
ff |rv; f IUII   Institut biostatistiky a analýz, PřF a LF MU
Vzorkování a jeho význam ve statistice
Statistika hovoří o realitě prostřednictvím vzorku!!! Statistické předpoklady korektního vzorkování
• Representativnost: struktura vzorku musí maximálně reflektovat realitu        ^   ^ ^
• Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci
Náhodnost: zajišťuje náhodný vliv zavádějících faktorů
ÄÄ%  /Ž5*v <>.
H íT        ř lili i   Institut biostatistiky a analýz, PřF a LF MU
Velikost vzorku a spolehlivost statistických výstupů
• Existuje skutečné rozložení a skutečná střední hodnota měřené proměnné
• Z jednoho měření nezjistíme nic
# ?????
• Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí
Odhad popisné statistiky
• Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný.
i
Institut biostatistiky a analýz, PřF a LF MU
Různá velikost vzorku - různé úkoly analýzy dat
• Náročnost analýzy dat stoupá i s jejich objemem
• I u největších dat stále platí, že klíčová je schopnost data prodat = smysluplně interpretovat a prezentovat
Přístup biostatistiky
• Schopnost: vidět data - komunikovat - interpretovat - prodávat
I   I rHrHrNirNiroro^-^-LnLnixiixír^r^oooocDLn iHinlllllllllllllllllcn OLnOLnOLnoinOLnOLnOLnoino rHrHrNirNiroro^-^-LnLnixiixír^r^oooocr)
iba
Institut biostatistiky a analýz, PřF a LF MU
Experimentální design: nezbytná výbava biologa
cílová populace <..............
f     I m
výběr dle optimálního plánu
I
reprezentativní vzorek n jedinců (faktor F)
♦
měření znaku
OO00OOO0O0
variabilita hodnot ve výběrovém souboru
VÝSLEDKY ...........
iba W  W! W
>LU
N
I   Institut biostatistiky a analýz, PřF a LF MU
4)
Účel analýzy: Popisný
Reprezentativnost Spolehlivost Přesnost
oO
... analyzovaný znak cílové populace (X)
... jiný významný faktor charakterizující cílovou populaci (F)
Experimentální design: nezbytná výbava biologa
cílová populace <..............
v\ / Í7
výběr subjektů pro vstup do hodnocení / studie
RANDOMIZACE nebo existující faktor
rameno A
rameno B
♦
měření znaku X
O ooO O
abilita hodni v rameni A
♦
OoO«
-4........................................►
variabilita hodnot X variabilita hodnot X
v rameni B
VÝSLEDKY
lili I   Institut biostatistiky a analýz, PřF a LF MU
CO
X
< —
01 o
II _
*— 4-J
T3 C M OJ
O M
aj
Q- C O 01
u 4J
TO l/l
> O
O C
M "aj
s s
—- >
>LU
M
4)
Účel analýzy: Srovnávací (2 skupiny)
Reprezentativnost Srovnatelnost Spolehlivost Přesnost
^^^^   ... analyzovaný znak
cílové populace (X)
... jiný významný faktor charakterizující cílovou populaci (F)
Obecné schéma
využití statistické analýzy
Experimentálni design
Vzorkovaní
Uložení a management dat
Vizualizace dat
Popisná analýza
Testování hypotéz
Modelování
Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace.
Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku.
Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy.
Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod.
Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat.
Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému.
Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů.
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Stochastické modelování: predikce neurčitých jevů
• Prospektivně - modelově - postihuje chování jevů při respektování variability
Pravděpodobnostní vztahy					
Anamnéza x Výsledek vyšetření pacienta					
	Karcinom	Benigní léie	Benigní riziková	Zdravá	
Pozitivní anamnéza	2,22	34,44	0,00	63,33	100%
Negativní anamnéza	1,06	28,23	0,96	69,75	100%
	p < 0.05				
Vícerozměrná diskriminace		
Znak Xi		
	* o _ GK» o	•.  &£» o /
		Znak X2
Markovovy řetězce	
P(ii-in) /	«mmp Pdii-iv) i
	
Po-")	
Logistické modely
Znak X
Funkční vztahy znaků		
Znak Y		Znak Y
		
		
Znak X		Znak X
Chování systému v čase
Znak (y)
Cas (t)
IMII   Institut biostatistiky a analýz, PřF a LF MU
iba Xg? ^
Stochastické modelování: predikce neurčitých jevů
Data konkrétních objektů k přímému hodnocení
ěm i
iba w w
JMI
I   Institut biostatistiky a analýz, PřF a LF MU
Stochastické modelování: predikce neurčitých jevů
• Schopnost: vytvářet prakticky využitelné nástroje
Stádium I - II
Stádium III - IV
n
(O
n o
"O
o
H—»
(0
E
■
H—»
LU
0.0     0.5     1.0     1.5     2.0     2.5     3.0 3.5
0 Grade = 2 O Grade = 1
0     0.5     1.0     1.5     2.0     2.5     3.0 3.5
Index Mitosis / (Apoptosis + 0.5)
ěm i
iba W ^ W
|   Institut biostatistiky a analýz, PřF a LF MU
Přednáška 2
Klíčové principy biostatistiky
Zkreslení, reprezentativnost, srovnatelnost, spolehlivost významnost
Anotace
• Ve statistické analýze biologických a klinických dat musíme vždy nad prováděným výzkumem a jeho výsledky přemýšlet v kontextu 5 klíčových principů biostatistiky.
• Zkreslení - skutečně vidíme to co si myslíme, že vidíme?
• Reprezentativnost-vypovídá naše analýza o skupině objektů, která nás zajímá?
• Srovnatelnost - co ve skutečnosti v analýze srovnáváme?
• Spolehlivost-jak spolehlivé jsou naše výsledky, dají se zopakovat?
• Významnost-jak moc je pravděpodobné, že pozorujeme výsledky pouhé náhody?
• Zanedbání těchto principů může vést k chybné interpretaci výsledků.
Klíčové principy biostatistiky
Jsme schopni odlišit výsledky výzkumu od pouhé náhody?
Zkreslení
Významnost
Jak moc se dá na výsledky výzkumu spolehnout? Dostaneme v případe opakování (~ v praxi) s
dostatečnou spolehlivostí obdobné výsledky?
Spolehlivost
Co skutečně stojí za výsledkem studie?
Jsou výsledky diktátu ovlivněny věkem, výškou, hmotností nebo délkou školní docházky dětí?"
Popisuje studie reprezentativně populaci? „ Vypovídají batolata o dětech jako celku?"
Reprezentativ nost
Srovnatelnost
V
Srovnáváme srovnatelné? „Hodnotíme vliv počtu knih v domácnosti na výsledky diktátu mezi skupinami dětí ve školce a v 9. třídě ZŠ-je to smysluplné srovnání?"
- IMI1
iba w m
Klíčové principy-zkreslení
• V jakémkoliv hodnocení se snažíme vyhnout zkreslení výsledků („biased results")-tedy zkreslení výsledků jinými faktory než těmi, které jsou cíli výzkumu.
• Statistické srovnání není nikdy 100% spolehlivé, existuje náhoda a tedy i pravděpodobnost chybného úsudku - to nelze ovlivnit.
• Chceme použít adekvátní metody pro odstranění vlivů, které by zkreslily výsledky a nebyly přitom náhodné (např. zastoupení pohlaví, nadmořská výška).
Klíčové principy-zkreslení
• Co způsobuje rozdíl v saprobním znečištění vodního toku?
• Co způsobuje rozdíl v naměřených biochemických ukazatelích?
• Čím by mohl být způsoben pozorovaný rozdíl v lOIetém přežití pacientů?
Léčba?
Nějaký prognostický faktor?
Stadium nemoci?
Věk?
24       48       72       96      120 144 Čas (měsíce)
i
Institut biostatistiky a analýz, PřF a LF MU
Klíčové principy-zkreslení
• Poj e m za vá d ěj íc í fa kto r
• Pro zavádějící faktor současně platí, že
• přímo nebo nepřímo ovlivňuje sledovaný následek,
• je ve vztahu se studovanou expozicí,
• není mezikrokem mezi expozicí a následkem.
Klíčové principy - reprezentativnost
• Pojem cílová populace - skupina subjektů, o které chceme zjistit nějakou informaci.
• Pojem experimentální vzorek - podskupina cílové populace, kterou „máme k dispozici".
• Musí odpovídat svými charakteristikami cílové populaci.
• Chceme totiž zobecnit výsledky na celou cílovou populaci.
• Souvislost s náhodným výběrem.
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Klíčové principy - reprezentativnost
• Chceme se něco dovědět o cílové populaci
Cílová populace
i
Aplikace statistických metod
i
Vzorek
• Vzorek reprezentuje v experimentu cílovou populaci
v_y
Klíčový krok
• Díky zobecnění získaných výsledků máme nové informace
Cílová populace
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Klíčové principy-srovnatelnost
• Korektní výsledky při srovnávacích analýzách lze získat pouze při srovnávání srovnatelného.
• V striktně kontrolovaných studiích je srovnatelnost zajištěna randomizací.
• U studií bez randomizace je nutné se tématu srovnatelnosti skupin věnovat.
• Metody adjustace, matching, propensity scores.
_uu A*JSC\ /ÍÍ"g\
í¥$Y i 'ííf!' > Ml 1   Institut biostatistiky a analýz, PřF a LF MU
iba M° ^ W
Klíčové principy-spolehlivost
• Ve většině studií nás zajímá kvantifikace sledovaného efektu nebo charakteristiky, obecně náhodné veličiny, ve formě jednoho čísla, bodového odhadu.
• Bodový odhad je však sám o sobě nedostatečný.
• Je nutné ho doplnit intervalovým odhadem, který odpovídá pravděpodobnostnímu chování sledované veličiny, tedy odpovídá určité spolehlivosti výsledku.
Klíčové principy-spolehlivost
Klíčové principy-spolehlivost
Klíčové principy-spolehlivost
Výběr číslo 1
Výběr číslo 2
1
a i a
I
I
V
Pracujeme-li s výběrem z cílové populace, je třeba na základě variability pozorovaných dat spočítat tzv. interval spolehlivosti pro bodový odhad.
R J
\
\
•i-1-h
H-(-h
Celá cílová populace
o
Umíme-li „změřit" celou cílovou populaci, nepotřebujeme interval spolehlivosti, protože jsme schopni odhadnout sledovaný parametr přesně - v praxi je tato situace nereálná.
Interval spolehlivosti na základě výběru číslo 1.
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Klíčové principy-významnost
• Analytické výsledky studie nemusí odpovídat realitě a skutečnosti. Statistická významnost jednoduše nemusí znamenat příčinný vztah!
• Statistická významnost pouze indikuje, že pozorovaný rozdíl není náhodný (ve smyslu stanovené hypotézy).
• Stejně důležitá je i praktická významnost, tedy významnost z hlediska lékaře nebo biologa.
• Statistickou významnost lze ovlivnit velikostí vzorku.
Klíčové principy-významnost
Praktická významnost
co O C
E c
M >
-m o
■4—'
.— ■4—'
n5 +-> co
	ANO	NE
ANO	OK, praktická i statistická významnost jsou ve shodě.	Významný výsledek je statistický artefakt, prakticky nevyužitelný.
NE	Výsledek může být pouhá náhoda, neprůkazný výsledek.	OK, praktická i statistická významnost jsou ve shodě.
Statisticky nevýznamný výsledek neznamená, že pozorovaný rozdíl ve skutečnosti neexistuje! Může to být způsobeno nedostatečnou informací v pozorovaných datech!
i
Institut biostatistiky a analýz, PřF a LF MU
Příprava dat
Klíčový význam korektního uložení získaných dat Pravidla pro ukládání dat Čištění dat před analýzou
Anotace
• Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software.
• Předpokladem úspěchu je správné uložení dat ve formě „databázové" tabulky umožňující jejich zpracování v libovolné aplikaci.
• Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze.
• Každá chyba, která vznikne nebo není nalezeno ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy.
DATA - ukázka uspořádání datového souboru
Parametry, znaky, charakteristiky, proměnné
Pacient	Clovek	aLeu	aTy%	aSe%	aNeu%	aLy%	aTy	aSe	aNeu	aLy	aHtc	aCLsk	aCLNeus	aCLOZ	aCLNeuO
		cell.106/	%	%	%	%	cell.106/	cell.106/	cell.106/	cell.106/	%	mV.s.103	mV.s.103	mV.s.103	mV.s.103
3	1	4									33	72		32	
4	2	7,6	8	58	66	24	0,6	4,4	5,0	1,8	33	95	19	48	10
8	3	4	3	52	55	40	0,1	2,1	2,2	1,6	22	77	35	33	15
11	4	6,1	5	59	64	35	0,3	3,6	3,9	2,1	33	103	26	49	13
12	5	6,9	3	85	88	9	0,2	5,9	6,1	0,6	37	81	13	45	7
14	6	5,9	15	55	70	19	0,9	3,3	4,1	1,1	32	137	33	61	15
16	7	8	18	75	93	7	1,4	6,0	7,4	0,6	34	151	20	59	8
20	8	9,6	3	72	75	23	0,3	6,9	7,2	2,2	40	77	11	38	5
21	9	6	10	67	77	19	0,6	4,0	4,6	1,1	32	120	26	52	11
22	10	3,3	4	55	59	39	0,1	1,8	2,0	1,3	28	81	42	24	12
37	11	3,8	10	60	70	30	0,4	2,3	2,7	1,1	32	111	42	29	11
38	12	6,4	2	76	78	17	0,1	4,9	5,0	1,1	25	366	73	115	23
39	13	6,8	1	57	58	39	0,1	3,9	3,9	2,7	20	234	59	71	18
49	14	8,5	7	67	74	26	0,6	5,7	6,3	2,2	30	156	25	108	17
51	15	9,3	7	57	64	35	0,7	5,3	6,0	3,3	35	129	21	23	4
52	16	2,2	10	56	66	34	0,2	1,2	1,5	0,7	33	46	30	12	8
55	17	9,9	3	78	81	10	0,3	7,7	8,0	0,1	30	189	24	140	18
56	18	5	2	80	82	13	0,1	4,0	4,1	0,7	26	101	25	54	13
6	1	8,8	11	72	83	12	1,0	6,3	7,3	1,1	44	268	36,6	145	19,9
9	2	9,2	2	66	68	28	0,2	6,1	6,3	2,6	42	168	26,9	76	12,2
13	3	10,0	7	83	90	8	0,7	8,3	9,0	0,8	54	181	20,1	81	9
15	4	9,6	1	75	76	23	0,1	7,2	7,3	2,2	45	343	47	124	16,9
17	5	6,0									45	40		21	
trs c
M
-trs M
\7
•; IUI 1   Institut biostatistiky a analýz, PřF a LF MU
iba 5<V2£/ ^
Datová tabulka a její možné problémy
Jednoznačné ID nezbytné pro identifikaci a případné propojení do dokumentace.
Sloupec nesmí obsahovat kombinaci textu a čísel.
Překlep v názvu kategorie, při zpracování dat se chová jako nová kategorie.
Nereálné odlehlé hodnoty, pravděpodobně prohozen věk a výška.
Zařazen
13.9.2001 10.9.2001
14.90.2001
17.9.2001 17.9.2001 4.10.2001 4.10.2001 5.10.2001 5.10.2001 5.10.2001 5.10.2001 5.10.2001
Uvedena 0 zřejmě namísto chybějící hodnoty, je třeba ponechat prázdnou buňku.
Chybně uvedeno datum.
N N
TKD/TKS
80/120 75/119 91/145 78/130 80/120 75/119 91/145 78/130 80/120 75/119 91/145 78/130
Je třeba uvádět v samostatných sloupcích pro diastolický a systolický tlak.
Kombinace dvou možných kategorizací (0/1 nebo N/A), je třeba si vybrat jednu z nich.
iba
m
Institut biostatistiky a analýz, PřF a LF MU
Zásady pro ukládání dat
• Správné a přehledné uložení dat je základem jejich pozdější analýzy
• Je vhodné rozmyslet si předem jak budou data ukládána
• Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě
• Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky
• Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce
• Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta
• Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty
• Komentáře jsou uloženy v samostatných sloupcích
• U textových dat nezbytné kontrolovat překlepy v názvech kategorií
• Specifickým typem dat jsou dátumy u nichž je nezbytné kontrolovat, zda jsou datumy uloženy v korektním formátu
• Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku
• Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Office
apod.)
Vizualizace dat
Typy grafické vizualizace
Rizika desinterpretace grafického zobrazení dat
/íffc Ä, /Q\
iSr W m Ip
^S.^ ^Wn*
Anotace
• Prvním krokem v analýze dat je jejich vizualizace.
• Různé typy dat nám umožňující získání představy o rozložení dat, zastoupení kategorií i vztazích proměnných navzájem.
• Prostřednictvím vizualizace získáváme vhled do dat a začínáme vytvářet hypotézy o zákonitostech panujících mezi proměnnými v hodnoceném souboru dat.
V čem vytvářet grafy
• Nejrůznější software - nejrůznější možnosti
• MS Office - základní grafy, snadná editovatelnost, lze invenčné upravit, snadná repli kováteInost výměnou dat
• R - různé knihovny (např. ggplot) - vyšší vstupní investice, nejrůznější typy grafů, automatizace
• SPSS, Statistica - rychlá tvorba velkého množství grafů, mnoho typů grafů
• Kritéria
• Výběr různých typů grafů
• Snadnost editace a úpravy vzhledu
• Snadná replikovatelnost/automatizace/rychlost tvorby grafů
<ú&&\ rSSšx .O-
Institut biostatistiky a analýz, PřF a LF MU
iba W   ■ W
Slavné grafy: Charles Joseph Minard - Napoleonovo tažení do Ruska
Figurative Map of the successive losses in men of the French Army in the Russian campaign 1812 ~ 1813
Drawn by M. Minard, Inspector General of Bridges and Roads (retired). ,
- Pans, November 20,1869.
The numbers of men present are represented by the widths of the colored zones at a rate of one millimeter for every ten thousand men; they are further written
across the zones. The red designates the men who enter Russia, the black those who leave it.-The information which has served to draw up the map has been
extracted from the works ofM.M. Thiers, deSegur, deFezensac, deChambray and the unpublished diary of Jacob, the pharmacist of the Army since October 28th. In order to betterjudge with the eye the diminution of the army, I have assumed that the troops of Prince Jerome and of Marshal Davout, who had been detached at Minsk and Mogilev and have rejoined near Orsha and Vitebsk, had always marched with the army.
% Moscow
The i'aiSftcki pass the frozen Neman at a gultvp.
-30" December 6
Institut biostatistiky a analýz, PřF a LF MU
Slavné grafy: Eradikace lepry v Norsku
• 1856 - národní registr lepry v Norsku založen v Bergenu -> analýza získaných dat -> opatření k eradikaci lepry v Norsku_____
Co nesmí chybět na grafu
• Každý graf musí být jednoznačně popsán - self explained
• Graf, který nic neříká, nemá smysl kreslit!!!
Nadpis grafu
Věková struktura pacientů při zahájení hospitalizace
Sloupcové a čárové grafy
• Jednoduchá tvorba, vizualizace absolutních hodnot nebo procent
Koláčové a páskové grafy
• Jednoduchá tvorba, vizualizace procent
17.6 %
23.0%
8.7 %
50.6 %
100%
3%.6 2S6% 24.9 % 2.0 %
/BA 5^2£/
|   Institut biostatistiky a analýz, PřF a LF MU
Skládané grafy
• Kumulativní zobrazení více informací
40000
35000
30000
25000
20000
15000
10000
5000
^Lnu3i^raoiOvH(>im^Lnix>r--oocr>0'--i(>ior]^-Lr>ix> oioioioioioioooooooooo<-i<-i<-i<-i<-i<-i<h cncncncncncnooooooooooooooooo
100 %
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
XY graf (scatter plot)
• Popis vztahu dvou spojitých proměnných
• Možnost kategorizace a popisu bodů
• Prokládání modelů do grafů
• Základní graf pro prohlídku dat před korelační a regresní analýzou
X1
30 -i
25
20
15
10
	o :	:lk
		JHM
V MSK o »JH(	o YSo   Q STC •       ČR    °o ° LBK ~     r,                L J1 K	
°PLK ° HKK	PA°K0PHA KV K	
20
30
40
50
iba _w
íflŕlľ S llll 1   Institut biostatistiky a analýz, PřF a LF MU
X1
3 10 20
X2
1 2 3 10 20
X2
X1
0 5 10        15        20 25
X2
X1
J
10 20
X2
Maticový graf
• Rozšíření xy grafů ve statistických SW
• Současná vizualizace rozložení hodnot (diagonála) a vzájemných vztahů většího počtu spojitých proměnných
• Různé varianty
• Sada proměnných každý s každým
• Dvě sady proměnných proti sobě
• Doplnění o výpočet korelačních koeficientů
• Základní nástroj vizualizace před vícerozměrnou analýzou
h ■	H ■	0 í		•			
					„ ^		
í"		h	■ -			^"	
				° „ ° .	h		H •
• r .							
.„:>°							
	>0000				Ť ^"t*8—		
—
/BA 5^2£/
íflŕlľ S lili i   Institut biostatistiky a analýz, PřF a LF MU
Histogram
• Graf sumarizující rozložení hodnot spojitých proměnných, úzce spjat s teorií statistických rozdělení
• V klasické formě podobný (ale nikoliv totožný) se sloupcovým grafem
• V praxi se pod názvem histogram často skrývá sloupcový graf (přípustné pokud nevede k dezinterpretaci dat)
• Jeden ze základních grafů pro posouzení rozložení dat
39%
výška
Histogram: vliv kategorizace dat
• Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěna.
"i M.
3 intervaly
"i M.
5 intervalů
20 16 12 8 4 0
8.0
4.0
4.5
2.5
1.0
1-3        4-6 7-10
1-2   3-4   5-6   7-8 9-10
"i M.
10 intervalů
20 16 -12 -
8 -     6 6
4 - 2
0
1 1
1234567891
: llil I   Institut biostatistiky a analýz, PřF a LF MU
iba 5<V2£/ ^# ^
Histogram: vliv kategorizace dat
• Výběr počtu kategorií-důležitý pro interpretaci
• Ruční nebo automatický výběr - různé algoritmy (závisí na velikosti vzorku a variabilitě dat)
Krabicový graf- box and whisker plot: co to je?
• V analýze dat oblíbený typ grafu umožňující jednoduché srovnání více skupin objektů a hodnocení rozložení dat
• Nejběžnější pro popis spojitých dat, ale využitelný pro libovolné typy dat, které lze popsat střední hodnotou a variabilitou (procenta, regresní koeficienty, odds ratia, risk ratia, hazard ratia atd.)
• Obrovské množství variant
401
1001
100
2 3 4 5
_I_I_I_I_
20
I
"X"
T
I
50'
50
i—■-1
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Krabicový graf- box and whisker plot: příklad jedné možné varianty
Maximum = 100% kvantil
Horní kvartil = 75% kvantil
Medián = 50% kvantil
Dolní kvartil = 25% kvantil
Jednotlivé body grafů mohou obsahovat libovolné popisné statistiky-průměry, směrodatné odchylky, intervaly spolehlivosti, odds ratia, hazard ratia atd.
Počet datových bodů v grafu může být od tří do např. devíti.
Minimum = 0% kvantil
L /|jí «A W W
|   Institut biostatistiky a analýz, PřF a LF MU
Box and whisker plot a jeho různé varianty I
• Je nezbytné číst popisky
• Různé varianty grafu mohou mít zcela jinou interpretaci
iba _w
E p
8.0
7.5
7.0
6.5
I 60 co
to
Ž 5.5
5.0
4.5
4.0
I
medián
25-75 percentil 5-95 percentil
I   Institut biostatistiky a analýz, PřF a LF MU
B
8.0
7.5
7.0
6.5
6.0
5.5
-L 5.0
4.5
4.0
I
prumer
-/+ směrodatná odchylka
-/+ 2 x směrodatná odchylka
B
8.0
7.5
7.0
6.5
6.0
5.5
5.0
4.5
4.0
I
průměr
-/+ střední chyba odhadu průměru
95% interval spolehlivosti
r~ni
B
Box and whisker graf a jeho různé varianty II: Violin plot a Beanplot
• Kombinace histogramu a box plotu nebo tečkového grafu
• K dispozici v R - např. knihovny beanplot a ggplot2
1000    2000    3000    4000 5000
iba w w
*       ^   lnstitut biostatistiky a analýz, PřF a LF MU
LO O
LO
CO
o co
LO CM
O
cj
LO
LO
o
Box and whisker graf a jeho různé varianty III: Forest plot
Varianta box and whisker plotu
Často používaná pro zobrazení regresních koeficientů nebo odds/risk/hazard ratií
Hodnocená charakteristika (průměr, podíl, poměr šancí, relativní riziko, poměr rizik)
Parametr 1 Parametr 2
Parametr X
■  bodový odhad ~j~ interval spolehlivosti
iba W W W
I   Institut biostatistiky a analýz, PřF a LF MU
Median PFS (months)
Variable	Subgroup	Placebo-Rd	IRd	Placebo-Rd	IRd
All patients	ALL	362	360	14.7	20.6
	<65	176	168	14.1	20.6
Age (yrs)	>65-75	125	145	17.6	17.5
	>75	61	47	13.1	18.5
ISS stage	I or II	318	314	15.7	21.4
(stratification factor)	III	44	46	10.1	18.4
Cytogenetic	Standard-risk	216	199	15.6	20.6
risk	High-risk	62	75	9.7	21.4
Number of prior therapies	1 2 3	217 111 34	224 97 39	15.9 14.1 10.2	20.6 17.5 NE -
Proteasome	Exposed	253	250	13.6	18.4
inhibitor	Naive	109	110	15.7	NE
Prior IMiD therapy	Exposed Naive	204 158	193 167	17.5 13.6	NE 20.6
Refractoryto last	Yes	55	59	NE	NE
prior therapy	No	307	301	14.1	20.6
Relapsed or refractory	Relapsed	280	276	15.6	18.7
	Refractory Ref& rel	40 42	42 41	13.0 13.1	NE NE
"T
0.742
0.683 0.833 0.868
0.746 0.717
0.640 0.543
0.832 0.749 0.366
0.739 0.749
0.744 0.700
0712 0.742
0.769 0.784 0.506
"T
0.500                 1.000 2.000 Favors IRd   <--> Favors placebo-Rd
Moreau P et at ASH 2015, oral presentation Abstract #727
Box and whisker graf a jeho různé varianty IV: Bagplot
• Bagplot = „bivariate boxplot" (tzn. „dvourozměrný krabicový graf)
Á*3Sřlt Ä P
■ ; IMII   Institut biostatistiky a analýz, PřF a LF MU
iba W 'Mfi W
Invenční využití jednoduchých grafů: Korálkový graf
• Lze vytvořit z XY grafu v MS Office
• Velké množství informace na malé ploše
100
200
I Medián Evropy     9 Medián ČR + Lokality
Koncentrace
300 400 500 600 700
800
900
1 000
>i/i >
to
"D
OJ
O ĎD (U
H-h-
H-IH-
+ +
H—h
1 ►m+H-h
-hh+::--h+
+-
+++ > + -H-+-H-h
-H-
+ + ++ +
lili I   Institut biostatistiky a analýz, PřF a LF MU
Invenční využití jednoduchých grafů: Waterfall plot
• Vizualizace výsledků individuálních objektů, často u proměnných popisujících změny
• Hodnoty jsou v grafu seřazeny dle velikosti
• Může být doplněn o hodnoty norem, procenta objektů v kategoriích normy apod.
Objekty seřazené dle hodnot proměnné
_uu A*JSC\ /ÍÍ"g\
í¥$Y i 'ííf!' > Ml 1   Institut biostatistiky a analýz, PřF a LF MU
iba M° ^ W
Invenční využití jednoduchých grafů: Demografická pyramida
• Jednoduchý ležatý sloupečkový graf
• Atraktivní vizualizace pro srovnání dvou skupin objektů
100 50 0 50 100100 50 0 50 100
Excel - podmíněné formátování jako grafy
• Pro zpřehlednění excelových tabulek je možné využít grafické prvky v jeho buňkách
• Datové pruhy a barevné škály
2 Autornatid
EH      EET   t&tí Svyp|n|t.
Podmíněné    Formátovat    Styly      Vložit Odstranit Formát formátování-jako tabulku - buňky-      - - -       ^ Vymazat"
■e-cnzi
EH
*Šo 4™     Podmíněné    Formátovat    Styly     Vložit Odstraní
formátování-jako tabulku - bunky-
styly
Buňky
	M	N		P	Q	R	S		U
	■ 10			2	3	4	5	6	
				3	4	5	6	7	
1			3	4	5	6	7	S	
D 5				5 S	S	7	S	9	
	e		5		7	S	9	10	
			S	7	S	9	10	11	
	i								
									
									
~|    ^ Automatické 5 [+] Vyplnit -
Podmíněné    Formátovat    Styly      Vložit Odstranit Formát formátování- jako tabulku - buňky-      - _ Vymazat
/BA 5^2£/
|   Institut biostatistiky a analýz, PřF a LF MU
Excel - grafy v buňkách
Pro zpřehlednění excelových tabulek je možné využít grafické prvky v jeho buňkách
Několik typů grafů umožňujících vizualizovat v jedné buňce datové řady
Základní možnosti editace os a vzhledu
\t £t:í;: iů u t*
iruřené Kcntingenčni rafy     JT LjT STT graf-
lil.
3D Map'
poklesy
iba
íflŕlľ S lili 1   Institut biostatistiky a analýz, PřF a LF MU
Grafy
r; Prohlídky
Minigrafy
B é?	
	
Průřez Časová	Hypertextový
osa	odkaz
Filtry	Odkazy
A
pb| 4 ~ 71 Rovnu ™ ÍÍSymbt
pole   a zá p atí Tent
üymbo
														
	K		L		M	N 0		P	Q            R             S             T U				v w	
	10		111		12	15 16		19						
	6		9	10		12	12	IS	——* _-—■■......r					
	3		5	6		9	9	17	_^ i___..i	■■■■■■				
	2		1	2		6	8	13	____ni	■■■■■■				
	-1		-2	-3		4	3	8	—"___					
	-5		-4	-7		4	0	4	—^/^- —					
						2				■ ■■ ■				
									n i___					
														
		Formátováni'      Grafy      Celkové součty      Tabulky Minigrafy												
														
														
		Spojnicový			Ii..			■ ■ li						
														
					Sloupcový          Vzestupy/po kl esy jfy umístěné v samostatných buňkách,									
														
		Minigrafyjsou malé gr												
														
Heatmapa
• Druh 3D grafu - osy tvoří dvě proměnné, barva třetí proměnnou
• Lze vytvořit v excelu pomocí podmíněného formátování
• Často ve vícerozměrné analýze pro vizualizaci asociačních matic
Výskyt indikátorového organismu v závislosti na dvou proměnných
Hloubka v cm vs. Koncentrace polutantu	<60	60-69	70-74	75-79	80-84	85-89	90-94	95-99	100-109	110-119	120+
<= 30	29.8%	29.2%	27.9%	23.0%	20.5%	19.9%	20.6%	22.1%	22.1%	22.9%	23.3%
31-35	29.4%	28.2%	26.5%	22.0%	20.0%	19.5%	20.4%	21.6%	21.8%	22.6%	23.1%
36-39	18.5%	16.3%	15.8%	13.2%	12.9%	14.1%	15.3%	18.2%	20.4%	23.9%	28.4%
40-44	14.6%	14.3%	12.9%	12.0%	14.3%	20.2%	24.5%	22.2%	21.3%	20.2%	25.0%
45-49	12.6%	11.7%	13.0%	15.0%	17.9%	21.4%	22.5%	19.6%	20.3%	21.1%	30.0%
50+	12.2%	11.4%	13.6%	17.5%	22.0%	25.6%	25.9%	20.4%	19.9%	20.3%	31.3%
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Pavouci / paprskové grafy
• Vhodné pro srovnání profilů objektů nebo skupin objektů pomocí více proměnných
• Různá grafická forma
Polární graf
• Obdoba čárového, sloupcového nebo plošného grafu s osou X vynesenou na kružnici
• Vhodný pro cyklická data (cirkadiánní rytmy, sezonalita, směrová statistika pohybu
V ■ V ■        I       O \
živočichu)
e3 bunky2 e5s bunky1 eb enzym2
Grafické tabule
C33-C34
• Více grafů tvořících grafickou tabuli
• Možné skládat z různých grafů jednoho nebo více typů
• Prezentace velkého množství dat na malém prostoru
iba _w
íflŕlľ S lili 1   Institut biostatistiky a analýz, PřF a LF MU
	-■1 -				-SIS			vi-V-		-íu				—	T —	věj		vV	n4		-
r n ■jí	" --" -■_ -							71-■a-				=*:	m		W-rn— o—	3=		3-			
		lH-	e i:	.. .	iů-2ů	ii-ii			l-i	S-1Ů	■ ■,		il-iS	Sŕt				11-lS		ii-ii	-í
	-	n<MI			—.		n«-' IV	VI-				n- 1^		—m		n- ia					
■	" --														w-rn—						
	■_ -						ZE	■a-	=*=		1*1	-		X	o—			31			
			Ů--1Ů	.. .	nů-a				l-í		■ ■'	1Ů-3Ů	ři-aa				Ů--1Ů	ii-nS			-i
	-	n-TM					n-S\l	VI-		--4U	■ -.	n- ľ J		--■jí-	f—	n--"		n--'v	--t		
:-	" -														w—						
	-														TH —						
			I*=		=•=		31	■a-	^-			=		3:	"ľľ1 —			♦	*		
		■	Ů--1Ů				_i		l-S	-		is-aa	n-as			1			1Ů--2Ů		.í
	-							VI-	—J»		--i	n-J	n-F		f —		—-ir				■-.
	■1 _							w ~							vr-						
i . r								TI-							m-						T
t 17.	_ ■_ -	31	3,			I	±	■a -		X	X	31	I		rn— o—		3:		*		i
		■	e i:	■■ ■		ii-ii			l-i	S-1Ů		1Ů-jů	il-iS			■	c ií	11-lS			
3D grafy
• Mnoho typů
Chernoffovy tváře (ikonové grafy)
• Jednotlivé proměnné jsou zobrazeny jako rysy tváře
• Patří mezi tzv. ikonové grafy
• hodnoty znaků znázorněny jako geometrické útvary či symboly
• každému objektu (subjektu) odpovídá jeden obrazec složený z těchto geometrických útvarů či symbolů
• umožní vizuálně porovnat, které objekty (subjekty) jsou si podobné
#1
írL-.
#11
#2
#7
#12
#16
#17
#3
#8
#13
#18
#4
#9
#14
#19
#15
#20
■ face/w = vek
ear/lev = cel_cholesterol halfface/h = vaha
■ upface/ecc = sys_tlak
■ loface/ecc = dia tlak
#16 #17
#1 #2 #3 #4
#6 #7 #8 #9
M
#13 #14
Lefttoright:
vek
cel chalesle-ral
#13 #19
V
#11
#16 #17
#12 #13
#14 #15
#19 #2C
#12 #13
#17 #18 #19 #20
C 0'-,k-,j- i* vek
c el_c hole sterol
s;s_1 s-i ::is_:lsí
IMII   Institut biostatistiky a analýz, PřF a LF MU
iba Xg? ^
Mapy jsou také grafy
• Samostatná kapitola vizualizace dat
• Obarvení regionů v mapě dle výsledků analýzy nebo přímo vkládání grafů do map (sloupcové, koláčové atd.)
• ArcGIS - další z SW dostupných na inet.muni.cz
Slavné mapy: John Snow- cholera v Londýně
1854 Broad Street cholera outbreak
Počty případů vyneseny jako černé sloupce dle bydliště obětí
Identifikace zdroje nákazy-kontaminovaná studně
Jeden z prvních příkladů prostorové analýzy dat a epidemiologického mapování
iba Xg? ^
Nesprávné použití grafů: rozsah os („nevíme jak nakresliť')
The soaraway Post — the daily paper New Yorkers trust
1.900.000
1.800.000 1.700.000 1.600.000
1.500.000 800.000 700.000 600.000 500.000
If/7     1*71 |»T»
K 1snc	m			
N	H73.00C r		NE	WS
	% \ \			
	\	I.S3S400		
			1.555.000	
				Mi jam
			mm	7X2.000
	•21,000		r J	■r. 31 tt
	1-		-1-1	
2.000,000
í 1.COO.000
o E
o
The Post struggles to catch up
NEWS
POST
I
±
±
1977  1978   1979  1980 1981
iba
Institut biostatistiky a analýz, PřF a LF ML)
Nesprávné použití grafů: standardizace os („nevíme co kreslíme")
Přednáška 3
Informace a rozdělení dat
Jak vznikají informace Rozdělení dat
iba M° m w
Anotace
• Základním principem statistiky je pravděpodobnost výskytu nějaké události.
• Prostřednictvím vzorkování se snažíme odhadnout skutečnou pravděpodobnost událostí.
• Klíčovou otázkou je velikost vzorku, čím větší vzorek, tím větší šance na projevení se skutečné pravděpodobnosti výskytu jevu.
Vznik informací: pojmy
Skutečnost
Pozorovatel
Jev - podmnožina všech možných výsledků pokusu/děje, o které lze říct, zda nastala nebo ne
Jevové pole - třída všech jevů, které jsme se rozhodli nebojsm schopni sledovat
Skutečnost + Jevové pole = Měřitelný prostor
A«\ <ľ>
f\ f.T")fV. j nu i   |nstitut biostatistiky a analýz, PřF a LF MU
Vznik informací: pojmy II
• Experimentální jednotka - objekt, na kterém se provádí šetření
• Populace - soubor experimentálních jednotek (objekt)
• Znak - vlastnost sledovaná na objektu
• Náhodná veličina - číselná hodnota vyjadřující výsledek náhodného
• Znak se stává sledovanou náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním (vzorkováním) objektu ze základního souboru (populace)
Vznik informací: vzorkování
Statistika hovoří o realitě prostřednictvím výběru z cílové populace
Statistické předpoklady korektního vzorkování je nutné dodržet
Náhodný výběr z cílové populace
Representativnost: struktura vzorku musí maximálně reflektovat realitu
Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci
Cílová populace
4 4 4 4 4 4 4 4 4
Příklad vzorkování
• Na základě vzorkování chceme zjistit vlastnosti nějakého jevu
• Naší cílovou populací budou hody kostkou s neznámými vlastnostmi
• Chceme zjistit vlastnosti neznámé použité kostky
Příklad vzorkování: N=3
Příklad vzorkování: N=6
Příklad vzorkování: N=20
Příklad vzorkování: N=60
Příklad vzorkování: N=600
Příklad vzorkování: N=6 000
Příklad vzorkování: N=60 000
Příklad vzorkování: závěr
• Sledovaný jev má pravděpodobně tvar desetistěnné kostky
• U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit
• Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější a spolehlivější)
• Diskutabilní je ovšem míra zobecnění konkrétního experimentu (spolehlivost a stabilita výsledků není totéž co nezkreslený výsledek)
IMII   Institut biostatistiky a analýz, PřF a LF MU
iba Xg? ^
Empirický zákon velkých čísel
• Při opětovné nezávislé realizaci téhož náhodného experimentu se podíl výskytů sledovaného jevu mezi všemi dosud provedenými realizacemi zpravidla ustaluje kolem konstanty.
• Pravděpodobnost je libovolná reálná funkce definovaná na jevovém poli A (např. hody kostkou), která každému jevu A (např. strany kostky) přiřadí nezáporné reálné číslo P(A) z intervalu 0 -1.
• Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost
0.4
• P(A) = 1............................
• P(A) = 0............................
• P(AnB) = P(A). P(B)....
• P(AnB) = P(A). P (B/A)
jev nemožný nezávislé jevy závislé jevy
jev jistý
0.3
0.1
0.2
N = 3
123456789 10
0.4
• P (A / B) = P (A n B) /P (B)
podmíněná pravděpodobnost
0.3
N = oo
0.2
0.1
■■■■■■■■■■
123456789 10
Empirický zákon velkých čísel: příklad
Hodnotíme výskyt mužů v dané sledované populaci (jev „výskyt muže")
Skutečná pravděpodobnost sledovaného jevu je p=0.5 (tu ale ve skutečnosti neznáme)
Snažíme se na základě opakovaného vzorkování (experimentu) tuto pravděpodobnost zjistit
OJ
OJ Q.
X OJ
"E
-OJ
> o
o.
3
4
5
6
7
8
9 10 25 50
oj 100
>u
o 250
500 1000
o.i
0.2
Relativní četnost ~ Pravděpodobnost jevu (výskyt mužů v cílové populaci) 0.3 0.4 0.5 0.6 0.7
0.8
0.9
t>0
Ido
0.67
0.40
0.50
0.50
0.43
0.13
0.33
0.90
0.52
0.58
I 0.51 0.50
0.53
0.50 0.50
Z praktického hlediska je pravděpodobnost idealizovaná relativní četnost
iba
|   Institut biostatistiky a analýz, PřF a LF MU
P=0.5
Pravděpodobnost výskytu jevu - rozložení kategoriálních dat
• existuje pravděpodobnost výskytu jevů (nedeterministické závěry)
• „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane
0.35
0.30
I" 0.25 >
g 0.20
-Q O
-a 0.15 o
Q_
>(1J
"5 0.10
0.05 0.00
Výška sloupce = pravděpodobnost výskytu dané kategorie
Suma sloupců = 1 (100% všech možností)
0.10   0.10   0.10   0.10   0.10   0.10   0.10   0.10   0.10 0.10
3 4 5 6 7 8 Zjištěné unikátní hodnoty na kostce
10
Ä /0ěl%
ff |rv; | IUI |   Institut biostatistiky a analýz, PřF a LF MU
Pravděpodobnost výskytu jevu - rozložení spojitých dat
• existuje pravděpodobnost výskytu jevů (nedeterministické závěry)
• „vše je možné": pouze jev s pravděpodobností 0 nikdy nenastane
prumer
w o
.Q O
T3 O Q_
><D
T3 >
co
Q.
ro o w =3 X
nm.
lim mm
Plocha = pravděpodobnost výskytu Suma plochy = 1 (100% všech možností)
mm
mmmmmi
mmmmmm.
mmmmmmmi mmmmkmmmm
Výška postavy
iba w W W
|   Institut biostatistiky a analýz, PřF a LF MU
Základní typy dat
Spojitá a kategoriální data Základní popisné statistiky Grafický popis dat
Anotace
• Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod
• Od binárních přes kategoriální, ordinální až po spojitá data roste míra informace v nich obsažené.
• Základním přístupem k popisné analýze dat je tvorba frekvenčních tabulek a jejich grafických reprezentací - histogramů.
Jak vznikají data?
• Záznamem skutečnosti...
ěm i
iba w w
JMI
|   Institut biostatistiky a analýz, PřF a LF MU
Jak vznikají data?
• Záznamem skutečnosti...
... kterou chceme dále studovat -> smysluplnost? (koncentrace polutantu x nadmořská výška, krevní tlak, glykémie x počet srdcí, počet domů)
... více či méně dokonalým -> kvalita? (variabilita = informace + chyba)
_uu A*JSC\ /ÍÍ"g\
í¥$Y i 'ííf!' > Ml 1   Institut biostatistiky a analýz, PřF a LF MU
iba M° tj# W
Jak vznikají informace - různé typy dat znamenají různou informaci
Data poměrová
Data intervalová
Data ordinální
Data nominální Data binární
Kolikrát ?
O kolik?
Větší, menší ?
Rovná se ?
data
Kategoriální otázky
Otázky „Ano/Ne"
Podíl hodnot větší/menší než
specifikovaná hodnota
Procenta odvozené hodnoty
Samotná znalost typu dat ale na dosažení informace nestačí
IUI I   Institut biostatistiky a analýz, PřF a LF MU
iba Xg? ^
Typy dat a jejich informační hodnota
• Statistika je užitečná v každé době ©
• I v době ledové
Šaman sedí před jeskyní a přemýšlí:
• Zima se blíží a je třeba udělat zásoby na zimu
• Ale musím vymyslet jak správně popsat co jsme vlastně ulovili za zásoby
• Nebo pomřeme hlady......
IMII   Institut biostatistiky a analýz, PřF a LF MU
iba Xg? ^
Cílová populace
Vzorkujeme 3 kategorie sledované proměnné kořist
Veverka
Kořist
Jelen
Mamut
_» Ä #íSS\. 4?>
ÍY$Yi I^VaV í lili 1 tistiky a analýz, PřF a LF MU
iba M° tj# W
Binární data - chytili jsme něco?
• Informačně nejméně obsáhlá jsou data binární
Binární data - chytili jsme něco?
• Informačně nejméně obsáhlá jsou data binární
Hodnotíme dva možné stavy:
n=10
Přinesl x nepřinesl kořist Jak můžeme popsat:
Celkový počet lovů (báze hodnocení)
/> /> r\ s\ r\ s\ s\ r\t /> />
Počet úlovků (absolutní četnost)
n=7
Podíl úspěšných lovů (relativní četnost) nebo nejčetnější kategorie (modus)
sjfr ía? UL# UL# !at UL# tX# 000N=7(70%)
/BA 5^2£/
Jsou binární data dostatečná za všech okolností?
I   Institut biostatistiky a analýz, PřF a LF MU
Kategoriální data - co jsme chytili?
Více informací získáme z dat kategoriálních
Hodnotíme několik možných stavů:
Jak můžeme popsat:
Celkový počet lovů (báze hodnocení)
Počet různých kategorií úlovků (absolutní četnost)
Podíl úspěšných lovů různých kategorií úlovků (relativní četnost) nebo nejčetnější kategorie (modus)
Jsou kategoriální data dostatečná za všech okolností?
iba Xg? ^
n = 1 (10%)
n = 2 (20%)
0®0
n = 3 (30%)
0
n = 4 (40%)
Jsou kategorie seřaditelné?
<
<
<
7
<
I
iba
• Seřaditelné kategorie = ordinální data
• Ordinální data je možné popsat stejně jako data kategoriální + u seřiditelných dat je možné počítat i medián
Jsou kategoriální data dostatečná za všech okolností?
ljVt\ f^rh šlUlš   Institut biostatistiky a analýz, PřF a LF MU
i-m? w
Pozor na medián u ordinálních dat
• Je medián vždy vhodným ukazatelem středu ordinálních dat?
Pozor na medián u ordinálních dat
iki   %i m
Vs. Medián je shodný !
^    M W       m     m m
• Medián je shodný nicméně interpretace dat je odlišná
• Možnost a formální správnost výpočtu statistiky neznamená, že jde o vhodnou metodu
_» /Ä%
lYsY J fíir« ř lili I   Institut biostatistiky a analýz, PřF a LF MU
iba M° tj# W
Kvantitativní data-jaký je objem kořisti ?
Informačně nejhodnotnější jsou data kvantitativní
Pro popis je nezbytné posoudit jejich rozložení
• Průměr
• Medián
• Směrodatná odchylka
• Minimum, maximum
• Percentily
• Atd.
y|y\ f IU| I   111 t r i r 111 linľ.i jtistiky a analýz, PrF a LF MU
^V^^" ^'LitS^
ISA
= 6T 6T 6T
Typy dat: shrnutí
• Kvalitativní proměnná (kategória I n í) - lze ji řadit do kategorií, ale nelze ji kvantifikovat, resp. nemá smysl přiřadit jednotlivým kategoriím číselné vyjádření.
• Příklady: pohlaví, HIV status, užívání drog, barva vlasů
• Kvantitativní proměnná (numerická) - můžeme jí přiřadit číselnou hodnotu. Rozlišujeme dva typy kvantitativních proměnných:
• Spojité: může nabývat jakýchkoliv hodnot v určitém rozmezí.
• Příklady: výška, váha, vzdálenost, čas, teplota.
• Diskrétní: může nabývat pouze spočetně mnoha hodnot.
• Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za
rok, počet dětí v rodině.
Kvalitativní data lze dělit dále
• Binární data - pouze dvě kategorie typu ano / ne.
• Nominální data - více kategorií, které nelze vzájemně seřadit.
• Nemá smysl ptát se na relaci větší/menší.
• Ordinální data - více kategorií, které lze vzájemně seřadit.
• Má smysl ptát se na relaci větší/menší.
iba
m
|   Institut biostatistiky a analýz, PřF a LF MU
Kvalitativní data - příklady
• Binární data
• diabetes (ano/ne)
• pohlaví (muž/žena)
• Nominální data
• krevní skupiny (A/B/AB/0)
• stát EU (Belgie/.../Česká republika/.../Velká Británie)
• Ordinální data
• stupeň bolesti (mírná/střední/velká/nesnesitelná)
• spotřeba cigaret (nekuřák/ex-kuřák/občasný kuřák/pravidelný kuřák)
• stadium maligního onemocnění (l/ll/lll/IV)
Jak vznikají informace - popis různých typů dat
Data poměrová
Data intervalová
Data ordinální
Data nominální Data binární
Statistika středu
PRUMER
MEDIAN
MODUS
Absolutní a relativní četnosti
■ Mü tfSüi
í¥$Y i íífsl ř IUI 1   Institut biostatistiky a analýz, PřF a LF MU
iba M° tj# W
Spojitá data
• Kvantitativní data - četnost hodnot rozložení v jednotlivých intervalech.
• Kvalitativní data - tabulka s četností jednotlivých kategorií.
Kategorie	Četnost
B	5
C	8
D	1
Řada dat a její vlastnosti
• V analýze je často možné zvolit několik možných cest popisu dat
• Kritériem výběru není pouze formální matematická správnost, ale také smysluplnost a informační hodnota použité popisné statistiky v dané situaci
Jednotlivé hodnoty
i—i—i—i—i
ú
3 1
Parametry rozložení
Počty hodnot v kategoriích
ooo ooooo o o
min
Box & whisker plot
prumer medián
kvartily
O
max
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Odvozená data: pozor na odvozené indexy
• X: Průměrný počet výrobků v prodejně
• Y: Odhad prostoru průměrně nabízeného k vystavení výrobku
• Popsáno průměrem a rozsahem min-max
• X: 1,2 : (1,15-1,24) -►   + /-3,8%
• Y: 1,8 : (1,75 - 1,84) -► +7-2,5%
X               /1,15 1,24\ •y = 0<667:(l84-l75J -* +/-6'2%
• Nová veličina má jinou šířku rozpětí než ty, ze kterých je odvozená
i
Institut biostatistiky a analýz, PřF a LF MU
Vznik informací: opakovaná měření informují rozložením hodnot
Y: frekvence
Diskrétní data Spojitá data
_uu A*JSC\ /íi"g\
í¥$Y i íífsl ř IUI 1   Institut biostatistiky a analýz, PřF a LF MU
iba ^# W
Frekvenční sumarizace - základní nástroj popisu dat: kvalitativní data
Cílem sumarizace je zjednodušení dat do přehledné formy
N = 100 pacientů s hemofílií
Hodnocenou proměnnou je počet krvácivých epizod za měsíc
Nejjednodušší sumarizací je frekvenční tabulka
*Untitled2[DataSet1] - IBM SPSS Statistic File    Edit    View    Data Transform
IĚ3 N 8 EÖ3 ^		
		
	epizody	
1	1	
2	0	
3	1	
4	2	
£	2	
6	1	
7	1	
8	3	
9	2	
10	1	
11	3	
12	1	
13	2	
14	2	
15	2	
16	0	
17	0	
18	3	
19	1	
20	1	
21	1	
22	0	
23	1	
24-	2	
25	1	
26	3	
27	1	
28	2	
29	1	
30	2	
31	0	
32	1	
33	1	
34	2	
epizody
Frequency		Percent	Valid Percent	Cumulative Percent
Valid 0	22	22,0	22,0	22,0
1	27	27,0	27,0	49,0
2	29	29,0	29,0	78,0
3	22	22,0	22,0	100,0
Total	100	100,0	100,0	
Tabulka ukazuje unikátní hodnoty v datech
Frequency = počet hodnot v kategorii (absolutní četnost)
Percent = procentuální zastoupení kategorie (relativní četnost)
Valid percent = procentuální zastoupení kategorie (bez započtení chybějících hodnot)
Cumulative percent = kumulativní procentuální zastoupení kategorií až po danou kategorii (kumu ativní relativní četnost; má smysl pouze pro ordiná ní data, obdobně existuje i kumulativní
absolutní četnost)
Institut biostatistiky a analýz, PřF a LF MU
Vizualizace frekvenční tabulky kvalitativních dat
Libovolné grafy umožňující vizualizaci počtů a procent (koláčový, páskový, sloupcový, čárový)
o%
I    | <-H<-H(N (Nrom^ «3-LD LD <£> <£> ľ"-, ľ"-. 00 00 CD LD
<-nn I  I  I  I  I  I  I  I  I  I  I  I  I  I  I  I 101 OLnoLnoLnoLnoLnoLnoLnoLno ^^rsirsimm^^LnLnu3ixir^r^oooocn
30 000 25 000 20 000 15 000 10 000 5 000 0
.0...0-0
> jv>   A   <> A
0%        25%       50%       75% 100%
51.1%
30.6% 36.8 % 42.0 % 36.9 %
_I
.3sa.s% >/„ 2.0% 1.2% 3.8 % 3.1% 2.5 % 2.1%
■4« 1.7 % ■ 2% 2.1% 2.2% ■.1 % 4.2% 2.7 %
17.6 %
23.0 %
8.7 %
50.6 %
40000 35000 30000 25000 20000 15000 10000 5000 0
& # ^ ^ o? <$> <Č
V   V  V  T V T T f T  T T f
_» Ä #íSS\. 4?>
ÍY$Y 1 I^VaV í IUI1 tistiky a analýz, PřF a LF MU
iba M° tj# W
0%       25%      50%      75% 100% 1 ' ■ ■ _1
^■3 %
43
0771
Frekvenční sumarizace - základní nástroj popisu dat: kvantitativní data
Cílem sumarizace je zjednodušení dat do přehledné formy
N = 100 pacientů s
Hodnocenou proměnnou je koncentrace látky v krvi
Nejjednodušší sumarizací je opět frekvenční tabulka
Další možností je výpočet zástupných sumárních statistik (průměr, medián aj.)
File    Edit    View    Data    Transform    Analyze    Direct Marke			
íě! y © aj-*j iib^i			
i			
	^ Koncentrace |        Koncentrace int		
	26,8                   20,1 -40,0		
2	60 0	40,1 - 60,0	
3	25,6	20,1 - 40,0	
4	31 3	20,1 - 40.0	
5	47,8	40,1 - 60.0	
6	73,6	60 1 - 80 6	
7	58 1	40,1 - 60,0	
3	53 1	40 1 - SO 0	
9	39,0	20,1 - 40,0	
10	26,5	20,1 - 40,0	
11	32,1	20,1 - 40,0	
12	41 8	40,1 - 60,0	
13	60 3	60 1 - 80 6	
14	68 4	86 1 - 100 6	
1£	32,0	20,1 40,0	
16	61,1	60 1 - 80 6	
17	33,6	20,1 - 40.0	
18	99,7	86 1 - 100 6	
19	£5,2	40,1 - 60,0	
20	80 5	80.1 -100,0	
21	27,2	20 1 -40 6	
22	79,9	60 1 - 80 6	
23	45,3	40,1 - 60,0	
24	58,2	40,1 - 60,0	
25	28 8	20 1 -40 6	
26	69,3	60 1 - 80 6	
27	27,3	20,1 - 40,0	
28	95 1	86 1 - 100 6	
29	30,6	20,1 - 40,0	
30	31,5	20,1 - 40.0	
31	28,7	20,1 - 40,0	
			
Koncentrace intervaly
Frequency		Percent	Valid Percent	Cumulative Percent
Valid     20,1 - 40,0	33	33,0	33,0	33,0
40,1 - 60,0	30	30,0	30,0	63,0
y           60,1 - 80,0	17	17,0	17,0	80,0
80,1 - 100,0	20	20,0	20,0	100,0
Total	100	100,0	100,0	
Tabulka ukazuje unikátní hodnoty v datech
Na rozdíl od kvalitativních dat je nezbytné pro smysluplnost výstupu stanovit v datech intervaly (o stejné nebo různé šířce)
Frequency = počet hodnot v kategorii (absolutní četnost)
Percent = procentuální zastoupení kategorie (relativní četnost)
ValidjDercent = procentuální zastoupení kategorie (bez započtení chybějících hodnot)
Cumulative percent = kumulativní procentuální zastoupení kategorií až po danou kategorii (kumulativní relativní četnost; obdobně existuje i kumulativní absolutní četnost)
Institut biostatistiky a analýz, PřF a LF MU
Vizualizace frekvenční tabulky kvantitativních dat
• Základním nástrojem vizualizace spojitých dat založeným na frekvenční tabulce je histogram
• Na rozdíl od sloupcového grafu představuje vizualizovanou hodnotu plocha sloupce, nikoliv jeho výška
Histogram Sloupcový graf
+-> O +->
to
20,1-40,0   40,1-60,0   60,1-80,0 80,1-100,0
Intervaly
lili I   Institut biostatistiky a analýz, PřF a LF MU
20,1-40,0   40,1-60,0   60,1-80,0 80,1-100,0
Intervaly
Histogram: vliv kategorizace dat
• Počtem zvolených intervalů v histogramu rozhodujeme o tom, jak bude vypadat. Při malém počtu můžeme přehlédnout důležité prvky v datech, při velkém zase může být informace roztříštěna.
"i M.
3 intervaly
"i M.
5 intervalů
20 16 12 8 4 0
8.0
4.0
4.5
2.5
1.0
1-3        4-6 7-10
1-2   3-4   5-6   7-8 9-10
"i M.
10 intervalů
20 16 -12 -
8 -     6 6
4 - 2
0
1 1
1234567891
: llil I   Institut biostatistiky a analýz, PřF a LF MU
iba 5<V2£/ ^# ^
Histogram: vliv kategorizace dat
• Výběr počtu kategorií-důležitý pro interpretaci
• Ruční nebo automatický výběr - různé algoritmy (závisí na velikosti vzorku a variabilitě dat)
Histogram: nástroj posouzení rozložení dat
• Histogram reálných dat má vazbu na modelové rozdělení
Proč je důležité vědět co je to skutečný histogram I
Většina lidí uvažuje vizuálně - vizualizace dat je tak nesmírně důležitá pro první vjem a interpretaci dat
Díky odlišné vizuální interpretaci histogramu a sloupcového grafu v případě použití různě širokých intervalů může být za některé situace použití sloupcového grafu zavádějící
• V praxi se nicméně často používá namísto „pravého" histogramu sloupcový graf (i výrobci statistických SW)
• V případě stejné šířky intervalů interpretační problém nevzniká (pn ruzne sirce intervalu vypínají SW některé volby = nastavení pro pokročilé uživatele)
•; IMI1   Institut biostatistiky a analýz, PřF a LF MU
iba 5<V2£/ ^
Příklad: věk účastníků vážných dopravních nehod
• Analyzován byl věk účastníků vážných dopravních nehod v jedné londýnské čtvrti
• Liší se interpretace dat vizualizovaných pomocí sloupcového grafu a histogramu?
• Která interpretace Vám přijde smysluplnější a proč?
Proč je důležité vědět co je to skutečný histogram II
Plocha = pravděpodobnost výskytu
• Statistické analýzy jsou postaveny na suma plochy = i (100% všech možností)
modelových rozděleních, které používáme ve výpočtech jako zástup naměřených dat (pokud reálná data odpovídají svým rozložením modelu, můžeme model využít ve výpočtech místo něj)
• Modely popisují rozdělení hustoty pravděpodobnosti výskytu dané hodnoty = pravděpodobnost výskytu hodnot je dána plochou grafu
• Rozložení = reálná data
• Rozdělení = model
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Příklad: optimalizace skladových zásob oblečení
• Představte si, že vlastníte obchod s oblečením a chcete optimalizovat skladové zásoby různých velikostí oblečení = potřebujete zjistit kolik % lidí v populaci potřebuje jaké oblečení
• Jaké je rozdělení lidí v populaci co do velikosti?
• Rovnoměrné, normální, lognormální ???
M
XL
XXL
TO SAVE TIME LETS JUST ASSUME THAT IM NEVER WRONG
f
IMII   Institut biostatistiky a analýz, PřF a LF MU
:<ä>' *ggŕ
Příklad: optimalizace skladových zásob oblečení
• Dá se předpokládat, že velikost lidí je rozložena normálně
• Pokud jsme schopni stanovit rozsahy hodnot pro různé velikosti oblečení, můžeme podíly skladových zásob odečíst z křivky normálního rozdělení
Integrovat?
Lze jednodušeji?
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
STATI! ITICIAN
XXL
XL
Velikost člověka relevantní k velikosti oblečení
Normální rozdělení a jeho distribuční funkce
K modelovým rozdělením existují jejich distribuční funkce
Pro danou hodnotu rozdělení uvádějí plochu
(=pravděpodobnost) pod křivkou do dané hodnoty
Základní nástroj v řadě statistických výpočtů
Kvantil modelového rozdělení:
hodnota jíž odpovídá daná plocha pod křivkou rozdělení (např. 95% kvantil je hodnota proměnné pod níž leží 95% všech hodnot)
Normální rozdělení
Distribuční funkce normálního rozdělení
iba Xg? ^
-1 0 1
Hodnota proměnné
Příklad: optimalizace skladových zásob oblečení
Řešení příkladu odvodíme ze znalosti rozdělení velikosti lidí v cílové populaci a jeho distribuční funkce
Přibližné podíly různých velikostí oblečení:
• S: 2.5%
• M: 13.4%
• L: 68.2%
• XL: 13.4%
• XXL: 2.5%
■2xSD
-lxSD
lxSD
XL
2xSD
XXL
4
I'M A
STATISTICIAN
TO SAVE TIME LETS JUST ASSUME THAT IM NEVER WRONG
2.5 % plochy
13.4 % plochy     68.2 % plochy     13.4 % plochy
2.5 % plochy
Velikost člověka relevantní k velikosti oblečení
iba w w
Přednáška 4
Modelová rozložení
Normální rozložení jako statistický model Aplikace modelových rozložení Přehled modelových rozložení
™ /£S';x 4fľ^
'^Síl^ ^«A«*
Anotace
• Klasickým postupem statistické analýzy je na základě vzorku cílové populace identifikovat typ a charakteristiky modelového rozložení dat, využít jeho matematického modelu k popisu reality a získané výsledky zobecnit na hodnocenou cílovou populaci.
• Využití tohoto přístupu je možné pouze v případě shody reálných dat s modelovým rozložením, v opačném případě hrozí získání zavádějících výsledků.
• Nejklasičtějším modelovým rozložením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozložení, známé též jako Gaussova křivka.
All models are wrong but some are useful
George Box, 1978
_» /Ä% f&Sx,
í¥$Y i íífsl ř IUI 1   Institut biostatistiky a analýz, PřF a LF MU
iba M° tj# W
Normální rozdělení
• Nejklasičtějším modelovým rozložením, od něhož je odvozena celá řada statistických analýz je tzv. normální rozložení, známé též jako Gaussova křivka.
• Popisuje rozdělení pravděpodobnosti spojité náhodné veličiny: např. výška v populaci, chyba měření...
Je kompletně popsáno dvěma parametry:
• u.-střední hodnota
• o2 - rozptyl
• Označení: N(u., o2)
• Normalita je klíčovým předpokladem řady statistických metod
• Pro ověření normality existuje řada testů a grafických metod
Ä /0ĚL%
1.0
0.8
,—v 0.6
Š 0.4
0.2
0.0
■J    lysí 5 !řf« ř IIJII   Institut biostatistiky a analýz, PřF a LF MU
iba M° W W
Popis rozdělení kvantitativních dat: co chceme u dat popsat?
• Kvantitativní data-těžiště a rozsah pozorovaných hodnot.
Výpočet charakteristik normálního rozdělení: průměr
• jlx — průměr rozdělení (cílová populace)
• ~x- průměr rozložení vzorkovaných dat (odhad průměru cílové populace)
• Průměr lze spočítat z libovolných kvantitativních dat, ale pouze za některých situací jej lze považovat za ukazatel středu dat (symetrické, normální rozdělení dat)
• Odlehlé hodnoty a asymetrie dat výrazně ovlivňují výsledek výpočtu průměru
N=5
Objekt	Hodnota
	
X2	3
	4
x4	7
X5	2
Yli=ixi 21
Ä /0ĚL%
iba
|A /Aru ř líil I   Institut biostatistiky a analýz, PřF a LF MU
Průměr vs. medián
• Máme-li symetrická data, je výsledek výpočtu průměru i mediánu podobný.
• Vše je OK.
Systolický tlak u mužů
o
3
O) >u
o
CL
100
I
120
Tlak (mmHg)
180 200
^   Průměr = 149,9 mmHg
I        ^   Medián = 150,0 mmHg
/Ä
IUI I   Institut biostatistiky a analýz, PřF a LF MU
iba ^/ <<jg? W
Průměr vs. medián
Nemáme-li symetrická data, je výsledek výpočtu průměru i mediánu rozdílný Není to OK. Výpočet průměru je v tuto chvíli nevhodný!
• Příklad 1: známkování ve škole
• Student A: 1,1, 1,1, 2,1, 1, 1,1,1, 1,1,1, 5
Průměr = 1,35 Medián = 1,00
• Student B: 1,1, 1, 1, 2, 1, 1,1, 1,1, 1, 1,1, 2
Průměr = 1,13 Medián = 1,00
• Příklad 2: plat v ČR
iba
I   Institut biostatistiky a analýz, PřF a LF MU
Skutečné rozložení dat
Průměrný plat 26 985 Kč/měsíc
Proložený model normálního rozdělení. Jakákoliv metoda pracující s modelem normálního rozdělení pracuje s daty jako kdyby jejich reálné rozložení odpovídalo červené křivce.
5000   10000   15000   20000   25000   30000   35000   40000   45000   50000 55000
Měsíční plat (Kč)
Popis „těžiště" - míry polohy
• Mějme pozorované hodnoty:
• Seřaďme je podle velikosti: x(í)<xi2)<...<xin)
• Minimum a maximum - nejmenší a největší pozorovaná hodnota nám dávají obraz o tom, kde se na ose x pohybujeme.
• Průměr-charakterizuje hodnotu, kolem které kolísají ostatní pozorované hodnoty. Je to fyzikální obraz těžiště stejně hmotných bodů ose x.
• Medián - je to prostřední pozorovaná hodnota. Dělí pozorované hodnoty na dvě půlky, půlka hodnot je menší a půlka hodnot je větší než medián.
max (n)
% ~ x{(n+\)i2) pro n liché
X = HX(n/2) +X(nl2+\))     P1"0 " SLjdé
Pojem kvantil
• Laicky lze kvantil definovat jako číslo na reálné ose, které rozděluje pozorovaná data na dvě části: p% kvantil rozděluje data na p % hodnot a (100-p) % hodnot.
• Máme soubor 20 osob, u nichž měříme výšku. Chceme zjistit 80% kvantil souboru pozorovaných dat.
n = 20
Průměr těchto dvou = 80% kvantil
16 / 20 = 80 % hodnot 4 / 20 = 20 % hodnot
r
i 1111
110 cm
140 cm 170 cm 200 cm 230 cm
Výška v cm
Výpočet charakteristik normálního rozdělení: rozptyl a směrodatná odchylka
a2-rozptyl rozdělení (cílová populace)
s2- rozptyl rozložení vzorkovaných dat (odhad rozptylu cílové populace)
N=5
Objekt	Hodnota
	
x2	3
	4
x4	7
X5	2
2 - x)2 14,8
TV - 1 4
I—O—I
5     6     7     8      S = J^ = JŠJ = lf92
X
Směrodatná odchylka (s, SD=standard deviation) = druhá odmocnina z rozptylu (snazší interpretovatelnost)
N-l nebo N ? Dělení N-l je výpočet rozptylu vzorku, dělení N je pro celou populaci (výjimečně)
/>*Tw2v
ÍY|Y%1 íiWp: Í IUI 1   Institut biostatistiky a analýz, PřF a LF MU ***&£*^
Popis „rozsahu" - míry variability
• Nejjednodušší charakteristikou variability pozorovaných dat je rozsah hodnot (rozpětí) = maximum - minimum. Je snadno ovlivnitelný netypickými (odlehlými) hodnotami.
• Kvantilové rozpětí je definováno p% kvantilem a (100-p)% kvantilem a je méně ovlivněno odlehlými hodnotami. Speciálním případem je kvartilové rozpětí, které pokrývá 50% pozorovaných hodnot.
• Rozptyl - průměrný čtverec odchylky od průměru. Velmi ovlivnitelný odlehlými hodnotami.
• Směrodatná odchylka - odmocnina z rozptylu. Výhodou směrodatné odchylky je, že má stejné jednotky jako pozorovaná data.
• Koeficient variance - podíl směrodatné odchylky ku průměru (u normálního rozložení by se 95% hodnot mělo vejít do průměr ±3 SD), pokud je SD větší než 1/3 průměru jsou teoreticky pravděpodobné záporné hodnoty v rozložení - ukazatel problémů s normalitou dat
n-1
^(x.-x)2
1=1
n-1
f n
E2 2 xi -nx
J
Normální rozdělení: vliv odlehlé hodnoty na popisné statistiky
• Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l)
ro +-> ro
T3
^ro
>
^ro i—
Cl
6.3 7.6 6.3
9.1
4.2 5.8 5.65
6.3
8.6 6
6.2
6.7 4.6 6.25
6.3
4.04 6.3
9.1
6.3
5.2
6.4 5.75
Průměrná hodnota 6,32
Směrodatná odchylka 1,34
Průměrná hodnota
Směrodatná odchylka
Která charakteristika se zvýší výrazněji? Průměr nebo směrodatná odchylka?
<
J
r	6.3 7.6 6.3	
	9.1 4.2	
	5.8	
5.65		
	6.3	-z.
8.6		a>
		en
	6	~a
		—í
	6.2	OK
		<
	6.7	
		OK
	4.6	Q.
6.25		OJ
		i-+
	6.3	OJ
	4.04 6.3 9.1	
	6.3 5.2 64	
	5.75	
iba
Institut biostatistiky a analýz, PřF a LF MU
Normální rozdělení: vliv odlehlé hodnoty na popisné statistiky
• Cílem je určit průměrnou hladinu cholesterolu vybrané populace mužů (hodnoty v mmol/l)
ro +-> ro
T3
^ro
> ^ro i—
Cl
6.3	
7.6	
6.3	
9.1	
4.2	
5.8	
5.65	
6.3	
8.6	
6	
6.2	
6.7	
4.6	
6.25	
6.3	
4.04	
6.3	
9.1	
6.3	
5.2	
6.4	
5.75	J
Průměrná hodnota 6,32
Směrodatná odchylka 1,34
Průměrná hodnota 8,94
Směrodatná odchylka 12,37
f	6.3
	7.6
6.3	
	9.1
	4.2
	5.8
	5.65
6.3	
	8.6
	6
	6.2
	6.7
4.6	
	6.25
	6.3
	4.04
	6.3
9.1	
	6.3
5.2	
	64
	5.75
rD en
~a —\
OK <
OK
Q.
OJ i-+ OJ
Á*3Sřlt Ä P
■ ; IMII   Institut biostatistiky a analýz, PřF a LF MU
iba W 'Mfi W
Identifikace odlehlých hodnot
• Na menších souborech stačí vizualizace.
• Na větších datových souborech nelze bez vizualizace a popisných statistik.
• Grafická identifikace: pomocí histogramu a box plotu.
• Identifikace pomocí popisných statistik: srovnání mediánu a průměru.
Identifikace odlehlých hodnot - příklad
Histogram
Histogram
ro +-> ro
T3
^ro
> ^ro i—
Cl
6.3 7.6 6.3
9.1
4.2 5.8 5.65
6.3
8.6 6
6.2
6.7 4.6 6.25
6.3
4.04 6.3
9.1
6.3
5.2
6.4 5.75
5 6 7
0 10 20 30 40 50 60 70
Box plot
Box plot
6.3 7.6 6.3
9.1
4.2 5.8 5.65
6.3
8.6 6
6.2
6.7 4.6 6.25
6.3
4.04 6.3
9.1 6.3
5.2 64
5.75
ÍT5 en
—^
OK <
OK
Q.
OJ i-+ OJ
^ A
■ ; IMII   Institut biostatistiky a analýz, PřF a LF MU
iba W 'Mfi W
Vizuální hodnocení normality
Rozdíl mezi N-P, Q-Q, P-P grafem
Normální p-graf
???
-1,0   -0,8   -0,6   -0,4   -0,2   0,0    0,2    0,4    0,6    0,8    1,0    1,2    1,4 1,6 Pozorovaný kvanlil
Graf P-P
• Pouze výměna os
• Znázorněn pozorovaný a teoretický kvantil
• Vykresleno kumulativní rozdělení
0,1       0,2       0,3       0,4       0,5       0,6       0,7       0,8       0,9 1,0 Teoretické kunuativní rozděler'
iba
\ mm
Institut biostatistiky a analýz, PřF a LF MU
Graf Q.Q
0,01 0,06  0,10        0,26 0,60 0,76        0,90   0,95 0,99
PAMATUJ: Pocházejí-li data z normálního rozložení, pak body budou ležet okolo přímky
A
Ukazatele tvaru rozložení
• Skewness - ukazatel „šikmosti" rozložení, asymetrie rozložení
• Kurtosis - ukazatel „špičatosti/plochosti" rozložení
skewness>0 skewness<0
Jak se projeví asymetrie dat v diagnostických grafech?
Rozložení s kladnou šikmostí											Normální rozložení										Rozložení se zápornou šikmostí								
	Histogram											Histogram										Histogram							
	i—i										•																		
																													
																													
																													
																		~~i —											
																													
												1 1							1			— i—i i i I 1 1							
	NP plot											NP plot									NP plot								
■											■											I//-V V\\		IQVI	■\ \				
																								/CXI	ŤT			j	
																						kř	vl-	ca	\			r	
				<0	n	k;	3\	IV	lí																		s		
			I		\/	t'																		■ ■^					
			i	\i i	v		j															•							
	Kr		abicový		diagra			m			■	Krabicový diagram									„	Krabicový diagram							
																													
																													
																													
																													
																													
																													
Výukové materiály: Výpočetní statistika, RNDr. Marie Budíková, Dr., 2011
m"" SMü\ f&V-H ■4i»iř'-
íY$Y i íífsl ř IUI 1   Institut biostatistiky a analýz, PřF a LF MU
iba M° tj# W
Standardní normální rozdělení
• Speciální případ normálního rozdělení s N(n=0, o2=l) - standardizovaná forma využívaná:
• ve statistických výpočtech
• pro srovnání extrémnosti / průměrnosti hodnot u proměnných s různými rozsahy nebo jednotkami
• Jednoduchá interpretace-základní hodnoty vhodné zapamatovat
Density of Norm(0,1)
-5-4-3-2-10        1        2        3 4
_uu A*JSC\ /ÍÍ"g\
í¥$Y i íífsí > Ml 1   Institut biostatistiky a analýz, PřF a LF MU
iba M° ^ W
Přepočet na standardní normální rozdělení
• Tzv. Z skóre - kromě statistických výpočtů využíváno např. v diagnostických skóre (osteoporóza) nebo pro srovnávání extrémnosti / průměrnosti proměnných s různými rozsahy nebo jednotkami (např. měření polutantů)
• Využití při výpočtu standardizovaných charakteristik (např. kovariance -> korelační koeficient)
• Ve vícerozměrné analýze používáno pro dosažení stejné váhy různých proměnných ve výpočtu
• Tabelovaná forma -> využití ve výpočtech
Objekt	Hodnota	Standardizovaná hodnota (z)
^^^|	^^^^	0.42
X2	3	-0.62
	4	
x4	7	1.46
	2	-1.14
		
průměr		
s	1,92	1
G
iba
I   Institut biostatistiky a analýz, PřF a LF MU
Pravidlo 3 sigma
• V rozmezí [i ± 3a by se mělo vyskytovat 99,7 % všech hodnot
• Vhodné znát pro orientační posouzení rozsahu dat
• U proměnných, které nemohou být záporné využití pro orientační posouzení normality
o
O
J
O
Ů
J
o
0.1% V%
-3o -2a
iba _w
|   Institut biostatistiky a analýz, PřF a LF MU
34.1% 34.1%^
13.6
2-,1% 0.1% I
-lo
lo
-1-
99,7% všech hodnot
Standardizované normální rozdělení a jeho charakteristiky
Statistické tabulky
• Přehledné vyjádření distribuční funkce pro modelová rozdělení
• V předpočítačovém období základní pomůcka, nyní hlavně výukový význam
• http://www.statsoft.com/Textbook/Distribution-Tables (potřebné i pro zkoušku)
Druhé desetinné místo hledaného z
Area between O and z
Celá část a první desetinné místo hledaného z
Plocha pod křivkou standardního normálního rozdělení (= pravděpodobnost) mezi průměrem a hledaným z
Hledané z (hodnota standardního normálního rozdělení)
	0.00	0.01	0.02	0.03	0.04	0.05	0.06	0.07	0.08	0.09
0.0	0.0000	0.0040	0.0080	0.0120	0.0160	0.0199	0.0239	0.0279	0.0319	0.0359
0.1	0.0398	0.0438	0.0478	0.0517	0.0557	0.0596	0.0636	0.0675	0.0714	0.0753
0.2	0.0793	0.0832	0.0871	0.0910	0.0948	0.0987	0.1026	0.1064	0.1103	0.1141
0.3	0.1179	0.1217	0.1255	0.1293	0.1331	0.1368	0.1406	0.1443	0.1480	0.1517
0.4	0.1554	0.1591	0.1628	0.1664	0.1700	0.1736	0.1772	0.1808	0.1844	0.1879
0.5	0.1915	0.1950	0.1985	0.2019	0.2054	0.2088	0.2123	0.2157	0.2190	0.2224
0.6	0.2257	0.2291	0.2324	0.2357	0.2389	0.2422	0.2454	0.2486	0.2517	0.2549
n 7	n i RÄfi	n 1	n 7 A4?	n 7A71	n 77n4	n niA	n 7 7A4	n 7704	n ?«?'3	n ?«r?
Plocha pod křivkou standardního
normálního rozdělení mezi
průměrem a hledaným z
Zde pro z=0.46 to je 0.1772 (mezi
průměrem a z=0.46 leží 17.7%
rozdělení)
iba
ÍÍWÍ\. S IUI i   Institut biostatistiky a analýz, PřF a LF MU
48
Využití statistických modelů
1. Máme nějaký znak v populaci, který chceme pro účely analýz nahradit statistickým modelem (de facto to děláme při každém výpočtu průměru, který považujeme za ukazatel středu)
2. Ověříme předpoklad, že je znak rozložen podle daného modelu = Platí vybraný model? Např. vizuální posouzení normality nebo její testování.
3. Spočítáme charakteristiky modelu (průměr a směrodatná odchylka v případě normálního rozdělení)
4. Převedeme na standardní formu modelu (standardní normální rozdělení v případě normálního rozdělení)
5. Využijeme známé vlastnosti rozdělení pro odpověď na položené otázky (distribuční funkce, její hodnoty ve statistických tabulkách)
Příklad aplikace modelu normálního rozdělení
• Máme data z průzkumu kostí prehistorického zvířete
• N=2 000
• Průměrná délka = 60 cm
• Směrodatná odchylka = 10 cm
--'W)»Wt
Výzkumné otázky:
• Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost 66 cm?
• Kolik kostí mělo zřejmě délku větší než 66 cm ?
• Jaký podíl kostí ležel svou délkou v rozsahu od 60 cm do 66 cm ?
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Ověření rozložení dat a výběr statistického modelu
Ověření rozložení dat a výběr statistického modelu
Jaká je pravděpodobnost, že by velikost dané kosti překročila velikost 66 cm?
• Přepočet hledané hodnoty na standardizovanou formu normálního rozdělení
x — \i    66 — 60
z =
Density of Norm(60, 10)
10
iba
í?Wíf, S IUI i   Institut biostatistiky a analýz, PřF a LF MU
= 0,6
Area between 0 and z
	0.00	0.01	0.02	0.03	0.04	0.05	0.06	0.07	0.08	0.09
0.0	0.0000	0.0040	0.0080	0.0120	0.0160	0.0199	0.0239	0.0279	0.0319	0.0359
0.1	0.0398	0.0438	0.0478	0.0517	0.0557	0.0596	0.0636	0.0675	0.0714	0.0753
0.2	0.0793	0.0832	0.0871	0.0910	0.0948	0.0987	0.1026	0.1064	0.1103	0.1141
0.3	0.1179	0.1217	0.1255	0.1293	0.1331	0.1368	0.1406	0.1443	0.1480	0.1517
0.4	0.1554	0.1591	0.1628	0.1664	0.1700	0.1736	0.1772	0.1808	0.1844	0.1879
0.5	0.1915	0.1950	0.1985	0.2019	0.2054	0.2088	0.2123	0.2157	0.2190	0.2224
0.6	0.2257	0.2291	0.2324	0.2357	0.2389	0.2422	0.2454	0.2486	0.2517	0.2549
n 7	I n ->z.&r\ I	n ">ŕ.-i -i	n -)AA->		n ->7C\A	n 177A	n ->7í.a	n 770 A	n ->&->■>	
p(x > 66) = 1 - p(x < 66) = 1 - p{^n- < 66  60) = 1 - F(0,6) = 0,27425
s 10
Aplikace modelu normálního rozdělení
• Kolik kostí mělo zřejmě délku větší než 66 cm ?
p(x > 66)* n = 0,27425 * 2000 = 548
• Jaký podíl kostí ležel svou délkou v rozsahu x od 60 cm do 66 cm ?
P(60 < x < 66) = p{60^6° < Z < 66^6°] = F(0,6) - F(o) = 0,22575
v        '   y 10        10 )   v ' w
• 22,6% kostí leží v rozsahu 60-66cm
ěm i
iba w w
JMI
|   Institut biostatistiky a analýz, PřF a LF MU
přehled modelových rozložení I
Rozložení	Parametry	Stručný popis
Normální	Průměr (\x) Rozptyl (a2)	Symetrická funkce popisující intervalovou hustotu četnosti; nejpravděpodobnější jsou průměrné hodnoty znaku v populaci.
Loq-normální	Medián Geometrický průměr Rozptyl (a2)	Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení.
Weibullovo	a - parametr tvaru P - parametr rozsahu hodnot	Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity.
Rovnoměrné	Medián Geometrický průměr Rozptyl (a2)	Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení.
Triangulární	f (x) = [b - ABS (x - a)] / b2 a-b<x<a+b	Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové.
Gamma	Parametry distribuční funkce: a - parametr tvaru P - parametr rozsahu hodnot	Umožňuje flexibilně modelování distribučních funkcí nejrůznějších tvarů. Např. x2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení.
přehled modelových rozložení
Rozložení	Parametry	Stručný popis
Beta	Parametry distribuční funkce: a - parametr tvaru (3 - parametr rozsahu hodnot	Pravděpodobnostní funkce pro proměnnou omezenou rozsahem do intervalu [0; 1]. Je matematicky komplikovanější, ale velmi flexibilní při popisu změn hodnot proměnné v ohraničeném intervalu.
Studentovo	Stupně volnosti - uvažuje velikost vzorku Průměr Rozptyl	Simuluje normální rozložení pro menší vzorky čísel. Pro větší soubory (n > 100) se limitně blíží k normálnímu rozložení.
Pearsonovo	Stupně volnosti - uvažuje velikost vzorku	Slouží především k porovnání četností jevů ve dvou a více kategoriích. Používá se k modelování rozložení odhadu rozptylu normálně rozložených dat.
Fisher-Snedecorovo	Dvojí stupně volnosti -uvažuje velikost dvou vzorků	Používá se k testování hodnot průměrů - F test pro porovnání dvou výběrových rozptylů; F test, ANOVAatd.
		
Lognormální rozdělení
• Asymetricky rozložená data - velmi častá v biologii (ale i jinde, např. platy)
• Spolu s normálním rozdělením nejčastější model
• S rozdělením je spjat geometrický průměr jako ukazatel středu
Density of Lnorm(1, 1)
o o
m o o
•; IMI 1   Institut biostatistiky a analýz, PřF a LF MU
iba W W W
Logaritmická transformace
• Geometrický průměr - antilogaritmus průměru logaritmovaných dat, je vhodný pro doleva asymetrická data (lognormální rozložení), která jsou v biologii velmi častá, jeho hodnota v podstatě odpovídá mediánu
• Takto asymetrická data je možné převést logaritmickou transformací na normální rozložení
log
u Průměr Medián, geometrický průměr
Průměr (logaritmovaných dat)
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Geometrický průměr
Y = Ln [X]
Medián Průměr x
EXP (Y) = Geometrický průměr X
Medián = Průměr
_ n v
«=i n
Y ± Standardní chyba
tím ŕÄ
|U| I   Institut biostatistiky a analýz, PřF a LF MU
y w w
Stupně volnosti
• Nezávislé jednotky informace
• Spjaty s počtem objektů, popřípadě skupin v datech
• Klesají s výpočtem každé souhrnné statistiky (=odečítáme od celkového počtu vzniklé závislé statistiky)
Studentovo rozdělení
• Pro reálnější popis reality než umožňuje normální rozdělení
• Stupně volnosti - ve vazbě na velikost vzorku
DensityofTd(1,0)
□ensity of Td(lO,0)
Densityof Td(100, 0)
Densityof Td(200, 0)
Densityof Td(1000, 0)
ir JKt.
iba
m m
IMI i
.MIK
William Sealy Gosset Publikace pod pseudonymem Student t rozdělení na základě experimentů s kvasinkám
Pearsonovo (Chi-kvadrát) rozdělení
• Pro data, která nemohou být principiálně nikdy záporná
• Tvar ovlivněn stupni volnosti
• Očekávané a pozorované počty, rozptyly
• Často v genetice
Density of Chisq(1, 0) Density of Chisq(4, 0)
Fisher-Snedecorovo rozdělení
• Pro data, která nemohou být principiálně nikdy záporná
• Typicky poměr dvou rozptylů - využití v řadě, zejména pokročilejších statistických testů
• Dva různé stupně volnosti
Densityof Fd(1,1,0)
Densityof Fd(100, 1,0)
Densityof Fd(1,100,0)
Densityof Fd(5,100, 0)
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Transformace dat - legitimní úprava rozložení
• Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu
• Logaritmická transformace
• Logaritmická transformace je velmi vhodná pro data s odlehlými hodnotami na horní hranici rozsahu. Při porovnání průměrů u více souborů dat je pro tuto transformaci indikující situace, kdy se s rostoucím průměrem mění proporcionálně i směrodatná odchylka, a tedy jednotlivé proměnné mají stejný koeficient variance, ačkoli mají různý průměr.
• Za takovéto situace přináší logaritmická transformace nejen zeslabení asymetrie původního rozložení, ale také vyšší homogenitu rozptylu proměnných. Pro transformaci se nejčastěji používá přirozený logaritmus a pokud jsou v původním souboru dat nulové hodnoty, je vhodné použít operaci Y = In (X+l).
• Je-li průměr logaritmovaných dat (tedy průměrný logaritmus) zpětně transformován do původních hodnot, výsledkem není aritmetický, ale geometrický průměr původních
dat.
Transformace dat - legitimní úprava rozložení
• Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu
* Odmocninová transformace
• Transformace je vhodná pro proměnné mající Poissonovo rozložení, tedy proměnné vyjadřující celkový počet nastání určitého jevu (spíše vzácného) v n nezávisle opakovaných pokusech. Obecněji lze tento typ transformace doporučit v případě normalizace dat typu počtu jedinců (buněk, apod.). Jde o transformaci:
• Transformace s přičtenou hodnotou 1 jsou efektivní, pokud X nabývá velmi malých nebo nulových hodnot. Situace indikující vhodnost odmocninové transformace je také proporcionalita výběrového rozptylu a průměru, tedy obecně jestliže s2x = k (výběrový průměr).
nebo
nebo
Transformace dat - legitimní úprava rozložení
• Základní typy transformací vedou k normalitě rozložení nebo k homogenitě rozptylu
• Arcsin transformace
• Tzv. úhlová transformace - velmi vhodná pro data typu podílů výskytu určitého jevu jznaku) mezi n hodnocenými jedinci - tedy pro data mající binomické rozložení. Pokud se určitý znak vyskytuje r-krát mezi n možnostmi (jedinci, opakováními), pak lze vyjádřit relativní četnost jeho výskytu jako p = r/n s variabilitou rj.jl-p)/n. Arcsin transformace odstraní ze souborů dat podíly blízké 0 nebo 1, a tak efektivně sníží variabilitu odhadů středu. Transformace však není schopná odstranit variabilitu vyvolanou rozdílným počtem opakování v jednotlivých variantách - v takovém případě lze doporučit provedení vážených transformací dat. Velmi častou formou této transformace je:
• - tedy transformace podílů do hodnot, jejichž sinus je roven druhé odmocnině původních hodnot. Pokud celkový počet jedinců (opakování), mezi kterými je výskyt znaku monitorován, je n < 50, pak lze doporučit velmi efektivní empirická opatření pro transformaci podílů blízkých 0 nebo 1. Pro tento případ lze nahrazovat nulové podíly hodnotou l/4n a 100 % podíly hodnotou (n-l/4)/n. Pokud se mezi hodnotami vyskytuje větší množství krajních hodnot (menší než 0,2 a větší než 0,8), lze doporučit transformaci:
Přednáška 5
Provádění odhadů
Bodové a intervalové odhady Význam intervalu spolehlivosti
iba *mf m W
Anotace
• Dva základní přístupy statistického hodnocení jsou popis dat a testování hypotéz.
• Při popisu dat je třeba si uvědomit, že popisné statistiky získané ze vzorku nejsou skutečnou hodnotou v cílové populaci, ale pouze jejím odhadem.
• Přesnost odhadu závisí jednak na variabilitě dat, jednak na velikosti vzorku, při vzorkování celé cílové populace by výsledná popisná statistika již byla přesnou hodnotou, nikoliv odhadem.
• Odhady a s nimi související intervaly spolehlivosti jsou univerzálním statistickým postupem a je možné je dopočítat k libovolné popisné statistice.
Práce s variabilitou v analýze dat
• V analýze dat existují tři hlavní přístupy k práci s variabilitou
Popisná analýza: popis variability
Odhady popisné statistiky
Bodový odhad popisné statistiky
• Výpočtem popisné statistiky vzorku získáme tzv. bodový odhad
ímu)
íHlfmfl
imrnmu)
Bodový odhad průměru, směrodatné odchylky
mm
mmi
mmmmmx)
...mmmmmmi. mmmmmimm) mmmmmummmi
Je to dostatečné?
0
Není, nezohledňujeme vliv náhody, která se uplatnila při vzorkování!!!
iba
Institut biostatistiky a analýz, PřF a LF MU
Intervalový odhad
• Bodový odhad je prvním krokem ve statistickém popisu dat.
• Co nám říká jedno číslo? Studie 1 může publikovat číslo xl, studie 2 číslo x2. Které je správnější, lepší, přesnější?
• Bodový odhad je sám o sobě nedostatečný pro popis parametru rozdělení pravděpodobnosti náhodné veličiny.
• Zajímá nás přesnost (spolehlivost) bodového odhadu.
Jaký je význam intervalového odhadu a jeho spolehlivosti?
• Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné
• Průměrná délka v populaci = 60, směrodatná odchylka = 10 (tyto hodnoty ve skutečnosti neznáme)
Populace: průměr = 60, směrodatná odchylka = 10					
					
					
					
					
					
					
					
					
0 20 40 60 80 100 120
Jedno vzorkování
• Je pouze nízká pravděpodobnost, že vzorek zcela přesně odpovídá sledované populaci
Dvě vzorkování
• Je pouze nízká pravděpodobnost, že vzorek zcela přesně odpovídá sledované populaci
Populace: průměr = 60, směrodatná odchylka = 10 Vzorek 1: průměr = 61.5, směrodatná odchylka = 10.1 Vzorek 2: průměr = 60.4, směrodatná odchylka = 9.3
20
40
60
80
100
120
\7
Jak by dopadlo další vzorkování?
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Sto vzorkování
• Je pouze nízká pravděpodobnost, že vzorek zcela přesně odpovídá sledované populaci
20
40
60
80
100
120
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Populace: průměr = 60, směrodatná odchylka = 10
Opakovaným vzorkováním jsme získali různé varianty bodového odhadu simulující jak by při dané velikosti vzorku dopadlo různé vzorkování populace.
Jak by dopadlo další vzorkování? Jsme schopni jej popsat z pohledu pravděpodobnosti = odhad při dalším vzorkování skončíš určitou pravděpodobností v určitém rozsahu hodnot?
nterval spolehlivosti odhadu
• Odhady průměru z jednotlivých vzorků vytváří rozložení odhadu průměrů
• Pokud známe rozložení jsme snadno určit rozsah, v němž leží zadané procento hodnot = pravděpodobnost s níž při vzorkování narazíme na odhad průměru v tomto rozmezí
• Nejběžněji se používá 95% rozsah = 95% interval spolehlivosti
• Jak jej spočítat?
iba _w
íflŕlľ S lili 1   Institut biostatistiky a analýz, PřF a LF MU
Rozložení dat v populaci (neznámé)
			X		
			\y Ro2	:ložení odh;	adů
			*\ prů	měrů ze 1C	0
			\ vzo	rků	
					
					
					
					
					
			v		
20
40
60
80
100
95%
Populace: průměr = 60, směrodatná odchylka = 10
Vzorky (N = 100): průměr = 59.9, směrodatná odchylka odhadů průměru= 0.93
???
120
Interval spolehlivosti odhadu
• Jak jej spočítat?
• Empiricky: 2,5% a 97,5% kvantil
• Dle modelového rozdělení:
• Odhady průměrů mají normální rozdělení
• Středních 95% hodnot ohraničuje průměr ± l,96*směrodatná odchylka
• Poznámka: popsaný způsob výpočtu intervalu spolehlivosti se používá pouze v počítačových simulacích, ne při reálném vzorkování (zde z výukových důvodů)
íflŕlľ S lili i   Institut biostatistiky a analýz, PřF a LF MU
Rozložení dat v populaci (neznámé)
			X		
			\y Ro2	:ložení odh;	adů
			*\ prů	měrů ze 1C	0
			\ vzo	rků	
					
					
					
					
					
			v		
20
40
60
80
100
120
95%
Populace: průměr = 60, směrodatná odchylka = 10 Vzorky (N = 100): průměr = 59.9, směrodatná odchylka odhadů průměru= 0.93
Střední chyba odhadu průměru (standard error, s.e., SE,Sx)
Pravděpodobnostní chování náhodné veličiny
• V klasických statistických výpočtech je interval spolehlivosti odvozen z jednoho vzorku na základě znalosti modelového rozdělení odhadů dané statistiky (např. průměru)
• Dvě charakteristiky odráží vlastnosti rozdělení jedním číslem: střední hodnota a rozptyl. Odmocnina z rozptylu je směrodatná odchylka (SD).
• Platí následující:
• Jednotlivé realizace náhodné veličiny vykazují variabilitu (dle SD).
• Jakákoliv statistika (např. průměr) je jako transformace náhodných veličin také náhodnou veličinou. Má tedy i rozdělení pravděpodobnosti.
• Jednotlivé realizace statistiky nad různými náhodnými výběry také vykazují variabilitu (opět úměrnou SD).
• S.E. - standard error - střední chyba odhadu
Příklad - výběrový průměr
• V případě průměru jsou jeho odhady popsatelné modelem normálního rozdělení
• Normální rozdělení je popsáno průměrem (vlastní odhad průměru) a směrodatnou odchylkou odhadů (pro odlišení od směrodatné odchylky vzorku se v tomto případě nazývá střední chyba odhadu průměru)
SDaSE
• Směrodatná odchylka (SD) není směrodatná chyba popisné statistiky (SE)!
• Směrodatná odchylka (SD) je odrazem variability náhodné veličiny ve sledované populaci.
• Směrodatná chyba (SE) je odrazem přesnosti popisné statistiky jako odhadu střední hodnoty náhodné veličiny.
• Pozor na rozdíl mezi SD a SE v článcích a knihách - tabulkách a grafech!
• Na čem závisí velikost SE (a tedy i šířka intervalu spolehlivosti?)
SDaSE
• Směrodatná odchylka (SD) není směrodatná chyba popisné statistiky (SE)!
• Směrodatná odchylka (SD) je odrazem variability náhodné veličiny ve sledované populaci.
• Směrodatná chyba (SE) je odrazem přesnosti popisné statistiky jako odhadu střední hodnoty náhodné veličiny.
• Pozor na rozdíl mezi SD a SE v článcích a knihách - tabulkách a grafech!
• Na čem závisí velikost SE (a tedy i šířka intervalu spolehlivosti?)
• Na velikosti vzorku
• Variabilitě (směrodatné odchylce) hodnocené proměnné v populaci
• SD populace je daná realitou, ale velikost vzorku je v našich rukou = změnou velikosti vzorku můžeme měnit šíři intervalu spolehlivosti !!!!
Příklad - interval spolehlivosti při různých velikostech vzorku
• Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné - zkoušíme různé velikosti vzorku
• Průměrná délka v populaci = 60, směrodatná odchylka = 10 (tyto hodnoty ve skutečnosti neznáme)
n = 10 n = 100 n = 1000
		/	fí\		
			\		
			\		
			\		
			\		
			\		
			\		
			\		
					
		J	v	v	
20 40 60 80 100 120 0
20 40 60 80 100 120 0
20 40 60 80 1C
■ MU tfSbi
í¥$Y i 'ííf!' > llll 1   Institut biostatistiky a analýz, PřF a LF MU
iba M° ^ W
Příklad - interval spolehlivosti při různých velikostech vzorku
• Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné - zkoušíme různé velikosti vzorku
• Průměrná délka v populaci = 60, směrodatná odchylka = 10 (tyto hodnoty ve skutečnosti neznáme)
n = 10 n = 100 n = 1000
		/	fí\		
			\		
			\		
			\		
			\		
			\		
			\		
			\		
					
		Ĺ	—V	v	
120 0
0 20 40 60 80 100
95% IS = 53,8 - 66,2
í¥$Y i 'ííf!' > Ml 1   Institut biostatistiky a analýz, PřF a LF MU
iba M° ^ W
20
40
60
80
100
120
20
40
60
80
100
120
95% IS = 58,0 - 62,0
95% IS = 59,4 - 60,6
Obecný vzorec výpočtu intervalu spolehlivosti
• Interval spolehlivosti lze spočítat pro odhad jakékoliv popisné statistiky (průměr, směrodatná odchylka, procento, korelační koeficient, regresní koeficient, odds ratio atd.)
• Pro danou popisnou statistiku musíme znát odpovídající modelové rozdělení jejího odhadu
• Obecná rovnice pro výpočet hranic intervalu spolehlivosti (v některých případech může být složitější-asymetrické intervaly spolehlivosti, různá rovnice pro dolní a horní hranici):
Bodový odhad ± kvantil modelového rozdělení * střední chyba odhadu
í
Např. průměr vzorku
V případě průměru a 95% intervalu spolehlivosti to je 2.5% a 97.5% kvantil normálního rozdělení = ± 1.96
V případě průměru je vypočtena jako:
5
VAŽ
Výpočet odhadu průměru
Bodový odhad průměru daného vzorku x
• Střední chyba odhadu průměru
VŤv
• Interval spolehlivosti
2 VŤv
... ř 4- fv=N~1_
U. X x C-1 _ai i—
1   /2 VŤV
/i: X + t"_a^Sx
t - Studentovo rozdělení (používáno namísto normálního při malé velikosti vzorku)
v - stupně volnosti, zde počítány jako N-l
Co je ? t^ay,
v=N-l 2
Kvantil modelového rozdělení, a znamená zastoupení případů, které do intervalu nechceme zahrnout, zde pro 95% interval spolehlivosti je a = 5%, hledáme tedy 97.5% kvantil studentova rozdělení
imiI   Institut biostatistiky a analýz, PřF a LF MU
iba Xg? ^
Statistické tabulky t-rozdělení
• Na rozdíl od tabulek normálního rozdělení musíme zohlednit i stupně volnosti
• Z tohoto důvodu je tabulka konstruována jen pro vybrané hodnoty pravděpodobnosti
William Sealy Gosset Publikace pod pseudonymem Student t rozdělení na základě experimentů s kvasinkami
iba
|   Institut biostatistiky a analýz, PřF a LF MU
Hledáme hodnotu t (= kvantil rozdělení) pro danou plochu (pravděpodobnost) a stupně volnosti
		l
		'(P.df)
(plocha pod křivkou), nejběžněji 0.025 (2*0.025=0.05)
df\p	0.40	0.25	0.10	0.05	0.025	0.01	0.005	0.0005
1	0.324920	1.000000	3.077684	6.313752	12.70620	31.H2052	63.65674	636.6192
2	0.288675	0.Í16497	1.885013	2.919986	4.30265	6.96456	9.92484	31.5991
3	0.276671	0.764892	1.637744	2.353363	3.18245	4.54O70	5.84091	12.9240
4	0.270722	0.740697	1.533206	2.131847	2.77645	3.74695	4.60409	8.6103
5	0.267181	0.726687	1.475884	2.015048	2.57058	3.36493	4.03214	6.8688
								
6	0.264835	0.717558	1.439756	1.943180	2.44691	3.14267	3.70743	5.9588
7	0.263167	0.711142	1.414924	1 .«94579	2.36462	2.99795	3.49948	5.4079
8	0.261921	0.706387	1.396815	1 .B59548	2.30600	2.89Ó4r:	3.35539	5.0^13
9	0.260955	0.702722	1.3B3029	1.833113	2.26216	2.82144	3.24984	4.7809
10	0.260185	0.699812	1.372184	1.812461	2.22814	2.76377	3.16927	4.5869
								
Stupně volnosti
Odhad průměru a jeho intervalu spolehlivosti - příklad 1
• Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné
• Vzorek: N = 10, průměr (bodový odhad) 61,5, směrodatná odchylka 10,1
• Jaký je 95% interval spolehlivosti?
• Střední chyba odhadu   s% —
10,1
= 3,207
Važ VTÖ
• Kvantil modelového rozdělení pro oc=0,05 (1-0,95)
rv=N-l _ rv = 10-l _ r9 _~> -,(--> h-a/2    - ri-°'05/2 — r0,975-Z'ZbZ
95% interval spolehlivosti - výpočet
N-l J_
V2 VN
fi\x± t^ZÜr1 -j= = 61,5 + 2,262 * 3,207=61,5 +7,256
95% interval spolehlivosti - výsledek 61,5 (54,2 - 68,7)
t table with right tail probabilities
df\p	0.40	0.25	0.10	0.05	0.025	10.01	0.005	0.0005
I						I	I	I
	0.260955	0.702722	1.383029	1.B 33113	2.26216 I	I2.B2144	3.24984	4.780;
Při opakovaném vzorkování o N=10 bude odhad průměru s pravděpodobností 0,95 ležet v rozsahu (54,2 - 68,7)
iui I   Institut biostatistiky a analýz, PřF a LF MU
iba Xg? ^
Odhad průměru a jeho intervalu spolehlivosti - příklad 2
• Provádíme vzorkování populace živočichů a chceme odhadnout průměrnou hodnotu sledované proměnné
• Vzorek: N = 100, průměr (bodový odhad) 61,5, směrodatná odchylka 10,1
• Jaký je 95% interval spolehlivosti?
• Střední chyba odhadu   s% —
10,1
= 1,014
Važ VTöö
• Kvantil modelového rozdělení pro oc=0,05 (1-0,95)
tv=N-l _ ,u = 100-l _ ,99    _1 Q(-n
h-a/2  — z1-o,os^  — t0 975-i,yt>u
95% interval spolehlivosti - výpočet
N-l J_
V2 VÄŤ
fi\x± t^ZÜr1 -j= = 61,5 + 1,960 * 1,014=61,5 +1,988
95% interval spolehlivosti - výsledek 61,5 (59,5 - 63,5)
t table with right tail probabilities
df\p	0.40	0.25	0.10	0.05	0.025	0.01	0.005	0.0005
	1            n 1		1             II 1				1 n	
1 inf	0.253347	0.674490	1.281552	1.644854 1	1.95996	2.32635	2.57583	3.2905
Při opakovaném vzorkování o N=100 bude odhad průměru s pravděpodobností 0,95 ležet v rozsahu (59,5 - 63,5)
|U| I   Institut biostatistiky a analýz, PřF a LF MU
iba      x&sr w
Interval spolehlivosti pro odhad rozptylu
Příklad asymetrického intervalu spolehlivosti; modelovým rozdělením je Pearsonovo (chi-kvadrát rozdělení)
Pro rozptyl
(JV - l)s:
,v=N-l
< az <
(JV - l)s'
,v=N-l
X a/2 x l-a/2
Pro směrodatnou odchylku
(N - l)s'<
>v=N-l 'a/2
< O <
(N - l)s:
>v=N-l
l-a/2
• Pro střední chybu odhadu průměru
(N - l)s:
>v=N-l — 'a/2
a
< — <
VAŽ
(N - l)s:
v=N-l
NX\-a/2
Density of Chisq(4, 0)
i
Institut biostatistiky a analýz, PřF a LF MU
Koncept intervalu spolehlivosti a jeho interpretace: shrnutí
• Při výpočtu odhadu popisné statistiky nás zajímá nejenom její vlastní hodnota (bodový odhad) ale také její rozsah spolehlivosti
• Interval spolehlivosti lze spočítat pro jakoukoliv statistiku (průměr, směrodatná odchylka, korelace, procentuální zastoupení apod.)
• Interval spolehlivosti poskytuje vodítko jak „spolehlivé" jsou naše výsledky a s jakou pravděpodobností jich je možné opakovaně dosáhnout
• 95% interval spolehlivosti je rozsah hodnot do nějž se při opakování studie trefíme s 95% pravděpodobností
• Tvrzení, že v rozsahu 95% intervalu spolehlivosti leží s 95% pravděpodobností skutečný průměr populace není pravdivé, skutečný průměr populace neznáme !!!
Průměr (odhadovaný parametr)
• Interval spolehlivosti závisí na:
• Velikosti vzorku
• Variabilitě dat
• Požadované spolehlivosti
Rozložení odhadu pro N=10
Rozložení odhadu pro N=100
Poznámka k intervalu spolehlivosti
• Interval spolehlivosti počítá pouze s variabilitou danou náhodným výběrem, nepočítá se zdroji systematického zkreslení.
• Měření koncentrace polutantu nebo krevního tlaku může být systematicky zkresleno starým měřidlem („technical bias").
• Měření koncentrace polutantu může být systematicky zkresleno výběrem pouze čistých nebo pouze kontaminovaných lokalit („selection bias")
• Měření krevního tlaku může být systematicky zkresleno tím, že se do studie přihlásí pouze určitá skupina osob („selection bias")
• Příklady:
Základy testování hypot
Princip statistického testování hypotéz Testová statistika a statistická významnost Chyby statistického testování
iba -AsA/ -k'í4s w*/
'tw^ ^«A«*
Anotace
• Testování hypotéz je po popisné statistice druhým hlavním směrem statistických analýz. Při testování pokládáme hypotézy, které se snažíme s určitou pravděpodobností potvrdit nebo vyvrátit.
• Tzv. nulovou hypotézu lze nejlépe popsat jako situaci, kdy předpokládáme vliv náhody (rozdíl mezi skupinami je pouhá náhoda, vztah dvou proměnných je pouhá náhoda apod.), alternativní hypotéza předpokládá vliv nenáhodného faktoru.
• Výsledkem statistického testu je v zásadě pravděpodobnost nakolik je hodnocený jev náhodný nebo ne, při překročení určité hranice (nejčastěji méně než 5% pravděpodobnost, že jev je pouhá náhoda) deklarujeme, že pravděpodobnost náhody je pro nás dostatečně nízká abychom jev prohlásili za nenáhodný
• Statistická významnost je ovlivnitelná velikostí vzorku a tak je pouze indicií k prohlášení např. rozdílu dvou skupin pacientů za skutečně významný. V ideální situaci je nezbytné aby rozdíl byl významný nejenom statisticky (=nenáhodný), ale i prakticky (=nejde pouze o artefakt velikosti vzorku).
Statistické testování neznamená průkaz kauzality !!!!
• Výsledek statistického testování neznamená kauzální prokázání nebo neprokázání vztahu, jde pouze o indicii k našemu rozhodování.
Práce s variabilitou v analýze dat
V analýze dat existují tři hlavní přístupy k práci s variabilitou
Popisná analýza: popis variability
o
A
A
Variabilita dat
iba
mm
í llil I   Institut biostatistiky a analýz, PřF a LF MU
Testování hypotéz: vysvětlení variability
A
illl
Stochastické modelování: predikce chování systému í A
Statistické testy
Princip testování hypotéz
• Formulace hypotézy
• Výběr cílové populace a z ní reprezentativního vzorku
• Měření sledovaných parametrů
• Použití odpovídajícího testu wMMwmmy závěr testu
• Interpretace výsledků
Cílová populace
Závěr ? Interpretace
Testy hypotéz
Vzorek
Reprezentativnost ?
Měření parametru
I   Institut biostatistiky a analýz, PřF a LF MU
Stanovení hypotézy
• Nulová hypotéza („null hypothesis") - tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny (znaku, vlastnosti) týkající se cílové populace.
• Nulová hypotéza má tvar: H0:6 = 60
• Nulová hypotéza obecně říká, že rozdíl není, popřípadě, že rozdíl je tak malý, že jej můžeme považovat za náhodný -> základní otázkou testování tak je „jak definovat co je pro nás „dostatečně" náhodné?"
• Alternativní hypotéza - tvrzení o neznámých vlastnostech rozdělení pravděpodobnosti sledované náhodné veličiny, které popírá platnost nulové hypotézy. Vymezuje, jaká situace nastává, když nulová hypotéza neplatí.
• Alternativní hypotéza má tvar: H1:0^0O
Hľ:0<0o H,:0>0n
Příklady hypotézy
• Liší se lokality poblíž lidských sídel od lokalit v chráněných rezervacích co do míry znečistení?
Míra znečištění na lokalitách poblíž sídel:   9X H0\6l = 62
Míra znečištění na lokalitách v rezervacích: o2 Hl\6l^e2
• Je efekt snížení systolického tlaku novým antihypertenzivem stejný u hypertoniků, kteří kouří, jako u hypertoniků, kteří nekouří?
Střední hodnota efektu u kuřáků:
Střední hodnota efektu u nekuřáků:
6 2 Hx \6X <02
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Proč nulová hypotéza vyjadřuje nepřítomnost efektu?
• Nulová hypotéza odráží fakt, že se něco nestalo nebo neprojevilo -> je stanovena obvykle jako opak toho, co chceme experimentem prokázat.
• Nulová hypotéza je postavena tak, abychom ji mohli pomocí pozorovaných hodnot vyvrátit.
• Pro zamítnutí platnosti nulové hypotézy nám totiž stačí najít jeden příklad, kdy nulová hypotéza neplatí-tím příkladem má být náš náhodný výběr (naše pozorovaná data).
• Zamítnout nulovou hypotézu je jednodušší než nulovou hypotézu potvrdit.
Testování hypotéz
• Testování hypotéz se zabývá rozhodováním o platnosti stanovených hypotéz na základě pozorovaných dat.
• Platnost hypotéz ověřujeme pomocí statistického testu - rozhodovacího pravidla, které každému náhodnému výběru přiřadí právě jedno ze dvou možných rozhodnutí -Hn nezamítáme nebo Hn zamítáme.
Statistický test
• Testování hypotéz probíhá na základě dat.
• Testované hypotéze odpovídá statistický test, respektive testová statistika, která umožní ověřit platnost nulové hypotézy.
• Testová statistika je vzorec vycházející z pozorovaných dat s rozdělením pravděpodobnosti, sama tedy má také rozdělení pravděpodobnosti. Rozdělení pravděpodobnosti testové statistiky za platnosti HO se označuje jako „null distribution".
Postup statistického testování
• Formulujeme nulovou hypotézu H0 (sledovaný efekt je nulový)
• Formulujeme alternativní hypotézu HA(sledovaný efekt je různý mezi skupinami) Alternativní hypotéza u parametrických testů může být oboustranná nebo jednostranná.
• Hypotéza musí být stanovena tak abychom mohli vybrat a spočítat tzv. testovou statistiku (např. hypotéza o průměrech bude pravděpodobně řešena pomocí t-testu, jehož testová statistika má t rozdělení)
• Hodnotu testové statistiky vypočítáme na základě pozorovaných hodnot
• Vypočtenou testovou statistiku porovnáme s jejím rozdělením (= rozdělení náhodných rozdílů), posoudíme náhodnost rozdílu a vyslovíme závěr o zamítnutí / nezamítnutí H0
Na čem závisí hodnota testové statistiky?
Máme dvě skupiny hodnot, každá je popsána svojí velikostí, průměrem a směrodatnou odchylkou - co ovlivňuje významnost rozdílu jejich průměrů?
Rozdíl = 10,6
N = 100 Průměr = 59,4 SD = 9,4
						
						
						
						
						
						
						
						
						
						
0                       20 40			0	80 K		)0 i:
N = 100 Průměr = 70,0 SD = 10,5
iba _w
íflŕlľ S lili 1   Institut biostatistiky a analýz, PřF a LF MU
Na čem závisí hodnota testové statistiky?
Máme dvě skupiny hodnot, každá je popsána svojí velikostí, průměrem a směrodatnou odchylkou ovlivňuje významnost rozdílu jejich průměrů?
Rozdíl = 10,6
- co
N = 100 Průměr = 59,4 SD = 9,4
						
						
						
						
						
						
						
						
						
						
0                       20 40			0	80              íoo i:		
N = 100 Průměr = 70,0 SD = 10,5
• Na velikosti vzorku (větší vzorek = větší významnost) a směrodatné odchylce (větší variabilita významnost) - ovlivňují spolehlivost s jakou odhadujeme srovnávané průměry
• Na velikosti rozdílu mezi srovnávanými průměry (větší rozdíl = větší významnost)
= menši
tf»>s   ájfĚfk ísCSr.
® ^® yi^
ff |rv; | IUI |   Institut biostatistiky a analýz, PřF a LF MU
Testová statistika
• Testová statistika kombinuje velikost rozdílu s dalšími charakteristikami dat (velikost vzorku, variabilita atd.), jde vlastně o rozdíl vážený dalšími charakteristikami
• Hodnota testové statistiky je ve vazbě na významnost rozdílu
• Pro finální rozhodnutí o významnosti rozdílu je nezbytné testovou statistiku porovnat s jejím rozdělením náhodných rozdílů (= jaké by bylo rozdělení této statistiky, kdyby byl rozdíl náhodný)
Rozdíl = 10,6 h*—H
N = 100 Průměr = 59,4 SD = 9,4
N = 100 Průměr = 70,0 SD = 10,5
120
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
Dva způsoby získání rozdělení testové statistiky
• Testová statistika představuje rozdělení náhodných rozdílů, lze ji získat dvěma způsoby
• Aproximací na modelové rozdělení
• „standardní" postup, výhodou je snadný výpočet, citlivé na nedodržení předpokladů o rozložení dat
• Různé testy mají své rozdělení náhodných rozdílů popsány různými mdolovými rozděleními (např. t-test pomocí t-rozdělení, test dobré shody pomoci Pearsonova (chi-kvadrát rozdělení)
• Permutační metody
• Rozdělení náhodných rozdílů je získáno pomocí počítačové simulace buďvšech možných nebo zadaného počtu náhodných situací
• Vhodné pro malé velikosti vzorku nebo situace, kdy není možná aproximace na modelová rozdělení
• Náročné na výpočetní výkon (v současnosti stále menší problém)
• Výukově názorné
Způsoby testování
• Testování HO proti HA na hladině významnosti a můžeme provést třemi různými způsoby:
1. Kritický obor (označení W) neboli obor zamítnutí HO,
2. Interval spolehlivosti,
3. P-hodnota.
ä*J»ľ\ /í?'5\
'<nTi^        "«»»>»** *ZuuS&
Institut biostatistiky a analýz, PřF a LF MU
Příklad: permutačnítestování
Hodnotíme velikost dvou druhů žab, od každého druhu jsme vzorkovali 100 jedinců.
Příklad: permutační testování
Hodnotíme velikost dvou druhů žab, od každého druhu jsme vzorkovali 100 jedinců.
N=100
N=100
N=100
Náhodné promíchání
N=100
o-o-o-
M
O Cd
Jaký je nejpravděpodobnější rozdíl mezi skupinami po náhodném promíchání?
iba
Institut biostatistiky a analýz, PřF a LF MU
Příklad: permutačnítestování
Hodnotíme velikost dvou druhů žab, od každého druhu jsme vzorkovali 100 jedinců.
Výsledky při různém počtu permutací
• Se zvyšujícím počtem permutací pozorujeme vytváření rozdělení náhodných rozdílů
N = 10 N = 100 N = 1000
Náhodné rozdíly vs. pozorovaný rozdí
Náhodné rozdíly
MU   ŕ*jg£N    ^íŕ*^,x ^iie&s\, M_      #VlV^ ^iŕ^A Í\ii\ |   Institut biostatistiky a analýz, PřF a LF MU
IM ^ tj# ~^§J
Rozložení náhodných rozdílů a jeho využití pro testování
• Stanovíme si kritický obor testové statistiky = s jakou pravděpodobností náhodného vzniku pozorovaného rozdílu jsme schopni se smířit při zamítnutí nulové hypotézy (tedy prohlášení, že rozdíl nepovažujeme za náhodný)
• Nejběžněji se používá kritický obor testové statistiky vedoucí k pravděpodobnosti náhodného rozdílu 0.05 nebo 0.01 (tzv. hladina statistické významnosti, nejde o přírodní zákon, pouze o domluvu)
• Náš skutečný rozdíl porovnáme s rozložením náhodných rozdílů a stanoveným kritickým oborem této statistiky
• Pokud skutečný rozdíl leží v kritickém oboru, říkáme, že na dané hladině významnosti zamítáme nulovou hypotézu
• Pro danou hodnotu testové statistiky jsme schopni určit i přesnou pravděpodobnost s jakou existují náhodné rozdíly větší než je náš pozorovaný rozdíl = pravděpodobnost, že námi pozorovaný rozdíl je pouhá náhoda
Statistická významnost pozorovaného rozdílu
N=100
• Jako hladinu statistické významnosti budeme uvažovat 0.05 (5%)
N=100
O
2 c>
T3
N O
GC.
iba
Kritický obor (spodních 2,5% případů = 25 nejextrémnějších permutací)
N = 1000
Kritický obor (horních 2,5% případů = 25 nejextrémnějších permutací)
Skutečný rozdíl = 10,6
O   LD   O   LD   O   LD   O   LD   O   LD   O   LD   O   LD   O   LD   O   LD   O   LD   O LH
L/i ^ ^ rn rn <n (n r-T r-T   ^   ,^   ,^ r-T r-T (n (n rn rn <t <t in A
,', !     ^ r-\
"IDHIXIHIXIHIDHID í-H (N   (N   rn rn
v cn <^r cn <^r cn <^r cn <^r ^ ^ rn rn  <N (N r-T rH
Náhodné rozdíly
Institut biostatistiky a analýz, PřF a LF MU
Skutečný rozdíl leží v kritickém oboru testové statistiky = zamítáme nulovou hypotézu o shodě průměru obou skupin
Existuje pouze jeden náhodný rozdíl vzniklý permutacemi větší než je skutečný rozdíl = pravděpodobnost, že pouhou náhodou existuje větší rozdíl než je námi pozorovaný je 1/1000 = 0,001 = statistická významnost námi pozorovaného rozdílu je p=0,001.
Léčba
Co znamená náhodný rozdíl? Shrnutí.
f
i i i
h-
Placebo
Ä VČÄJS,.
i
I I
i i
t f
i i i i i
Je tu rozdíl?
Jak by vypadal rozdíl, kdyby byl náhodný?
Nasimulujme si ho !!! ©
X-
»1 í
iba w w
1
I   Institut biostatistiky a analýz, PřF a LF MU
i i
if
I i
Mnohokrát
"O
N O
X-
I
i
I
t
i i
I,
i
X!
"O
N O
Rozložení možných náhodných rozdílů
i—i—r
1b
íí í
Rozdíl ?
Kde leží skutečný rozdíl?
Jak moc je pravděpodobné, že je náhodný?
Zamítnutí/ nezamítnutí nulové hypotézy
• Hodnotu testové statistiky srovnáme s kvantilem (kritickou hodnotou) jejího rozdělení odpovídajícím zvolené hladině významnosti testu a.
• Představuje-li pozorovaná hodnota testové statistiky extrémnější (méně pravděpodobnou) hodnotu v rámci rozdělení odpovídajícího nulové hypotéze než je kritická hodnota (kvantil) odpovídající zvolenému riziku a, pak nulovou hypotézu zamítáme.
Zamítnutí/ nezamítnutí nulové hypotézy
Oboustranný test při a = 0,05
Ho:0l= 02   H1:01^ 02
Padne-li testová statistika sem - zamítáme Hn
Padne-li testová statistika sem - nezamítáme Hn
Padne-li testová statistika sem - zamítáme Hn
Rozdělení náhodných rozdílů:
- Buď příslušné modelové rozdělení
- Nebo výsledek simulace
Zamítnutí nulové hypotézy:
• Naše testová statistika spadá do kritického oboru
• Odvozená přesná hodnota p je menší než s kritickým oborem spjaté p
iba _w
|   Institut biostatistiky a analýz, PřF a LF MU
Testování pomocí intervalů spolehlivosti
NEW TR EATM EM T BETTER
Superior i-H-1
Noníriferior
'—m—
Inconclusive -H—
NEW TREATMENT WORSE-
Noninferior H-'
Noninferior?''
i—m—i
Inconclusive -Q-
Inconclusive?1"
-01
Inferior
—H—
o
Treatment Difference for Adverse Outcome (New Treatment Minus Reference Treatment)
• Principem testování pomocí intervalů spolehlivosti je výpočet intervalu spolehlivosti pro daný rozdíl nebo míru vztahu proměnných a porovnání s referenční hodnotou (např. 0 v případě rozdílu).
• Pokud interval neobsahuje tuto referenční hodnotu, jde o ekvivalent prokázání statistické významnosti rozdílu na dané hladině významnosti (95% interval spolehlivosti je ekvivalentní hladině významnosti 0.05)
Source: Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ; CONSORT Group. Reporting of noninferiority and equivalence randomized trials: an extension of the CONSORT statement. JAMA. 2006 Mar 8;295(10):1152-60.
Statistics and Informatics Services Group, Department of Reproductive Health and Research, World Health Organization, Geneva.
iba
I   Institut biostatistiky a analýz, PřF a LF MU
Možné chyby při testování hypotéz
/Ä\ /pEs
iba SgSŕ
Co se při rozhodování může stát
• Vzhledem k nulové hypotéz máme čtyři možnosti výsledku rozhodovacího procesu
Rozhodnutí	Skutečnost	
	H0 platí	H0 neplatí
H0 nezamítneme	správné přijetí platné nulové hypotézy	chyba II. druhu
H0 zamítneme	chyba 1. druhu	správné zamítnutí neplatné nulové hypotézy
• Při rozhodování se můžeme mýlit, můžeme se dopustit dvou chybných úsudků.
f
Institut biostatistiky a analýz, PřF a LF MU
Analogie se soudním procesem
• Ctíme presumpci neviny = předpokládáme, že nulová hypotéza platí.
• Požadujeme důkaz pro prokázání viny = na základě dat chceme ukázat, že nulová hypotéza neplatí.
• Když nám bude stačit málo důkazů, zvýší se procento odsouzených nevinných = chyba I. druhu, ale zároveň se zvýší i procento odsouzených , kteří jsou skutečně vinni = správné zamítnutí neplatné nulové hypotézy.
• Když budeme požadovat hodně důkazů, zvýší se procento nevinných, kteří budou osvobozeni = správné přijetí platné nulové hypotézy, ale zároveň se zvýší i procento vinných, kteří budou osvobozeni = chyba II. druhu.
Pravděpodobnost výsledků rozhodovacího procesu
Rozhodnutí	Skutečnost	
	HQ platí	HQ neplatí
HQ nezamítneme	správné rozhodnutí P = 1-a	chyba II. druhu P=6
H0 zamítneme	chyba 1. druhu P = a	správné rozhodnutí P=l-6
• Jak je vidět z analogie se soudním procesem, nelze zároveň minimalizovat a i (3. V praxi je nutné více hlídat a -> předem stanovíme maximální hranici pro a (hladina významnosti testu, „level of significance") a za této podmínky minimalizujeme (3.
f
Institut biostatistiky a analýz, PřF a LF MU
Co znamená „padnutí testové statistiky
• Je-li hodnota testové statistiky větší než kvantil příslušný riziku a, pak mohly nastat dvě situace:
1. buď HO platí a my jsme pozorovali málo pravděpodobný jev
2. nebo HO neplatí
• My pracujeme s rizikem a, tedy málo pravděpodobné jevy jsou součástí našeho rizika, proto v tomto případě volíme možnost 2 a zamítáme HO.
i
Institut biostatistiky a analýz, PřF a LF MU
Chyby statistického testu jako důsledek našeho rozhodnutí
• Samotná statistická významnost znamená pouze pravděpodobnost toho, že námi pozorovaný rozdíl nebo vztah proměnných je daný pouhou náhodou
• V okamžiku, kdy na základě této pravděpodobnosti provedeme rozhodnutí o neplatnosti nulové hypotézy, smiřujeme se s pravděpodobností (odpovídající dané statistické významnosti), že toto rozhodnutí je chybné a ve skutečnosti nulová hypotéza platí (rozdíl je daný pouhou náhodou)
• Každé naše rozhodnutí o zamítnutí nulové hypotézy v sobě skrývá hada chyby I. druhu
iba _w
I   Institut biostatistiky a analýz, PřF a LF MU
P-hodnota
• P-hodnota vyjadřuje pravděpodobnost za platnosti H0, s níž bychom získali stejnou nebo extrémnější hodnotu testové statistiky (samozřejmě vzhledem k jednostrannosti nebo oboustrannosti testu).
• Platí tedy, že čím nižší p-hodnota testu je, tím menší nám tento test indikuje pravděpodobnost, že platí nulová hypotéza. Jinak řečeno, vyjde-li nám při vyhodnocení statistického testu p-hodnota „blízká nule" (standardně jsou opět přijímány dvě hranice: 5 % a 1 %), znamená to, že naše nulová hypotéza má velmi malou oporu v pozorovaných datech a můžeme ji zamítnout.
P-hodnota
• Výslednou p-hodnotu tedy srovnáme se zvolenou hladinou významnosti a s tím, že nulová hypotéza je zamítána ve chvíli, kdy p-hodnota testu klesne pod tuto hladinu.
• Dá se tedy říci, že ve chvíli, kdy riziko falešně pozitivního výsledku v souvislosti se zamítnutím nulové hypotézy klesne pod vybranou hladinu (např. 5 % nebo 1 %), pak ji
• P-hodnotu lze chápat jako číselný indikátor platnosti nebo neplatnosti nulové hypotézy vyjádřený na pravděpodobnostní škále. A jako každý indikátor, může i p-hodnota indikovat špatný výsledek, neboť si stále musíme uvědomovat, že nám hrozí jak chyba I. druhu, tak chyba II. druhu.
zamítáme.
Síla testu
• Pravděpodobnost chyby II. druhu značíme (3.
• 1 - P se nazývá síla testu a vyjadřuje pravděpodobnost, že zamítneme H0 ve chvíli, kdy HO opravdu neplatí.
• Snažíme se sílu testu optimalizovat při zachování hladiny významnosti testu a -> princip výpočtu velikosti experimentálního vzorku před provedením studie
• Optimalizovat sílu testu a velikost vzorku předem není triviální, můžeme narazit na spoustu problémů - biologické limity, etické limity, finanční limity.
Faktory ovlivňující sílu testu
• Velikost vzorku: čím více pozorování (informace o platnosti nulové hypotézy), tím větší má test sílu. Stejně jako u intervalů spolehlivosti, síla testu roste s odmocninou z n.
• Velikost efektu (účinku): velikost rozdílu v neznámých parametrech také ovlivňuje sílu testu. Vždy je jednodušší identifikovat jako významný velký efekt, např. velký rozdíl ve středních hodnotách objemu prostaty dvou populací. Naopak je těžší prokázat jako významný menší efekt (menší rozdíl).
• Variabilita dat: variabilita dat zvyšuje variabilitu odhadů a ztěžuje tak rozhodnutí o H0. Čím více jsou pozorované hodnoty variabilní, tím více dat bude potřeba pro přesný odhad velikosti účinku (rozdílu).
• Hladina významnosti: snížíme-li hladinu významnosti testu (např. zvolíme 0,01 místo 0,05), bude obtížnější H0 zamítnout -> sníží se síla testu.