Vícerozměrné statistické metody
Smysl a cíle vícerozměrné analýzy dat a modelování, vztah jednorozměrných a vícerozměrných
statistických metod
Jiří Jarkovský, Simona Littnerová

Vícerozměrné statistické metody
Smysl a cíle vícerozměrné analýzy dat


logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Význam a cíle vícerozměrné analýzy dat
•většina dat pořízených při výzkumu jsou data vícerozměrná – chceme zjistit celou řadu vlastností
daných subjektů či objektů
3
ID
Pohlaví
Věk
Váha
MMSE skóre
Objem
hipokampu
…
1
muž
84
85,5
29
7030
2
žena
25
62,0
28
6984
…
PROMĚNNÉ (VLASTNOSTI)
•zpravidla nestačí analyzovat každou proměnnou zvlášť – pro úplně pochopení vztahů většinou potřeba
analyzovat proměnné současně
→ použití  VÍCEROZMĚRNÝCH  METOD

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
•vícerozměrné metody umožňují:
–znázornit a popsat vícerozměrná data
–zjišťovat vztahy mezi jednotlivými proměnnými a mezi subjekty (resp. objekty)
4
Význam a cíle vícerozměrné analýzy dat II
•mnoho způsobů dělení vícerozměrných metod do skupin – např. dělení podle cíle, kterého chceme
vícerozměrnou analýzou dosáhnout:
1. Testování hypotéz o vícerozměrných datech
2. Vytvoření shluků subjektů, objektů nebo proměnných
3. Redukce vícerozměrných dat
4. Klasifikace subjektů či objektů
5. Predikce spojitých hodnot

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
•Příklady:
•ověření, zda má vliv pohlaví a typ léku na počet uzdravených pacientů s daným onemocněním
•výzkum vztahu typu onemocnění na objem hipokampu,  amygdaly a mozkových komor
•zjištění, zda je rozdílná spotřeba elektrické energie ve městech a na vesnicích během týdne a o
víkendu
•
5
Cíle vícerozměrné analýzy dat
1. Testování hypotéz o vícerozměrných datech

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
•Příklady:
•vytvoření skupin diagnóz onemocnění s podobnými léčebnými náklady
•vytvoření skupin lokalit podle výskytu určitých druhů rostlin a živočichů
•vytvoření skupin genů a subjektů na základě dat genové exprese
•vytvoření skupin subjektů se schizofrenií podle kognitivních skóre a neurologických parametrů
•
6
Cíle vícerozměrné analýzy dat
2. Vytvoření shluků subjektů, objektů nebo proměnných

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Cíle vícerozměrné analýzy dat
3. Redukce vícerozměrných dat
•Příklady:
•vytvoření souhrnného skóre odpovědi pacientů na radioterapii z původních několika proměnných
•vytvoření menšího počtu nových proměnných z původních dat, které nám umožní znázornit vícerozměrná
data ve 2-D či 3-D grafech
•výběr oblastí mozku, které nejvíce odlišují pacienty s neuropsychiatrickým onemocněním od zdravých
subjektů
7
Výřez obrazovky

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Cíle vícerozměrné analýzy dat
4. Klasifikace subjektů či objektů
•Příklady:
•zjištění (diagnostika) schizofrenie na základě kognitivních testů
•rozhodnutí, zda banka poskytne či neposkytne hypotéku danému subjektu na základě jeho příjmů,
rodinné situace atd.
•diagnostika demence (tzn. zařazení nového subjektu do skupiny pacientů či kontrol) podle obrázku
mozku
•
8
intenzity_deformace
http://3.bp.blogspot.com/-x2EYSsQ5SYI/UBfV_2MdSHI/AAAAAAAAALY/jHbo4q9z9Sw/s1600/ventricles+before.j
pg http://www.dialogues-cns.org/figures/DialoguesClinNeurosci-11-191-g005.jpg
https://encrypted-tbn3.gstatic.com/images?q=tbn:ANd9GcTbz5L3fOoB-Ng3gdKssG8K8cwsUoS0Dw_oCpHKAahanoC
twcfGOw http://serendip.brynmawr.edu/%7Elaurac/brainscans/ventricles_brain2.jpg
Pacienti
Zdravé subjekty
Nový subjekt
Pacient? x Zdravý?

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
•Obecným cílem je snaha vysvětlit variabilitu predikované proměnné (endpoint, Y) pomocí prediktorů
(vysvětlující proměnná, faktor, X)
•Jak predikovaná proměnná, tak prediktor mohou být různého typu
–Binární
–Kategoriální
–Ordinální
–Spojitá
–Cenzorovaná (-> analýza přežití)
•Kombinace datového typu predikované proměnné a prediktoru určuje použitou metodu analýzy
•
9
Proč variabilita?
Vysvětluje kategoriální prediktor?
Vysvětluje spojitý prediktor?
Cíle vícerozměrné analýzy dat
5. Predikce spojitých hodnot

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Cíle vícerozměrné analýzy dat - doplnění
•Každý objekt reálného světa můžeme popsat jeho pozicí v mnohorozměrném prostoru,
v extrémním případě jde až o desetitisíce dimenzí
•Více než 3D prostor je pro nás vizuálně neuchopitelný a hledání vztahů ve více než 3 dimenzích je
problematické
•Vícerozměrná analýza se tento problém snaží řešit různými přístupy:
–Redukce dimenzionality dat „sloučením“ korelovaných proměnných do menšího počtu „faktorových“
proměnných
–Identifikace shluků objektů ve vícerozměrném prostoru a následná redukce vícedimenzionálního
problému kategorizací objektů do zjištěných shluků
10
Zjednodušení
Interpretace

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Příklad vícerozměrného popisu objektů
11

Dimenze 1
Dimenze 2
Dimenze 3
Dimenze 4
ID objektu
SEPALLEN
SEPALWID
PETALLEN
PETALWID
SETOSA
5.0
3.3
1.4
0.2
VIRGINIC
6.4
2.8
5.6
2.2
VERSICOL
6.5
2.8
4.6
1.5
VIRGINIC
6.7
3.1
5.6
2.4
VIRGINIC
6.3
2.8
5.1
1.5
SETOSA
4.6
3.4
1.4
0.3
VIRGINIC
6.9
3.1
5.1
2.3
VERSICOL
6.2
2.2
4.5
1.5
VERSICOL
5.9
3.2
4.8
1.8
SETOSA
4.6
3.6
1.0
0.2

…
…
…
…

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Vícerozměrná analýza dat = pohled ze správného úhlu
•Vícerozměrná analýza nám pomáhá nalézt v x-dimenzionálním prostoru nejvhodnější pohled na data
poskytující maximum informací o analyzovaných objektech
12
Všechny obrázky ukazují stejný objekt z různých úhlů v 3D prostoru.

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Obecný princip redukce dimenzionality dat
•V převážné většině případů existují mezi dimenzemi korelační vztahy, tedy dimenze se navzájem
vysvětlují a pro popis kompletní informace v datech není třeba všech dimenzí vstupního souboru
•Všechny tzv. ordinační metody využívají principu identifikace korelovaných dimenzí a jejich
sloučení do souhrnných nových dimenzí zastupujících několik dimenzí vstupního souboru •Pokud mezi
dimenzemi vstupního souboru neexistují korelace, nemá smysl hledat zjednodušení vícerozměrné
struktury takovéhoto souboru !!!
•
13
Jednoznačný vztah dimenzí x a y umožňuje jejich nahrazení jedinou novou dimenzí z
x
y
z
x
y
?
?
?
?
?
?
?
?
V případě neexistence vztahu mezi x a y nemá smysl definovat nové dimenze – nepřináší žádnou novou
informaci oproti x a y

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Obecný princip hledání shluků v datech
•Vzájemnou pozici objektů ve vícerozměrném prostoru lze popsat jejich vzdáleností
•Dle vzdálenosti objektů je můžeme slučovat do shluků a přiřazení  objektů ke shlukům ve
vícerozměrném prostoru následně využít pro zjednodušení jejich x-dimenzionálního popisu
•Smysluplnost výsledků shlukování závisí jednak na objektivní existenci shluků v datech, jednak na
arbitrárně nastavených kritériích definice shluků
14
Jednoznačné odlišení existujících shluků v datech (obdoba multimodálního rozložení)
Shluková analýza je možná i v tomto případě, nicméně hranice shluků jsou dány pouze naším
rozhodnutím.

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Omezení vícerozměrné analýzy dat
•Vícerozměrná analýza může přinést zjednodušení dimenzionality dat pouze v případě, kdy data
skrývají nějakou identifikovatelnou vícerozměrnou strukturu
–Mezi dimenzemi existují vztahy (korelace) umožňující nahrazení korelovaných dimenzí zástupnou
souhrnnou dimenzí
–Objekty vytváří v x-dimenzionálním prostoru shluky nebo jiné nenáhodné struktury
•Pro náhodně rozmístěné objekty bez korelací mezi dimenzemi jejich x-dimenzionálního prostoru
nepřináší vícerozměrná analýza žádné nové informace oproti původním dimenzím
•Důležitý je poměr počtu objektů (řádky tabulky) a dimenzí (sloupce tabulky). Čím je tento poměr
menší tím větší je šance, že výsledky analýzy jsou ovlivněny náhodnými procesy.  Za minimální poměr
pro získání validních výsledků je považováno 10 objektů na 1 dimenzi.
•Pro vícerozměrné analýzy platí obdobné předpoklady jako pro jednorozměrnou statistickou analýzu;
vzhledem k jejich možnému porušení na úrovni kombinace několika dimenzí  je tyto předpoklady třeba
kontrolovat ještě pečlivěji než u jednorozměrné analýzy
•Kromě klasických statistických předpokladů je při vícerozměrných analýzách třeba věnovat pozornost
výběru metrik vzdáleností mezi objekty (klíčové ovlivnění interpretace výsledků) a jejich
předpokladům
•Pokud výsledky vícerozměrné analýzy nejsou interpretovatelné je třeba zvážit, zda použití
vícerozměrné analýzy přináší oproti sadě jednorozměrných analýz nějakou přidanou hodnotou
•Využitelná vícerozměrná analýza by měla být:
–Vybrána vhodná metoda pro řešení daného problému
–korektně spočítána za dodržení všech předpokladů
–Interpretovatelná a přinášející novou informaci oproti analýze původních dimenzí
15

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Korelace jako princip výpočtu vícerozměrných analýz
•Kovariance a Pearsonova korelace je základem analýzy hlavních komponent, faktorové analýzy jakož i
dalších vícerozměrných analýz pracujících s lineární závislostí proměnných
•Předpokladem výpočtu kovariance a Pearsonovy korelace je:
–Normalita dat v obou dimenzích
–Linearita vztahu proměnných
•Pro vícerozměrné analýzy je nejzávažnějším problémem přítomnost odlehlých hodnot
16
x
y
x
y
x
y
Lineární vztah – bezproblémové použití Personovy korelace
Korelace je dána dvěma skupinami hodnot – vede k identifikaci skupin objektů v datech
Korelace je dána odlehlou hodnotu – analýza popisuje pouze vliv odlehlé hodnoty

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Analýza kontingenčních tabule jako princip výpočtu vícerozměrných analýz
•Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku
a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi-kvadrátu
17
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
=
2
-
Počítáno pro každou buňku tabulky
 N
J
A
10
0
B
0
10
Pozorovaná tabulka
 N
J
A
5
5
B
5
5
Očekávaná tabulka
Hodnota chi-kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu taxon-lokalita) od
situace, kdy mezi řádky a sloupci (taxon-lokalita) není žádný vztah

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Euklidovská vzdálenost jako princip výpočtu vícerozměrných analýz
•Nejsnáze představitelným měřítkem vztahu dvou objektů ve vícerozměrném prostoru je jejich
vzdálenost •Nejjednodušším typem této vzdálenosti (bohužel s omezeným použitím na data
společenstev) je Euklidovská vzdálenost vycházející z Pythagorovy věty
18
a
b
c
y11
y12
y21
y22
X1
X2

•vytváření shluků objektů na základě jejich podobnosti
•identifikace typů objektů
•
•
•Na základě vícerozměrné kombinace prediktorů zařazujeme objekty do skupin (klasifikace) nebo
predikujeme spojitou proměnnou (predikce)
•zjednodušení vícerozměrného problému do menšího počtu rozměrů •principem je tvorba nových rozměrů,
které lépe vyčerpávají variabilitu dat
SHLUKOVÁ ANALÝZA
ORDINAČNÍ METODY
Základní typy vícerozměrných analýz
KLASIFIKACE / PREDIKCE

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Typy vícerozměrných analýz
20
Diskriminační prostor
y
x
x
y
Faktorové osy
y
x
podobnost

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Pojmy vícerozměrných analýz
21
•Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena
jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem
atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu.
•Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice
tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty.
•NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat
do vícerozměrných analýz.
•Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají
další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv.
metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší
podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik.

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Vstupní matice vícerozměrných analýz
22
Hodnoty parametrů pro jednotlivé objekty
NxP MATICE
ASOCIAČNÍ MATICE
Korelace, kovariance, vzdálenost, podobnost
Výpočet metriky podobností/
vzdáleností

Vícerozměrné statistické metody
Jednorozměrná  statistická analýza jako předpoklad vícerozměrné analýzy dat


logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Význam statistické analýzy dat
•Výzkum na základě sběru dat je naším způsobem porozumění realitě
•Ale jak přesné a pravdivé je naše porozumění?
•
24
Statistika je jedním z nástrojů vnášejících do našich výsledků určitou spolehlivost.
Statistiku můžeme považovat za ekvivalent k mikroskopu či jinému laboratornímu nástroji

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Variabilita jako základní pojem ve statistice
•Naše realita je variabilní a statistika je vědou zabývající se variabilitou
•Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě
•V případě deterministického světa by statistická analýza nebyla potřebná
•
25

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Práce s variabilitou v analýze dat
•V analýze dat existují dva hlavní přístupy k práci s variabilitou
26
Variabilita dat
Popisná analýza: charakterizace variability
Testování hypotéz: vysvětlení  variability
?

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Co může statistika říci o naší realitě?
•Statistika není schopna činit závěry o jevech neobsažených v našem vzorku.
•
•Statistika je nasazena v procesu získání informací z vzorkovaných dat a je podporou v získání naší
znalosti a pochopení problému.
•
•Statistika není náhradou naší inteligence !!!
•
•
•
27
Možnosti
Realita
Vzorek
Data
Informace
Znalost
Pochopení
Statistika

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Statistika a zobecnění výsledků
•Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou
populaci
•
•Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům
•
28
Neznámá cílová populace
Vzorek
Analýza
Díky zobecnění výsledků známe vlastnosti cílové populace

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Vzorkování a jeho význam ve statistice
•Statistika hovoří o realitě prostřednictvím vzorku!!!
•Statistické předpoklady korektního vzorkování je nutné dodržet
•
•Náhodný výběr z cílové populace
•Representativnost: struktura vzorku musí maximálně reflektovat realitu
•
•
•
•Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou
novou informaci
•
•
29

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Velikost vzorku a přesnost statistických výstupů
•Existuje skutečné rozložení a skutečný průměr měřené proměnné
•
•Z jednoho měření nezjistíme nic
•
•
•Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí
•
•
•
•Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně
tento přístup je ve většině případech nereálný.
•
•
30
???
Odhad průměru atd.

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Předpoklady statistické analýzy
•WWW.WIKIPEDIA.ORG:
–Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a
prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po
sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně
i nevědomky zneužita.
–
–
•Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování.
•Statistika funguje korektně pouze pokud jsou splněny předpoklady jejích metod a modelů.
–
•
31

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Normální rozložení jako předpoklad statistické analýzy dat
•Normální rozložení (Gaussova křivka) je jedním z hlavních modelů ve statistické analýze dat
•Řada metod popisné statistiky je založena na modelu normálního rozložení
–Průměr, směrodatná odchylka atd.
•Řada metod testování hypotéz je založena na modelu normálního rozložení
–T-test, ANOVA, korelace, regrese
•
–
–
–
–
–
–
–
–
–
•Použití modelu je možné pouze pokud reálná data odpovídají danému modelovému rozložení
32
Průměr a směrodatná odchylka dobře popisují realitu
Průměr a směrodatná odchylka nepopisují realitu
Reálná data
Model normálního rozložení

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Obecné schéma aplikace statistické analýzy
33
Vzorkování
Experimentální design
Jak velký vzorek je nezbytný pro statisticky relevantní výsledky?
Klíčová stratifikační kritéria cílové populace.
Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku.
Uložení a management dat
Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem
statistické analýzy.
Vizualizace dat
Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně
akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných
apod.
Popisná analýza
Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených
rozsahů dat.
Testování hypotéz
Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět
k pochopení řešeného problému.
Modelování
Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření
prediktivních modelů.

Vícerozměrné statistické metody
Popisná statistika a její spolehlivost


logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Typy proměnných a jejich popisné statistiky
•Kvalitativní/kategorická
– binární - ano/ne
– nominální - A,B,C … několik kategorií
– ordinální - 1<2<3 …několik kategorií a můžeme se ptát, která je větší
–Popis procentuálním zastoupením kategorií
•
•
•Kvantitativní
–nespojitá – čísla, která však nemohou nabývat všech hodnot (např. počet porodů)
–spojitá – teoreticky jsou možné všechny hodnoty (např. krevní tlak)
–Popis celou řadou deskriptivních statistik (průměr, medián, percentily, směrodatná odchylka,
rozsah hodnot apod.)
35

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Řada dat a její vlastnosti
36
Kategorie
Četnost
B
5
C
8
D
1
Kvalitativní data
Tabulka s četností jednotlivých kategorií.
Kvantitativní data
Četnost hodnot rozložení v jednotlivých intervalech.

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Populace a vzorek
•Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování
na úrovni ČR, z populace získáme reálné parametry rozložení •Z populace je prováděno vzorkování za
účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné,
důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení
•
37

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Popisná statistika: odhad reality
•Při výpočtu popisné statistiky počítáme popisnou statistiku vzorku, která je zároveň odhadem pro
celou cílovou populaci •Skutečnou hodnotu statistiky v cílové populaci nemůžeme poznat bez
vzorkování celé cílové populace
•
38
O populaci nevíme nic
Odhadujeme popisné statistiky populace
Známe skutečnou hodnotu statistiky v populaci
Nesmyslné
Obvykle nerealizovatelné

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Koncept intervalu spolehlivosti a jeho interpretace
•Při výpočtu odhadu popisné statistiky nás zajímá nejenom její vlastní hodnota (bodový odhad) ale
také její rozsah spolehlivosti
•
•Interval spolehlivosti závisí na:
–Velikosti vzorku
–Variabilitě dat
–Požadované spolehlivosti
•
•Interval spolehlivosti lze spočítat pro jakoukoliv statistiku (průměr, směrodatná odchylka,
korelace, procentuální zastoupení apod.)
•Interval spolehlivosti poskytuje vodítko jak „spolehlivé“ jsou naše výsledky a s jakou
pravděpodobností jich je možné opakovaně dosáhnout
•95% interval spolehlivosti je rozsah hodnot do nějž se při opakování studie trefíme s 95%
pravděpodobností
•Tvrzení, že v rozsahu 95% intervalu spolehlivosti leží s 95% pravděpodobností skutečný průměr
populace není pravdivé, skutečný průměr populace neznáme !!!
39
Rozložení odhadu pro N=10
Rozložení odhadu pro N=100
Rozložení parametru v populaci
Průměr (odhadovaný parametr)

Vícerozměrné statistické metody
Testování hypotéz


logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Testování hypotéz: základní principy
•Formulace hypotézy
•Výběr cílové populace a z ní reprezentativního vzorku
•Měření sledovaných parametrů
•Použití odpovídajícího testu závěr testu
•Interpretace výsledků
•
41
Cílová
populace
Vzorek
Reprezentativnost ?
Závěr ?
Interpretace
Měření parametrů
Testy hypotéz

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Statistické testování – základní pojmy
42
Nulová hypotéza HO
Alternativní hypotéza HA
Testová statistika
Kritický obor testové statistiky
0
T
Pozorovaná hodnota – Očekávaná hodnota
Variabilita dat
Testová statistika =
HO: sledovaný efekt je nulový
HA: sledovaný efekt je různý mezi skupinami
*   Velikost vzorku
Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na
otázku je využit statistický model – testová statistika.
Statistická významnost (p) – odvozena z testové statistiky a znamená pravděpodobnost, že pozorovaný
rozdíl je výsledkem pouhé náhody

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Co znamená pravděpodobnost, že pozorovaný rozdíl je výsledkem pouhé náhody ?
43


Je tu rozdíl?
Jak by vypadal rozdíl, kdyby byl náhodný?
Nasimulujme si ho !!! J
Léčba
Placebo
X2
X1


X2
X1


X2
X1
….
Mnoho-
krát
Rozdíl ?
Rozložení možných náhodných rozdílů
Kde leží skutečný rozdíl?
Jak moc je pravděpodobné, že je náhodný?
0

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Možné chyby při testování hypotéz
44
Závěr testu
Hypotézu
nezamítáme
Hypotézu
zamítáme
β
1- β
1- α
α
•I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o
zamítnutí/nezamítnutí nulové hypotézy dopustit chyby.
Správné rozhodnutí
Správné rozhodnutí
Chyba II. druhu
Chyba I. druhu

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Klinická a statistická významnost
•Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného
jevu
•Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty
•
45
Praktická významnost
ANO
NE
ANO
OK, praktická i statistická významnost je ve shodě, jednoznačný závěr
Významný výsledek je statistický artefakt velkého vzorku, prakticky nevyužitelné
NE
Výsledek může být pouhá náhoda, neprůkazný výsledek
OK, praktická i statistická významnost je ve shodě, jednoznačný závěr

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Statistická vs. klinická významnost
46
Bodový odhad efektu + IS
Možnost
Statistická významnost
Klinická významnost
a)
ne
možná
b)
ne
možná
c)
ano
možná
d)
ano
ano
e)
ne
ne
f)
ano
ne
a)
b)
c)
d)
e)
f)
Střední hodnota v populaci
Klinicky významná odchylka

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Parametrické vs. neparametrické testy
47
Parametrické testy
Neparametrické testy
•Mají předpoklady o rozložení vstupujících dat (např. normální rozložení)
•Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické
•Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a
výsledek testu může být zcela chybný a nesmyslný
•Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení,
odlehlých hodnotách, či nedetekovatelném rozložení
•Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy
neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
One-sample vs. two sample testy
48
One – sample testy
Two – sample testy
•Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční hodnotou (popřípadě se
statistickým parametrem cílové populace)
•V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota
cílové populace)
•Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým
parametrům popisujícím vzorek
•Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky)
•V testu jsou srovnávány dvě rozložení hodnot
•Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším
statistickým parametrům popisujícím vzorek
•Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
One-tailed vs. Two-tailed testy
49
One – tailed testy
Two – tailed testy
•Hypotéza testu je postavena asymetricky, tedy ptáme se na větší než/ menší než
•Test může mít pouze dvojí výstup – jedna z hodnot je větší (menší) než druhá a všechny ostatní
případy
•Hypotéza testu se ptá na otázku rovná se/nerovná se
•Test může mít trojí výstup – menší - rovná se – větší než
•Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší)
1
Kritický obor
2
Kritický obor

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Nepárový vs. párový design
50
Nepárový design
Párový design
•Skupiny srovnávaných dat jsou na sobě zcela nezávislé (též nezávislý, independent design), např.
lidé z různých zemí, nezávislé skupiny pacientů s odlišnou léčbou atd.
•Při výpočtu je nezbytné brát v úvahu charakteristiky obou skupin dat
•Mezi objekty v srovnávaných skupinách existuje vazba, daná např. člověkem před a po operaci,
reakce stejného kmene krys atd.
•Vazba může být buď přímo dána nebo pouze předpokládána (v tom případě je nutné ji ověřit)
•Test je v podstatě prováděn na diferencích skupin, nikoliv na jejich původních datech
>

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Statistické testy a normalita dat
51
•Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu
nějakého rozložení) – např. t-testy
•Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet
(t-rozložení) a test tak může lhát
•
•Řešením je tedy:
–Transformace dat za účelem dosažení normality jejich rozložení
–Neparametrické testy – tyto testy nemají žádné předpoklady o rozložení dat
Typ srovnání
Parametrický test
Neparametrický test
2 skupiny dat nepárově:
Nepárový t-test
Mann Whitney test
2 skupiny dat párově:
Párový t-test
Wilcoxon test, sign test
Více skupin nepárově:
ANOVA
Kruskal- Wallis test
Korelace:
Pearsonův koeficient
Spearmanův koeficient

Vícerozměrné statistické metody
Základní statistické testy


logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
One sample t-test
53
H0
HA
Testová statistika
Interval spolehlivosti
t
t > t
t
t < t
t
|t| > t
Průměr – cílová vs. výběrová populace
    (n-1)
1-α
    (n-1)
α
    (n-1)
1-α/2
V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro
parametrické testy musí mít datový soubor normální rozložení.

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Dvouvýběrové testy: párové a nepárové
54
•Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle
designu experimentu na testy párové a nepárové.
>
—Základním testem pro srovnání dvou nezávislých rozložení spojitých čísel je nepárový two-sample
t-test
—Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two-sample t-test

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Dvouvýběrové testy: párové a nepárové
55
Data
Nezávislé uspořádání
Párové uspořádání
 X1     X2
 X1- X2 = D
 X1        X2
Design uspořádání
zásadně ovlivňuje interpretaci parametrů
(n = n2 = n1)

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Dvouvýběrové testy: párové a nepárové
56
 X1        X2
X1
X2
X1
X2
    r = 0,954
(p < 0,001)
    r = 0,218
(p < 0,812)

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Předpoklady nepárového dvouvýběrového
t-testu
57
•Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací
•Nezávislost obou srovnávaných vzorků
•Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou
kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být
testována testy normality
•Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován
několika možnými testy – Levenův test nebo F-test.
•Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické srovnání a
ověření předpokladů normality a homogenity rozptylu – nenahradí statistické testy, ale poskytne
prvotní představu.
•
0
j(x)
μ
|

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Nepárový dvouvýběrový t-test – výpočet I
58
1.nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two
tailed test
2.prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita
rozptylu, provést F –test
3.
F-test pro srovnání dvou výběrových rozptylů
•Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu
těchto skupin dat.
•V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě shodných
rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t-testu, v opačném případě není vhodné
test počítat.
H0
HA
Testová statistika

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Nepárový dvouvýběrový t-test – výpočet II
59
3.Výpočet testové statistiky (stupně volnosti jsou):
4.
4.
4.
4.
4.
4.výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a a (obvykle a=0,05)
5.Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%), počet stupňů volnosti a
s2 odpovídají předchozím vzorcům
6.
3.
vážený odhad rozptylu
>

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Dvouvýběrový t-test - příklad
60
Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou
zvýšenou dávkou potravy. Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy
pak 24 ovcí.
•Vlastní experiment byl prováděn tak, že na začátku máme  54 ovcí (ideálně stejného plemene, stejně
staré atd.), které náhodně rozdělíme do dvou skupin (náhodné rozdělování objektů  do pokusných
skupin je objektem celého specializovaného odvětví statistiky nazývaného randomizace). Poté co
experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t-testu.
Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na
kterých můžeme posoudit normalitu a homogenitu rozptylu, kromě  okometrického pohledu můžeme pro
ověření normality použít testy normality, pro ověření homogenity rozptylu pak F-test
•Pokud platí všechny předpoklady Two sample nepárového t-testu, můžeme spočítat testovou
charakteristiku, výsledné t je 2,43 s  52 stupni volnosti, podle tabulek je a t0,975 (52)= 2,01,
tedy t> t0,975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018.
Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou.
•
•
•
•
•Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly  jako 1,59±2.01*(0,655) kg,
což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje 0 je dalším
potvrzením, že mezi skupinami je významný rozdíl – jde o další způsob testování významnosti rozdílů
mezi skupinami dat – nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké
hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto
případě 0).
>

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Test dobré shody - základní teorie
61
Binomické jevy (1/0)
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
=
+
2
pozorovaná
četnost
očekávaná
četnost
očekávaná četnost
I. jev 1
II. jev 2
-
2
-
Příklad
10 000 lidí hází mincí           rub: 4 000 případů (R)
                                            líc: 6 000 případů (L)
Lze výsledek považovat za statisticky významně odlišný
(nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ?
?
 Rozdíl je vysoce statisticky významný (p << 0,001]
Tabulková hodnota:

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Kontingenční tabulky - 0 :Nezávislost dvou jevů A a B
62
Kontingenční tabulka
2 x 2
N = a + b + c + d
+
-
Podíl (+)
+
a
b
-
c
d
Podíl (+)
B
A
p1
p2
Očekávané četnosti:

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Kontingenční tabulky: příklad
63
FA = 102 * 30 / 166 = 18,43
FB = 102 * 136 / 166 = 83,57
FC = 11,57
FD = 52,43
Ano
Ne
S
Ano
20
82
102
Ne
10
54
64
S
30
136
166
gen
…
Kontingenční tabulka v obrázku
Gen: ANO
Gen: NE

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
ANOVA – základní výpočet
64
•Základním principem ANOVY je porovnání rozptylu připadajícího na:
–Rozdělení dat do skupin (tzv. effect, variance between groups)
–Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o
náhodnou variabilitu (=error)
1.Variabilita mezi skupinami
Rozptyl je počítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat
Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1)
2.Variabilita uvnitř skupin
Rozptyl je počítán pro průměry jednotlivých skupin a objekty uvnitř příslušných, celková
variabilita je pak sečtena pro všechny skupiny
Stupně volnosti jsou odvozeny od počtu hodnot (= počet hodnot - počet skupin)
ANOVA
Výsledný poměr (F) porovnáme s tabulkami F rozložení pro v1 a v2 stupňů volnosti
SS=sum of squares

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Jednoduchý ANOVA design
65
Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru.

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Nested ANOVA
66
• Rozdělení skupin na náhodné podskupiny (např. opakování experimentu)
• Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou
• Nejprve je testována shoda podskupin v hlavních skupinách,
• pokud jsou shodné, je vše v pořádku
• pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové
variability

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Two way ANOVA
67
Pro rozdělení do kategorií je zde více parametrů
Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH
a koncentrace O2)
Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Modely analýzy rozptylu -  základní výstup
68
Základním výstupem analýzy rozptylu je
Tabulka ANOVA - frakcionace komponent rozptylu
Zdroj rozptylu
Pok. zásah
(mezi skupinami)
Uvnitř skupin
Celkem
SSB/SST
MSB/MST
St. v.
a -1                        SSB          SSB/(a -1)        MSB/MSE
N - a                       SSE          SSE/(N - a)
N -1                        SST
SS
MS
F
Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu
Statistická významnost rozdílu

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Základy korelační analýzy I
69
Korelace - vztah (závislost) dvou znaků (parametrů)
Y2
X1
Y
2
X
1
Y2
X1
ANO
NE
ANO
a
b
NE
c
d
X1
X2

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Základy korelační analýzy II
70
Parametrické míry korelace
Kovariance
Pearsonův koeficient korelace
0
0
0
--  x
--  y
Y2
X1
r = 1
r = -1

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Základy korelační analýzy III
71
PI (zem)
10
14
15
32
40
20
16
50
PI (rostl.)
19
22
26
41
35
32
25
40
I.
II.

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Základy regresní analýzy
72
Regrese - funkční vztah dvou nebo více proměnných
Jednorozměrná
y = f(x)
Vícerozměrná
y = f(x1, x2, x3, ……xp)
Vztah x, y
Deterministický
Regresní, stochastický
Y
X
Y
X
Y
X
Pro každé x existuje pravděpodobnostní rozložení y

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Regresní analýza přímky: lineární regrese
73
}
Komponenty tvořící y se sčítají
e  - náhodná složka modelu přímky = rezidua přímky