STATISTIKA Analýza dat Obsah • Úvod do testování hypotéz • Test normality • Testování rovnosti středních hodnot Testování hypotéz • Nulová hypotéza 𝑯 𝟎– obvykle deklaruje ,,žádný rozdíl“ ,,žádnou závislost“ Př: Mezi výškou a rychlostí reakce rukou tenistů U14 neexistuje žádná závislost. • Alternativní hypotéza 𝑯 𝑨- vyjadřuje ,,existenci diference“ existenci závislosti“ Př: Mezi pravděpodobnostním a fuzzy přístupem při hodnocení tenistů existují statisticky významné rozdíly. Postup při testování hypotéz • Hendl (2009) popisuje tyto kroky při testování hypotéz: • 1) Předpokládáme, že platí 𝑯 𝟎. Proti ní stavíme alternativní hypotézu 𝑯 𝑨. • 2) Zvolíme přijatelnou úroveň chyby rozhodování α. • 3) Vypočtení testovací statistiky. • 4) Doporučení Určení hladiny chyby α • Hladina významnosti α je pravděpodobnost, že se zamítne nulová hypotéza, ačkoliv ona platí (chyba prvního druhu). • Nejčastěji volíme α 0,05 nebo 0,01. Testování hypotéz • Testovat nulovou hypotézu lze pomocí: • 1) kritického oboru • 2) intervalu spolehlivosti • 3) p-hodnoty p ≤ α ……𝑯 𝟎 zamítáme na hladině významnosti α p > α ……𝑯 𝟎 nelze zamítnout (nezamítáme) na hladině významnosti α Nulová hypotéza • Normalita - 𝑯 𝟎: Data pocházejí z normálního rozložení. • Korelace - 𝑯 𝟎: r = 0 • t-test - 𝑯 𝟎: Dva výběry jsou shodné. • ANOVA - 𝑯 𝟎: Tři (a více) výběrů jsou shodné. • Testování normality • Použití mnoha statistických testů je podmíněna nějakým předpokladem o typu rozložení. Velmi často se předpokládá tzv. normální rozložení. Testování normality • Graficky – histogram, N-P graf, P-P graf, Q-Q graf,… • Pomocí testů: Kolmogorovův – Smirnovův test Lillieforsův test (modifikace KS testu) Shapirův – Wilkův test (pro výběry ≤ 50) Test dobré shody Testování normality • Pomocí softwaru Statistica: Statistika → Základní statistiky → Popisné statistiky → karta Normalita Testování normality Testování normality Jaký má význam testovat normalitu rozložení dat? Testování normality • Jestliže nezamítneme hypotézu o tom, že data pocházejí z normálního rozložení, pak pro jejich další vyhodnocování použijeme parametrické testy. • Pokud ovšem hypotézu o normalitě dat zamítneme, pak je nutné použít k dalšímu vyhodnocování testy neparametrické. Příklady testů • Parametrické testy – Pearsonův korelační koeficient, t-test, Bartlettův a Levenův test shody rozptylů • Neparametrické testy – Spearmanův korelační koeficient, znaménkový test, Wilcoxonův test, Kruskal-Wallisův test • Parametrické testy jsou statisticky silnější než testy neparametrické. Kdo to byl? William Sealy Gosset Sládek pivovaru Guinness Britský matematik a statistik Měl přezdívku Student Podle něj je pojmenováno Studentovo rozdělení, Studentův t-test, … Testy o rovnosti středních hodnot 2 výběrů • Pro porovnání rovnosti středních hodnot dvou výběrů používáme soubor statistických metod s názvem t-testy. Jakou variantu t-testu použijeme záleží na konkrétní situaci. • Pokud data pochází z normálního rozdělení, použijeme parametrický t-test. • Pokud data nepochází z normálního rozdělení, použijeme testy neparamerické – Wilcoxonův test (závislá pozorování), Mann-Whitneyův test (nezávislá pozorování) T-Testy • Lze použít v případech, že data: • 1) srovnáváme s předem známou referenční hodnotou (př.1) • 2) jsou závislá - Pre-test + Post-test u stejné skupiny, srovnání dvou různých metod u stejné skupiny (př.2,3) • 3) jsou nezávislá – srovnáváme výsledky dvou různých skupin (př.5) Příklad 1 • Ověřte, že výška naší testované skupiny je 185 cm. Testování proveďte na hladině významnosti 0,05. Statistiky → Základní statistiky → t-test, samostatný vzorek Test normality! Příklad 2 • U skupiny 15 sportovců byly v daném motorickém testu naměřeny následující hodnoty: 37, 35, 38, 42, 35, 38, 39, 36, 40, 37, 35, 36, 38, 37,35. Poté byl po dobu 4 týdnů aplikován specifický tréninkový program a opět proveden tentýž motorický test u stejné skupiny, ve kterém byly naměřeny tyto údaje: 36, 38, 35, 40, 37, 36, 38, 35, 38, 37, 33, 34, 38, 39, 40. Projevil se aplikovaný program ve výsledcích motorického testu? Příklad 2 • Příklad typu Pre-test, Post-test Statistika → Základní statistiky → → t-test, závislé skupiny Příklad 3 • Výsledky testové baterie u skupiny sportovců byly vyhodnoceny pomocí dvou matematických teorií (pravděpodobnostní, fuzzy) a následně byly výsledky z obou metod srovnány. Zjistěte, zda je mezi metodami významný rozdíl. Příklad 3 Statistika → Základní statistiky → → t-test, závislé skupiny Příklad 4 • Předpokládáme stejné zadání jako v příkladu 3. • Nyní zkusíme stejnou hypotézu ověřit pomocí neparametrických testů. Statistiky → Neparametrické statistiky → Porovnání dvou závislých vzorků → Wilcoxonův párový test Příklad 5 • Ve 2 sportovních klubech (A,B) stejné sportovní disciplíny bylo hodnoceno % tělesného tuku jejich sportovců. U 10 sportovců týmu A a 10 sportovců týmu B byly naměřeny hodnoty, které jsou vidět v tabulce (další slide). Existují statisticky významné rozdíly v % tělesného tuku u klubů A a B? Příklad 5 Dle proměnných Dle skupin Příklad 5 • Jedná se o nezávislé skupiny Statistika → Základní statistiky → t-test, nezávislé (dle skupin/ dle proměnných) Dle skupin: • Dle proměnných: Příklad 6 – jaké testy použít? • U skupiny sportovců provádíme experiment. Provedeme úvodní testování a dle výsledků rozdělíme sportovce do skupin s intervencí a bez ní. Po intervenci opět provedeme testování u obou skupin. • 1) Chceme zjistit, zda existují statisticky významné rozdíly mezi výsledky úvodního a závěrečného testování u skupiny s intervencí. • 2) Existují statisticky významné rozdíly ve výsledcích závěrečných testů mezi skupinou s intervencí a bez intervence? ANOVA (ANalysis Of Variance) • Analýza rozptylu více výběrů • Můžeme říct, že t-test je speciální případ ANOVY pro dva výběry • Předpoklady pro použití ANOVY: 1) Normalita uvnitř skupin, výběrů 2) Homogenita rozptylu (lze zmírnit na shodu rozptylů) Shodu rozptylů lze provést testy Cochran, Hartley a Bartlett. ANOVA • Nulová hypotéza předpokládá, že střední hodnoty všech skupin/výběrů jsou shodné. • Pokud zamítneme nulovou hypotézu, obvykle nás zajímá, mezi kterými skupinami je statisticky významný rozdíl. K tomu slouží tzv. post-hoc testy. Softwary nabízejí několik post-hoc testů: např. Sheffého, Tukey, LSD. Příklad 7 • Pro porovnání tří hodnotitelů A1, A2, A3 byl proveden tento experiment: Každé respondent byl změřen 3 hodnotiteli. V tabulce 6 jsou uvedeny naměřené hodnoty motorického testu v běhu na 1 km. Hodnoty jsou uvedené v sekundách. • Zjistěte, zda existují významné rozdíly mezi výsledky jednotlivých hodnotitelů. Příklad 7 Příklad 7 • 1) Normalita byla ověřena • 2) Shoda rozptylů: • Statistiky → ANOVA → Jednofaktorová ANOVA → více výsledků → Předpoklady • Nezamítáme hypotézu o shodě rozptylů Příklad 7 • Použití ANOVY • Statistiky → ANOVA → Jednofaktorová ANOVA→ Velikost efektů • Zamítáme hypotézu o rovnosti efektů úrovní A1, A2, A3. Příklad 7 • Post-hoc test • Statistiky → ANOVA → Jednofaktorová ANOVA → více výsledků → Post-Hoc • Tzn. že rozdíly průměrů 1 a 2 jsou významné. Taktéž rozdíly průměrů 2 a 3 jsou významné. Zdroje • Hendl, J. Analýza a metanalýza dat. 2009 • Sebera, M. Vícerozměrné statistické metody. 2012. DĚKUJI ZA POZORNOST