STATISTIKA Martin Sebera, FSpS MU, 12.2.2014 Sázíte-li ve Sportce, je to hazard. Sázíte-li se, že vám v kartách přijdou tři postupky po sobě, je to zábava. Vsadíte-li se, že cena plynu stoupne o 10 %, je to podnikání. Vidíte ten rozdíl? Pravidla výzkumu z pohledu analýzy dat 1.příprava výzkumného šetření je nejdůležitější část 2.sběr a analýza dat slouží k zamítnutí/nezamítnutí předem stanovených úkolů práce a hypotéz (explorační vs. konfirmační přístup) 3.vždy mít na paměti věcné hledisko výzkumu, zejména v souvislosti s interpretací statistických výsledků Role statistiky •Porozumění a zkoumání hromadných jevů •Zjišťování zákonitostí •V kvantitativním výzkumu (deduktivní princip) – pojítko mezi teorií a výzkumem •Zpracování, popsání a analyzování dat • Základní pojmy •Základní a výběrový soubor a jeho rozsah (N) •Výběr: –náhodný (každý prvek má stejnou pravděpodobnost výběru - losování) –systematický (n-tý objekt, n, <,), •Metrické –Intervalová (lze říct o kolik je hodnota větší) –Poměrová (lze říct kolikrát je hodnota větší) –Př. teplota, čas, hmotnost, … První náhled na data – popisná statistika •průměr, sm. odchylka, medián, kvartily aj. •četnosti: absolutní, relativní, kumulativní •grafy: krabicový, histogram • •Proč? •chybná měření, extrémy •homogenitu souboru •chybějící data Intervalové rozložení četností x ni ri Ni Fi 18 1 0,05 (= 1/20) 1 0,05 19 2 0,10 (= 2/20) 3 0,15 20 8 0,40 (= 8/20) 11 0,55 21 6 0,30 (= 6/20) 17 0,85 22 3 0,15 (= 3/20) 20 1,00 Celkem 20 1,00 BMI: 18 19 19 20 20 20 20 20 20 20 20 21 21 21 21 21 21 22 22 22 N – rozsah souboru ni – absolutní četnost ri – relativní četnost Ni – kumulativní absolutní četnost Fi – kumulativní relativní četnost lze usuzovat na některé vlastnosti, záleží na počtu intervalů Základní statistické charakteristiky •Míry střední hodnota –Aritmetický a geometrický průměr, modus, medián •Míry variability –variační rozpětí, kvantily, rozptyl, směrodatná odchylka, variační koeficient •ztrácíme mnoho cenných informací o původních datech –1; 10; 22 průměr 11 SD 10,53 n = 3 –11; 11; 11 průměr 11 SD 0 n = 3 – Časté chyby při statistických výpočtech •Uvedení průměru bez směrodatné odchylky SD a bez N •Procenta –Regulovaná složka stoupla o 200 %, silová zlevnila o 20 %. Jak se změnila celková cena? –Regul: 100,- Kč → 300,- Kč původní cena 3100,- Kč –Silová: 3000,- Kč → 2700,- Kč nová cena: 3000,- Kč –Nejen procenta, ale i z jakých základů se počítají •snížení platu o 30 % a jeho následné zvýšení o 30 % –při původním platu 100 Kč je plat po snížení 70 Kč (-30 %), ale po následném zvýšení o 30 % pouze 91 Kč. • • Testování hypotéz, koncept věcné vs. statistické významnosti •Postup testování hypotéz → poměrně jasný a jednoduchý. •Vytvoříme hypotézu H0, o které předpokládáme, že platí. Proti ní postavíme alternativu (HA). Sesbíráme data. Najdeme věrohodný aparát, který konstatuje, zda domněnka platí nebo ne → statistický test. •chyba 1. druhu se značí a a nazývá se hladina významnosti. Výraz 1 - a se nazývá spolehlivost •chyba 2. druhu se značí b. Výraz 1 - b se nazývá síla testu •Obvyklé hodnoty spolehlivost: 0,95 nebo 0,99; •síla testu např. 0,8 → volíme např. hladinu významnosti a = 0,05 nebo 0,01. Testování hypotéz výsledek testu hypotéza H0 platí hypotéza HA platí reálná situace hypotéza H0 platí správné rozhodnutí chyba 1. druhu značí se a hypotéza HA platí chyba 2. druhu značí se b správné rozhodnutí Koncept věcné významnosti •Alternativou k statistické významnosti je posuzování tzv. věcné významnosti (effect size). Lze ji stanovit jako: ·minimální hodnotu v absolutních hodnotách znamenající věcnou významnost ·minimální vysvětlené procento rozptylu (relativní zhodnocení podílu ostatních faktorů – koeficient w2) •Pro jednotlivé testy lze v literatuře nalézt mnoho tzv. koeficientů věcné významnosti. Jednou z výhod konceptu věcné významnosti je nezávislost na počtu měření N. • koeficient hodnocení efektu Korelační koeficient r r2 koeficient determinace malý (nízký) efekt: r = 0,10 – 0,30 střední efekt: r = 0,31 – 0,70 velký (výrazný) efekt: r = 0,71 – 1 t-test Cohenovo d d = 0,20 malý efekt d = 0,50 střední efekt d = 0,80 velký efekt Normalita •Kolmogorov-Smirnov a Shapiro-Wilks test •Proč? rozhodnutí, zda použít parametrické nebo neparametrické testy http://www.scio.cz/images/vyvoj_testu/1000px-Standard_deviation_diagram_%28decimal_comma%29_svg.png Pro normální rozložení platí: - průměr ± 1 SD cca 68 % případů - průměr ± 2 SD cca 95 % případů - průměr ± 3 SD cca 99 % případů Korelace ANEB korelace není kauzalita •= vzájemný vztah mezi veličinami proměnnými, jevy (dostatečně velký rozsah) •Úkol: zjistit závislost a popsat ji •Př. 3 proměnné: –BMI –% fat –WHR • Korelační koeficient •R: <-1 do 1> •Omezení: –předpokládá 2-rozměrné norm.rozdělení –měří pouze vztahy lineární –nerozeznává, která proměnná je závislá a která nezávislá. Nelze rozhodnout o příčinnosti vztahu mezi proměnnými •interpretace ® dodatečné koeficienty, např. index determinace r2 •Pearsonův, neparametrický Spearmonův •jednoduchý, parciální, mnohonásobný http://upload.wikimedia.org/wikipedia/commons/thumb/d/d4/Correlation_examples2.svg/506px-Correlatio n_examples2.svg.png % fat WHR BMI % fat 1 0,36 0,41 WHR 0,36 1 0,85 BMI 0,41 0,85 1 Nejvyšší jednoduchý korelační koeficient je mezi proměnnými BMI a WHR a to 0,85. Celkem vysvětluje 72,2 % procent celkové variability mezi těmi to proměnnými. K číslu 72,2 % jsme dospěli pomocí koeficientu determinace (r2 = 0,852 = 0,722). Příklad T-testy •Testy o rovnosti středních hodnot dvou výběrů •Jaký konkrétní t-test vybrat? •varianta testu bude –parametrická (závislé, nezávislé soubory) –neparametrická (Wilcoxonův - závislé, Mann-Whitneyův test nezávislé hodnoty – •Statistická vs. věcná významnost • T-test • T-test - příklad •Cohenovo d –d > 0,8 ® velký efekt –d z intervalu 0,5 – 0,8 ® střední efekt –d < 0,2 ® malý efekt •d = 0,44 •rozdíl mezi oběma disciplínami je i věcně i statisticky významný. d={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{s}}. s={\sqrt {{\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}}}} Zdroje: •Cyhelský, L., Kahounová, J., & Hindls, R. (2001). Elementární statistická analýza. (2. dopl. vyd., 318 s.) Praha: Management Press. •Hendl, J. (2006). Přehled statistických metod zpracování dat: analýza a metaanalýza dat. (Vyd. 2., opr., 583 s.) Praha: Portál. •Meloun, M., & Militký, J. (1998). Statistické zpracování experimentálních dat. (2. vyd., xxi, 839 s.) Praha: East Publishing. • •Sebera, M. Vícerozměrné statistiky, 2013 •Zvonař, M., Pavlík, J ., Sebera, M., Vespalec, T. & Štochl, J. Vybrané kapitoly z antropomotoriky. Brno: Masarykova univerzita, 2010.