aneb PRŮVODCE STATISTICKÝM ZPRACOVÁNÍM KVANTITATIVNÍCH DAT Z Á K L A D Y S T A T I S T I K Y Přednášky np4001+nk4001 Doc. RNDr. Jiří Zháněl, Dr. DOPORUČENÁ LITERATURA Anděl, J. (1993). Statistické metody. Praha: Matfyzpress. Cyhelský, L., Kahounová, J. & Hindls, R. (1996). Elementární statistická analýza. Praha: Management Press. Gajda,V. & Zvolská, J. (1982). Úvod do statistických metod. PF Ostrava. Skriptum. Gibilisco, S. (2009). Statistika bez předchozích znalostí. Brno: Computer Press. DOPORUČENÁ LITERATURA Hendl, J. (2012). Přehled statistických metod zpracování dat. Analýza a metaanalýza dat. Praha: Portál. Kovář, R. & Blahuš, P. (1989). Aplikace vybraných statistických metod v antropomotorice. Praha: SPN. Skriptum. Meloun M. & Militký, J. (1994). Statistické zpracování experimentálních dat. Praha: Plus. DOPORUČENÁ LITERATURA Meloun M. & Militký, J. (1996). Statistické zpracování experimentálních dat. Sbírka úloh. Pardubice: Univerzita Pardubice. Seger, J. & Hindls, R. (1993). Statistické metody v ekonomii. Praha: H & H. Seger, J. & Hindls, R. (1995). Statistické metody v tržním hospodářství. Praha: Victoria Publishing. A mnoho dalších … PROGRAM PŘEDNÁŠEK 1.ÚVOD 1.1 Historie statistiky, pojem a struktura statistiky, základní statistické pojmy 1.2 Teorie měření, měřící stupnice (škály), metodologické problémy měření PROGRAM PŘEDNÁŠEK 2. DESKRIPTIVNÍ (POPISNÁ) STATISTIKA 2.1 Statistické třídění dat, zpracování a grafické znázornění 2.1.1 Jednorozměrné rozdělení četností 2.1.2 Jednorozměrné intervalové rozdělení četností 2.1.3 Grafické znázornění rozdělení četností 2.2 Míry polohy 2.3 Míry variability 2.3.1 Kvantilové míry variability 2.3.2 Momentové míry variability PROGRAM PŘEDNÁŠEK 2.4 Standardní skóre 2.5 Míry závislosti 2.5.1 Závislost pevná, volná, statistická a korelační 2.5.2 Lineární korelace a lineární regrese 2.5.3 Součinová a pořadová korelace 3. ANALYTICKÁ STATISTIKA 3.1 Věcná a statistická významnost 3.2 Testování statistických hypotéz 1.1 HISTORIE STATISTIKY (k samostudiu) „Nur wer die Vergangenheit kennt, hat eine Zukunft“. „Only he who knows the past has a future“. Wilhelm von Humboldt (1767-1835, německý učenec a státník, spoluzakladatel Humboldt-Universität zu Berlin). 1.1 HISTORIE STATISTIKY Nejstarší písemné památky statistické povahy pocházejí ze Sumeru (nejstarší stát světa 3000 – 2000 př. n. l., Perský záliv). Hliněné destičky obsahují záznamy o časových intervalech, počtech osob, počet domácího zvířectva, množství úrody, atd. 1.1 HISTORIE STATISTIKY Pojem statistika pochází z latinského slova status (tj. postavení, stav). Počátky statistických postupů využívány již ve středověku ke zjišťování počtu obyvatelstva, velikosti majetku, území, obchodu, armády, atd. Statistika jako součást přednášek na středověkých univerzitách => (1) UNIVERZITNÍ STATISTIKA. 1.1 HISTORIE STATISTIKY V 17. století se Angličané John Graunt a William Petty zabývali zkoumání různých hromadných společenských jevů za pomocí číselných charakteristik skupin obyvatelstva (např. počty narozených a zemřelých osob, počtem obyvatel a složením rodin). Tyto postupy byly nazvány (2) POLITICKÁ ARITMETIKA (využitelné politicky, používány aritmetické postupy). 17. století: (3) TEORIE PRAVDĚPODOBNOSTI • Francie (B. Pascal, P. de Fermat, de Moivre, de Laplace, Poisson); • Holandsko (Ch. Huygens); • Švýcarsko (J. Bernoulli, Euler); • Německo (C. F. Gauss) • Rusko (Čebyšev, Markov, Ljapunov). 1.1 HISTORIE STATISTIKY 19. století = postupná integrace: UNIVERZITNÍ STATISTIKA + POLITICKÁ ARITMETIKA + TEORIE PRAVDĚPODOBNOSTI  MODERNÍ STATISTIKA Aplikace do praxe, do výzkumu o příčinných vztazích mezi hromadnými jevy (Belgie, L. A. J. Quételet). Později pronikání statistiky do přírodních a technických věd (Anglie, Galton, Pearson a Fisher). HISTORIE STATISTIKY V ČECHÁCH Nejstarší dochovaný zápis: „SOUPIS MAJETKU LITOMĚŘICKÉHO KOSTELA Z ROKU 1058“ (součást zakládací listiny kapituly sv. Štěpána v Litoměřicích, Český statistický úřad, www.czso.cz). VÝZNAMNÁ DATA ➢ 6. března 1897 … zřízen Zemský statistický úřad Království českého, (první statistický úřad na území dnešní České republiky). ➢ 1909 … vyšla první „Statistická příručka království Českého“. ➢ 13. října 1753 … patent císařovny Marie Terezie (1717 – 1780) o každoročním sčítání lidu, HISTORIE STATISTIKY V ČECHÁCH VÝZNAMNÁ DATA 1918 (vznik Československa) => zákon č. 49 o organizaci statistické služby (1919). 1919 … založen STÁTNÍ ÚŘAD STATISTICKÝ (SÚS) jako orgán pověřený celostátními statistickými šetřeními (např. sčítání lidu). 1.1.1993 (vznik ČR) všechny kompetence převzal ČESKÝ STATISTICKÝ ÚŘAD (ČSÚ). HISTORIE STATISTIKY V ČECHÁCH NEJŽÁDANĚJŠÍ INFORMACE: inflace, makroekonomické údaje, obyvatelstvo, regiony, města, obce, ročenky, sčítání lidu, volební výsledky, základní údaje o ČR. Český statistický úřad (ČSÚ) 1.1.2 POJEM A STRUKTURA STATISTIKY STATISTIKA OBECNĚ Obor zabývající se zpracováním, rozborem a zveřejňováním informací, které kvantitativně charakterizují zákonitosti společenského života (Encyklopedický slovník, 1982). 1.1.2 POJEM A STRUKTURA STATISTIKY MATEMATICKÁ STATISTIKA Matematický obor zabývající se zpracováním dat a rozborem statistických charakteristik popisovaného statistického souboru (Encyklopedický slovník, 1982) Např. Pravděpodobnost a statistika (Friesl, 2004). Definice náhodného jevu: Je-li dána množina Ω (všech výsledků náhodného pokusu, tj. pokusu, jehož výsledek není jednoznačně určen podmínkami, za kterých je prováděn), pak náhodným jevem (v Ω) nazýváme každou podmnožinu množiny Ω. Základy statistiky = opravdu jen ZÁKLADY! (viz příklad) (MATEMATICKÁ) STATISTIKA 1. DESKRIPTIVNÍ (popisná) 2. ANALYTICKÁ (inferentní, induktivní, srovnávací) 1. DESKRIPTIVNÍ STATISTIKA se zabývá zpracováním a popisem dat. Poskytuje metody umožňující přehledné a názorné zpracování dat, např. v podobě: ▪tabulek, ▪ grafů (znázornění rozložení četností), ▪ výpočtu základních statistických charakteristik (např. aritmetický průměr nebo korelační koeficient). 2. ANALYTICKÁ (INFERENTNÍ) STATISTIKA vychází z výsledků deskriptivní statistiky (zpracování dat), umožňuje nám data analyzovat, tzn. vyhodnotit. Tedy např. posoudit, zda diference mezi středními hodnotami (M) výsledků testu „skok daleký z místa“ tréninkových skupin A a B je statisticky (věcně) významná, což může být vysvětleno vlivem různých tréninkových metod. SYMBOLICKÉ ZNÁZORNĚNÍ FUNKCE STATISTIKY STATISTIKA = ZPRACOVÁNÍ + POPIS + ANALÝZA DAT 1.1.3 ZÁKLADNÍ STATISTICKÉ POJMY STATISTICKÝ SOUBOR je souhrn (množina) statistických jednotek stejného druhu Rozlišujeme pojmy základní soubor a výběrový soubor. Rozsah základního souboru N, výběrového souboru n. Základní soubor (populace, N) je soubor všech statistických jednotek, které teoreticky mohou být předmětem sledování. Např. 1) všichni studenti oboru TV a sport v ČR, Evropě, 2) všichni členové fotbalové reprezentace v roce 2022, 3) všechny pětileté děti v ČR narozené k 1.1. 2022, … ZÁKLADNÍ SOUBOR (ZS) (stručné opakování z Metodologie) ZS má zpravidla značný rozsah, zjištění zkoumaných vlastností všech prvků je buďto nemožné nebo je příliš časově a ekonomicky náročné. Výzkumné šetření (zjištění) se proto provádí u vybraných jednotek ze základního souboru => výběrový soubor (n). Výběrový soubor je náhodnou podmnožinou prvků základního souboru a reprezentuje jej. Z výsledků výzkum úrovně znaků (TV, H, síla) výběrového souboru (náhodně vybraného) je možno usuzovat – při splnění určitých podmínek – na vlastnosti základního souboru. VÝBĚROVÝ SOUBOR (VS) získáváme tzv. NÁHODNÝM VÝBĚREM. Každý prvek základního souboru má stejnou možnost být vybrán. O vybrání či nevybrání do výběrového souboru rozhoduje tedy pouze náhoda. Př. ZS (N=10 000) = studenti TV v CZ, VS (n=100) METODY NÁHODNÉHO VÝBĚRU PRVKŮ DO VÝBĚROVÉHO SOUBORU (VS) I. LOSOVÁNÍ • losování statistických jednotek s jejich vracením do osudí (u malých souborů), • losování statistických jednotek bez vracení do osudí (u velkých souborů), • generátor náhodných čísel (software) Generátor náhodných čísel ukázat na příkladu (Data-vypocty)! II. Tabulka náhodných čísel Např. ze základního souboru N=540 máme vybrat n=12 1. V tabulce zvolíme libovolné číslo, od něj čteme uvedená čísla s potřebným počtem míst (např. N=540 => trojmístná čísla). 2. Do výběru zahrnujeme ty jednotky základního souboru, jejichž přiřazená čísla jsou < 540. 3. Čísla vyšší než rozsah základního souboru vynecháme. 4. Pokračujeme tak dlouho, než dosáhneme požadovaného rozsahu výběrového souboru. N=540 n=12 VÝSLEDEK: 936 (mimo), 175, 154, 928, 532, 571, 509, 047, 510, 341, 397, 038, 322, 437, 858, 616, 570, 418. Možno vyzkoušet pomocí Excelu – Analýza dat – Generátor náhodných čísel: Typ rozložení - diskrétní Počet proměnných – dle počtu číslic jednociferné n = 1 dvouciferné n = 2 atd. Pro N=54O se počet proměnných rovná 3. IV. STRATIFIKOVANÝ VÝBĚR … vychází z rozdělení základního souboru na skupiny (straty), z každé z nich se pak dělá náhodný výběr. Je žádoucí proporcionální zastoupení ve výběru ze straty (neproporcionální ve specifických případech). Př. 1. výzkumný soubor „vysokoškoláci“ (= studující techniky, univerzity, uměleckých vysokých škol, atd.). III. SKUPINOVÝ VÝBĚR … užívá se, je-li základní soubor velmi početný a je uspořádán do skupin (např. třídy ve škole), z nichž vybíráme skupiny – nutný je dostatečný počet skupin. Př. 2. výzkumný soubor „učitelé s praxí do …“ (1. do 5 let, 2. do 10 let, 3. do 15 let, do 20 let, atd.). V. ZÁMĚRNÝ VÝBĚR … nerozhoduje náhoda, výzkumník sám vybírá jedince jež považuje za typické (subjektivní výběr). Výsledky se týkají jen daného výběru (v závěrech výzkumu nutná formulace: „na daném vzorku se prokázalo. že…“)!!! Problém: výběr x dobrovolníci (rozdíly - vyšší výkon, motivace, větší potřeba sociálního uznání, …). Nelze je použít při standardizaci testů! Další podrobnosti např. Chrástka, M. (2007). Metody pedagogického výzkumu. STATISTICKÉ JEDNOTKY jsou prvky statistického souboru, které mají alespoň jednu společnou vlastnost (znak) Statistickými jednotkami mohou být např. osoby (subjekty), věci (objekty), resp. události, jejichž vlastnosti nás zajímají. Zjišťujeme-li pouze jeden statistický znak (např. tělesnou výšku), hovoříme o jednorozměrném statistickém souboru. Zjišťujeme-li dva nebo více znaků, hovoříme o dvourozměrném (výška a hmotnost), resp. vícerozměrném statistickém souboru (3 a více znaků). STATICKÉ ZNAKY (stručné opakování z Metodologie) Vyjádření hodnot statistických znaků (proměnných) je možné slovy nebo čísly. Klasifikace: 1. Slovní proměnné = alfabetické (kategoriální) se označují jako KVALITATIVNÍ ZNAKY. 2. Číselné proměnné = numerické se označují jako KVANTITATIVNÍ ZNAKY. STATICKÝ ZNAK je společná vlastnost jednotek statistického souboru Statistické znaky vyjadřují vlastnosti statistických jednotek. 1. KVALITATIVNÍ ZNAKY (kategoriální, slovně) Např. muž/žena, plavec/neplavec, zdravý/nemocný barva očí: zelené, modré, hnědé, …, herní kategorie: žáci mladší, starší, junioři, …  alternativní (binární, dichotomické): nabývá-li znak pouze dvou variant (muž/žena)  množné (polytomické): nabývá-li znak více než dvou variant (barva očí: zelená, modrá, černá). 2. KVANTITATIVNÍ ZNAKY  spojité neboli kontinuální nabývají libovolných reálných číselných hodnot: např. výsledek v běhu na 100 m (10,7 s), ve skoku vysokém (220 cm). Mezi 2 hodnotami může být vždy další hodnota: (10,7 s; 10,72 s; 10,723 s)  nespojité neboli diskrétní (nabývají pouze konečný počet číselných hodnot, nejčastěji z oboru celých nezáporných čísel. např. počet úspěšných hodů na koš, leh-sedy, kliky). 1.2 TEORIE MĚŘENÍ, MĚŘÍCÍ STUPNICE (ŠKÁLY) 1.2.1 ZÁKLADNÍ POJMY TEORIE MĚŘENÍ Měření … v průběhu historického vývoje lidské společnosti je běžné jeho každodenní užití (např. hodinky, tachometr automobilu, váha, atd.). Historické počátky měření … porovnávání objektů s počtem prstů, délkou palce, délkou chodidla, lokte, paže, tj. primitivní měřící způsoby. Rozvoj vědy a techniky složitých měřících přístrojích. 1.2 TEORIE MĚŘENÍ, MĚŘÍCÍ STUPNICE (ŠKÁLY) 1.2.1 ZÁKLADNÍ POJMY TEORIE MĚŘENÍ a) Měřitelnost fyzikálních vlastností (délka, čas, hmotnost), Problematiku kvantifikace (měření) řeší obor nazývaný TEORIE MĚŘENÍ. b) Měřitelnost psychických vlastností (inteligence, strach, postoje atd.). REPREZENTAČNÍ TEORIE MĚŘENÍ (Campbell): … měření jako „přiřazování číslic k reprezentaci vlastností“. Později doplněna o formulaci „…za měření lze považovat každé přiřazování číslic k objektům nebo událostem … podle pravidel (Stevens). KLASICKÁ KONCEPCE MĚŘENÍ ROZLIŠUJE (1) FUNDAMENTÁLNÍ (ZÁKLADNÍ) MĚŘENÍ (2) ODVOZENÉ MĚŘENÍ Další autoři zmiňují (3) MĚŘENÍ ASOCIATIVNÍ (Berka, 1977) resp. asociační (Blahuš, 1996), označované rovněž jako měření per fiat, per Definition, by fiat či měření na základě konvence. (1) FUNDAMENTÁLNÍ (ZÁKLADNÍ) MĚŘENÍ „se vztahuje na bezprostřední měření veličin“ a je to „každé měření, které nezahrnuje žádná předcházející měření“. Příklad: měření tělesné výšky (2) ODVOZENÉ MĚŘENÍ „předpokládá jiná, dříve provedená měření, z nichž je odvozeno na základě vztahů“; a tedy „závisí na předcházejících měřeních“. Příklad: „měření“ objemu kvádru (3) ASOCIATIVNÍ MĚŘENÍ (ASOCIAČNÍ) je takové měření, kdy „je přímo měřená veličina asociována s nepřímo měřitelnou veličinou“. Příklad 1. Při měření teploty vycházíme ze závislosti změny objemu kapaliny na teplotě. Příklad 2. Při testování úrovně vytrvalosti pomocí Cooper testu vycházíme z předpokládané asociace (vztahu) mezi uběhnutou vzdáleností (měřitelná) a úrovní vytrvalostní schopnosti (nepřímo měřitelná). 1.2.2 MĚŘÍCÍ STUPNICE (ŠKÁLY) Empirická proměnná Tělesná výška Numerická proměnná cm Numerická proměnná Testové skore Empirická proměnná Kondice Rozdíl ve způsobu měření a přiřazení! TEORII ŠKÁL (pojem škála, resp. stupnice) ZÁKLADNÍ DRUHY ŠKÁL (STUPNIC) 1. NOMINÁLNÍ škála (jmenná, klasifikační) 2. ORDINÁLNÍ škála (pořadová) 3. METRICKÉ škály NEMETRICKÉ METRICKÉ INTERVALOVÁ POMĚROVÁ MÍRY VARIABILITY DATA NOMINÁLNÍ ORDINÁLNÍ METRICKÉ MÍRY POLOHY MODUS MEDIÁN ARITMETICKÝ PRŮMĚR Entropie (uspořádanost) Kvartilové rozpětí Kvartilová odchylka Rozptyl Standardní odchylka Variační koeficient 1. NOMINÁLNÍ ŠKÁLA (jmenná, klasifikační) … je škála založena na jakémkoliv přiřazování číslic ve smyslu pouhého pojmenování. Jde vlastně o pojmenování osob či skupin čísly, o uspořádání do tříd, které se navzájem vylučují. Např. pohlaví (M/Ž), kuřák/nekuřák, národnost, čísla hráčů, věkové kategorie (U10–U18) 1. NOMINÁLNÍ ŠKÁLA Třídění na znaky: 1. alternativní (binární, dichotomické) = 2 možnosti (plavec/neplavec; kuřák/nekuřák; muž/žena) 2. množné (polytomické) = více než 2 možností (oči zelené, modré, hnědé; věkové kategorie: žáci mladší, starší, junioři) -------------------------------------------------------------------------------------- Základní empirická operace: „určení rovnosti“. Možné relace: =, , Zpracování znaků: neparametrické statistické metody 2. ORDINÁLNÍ ŠKÁLA (pořadová) Škála umožňuje uspořádání objektů do pořadí, je možno určit vztah větší či menší, těžší či lehčí, atd. Nejsou známy odstupy (intervaly) mezi znaky (čísly) !!! Např. školní známky, stupnice tvrdosti, pořadí v cíli. -------------------------------------------------------------------------------------------------------- Základní empirické operace: „určením rovnosti“ a „určením vztahu více nebo méně“. Relace: =, , >, <, Zpracování znaků: neparametrické statistické metody. … předpokládá přirozené uspořádání objektů vzhledem k nějaké vlastnosti. 3. METRICKÉ ŠKÁLY (INTERVALOVÁ A POMĚROVÁ) 3. 1 INTERVALOVÁ ŠKÁLA … vyžaduje stanovení měrové jednotky a počátku, jsou přípustné všechny aritmetické operace. Nula je zvolená!!! => stanovení počátku dohodou. Je zavedena jednotka měření, tzn. jsou známy odstupy (intervaly) mezi hodnotami (čísly). Nutný předpoklad: normální rozložení četností! Např. letopočet (Diokleciánův, byzantský, křesťanský, čínsky, atd.), teplota ve ○C (bod tání ledu = 0°C a bod varu = 100°C při tlaku vzduchu 1013,25 hPa). 3. 2 POMĚROVÁ ŠKÁLA … z formálního hlediska vlastně intervalová škála s přirozeným počátkem, jsou přípustné všechny aritmetické operace. Nula je absolutní … (nepřítomnost jevu). Např. čas, věk, výška, hmotnost, teplotní stupnice dle Kelvina (v podstatě všechny fyzikální jednotky). Statistické metody: parametrické i neparametrické. 3. METRICKÉ ŠKÁLY (INTERVALOVÁ A POMĚROVÁ) NEMETRICKÉ ŠKÁLY METRICKÉ ŠKÁLYTYP ŠKÁLY NOMINÁLNÍ ORDINÁLNÍ INTERVALOVÁ POMĚROVÁ Příklady Číselné označení barev, psychologického typu, pohlaví, atd. Školní známky, stupnice tvrdosti, služební pořadí, Richterova stupnice Teplota ve°C, Fahrenheita, letopočet, inteligenční kvocient Teplota °Kelvina, věk, váha, výška, velikost úhlu, čas Operace = ,  = , , >, < Navíc: intervaly, nula zvolená Navíc: nula absolutní Statistické charakteris. Modus, absolutní a relativní četnosti Navíc: medián, kvantily a kvantilové odchylky, procentily Navíc: arit. Průměr, směrodat.odchylka, šikmost, špičatost Navíc: koeficient variability, geometr. průměr Testy Významnosti  2 - test, McNemar test, Cochran test,... Znaménkový test, Mann-Whitney Utest, Friedmanova pořadová analýza variance, aj. Parametrické metody: F-test t-test (pro závislé či nezávislé soubory) Parametrické metody: F-test t-test (pro závislé či nezávislé soubory) Míry závislosti Kontingenční a čtyřpolní koeficient Navíc: pořadová korelace Navíc: Pearsonova součinová korelace Navíc: Pearsonova součinová korelace Statistické metody Některé neparametrické metody Všechny neparametrické metody Všechny neparametrické a parametrické metody Všechny neparametrické a parametrické metody Přehled typů škál (Bruhn, 1986; Roth, 1995) Inteligenční kvocient (IQ; Stern, 1912) je index inteligence, který má normální rozložení s průměrem 100 a standardní odchylkou 15. POSTUP PŘI URČENÍ TYPU ŠKÁLY: A. výška (cm) 3. Lze stanovit pořadí? 1. Je známa jednotka měření? 2. Je počátek zvolený nebo absolutní? 4. Jedná se jen o pojmenování znaků čísly? Nemá smysl zjišťovat Nemá smysl zjišťovat ANO absolutní Znaky ? - Kvantitativní - Výška = spojitý Škály metrické POMĚROVÁ POSTUP PŘI URČENÍ TYPU ŠKÁLY: B. dějepis (zn) 3. Lze stanovit pořadí? 1. Je známa jednotka měření? 2. Je počátek zvolený nebo absolutní? 4. Jedná se jen o pojmenování znaků čísly? Nemá smysl zjišťovat ANO NE Nemá smysl zjišťovat Znak? - Kvantitativní - Dějepis = spojitý => Nemohou být metrické => ORDINÁLNÍ Pozn. Známky jsou spojitými znaky, i když jsou měřeny pouze na ordinální škále. Slide 57 Z jakých škál jsou uvedené proměnné? Studenti sami … potom kontrola! ŠKÁLA ZNAKZnak Nominální (a) Ordinální (b) Intervalová (c) Poměrová (d) Spojitý (e) Diskrétní (f) 1. Pohlaví 2. Věk 3. Počet sourozenců 4. Známka z matematiky 5. Inteligenční kvocient 6. Hodnocení v krasobruslení 7. Výkon ve skoku dalekém Klasifikujte znaky obsažené v tabulce – správnou odpověď označte křížkem (X) Pozn. Známky jsou spojitými znaky, i když jsou měřeny pouze na ordinální škále. Řešení: 1. a, f; 2. d, e; 3. d, f; 4. b, e; 5. c, e; 6. d, e; 7. d, e. Pozn. Známky jsou spojitými znaky, i když jsou měřeny pouze na ordinální škále. ŠKÁLA ZNAKZnak Nominální (a) Ordinální (b) Intervalová (c) Poměrová (d) Spojitý (e) Diskrétní (f) 1. Pohlaví 2. Věk 3. Počet sourozenců 4. Známka z matematiky 5. Inteligenční kvocient 6. Hodnocení v krasobruslení 7. Výkon ve skoku dalekém ANALÝZA JEDNOROZMĚRNÉHO SOUBORU 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální  neparametrické statistické metody b) metrické  parametrické statistické metody 2. ROZLOŽENÍ ČETNOSTÍ ZNAKŮ (NORMÁLNÍ ČI JINÉ) a) normální  parametrické statistické metody b) jiné  neparametrické statistické metody 3. VÝPOČET ZÁKLADNÍCH STATISTICKÝCH CHARAKTERISTIK a) míry centrální tendence (M, Mo, Me) b) míry variability (s, …) c) míry závislosti (r) METODY DESKRIPTIVNÍ STATISTIKY 2.1 STATISTICKÉ TŘÍDĚNÍ DAT Výsledkem měření, testování, dotazování jsou neuspořádaná, neroztříděná a nepřehledná data (tzv. hrubé skóre). Tabulka 1: Výsledky testování tenistů U12 (n = 10) Věk Výška Váha BMI IPR SH RB V PTC RRR RRN SR 11,0 150,0 36,0 16,0 1,7 24,8 15,0 153,9 43 0,52 0,45 0,69 11,0 155,5 46,0 19,0 2,1 26,7 15,9 159,8 40 0,77 0,49 0,58 11,0 151,0 36,4 16,0 2,7 19,5 15,4 161,2 40 0,63 0,41 0,54 11,0 150,0 39,8 17,7 1,9 23,4 14,4 151,7 40 0,56 0,43 0,59 11,0 144,0 35,0 16,9 2,3 23,7 14,6 153,9 35 0,56 0,54 0,68 11,0 143,0 38,6 18,9 1,4 15,2 14,0 155,3 38 0,69 0,43 0,39 11,0 144,0 41,2 19,9 3,3 20,0 16,2 165,7 17 0,66 0,51 0,49 11,0 153,0 37,0 15,8 2,9 20,0 14,8 158,8 41 0,61 0,46 0,54 11,1 155,0 40,0 16,6 1,4 19,3 15,5 142,4 48 0,47 0,37 0,48 11,1 140,0 32,8 16,7 2,8 20,2 15,0 163,2 37 0,56 0,40 0,62 Chceme-li získat přesnější, smysluplnější, podrobnější informace, je třeba údaje uspořádat: Hovoříme o statistickém zpracování (třídění) dat. Nejjednodušším způsobem statistického zpracování dat je tzv. tabulka rozdělení (rozložení) četností. (2) spojité statistické znaky s malým počtem výskytu (např. pro statistické soubory s malým rozsahem). 2.1.1 JEDNOROZMĚRNÉ ROZDĚLENÍ ČETNOSTÍ JEDNA VLASTNOST (např. tělesná výška) statistického souboru je charakterizovaná JEDNÍM STATISTICKÝM ZNAKEM (170 cm) – jedná se tedy o jednorozměrný statistický soubor. Konstrukce tabulky - postup vhodný pro: (1) nespojité kvantitativní statistické znaky (např. počet dětí v rodině, úspěšné koše), PŘÍKLAD 1. Při dvakrát opakovaném testování střelby na koš byly u deseti osob (n=10) zjištěny výsledky uvedené v tabulce (zaznamenán počet úspěchů z deseti pokusů při 1. resp. 2. testování). Tabulka (hrubé skóre) Hráč A B C D E F G H J K xi 7 6 7 8 9 8 8 8 9 10 yi 4 8 6 8 7 8 7 4 8 10 Posouzení znaků xi:  … tabulka jednorozměrného rozdělení četností. Pro znaky x i sestavte (frekvenční) tabulku rozdělení četností. kvantitativní, nespojité, poměrová  … Frekvenční tabulka jednorozměrného rozdělení četností. Xi Čárkovací metoda ni fi Kumulativní četnost Ni Fi 6  1 0.1 1 0.1 7   2 0.2 3 0.3 8     4 0.4 7 0.7 9   2 0.2 9 0.9 10  1 0.1 10 1.0  10 1.0 - - Vysvětlivky: n...rozsah souboru xi...hodnota znaku ni...absolutní četnost fi...relativní četnost (fi = ni /n) Ni ... absolutní kumulativní četnost Fi ... relativní kumulativní četnost Absolutní četnost – vyjadřuje absolutní výskyt jednotlivých znaků, relativní četnost – vyjádření v procentech. Kumulativní relativní četnost – vyjadřuje v % (po vynásobená stem) jaké procento rozsahu souboru má odpovídající variantu a menší hodnotu dané proměnné. F i = 0,7 => 70 % hráčů dosáhlo výsledku 8 úspěšných pokusů a méně. Xi Čárkovací metoda ni fi Kumulativní četnost Ni Fi 6  1 0.1 1 0.1 7   2 0.2 3 0.3 8     4 0.4 7 0.7 9   2 0.2 9 0.9 10  1 0.1 10 1.0  10 1.0 - - (2) nespojité statistické znaky s velkým počtem výskytů. 2. 1. 2 JEDNOROZMĚRNÉ INTERVALOVÉ (SKUPINOVÉ) ROZDĚLENÍ ČETNOSTÍ Konstrukce tabulky jednorozměrného intervalového rozdělení četností je postup vhodný pro: (1) spojité kvantitativní statistické znaky (např. výsledky měření běhu na 100 m, tělesné výšky, skoku dalekého), Je-li n < 30 doporučuje se vytvořit ne více než 6 intervalů. Je-li 30 < n < 100 doporučuje se vytvořit 7 až 10 intervalů. DOPORUČENÁ PRAVIDLA pro konstrukci tabulky jednorozměrného intervalového rozložení četností URČENÍ ŠÍŘKY A POČTU INTERVALŮ Variační rozpětí (R) R = x max – x min Šířka intervalu (h) h = 0,08 x R Počet intervalů (k) k = n k  5. log n k  1 + 3.3 log n (Sturgesovo pravidlo) Intervaly musí být vytvořeny tak, aby jeden statistický znak nemohl být současně zařazen do dvou různých intervalů!!! Intervaly na sebe musejí navazovat!!! POZOR ! POZOR ! PŘÍKLAD 2. Pro znaky yi sestavte tabulku skupinového (intervalového) rozdělení četností. Variační rozpětí (R) R = x max – x min R = 10 - 4 = 6 Šířka intervalu (h) h = 0,08 x R h = 0.08 x 6 = 0,48  1 (pokus) Hráč A B C D E F G H J K xi 7 6 7 8 9 8 8 8 9 10 yi 4 8 6 8 7 8 7 4 8 10 Pomocné výpočty pro určení šířky (h) a počtu intervalů (k) PŘÍKLAD 2. Pro znaky yi sestavte tabulku skupinového (intervalového) rozdělení četností.  Doporučená šířka intervalu: 1  Doporučený počet intervalů: 3 až 5 Pomocné výpočty pro určení šířky (h) a počtu intervalů (k) Počet intervalů (k) k = n k  5. log n k  1 + 3.3 log n k = 3.16 k  5 k  4.3 (log 10 = 1) Třída Interval Střed ni fi Ni Fi 1 4 – 5 4,5 2 0,2 2 0,2 2 6 – 7 6,5 3 0,3 5 0,5 3 8 – 9 8,5 4 0,4 9 0,9 4 10 – 10,5 1 0,1 10 1,0  - - 10 1,0 - Tabulka skupinového (intervalového) rozdělení četností (znak yi). 2. 1. 3 GRAFICKÉ ZNÁZORNĚNÍ ROZDĚLENÍ ČETNOSTÍ 1) HISTOGRAM ČETNOSTÍ (sloupkový diagram, sloupcový graf) Histogram … jedna z nejčastěji užívaných forem grafického znázornění rozdělení četností. Grafické znázornění = přehlednější a názornější forma znázornění rozdělení četností. Histogram je tvořen sloupci … jejich šířka odpovídá šířce třídního intervalu, … jejich výška odpovídá absolutní četnosti sledovaného statistického znaku. 2) (FREKVENČNÍ) POLYGON Forma grafického znázornění rozdělení četností, kdy místo sloupců použijeme ke znázornění rozdělení četností lomenou čáru. Tato lomená čára je spojnice bodů vytvořených v průsečících středů intervalů a příslušných četností. Frekvenční polygon inteligence citově deprivovaných dětí 0 5 10 15 20 25 30 35 66-70 71-75 76-80 81-85 86-90 91-95 96-100 101-105 106-110 111-115 116-120 IQ f 2) (FREKVENČNÍ) POLYGON 3) (GALTONOVA) OGIVA Pojem ogival je v architektuře používán pro lomený oblouk, ve statistice tento pojem charakterizuje esovitě lomenou křivku znázorňující kumulativní četnosti (absolutní nebo relativní). 4) VÝSEČOVÝ (SEKTOROVÝ) GRAF Jedná se o kruhový graf, vyjadřující relativní četnosti jako charakteristiku struktury daného souboru (nejčastěji v %). 62% 31% 7% 4) VÝSEČOVÝ (SEKTOROVÝ) GRAF 5) PIKTOGRAM Piktogram = grafický znak znázorňující pojem nebo sdělení obrazově (např. dopravní značky), též piktograf. Vyjadřuje absolutní četnosti bez nároků na přesnost, má spíše informativní charakter a používá obrazových symbolů (např. lokomotiva, váček s penězi, postava vojáka). Spotřeba energie v městě X v letech 1960 1970 1980 1990 2000 10 MW 22 MW 28 MW 43 MW 52 MW Třídy Četnost Kumul. % 5 2 20,00% 7 3 50,00% 9 4 90,00% Další 1 100,00% Pro znaky y sestavte tabulku skupinového (intervalového) rozdělení četností. Histogram 0 1 2 3 4 5 5 7 9 Další Třídy Četnost 0,00% 20,00% 40,00% 60,00% 80,00% 100,00% Četnost Kumul. % Histogram četností 20% 30% 40% 10% 5 7 9 Další Výsečový (sektorový) graf ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY PRO DATA ZÍSKANÁ NA ŠKÁLE NOMINÁLNÍ, ORDINÁLNÍ, METRICKÉ 31.10. konec np MÍRY VARIABILITY DATA NOMINÁLNÍ ORDINÁLNÍ METRICKÁ MÍRY POLOHY MODUS MEDIÁN ARITMETICKÝ PRŮMĚR Entropie (uspořádanost) Kvartilové rozpětí Kvartilová odchylka Rozptyl Standardní odchylka Variační koeficient 2. 2 MÍRY POLOHY Míry polohy (neboli míry centrální tendence) charakterizují úroveň statistického souboru z hlediska jeho střední hodnoty, …zevšeobecňují, zastupují, reprezentují jednotlivé hodnoty sledovaného statistického znaku, …umožňují srovnání polohy dvou či více rozdělení četností, resp., srovnání střední úrovně dvou či více souborů. Hod na koš (n=10): 6; 7; 7; 8; 8; 8; 8; 9; 9; 10 NEJČASTĚJI POUŽÍVANÉ MÍRY POLOHY 1. NOMINÁLNÍ STUPNICE (DATA) MODUS (Mo) označuje nejčastěji se vyskytující hodnotu statistického souboru (hodnota s největší četností). Modus je nejsnáze zjistitelná míra polohy. Soubor může mít jeden či více modů (soubor bimodální, soubor trimodální). Modus je použitelný pro nominální stupnice (a všechny vyšší). Rozdělení bimodální 0 50 100 150 200 250 0 5 10 15 20 25 hodnota znaku četnost MEDIÁN (Me) označuje prostřední člen variační řady (dělí výsledky seřazené podle velikosti na polovinu). 2. ORDINÁLNÍ STUPNICE (DATA) Medián není citlivý na velikost krajních hodnot. Medián je použitelný pro ordinální stupnici (a vyšší). Ukázka výpočtu pro sudý a lichý počet dat: xi : 6 7 7 8 8 8 8 9 9 10 (sudý počet) xi : 6 7 7 8 8 8 8 9 9 10 10 (lichý počet) Mo = 8 Me = 8 3. METRICKÉ STUPNICE (DATA) ARITMETICKÝ PRŮMĚR (Mean, M) nejpoužívanější míra polohy, použitelný (pouze!) pro metrické škály. Výpočet: součet všech hodnot statistického souboru dělený rozsahem souboru (n). a) Aritmetický průměr prostý (jednoduchý) = = +++ = n i i n x nn xxx x 1 21 1... x - statistický znak n - rozsah souboru x i - hodnota statistického znaku x O … takto nikdy ! b) Vážený aritmetický průměr ➢ užívá se u početnějších souborů, výpočet vychází z rozdělení četností, ➢ vážený se nazývá proto, že jednotlivým hodnotám znaku je přisuzována váha odpovídající počtu výskytů.   = = = +++ +++ = m i i i m i i m mm w wx www wxwxwx x 1 1 21 2211 ... ... Wi … váha (počet výskytů) n … rozsah souboru (počet hodnot). = = m i iwn 1 b) Vážený aritmetický průměr – příklad využití Přijímací řízení FSpS 2015–2017 Výsledky testu běh na 100m 2015 (n = 350) M = 13,0 2016 (n = 230) M = 12,5 2017 (n = 120) M = 12,0   = = = +++ +++ = m i i i m i i m mm w wx www wxwxwx x 1 1 21 2211 ... ... Jaký je průměrný výkon v běhu na 100 m v letech 2015–2017? 13,0 x 350 + 12,5 x 230 + 12,0 x 120 = = 12,7 350 + 230 + 120 ??? 13,0 + 12,5 + 12,0 = 37,5/3 = 12,5 ??? Poznámky k rozložení četností a měr polohy • Při (Gaussově) normálním rozložení četností znaků jsou vypočítané střední hodnoty (aritmetický průměr, modus, medián) stejně velké. -4 -3 -2 -1 0 1 2 3 4 -4,0 -3,0 -2,0 -1,0 0 1,0 2,0 3,0 4,0 z - body směrodatné odchylky počet případů pod Gaussovou křivkou [%] 34,13% 13,59% 34,13% 13,59% 2,14% 2,14% 0,13%0,13% • Čím více se střední hodnoty liší, tím více je rozložení asymetrické (nejde o normální rozložení četností). PŘÍKLAD 3 Výpočet: modus, medián, aritmetický průměr. Hráč A B C D E F G H J K xi 7 6 7 8 9 8 8 8 9 10 yi 4 8 6 8 7 8 7 4 8 10 Variační řada znaku xi: 6, 7, 7, 8, 8, 8, 8, 9, 9, 10 Mo = ? Me = ? M = ? Vážený AP = ? Mo = 8 Me = 8 M = 8 Vážený AP = 8 SAMI: Variační řada znaku yi: 4, 8, 6, 8, 7, 8, 7, 4, 8, 10 Mo = ? Me = ? M = ? Vážený AP = ? Mo = 8 Me = 7,5 M = 7 Vážený AP = 7 Pomocí Excelu – Statistické funkce Výpočet: modus, medián, aritmetický průměr. MODE MEDIAN PRŮMĚR 2. 3 MÍRY VARIABILITY Popis statistického souboru pomocí měr polohy (určení středních hodnot) není dostačující - viz příklad! Př. 1: 3,4,5,6,7  25/5=5 (M=5) Př. 2: 1,2,5,8,9  25/5=5 (M=5) 1 10 1 10 MÍRY VARIABILITY Míry variability charakterizují ✓ vyrovnanost jednotek souboru, ✓ jak jsou hodnoty znaků souboru rozptýleny, jak se vzájemně odlišují, ✓ do jaké míry je sledovaný soubor homogenní (stejnorodý) resp. heterogenní (nestejnorodý, různorodý). V odborné literatuře jsou také označovány jako míry variace, rozptýlení, měnlivosti. Soubor homogenní Soubor heterogenní 2. 3. 1 KVANTILOVÉ MÍRY VARIABILITY (KMV) NEJČASTĚJI POUŽÍVANÉ KVM VARIAČNÍ ŘADA = znaky statistického souboru seřazené podle velikosti. VARIAČNÍ ROZPĚTÍ =diference mezi největší a nejmenší hodnotou znaku statistického souboru tj. R=xmax – xmin KVANTIL=hodnota kvantitativního statistického znaku, která rozděluje (láme) variační řadu na jisté části. KMV jsou využitelné pro stupnice ordinální a dále pro stupnice metrické v případech, kdy nelze prokázat normalitu rozložení četností dat (proč ne pro nominální stupnice?). Hráč A B C D E F G H J K xi 7 6 7 8 9 8 8 8 9 10 yi 4 8 6 8 7 8 7 4 8 10 VARIAČNÍ ŘADA znaků xi  VARIAČNÍ ŘADA znaků y i  4,4,6,7,7,8,8,8,8,10 VARIAČNÍ ROZPĚTÍ R = x max – x min  R = 10–4 = 6 PŘÍKLAD 4 Výpočet: variační řada, variační rozpětí. Totéž si sami vypočítat v přednášce pro znaky yi 6,7,7,8,8,8,8,9,9,10 R = 10–6 = 4VARIAČNÍ ROZPĚTÍ R = x max – x min  DRUHY KVANTILŮ (kvartil, decil, percentil) 1. KVARTIL (Y) … kvartily rozdělují variační řadu na čtvrtiny, na 4 skupiny. Dolní kvartil (Q1, x25) KOLIK MÁME KVARTILŮ? Horní kvartil (Q3, x75) (Střední kvartil) = medián VÝPOČET KVARTILU 5,0 100 +  = pn zp zp - pořadí kvantilu xp n - rozsah souboru p - kvartil Příklad : Určete dolní kvartil x25 , jestliže rozsah souboru je n = 40 Výsledek 10,5 znamená, že dolní kvartil x25 je průměrem desáté a jedenácté hodnoty variační řady znaků souboru. 5,105,0 100 2540 =+  =pz 2 )11()10( 25 xx x + = VÝPOČET KVARTILU 5,0 100 +  = pn zp zp - pořadí kvantilu xp n - rozsah souboru p - kvartil Příklad (basketbal) : Určete dolní (horní) kvartil x25 (x75), jestliže rozsah souboru je n = 10 (6,7,7,8,8,8,8,9,9,10) Výsledek 3,0 znamená, že dolní kvartil x25 je třetí (osmá) hodnota variační řady znaků souboru, tedy x25 = 7 (x75 = 9 ) Z25 = 10 x 25/100 + 0,5 = 2,5 + 0,5 = 3,0 Z75 = 10 x 75/100 + 0,5 = 7,5 + 0,5 = 8,0 2. DECIL … decily rozdělují variační řadu na desetiny, tedy na 10 skupin o 10% rozsahu souboru. Označují se x10, x20, …x90 3. PERCENTIL (PROCENTIL) … percentily rozdělují variační řadu na setiny, na 100 skupin o 1% rozsahu. Označují se x1, x2, …x99 DALŠÍ KVANTILOVÉ CHARAKTERISTIKY VARIABILITY KVANTILOVÉ ROZPĚTÍ ➢ kvartilové rozpětí x 75 – x 25 ➢ decilové rozpětí x 90 – x 10 ➢ percentilové rozpětí x 99 – x 1 KVANTILOVÉ ODCHYLKY a) kvartilová odchylka x 75 – x 25 Q = 2 b) decilová odchylka x 90 – x 10 D = 8 c) percentilová odchylka x 99 – x 1 C = 98 Je polovinou rozpětí krajních hodnot, není ovlivněna jejich extrémy. Je osminou rozpětí krajních decilů, záleží tedy na rozpětí prostředních 80% prvků souboru. Je devadesáti osminou rozpětí krajních percentilů. Předchozí „kvantilové míry variability“ udávají jen rozpětí, v němž se znaky pohybují. 2.3.2 MOMENTOVÉ MÍRY VARIABILITY (1) variaci (rozptýlení) ve smyslu vzájemné odlišnosti jednotlivých hodnot znaku mezi sebou, (2) variaci (rozptýlení) ve smyslu odlišnosti jednotlivých hodnot znaku od průměru. MOMENTOVÉ MÍRY VARIABILITY umožňují výpočet číselných charakteristik, které umožňují zjistit: NEJČASTĚJI POUŽÍVANÉ MOMENTOVÉ MÍRY VARIABILITY M … aritmetický průměr x i …hodnota znaku Rozptyl (s2) je aritmetickým průměrem ze čtverců odchylek jednotlivých hodnot znaku od jejich aritmetického průměru (nepožadováno). Rozptyl „měří“ variaci ve smyslu odlišnosti jednotlivých hodnot znaku od průměru i ve smyslu vzájemné odlišnosti jednotlivých hodnot znaku. (pro rozsáhlé soubory)  ( x i - M) 2 s2 = n 1. ROZPTYL 2. SMĚRODATNÁ (STANDARDNÍ) ODCHYLKA (s) Symbolický tvar s =  s2 (var x) Směrodatná odchylka (s) … je kvadratickým průměrem odchylek jednotlivých hodnot znaku od aritmetického průměru (nepožadováno).  ( x i - M ) 2 s =  n 1 )( 2 2 − − ==  n xx ss i (pro rozsáhlé soubory) M … aritmetický průměr x i …hodnota znaku 3. VARIAČNÍ KOEFICIENT (Coefficient of variation, CV) s VK = |M| s VK (%) = 100 x |M| ➢ umožňuje provést srovnání variability dvou či více souborů, jejichž znaky jsou měřeny v různých jednotkách (cm, kg, sekundy, viz následující slide 111), ➢ udává poměr směrodatné odchylky k aritmetickému průměru, přesněji řečeno udává, kolik % aritmetického průměru tvoří směrodatná odchylka. (s = směrodatná odchylka; M = aritmetický průměr) PŘÍKLAD 5 Výpočet: rozptyl, směrodatná odchylka, variační koeficient Hráč A B C D E F G H J K xi 7 6 7 8 9 8 8 8 9 10 yi 4 8 6 8 7 8 7 4 8 10 (7-8)2+(6-8)2+(7-8)2……(8-8)2+(9-8)2+(10-8)2 s2 = 10 1+4+1+0+1+0+0+0+1+4 12 = = = 1,20 10 10 (1) Rozptyl M = 8 (2) Směrodatná odchylka s =  s2 = 1,09 = 1,1 s 1,09 s VK1 = = = 0,14 resp. VK1= x 100 = 14 % M 8 M (3) Variační koeficient VK1 VK2 = 0,26 resp. VK2 = 26 %  VK1  VK2 Sami doma - variační koeficient VK2 tj. znaků y i … Sami doma – směrodatná odchylka znaků y i … Interpretace … Pomocí Excelu – Statistické funkce Výpočet: rozptyl, směrodatná odchylka, variační koeficient VAR.VÝBĚR vypočte rozptyl výběru SMODCH.VÝBĚR vypočte směrodatnou odchylku výběru VAR SMODCH yi Stř. hodnota 7 Chyba stř. hodnoty 0,596285 Medián 7,5 Modus 8 Směr. odchylka 1,885618 Rozptyl výběru 3,555556 Špičatost -0,05776 Šikmost -0,49718 Rozdíl max-min 6 Minimum 4 Maximum 10 Součet 70 Počet 10 Největší (1) 10 Nejmenší (1) 4 Hladina spolehlivosti (95,0%) 1,34889 Pomocí Excelu – Analýza dat – Popisná statistika Tabulka 1: Základní statistické charakteristiky souboru tenistek U10 (n = 65) Proměnné M SD Min Max VK (%) Věk 10,20 0,60 9,0 10,9 5,88 Výška (cm) 145,30 7,50 130,0 165,0 5,16 Hmotnost (kg) 36,76 6,10 25,8 53,0 16,59 Síla stisku (P) 18,90 4,82 11,0 36,6 25,50 Síla stisku (L) 16,70 5,03 9,1 39,2 30,12 Vysvětlivky: n = počet prvků souboru; M = aritmetický průměr; SD = směrodatná odchylka; Min = minimální hodnota; Max = maximální hodnota; VK = variační koeficient (%); P/L = pravá/levá ruka STATISTICKÁ ANALÝZA DAT Základní statistické charakteristiky Vysvětlit VK (%) ANALÝZA JEDNOROZMĚRNÉHO SOUBORU 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální  neparametrické stat. metody b) metrické  parametrické statistické metody 2. ROZLOŽENÍ ČETNOSTÍ ZNAKŮ (NORMÁLNÍ ČI JINÉ) a) normální  parametrické statistické metody b) jiné  neparametrické statistické metody 3. VÝPOČET ZÁKLADNÍCH STATISTICKÝCH CHARAKTERISTIK a) míry centrální tendence b) míry variability c) míry závislosti 14.11. zde konec METODY DESKRIPTIVNÍ STATISTIKY 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Statistické soubory jsou charakterizovány jednotlivými statistickými znaky (délka skoku, čas v běhu, výška, hmotnost Souvislost mezi znaky: ➢ rozběhová rychlost x délka skoku ➢úspěšnost střelby 1. a 2. pokus, ➢ tělesná výška x hmotnost,… 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Míry závislosti se zabývají hledáním, zkoumáním a hodnocením souvislostí (závislostí, vztahů) mezi dvěma (či více) statistickými znaky. Závislosti znaků, věcí a jevů mohou být velmi rozmanité: • nepodstatné (náhodné) • příčinné (kauzální) závislosti jsou výrazem určité vnitřní nutnosti (příčina vyvolává následek) Příčinná (kauzální) závislost je závislost, kdy daný jev či několik jevů (příčina) nutně vyvolává za určitých podmínek jiný jev (následek, účinek). Nejjednodušší formy kauzálních závislostí se vyskytují u přírodních jevů např. …. … při zahřívání tělesa za konstantních podmínek (elementární příčina) dochází ke zvětšování jeho objemu (elementární účinek) => tj. princip teploměru. 1. PEVNÁ ZÁVISLOST Pevná závislost = případ, kdy výskytu jednoho jevu NUTNĚ ODPOVÍDÁ výskyt druhého jevu. Tedy jedné hodnotě jedné proměnné odpovídá jen jedna hodnota jiné proměnné (funkční závislost). Např. Zahříváme-li těleso 5 min, vzroste teplota o 10 º C. Zahříváme-li těleso 10 min, vzroste teplota o 20 º C, atd. … (vědy o sportu?) PEVNÁ ZÁVISLOST Pevná závislost – charakteristika: ➢ se opakuje ve všech jednotlivých případech (při dodržení standardních podmínek). ➢ může být tedy charakterizována jediným pozorováním (větší počet pozorování slouží k ověření výsledků a vyloučení chyb). ➢ setkáváme se s ní při formulování zákonitostí vztahů mezi proměnnými (např. fyzikální zákony = Archimedův zákon). Volná závislost (statistická závislost) = výskyt jednoho jevu OVLIVŇUJE výskyt druhého jevu (NE nutně odpovídá). Každé hodnotě jedné proměnné (TV) odpovídají různé hodnoty jiné proměnné (TH). VOLNÁ ZÁVISLOST ➢ Při zkoumání společenských jevů se většinou nesetkáváme s pevnou závislostí ale s volnou, kdy určitá příčina vede k různým účinkům. Např. skok daleký: rychlost x délka skoku (volná z.) Volnou závislost lze tedy zkoumat pouze na základě mnoha pozorování, malý počet pozorování může přinést naprosto nahodilý výsledek vliv náhodných a vedlejších činitelů. 2.5.2 KORELAČNÍ POČET (regresní a korelační analýza) Metody regresní a korelační analýzy slouží k poznání a matematickému popisu statistických závislostí; jsou souhrnně označované jako korelační počet. Hlavní úkoly korelačního počtu: 1. postižení povahy korelační závislosti (regresní analýza), 2. měření těsnosti korelační závislosti (korelační analýza). 1. postižení povahy (regresní analýza), 2. měření těsnosti (korelační analýza). 1. postižení povahy korelační závislosti umožňuje odhady neznámých hodnot závisle proměnné y při známých hodnotách nezávisle proměnné x hovoříme o regresi. Povaha korelační závislosti je vyjadřována matematickou funkcí - hovoříme o regresní funkci (regresní analýza). HLAVNÍ ÚKOLY KORELAČNÍHO POČTU 2. měření těsnosti korelační závislosti umožňuje posuzovat míru korelační závislosti - hovoříme o vlastní korelaci (korelační analýza). Korelace je vyjadřována tzv. korelačním koeficientem r. 1. REGRESNÍ ANALÝZA (LINEÁRNÍ) Regresní analýza umožňuje postihnout povahu závislosti pomocí regresní funkce nejlépe vyjadřující zkoumané závislosti (je vyjádřena regresní rovnicí). Regresní funkce může nabývat mnoha typů: ➢přímková (lineární), např. hyperbolická, logaritmická, parabolická ➢křivková (nelineární), např. exponenciální, mocninná a další … Úkol: POSTIŽENÍ POVAHY KORELAČNÍ ZÁVISLOSTI LINEÁRNÍ REGRESNÍ FUNKCE je vyjádřena regresní rovnicí y = a + b . x Pro konstrukci regresní funkce pro konkrétní závislost (např. tělesná výšky a hmotnost) je třeba určit regresní koeficienty a, b. Vycházíme z empirických (měřených) znaků TV a TH). Vzorce pro výpočet regresních koeficientů a, b: n  x i y i -  xi  y i  y i - b xi b = ------------------------- a = ---------------------- n  xi 2 - (  xi ) 2 n y = závisle proměnná x = nezávisle proměnná a, b = regresní koeficienty 2. KORELAČNÍ ANALÝZA (LINEÁRNÍ) Pojem korelace pochází z latiny (co – relation = souvztažnost), obvykle ji označujeme symbolem „ r “. Korelace je definována jako volná kvantitativní závislost dvou či více jevů. Korelace vyjadřuje míru (stupeň) závislosti a je charakterizována korelačním koeficientem r, který „měří“ těsnost závislosti popsané regresní funkcí. Úkol: MĚŘENÍ TĚSNOSTI KORELAČNÍ ZÁVISLOSTI VZORCE PRO VÝPOČET KORELAČNÍHO KOEFICIENTU Symbolická podoba vzorce korelačního koeficientu sx,y cov (X, Y) r = ---------- = -------------------- sx . sy  var X .var Y kovariance součin obou směrodatných odchylek Korelace je matematicky podíl kovariance a součinu obou směrodatných odchylek. Pro metrická data (normalita) PEARSONŮV KOEFICIENT SOUČINOVÉ KORELACE (vzorec)  ( x i - x ).( y i - y ) r = ------------------------------------   ( x i - x )2  ( y i - y )2 Pearsonův koeficient - výpočtový tvar n  x i y i -  x i  y i r = ---------------------------------------------------   n  x i 2 - (  x i ) 2  n  y i 2 - ( y i) 2  PEARSONŮV KORELAČNÍ KOEFICIENT (r) Podmínkou výpočtu je ověření dvourozměného normálního rozdělení Pro ordinální data SPEARMANŮV KOEFICIENT POŘADOVÉ KORELACE (není požadováno normální rozložení četností) 6 .  ( i x - i y ) 2 6 rxy = 1 - --------------------- = 1 - -------------  d i 2 n (n2 - 1) n (n2 - 1) VLASTNOSTI KORELACE 1. VELIKOST KORELACE Korelační koeficient r nabývá hodnot z intervalu <-1 ; 1> Význam hodnot -1, 0, 1 r = 0  lineární nezávislost proměnných r = 1  úplná (funkční) pozitivní lineární závislost r = -1  úplná (funkční) negativní lineární závislost Čím více se r blíží hodnotě 1, tím je závislost silnější Čím více se r blíží hodnotě 0, tím je závislost slabší 2. SMĚR KORELACE a) kladná (pozitivní) <0;1> b) záporná (negativní) <-1;0> 3. TVAR KORELACE a) lineární (lze dosti dobře proložit přímku) b) nelineární (nelze proložit přímku) POZNÁMKY KE KORELACÍM 1. Matematicko-statistické předpoklady výpočtu korelačního koeficientu: a) linearita (korelačním polem lze dosti dobře proložit přímku), b) normalita (dvojrozměrné normální rozložení četností) 1. Matematicko-statistické předpoklady výpočtu korelačního koeficientu: c) dostatečný rozsah souboru (n=200, n=100, n=30) 1. Matematicko-statistické předpoklady výpočtu korelačního koeficientu: 2. Věcný a formální smysl znaménka korelačního koeficientu Např. vypočítaná korelační závislost výsledků studentů FSpS (n=185) v běhu na 100m … … a ve skoku dalekém je r = − 0,80 <-1 ; 1> Co to znamená z hlediska interpretace? a) kladná (pozitivní) <0;1> b) záporná (negativní) <-1;0> To by ovšem znamenalo, že kdo je lepší v běhu na 100 m, ten je horších výsledků ve skoku dalekém. To je ovšem……odborně i věcně NESMYSL! PROČ ??? PROTOŽE … …jakou „hodnotu“ má výsledek v běhu na 100 m 10,7 s versus 12,3 s? …jakou „hodnotu“ má výsledek ve skoku dalekém 570 cm versus 430 cm? 3. Koeficient determinace r 2 … určuje jaká část rozptylu výkonu v jednom testu je dána proměnlivostí (variabilitou) výkonů v druhém testu. Koeficient determinace r 2 = 0, 64 (64 %). Např. výše uvedená korelační závislost výsledků studentů FTK (n=185) v běhu na 100m a ve skoku dalekém r = 0,8 znamená, že… Tedy 64 % rozptylu výkonu ve skoku dalekém je ovlivněno (determinováno) proměnlivostí (variabilitou) výkonů v běhu na 100m. REGRESNÍ ANALÝZA (1. úkol korelačního počtu) PŘÍKLAD 7. Výpočet - koeficientů regresní přímky Regresní přímka Y = a + b . X REGRESNÍ ANALÝZA (1. úkol korelačního počtu) PŘÍKLAD 7. Výpočet - koeficientů regresní přímky Hráč A B C D E F G H J K xi 7 6 7 8 9 8 8 8 9 10 yi 4 8 6 8 7 8 7 4 8 10 Regresní přímka Y = a + b . x POMOCNÁ TABULKA Hráč X i Y i X i 2 Y i 2 X i . Y i REGRESNÍ ANALÝZA (1. úkol korelačního počtu) PŘÍKLAD 7. Výpočet - koeficientů regresní přímky Hráč X i Y i X i 2 Y i 2 X i . Y i A 7 4 49 16 28 B 6 8 36 64 48 POMOCNÁ TABULKA C 7 6 49 36 42 D 8 8 64 64 64 E 9 7 81 49 63 F 8 8 64 64 64 G 8 7 64 49 56 H 8 4 64 16 32 J 9 8 81 64 72 K 10 10 100 100 100  80 70 652 522 569 Y = a + b . x = 1 + 0,75 . x Pořadí osob X i Y i X i 2 Y i 2 X i . Y i  80 70 652 522 569 Statistické charakteristiky: APx = 8 APy = 7 s x= 1,1 s y= 1,8 Konstrukce regresní přímky za pomocí regresní rovnice X 8 10Volba x  Y 7 8,5Výpočet y  Y = a + b . x = 1 + 0,75 . x Pozn. x…nezávisle proměnná y…závisle proměnná Y1 = 1 + 0,75 . 8 = 7 Y2 = 1 + 0,75 . 10 = 8,5 2) X = a + b . Y SAMI !!! Z 1 (8; 7) Z 2 (10; 8,5) Pozn. y…nezávisle proměnná x…závisle proměnná Pořadí osob X i Y i X i 2 Y i 2 X i . Y i  80 70 652 522 569 Statistické charakteristiky: APx = 8 APy = 7 s x= 1,1 s y= 1,8 Regresní přímka X = a + b . y n  x i y i -  x i  y i  x i – b .  y i b = ------------------------------- a = ---------------------- n  y i 2 - (  y i ) 2 n X = a + b . y = 6 + 0,28 . y 10. 569 – 80.70 5690 - 5600 90 b = ------------------------- = ----------------------- = -------- = 0,28 10.522 - (70)2 5220 - 4900 320 80 – 0,28.70 60,4 a = ------------------------ = ---------- = 6 10 10 Graf korelační závislosti (= korelogram) - konstrukce y (x) 10  9 8      7  6   5 4   6 7 8 9 10 x (y)   A 7 4 B 6 8 C 7 6 D 8 8 E 9 7 F 8 8 G 8 7 H 8 4 J 9 8 K 10 10 x i y i Z 1 Z 2 Pomocí Excelu – Statistické funkce Výpočet koeficientů regresní přímky 2) X = a + b . Y 1) Y = a + b . X INTERCEPT odhad parametru a SLOPE odhad parametru b Pomocí Excelu – Statistické funkce Výpočet koeficientů regresní přímky 1) Y = a + b . X Y = 1 + 0,75 . X 2) X = a + b . Y X = 6 + 0,28 . Y Pomocí Excelu – Analýza dat – Regrese Výpočet koeficientů regresní přímky 1) Y = a + b . X Y = 1 + 0,75 . X Pomocí Excelu – Analýza dat – Regrese Výpočet koeficientů regresní přímky VÝSLEDEK Regresní statistika Násobné R 0,459279327 Hodnota spolehlivosti R 0,2109375 Nastavená hodnota spolehlivosti R 0,112304688 Chyba stř. hodnoty 1,7765838 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 1 6,75 6,75 2,138613861 0,181775314 Rezidua 8 25,25 3,15625 Celkem 9 32 Koeficienty Chyba stř. hodnoty t Stat Hodnota P Dolní 95% Horní 95% Hranice 1 4,141130079 0,241479978 0,815257536 -8,549463079 10,54946308 xi 0,75 0,512855568 1,462400035 0,181775314 -0,432647059 1,932647059 korelační koeficient koeficient determinace Významnost F < α = 0,05 → model je statisticky vhodný a b Pomocí Excelu – Analýza dat – Regrese Výpočet koeficientů regresní přímky 2) X = a + b . Y X = 6 + 0,28 . Y Pomocí Excelu – Analýza dat – Regrese Výpočet koeficientů regresní přímky VÝSLEDEK Regresní statistika Násobné R 0,459279327 Hodnota spolehlivosti R 0,2109375 Nastavená hodnota spolehlivosti R 0,112304688 Chyba stř. hodnoty 1,087930949 Pozorování 10 ANOVA Rozdíl SS MS F Významnost F Regrese 1 2,53125 2,53125 2,138613861 0,181775314 Rezidua 8 9,46875 1,18359375 Celkem 9 12 Koeficienty Chyba stř. hodnoty t Stat Hodnota P Dolní 95% Horní 95% Hranice 6,03125 1,389509735 4,340559729 0,002476521 2,827034807 9,235465193 yi 0,28125 0,192320838 1,462400035 0,181775314 -0,162242647 0,724742647 koeficient determinace korelační koeficient Významnost F < α = 0,05 → model je statisticky vhodný a b KORELAČNÍ ANALÝZA (2. úkol korelačního počtu) PŘÍKLAD 7. Výpočet (Pearsonova) korelačního koeficientu Výpočtový tvar Pořadí osob X i Y i X i 2 Y i 2 X i . Y i  80 70 652 522 569 n  x i y i -  x i  y i rx,y = ---------------------------------------------------   n  x i 2 - (  x i ) 2  n  y i 2 - ( y i) 2  10. 569 – 80.70 r = -------------------------------------------- = 0,46  (10. 652 – 6400) . (10. 522 – 4900) Pomocí Excelu – Statistické funkce Výpočet (Pearsonova) korelačního koeficientu CORREL výpočet korelačního koeficientu r = 0,459 Jak „těsná“ je korelační závislost r = 0,46? Vzhledem k intervalu <0;1> resp. <-1;0> se jedná o střední míru závislosti (asociace). 1. Korelační závislost (r = 0,46) platí pouze pro konkrétní soubor (výběr) s konkrétními osobami, nelze tedy považovat tento vztah za obecně platný! 2. Chceme-li zobecnit platnost vypočítané závislosti „r“ na základní soubor (populaci), musíme ověřit (testovat) hypotézu o statistické významnosti korelačního koeficientu. POSOUZENÍ A INTERPRETACE KORELAČNÍ ZÁVISLOSTI np 12.4.2022 3. Při testování hypotézy a statistické významnosti „r“ (resp. jeho odlišnost od nuly), zjišťujeme, zda je tento výběrový korelační koeficient statisticky významný (s ohledem na rozsah souboru) 4. Zamítnutí (či nezamítnutí) nulové hypotézy provádíme s určitou pravděpodobností na tzv. hladině významnosti (p, resp. α) Obvykle volíme p = 0,05, resp. p = 0,01) POSOUZENÍ A INTERPRETACE KORELAČNÍ ZÁVISLOSTI PRO NÁŠ PŘÍKLAD, kdy r = 0,46; n = 10 …zjistíme v tabulce kritických hodnot koeficientu součinové korelace, … Počet dvojic Kritické hodnoty (na =0,05, =0,01) n =0,05 =0,01 9 0,666 0,798 10 0,632 0,765 11 0,602 0,735 30 0,361 0,463 Tabulka kritických hodnot … že „náš“ korelační koeficient r = 0,46 je pro obě hladiny významnosti menší, než tzv. kritická hodnota, je tedy STATISTICKY NEVÝZNAMNÝ. Závěr: mezi výsledky 1. a 2. pokusů nebyla zjištěna závislost, nelze tvrdit, že… CO? Interpretace! Ale pro n=30? Test1 Test2 8 7 5 5 4 4 6 4 7 5 6 4 5 5 7 6 Příklad. Výpočet (Pearsonova) korelačního koeficientu Testujte hypotézu, zda výběrový korelační koeficient je statisticky významný (s ohledem na rozsah souboru). Pořadí osob X i Y i X i 2 Y i 2 X i . Y i  48 40 300 208 247 Příklad. Výpočet (Pearsonova) korelačního koeficientu n  x i y i -  x i  y i rx,y = ---------------------------------------------------   n  x i 2 - (  x i ) 2  n  y i 2 - ( y i) 2  8. 247 – 48.40 56 r = -------------------------------------------- = ----------- = 0,71  (8. 300 – 2304) . (8. 208 – 1600) 78 r = 0,71 > 0,7067 pro α = 0,05 Na hladině α = 0,05 zamítáme nulovou hypotézu. Koeficient je statisticky významný. SPEARMANŮV KOEFICIENT POŘADOVÉ KORELACE Spearmanův koeficient pořadové korelace se používá pro výpočet těsnosti závislosti: ❑ u znaků získaných na ordinální stupnici (ordinálních znaků) Vzorec pro výpočet Spearmanova koeficientu pořadové korelace: ❑ u souborů o nevelkém rozsahu (n menší než 20) ❑ jestliže znaky nemají (či nelze prokázat) normální rozložení četností 6 .  ( i x - i y ) 2 rxy = 1 - --------------------- n (n2 - 1) kde i x resp. i y je index pořadí znaků x resp. y Příklad. Výpočet Spearmanova koeficientu pořadové korelace Pořadí x i y i i x i y ( i x - i y ) 2 1 7 2,5. 4 1.5 2,5 1,5 1 2 6 1. 8 7,5. 1 7,5 42,25 3 7 2,5. 6 3 2,5 3 0,25 4 8 8 7,5. 5,5 7,5 4 5 9 7 4,5. 8,5 4,5 16 6 8 8 7,5. 5,5 7,5 4 7 8 7 4,5. 5,5 4,5 1 8 8 4 1.5 5,5 1,5 16 9 9 8 7,5. 8,5 7,5 1 10 10 10. 10 10. 10 10 0  - - - - 85,5 6 .  ( i x - i y ) 2 6 . 85,5 513 r = 1 - -------------------- = 1 - -------------- = 1 - ---------- = 0,48 n (n2 - 1) 10 (100 - 1) 990 r = 0,48 Spearmanův koeficient pořadové korelace Pearsonův koeficient součinové korelace r = 0,46 POSOUZENÍ A INTERPRETACE ZÁVISLOSTI …viz Pearsonův koeficient součinové korelace Příklad. Výpočet Spearmanova koeficientu pořadové korelace 6 .  ( i x - i y ) 2 6 . 8 48 r = 1 - -------------------- = 1 - -------------- = 1 - ---------- = 0,95 n (n2 - 1) 10 (100 - 1) 990 Kritické hodnoty z tabulek α = 0,05 ……………. 0,6364 α = 0,01…………….. 0,7818 Hypotézu H0 : ρ= 0 o nezávislosti zamítáme ANALÝZA JEDNOROZMĚRNÉHO SOUBORU 1. URČENÍ TYPU ŠKÁLY (nominální, ordinální, metrické) a) nominální + ordinální  neparametrické stat. metody b) metrické  parametrické statistické metody 2. ROZLOŽENÍ ČETNOSTÍ ZNAKŮ (NORMÁLNÍ ČI JINÉ) a) normální  parametrické statistické metody b) jiné  neparametrické statistické metody 3. VÝPOČET ZÁKLADNÍCH STATISTICKÝCH CHARAKTERISTIK a) míry centrální tendence b) míry variability c) míry závislosti METODY DESKRIPTIVNÍ STATISTIKY 3. ANALYTICKÁ STATISTIKA 3.1 Základní soubor, výběrový soubor, náhodný výběr, závislé a nezávislé soubory 3.2 Hypotézy (stručné opakování) 3.3 Věcná a statistická významnost 3.4 Testování statistických hypotéz Z Á K L A D Y S T A T I S T I K Y Přednášku prezentovat ze samostatného souboru! Statistika 2 (MATEMATICKÁ) STATISTIKA DESKRIPTIVNÍ (popisná) ANALYTICKÁ (inferentní, induktivní) DESKRIPTIVNÍ STATISTIKA (zpracováním a popis dat). ANALYTICKÁ STATISTIKA (analyzovat a vyhodnocení dat) (1) stanovit, zda výsledky testů dvou tréninkových skupin vykazují významný rozdíl mezi středními hodnotami ( vliv tréninkové metody), (2) vyhodnotit léčebný účinek u 2 souborů pacientů. 3.1 ZÁKLADNÍ SOUBOR (generální soubor, population, Grundgesamtkeit) je soubor všech jedinců, u kterých bychom teoreticky měli šetření provádět. Základní soubor obvykle není dostupný, musíme se proto spokojit s omezeným počtem jedinců (objektů), takovýto soubor potom nazýváme výběrovým souborem (náhodný výběr, sample, Stichprobe). VÝBĚROVÝ SOUBOR je náhodnou podmnožinou prvků základního souboru, je získaný náhodným, resp. záměrným výběrem. Z poznatků zjištěných u výběrového souboru, můžeme (při splnění určitých statistických požadavků) činit závěry platné pro základní soubor. ZÁVISLÉ SOUBORY (test hod na koš, družstvo A 1., 2. pokusy) NEZÁVISLÉ SOUBORY (test hod na koš, družstvo A, družstvo B) 3.2 HYPOTÉZA je podmíněný výrok o vztahu mezi dvěma nebo více proměnnými (Kerlinger, 1972). Hypotézy jsou důležité a nepostradatelné prostředky vědeckého výzkumu, jsou pracovními nástroji teorie. Kritéria dobrých hypotéz 1. hypotézy jsou výroky o vztazích mezi proměnnými 2. hypotézy obsahují jasné implikace (např. jestliže …, pak …) pro ověřování předpokládaných vztahů. Hypotéza formuluje jajo předpokládaný vztah mezi proměnnými, který se zamítá nebo nelze zamítnout. Druhy hypotéz (Röthig, 1992) 1. Pracovní hypotéza - subjektivní domněnky o předmětu výzkumného problému. Pracovní hypotéza je formulována všeobecně, je základem pro realizaci předvýzkumu. 2. Výzkumná (věcná) hypotéza – zdůvodněný předpoklad o existenci vztahu mezi dvěma či více proměnnými. Zpřesněná formulace, ověřujeme testováním statistických hypotéz. 3. Statistická hypotéza - hypotetické tvrzení vyjádřené ve statistických termínech o relacích, vyvozených z předpokládaných vztahů ve věcné H. Stupeň obecnosti ověřovaného tvrzení (hypotézy) klesá (od pracovní H −> ke statistické H). Stupeň přesnosti ověřovaného tvrzení (hypotézy) vzrůstá (od pracovní H −> ke statistické H). H0: µ = µ0 HA: µ ≠ µ0 ; HA: µ > µ0 ; HA: µ < µ0 Hypotéza je testována pomocí tzv. testovacích metod (testů) a zamítá se, je-li zjištěn výsledek, který je při platnosti nulové hypotézy nepravděpodobný. Co je považováno za nepravděpodobný výsledek, má být stanoveno předem (např. tělesná výška mužů a žen je stejná). Výsledky testování hypotéz jsou posuzovány na tzv. hladině významnosti (p, α), která vyjadřuje pravděpodobnost chyby I. druhu (tedy chybné zamítnutí testované hypotézy). Úroveň hladiny významnosti p = 0,05 znamená, že nulová hypotéza se zamítá, když je pravděpodobnost platnosti nulové hypotézy menší než 5% (p < 0,05) (obdobná interpretace platí pro p = 0,01). HYPOTÉZA NULOVÁ Základním typem úvahy při statistickém testování tzv. nulová hypotéza (HO). Př. Tělesná výška x věk Podstatou nulové hypotézy je odůvodněný předpoklad, že mezi dvěma jevy není statisticky významný rozdíl (rozdíl je nulový, resp. malý). Jako nulová hypotéza se označuje domněnka, že dva statistické soubory se shodují v určitých statistických parametrech (např. M, r). H0: µ = µ0 HA: µ ≠ µ0 ; HA: µ > µ0 ; HA: µ < µ0 HYPOTÉZA ALTERNATIVNÍ Předpokládáme-li, že mezi dvěma jevy existuje významný rozdíl, formulujeme tzv. alternativní hypotézu HA (oboustranná, resp. jednostranná). K rozhodnutí, zda hypotézu (nulovou či alternativní) zamítáme, či nezamítáme používáme tzv. testovací metody (viz dále). Co je považováno za výsledek pravděpodobný (TV M ≠ Ž, H1), resp. nepravděpodobný (TV M = Ž, H0) musí být tedy stanoveno předem. H0: µ = µ0 HA: µ ≠ µ0 ; HA: µ > µ0 ; HA: µ < µ0 3.3 VĚCNÁ A STATISTICKÁ VÝZNAMNOST (1) STATISTICKÁ VÝZNAMNOST Smysluplné použití posuzování výsledků výzkumu pomocí statistické významnosti je omezeno jen na soubory pořízené metodami náhodného výběru, resp. u randomizovaných experimentů (často nerespektováno). Hlavní nevýhoda testování H pomocí statistické významnosti je její vazba na rozsah souboru (n): - u velkých výběrů jsou i nepatrné rozdíly, resp. asociace (korelace) statisticky významné, - u malých výběrů jsou i velké rozdíly či velká asociace (korelace) statisticky nevýznamné. Výsledky testování hypotéz jsou posuzovány na tzv. hladině významnosti. Interpretace hladiny významnosti α = 0,05 znamená, že nulová hypotéza se zamítá s 5% pravděpodobností omylu. VĚCNÁ A STATISTICKÁ VÝZNAMNOST (2) VĚCNÁ VÝZNAMNOST U nenáhodných výběrů se doporučuje posuzovat významnost rozdílů či vztahů pomocí věcné významnosti („size of effect“, „effect size“, „velikost/síla efektu“, např. pomocí ES indexů (Cohen, 1988). Hlavní výhoda použití teorie věcné významnosti je malá závislost na rozsahu souboru (n). http://www.socscistatistics.com/effectsize/Default3.aspx https://www.statskingdom.com/index.html https://stats.libretexts.org/Learning_Objects/02%3A_Interactive _Statistics Test Effect size small medium large d .20 .50 .80 r .10 .30 .50 Chi2 .10 .30 .50 (1) Cohen (1988, 1992). Indexy velikosti efektu (hodnoty pro malé, střední a velké efekty). POSUZOVÁNÍ VĚCNÉ VÝZNAMNOSTI Vysvětlivky: d = pro diference středních hodnot R = pro korelace Chi2 = pro chí kvadrát (2) Soukup (2013). Effect size po úpravě do intervalů POSUZOVÁNÍ VĚCNÉ VÝZNAMNOSTI Test small medium large d 0,2-0, 49 0,5-0,79 ≥ 0,8 r 0,1-0,29 0,3-0,49 ≥ 0,5 Chi2 0,1-0,29 0,3-0,49 ≥ 0,5 3.3.1 TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ VĚCNÁ VÝZNAMNOST Postup při hodnocení výsledků výzkumu: (pouze a jen, jde-li o randomizovaný výzkum) 1. Nejprve provedeme výpočet statistické významnosti, jakožto kritérium pro posouzení rizika zobecnění. 2. Následně zhodnotit věcnou významnost (ES) jak absolutně (v jednotkách měření), tak i relativně k podílu vlivu ostatních faktorů. Formulace: nulová hypotéza (H0) Příklad 1 H0: intersexuální rozdíly somatických a motorických předpokladů mezi tenisty (n=221) a tenistkami (n=193) ve věkové kategorii 11 -12 let jsou nevýznamné. Soubor/SC H Tenisté Tenistky Cohen´s d, hodnocení efektu M SD M SD Výška (cm) 155,10 7,62 154,60 6,94 0,07 (žádný) Hmotnost (kg) 43,50 6,68 43,49 7,17 0,00 (žádný) MS (kp) 25,14 4,60 23,08 4,61 0,45 (malý) RS 0,58 0,09 0,53 0,09 0,56 (střední) Formulace: alternativní hypotéza (HA, H1) Příklad 2 HA: intersexuální rozdíly somatických a motorických předpokladů mezi tenisty (n=157) a tenistkami (n=163) ve věkové kategorii 13 -14 let jsou významné. Category M (male) SD M (female) SD Cohen´s d Height (cm) 169.79 9.27 164.93 5.80 0.63 (med) Weight (kg) 57.05 9.26 53.57 6.31 0.44 (small) MHSL (kp) 34.64 7.53 29.09 3.84 0.94 (large) RHSL 0.61 0.10 0.55 0.06 0.73 (med) VĚCNÁ VÝZNAMNOST – LITERATURA Blahuš, P. (2000). Statistická významnost proti vědecké průkaznosti výsledků výzkumu. Česká kinantropologie, 4(2), 53-72. Cohen, J. (1992). A Power Primer. Psychological Bulletin, 1(112), 155-159. doi:10.1037/0033-2909.112.1.155 Soukup (2013). Věcná významnost výsledků a její možnosti měření. Data a výzkum - SDA Info, 7(2), 125- 148. http://dx.doi.org/10.13060/23362391.2013.127.2.41 Soukup, P. (2010). Nesprávná užívání statistické významnosti a jejich možná řešení. Data a výzkum - SDA Info, 4(2), 77-104. http://dav.soc.cas.cz/uploads/27e65d18f9df9bee6df1af 9649f82b267f9cccda_DaV10_2_s77_104.pdf ✓ Výsledky TESTOVÁNÍ HYPOTÉZ jsou posuzovány na zvolené hladině významnosti (p/α = 0,05; 0,01) ✓ Úroveň hladiny významnosti α = 0,05 znamená, že nulová hypotéza se zamítá, když α < 0,05 (0,01). ✓ V tomto případě se přikláníme k platnosti alternativní hypotézy. ✓ Nejčastěji testujeme hypotézy o významnosti ✓ (1) diferencí středních hodnot dvou výběrových souborů (rozsahu n1, n2), resp. ✓ (2) závislosti dvou či více proměnných. 3.3.2 TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ STATISTICKÁ VÝZNAMNOST STATISTICKÁ „KUCHAŘKA“ pro soubory závislé/nezávislé a data 1. nominální 2. ordinální 3. metrická (kardinální) TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ STATISTICKÉ TESTOVACÍ METODY 1. NOMINÁLNÍ DATA - STATISTICKÉ TESTOVACÍ METODY PŘEDPOKLAD PROBLÉM TESTOVACÍ METODA Dva nezávislé soubory (znaky nabývají právě dvou hodnot) Zkouška významnosti rozdílů souborů X2 -čtyřpolní test (Fischerův test, čtyřpolní tabulka) Dva nezávislé soubory (znaky nabývají více hodnot) Zkouška významnosti rozdílů souborů X2 -vícepolní test (kontingenční tabulka) Dva závislé soubory (znaky nabývají právě dvou hodnot) Zkouška významnosti změn X2 -Mc Nemarův test Dva závislé soubory Hodnocení závislosti Koef. kontingence C 1. Lyžaři 2. Lyžaři Znak - kouření 2. ORDINÁLNÍ DATA - STATISTICKÉ TESTOVACÍ METODY PŘEDPOKLAD PROBLÉM TESTOVACÍ METODA Dva nezávislé soubory Test rovnosti centrálních tendencí Medianový test (jednoduchý), U-test Mann-Whitneyho, Kolmogorov-Smirnovův test, Marshallův test Dva závislé soubory Test rovnosti centrálních tendencí Znaménkový test, Wilcoxonův test Více nezávislých souborů Test rovnosti centrálních tendencí Medianový test (rozšířený), H-test Kruskal-Wallisův (analýza rozptylu) Dva závislé soubory Hodnocení míry závislosti Spearmanův resp. Kendallův koeficient korelace Více závislých souborů Hodnocení míry závislosti Friedmanova analýza rozptylu 1. Tenisté A 2. Tenisté B Znak – pořadí 3. METRICKÁ DATA - STATISTICKÉ TESTOVACÍ METODY I PŘEDPOKLAD PROBLÉM TESTOVACÍ METODA Dva nezávislé soubory Zkouška rovnosti rozptylů (homogenita) F-test Dva nezávislé soubory Zkouška rovnosti středních hodnot t-test Dva nezávislé soubory Zkouška nezávislosti korelací Korelační test Dva závislé soubory Zkouška rovnosti rozptylů (homogenita) F-test Tenisté Tenistky Znak: TV 3. METRICKÁ DATA - STATISTICKÉ TESTOVACÍ METODY II PŘEDPOKLAD PROBLÉM TESTOVACÍ METODA Dva závislé soubory Zkouška rovnosti středních hodnot Diferenční t-test (párový) Dva závislé soubory Hodnocení závislosti Koef. součinové korelace a regrese Více nezávislých souborů Zkouška rovnosti průměrů Analýza rozptylu, Duncanův test pořadí, Bartlettův test Více nezávislých souborů Zkouška rovnosti korelačních koeficientů Test homogenity Tenisté Tenistky Znak: TV ROZHODOVACÍ DIAGRAM PRO UŽITÍ t-TESTU DVA NÁHODNÉ VÝBĚRY NEZÁVISLÉ ZÁVISLÉ t-test pro t-test pro nezávislé výběry závislé výběry F-test homogenní heterogenní rozptyl rozptyl s12 = s22 s12  s22 t-test pro t-test pro homogenní heterogenní rozptyl rozptyl STATISTICKÉ TESTOVACÍ METODY Párový t - test - dva závislé soubory - zkouška rovnosti středních hodnot PŘÍKLAD – Zjistěte, zda se na automobilu určité značky sjíždějí obě přední pneumatiky stejně rychle číslo automobilu 1 2 3 4 5 6 pravá pneumatika 1,8 1 2,2 0,9 1,5 1,6 leva pneumatika 1,5 1,1 2 1,1 1,4 1,4 rozdíl 0,3 -0,1 0,2 -0,2 0,1 0,2 H0 : μ = μ1 – μ2 = 0 HA : μ = μ1 – μ2 ≠ 0  − = −− 2 1;1   n tTn s X T hypotézu nelze zamítnou STATISTICKÉ TESTOVACÍ METODY Párový t - test číslo automobilu 1 2 3 4 5 6 pravá pneumatika 1,8 1 2,2 0,9 1,5 1,6 leva pneumatika 1,5 1,1 2 1,1 1,4 1,4 rozdíl 0,3 -0,1 0,2 -0,2 0,1 0,2 ( ) ( ) ( ) ( ) 1941,00377,0 0377,0 5 18833,0 5 1167,00167,02833,01167,01833,02167,0 1 1 0833,0 6 5,0 2,01,02,02,01,03,0 6 11 2 1 222222 22 1 === == = ++−++−+ =− − = ==++−+−==   = = ss XX n s X n X n i i n n i 571,20518,16 1941,0 00833,0 571,2975,0;5 2 05,0 1;16 2 1;1 = − = − = === −−−− n s X T ttt n   STATISTICKÉ TESTOVACÍ METODY Párový t - test Protože 1,0518 < 2,571, nelze na základě získaných dat zamítnout hypotézu, že se obě přední pneumatiky sjíždějí stejně rychle. = > z tabulek STATISTICKÉ TESTOVACÍ METODY Párový t - test Pomocí Excelu – Analýza dat – Dvouvýběrový párový t-test na střední hodnotu Dvouvýběrový párový t-test na střední hodnotu pravá pneumatika leva pneumatika Stř. hodnota 1,5 1,416666667 Rozptyl 0,24 0,109666667 Pozorování 6 6 Pears. korelace 0,961571662 Hyp. rozdíl stř. hodnot 0 Rozdíl 5 t Stat 1,051757905 P(T<=t) (1) 0,17053101 t krit (1) 2,015048372 P(T<=t) (2) 0,34106202 t krit (2) 2,570581835 STATISTICKÉ TESTOVACÍ METODY Dvouvýběrový t - test - dva nezávislé soubory - test rovnosti středních hodnot PŘÍKLAD – U studentů rozdělených do dvou skupin byl zaznamenán počet leh-sedů za 1 minutu. Jsou obě skupiny stejně výkonné? H0 : μ1 = μ2 HA : μ1 ≠ μ2 ( ) ( ) ( )  + −+ −+− − = −−+ 2 1;2 22 2 11  mn YX tT mn mnnm smsn YX T hypotézu nelze zamítnou 1. skupina 62 54 55 60 53 58 2. skupina 52 56 49 50 51 STATISTICKÉ TESTOVACÍ METODY Dvouvýběrový t - test 1. skupina 62 54 55 60 53 58 2. skupina 52 56 49 50 51 n1=6 n2=5 APX=57 APY=51,6 sX 2 =12,8 sY 2 =7,3 ( ) ( ) ( ) ( ) ( ) ( ) 79,255,24 2,295,62 4,5 56 256.5.6 3,7158,1216 6,5157 2 11 22 = + = = + −+ −+− − = = + −+ −+− − = mn mnnm smsn YX T YX 262,279,2 262,2975,0;9 2 05,0 1;256 2 1;2 = === −−+−−+ T ttt mm  STATISTICKÉ TESTOVACÍ METODY Dvouvýběrový t -test Protože 2,79 ≥ 2,262 zamítáme hypotézu, že se obě skupiny studentů jsou stejně výkonné. = > z tabulek STATISTICKÉ TESTOVACÍ METODY Dvouvýběrový t - test Pomocí Excelu – Analýza dat – Dvouvýběrový t-test s rovností rozptylů Dvouvýběrový t-test s rovností rozptylů 1. skupina 2. skupina Stř. hodnota 57 51,6 Rozptyl 12,8 7,3 Pozorování 6 5 Společný rozptyl 10,35555556 Hyp. rozdíl stř. hodnot 0 Rozdíl 9 t Stat 2,77122216 P(T<=t) (1) 0,010855041 t krit (1) 1,833112923 P(T<=t) (2) 0,021710083 t krit (2) 2,262157158 STATISTICKÉ TESTOVACÍ METODY F - test - dva nezávislé soubory - zkouška rovnosti rozptylů PŘÍKLAD – Na základě dat uvedených v předchozím příkladě rozhodněte, zda oba základní soubory mají stejné rozptyly. H0 : σX 2 = σY 2 HA : σX 2 ≠ σY 2  = −−− 2 1;1,1 2 2 1,  mn Y X FZ Zabytakvolím s s Z hypotézu nelze zamítnou 1. skupina 62 54 55 60 53 58 2. skupina 52 56 49 50 51 STATISTICKÉ TESTOVACÍ METODY F - test 1. skupina 62 54 55 60 53 58 2. skupina 52 56 49 50 51 n=6 m=5 sX 2 =12,8 sY 2 =7,3 753,1 3,7 8,12 2 2 === Y X s s Z 36,9753,1 36,9975,0;4,5 2 05,0 1;15,16 2 1;1,1 = === −−−−−− Z FFF mn  Protože 1,753 < 9,36 nelze zamítnout hypotézu o shodnosti rozptylů. = > z tabulek STATISTICKÉ TESTOVACÍ METODY F - test Pomocí Excelu – Analýza dat – Dvouvýběrový F-test pro rozptyl Dvouvýběrový F-test pro rozptyl 1. skupina 2. skupina Stř. hodnota 57 51.6 Rozptyl 12.8 7.3 Pozorování 6 5 Rozdíl 5 4 F 1.753424658 P(F<=f) (1) 0.303172533 F krit (1) 6.256056502 Děkuji za pozornost