STATISTIKA II Martin Řezáč, Marie Budíková 2013 Obsah 1. Normální rozložení a odvozená rozložení 2. Základní pojmy matematické statistiky. Diagnostické grafy 3. Bodové a intervalové odhady parametrů a parametrických funkcí 4. Metody hledání bodových odhadů parametrů. Úvod do testování hypotéz 5. Porovnání empirického a teoretického rozložení 6. Parametrické úlohy o jednom náhodném výběru z normálního rozložení 7. Parametrické úlohy o dvou nezávislých náhodných výběrech z normálních rozložení 8. Parametrické úlohy o jednom náhodném výběru a dvou nezávislých náhodných výběrech z alternativních rozložení 9. Analýza rozptylu jednoduchého třídění 10. Neparametrické testy o mediánech 11. Testování nezávislosti náhodných veličin 12. Jednoduchá lineární regrese 13. Statistické tabulky 14. Analýza a testování normality jedné proměnné pomocí SAS, Stata a SPSS 3 31 56 80 104 127 151 184 210 232 268 309 340 353 1. Normální rozložení a odvozená rozložení 3 Definice normálního rozložení 4 Definice standardizované normálné náhodné veličiny 5 Ilustrace vlastností standardizované normálné náhodné veličiny (1) 6 Ilustrace vlastností standardizované normálné náhodné veličiny (2) 7 Ilustrace vlastností standardizované normálné náhodné veličiny (3) 8 Nalezení vrcholu a inflexních bodů v obecném případě: Hlavní charakteristiky křivky normálního rozdělení 9 Vlastnosti normální náhodné veličiny 10 Příklady 11 Příklad 12 13 Příklad 14 15 Příklady 16 17 Příklady 18 N-rozměrné normální rozložení 19 Náhodný vektor s dvourozměrným normálním rozložením 20 Graf dvourozměrné hustoty (1) 21 Graf dvourozměrné hustoty (2) 22 Graf dvourozměrné hustoty (3) 23 Graf dvourozměrné hustoty (4) 24 Graf dvourozměrné hustoty (5) 25 Marginální rozložení skalární NV a lineární transformace 26 Příklad 27 Příklad 28 Vlastnosti vícerozměrného normálního rozdělení 29 Mahalanobisova vzdálenost 30 2. Základní pojmy matematické statistiky. Diagnostické grafy. Motivace: Matematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oborech lidské činnosti. Přitom se řídí principem statistické indukce, tj. na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží učinit závěry o vlastnostech tohoto rozložení. Ústředním pojmem matematické statistiky je tedy pojem náhodného výběru. 31 Definice náhodného výběru 32 a) Nechť X1, ..., Xn jsou stochasticky nezávislé náhodné veličiny, které mají všechny stejné rozložení L(ϑ). Řekneme, že X1, ..., Xn je náhodný výběr rozsahu n z rozložení L(ϑ). (Číselné realizace x1, ..., xn náhodného výběru X1, ..., Xn uspořádané do sloupcového vektoru odpovídají datovému souboru zavedenému v popisné statistice.) b) Nechť (X1,Y1), ..., (Xn,Yn) jsou stochasticky nezávislé dvourozměrné náhodné vektory, které mají všechny stejné dvourozměrné rozložení L2(ϑ). Řekneme, že (X1,Y1), ..., (Xn,Yn) je dvourozměrný náhodný výběr rozsahu n z dvourozměrného rozložení L2(ϑ). (Číselné realizace (x1,y1), ..., (xn,yn) náhodného výběru (X1,Y1), ..., (Xn,Yn) uspořádané do matice typu n x 2 odpovídají dvourozměrnému datovému souboru zavedenému v popisné statistice.) c) Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z prozměrného rozložení Lp(ϑ). Definice statistiky 33 Libovolná funkce T = T(X1, ..., Xn) náhodného výběru X1, ..., Xn (resp. T = T(X1,Y1, ..., Xn,Yn) náhodného výběru (X1,Y1), ..., (Xn,Yn)) se nazývá (výběrová) statistika. Důsledek: Nechť X1, ..., Xn je náhodný výběr z rozložení s distribuční funkcí Φ(x). Pak simultánní distribuční funkce náhodného vektoru (X1, ..., Xn) je Φ(x1) … Φ(xn). Definice důležitých statistik (1) 34 Definice důležitých statistik (2) 35 Definice důležitých statistik (3) 36            jinak0 0SSpro SS S S MY S MX 1n 1 n 1i 21 21 12 2 2i 1 1i Definice důležitých statistik (4) 37 Definice důležitých statistik (5) 38 Charakteristika vlastnosti Počet pravděpodobnosti Matematická statistika Popisná statistika poloha E(X) = μ M m variabilita D(X) = σ2 S2 variabilita S společná variabilita C(X1, X2) = σ12 S12 těsnost vztahu R(X1, X2) = ρ R12 r12 rozložení Ф(x) Fn(x) F(x) Příklad (1) 39 (Výpočet realizací výběrového průměru, výběrového rozptylu a hodnot výběrové distribuční funkce) Příklad (2) 40 (Výpočet realizací výběrového průměru, výběrového rozptylu a hodnot výběrové distribuční funkce) 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 x -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 F10(x) 1)x(F:2,4x 9,0 10 9 )x(F:2,4x2,3 8,0 10 8 )x(F:2,3x2,2 7,0 10 7 )x(F:2,2x2,1 5,0 10 5 )x(F:2,1x2 3,0 10 3 )x(F:2x1,9 2,0 10 2 )x(F:9,1x1,8 0)x(F:8,1x 10 10 10 10 10 10 10 10         Příklad 41 (Výpočet realizace výběrového koeficientu korelace) Mezi náhodnými veličinami X a Y existuje silná nepřímá lineární závislost. Čím starší auto, tím nižší cena. Vlastnosti důležitých statistik (1) 42 Vlastnosti důležitých statistik (2) 43 Vlastnosti důležitých statistik (3) 44 c) Případ jednoho náhodného výběru z dvourozměrného rozložení: Nechť (X1,Y1), ..., (Xn,Yn) je náhodný výběr z dvourozměrného rozložení s kovariancí σ12 a koeficientem korelace ρ. Pak pro libovolné hodnoty parametrů σ12 a ρ platí: E(S12) = σ12, E(R12) ≈ ρ (shoda je vyhovující pro n ≥ 30). Poznámka: Metody matematické statistiky často slouží k vyhodnocování výsledků pokusů. Aby mohl být pokus správně vyhodnocen, musí být dobře naplánován. Uvedeme zde nejjednodušší typy uspořádání pokusů. Předpokládejme například, že sledujeme hmotnostní přírůstky selat téhož plemene při různých výkrmných dietách. Typy pozorování (1) 45 a) Jednoduché pozorování: Náhodná veličina X je pozorována za týchž podmínek. Situace je charakterizována jedním náhodným výběrem X1, ..., Xn. Náhodně vylosujeme n selat téhož plemene, podrobíme je jediné výkrmné dietě a zjistíme u každého selete hmotnostní přírůstek. Tím dostaneme realizaci jednoho náhodného výběru. Typy pozorování (2) 46 Typy pozorování (3) 47 Diagnostické grafy 48 Motivace: Diagnostické grafy slouží především k tomu, aby nám pomohly orientačně posoudit povahu dat a určit směr další statistické analýzy. Při zpracování dat se často předpokládá splnění určitých podmínek. V případě jednoho náhodného výběru je to především normalita (posuzujeme ji pomocí NP plotu či histogramu) a nepřítomnost vybočujících hodnot (odhalí je krabicový diagram). Krabicový diagram Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce: Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x0,75 + 1,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 – 1,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0,75 + 3q, ∞) či v intervalu (-∞, x0,25 - 3q). Příklad (1) 49 Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 α nα c xα 0,25 7,5 8 x(c)=x(8) 2 0,50 15 15 4 0,75 22,5 23 x(c)=x(23) 5 Příklad (2) 50 Dolní kvartil je 2, tedy aspoň čtvrtina domácností má aspoň dva členy. Medián je 4, tedy aspoň polovina domácností má aspoň 4 členy. Horní kvartil je 5, tedy aspoň tři čtvrtiny domácností mají aspoň 5 členů. Vypočteme kvartilovou odchylku: q = x0,75 – x0,25 = 5 – 2 = 3. Dolní vnitřní hradba: x0,25 – 1,5q = 2 – 1,5.3 = -2,5 Horní vnitřní hradba: x0,75 + 1,5q = 5 + 1,5.3 = 9,5 Nakonec sestrojíme krabicový diagram: Vidíme, že datový soubor vykazuje určitou nesymetrii – medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně sešikmen. V souboru se nevyskytují žádné odlehlé ani extrémní hodnoty. 7 6 5 4 3 2 1 0 Pravděpodobnostně – pravděpodobnostní graf (P – P plot) 51 Příklad 52 usp. hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 Histogram 53 Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. (Ve STATISTICE je pojem histogramu širší, skrývá se za ním i sloupkový diagram.) Způsob konstrukce ve STATISTICE: na vodorovnou osu se vynášejí třídicí intervaly (implicitně 10, jejich počet lze změnit, stejně tak i meze třídicích intervalů) či varianty znaku a na svislou osu absolutní nebo relativní četnosti třídicích intervalů či variant. Do histogramu se zakreslí tvar hustoty (či pravděpodobnostní funkce) vybraného teoretického rozložení. Příklad 54 U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Nakreslete histogram. Řešení: Histogram s proloženou hustotou pravděpodobnosti normálního rozložení: Vidíme, že tvar histogramu se poněkud odchyluje od tvaru hustoty pravděpodobnosti normálního rozložení. Malé hodnoty jsou četnější než velké – datový soubor je kladně sešikmen. Vlastnosti rozložení četností datového souboru se projeví ve vzhledu histogramu, N–P plotu a krabicového diagramu, jak vidíme na na následujícím obrázku: Výdaje Počet dom. 7 16 27 14 4 2 50 80 110 140 170 200 0 5 10 15 20 25 30 Vlastnosti rozložení četností datového souboru 55 3. Bodové a intervalové odhady parametrů a parametrických funkcí 56 Definice parametrického prostoru a parametrické funkce 57 Definice nestranného odhadu, lepšího nestranného odhadu, posloupnosti asymptoticky nestranných odhadů a konzistentních odhadů 58 Důsledek: Vztah mezi jednotlivými typy bodových odhadů 59 Lze dokázat, že z nestrannosti odhadu vyplývá jeho asymptotická nestrannost a z asymptotické nestrannosti vyplývá konzistence, pokud posloupnost rozptylů odhadu konverguje k nule. Věta o vlastnostech bodových odhadů odvozených z jednoho náhodného výběru (1) 60 Věta o vlastnostech bodových odhadů odvozených z jednoho náhodného výběru (2) 61 Ilustrace (1) Vlastnosti výběrového průměru a výběrového rozptylu budeme ilustrovat na náhodném výběru rozsahu 100 z rozložení Rs(0,1). V tomto případě E(Xi) = 1/2, D(Xi) = 1/12, i = 1, …, 100. Pomocí systému STATISTICA vygenerujeme pro každou z náhodných veličin X1, …, X100 100 realizací a uložíme je do proměnných v1, …, v100. Dále vypočítáme průměr a rozptyl těchto realizací, uložíme je do proměnných PRUMER a ROZPTYL. Graficky znázorníme hodnoty některé z proměnných v1, …, v100 (např. v1) a hodnoty proměnné PRUMER: 62 Prom1 PRUMER -20 0 20 40 60 80 100 120 PORADI -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 Ilustrace (2) Vidíme, že hodnoty proměnné v1 kolísají od 0 do 1, zatímco hodnoty proměnné PRUMER se nacházejí v úzkém pásu kolem 1/2. Dále vypočteme průměr a rozptyl např. proměnné v1 a proměnné PRUMER a dále vypočtěte průměr proměnné ROZPTYL. Průměr proměnné v1 by měl být blízký 0,5, rozptyl 1/12 = 0,083. Průměr proměnné PRUMER by se měl blížit 0,5, zatímco rozptyl by měl být n = 100 x menší než 1/12, tj. 0,00083. Dále průměr proměnné ROZPTYL by se měl blížit 1/12 = 0,083. 63 Ilustrace (3) Nestrannost výběrové distribuční funkce budeme ilustrovat na náhodném výběru rozsahu 1000 z rozložení N(0,1). Získáme výběrovou distribuční funkci tohoto výběru a její graf porovnáme s grafem distribuční funkce náhodné veličiny se standardizovaným normálním rozložením. Graf výběrové distribuční funkce má černou barvu, graf distribuční funkce standardizovaného normálního rozložení má červenou barvu. 64 Ilustrace (4) Průběh výběrové distribuční funkce F1000(x) je velmi podobný průběhu distribuční funkce Ф(x). Pokud bychom postup zopakovali s podstatně menším rozsahem náhodného výběru (např. n = 100), průběh obou funkcí by se lišil výrazněji: 65 Věta o vlastnostech bodových odhadů odvozených z r ≥ 2 nezávislých náhodných výběrů 66 Věta o vlastnostech bodových odhadů odvozených z jednoho dvourozměrného náhodného výběru Nechť (X1,Y1), ..., (Xn,Yn) je náhodný výběr z dvourozměrného rozložení s kovariancí σ12 a koeficientem korelace ρ. Označme S12 výběrovou kovarianci a R12 výběrový koeficient korelace. Pak pro libovolné hodnoty parametrů σ12 a ρ platí: E(S12) = σ12, E(R12) ≈ ρ (shoda je vyhovující pro n ≥ 30). Znamená to, že výběrová kovariance S12 je nestranným odhadem kovariance σ12, avšak výběrový koeficient korelace R12 je vychýleným odhadem koeficientu korelace ρ. 67 Definice intervalu spolehlivosti 68 Doporučený postup při konstrukci intervalu spolehlivosti (1) 69 Doporučený postup při konstrukci intervalu spolehlivosti (2) 70 Ilustrace Jestliže 100x nezávisle na sobě uskutečníme náhodný výběr z rozložení se střední hodnotou μ a pokaždé sestrojíme 95% empirický interval spolehlivosti pro μ, pak přibližně v 95 případech bude ležet parametr μ v intervalech spolehlivosti a asi v 5 případech interval spolehlivosti μ nepokryje. 71 Příklad (1) 72 Příklad (2) 73 Příklad 74 Poznámka o šířce intervalu spolehlivosti 75 Ilustrace (1) ad a) Grafické znázornění závislosti dolních a horních meze 95% empirických intervalů spolehlivosti pro střední hodnotu normálního rozložení při známém rozptylu na rozsahu náhodného výběru: Vidíme, že šířka intervalu spolehlivosti klesá se zvětšujícím se rozsahem náhodného výběru, zprvu rychle a pak stále pomaleji. 76 Ilustrace (2) ad b) Grafické znázornění závislosti dolních a horních mezí 100(1-α)% empirických intervalů spolehlivosti pro střední hodnotu normálního rozložení při známém rozptylu a konstantním rozsahu výběru na riziku: Vidíme, že šířka intervalu spolehlivosti s rostoucím rizikem klesá. 77 0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 0,20 0,22 Prom1 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 Příklad 78 (Stanovení minimálního rozsahu výběru z normálního rozložení) Poznámky 79 Cokoliv z náhodného výběru můžeme pokládat za bodový odhad parametru. Bodový odhad by měl být nestranný. Konzistentní odhad – rozptyly se asymptoticky blíží k 0. 4. Metody hledání bodových odhadů parametrů. Úvod do testování hypotéz. 80 Definice maximálně věrohodného odhadu 81 Definice věrohodnostních rovnic 82 Příklad (1) 83 (Maximálně věrohodný odhad v diskrétním skalárním případě) Příklad (2) 84 (Maximálně věrohodný odhad v diskrétním skalárním případě) Příklad (1) 85 (Maximálně věrohodný odhad ve spojitém vektorovém případě) Příklad (2) 86 (Maximálně věrohodný odhad ve spojitém vektorovém případě) Definice momentového odhadu 87 Příklad 88 Testování hypotéz Motivace: Častým úkolem statistika je na základě dat ověřit předpoklady o parametrech nebo typu rozložení, z něhož pochází náhodný výběr. Takovému předpokladu se říká nulová hypotéza. Nulová hypotéza vyjadřuje nějaký teoretický předpoklad, často skeptického rázu a uživatel ji musí stanovit předem, bez přihlédnutí k datovému souboru. Proti nulové hypotéze stavíme alternativní hypotézu, která říká, co platí, když neplatí nulová hypotéza. Alternativní hypotéza je formulována tak, aby mohla platit jenom jedna z těchto dvou hypotéz. Pravdivost alternativní hypotézy by znamenala objevení nějakých nových skutečností nebo zásadnější změnu v dosavadních představách. Např. výzkumník by chtěl na základě dat prověřit tezi (nový objev), že pasivní kouření škodí zdraví. Jako nulovou hypotézu tedy položí tvrzení, že pasivní kouření neškodí zdraví a proti nulové hypotéze postaví alternativní, že pasivní kouření škodí zdraví. Testováním hypotéz se myslí rozhodovací postup, který je založen na daném náhodném výběru a s jehož pomocí rozhodneme o zamítnutí či nezamítnutí nulové hypotézy. 89 Definice nulové a alternativní hypotézy 90 Testování nulové a alternativní hypotézy 91 Definice chyby 1. a 2. druhu Při testování H0 proti H1 se můžeme dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Situaci přehledně znázorňuje tabulka: Pravděpodobnost chyby 1. druhu se značí α a nazývá se hladina významnosti testu (většinou bývá α = 0,05, méně často 0,1 či 0,01). Pravděpodobnost chyby 2. druhu se značí β. Číslo 1–β se nazývá síla testu a vyjadřuje pravděpodobnost, že bude H0 zamítnuta za předpokladu, že neplatí. Obvykle se snažíme, aby síla testu byla aspoň 0,8. Obě hodnoty, α i 1–β, závisí na velikosti efektu, který se snažíme detekovat. Čím drobnější efekt, tím musí být větší rozsah náhodného výběru. Poznámka: Testování nulové hypotézy proti alternativní hypotéze třemi způsoby. Testování nulové hypotézy proti alternativní hypotéze lze provést pomocí kritického oboru, pomocí intervalu spolehlivosti nebo pomocí p-hodnoty. 92 skutečnost rozhodnutí H0 nezamítáme H0 zamítáme H0 platí správné rozhodnutí chyba 1. druhu H0 neplatí chyba 2. druhu správné rozhodnutí Definice testového kritéria, oboru nezamítnutí, kritického oboru a kritických hodnot Statistika T0 = T0(X1, ..., Xn) se nazývá testovým kritériem. Množina všech hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto dva obory jsou odděleny kritickými hodnotami (pro danou hladinu významnosti α je lze najít ve statistických tabulkách). 93 Rozhodnutí o nulové hypotéze pomocí realizace testového kritéria v oboru nezamítnutí či v kritickém oboru Jestliže číselná realizace t0 testového kritéria T0 padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti α a znamená to skutečné vyvrácení testované hypotézy. Jestliže t0 padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. 94 Stanovení kritického oboru v případě oboustranné alternativy, levostranné alternativy, pravostranné alternativy 95 Doporučený postup při testování nulové hypotézy proti alternativní hypotéze pomocí kritického oboru − Stanovíme nulovou hypotézu a alternativní hypotézu. Přitom je vhodné zvolit jako alternativní hypotézu ten předpoklad, jehož přijetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu. − Zvolíme hladinu významnosti α. Zpravidla volíme α = 0,05, méně často 0,1 nebo 0,01. − Najdeme vhodné testové kritérium a na základě zjištěných dat vypočítáme jeho realizaci. − Jestliže realizace testového kritéria padla do kritického oboru, nulovou hypotézu zamítáme na hladině významnosti α a přijímáme alternativní hypotézu. V opačném případě nulovou hypotézu nezamítáme na hladině významnosti α. − Na základě rozhodnutí, které jsme učinili o nulové hypotéze, učiníme nějaké konkrétní opatření, např. seřídíme obráběcí stroj. − (Při testování hypotéz musíme mít k dispozici odpovídající nástroje, nejlépe vhodný statistický software. Nemáme-li ho k dispozici, musíme znát příslušné vzorce. Dále potřebujeme statistické tabulky a kalkulačku.) 96 Testování nulové hypotézy proti alternativní hypotéze pomocí 100(1-α)% empirického intervalu spolehlivosti pro parametrickou funkci h(ϑ) 97 Testování nulové hypotézy proti alternativní hypotéze pomocí p-hodnoty p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je to riziko, že bude zamítnuta H0 za předpokladu, že platí (riziko planého poplachu). Jestliže p-hodnota ≤ α, pak H0 zamítáme na hladině významnosti α, je-li p-hodnota > α, pak H0 nezamítáme na hladině významnosti α. Způsob výpočtu p-hodnoty:  Pro oboustrannou alternativu p = 2 min{P(T0 ≤ t0), P(T0 ≥ t0)}.  Pro levostrannou alternativu p = P(T0 ≤ t0).  Pro pravostrannou alternativu p = P(T0 ≥ t0). (p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace x1, ..., xn náhodného výběru X1, ..., Xn podporují H0, je-li pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vyžaduje znalost distribuční funkce rozložení, kterým se řídí testové kritérium T0, je-li H0 pravdivá. Vzhledem k tomu, že v běžných statistických tabulkách jsou uvedeny pouze hodnoty distribuční funkce standardizovaného normálního rozložení, bez použití speciálního software jsme schopni vypočítat p-hodnotu pouze pro test hypotézy o střední hodnotě normálního rozložení při známém rozptylu.) 98 Ilustrace významu p-hodnoty (1) Oboustranný test: 99 Ilustrace významu p-hodnoty (2) Levostranný test: 100 Ilustrace významu p-hodnoty (3) Pravostranný test: 101 Příklad (1) 102 Příklad (2) 103 5. Porovnání empirického a teoretického rozložení Motivace: Možnost použití statistických testů je podmíněna nějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je založeno na předpokladu normality. Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost. 104 Popis Kolmogorovova – Smirnovova testu a jeho Lilieforsovy varianty 105 Lilieforsova modifikace Kolmogorovova – Smirnovova testu Nechť nulová hypotéza tvrdí, že náhodný výběr pochází z normálního rozložení, jehož parametry μ a σ2 neznáme. Tyto parametry musíme odhadnout z dat. Tím se změní rozložení testové statistiky Dn. V takovém případě jde o Lilieforsovu modifikaci Kolmogorovova – Smirnovova testu. Příslušné modifikované kvantily byly určeny pomocí simulačních studií. Poznámka ke K-S testu ve STATISTICE: Test normality poskytuje hodnotu testové statistiky (ozn. d) a dvě p-hodnoty. První se vztahuje k případu, kdy μ a σ2 známe předem, druhá (ozn. Liliefors p) se vztahuje k případu, kdy μ a σ2 neznáme. Objeví-li se ve výstupu p = n.s. (tj. non significant), pak hypotézu o normalitě nezamítáme na hladině významnosti 0,05. 106 Příklad (1) 107 Příklad (2) 108 Popis Shapirova – Wilkova testu 109 Výpočet pomocí systému STATISTICA (1) 110 V sedmi náhodně vybraných prodejnách byly zjištěny následující ceny určitého druhu zboží (v Kč): 35, 29, 30, 33, 45, 33, 36. Rozhodněte pomocí Lilieforsovy varianty K-S testu a S-W testu na hladině významnosti 0,05, zda lze tyto ceny považovat za realizace náhodného výběru z normálního rozložení. Řešení: Otevřeme nový datový soubor o jedné proměnné a 7 případech. Do proměnné X jsou zapíšeme zjištěné ceny. Statistiky – Základní statistiky a tabulky – Tabulky četností - OK – Proměnné X, OK – Normalita – zaškrtneme Lilieforsův test a Shaphiro - Wilksův W test –Testy normality V tabulce je uvedena hodnota testové statistiky pro Lilieforsův test (d = 0,24029) a pro S-W test (W = 0,86866) a odpovídající p-hodnoty. Lilieforsovo p je počítáno na základě parametrů odhadnutých z dat. V našem případě p > 0,2 a pro S-W test p = 0,18068. Ani jeden z testů nezamítá nulovou hypotézu o normalitě. Výpočet doplníme normálním pravděpodobnostním grafem a kvantil – kvantilovým grafem: Graphs – 2D Graphs - Normal Probability Plots (resp. Quantile- Quantile plot)- Variables X – OK. Testy normality (Tabulka22) Proměnná N max D Lilliefors p W p x 7 0,240290 p > .20 0,868661 0,180679 Výpočet pomocí systému STATISTICA (2) 111 N-P plot: 28 30 32 34 36 38 40 42 44 46 Pozorovaná hodnota -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 Očekávanánormálníhodnota Výpočet pomocí systému STATISTICA (3) 112 Q-Q plot: -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 Teoretický kvantil 0,10 0,25 0,50 0,75 0,90 28 30 32 34 36 38 40 42 44 46 Pozorovanýkvantil Další testy normality (1) 113 Další testy normality (2) 114 Další testy normality (3) 115 Popis testu dobré shody v diskrétním a spojitém případě (1) 116 Popis testu dobré shody v diskrétním a spojitém případě (2) 117 Příklad 118 (Test dobré shody pro diskrétní rozložení) j nj pj npj 0 52 0,301 150.0,301=45,15 1,039 1 48 0,361 150.0,361=54,15 0,698 2 36 0,217 150.0,217=32,55 0,366 3 10 0,087 150.0,087=13,05 0,713 4 4 0,034 150.0,034=5,1 0,237 Výpočet pomocí systému STATISTICA (1) 119 Vytvoříme datový soubor o dvou proměnných (POČET a ČETNOST) a pěti případech a zapíšeme do něj hodnoty 0 1 2 3 4 a 52 48 36 10 4. Statistiky – Prokládání rozdělení – Diskrétní rozdělení – Poissonovo – OK – Proměnná POČET – Proměnná vah ČETNOST – Stav zapnuto – OK – Parametry Lambda 1,2, OK. Ve výstupní tabulce je uvedena hodnota testového kritéria (3,03371) a odpovídající phodnota (0,38646). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. (Podmínky dobré aproximace jsou splněny, všechny teoretické četnosti - uvedené ve sloupci Očekávané četnosti – jsou větší než 5.) Proměnná: pocet, Rozdělení:Poissonovo, Lambda = 1,20000 (T abulka4) Chí-kvadrát = 3,03371, sv = 3, p = 0,38646 Kategorie Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. Poz O <= 0,00000 1,00000 2,00000 3,00000 < Nekonečno 52 52 34,66667 34,666745,17914 45,179130,11943 30,1194 48 100 32,00000 66,666754,21495 99,394136,14330 66,2627 36 136 24,00000 90,666732,52897 131,923121,68598 87,9487 10 146 6,66667 97,333313,01159 144,9347 8,67439 96,6231 4 150 2,66667 100,0000 5,06535 150,0000 3,37690 100,0000 Výpočet pomocí systému STATISTICA (2) 120 Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. Proměnná: pocet, Rozdělení:Poissonovo, Lambda = 1,20000 Chí-kvadrát test = 3,03371, sv = 3, p = 0,38646 -1 0 1 2 3 4 5 Kategorie (horní meze) 0 10 20 30 40 50 60 Početpozorování Příklad 121 (Test dobré shody pro spojité rozložení) nj pj=Ф(uj+1)- Ф(uj) npj (nj – npj)2 11 0,060598 6,0598 24,4060 4,0276 20 0,241730 24,1730 17,4142 0,7204 44 0,382925 38,2925 32,5756 0,8507 19 0,241730 24,1730 26,7608 1,1070 6 0,060598 6,0598 0,0036 0,0006 Výpočet pomocí systému STATISTICA (1) 122 1 xj 2 nj 1 2 3 4 5 3,94 11 3,98 20 4,02 44 4,06 19 4,1 6 Proměnná:xj, Rozdělení:Normální (T abulka10) Chí-kvadrát = 5,54004, sv = 2, p = 0,06266 Horní hranice Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. Pozorované - Očekáv. <= 3,96000 4,00000 4,04000 4,08000 < Nekonečno 11 11 11,00000 11,0000 6,68072 6,6807 6,68072 6,6807 4,31928 20 31 20,00000 31,000024,17303 30,853824,17303 30,8538 -4,17303 44 75 44,00000 75,000038,29249 69,146238,29249 69,1462 5,70751 19 94 19,00000 94,000024,17303 93,319324,17303 93,3193 -5,17303 6 100 6,00000 100,0000 6,68072 100,0000 6,68072 100,0000 -0,68072 Výpočet pomocí systému STATISTICA (2) 123 Pro vytvoření grafu se vrátíme do Proložení spojitých rozdělení – Základní výsledky – Graf pozorovaného a očekávaného rozdělení. Proměnná:xj, Rozdělení:Normální Chí-kvadrát test = 5,54004, sv = 2, p = 0,06266 3,92 3,96 4,00 4,04 4,08 4,12 Kategorie (horní meze) 0 5 10 15 20 25 30 35 40 45 50 Početpozorování Poznámka o testu dobré shody 124 Test dobré shody může být použit i v těch případech, kdy rozložení, z něhož daný náhodný výběr pochází, neodpovídá nějakému známému rozložení (např. exponenciálnímu, normálnímu, Poissonovu, ...), ale je určeno intuitivně nebo na základě zkušenosti. Příklad 125 Ve svých pokusech pozoroval J.G. Mendel 10 rostlin hrachu a na každé z nich počet žlutých a zelených semen. Výsledky pokusu: Z genetických modelů vyplývá, že pravděpodobnost výskytu žlutého semene by měla být 0,75 a zeleného 0,25. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že výsledky Mendelových pokusů se shodují s modelem. Řešení: Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. K = 0,148148 + 0,258547 + ... + 0,134409 = 1,797495, r = 10, χ2 0,95(9) = 16,9. Protože 1,797495 < 16,9, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. č.rostliny 1 2 3 4 5 6 7 8 9 10 počet žlutých semen 25 32 14 70 24 20 32 44 50 44 počet zelených semen 11 7 5 27 13 6 13 9 14 18 celkem 36 39 19 97 37 26 45 53 64 62 j nj pj npj 1 25 0,75 36.0,75=27 0,148148 2 32 0,75 39.0,75=29,25 0,258547 10 44 0,75 62.0,75=46,5 0,134409 Výpočet pomocí systému STATISTICA 126 Vytvoříme datový soubor se třemi proměnnými Celkem, X a Y a 10 případy. Do proměnné Celkem zapíšeme celkový počet žlutých a zelených semen, do X zapíšeme pozorované absolutní četnosti žlutých semen, do proměnné Y vypočítané teoretické četnosti (v našem případě Celkem*0,75). Statistiky – Neparametrická statistika – Pozorované vs. očekávané χ2 – Proměnné Pozorované četnosti X, Očekávané četnosti Y, OK – Výpočet. Ve výstupní tabulce najdeme hodnotu testové statistiky (Chi-Kvadr. = 1,797495) a odpovídající phodnotu, kterou porovnáme se zvolenou hladinou významnosti. V našem případě je p-hodnota 0,99428, takže nulová hypotéza se nezamítá na asymptotické hladině významnosti 0,05. Pozorované vs. očekávané četnosti (Mendel hrach) Chi-Kvadr. = 1,797495 sv = 9 p = ,994280 POZN.: Nestejné součty pozor. a oček. četností Případ pozorov. X očekáv. Y P - O (P-O)^2 /O C: 1 C: 2 C: 3 C: 4 C: 5 C: 6 C: 7 C: 8 C: 9 C: 10 Sčt 25,0000 27,0000 -2,00000 0,148148 32,0000 29,2500 2,75000 0,258547 14,0000 14,2500 -0,25000 0,004386 70,0000 72,7500 -2,75000 0,103952 24,0000 27,7500 -3,75000 0,506757 20,0000 19,5000 0,50000 0,012821 32,0000 33,7500 -1,75000 0,090741 44,0000 39,7500 4,25000 0,454403 50,0000 48,0000 2,00000 0,083333 44,0000 46,5000 -2,50000 0,134409 355,0000 358,5000 -3,50000 1,797495 6. Parametrické úlohy o jednom náhodném výběru z normálního rozložení Motivace: Mnoho náhodných veličin, s nimiž se setkáváme ve výzkumu i praxi, se řídí normálním rozložením. Za jistých předpokladů obsažených v centrální limitní větě se dá rozložení jiných náhodných veličin aproximovat normálním rozložením. Proto je zapotřebí věnovat velkou pozornost právě náhodným výběrům z normálního rozložení. 127 Rozložení statistik odvozených z výběrového průměru a výběrového rozptylu 128 Důkaz 129 Příklad 130 Výpočet pomocí systému STATISTICA 131 132 133             , )1n( s)1n( 1 2 2 Příklad (1) 134 Příklad (2) 135 Výpočet pomocí systému STATISTICA (1) 136 Vytvoříme nový datový soubor o jedné proměnné X a 10 případech. Do proměnné X napíšeme dané hodnoty. Statistika – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – zaškrtneme Meze spolehl. prům. a Meze sp. směr. odch. (ostatní volby zrušíme) – pro oboustranný 95% interval spolehlivosti ponecháme implicitní hodnotu pro Interval 95,00, pro jednostranné intervaly změníme hodnotu na 90,00. Výsledky pro oboustranné 95% intervaly spolehlivosti pro střední hodnotu μ, pro směrodatnou odchylku σ a rozptyl σ2: Vidíme, že 1,92 < μ < 2,20 s pravděpodobností aspoň 0,95, 0,1383 < σ < 0,3671 s pravděpodobností aspoň 0,95. 0,0191 < σ2 < 0,1348 s pravděpodobností aspoň 0,95. Výpočet pomocí systému STATISTICA (2) 137 Výsledky pro jednostranné 95% intervaly spolehlivosti pro střední hodnotu μ, pro směrodatnou odchylku σ a rozptyl σ2: Vidíme, že μ > 1,94 s pravděpodobností aspoň 0,95, μ < 2,20 s pravděpodobností aspoň 0,95, σ > 0,1467 s pravděpodobností aspoň 0,95, σ < 0,3309 s pravděpodobností aspoň 0,95, σ2 > 0,0215 s pravděpodobností aspoň 0,95, σ2 < 0,1095 s pravděpodobností aspoň 0,95. Proměnná Int. spolehl. -90,000% Int. spolehl. 90,000 Spolehlivost Sm.Odch. -90,000% Spolehlivost Sm.Odch. +90,000% NProm1 =v3^2 NProm2 =v4^2 X 1,943421 2,176579 0,146678 0,3308620,021514 0,10947 Jednotlivé typy testů pro parametry normálního rozložení 138 139 140 141 Příklad 142 Výpočet pomocí systému STATISTICA 143 Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma průměry (normální rozdělení) – zaškrtneme Výběrový průměr vs. Střední hodnota a zvolíme jednostr. – do políčka Pr1 napíšeme 122, do políčka SmOd1 napíšeme 8,6, do políčka N1 napíšeme 50, do políčka Pr2 napíšeme 125 - Výpočet. Dostaneme p-hodnotu 0,0086, tedy zamítáme nulovou hypotézu na hladině významnosti 0,01. Definice rozdílového náhodného výběru a vzorec pro meze na základě náhodného výběru z dvourozměrného normálního rozložení 144 𝜇1 𝜇2 , 𝜎1 2 𝜎12 𝜎12 𝜎2 2 Příklad 145 číslo vzorku 1 2 3 4 5 1. metoda 2,3 1,9 2,1 2,4 2,6 2. metoda 2,4 2,0 2,0 2,3 2,5 Výpočet pomocí systému STATISTICA 146 Vytvoříme nový datový soubor o 3 proměnných a 5 případech. Do 1. proměnné X napíšeme hodnoty pro 1. metodu, do 2. proměnné Y hodnoty pro 2. metodu a do 3. proměnné Z rozdíly mezi X a Y. Statistiky – Základní statistiky a tabulky – Popisné statistiky, OK - Proměnné Z, Detailní výsledky – zaškrtneme Meze spolehl. Prům. – Interval 90% Výpočet. Dostaneme tabulku: Vidíme tedy, že -0,0844 < μ < 0,1244 s pravděpodobností aspoň 0,9. Popisné statistiky (chemicka latka) Proměnná Int. spolehl. -90,000% Int. spolehl. 90,000 Z -0,084439 0,124439 Definice párového t-testu 147 𝜇1 𝜇2 , 𝜎1 2 𝜎12 𝜎12 𝜎2 2 Příklad (1) 148 č.firmy 1 2 3 4 5 6 7 8 9 10 11 12 X 10 12 14 12 12 17 9 15 9 11 7 15 Y 11 14 15 11 13 16 10 13 11 17 9 19 Příklad (2) 149 Výpočet pomocí systému STATISTICA 150 Vytvoříme nový datový soubor o 2 proměnných a 12 případech. Do 1. proměnné X napíšeme hodnoty pro mezinárodní podnikání, do 2. proměnné hodnoty pro domácí podnikání. Statistiky – Základní statistiky a tabulky – t-test pro závislé vzorky, OK Proměnné X, Y – OK – Výpočet. Dostaneme tabulku: Vypočtenou p-hodnotu 0,05849 porovnáme se zvolenou hladinou významnosti α = 0,1. Protože p ≤ α, zamítáme nulovou hypotézu na hladině významnosti 0,1. t-test pro závislé vzorky (investovani) Označ. rozdíly jsou významné na hlad. p < ,05000 Proměnná Průměr Sm.odch. N Rozdíl Sm.odch. rozdílu t sv p X Y 11,91667 2,937480 13,25000 3,04884512 -1,33333 2,188122 -2,11085 11 0,058490 7. Parametrické úlohy o dvou nezávislých náhodných výběrech z normálních rozložení Motivace: V této situaci je naším úkolem porovnat střední hodnoty či rozptyly dvou normálních rozložení na základě znalosti dvou nezávislých náhodných výběrů pořízených z těchto rozložení. Zpravidla konstruujeme intervaly spolehlivosti pro rozdíl středních hodnot respektive hodnotíme shodu středních hodnot pomocí dvouvýběrového t-testu či dvouvýběrového z-testu a shodu rozptylů pomocí F-testu. 151 Rozložení statistik odvozených z výběrových průměrů a výběrových rozptylů (1) 152 Rozložení statistik odvozených z výběrových průměrů a výběrových rozptylů (2) 153 Důkaz 154 Příklad 155 Výpočet pomocí systému STATISTICA 156 157 158 Lineární interpolace 159 Příklad: máme α=0,05, vyjde ν=5,25, v tabulkách najdeme t0,95(5)= 2,015 a t0,95(6)= 1,943. Interpolací dostáváme: 997,1)525,5( 56 015,2943,1 015,2)25.5(95,0    t 160 161 Příklad 162 Výpočet pomocí systému STATISTICA 163 Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =34,48-35,59- sqrt((24*1,7482+9*1,7121)/33)*sqrt((1/25)+(1/10))*VStudent(0,975;33) Do Dlouhého jména proměnné h napíšeme =34,48-35,59+ sqrt((24*1,7482+9*1,7121)/33)*sqrt((1/25)+(1/10))*VStudent(0,975;33) S pravděpodobností aspoň 0,95 tedy -2,114 g/l < μ1 - μ2 < -0,106 g/l. 1 d 2 h 1 -2,11368 -0,10632 Příklad 164 Výpočet pomocí systému STATISTICA 165 Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =(1,7482/1,7121)/VF(0,975;24;9) (Funkce VF(x;ný;omega) počítá x-kvantil Fisherova – Snedecorova rozložení F(ný, omega).) Do Dlouhého jména proměnné h napíšeme =(1,7482/1,7121)/VF(0,025;24;9) S pravděpodobností aspoň 0,95 tedy platí: 0,28 < σ1 2/ σ2 2 < 2,76. 1 d 2 h 1 0,2825212,759698 166 167 168 169 Příklad (1) 170 Příklad (2) 171 Výpočet pomocí systému STATISTICA (1) 172 Otevřeme nový datový soubor o dvou proměnných a 35 případech. První proměnnou nazveme OBSLUHA, druhou ID. Do proměnné OBSLUHA napíšeme nejprve doby obsluhy v první restauraci a poté doby obsluhy ve druhé restauraci. Do proměnné ID, která slouží k rozlišení první a druhé restaurace, napíšeme 20 krát jedničku a 15 krát dvojku. Pomocí NP-grafu ověříme normalitu dat v obou skupinách. Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnné OBSLUHA, OK, Kategorizovaný – Kategorie X, zaškrtneme Zapnuto, Změnit proměnnou – ID, OK. Výpočet pomocí systému STATISTICA (2) 173 Dostaneme graf Normální p-graf z obsluha; kategorizovaný id restaurace.sta 2v*35c id: 1 2 4 6 8 10 12 14 16 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Očekávanánormálníhodnota id: 2 2 4 6 8 10 12 14 16 Výpočet pomocí systému STATISTICA (3) 174 V obou případech se tečky odchylují od přímky jenom málo. Předpoklad o normálním rozložení dat v obou skupinách je oprávněný. Nyní provedeme dvouvýběrový t-test současně s testem o shodě rozptylů: Statistika – Základní statistiky a tabulky – t-test, nezávislé, dle skupin – OK, Proměnné –Závislé proměnné OBSLUHA, Grupovací proměnná ID – OK. Po kliknutí na tlačítko Souhrn dostaneme tabulku t-testy; grupováno: ID (restaurace) Skup. 1: 1 Skup. 2: 2 Proměnná Průměr 1 Průměr 2 t sv p Poč.plat 1 Poč.plat. 2 Sm.odch. 1 Sm.odch. 2 F-poměr rozptyly p rozptyly OBSLUHA 8,250000 8,133333 0,123730 33 0,902279 20 15 2,510504 3,067495 1,492952 0,410440 Výpočet pomocí systému STATISTICA (4) 175 Vidíme, že testová statistika pro test shody rozptylů se realizuje hodnotou 1,492952 (je to převrácená hodnota k číslu 0,6702, které jsme vypočítali při ručním postupu), odpovídající p-hodnota je 0,41044, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. (Upozornění: v případě zamítnutí hypotézy o shodě rozptylů je zapotřebí v tabulce t-testu pro nezávislé vzorky dle skupin zaškrtnout volbu Test se samostatnými odhady rozptylu.) Dále z tabulky plyne, že testová statistika pro test shody středních hodnot se realizuje hodnotou 0,12373, počet stupňů volnosti je 33, odpovídající phodnota 0,902279, tedy hypotézu o shodě středních hodnot nezamítáme na hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 5% se neprokázal rozdíl ve středních hodnotách dob obsluhy v restauracích "U bílého koníčka" a „Zlatý lev“. Výpočet pomocí systému STATISTICA (5) 176 Tabulku ještě doplníme krabicovými diagramy. Na záložce Detaily zaškrtneme krabicový graf a vybereme volbu Průměr/SmOdch/Min-Max. Z grafu je vidět, že průměrná doba obsluhy v první restauraci je nepatrně delší a má menší variabilitu než ve druhé restauraci. Extrémní ani odlehlé hodnoty se zde nevyskytují. Krabicový graf z obsluha seskupený id restaurace.sta 2v*35c Průměr Průměr±SmOdch Min-Max Odlehlé Extrémy 1 2 id 2 4 6 8 10 12 14 16 obsluha Cohenův koeficient věcného účinku – doplnění významu dvouvýběrového t-testu (1) 177 Cohenův koeficient věcného účinku – doplnění významu dvouvýběrového t-testu (2) Velikost účinku hodnotíme podle následující tabulky: (Uvedené hodnoty nemají samozřejmě absolutní platnost, posouzení, jaký účinek považujeme za velký či malý, závisí na kontextu.) Je zapotřebí si uvědomit, že při dostatečně velkých rozsazích náhodných výběrů i malý rozdíl ve výběrových průměrech způsobí zamítnutí nulové hypotézy na hladině významnosti α, i když z věcného hlediska tak malý rozdíl nemá význam. Naopak, máme-li výběry malých rozsahů, pak i značně velký rozdíl ve výběrových průměrech nemusí vést k zamítnutí nulové hypotézy na hladině významnosti α. 178 Hodnota d účinek aspoň 0,8 velký mezi 0,5 až 0,8 střední mezi 0,2 až 0,5 malý pod 0,2 zanedbatelný Příklad (1) 179 Máme k dispozici údaje o celkovém IQ 856 žáků ZŠ. Zajímáme se jednak o skupinu dětí, jejichž oba rodiče mají pouze základní vzdělání (je jich 296) a jednak o skupinu dětí, jejichž oba rodiče mají vysokoškolské vzdělání (těch je 75). Na hladině významnosti 0,05 budeme testovat hypotézu, že střední hodnota celkového IQ je v obou skupinách stejná a také vypočteme Cohenův koeficient věcného účinku. Řešení: Normalitu dat v obou skupinách posoudíme pomocí N-P plotu: Příklad (2) 180 Normální p-graf z IQ_CELK; kategorizovaný ID ID: oba ZŠ 50 60 70 80 90 100 110 120 130 140 150 -4 -3 -2 -1 0 1 2 3 4 Očekávanánormálníhodnota ID: oba VŠ 50 60 70 80 90 100 110 120 130 140 150 Příklad (3) 181 Vzhled N- P plotů v obou skupinách podporuje domněnku o normalitě dat. Provedeme dvouvýběrový t-test: Hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05, protože odpovídající p-hodnota je velmi blízká 0 (hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05, p-hodnota F-testu je 0,110124, což je větší než 0,05). t-testy; grupováno:ZŠ a VŠ (IQ) Skup. 1: oba ZŠ Skup. 2: oba VŠ Proměnná Průměr oba ZŠ Průměr oba VŠ t sv p Poč.plat oba ZŠ Poč.plat. oba VŠ Sm.odch. oba ZŠ Sm.odch. oba VŠ F-poměr Rozptyly p Rozptyly IQ_CELK 94,13851 110,9067 -10,6295 369 0,000000 296 75 11,82604 13,60164 1,322829 0,110124 Příklad (4) 182 Krabicový diagram: Krabicový graf z IQ_CELK seskupený ID Průměr Průměr±SmOdch Min-Max Odlehlé Extrémy oba ZŠ oba VŠ ID 50 60 70 80 90 100 110 120 130 140 150 IQ_CELK Příklad (5) 183 Vidíme, že průměrné celkové IQ dětí v 1. skupině je 94,1, zatímco ve 2. skupině 110,9. Vliv skupiny na variabilitu hodnot celkového IQ posoudíme pomocí Cohenova koeficientu. Cohenův koeficient nabývá hodnoty 1,37, tudíž vliv skupiny na variabilitu hodnot celkového IQ lze považovat za velký. 1 n1 2 n2 3 m1 4 m2 5 s1 6 s2 7 d 1 296 75 94,13851 110,9067 11,82604 13,60164 1,374117 8. Parametrické úlohy o jednom náhodném výběru a dvou nezávislých náhodných výběrech z alternativních rozložení 184 Centrální limitní věta 185 Asymptotické rozložení statistiky odvozené z výběrového průměru 186 Vzorec pro meze 100(1-α)% asymptotického empirického intervalu spolehlivosti pro parametr ϑ 187 Příklad 188 Výpočet pomocí systému STATISTICA (1) 189 a) Přesný způsob Otevřeme nový datový soubor se dvěma proměnnými a jednom případu. První proměnnou nazveme d a do jejího Dlouhého jména napíšeme =0,34-sqrt(0,34*0,66/100)*VNormal(0,975;0;1) Druhou proměnnou nazveme h a do jejího Dlouhého jména napíšeme =0,34+sqrt(0,34*0,66/100)*VNormal(0,975;0;1) Dostaneme výsledek: Vidíme, že s pravděpodobností aspoň 0,95 se pravděpodobnost používání zubního kartáčku zahraniční výroby bude pohybovat v mezích 0,2471 až 0,4328. 1 d 2 h 1 0,247155 0,432845 Výpočet pomocí systému STATISTICA (2) 190 b) Přibližný způsob, použitelný pro dostatečně velký rozsah výběru Do nového datového souboru o jedné proměnné X a 100 případech uložíme 34 jedniček (indikují používání zubního kartáčku zahraniční výroby) a 66 nul (indikují používání zubního kartáčku domácí výroby). Statistika – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – zaškrtneme Meze spolehl. prům. – ponecháme implicitní hodnotu pro Interval 95,00 – Výpočet. Dostaneme tabulku: Dospěli jsme k výsledku, že s pravděpodobností aspoň 0,95 se pravděpodobnost používání zubního kartáčku zahraniční výroby bude pohybovat v mezích 0,2455 až 0,4345. Popisné statistiky (T abulka3) Proměnná N platných Průměr Int. spolehl. -95,000% Int. spolehl. 95,000 X 100 0,340000 0,245532 0,434468 Výpočet pomocí systému STATISTICA (3) 191 c) Výpočet pomocí modulu Analýza síly testu Statistiky – Analýza síly testu – Odhad intervalu – Jeden podíl, Z, Chí-kvadrát test – OK – Pozorovaný podíl p: 0,34, Velikost vzorku: 100, Spolehlivost: 0,95 – Vypočítat. Dostaneme tabulku: Hodnota Podíl vzorku p Velikost vz. ve skup. (N) Interval spolehlivosti Meze spolehlivosti: Pí (přesně): Dolní mez Horní mez Pí (přibližně): Dolní mez Horní mez Pí (původ.): Dolní mez Horní mez 0,3400 100,0000 0,9500 0,2482 0,4415 0,2501 0,4423 0,2472 0,4328 Zajímá nás výsledek uvedený v dolní části tabulky, tj. Pí (původ.). Zjišťujeme, že s pravděpodobností aspoň 0,95 se hledaná pravděpodobnost bude pohybovat v mezích 0,2472 až 0,4328. Příklad (1) 192 Příklad (2) 193 Příklad (3) 194 Testování hypotézy o parametru ϑ 195 Příklad (1) 196 Příklad (2) 197 Výpočet pomocí systému STATISTICA 198 Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma poměry – do políčka P 1 napíšeme 0,016, do políčka N1 napíšeme 1000, do políčka P 2 napíšeme 0,01, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme phodnotu 0,0626, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Příklad 199 Výpočet pomocí systému STATISTICA 200 Vypočtená p-hodnota jednostranného testu je 0,1031, tedy menší než asymptotická hladina významnosti 0,05. H0 nezamítáme na asymptotické hladině významnosti 0,05. Asymptotické rozložení statistiky odvozené ze dvou výběrových průměrů 201 202 Příklad (1) 203 Příklad (2) 204 205 206 Příklad (1) 207 Příklad (2) 208 Výpočet pomocí systému STATISTICA 209 Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma poměry – do políčka P 1 napíšeme 0,485, do políčka N1 napíšeme 200, do políčka P 2 napíšeme 0,54, do políčka N2 napíšeme 300 – zaškrtneme Jednostr. - Výpočet. Dostaneme p-hodnotu 0,1142, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. 9. Analýza rozptylu jednoduchého třídění 210 faktor A výsledky úroveň 1 úroveň 2 … … úroveň r Ilustrace (1) 211 Ilustrace (2) Proto ve 30. letech 20. století vytvořil R. A. Fisher metodu ANOVA (analýza rozptylu, v popsané situaci konkrétně analýza rozptylu jednoduchého třídění), která uvedenou podmínku splňuje. Pokud na hladině významnosti α zamítneme nulovou hypotézu, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. 212 Tečková notace 213 Testování hypotézy o shodě středních hodnot (1) 214 Testování hypotézy o shodě středních hodnot (2) 215 Testování hypotézy o shodě středních hodnot (3) 216 Zdroj variability součet čtverců stupně volnosti podíl FA skupiny SA fA = r - 1 SA/fA reziduální SE fE = n - r SE/fE celkový ST fT = n - 1 - - Testování hypotézy o shodě rozptylů (1) 217 Testování hypotézy o shodě rozptylů (2) 218 Post – hoc metody mnohonásobného porovnávání (1) 219 Post – hoc metody mnohonásobného porovnávání (2) 220 Plánované porovnávání - testování významnosti kontrastů 221 Porovnávání s kontrolou 222 Příklad (1) 223 U čtyř odrůd brambor (označených symboly A, B, C, D) se zjišťovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky (v kg): Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Řešení: Data považujeme za realizace čtyř nezávislých náhodných výběrů ze čtyř normálních rozložení se stejným rozptylem. Testujeme hypotézu, že všechny čtyři střední hodnoty jsou stejné. Vypočítáme výběrové průměry v jednotlivých výběrech: M1. = 0,8, M2. = 1,2, M3. = 1,4, M4. = 1,1, celkový průměr M.. = 1,14, výběrové rozptyly: S1 2 = 0,02, S2 2 = 0,03, S3 2 = 0,04, S4 2 = 0,01, odrůda hmotnost A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Příklad (2) 224 Příklad (3) 225 Výsledky zapíšeme do tabulky ANOVA: Nyní pomocí Scheffého metody zjistíme, které dvojice odrůd se liší na hladině významnosti 0,05. Na hladině významnosti 0,05 se liší odrůdy A a C. Zdroj variability Součet čtverců Stupně volnosti podíl FA skupiny SA = 0,816 3 SA/3 = 0,272 reziduální SE = 0,3 11 SE/11 = 0,02727 celkový ST = 1,116 14 - Srovnávané odrůdy Pravá strana vzorce A, B 0,4 0,41 A, C 0,6 0,36 A, D 0,3 0,41 B, C 0,2 0,40 B, D 0,1 0,44 C, D 0,3 0,40 Výpočet pomocí systému STATISTICA (1) 226 Otevřeme nový datový soubor o dvou proměnných X a odrůda a 15 případech. Do proměnné X zapíšeme zjištěné hmotnosti, do proměnné odrůda kódy pro dané odrůdy (1 pro A, 2 pro B, 3 pro C a 4 pro D). 1 X 2 odruda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0,9 A 0,8 A 0,6 A 0,9 A 1,3 B 1 B 1,3 B 1,3 C 1,5 C 1,6 C 1,1 C 1,5 C 1,1 D 1,2 D 1 D Výpočet pomocí systému STATISTICA (2) 227 Vypočteme výběrové průměry a výběrové rozptyly: Statistiky – Základní statistiky a tabulky – Rozklad & jednofakt. ANOVA – OK – Proměnné – Závislé – X, Grupovací - odrůda – OK – Skupiny tabulek zaškrtneme Rozptyly - Výpočet. Nyní ověříme předpoklad shody rozptylů. Na záložce Skupiny tabulek zaškrtneme Levenův test – Výpočet. Rozkladová tabulka popisných statistik (priklad8301) N=15 (V seznamu záv. prom. nejsou ChD) odruda X průměr X N X Sm.odch. X Rozptyl A 0,800000 4 0,1414210,020000 B 1,200000 3 0,1732050,030000 C 1,400000 5 0,2000000,040000 D 1,100000 3 0,1000000,010000 Vš.skup. 1,14000015 0,2823370,079714 Výpočet pomocí systému STATISTICA (3) 228 Vidíme, že p-hodnota Levenova testu je 0,41, tedy větší než hladina významnosti 0,05. Hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05. Přistoupíme k testu hypotézy o shodě středních hodnot. Na záložce Skupiny tabulek zaškrtneme Analýza rozptylu – Výpočet. Jelikož p-hodnota = 0,001805 je menší než hladina významnosti 0,05, hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Leveneův test homogenity rozpylů (priklad8301) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 0,018667 3 0,006222 0,065333 11 0,005939 1,047619 0,410027 Analýza rozptylu (priklad8301) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 0,816000 3 0,272000 0,300000 11 0,027273 9,973333 0,001805 Výpočet pomocí systému STATISTICA (4) 229 Výpočet doplníme krabicovými diagramy: Průměr Průměr±SmCh Průměr±1,96*SmCh A B C D odruda 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8X Výpočet pomocí systému STATISTICA (5) 230 Nyní aplikujeme Scheffého metodu mnohonásobného porovnávání, abychom zjistili, které dvojice odrůd se liší na hladině významnosti 0,05. Na záložce Post – hoc zvolíme Schefféův test. Tabulka obsahuje p-hodnoty pro vzájemné porovnání středních hodnot hmotnosti všech čtyř odrůd. Vidíme, že na hladině významnosti 0,05 se liší odrůdy A, C. Scheffeho test; proměn.:X (priklad8301) Označ. rozdíly jsou významné na hlad. p < ,05000 odruda {1} M=,80000 {2} M=1,2000 {3} M=1,4000 {4} M=1,1000 A {1} B {2} C {3} D {4} 0,059165 0,001950 0,190463 0,059165 0,464537 0,905502 0,001950 0,464537 0,163499 0,190463 0,905502 0,163499 Význam předpokladů v analýze rozptylu a) Nezávislost jednotlivých náhodných výběrů – velmi důležitý předpoklad, musí být splněn, jinak dostaneme nesmyslné výsledky. b) Normalita – ANOVA není příliš citlivá na porušení normality, zvlášť pokud mají všechny výběry rozsah nad 20 (důsledek centrální limitní věty). Při výraznějším porušení normality se doporučuje Kruskalův – Wallisův test. c) Shoda rozptylů – mírné porušení nevadí, při větším se doporučuje Kruskalův – Wallisův test. Test shody rozptylů má smysl provádět až po ověření předpokladu normality. 231 10. Neparametrické testy o mediánech Motivace: Při aplikaci t-testů či analýzy rozptylu by měly být splněny určité předpoklady: - normalita dat (pro výběry větších rozsahů (n ≥ 30) nemá mírné porušení normality závažný dopad na výsledky) - homogenita rozptylů - intervalový či poměrový charakter dat Pokud nejsou tyto předpoklady splněny, použijeme tzv. neparametrické testy, které nevyžadují předpoklad o konkrétním typu rozložení (např. normálním), stačí např. předpokládat, že distribuční funkce rozložení, z něhož náhodný výběr pochází, je spojitá. Nevýhoda – ve srovnání s klasickými parametrickými testy jsou neparametrické testy slabší, tzn., že nepravdivou hypotézu zamítají s menší pravděpodobností než testy parametrické. V této kapitole se omezíme na ty neparametrické testy, které jsou založeny na pořadí a týkají se mediánů. Nazývají se pořadové testy. 232 Pojem pořadí a průměrného pořadí 233 Příklad 234 Máme čísla 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Stanovte jejich pořadí. Řešení: usp.hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 Jednovýběrový znaménkový test a jeho asymptotická varianta (1) Nechť X1, ..., Xn je náhodný výběr ze spojitého rozložení se spojitou distribuční funkcí Φ(x). Nechť x0,50 je mediánem tohoto rozložení, tj. Φ(x0,50) = 0,5. Nechť c je reálná konstanta. Testujeme hypotézu H0: x0,50 = c proti oboustranné alternativě H1: x0,50 ≠ c (resp. proti levostranné alternativě H1: x0,50 < c resp. proti pravostranné alternativě H1: x0,50 > c). Postup provedení testu: a) Utvoříme rozdíly Yi = Xi – c, i = 1, ..., n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.) b) Zavedeme statistiku SZ +, která udává počet těch rozdílů, které jsou kladné. Platí-li H0, pak SZ + ~ Bi(n,1/2), tedy E(SZ +) = n/2, D(SZ +) = n/4. c) Stanovíme kritický obor. 235 Jednovýběrový znaménkový test a jeho asymptotická varianta (2) 236 Jednovýběrový znaménkový test a jeho asymptotická varianta (3) 237 Příklad 238 Výpočet pomocí systému STATISTICA 239 Znaménkový test (oktanove cislo) Označené testy jsou významné na hladině p <,05000 Dvojice proměnných Počet různých procent v < V Z Úroveň p X & konst 9 66,66667 0,666667 0,504985 Párový znaménkový test Nechť (X1, Y1), ..., (Xn, Yn) je náhodný výběr ze spojitého dvourozměrného rozložení. Testujeme H0: x0,50 – y0,50 = c proti H1: x0,50 - y0,50 ≠ c (resp. proti jednostranným alternativám). Utvoříme rozdíly Zi = Xi – Yi, i = 1, ..., n a testujeme hypotézu o mediánu z0,50, tj. H0: z0,50 = c proti H1: z0,50 ≠ c. 240 Příklad 241 Výpočet pomocí systému STATISTICA 242 Vytvoříme nový datový soubor se dvěma proměnnými a 8 případy. Do proměnné X napíšeme hodnoty tlaku před pokusem, do proměnné Y hodnoty tlaku po pokusu. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných X, 2. seznam proměnných Y – OK – Znaménkový test. Vidíme, že nenulových hodnot n = 8. Z nich záporných je 75%, tj. 6. Hodnota testové statistiky SZ + = 8 – 6 = 2. Asymptotická testová statistika U0 (zde označená jako Z) se realizuje hodnotou 1,06066. Odpovídající asymptotická p-hodnota je 0,2888, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu, že zvýšení krevního tlaku stejně pravděpodobné jako jeho pokles. Upozornění: Stejně jako u příkladu na str. 237 (jednovýběrový test) není splněna podmínka pro použití asymptotického testu. Správný postup je tedy ten, který je uveden na předchozí str. 240. Znaménkový test (tlak.sta) Označené testy jsou významné na hladině p <,05000 Dvojice proměnných Počet různých procent v < V Z Úroveň p X & Y 8 75,00000 1,060660 0,288844 Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (1) Frank Wilcoxon (1892 – 1965): Americký statistik a chemik Nechť X1, ..., Xn je náhodný výběr ze spojitého rozložení s hustotou φ(x), která je symetrická kolem mediánu x0,50, tj. φ(x0,50 + x) = φ(x0,50 - x). Nechť c je reálná konstanta. Testujeme hypotézu H0: x0,50 = c proti oboustranné alternativě H1: x0,50 ≠ c nebo proti levostranné alternativě H1: x0,50 < c nebo proti pravostranné alternativě H1: x0,50 > c. 243 Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (2) 244 Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (3) 245 Příklad 246 Pro zadání příkladu o oktanovém číslu benzínu, proveďte jednovýběrový Wilcoxonův test. Řešení: Testujeme hypotézu H0: x0,50 = 98 proti oboustranné alternativě H1: x0,50 ≠ 98. Absolutní hodnoty rozdílů xi – 98 setřídíme vzestupně podle velikosti (přitom vynecháme nulový rozdíl a kladné rozdíly značíme tučně): abs (xi – 98) 0,2 0,3 0,6 0,9 1,1 1,2 1,7 1,8 2,4 pořadí Ri 1 2 3 4 5 6 7 8 9 Součet pořadí přes kladné hodnoty rozdílů: SW + = 12 Součet pořadí přes záporné hodnoty rozdílů: SW - = 33 Testová statistika = min(12,33) = 12, tabelovaná kritická hodnota pro α = 0,05 a n = 9 je 5. Protože 12 > 5, H0 nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA 247 Utvoříme nový datový soubor se dvěma proměnnými a 10 případy. Do proměnné oktan napíšeme zjištěné hodnoty a do proměnné konst uložíme číslo 98. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných oktan, 2. seznam proměnných konst – OK – Wilcoxonův párový test. Výstupní tabulka poskytne hodnotu testové statistiky SW+ (zde označena T), hodnotu asymptotické testové statistiky U0 a p-hodnotu pro U0. V tomto případě je p-hodnota 0,213525, tedy nulová hypotéza se nezamítá na asymptotické hladině významnosti 0,05. Upozornění: I v tomto případě není splněna podmínka pro použití asymptotického testu. Správný postup je tedy ten, který je uveden na předchozí str. 245. Wilcoxonův párový test (oktan.sta) Označené testy jsou významné na hladině p <,05000 Dvojice proměnných Počet platných T Z Úroveň p oktan & konst 10 12,00000 1,243933 0,213525 Párový Wilcoxonův test Nechť (X1, Y1), ..., (Xn Yn) je náhodný výběr ze spojitého dvourozměrného rozložení. Testujeme H0: x0,50 – y0,50 = c proti H1: x0,50 - y0,50 ≠ c (resp. proti jednostranným alternativám). Utvoříme rozdíly Zi = Xi – Yi, i = 1, ..., n a testujeme hypotézu o mediánu z0,50, tj. H0: z0,50 = c proti H1: z0,50 ≠ c. 248 Příklad 249 Pro data z příkladu o krevním tlaku proveďte párový Wilcoxonův test. Řešení: Testujeme H0: z0,50 = 0 proti oboustranné alternativě H1: z0,50 ≠ 0, kde z0,50 je medián rozložení, z něhož pochází rozdílový náhodný výběr Z1 = X1 – Y1, … Z8 = X8 – Y8. Absolutní hodnoty rozdílů xi – yi setřídíme vzestupně podle velikosti (kladné rozdíly značíme tučně): abs (xi – yi) 1 5 6 8 9 10 13 20 pořadí Ri 1 2 3 4 5 6 7 8 Součet pořadí přes kladné hodnoty rozdílů: SW + = 4 Součet pořadí přes záporné hodnoty rozdílů: SW - = 32 Testová statistika = min(4,32) = 4, tabelovaná kritická hodnota pro α = 0,05 a n = 8 je 3. Protože 4 > 3, H0 nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA 250 Použijeme datový soubor, který jsme již vytvořili pro aplikaci znaménkového testu. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných X, 2. seznam proměnných Y – OK – Wilcoxonův párový test. Testová statistika (zde označená jako T) nabývá hodnoty 4, asymptotická testová statistika (označená jako Z) nabývá hodnoty 1,960392, odpovídající asymptotická phodnota je 0,049951, tedy na asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme. To je v rozporu s výsledkem, k němuž jsme dospěli při ručním výpočtu. Je to způsobeno tím, že není dodržena podmínka pro použití asymptotické varianty Wilcoxonova testu – rozsah výběru má být aspoň 30. Wilcoxonův párový test (tlak.sta) Označené testy jsou významné na hladině p <,05000 Dvojice proměnných Počet platných T Z Úroveň p X & Y 8 4,0000001,960392 0,049951 Příklad 251 (Asymptotická varianta Wilcoxonova testu) Výpočet pomocí systému STATISTICA 252 Utvoříme nový datový soubor se dvěma proměnnými a 30 případy. Do proměnné odhad napíšeme zjištěné hodnoty a do proměnné konst uložíme číslo 60. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných odhad, Druhý seznam proměnných konst – OK – Wilcoxonův párový test. Testová statistika (zde označená jako T) nabývá hodnoty 55, asymptotická testová statistika (označená jako Z) nabývá hodnoty 3,65088, odpovídající asymptotická p-hodnota je 0,000261, tedy na asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme. Wilcoxonův párový test (odhad minuty) Označené testy jsou významné na hladině p <,05000 Dvojice proměnných Počet platných T Z Úroveň p odhad& konst 30 55,00000 3,650880 0,000261 Dvouvýběrový Wilcoxonův test a jeho asymptotická varianta (1) Nechť X1, ..., Xn a Y1, ..., Ym jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou lišit pouze posunutím. Označme x0,50 medián prvního rozložení a y0,50 medián druhého rozložení. Testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné neboli mediány jsou shodné proti alternativě, že jsou rozdílné, tj. H0: x0,50 - y0,50 = 0 proti H1: x0,50 - y0,50 ≠ 0. Postup provedení testu: a) Všech n + m hodnot X1, ..., Xn a Y1, ..., Ym uspořádáme vzestupně podle velikosti. b) Zjistíme součet pořadí hodnot X1, ..., Xn a označíme ho T1. Součet pořadí hodnot Y1, ..., Ym označíme T2. c) Vypočteme statistiky U1 = mn + n(n+1)/2 – T1 , U2 = mn + m(m+1)/2 - T2. Přitom platí U1 + U2 = mn. d) Pokud min(U1,U2) ≤ tabelovaná kritická hodnota (pro dané rozsahy výběrů m, n a dané α), pak nulovou hypotézu o totožnosti obou distribučních funkcí zamítáme na hladině významnosti α. V tabulkách: n = min{m,n} a m = max{m,n}. 253 Dvouvýběrový Wilcoxonův test a jeho asymptotická varianta (2) 254 Příklad 255 Výrobce určitého výrobku se má rozhodnout mezi dvěma dodavateli polotovarů vyrábějících je různými technologiemi. Rozhodující je procentní obsah určité látky. 1. technologie: 1,52 1,57 1,71 1,34 1,68 2. technologie: 1,75 1,67 1,56 1,66 1,72 1,79 1,64 1,55 Na hladině významnosti 0,05 posuďte pomocí dvouvýběrového Wilcoxonova testu, zda je oprávněný předpoklad, že obě technologie poskytují stejné procento účinné látky. Řešení: Na hladině významnosti 0,05 testujeme H0: x0,50 - y0,50 = 0 proti oboustranné alternativě H1: x0,50 y0,50 ≠ 0. usp.h. 1,34 1,52 1,55 1,56 1,57 1,64 1,66 1,67 1,68 1,71 1,72 1,75 1,79 pořadí 1 2 3 4 5 6 7 8 9 10 11 12 13 T1 = 1 + 2 + 5 + 9 + 10 = 27, T2 = 3 + 4 + 6 + 7 + 8 + 11 + 12 + 13 = 64 U1 = 5.8 + 5.6/2 - 27 = 28, U2 = 5.8 + 8.9/2 - 64 = 12 Kritická hodnota pro α = 0,05, min(5,8) = 5, max(5,8) = 8 je 6. Protože min(28,12) = 12 > 6, nemůžeme na hladině významnosti 0,05 zamítnout hypotézu, že obě technologie poskytují stejné procento účinné látky. Výpočet pomocí systému STATISTICA (1) 256 Utvoříme nový datový soubor se dvěma proměnnými a 13 případy. Do proměnné X napíšeme zjištěné hodnoty a do proměnné ID napíšeme 5x číslo 1 pro první technologii a 8x číslo 2 pro starý druhou technologii. Statistiky – Neparametrická statistika – Porovnání dvou nezávislých vzorků – OK – Proměnné – Seznam závislých proměnných X, Nezáv. (grupov.) proměnná ID – OK – M-W U test. Upozornění: Ve STATISTICE je dvouvýběrový Wilcoxonův test uveden pod názvem Mannův – Whitneyův test. Ve výstupní tabulce jsou součty pořadí T1, T2, hodnota testové statistiky min(U1, U2) označená U, hodnota asymptotické testové statistiky U0 (označená Z), asymptotická phodnota pro U0 a přesná p-hodnota (ozn. 2*1str. přesné p – ta se používá pro rozsahy výběrů pod 30). V našem případě přesná p-hodnota = 0,284382, tedy H0 nezamítáme na hladině významnosti 0,05. Mann-Whitneyův U test (dve technologie.sta) Dle proměn. ID Označené testy jsou významné na hladině p <,05000 Proměnná Sčt poř. skup. 1 Sčt poř. skup. 2 U Z Úroveň p Z upravené Úroveň p N platn. skup. 1 N platn. skup. 2 2*1str. přesné p X 27,0000064,0000012,00000 -1,17108 0,241567 -1,17108 0,241567 5 8 0,284382 Výpočet pomocí systému STATISTICA (2) 257 Výpočet je vhodné doplnit krabicovým diagramem. Je zřejmé, že první technologie poskytuje vesměs nižší procento účinné látky než druhá technologie a také vykazuje poněkud větší variabilitu. Medián 25%-75% Min-Max 1 2 ID 1,3 1,4 1,5 1,6 1,7 1,8 1,9 X Kruskalův - Wallisův test (1) William Kruskal (1919 – 2005): Wilson Allen Wallis (1912 – 1988): Americký matematik Americký matematik Nechť je dáno r ≥ 3 nezávislých náhodných výběrů o rozsazích n1, ... , nr. Předpokládáme, že tyto výběry pocházejí ze spojitých rozložení. Označme n = n1 + ... + nr. Na asymptotické hladině významnosti α chceme testovat hypotézu, že všechny tyto výběry pocházejí z téhož rozložení. 258 Kruskalův - Wallisův test (2) 259 Příklad 260 Usp. hodnoty 6 7 10 11 13 14 15 17 25 28 29 131 Pořadí 1.výběru 1 3 7 11 Pořadí 2.výběru 4 5 8 12 Pořadí 3.výběru 2 6 9 10 Mediánový test 261 Příklad 262 Metody mnohonásobného porovnávání 263 Příklad 264 Čtyři laboranti provedli analytické stanovení procenta niklu v oceli. Každý hodnotil pět vzorků. Laborant A: 4,15 4,26 4,10 4,30 4,25 Laborant B: 4,38 4,40 4,29 4,39 4,45 Laborant C: 4,23 4,16 4,20 4,24 4,27 Laborant D: 4,41 4,31 4,42 4,37 4,43 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že všechny čtyři náhodné výběry pocházejí ze stejného rozložení. Pokud nulovou hypotézu zamítnete, zjistěte, které dvojice výběrů se liší. Výpočet pomocí systému STATISTICA (1) 265 Vytvoříme nový datový soubor o dvou proměnných a 20 případech. Do proměnné nikl napíšeme změřené hodnoty, do proměnné laborant napíšeme 5x1 pro 1. laboranta atd. až 5x4 pro 4. laboranta. Statistiky – Neparametrická statistika – Porovnání více nezávislých vzorků OK – Seznam závislých proměnných nikl, Nezáv. (grupovací) proměnná laborant – OK – Summary: Kruskal-Wallis ANOVA & Median test. Ve dvou výstupních tabulkách se objeví výsledky K-W testu a mediánového testu. Kruskal-Wallisova ANOVA založ. na poř.;nikl (nikl v oceli) Nezávislá (grupovací) proměnná :laborant Kruskal-Wallisův test: H ( 3, N= 20) =13,77714 p =,0032 Závislá: nikl Kód Počet platných Součet pořadí 1 2 3 4 1 5 29,00000 2 5 75,00000 3 5 27,00000 4 5 79,00000 Výpočet pomocí systému STATISTICA (2) 266 Oba testy zamítají hypotézu o shodě mediánů v daných čtyřech skupinách, ale K-W test je poněkud silnější (phodnota = 0,0032, zatímco p-hodnota pro mediánový test je 0,0035). Nyní provedeme mnohonásobné porovnávání, abychom zjistili, které dvojice laborantů se liší. Zvolíme Vícenás. porovnání průměrného pořadí pro vš. skupiny. Tabulka obsahuje p-hodnoty pro porovnání dvojic skupin. Vidíme, že na hladině významnosti 0,05 se liší laboranti A, D a laboranti C, D. Vícenásobné porovnání p hodnot (oboustr.);nikl (nikl v oceli) Nezávislá (grupovací) proměnná :laborant Kruskal-Wallisův test: H ( 3, N= 20) =13,77714 p =,0032 Závislá: nikl 1 R:5,8000 2 R:15,000 3 R:5,4000 4 R:15,800 1 2 3 4 0,083641 1,000000 0,045158 0,083641 0,061779 1,000000 1,000000 0,061779 0,032664 0,045158 1,000000 0,032664 Výpočet pomocí systému STATISTICA (3) 267 Grafické znázornění výsledků 11. Testování nezávislosti náhodných veličin Motivace: Při zpracování dat se velmi často setkáme s úkolem zjistit, zda dvě náhodné veličiny jsou stochasticky nezávislé. Testování hypotézy o nezávislosti se provádí různými způsoby podle toho, jakého typu jsou dané náhodné veličiny – zda jsou nominální, ordinální, intervalové či poměrové. Nominální náhodné veličiny umožňují obsahovou interpretaci pouze u relace rovnosti, ordinální navíc ještě u relace uspořádání, intervalové pak navíc u operace rozdílu a poměrové i u operace podílu. Např. nás může zajímat, zda ve sledované populaci je barva očí a barva vlasů nezávislá nebo zda počet dnů absence a věk pracovníka jsou nezávislé. Zpravidla chceme také zjistit intenzitu případné závislosti sledovaných dvou veličin. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od -1 do 1). Čím je takový koeficient bližší 1 (resp. -1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. 268 Definice kontingenční tabulky (1) 269 y y[1] ... y[s] πj. x πjk x[1] π11 ... π1s π1. ... ... ... ... ... x[r] πr1 ... πrs πr. π.k π.1 ... π.s 1 Definice kontingenční tabulky (2) 270 y y[1] ... y[s] nj. x njk x[1] n11 ... n1s n1. ... ... ... ... ... x[r] nr1 ... nrs nr. n.k n.1 ... n.s n Věta o testové statistice K 271 Podmínky dobré aproximace 272 Definice Cramérova koeficientu, význam jeho hodnot 273 Příklad (1) 274 V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen náhodný výběr rozsahu 360. Mimo jiné se zjišťovala sociální skupina, ze které uchazeč pochází a typ školy, na kterou se hlásí. Výsledky jsou zaznamenány v kontingenční tabulce: Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální skupiny. Vypočtěte Cramérův koeficient. Typ školy Sociální skupina nj. I II III IV univerzitní 50 30 10 50 140 technický 30 50 20 10 110 ekonomický 10 20 30 50 110 n.k 90 100 60 110 360 Příklad (2) 275 Výpočet pomocí systému STATISTICA (1) 276 Vytvoříme nový datový soubor o třech proměnných (X - sociální skupina, Y – typ školy, četnost) a 12 případech: Statistiky – Základní statistiky/tabulky – OK – Specif. Tabulky – List 1 X, List 2 Y – OK, zapneme proměnnou vah četnost – OK, Výpočet – na záložce Možnosti zaškrtneme Očekávané četnosti. Dostaneme kontingenční tabulku teoretických četností: 1 X 2 Y 3 č etnost 1 2 3 4 5 6 7 8 9 10 11 12 I univerzitní 50 I technický 30 I ekonomický 10 II univerzitní 30 II technický 50 II ekonomický 20 III univerzitní 10 III technický 20 III ekonomický 30 IV univerzitní 50 IV technický 10 IV ekonomický 50 Souhrnná tab.: Očekávané četnosti (typ skoly) Četnost označených buněk > 10 Pearsonův chí-kv. : 76,8359, sv=6, p=,000000 X Y univerzitní Y technický Y ekonomický Řádk. součty I 35,0000 27,5000 27,5000 90,0000 II 38,8889 30,5556 30,5556 100,0000 III 23,3333 18,3333 18,3333 60,0000 IV 42,7778 33,6111 33,6111 110,0000 Vš.skup. 140,0000 110,0000 110,0000360,0000 Výpočet pomocí systému STATISTICA (2) 277 Všechny teoretické četnosti jsou větší než 5, podmínky dobré aproximace jsou splněny. V záhlaví tabulky je uvedena hodnota testové statistiky K = 76,8359, počet stupňů volnosti 6 a odpovídající p-hodnota. Je velmi blízká 0, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o nezávislosti typu školy a sociální skupiny. Hodnotu testové statistiky a Cramérův koeficient dostaneme také tak, že na na záložce Možnosti zaškrtneme Pearsonův & M-V chí kvadrát a Cramérovo V a na záložce Detailní výsledky vybereme Detailní 2 rozm. tabulky. Statist. : X(4) x Y(3) (typ skoly.sta) Statist. Chí-kvadr. sv p Pearsonův chí-kv. M-V chí-kvadr. Fí Kontingenční koeficient Cramér. V 76,83589 df=6 p=,00000 84,53528 df=6 p=,00000 ,4619881 ,4193947 ,3266749 Čuprovův koeficient kontingence 278 Mezi další používané míry závislosti patří následující: Průměrná čtvercová kontingence: n K 2 2   12 2      nK K P 10  P  – koeficient: Pearsonův koeficient kontingence: , přičemž hodnoty jedna nemůže nikdy dosáhnout. )1)(1( 2    sr T 10  T Čuprovovův koeficient kontingence: Vhodný zejména pokud se významně liší r a s (obdélníkové tabulky). Pro čtvercové tabulky (r=s) platí: TV  Definice čtyřpolní kontingenční tabulky 279 X Y nj. y[1] y[2] x[1] a b a+b x[2] c d c+d n.k a+c b+d n Věta o testové statistice K pro čtyřpolní tabulky 280 Příklad 281 přijetí dojem nj. dobrý špatný ano 17 11 28 ne 39 58 97 n.k 56 69 125 Definice podílu šancí 282 Výsledek pokusu okolnosti nj. I II úspěch a b a+b neúspěch c d c+d n.k a+c b+d n Asymptotický interval spolehlivosti pro podíl šancí a jeho využití k testování hypotézy o nezávislosti 283 Příklad 284 Výpočet pomocí systému STATISTICA 285 Dolní a horní mez intervalu spolehlivosti pro OR zjistíme pomocí STATISTIKY. Vytvoříme datový soubor o dvou proměnných DM a HM a jednom případu. Do Dlouhého jména proměnné DM napíšeme vzorec pro dolní mez: =exp(log(2,298)-sqrt(1/17+1/11+1/39+1/58)*VNormal(0,975;0;1)) a analogicky do Do Dlouhého jména proměnné HM napíšeme vzorec pro horní mez: =exp(log(2,298)+sqrt(1/17+1/11+1/39+1/58)*VNormal(0,975;0;1)) 1 DM 2 HM 1 0,9722445,431562 Definice Spearmanova koeficientu pořadové korelace, význam jeho hodnot 286 Věta o testování hypotézy o pořadové nezávislosti veličin X, Y Na hladině významnosti α testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti  oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny  levostranné alternativě H1: mezi X a Y existuje nepřímá pořadová závislost  pravostranné alternativě H1: mezi X a Y existuje přímá pořadová závislost). Jako testová statistika slouží Spearmanův koeficient pořadové korelace rS. Nulovou hypotézu zamítáme na hladině významnosti α ve prospěch  oboustranné alternativy, když │rS│≥ rS,1-α(n)  levostranné alternativy, když rS ≤ - rS,1-2α(n)  pravostranné alternativy, když rS ≥ rS,1-2α(n), kde rS,1-α(n) je kritická hodnota, kterou pro α = 0,05 nebo 0,01 a n ≤ 30 najdeme v tabulkách. Pozor – kritické hodnoty pro jednostranné alternativy se v běžně dostupných tabulkách nenajdou. 287 Asymptotická varianta testu 288 Příklad 289 Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Výpočet pomocí systému STATISTICA 290 Vytvoříme datový soubor o dvou proměnných X (hodnocení 1. lékaře), Y (hodnocení 2. lékaře) a sedmi případech. Do proměnných X a Y zapíšeme zjištěná hodnocení. Statistiky – Neparametrické statistiky – Korelace – OK – vybereme Vytvořit detailní report Proměnné X, Y – OK – Spearmanův koef. R. Dostaneme tabulku Spearmanův koeficient pořadové korelace nabývá hodnoty 0,857, testová statistika se realizuje hodnotou 3,721, odpovídající p-hodnota je 0,0137, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o pořadové nezávislosti hodnocení dvou lékařů ve prospěch oboustranné alternativy. 1 X 2 Y 1 2 3 4 5 6 7 4 4 1 2 6 5 5 6 3 1 2 3 7 7 Spearmanovy korelace (dva lekari.sta) ChD vynechány párově Označ. korelace jsou významné na hl. p <,05000 Dvojice proměnných Počet plat. Spearman R t(N-2) Úroveň p X & Y 7 0,8571433,721042 0,013697 Definice Pearsonova koeficientu korelace 291 Věta o vlastnostech koeficientu korelace 292 Ilustrace Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) 293 Definice výběrového koeficientu korelace 294 Věta o koeficientu korelace dvourozměrného normálního rozložení 295 𝜇1 𝜇2 , 𝜎1 2 𝜌𝜎1 𝜎2 𝜌𝜎1 𝜎2 𝜎2 2 Testování hypotézy o nezávislosti 296 Příklad (1) 297 Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelované. Řešení: Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec, protože vrstevnice hustoty dvourozměrného normálního rozložení jsou elipsy. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Příklad (2) 298 Výpočet pomocí systému STATISTICA 299 a) Vytvoříme datový soubor o dvou proměnných X, Y a 8 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu – viz výše. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměn. – X, Y – OK – na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků – Výpočet. Výběrový koeficient korelace se realizoval hodnotou 0,6668, testová statistika nabyla hodnoty 2,1917, odpovídající p-hodnota pro oboustranný test je 0,0709, tedy pro jednostranný test je 0,035045. Na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X, Y ve prospěch pravostranné alternativy. b) Můžeme využít toho, že již známe r12. Statistiky – Pravděpodobnostní kalkulátor – Korelace – vyplníme n = 8, r = 0,6668, odškrtneme Dvojité, zaškrtneme Výpočet p z r – Výpočet. V okénku p se objeví hodnota 0,035455, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné alternativy. Korelace (dva testy.sta) Označ. korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Prom. X & prom. Y Průměr Sm.Odch. r(X,Y) r2 t p N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X X X X Y Y X Y Y 56,25000 13,99745 56,25000 13,99745 1,000000 1,000000 8 0,00000 1,000000 0,00000 1,000000 56,25000 13,99745 50,00000 10,92834 0,666802 0,444625 2,191693 0,070909 8 20,71637 0,520598 13,54665 0,854067 50,00000 10,92834 56,25000 13,99745 0,666802 0,444625 2,191693 0,070909 8 13,54665 0,854067 20,71637 0,520598 50,00000 10,92834 50,00000 10,92834 1,000000 1,000000 8 0,00000 1,000000 0,00000 1,000000 Test o porovnání koeficientu korelace s danou konstantou 300 Příklad 301 Výpočet pomocí systému STATISTICA (pouze přibližný) 302 Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,85, do políčka N1 napíšeme 600, do políčka r2 napíšeme 0,9, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0000, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Upozornění: Pokud bychom chtěli pomocí systému STATISTICA provést přesnější test s využitím statistiky U, můžeme vypočítat Fisherovu Z- transformaci pomocí Pravděpodobnostního kalkulátoru – Korelace, kde zadáme realizaci výběrového koeficientu korelace, rozsah výběru. Zajímá nás Fisher z. Test o porovnání dvou koeficientů korelace 303 Příklad 304 Výpočet pomocí systému STATISTICA 305 Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,65, do políčka N1 napíšeme 100, do políčka r2 napíšeme 0,37, do políčka N2 napíšeme 142 - Výpočet. Dostaneme p-hodnotu 0,0038, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Věta o asymptotickém intervalu spolehlivosti pro koeficient korelace 306 Příklad (1) 307 Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní absence za rok (veličina Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10 pracovnících. Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10 z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient ρ. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. Č.prac. 1 2 3 4 5 6 7 8 9 10 X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Příklad (2) 308 12. Jednoduchá lineární regrese Motivace: Cíl regresní analýzy - popsat závislost hodnot veličiny Y na hodnotách veličiny X. Nutnost vyřešení dvou problémů: a) jaký typ funkce se použije k popisu dané závislosti; b) jak se stanoví konkrétní parametry daného typu funkce? 309 Specifikace klasického modelu lineární regrese 310 Označení 311 Maticový zápis klasického modelu lineární regrese (1) 312 Maticový zápis klasického modelu lineární regrese (2) 313 Intervaly spolehlivosti pro regresní parametry 314 – Testování významnosti modelu jako celku (celkový F-test) 315 zdroj variability součet čtverců stupně volnosti podíl statistika F model SR p SR/p reziduální SE n-p-1 SE/(n-p-1) celkový ST n-1 - - Testování významnosti regresních parametrů (dílčí t-testy) 316 Příklad (1) 317 číslo. obchodníka 1 2 3 4 5 6 poptávka loni (X) 20 60 70 100 150 260 poptávka letos (Y) 50 60 60 120 230 320 Příklad (2) 318 Řešení: ad a) Orientačně ověřte předpoklad, že data pocházejí z dvourozměrného normálního rozložení. Vytvoříme dvourozměrný tečkový diagram s proloženou 95% elipsou konstantní hustoty pravděpodobnosti: Ze vzhledu diagramu je patrné, že předpoklad dvourozměrné normality je oprávněný a že mezi loňskou a letošní poptávkou existuje vcelku silná přímá lineární závislost. Příklad (3) 319 Příklad (4) 320 Příklad (5) 321 Příklad (6) 322 Příklad (7) 323 Příklad (8) 324 Příklad (9) 325 Příklad (10) 326 Příklad (11) 327 zdroj variab. součet čtverců stupně volnosti podíl statistika F model SR = 58348,89 p = 1 SR/p=58348,89 68,384 reziduální SE = 3415,11 n-p-1 = 4 SE/(n-p-1)=853,78 celkový ST = 61800 n-1 = 5 - - Příklad (12) 328 Příklad (13) 329 Příklad (14) 330 Výpočet pomocí systému STATISTICA (1) 331 Vytvoříme nový datový soubor se dvěma proměnnými X a Y a 6 případy: a) Orientačně ověřte předpoklad, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte výběrový koeficient korelace mezi X a Y, interpretujte jeho hodnotu a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Zobrazíme dvourozměrný tečkový diagram s proloženou elipsou 95% konstantní hustoty pravděpodobnosti, s jehož pomocí posoudíme dvourozměrnou normalitu dat: Grafy – Bodové grafy – vypneme Typ proložení – Proměnné X, Y - OK. Výpočet pomocí systému STATISTICA (2) 332 Na záložce Detaily vybereme Elipsa Normální – OK. Ve vzniklém dvourozměrném tečkovém diagramu změníme rozsah zobrazených hodnot na vodorovné a svislé ose, abychom viděli celou elipsu – viz obrázek výše. Testování hypotézy o nezávislosti: Statistika – Základní statistiky /Tabulky - Korelační matice – OK – 2 seznamy proměnných X, Y, OK. Na záložce Možnosti zaškrtneme Zobrazit detailní tabulku výsledků – Souhrn. Ve výstupní tabulce najdeme hodnotu výběrového korelačního koeficientu R12 (r = 0,971977, tzn. že mezi X a Y existuje velmi silná přímá lineární závislost), realizaci testové statistiky t = 8,269474 a p-hodnotu pro test hypotézy o nezávislosti (p = 0,001167, H0 tedy zamítáme na hladině významnosti 0,05). Výpočet pomocí systému STATISTICA (3) 333 b) Předpokládejte, že závislost letošní poptávky na loňské lze vystihnout regresní přímkou. Vypočtěte odhady regresních parametrů a napište rovnici regresní přímky. Interpretujte parametry regresní přímky. Statistiky – Vícerozměrná regrese – Závisle proměnná Y, nezávisle proměnná X – OK – OK – Výpočet: Výsledky regrese. Ve výstupní tabulce najdeme koeficient b0 ve sloupci B na řádku označeném Abs. člen, koeficient b1 ve sloupci B na řádku označeném X. Rovnice regresní přímky: y = 0,686813 + 1,266484 x. Znamená to, že při nulové loňské poptávce by letošní poptávka činila 0,6868 kusů a při zvýšení loňské poptávky o 10 kusů by se letošní poptávka zvedla o 12,665 kusů. Výpočet pomocí systému STATISTICA (4) 334 c) Najděte odhad rozptylu, vypočtěte index determinace a interpretujte ho. Vrátíme se do Výsledky – vícenásobná regrese – Detailní výsledky – ANOVA. Odhad rozptylu najdeme na řádku Rezid., ve sloupci Průměr čtverců, tedy s2 = 853,78. Index determinace je uveden v záhlaví původní výstupní tabulky pod označením R2. V našem případě ID2 = 0,9447, tedy variabilita letošní poptávky je z 94,5 % vysvětlena regresní přímkou. Výpočet pomocí systému STATISTICA (5) 335 d) Najděte 95% intervaly spolehlivosti pro regresní parametry. Ve výstupní tabulce výsledků regrese přidáme za proměnnou Úroveň p dvě nové proměnné dm (pro dolní meze 95% intervalů spolehlivosti pro regresní parametry) a hm (pro horní meze 95% intervalů spolehlivosti pro regresní parametry). Do Dlouhého jména proměnné dm resp. hm napíšeme: =v3-v4*VStudent(0,975;4) resp. =v3+v4*VStudent(0,975;4) Vidíme, že -56,63 < β0 < 58 s pravděpodobností aspoň 0,95 a 0,841< β1 < 1,692 s pravděpodobností aspoň 0,95. Výpočet pomocí systému STATISTICA (6) 336 e) Na hladině významnosti 0,05 proveďte celkový F-test. Testovou statistiku F-testu a odpovídající p-hodnotu najdeme v záhlaví výstupní tabulky regrese. Zde F = 68,384, p-hodnota < 0,00117, tedy na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti modelu jako celku. (Výsledky F-testu jsou rovněž uvedeny v tabulce ANOVA.) f) Na hladině významnosti 0,05 proveďte dílčí t-testy. Výsledky dílčích t-testů jsou uvedeny ve výstupní tabulce regrese. Testová statistika pro test hypotézy H0: β0 = 0 je 0,033272, p-hodnota je 0,975052. Hypotézu o nevýznamnosti úseku regresní přímky tedy nezamítáme na hladině významnosti 0,05. Testová statistika pro test hypotézy H0: β1 = 0 je 8,269474, p-hodnota je 0,001167. Hypotézu o nevýznamnosti směrnice regresní přímky tedy zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA (7) 337 g) Vypočtěte regresní odhad letošní poptávky při loňské poptávce 110 kusů. Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi Předpovědi závisle proměnné X: 110 OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpověď. Při loňské poptávce 110 kusů je predikovaná hodnota letošní poptávky 140 kusů. Výpočet pomocí systému STATISTICA (8) 338 h) Nakreslete dvourozměrný tečkový diagram s proloženou regresní přímkou. Nakreslení regresní přímky: Návrat do Výsledky: Vícenásobná regrese – Rezidua/předpoklady/předpovědi - Reziduální analýza – Bodové grafy – Korelace dvou proměnných – X, Y – OK. Výpočet pomocí systému STATISTICA (9) 339 Jiný způsob: Do dvourozměrného tečkového diagramu nakreslíme regresní přímku tak, že v tabulce 2D Bodové grafy zvolíme Typ proložení: Lineární, OK. 13. Statistické tabulky 340 341 342 343 Kritické hodnoty Dn(α) Kolmogorovova-Smirnovova testu n= 4,…,40, α=0,01, α=0,05, α=0,10, α=0,15 a α=0,20 alfa n 0,20 0,15 0,10 0,05 0,01 4 0,4927 0,5221 0,5652 0,6239 0,7342 5 0,4470 0,4754 0,5095 0,5633 0,6685 6 0,4104 0,4334 0,4680 0,5193 0,6166 7 0,3815 0,4043 0,4361 0,4834 0,5758 8 0,3583 0,3801 0,4096 0,4543 0,5418 9 0,3391 0,3591 0,3875 0,4300 0,5133 10 0,3226 0,3416 0,3687 0,4093 0,4889 11 0,3083 0,3266 0,3524 0,3912 0,4677 12 0,2958 0,3134 0,3382 0,3754 0,4491 13 0,2847 0,3016 0,3255 0,3614 0,4325 14 0,2748 0,2911 0,3142 0,3489 0,4176 15 0,2659 0,2816 0,3040 0,3376 0,4042 16 0,2578 0,2731 0,2947 0,3273 0,3920 17 0,2504 0,2652 0,2863 0,3180 0,3809 18 0,2436 0,2580 0,2785 0,3094 0,3706 19 0,2374 0,2514 0,2714 0,3014 0,3612 20 0,2316 0,2452 0,2647 0,2941 0,3524 344 alfa n 0,20 0,15 0,10 0,05 0,01 21 0,2263 0,2403 0,2587 0,2873 0,3443 22 0,2213 0,2350 0,2529 0,2809 0,3367 23 0,2166 0,2300 0,2475 0,2749 0,3296 24 0,2122 0,2253 0,2425 0,2693 0,3229 25 0,2080 0,2209 0,2377 0,2641 0,3166 26 0,2041 0,2167 0,2333 0,2591 0,3106 27 0,2004 0,2128 0,2290 0,2544 0,3050 28 0,1969 0,2090 0,2250 0,2500 0,2997 29 0,1936 0,2055 0,2212 0,2457 0,2947 30 0,1904 0,2022 0,2176 0,2417 0,2899 31 0,1874 0,1990 0,2142 0,2379 0,2853 32 0,1845 0,1959 0,2109 0,2343 0,2809 33 0,1818 0,1930 0,2078 0,2308 0,2768 34 0,1792 0,1902 0,2048 0,2275 0,2728 35 0,1767 0,1875 0,2019 0,2243 0,2690 36 0,1743 0,1850 0,1991 0,2212 0,2653 37 0,1719 0,1825 0,1965 0,2183 0,2618 38 0,1697 0,1802 0,1940 0,2155 0,2584 39 0,1676 0,1779 0,1915 0,2127 0,2552 40 0,1655 0,1757 0,1892 0,2101 0,2521 Zdroj: kstest v MATLABu. Modifikované kritické hodnoty Dn*(α) Kolmogorovova-Smirnovova testu n= 4,…,40, α=0,01, α=0,05, α=0,10, α=0,15 a α=0,20. 345 alfa n 0,20 0,15 0,10 0,05 0,01 4 0,3028 0,3213 0,3453 0,3754 0,4131 5 0,2893 0,3026 0,3189 0,3431 0,3966 6 0,2688 0,2810 0,2973 0,3236 0,3703 7 0,2523 0,2643 0,2802 0,3041 0,3506 8 0,2387 0,2502 0,2651 0,2880 0,3326 9 0,2271 0,2379 0,2520 0,2740 0,3171 10 0,2171 0,2274 0,2410 0,2620 0,3034 11 0,2082 0,2181 0,2312 0,2515 0,2915 12 0,2002 0,2098 0,2224 0,2418 0,2808 13 0,1932 0,2025 0,2145 0,2333 0,2706 14 0,1868 0,1958 0,2075 0,2257 0,2619 15 0,1811 0,1898 0,2012 0,2189 0,2539 16 0,1759 0,1843 0,1953 0,2126 0,2472 17 0,1711 0,1792 0,1900 0,2068 0,2403 18 0,1666 0,1746 0,1850 0,2013 0,2341 19 0,1625 0,1703 0,1806 0,1965 0,2285 20 0,1587 0,1663 0,1763 0,1920 0,2232 alfa n 0,20 0,15 0,10 0,05 0,01 21 0,1551 0,1626 0,1723 0,1877 0,2183 22 0,1518 0,1591 0,1687 0,1837 0,2137 23 0,1487 0,1558 0,1652 0,1799 0,2093 24 0,1458 0,1528 0,1619 0,1764 0,2052 25 0,1430 0,1499 0,1589 0,1730 0,2014 26 0,1404 0,1471 0,1560 0,1699 0,1977 27 0,1379 0,1445 0,1532 0,1669 0,1943 28 0,1356 0,1421 0,1506 0,1641 0,1910 29 0,1334 0,1398 0,1482 0,1614 0,1879 30 0,1312 0,1375 0,1458 0,1588 0,1849 31 0,1292 0,1354 0,1436 0,1564 0,1821 32 0,1273 0,1334 0,1414 0,1541 0,1794 33 0,1255 0,1315 0,1394 0,1518 0,1768 34 0,1237 0,1296 0,1374 0,1497 0,1743 35 0,1220 0,1279 0,1356 0,1476 0,1720 36 0,1204 0,1262 0,1338 0,1457 0,1697 37 0,1188 0,1245 0,1320 0,1438 0,1675 38 0,1173 0,1230 0,1304 0,1420 0,1654 39 0,1159 0,1214 0,1288 0,1402 0,1634 40 0,1145 0,1200 0,1272 0,1385 0,1614 >40 0,741 fN 0,775 fN 0,819 fN 0,895 fN 1,035 fN Zdroj: http://www.utdallas.edu/~herve/Abdi-Lillie2007-pretty.pdf +lillietest v MATLABu. 346 n 2 3 4 5 6 7 8 9 10 i  1 0.7071 0.7071 0.6872 0.6646 0.6431 0.6233 0.6052 0.5888 0.5739 2 0.0000 0.1677 0.2413 0.2806 0.3031 0.3164 0.3244 0.3291 3 0.0000 0.0875 0.1401 0.1743 0.1976 0.2141 4 0.0000 0.0561 0.0947 0.1224 5 0.0000 0.0399 n 11 12 13 14 15 16 17 18 19 20 i  1 0.5601 0.5475 0.5359 0.5251 0.5150 0.5056 0.4963 0.4886 0.4808 0.4734 2 0.3315 0.3325 0.3325 0.3318 0.3306 0.3290 0.3273 0.3253 0.3232 0.3211 3 0.2260 0.2347 0.2412 0.2460 0.2495 0.2521 0.2540 0.2553 0.2561 0.2565 4 0.1429 0.1586 0.1707 0.1802 0.1878 0.1939 0.1988 0.2027 0.2059 0.2085 5 0.0695 0.0922 0.1099 0.1240 0.1353 0.1447 0.1524 0.1587 0.1641 0.1686 6 0.0000 0.0303 0.0539 0.0727 0.0880 0.1005 0.1109 0.1197 0.1271 0.1334 7 0.0000 0.0240 0.0433 0.0593 0.0725 0.0837 0.0932 0.1013 8 0.0000 0.0196 0.0359 0.0496 0.0612 0.0711 9 0.0000 0.0163 0.0303 0.0422 10 0.0000 0.0140 n 21 22 23 24 25 26 27 28 29 30 i  1 0.4643 0.4590 0.4542 0.4493 0.4450 0.4407 0.4366 0.4328 0.4291 0.4254 2 0.3185 0.3156 0.3126 0.3098 0.3069 0.3043 0.3018 0.2992 0.2968 0.2944 3 0.2578 0.2571 0.2563 0.2554 0.2543 0.2533 0.2522 0.2510 0.2499 0.2487 4 0.2119 0.2131 0.2139 0.2145 0.2148 0.2151 0.2152 0.2151 0.2150 0.2148 5 0.1736 0.1764 0.1787 0.1807 0.1822 0.1836 0.1848 0.1857 0.1064 0.1870 6 0.1399 0.1443 0.1480 0.1512 0.1539 0.1563 0.1584 0.1601 0.1616 0.1630 7 0.1092 0.1150 0.1201 0.1245 0.1283 0.1316 0.1346 0.1372 0.1395 0.1415 8 0.0804 0.0878 0.0941 0.0997 0.1046 0.1089 0.1128 0.1162 0.1192 0.1219 9 0.0530 0.0618 0.0696 0.0764 0.0823 0.0876 0.0923 0.0965 0.1002 0.1036 10 0.0263 0.0368 0.0459 0.0539 0.0610 0.0672 0.0728 0.0778 0.0822 0.0862 11 0.0000 0.0122 0.0228 0.0321 0.0403 0.0476 0.0540 0.0598 0.0650 0.0697 12 0.0000 0.0107 0.0200 0.0284 0.0358 0.0424 0.0483 0.0537 13 0.0000 0.0094 0.0178 0.0253 0.0320 0.0381 14 0.0000 0.0084 0.0159 0.0227 15 0.0000 0.0076 Zdroj: http://www.kmt.zcu.cz/person/Kohout/info_soubory/letnisem/ruzne/SWkoeficienty.pdf http://www.santemaghreb.com/algerie/stat/stat_10.htm#28 Kritické hodnoty pro Shapiro – Wilkův test 347 Zdroj: http://www.kmt.zcu.cz/person/Kohout/info_soubory/letnisem/ruzne/SWkrithodnoty.pdf Kritické hodnoty znaménkového testu pro n = 6, 7, .., 20, α = 0,05 a α = 0,01 348 n α = 0,05 α = 0,01 k1 k2 k1 k2 6 0 6 - - 7 0 7 - - 8 0 8 0 8 9 1 8 0 9 10 1 9 0 10 11 1 10 0 11 12 2 10 1 11 13 2 11 1 12 14 2 12 1 13 15 3 12 2 13 16 3 13 2 14 17 4 13 2 15 18 4 14 3 15 19 4 15 3 16 20 5 15 3 17 Zdroj: Anděl, J.: Matematická statistika. (Tabulka XVIII.8). Kritické hodnoty jednovýběrového Wilcoxonova testu pro n = 6, 7, .., 30, α = 0,05 a α = 0,01 349 n α = 0,05 α = 0,01 krit. hodnota krit. hodnota 6 0 - 7 2 - 8 3 0 9 5 1 10 8 3 11 10 5 12 13 7 13 17 9 14 21 12 15 25 15 16 29 19 17 34 23 18 40 27 19 46 32 20 52 37 21 58 42 22 65 48 23 73 54 24 81 61 25 89 68 26 98 75 27 107 83 28 116 91 29 126 100 30 137 109 Zdroj: Anděl, J.: Matematická statistika. (Tabulka XVIII.9). Kritické hodnoty dvouvýběrového Wilcoxonova testu pro m = 1, 2, .., 30, n = 1, 2, …, 30, α = 0,05 350 n m 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 - 2 - - 3 - - - 4 - - - 0 5 - - 0 1 2 6 - - 1 2 3 5 7 - - 1 3 5 6 8 8 - 0 2 4 6 8 10 13 9 - 0 2 4 7 10 12 15 17 10 - 0 3 5 8 11 14 17 20 23 11 -- 0 3 6 9 13 16 19 23 26 30 12 - 1 4 7 11 14 18 22 26 29 33 37 13 - 1 4 8 12 16 20 24 28 33 37 41 45 14 - 1 5 9 13 17 22 26 31 36 40 45 50 55 15 - 1 5 10 14 19 24 29 34 39 44 49 54 59 64 16 - 1 6 11 15 21 26 31 37 42 47 53 59 64 70 75 17 - 2 6 11 17 22 28 34 39 45 51 57 63 69 75 81 87 18 - 2 7 12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 19 - 2 7 13 19 25 32 38 45 52 58 65 72 78 85 92 99 106 113 20 - 2 8 14 20 27 34 41 48 55 62 69 76 83 90 98 105 112 119 127 21 - 2 8 15 22 29 36 43 50 58 65 73 80 88 96 103 111 119 126 134 22 - 3 9 16 23 30 38 45 53 61 69 77 85 93 101 109 117 125 133 141 23 - 3 9 17 24 32 40 48 56 64 73 81 89 98 106 115 123 132 140 149 24 - 3 10 17 25 33 42 50 59 67 76 85 94 102 111 120 129 138 147 156 25 - 3 10 18 27 35 44 53 62 71 80 89 98 107 117 126 135 145 154 161 26 - 4 11 19 28 37 46 55 64 74 83 93 102 112 122 132 141 151 161 171 27 - 4 11 20 29 38 48 57 67 77 87 97 107 117 127 137 147 158 168 178 28 - 4 12 21 30 40 50 60 70 80 90 101 111 122 132 143 154 164 175 186 29 - 4 13 22 32 42 52 62 73 83 94 105 116 127 138 149 160 171 182 193 30 - 5 13 23 33 43 54 65 76 87 98 109 120 131 143 154 166 177 189 200 Zdroj: Anděl, J.: Matematická statistika. (Tabulka XVIII.10a). Kritické hodnoty Neményiho metody, r = 3, 4, .., 10, n = 1, 2, …, 25, α = 0,05 351Zdroj: Blatná, Dagmar: Neparametrické metody. Tabulka T21/1. r n 3 4 5 6 7 8 9 10 1 3,3 4,7 6,1 7,5 9,0 10,5 12,0 13,5 2 8,8 12,6 16,5 20,5 24,7 28,9 33,1 37,4 3 15,7 22,7 29,9 37,3 44,8 52,5 60,3 68,2 4 23,9 34,6 45,6 57,0 68,6 80,4 92,4 104,6 5 33,1 48,1 63,5 79,3 95,5 112,0 128,8 145,8 6 43,3 62,9 83,2 104,0 125,3 147,0 169,1 191,4 7 54,4 79,1 104,6 130,8 157,6 184,9 212,8 240,9 8 66,3 96,4 127,6 159,6 192,4 225,7 259,7 294,1 9 75,9 114,8 152,0 190,2 229,3 269,1 309,6 350,6 10 92,3 134,3 177,8 222,6 268,4 315,0 362,4 410,5 11 106,3 154,8 205,0 256,6 309,4 363,2 417,9 473,3 12 120,9 176,2 233,4 292,2 352,4 413,6 476,0 539,1 13 136,2 198,5 263,0 329,3 397,1 466,2 536,5 607,7 14 152,1 221,7 293,8 367,8 443,6 520,8 599,4 679,0 15 168,6 245,7 325,7 407,8 491,9 577,4 664,6 752,8 16 185,6 270,6 358,6 449,1 541,7 635,9 732,0 829,2 17 203,1 296,2 392,6 491,7 593,1 696,3 801,5 907,9 18 221,2 322,6 427,6 535,5 646,1 758,5 873,1 989,0 19 239,8 349,7 463,6 580,6 700,5 822,4 946,7 1072,4 20 258,8 377,6 500,5 626,9 756,4 888,1 1022,3 1158,1 21 278,4 406,1 538,4 674,4 813,7 955,4 1099,8 1245,9 22 298,4 435,3 577,2 723,0 872,3 1024,3 1179,1 1335,7 23 318,9 465,2 616,9 772,7 932,4 1094,8 1260,3 1427,7 24 339,8 495,8 657,4 823,5 993,7 1166,8 1343,2 1521,7 25 361,1 527,0 698,8 875,4 1056,3 1240,4 1427,9 1611,6 Kritické hodnoty pro Spearmanův koeficient pořadové korelace n=5...30, α = 0,05 a α = 0,01 352 alfa n 0,05 0,01 5 1,000 * 6 0,886 1,000 7 0,786 0,929 8 0,738 0,881 9 0,700 0,833 10 0,648 0,794 11 0,618 0,755 12 0,587 0,727 13 0,560 0,703 14 0,538 0,675 15 0,521 0,654 16 0,503 0,635 17 0,485 0,615 18 0,472 0,600 19 0,460 0,584 20 0,447 0,570 21 0,435 0,556 22 0,425 0,544 23 0,415 0,532 24 0,406 0,521 25 0,398 0,511 26 0,390 0,501 27 0,382 0,491 28 0,375 0,483 29 0,368 0,475 30 0,362 0,467 alfa n 0,05 0,01 5 0,900 1,000 6 0,829 0,943 7 0,714 0,893 8 0,643 0,833 9 0,600 0,783 10 0,564 0,745 11 0,536 0,709 12 0,503 0,671 13 0,484 0,648 14 0,464 0,622 15 0,443 0,604 16 0,429 0,582 17 0,414 0,566 18 0,401 0,550 19 0,391 0,535 20 0,380 0,520 21 0,370 0,508 22 0,361 0,496 23 0,353 0,486 24 0,344 0,476 25 0,337 0,466 26 0,331 0,457 27 0,324 0,448 28 0,317 0,440 29 0,312 0,433 30 0,306 0,425 Adapted from Zar, J. H. (1972). Significance testing of the Spearman rank correlation. Journal of the American Statistical Association. 67, 578 – 580. Zdroj: http://www.ace.upm.edu.my/~bas/5950/Spearman%20Rho%20Table.pdf 353 Následující text čerpá z článku Hun Myoung Park: Univariate Analysis and Normality Test Using SAS, Stata and SPSS (dostupný z http://www.indiana.edu/~statmath/stat/all/normality/normality.pdf) Jednorozměrná analýza a testování normality pomocí SAS, STATA a SPSS 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409