Téma 8.: Základní pojmy matematické statistiky, ověřování normality Příklad 1.: Ve 12 náhodně vybraných prodejnách ve městě byly zjištěny následující ceny určitého výrobku (v Kč): 102, 99, 106, 103, 96, 98, 100, 105, 103, 98, 104, 107. Těchto 12 hodnot považujeme za realizace náhodného výběru X1, ..., X12 z rozložení, které má střední hodnotu µ a rozptyl σ2 . a) Určete nestranné bodové odhady neznámé střední hodnoty µ a neznámého rozptylu σ2 . b) Najděte výběrovou distribuční funkci F12(x) a nakreslete její graf. Řešení: Vypočteme realizaci výběrového průměru ( ) 75,10110799102 12 1 m =+++= K Kč Vypočteme realizaci výběrového rozptylu: ( ) ( ) ( )[ ] 39,1275,10110775,1019975,101102 11 1 s 2222 =−++−+−= K Kč2 Pro usnadnění výpočtu hodnot výběrové distribuční funkce F12(x) uspořádáme ceny podle velikosti: 96, 98, 98, 99, 100, 102, 103, 103, 104, 105, 106, 107. Číselnou osu rozdělíme na 11 intervalů a v každém intervalu stanovíme hodnotu výběrové distribuční funkce. 1)x(F:071x 691,0 12 11 )x(F:107x106 38,0 12 10 )x(F:106x105 75,0 12 9 )x(F:105x104 6,0 12 8 )x(F:104x103 5,0 12 6 )x(F:103x102 641,0 12 5 )x(F:102x001 3,0 12 4 )x(F:001x99 25,0 12 3 )x(F:99x89 308,0 12 1 )x(F:98x96 0)x(F:96x 12 12 12 12 12 12 12 12 12 12 12 =≥ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ =< 96 98 99 100 102 103 104 105 106 107 x -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 F12(x) Výpočet pomocí systému STATISTICA: Otevřeme datový soubor ceny_vyrobku.sta. Výpočet realizace výběrového průměru a výběrového rozptylu: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – vybereme Průměr a Rozptyl – Výpočet. Dostaneme tabulku: Popisné statistiky (Tabulka15) Proměnná Průměr Rozptyl X 101,7500 12,38636 Výpočet hodnot výběrové distribuční funkce: Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Možnosti – ponecháme zaškrtnuté pouze Kumulativní relativní četnosti – Výpočet. Ke vzniklé tabulce přidáme jeden případ před první případ (do sloupce Kategorie napíšeme 95, do sloupce Kumulativní rel. četnost napíšeme 0 ) a jeden případ za poslední případ (do sloupce Kategorie napíšeme 107, do sloupce Kumulativní rel. četnost napíšeme 100). Proměnnou Kumulativní rel. četnost podělíme 100: do jejího Dlouhého jména napíšeme = v2/100. Kreslení grafu výběrové distribuční funkce: Nastavíme se kurzorem na proměnnou Kumulativní rel. četnost, klikneme pravým tlačítkem – Grafy bloku dat – Spojnicový graf: celé sloupce. Ve vytvořeném grafu odstraníme značky, spojnici změníme na schodovitou a upravíme měřítko na vodorovné ose od 1 do 12. Příklad 2.: Přírůstky cen akcií v % na burze v New Yorku u 10 náhodně vybraných společností dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Odhadněte střední hodnotu a směrodatnou odchylku růstu cen akcií a dále odhadněte pravděpodobnost růstu cen akcií aspoň o 8,5 %. Data jsou uložena v souboru akcie_NY.sta. Výsledky: Průměrný růst cen akcií odhadujeme na 8 % se směrodatnou odchylkou 3,97 %. Dále, u 40 % akcií vzrostla cena aspoň o 8,5 %. Příklad 3.: Bylo zkoumáno 9 vzorků půdy s různým obsahem fosforu (veličina X). Hodnoty veličiny Y označují obsah fosforu v obilných klíčcích (po 38 dnech), jež vyrostly na těchto vzorcích půdy. číslo vzorku 1 2 3 4 5 6 7 8 9 X 1 4 5 9 11 13 23 23 28 Y 64 71 54 81 76 93 77 95 109 Těchto 9 dvojic hodnot považujeme za realizace náhodného výběru (X1,Y1), ..., (X9,Y9) z dvourozměrného rozložení s kovariancí σ12 a koeficientem korelace ρ. Najděte bodové odhady kovariance σ12 a koeficientu korelace ρ. Výpočet pomocí systému STATISTICA: Otevřeme datový soubor fosfor_v_kliccich.sta. Výpočet výběrové kovariance: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, nezávisle proměnná X – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance. Dostaneme tabulku: Kovariance (Tabulka18) Proměnná X Y X Y 91,7500 130,0000 130,0000 284,2500 Vidíme, že výběrová kovariance veličin X, Y se realizuje hodnotou 130. (Výběrový rozptyl proměnné X resp. Y nabyl hodnoty 91,75 resp. 284,25.) Výpočet výběrového koeficientu korelace: V menu Další statistiky vybereme Korelace. Korelace (Tabulka18) Proměnná X Y X Y 1,000000 0,804989 0,804989 1,000000 Výběrový koeficient korelace veličin X, Y nabyl hodnoty 0,805, tedy mezi veličinami x, Y existuje silná přímá lineární závislost. Upozornění: Výběrový koeficient korelace lze pomocí systému STATISTICA vypočítat i jiným způsobem: Statistika – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – X, Y – OK – Výpočet. Ve výsledné tabulce máme též realizace výběrových průměrů a směrodatných odchylek. Korelace (Tabulka18) Označ. korelace jsou významné na hlad. p < ,05000 N=9 (Celé případy vynechány u ChD) Proměnná Průměry Sm.odch. X Y X Y 13,00000 9,57862 1,000000 0,804989 80,00000 16,85972 0,804989 1,000000 Příklad 4.: Pět mužů zjistilo a zapsalo svou hmotnost (v kg) a výšku (v cm): Číslo muže 1 2 3 4 5 Hmotnost 76 86 73 84 79 Výška 170 177 169 174 175 Najděte nestranný bodový odhad rozptylu hmotnosti, rozptylu výšky a kovariance hmotnosti a výšky. Vypočtěte rovněž realizaci výběrového koeficientu korelace hmotnosti a výšky. Výsledky: Výběrový rozptyl hmotnosti se realizuje hodnotou 29,3, výběrový rozptyl výšky 11,5 a výběrová kovariance hmotnost a výšky se realizuje hodnotou 16,5. Výběrový koeficient korelace hmotnosti a výšky nabývá hodnoty 0,8989. Příklad 5.: Při kontrolních zkouškách životnosti 16 žárovek byl stanoven odhad m = 3000 h střední hodnoty jejich životnosti. Z dřívějších zkoušek je známo, že životnost žárovky se řídí normálním rozložením se směrodatnou odchylkou σ = 20 h. Vypočtěte a) 99% empirický interval spolehlivosti pro střední hodnotu životnosti b) 90% levostranný empirický interval spolehlivosti pro střední hodnotu životnosti c) 95% pravostranný empirický interval spolehlivosti pro střední hodnotu životnosti. Upozornění: Výsledek zaokrouhlete na jedno desetinné místo a vyjádřete v hodinách a minu- tách. Řešení: ad a) 1,298757583,2 16 20 3000u n md 995,0 =−= σ −= , 9,301257583,2 16 20 3000u n mh 995,0 =+= σ += 2987 h a 6 min < µ < 3012 h a 54 min s pravděpodobností 0,99 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných d, h a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,995;0;1) Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,995;0;1) ad b) 6,299328155,1 16 20 3000u n md 9,0 =−= σ −= 2993 h a 36 min < µ s pravděpodobností 0,9 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné d a jednom případu. Do Dlouhého jména proměnné d napíšeme vzorec =3000-20/sqrt(16)*VNormal(0,9;0;1) ad c) 8,300995996,1 16 20 3000u n mh 975,0 =+= σ += 3009 h a 48 min > µ s pravděpodobností 0,95 Výpočet pomocí systému STATISTICA Otevřeme nový datový soubor o jedné proměnné h a jednom případu. Do Dlouhého jména proměnné h napíšeme vzorec =3000+20/sqrt(16)*VNormal(0,975;0;1) Užitečný odkaz: na adrese http://www.prevody-jednotek.cz je program, s jehož pomocí lze převádět různé fyzikální jednotky, v našem případě hodiny na minuty. Příklad 6.: Při nanášení tenkých kovových vrstev stříbra na polymerní materiál se vyžaduje, aby tloušťka vrstvy byla 0,020 µm. Pomocí atomové absorpční spektroskopie se zjistily hodnoty, jež jsou uvedeny v tabulce a uloženy v souboru vrstva_stribra.sta. Posuďte N-P grafem a Q-Q grafem, zda výsledky měření se řídí normálním rozložením. tloušťka vrstvy 0,0212 0,0186 0,0192 0,0207 0,0200 0,0200 0,0190 0,0188 0,0208 0,0194 0,0188 0,0193 0,0204 0,0185 0,0187 0,0195 0,0191 0,0195 0,0199 0,0205 0,0189 0,0188 0,0199 0,0202 0,0208 Výpočet pomocí systému STATISTICA: Vytvoření N-P plotu: Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnná X – OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování - OK. Vytvoření Q-Q plotu: Grafy – 2D Grafy – Grafy typu Q-Q– Proměnná X – OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování - OK. N-P plot Normální p-graf z X vrstva_stribra.sta 1v*25c 0,0182 0,0184 0,0186 0,0188 0,0190 0,0192 0,0194 0,0196 0,0198 0,0200 0,0202 0,0204 0,0206 0,0208 0,0210 0,0212 0,0214 Pozorovaný kvantil -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Oček.normál.hodnoty Q-Q plot Graf kvantil-kvantil z X vrstva_stribra.sta 1v*25c Rozdělení:Normální X = 0,0196+0,0008*x -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Teoretický kvantil 0,01 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,99 0,0182 0,0184 0,0186 0,0188 0,0190 0,0192 0,0194 0,0196 0,0198 0,0200 0,0202 0,0204 0,0206 0,0208 0,0210 0,0212 0,0214 Pozorovanýkvantil Dle vzhledu obou diagramů lze soudit, že data vykazují jen lehké odchylky od normality. Příklad 7. : U 48 studentek VŠE v Praze byla zjišťována výška a obor studia (1 – národní hospodářství, 2 – informatika). Hodnoty jsou uloženy v souboru vyska.sta. Pomocí Lilieforsovy modifikace K-S testu, pomocí S-W testu a pomocí A-D testu testujte na hladině významnosti 0,05 hypotézu, že data pocházejí z normálního rozložení. Pomocí N-P grafu posuďte vizuálně předpoklad normality. Návod: Provedení Lilieforsova a S-W testu: Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Normalita – zaškrtneme Lilieforsův test a S-W test – Testy normality. Testy normality (vyska.sta) Proměnná N max D Lilliefors p W p X: vyska 48 0,155621 p < ,01 0,965996 0,176031 Výstupní tabulka obsahuje počet pozorování, hodnotu testové statistiky Lilieforsovy modifikace K-S testu (max D = 0,155621), p-hodnotu (p < 0,01), testovou statistiku S-W testu (W = 0,965996) a odpovídající p-hodnotu (p = 0,176031). Vidíme, že Lilieforsův test zamítá hypotézu o normalitě na hladině významnosti 0,05, zatímco S-W test nikoli. Provedení A - D testu: Statistiky – Rozdělení & simulace – proložení dat rozděleními – OK – Proměnné Spojité: X – na záložce Spojité proměnné ponecháme zaškrtnuté pouze Normální, na záložce Možnosti vybereme Anderson – Darling – OK – Souhrnné statistiky rozdělení. Souhrn rozdělení for Proměnná: X (vyska.sta) K-S d K-S p-hodn. AD stat. AD p-hodn. Chí-kvadrát Chí-kvadr. p-hodn. Chí-kvadr. SV Posun (práh/poloha) Normální (poloha,měřítko) 0,155621 0,175802 0,660990 0,591425 15,37500 0,017532 6,000000 Vidíme, že Testová statistika A – D testu je 0,661, odpovídající p-hodnota je 0,5914, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Vytvoření N-P grafu: Návod: Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnné X – OK. 150 155 160 165 170 175 180 185 190 Pozorovaný kvantil -3 -2 -1 0 1 2 3Oček.normál.hodnoty Tečky se řadí podél ideální přímky, normalita je jen lehce porušena. Samostatný úkol: Testy normality a grafické ověření normality proveďte jak pro výšky studentek oboru národní hospodářství, tak pro výšku studentek oboru informatiky. Pro kontrolu: Výsledky pro obor národní hospodářství: Testy normality (vyska.sta) Zhrnout podmínku: z=1 Proměnná N max D Lilliefors p W p X: vyska 28 0,167473 p < ,05 0,970969 0,606793 Vidíme, že Lilieforsova varianta K-S testu zamítá hypotézu o normalitě na hladině významnosti 0,05 (p-hodnota je menší než 0,05), zatímco S-W test hypotézu o normalitě nezamítá (phodnota je větší než 0,05). Souhrn rozdělení for Proměnná: X (vyska.sta) Zhrnout podmínku: z=1 K-S d K-S p-hodn. AD stat. AD p-hodn. Chí-kvadrát Chí-kvadr. p-hodn. Chí-kvadr. SV Posun (práh/poloha) Normální (poloha,měřítko) 0,167473 0,370570 0,419238 0,828398 2,000000 0,157299 1,000000 A-D test poskytne hodnotu testové statistiky 0,4192, odpovídající p-hodnota je 0,8284, tedy A-D test nezamítá hypotézu o normalitě na hladině významnosti 0,05. Výsledky pro obor informatika: Testy normality (vyska.sta) Zhrnout podmínku: z=2 Proměnná N max D Lilliefors p W p X: vyska 20 0,172301 p < ,15 0,922747 0,111924 Souhrn rozdělení for Proměnná: X (vyska.sta) Zhrnout podmínku: z=2 K-S d K-S p-hodn. AD stat. AD p-hodn. Chí-kvadrát Chí-kvadr. p-hodn. Chí-kvadr. SV Posun (práh/poloha) Normální (poloha,měřítko) 0,172301 0,536360 0,566019 0,678546 V tomto případě ani jeden z testů hypotézu o normalitě nezamítá na hladině významnosti 0,05.