2. cvičení: Základní pojmy matematické statistiky. Diagnostické grafy. Příklad 1.: Odvoďte hustotu náhodného výběru z normálního rozložení N(µ, σ2 ). Výsledek: Náhodný vektor (X1, …, Xn)’ má hustotu ( ) ( ) ∑ πσ=ϕ       σ µ− − − 2 ix 2 1 2 n 2 n1 e2x,,x K , což je hustota n – rozměrného normálního rozložení s vektorem středních hodnot µ = (µ, …, µ)’ a varianční maticí σ2 I. Příklad 2.: Nechť X1, ..., Xn je náhodný výběr z rozložení se střední hodnotou µ a rozptylem σ2 . Nechť n ≥ 2. a) Vypočtěte střední hodnotu a rozptyl výběrového průměru M = ∑= n 1i iX n 1 . b) Vypočtěte střední hodnotu výběrového rozptylu S2 = ( )∑= − − n 1i 2 i MX 1n 1 Výsledky: ad a) E(M) = µ, ad b) E(S2 ) = σ2 Příklad 3.: Odvození střední hodnoty a rozptylu výběrové distribuční funkce Nechť X1, ..., Xn je náhodný výběr z rozložení s distribuční funkcí Φ(x). Nechť n ≥ 2. Pro libovolné, ale pevně zvolené reálné x vypočtěte střední hodnotu a rozptyl výběrové distribuční funkce { }xX;icard n 1 )x(F in ≤= . Výsledky: E(Fn(x)) = Φ(x), D(Fn(x)) = Φ(x)(1- Φ(x))/n. Příklad 4.: Odvození střední hodnoty výběrové kovariance Nechť (X1,Y1), ..., (Xn,Yn) je náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot (µ1, µ2) a kovariancí σ12. Vypočtěte střední hodnotu výběrové kovariance S12 = ( )( )∑= −− − n 1i 2i1i MYMX 1n 1 . Výsledek: E(S12) = σ12 Příklad 5.: Ve 12 náhodně vybraných prodejnách ve městě byly zjištěny následující ceny určitého výrobku (v Kč): 102, 99, 106, 103, 96, 98, 100, 105, 103, 98, 104, 107. Těchto 12 hodnot považujeme za realizace náhodného výběru X1, ..., X12 z rozložení, které má střední hodnotu µ a rozptyl σ2 . a) Vypočtěte realizaci výběrového průměru a výběrového rozptylu. b) Najděte výběrovou distribuční funkci F12(x) a nakreslete její graf. Výsledky: m = 101,75 Kč, s2 = 12,39 Kč2 Hodnoty a graf výběrové distribuční funkce 1)x(F:071x 691,0 12 11 )x(F:107x106 38,0 12 10 )x(F:106x105 75,0 12 9 )x(F:105x104 6,0 12 8 )x(F:104x103 5,0 12 6 )x(F:103x102 641,0 12 5 )x(F:102x001 3,0 12 4 )x(F:001x99 25,0 12 3 )x(F:99x89 308,0 12 1 )x(F:98x96 0)x(F:96x 12 12 12 12 12 12 12 12 12 12 12 =≥ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ ==<≤ =< 96 98 99 100 102 103 104 105 106 107 x -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 F12(x) Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné (nazveme ji X) a 12 případech. Do proměnné X napíšeme zjištěné ceny. Výpočet realizace výběrového průměru a výběrového rozptylu: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – vybereme Průměr a Rozptyl – Výpočet. Dostaneme tabulku: Popisné statistiky (Tabulka15) Proměnná Průměr Rozptyl X 101,7500 12,38636 Výpočet hodnot výběrové distribuční funkce: Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK – Možnosti – ponecháme zaškrtnuté pouze Kumulativní relativní četnosti – Výpočet. Kreslení grafu výběrové distribuční funkce: Ke vzniklé tabulce přidáme jeden případ před první případ (do sloupce Kategorie napíšeme 95, do sloupce Kumulativní rel. četnost napíšeme 0 ) a jeden případ za poslední případ (do sloupce Kategorie napíšeme 107, do sloupce Kumulativní rel. četnost napíšeme 100). Proměnnou Kumulativní rel. četnost podělíme 100: do jejího Dlouhého jména napíšeme = v2/100. Nastavíme se kurzorem na proměnnou Kumulativní rel. četnost, klikneme pravým tlačítkem – Grafy bloku dat – Spojnicový graf: celé sloupce. Ve vytvořeném grafu odstraníme značky, spojnici změníme na schodovitou a upravíme měřítko na vodorovné ose od 1 do 12. Příklad 6.: Přírůstky cen akcií v % na burze v New Yorku u 10 náhodně vybraných společností dosáhly těchto hodnot: 10, 16, 5, 10, 12, 8, 4, 6, 5, 4. Odhadněte střední hodnotu a směrodatnou odchylku růstu cen akcií a dále odhadněte pravděpodobnost růstu cen akcií aspoň o 8,5 %. Pomocí systému STATISTICA nakreslete krabicový diagram a NP plot. Výsledky: Průměrný růst cen akcií odhadujeme na 8 % se směrodatnou odchylkou 3,97 %. Dále, u 40 % akcií vzrostla cena aspoň o 8,5 %. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné (nazveme ji X) a 10 případech. Do proměnné X napíšeme zjištěné přírůstky cen akcií. Výpočet realizace výběrového průměru a výběrové směrodatné odchylky: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X – OK – Detailní výsledky – vybereme Průměr a Směrodat. odchylka – Výpočet. Dostaneme tabulku: Popisné statistiky (Tabulka1) Proměnná Průměr Sm.odch. X 8,000000 3,972125 Odhad pravděpodobnosti růstu cen akcií aspoň o 8,5 %: Překódujeme hodnoty proměnné X tak, že hodnotám větším nebo rovným 8,5 přiřadíme 1 a ostatním hodnotám 0. Nastavíme se kurzorem na X. Data – Překódovat. Otevře se okno, které vyplníme takto: Statistiky – Základní statistiky/tabulky – Tabulky četností – OK – Proměnné X – OK –– Vý- počet. Tabulka četností:X (Tabulka1) Kategorie Četnost Kumulativní četnost Rel.četnost Kumulativní rel.četnost 0 1 ChD 6 6 60,00000 60,0000 4 10 40,00000 100,0000 0 10 0,00000 100,0000 Vidíme, že u Kategorie 1 je relativní četnost 40 %. Kreslení krabicového grafu: Grafy – 2D Grafy – Krabicové grafy - Proměnné – Závisle proměnné X - OK. Krabicový graf z X burza_v_New_Yorku.sta 1v*10c Medián = 7 25%-75% = (5, 10) Rozsah neodleh. = (4, 16) Odlehlé Extrémy2 4 6 8 10 12 14 16 18 X Kreslení NP plotu: Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnné X – zrušíme Neurčovat průměrnou pozici svázaných pozorování - OK. Normální p-graf z X burza_v_New_Yorku.sta 1v*10c 2 4 6 8 10 12 14 16 18 Pozorovaný kvantil -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Oček.normál.hodnoty Příklad 7.: Výpočet výběrového koeficientu korelace Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Vypočtěte a interpretujte výběrový koeficient korelace. Pro usnadnění výpočtů máte k dispozici tyto součty: 23214yx,20836y,26684x,400y,450x 8 1i ii 8 1i 2 i 8 1i 2 i 8 1i i 8 1i i ===== ∑∑∑∑∑ ===== Dále pomocí systému STATISTICA nakreslete dvourozměrný tečkový diagram s proloženou 95% elipsou konstantní hustoty pravděpodobnosti. Výsledek: r12 = 0,6668, mezi výsledky obou testů existuje středně silná přímá lineární závislost. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných X a Y a osmi případech. Do proměnných X a Y zapíšeme hodnoty testů. Výpočet výběrové kovariance: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, nezávisle proměnná X – OK – OK – Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky – Kovariance. Dostaneme tabulku: Kovariance (dva testy.sta) Proměnná X Y X Y 195,9286 102,0000 102,0000 119,4286 Vidíme, že výběrová kovariance veličin X, Y se realizuje hodnotou 102. (Výběrový rozptyl proměnné X resp. Y nabyl hodnoty 195,93 resp. 119,43.) Výpočet výběrového koeficientu korelace: V menu Další statistiky vybereme Korelace. Korelace (dva testy.sta) Proměnná X Y X Y 1,000000 0,666802 0,666802 1,000000 Výběrový koeficient korelace veličin X, Y nabyl hodnoty 0,6668, tedy mezi veličinami x, Y existuje středně silná přímá lineární závislost. Upozornění: Výběrový koeficient korelace lze pomocí systému STATISTICA vypočítat i jiným způsobem: Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – X, Y – OK – Výpočet. Ve výsledné tabulce máme též realizace výběrových průměrů a směrodatných odchylek. Korelace (dva testy.sta) Označ. korelace jsou významné na hlad. p < ,05000 N=8 (Celé případy vynechány u ChD) Proměnná Průměry Sm.odch. X Y X Y 56,25000 13,99745 1,000000 0,666802 50,00000 10,92834 0,666802 1,000000 Kreslení dvourozměrného tečkového diagramu s 95% elipsou konstantní hustoty pravděpo- dobnosti: Grafy – 2D Grafy - Bodové grafy. Vypneme lineární proložení. Zadáme Proměnné – X – Y – OK. Dostaneme dvourozměrný tečkový diagram pro vektorovou proměnnou (X, Y). Nyní do diagramu zakreslíme 95% elipsu konstantní hustoty pravděpodobnosti: 2x klikneme na pozadí grafu a otevře se okno s názvem Vš. možnosti. Vybereme Graf: Elipsa, zvolíme Přidat novou elipsu. Po vykreslení elipsy změníme měřítko: na vodorovné ose bude minimum 0, maximum 120, na svislé ose bude minimum 0, maximum 100. (Stačí 2x kliknout na číselný popis osy a na záložce Měřítka vybrat manuální mód.) Bodový graf z Y proti X dva testy.sta 2v*8c 0 20 40 60 80 100 120 X 0 20 40 60 80 100 Y