Popisná statistika základní soubor X výběrový soubor Naměřili jsme n hodnot x1, x2, . . . , xn, počet prvků souboru je tzv. rozsah souboru. Pro lepší zpracování data uspořádáme: x(1) x(2) x(n) a dostaneme uspořádaný soubor hodnot Míry polohy Průměr (resp. výběrový, aritmetický průmer) x = 1 n n i=1 xi p-kvantil (výběrový p-kvantil) ~xp = x([np]+1) np = [np] 1 2 (x(np) + x(np+1)) np = [np] , kde [a] značí celou část z a a 0 < p < 1. Míry variability Rozptyl (výběrový rozptyl) S2 = 1 n - 1 n i=1 (xi - x)2 = 1 n - 1 n i=1 x2 i - nx2 Kvartilové rozpětí RQ = ~x0,75 - ~x0,25 Krabicový diagram (box plot, box and whisker plot, vousatá krabička) "Krabička" je ohraničena hodnotami kvartilů a je zobrazen medián. Vousky znázorňují hodnoty, které nejsou od jednotlivých kvartilů vzdálené o více jak 1,5 násobek RQ. Jednotlivě jsou vyznačena pozorování, která jsou ve větší vzdálenosti. 1. Byly naměřeny hodnoty nějakého jevu: 10; 7; 7; 8; 8; 9; 10; 9; 4; 9; 10; 9; 11; 9; 7; 8; 3; 9; 8; 7 Určete průměr, medián, kvartily, rozptyl, mezikvartilové rozpětí a hodnoty znázorněte pomocí krabicového diagramu. 1 1 3 4 5 6 7 8 9 10 11 Náhodný výběr Náhodným výběrem (rozsahu n) nazýváme posloupnost n stochasticky nezávislých náhodných veličin X1, X2 . . . , Xn, které mají stejné rozložení, tedy Xi F(xi), i = 1, 2, . . . , n. Pozn.: Prakticky se s náhodným výběrem setkáváme při nezávislém vícenásobném opakování téhož pokusu. Statistika: Náhodná veličina, která vznikne transformací náhodného výběru, se nazývá sta- tistika. Významné statistiky: * Výběrový průměr M = 1 n n i=1 Xi * Výběrový rozptyl S2 = 1 n - 1 n i=1 (Xi - M)2 = 1 n - 1 n i=1 X2 i - nM2 * Výběrová směrodatná odchylka S = S2 2 2. Nechť X1, X2 . . . , Xn je náhodý výběr z rozložení, které má střední hodnotu a rozptyl 2. Vypočítejte střední hodnotu a rozptyl výběrového průměru M. 3. Předpokládejme, že velký ročník na vysoké škole má výsledky ze statistiky normálně rozloženy kolem střední hodnoty 72 bodů se směrodatnou odchylkou 9 bodů. Určete pravděpodobnost, že a) náhodně vybraný student bude mít výsledek nad 80 bodů b) průměr výsledků náhodného výběru 10 studentů bude větší než 80 bodů. Bodové a intervalové odhady Nechť X1, X2, . . . , Xn je náhodný výběr z rozložení daného distribuční funkcí F(xi). Nestranný odhad: Statistika T = g(X1, X2, . . . , Xn) (kde g je borelovská funkce) je nestranný odhad parametru , právě když platí E(T) = . * Jsou-li T1, T2 dva nestranné odhady parametru , pak řekneme, že T1 je lepší nestranný odhad než T2, právě když platí D(T1) < D(T2). * Řekneme, že T je nejlepší nestranný odhad parametru , pokud je nestranným odhadem a pokud platí D(T ) D(T), kde T je jakýkoli nestranný odhad parametru . Intervalový odhad: Nechť (0; 1) je libovolné číslo a D = g1(X1, X2, . . . , Xn), H = g2(X1, X2, . . . , Xn) jsou statistiky. Interval (D, H) se nazývá 100(1 - )% interval spolehlivosti pro parametr , právě když platí: P(D < < H) 1 - Statistika H se nazývá horní odhad parametru na hladině významnosti , právě když platí: P( < H) 1 - 3 Intervalové odhady pro paramtery a 2 jednoho normálního rozložení 1. Odhad parametru * pokud 2 známe M = 1 n n i=1 Xi U = M - / n N(0, 1) D = M - n u1-/2, H = M + n u1-/2 * pokud 2 neznáme T = M - S/ n t(n - 1) D = M - S n t1-/2(n - 1), H = M + S n t1-/2(n - 1) 2. Odhad paramteru 2 * pokud známe W = n i=1 (Xi - )2 2 = n i=1 Xi - 2 = n i=1 U2 i 2 (n) D = nP i=1 (Xi-)2 2 1-/2 (n) , H = nP i=1 (Xi-)2 2 /2 (n) * pokud neznáme K = (n - 1)S2 2 2 (n - 1) D = (n-1)S2 2 1-/2 (n-1) , H = (n-1)S2 2 /2 (n-1) Intervaly spolehlivosti pro parametry dvou normálních rozložení 1. Interval spolehlivost c11 + c22 * pokud 1, 2 známe V = c1M1 + c2M2 = c1 n1 n i=1 X1i + c2 n2 n i=1 X2i N c11 + c22, c2 12 1 n1 + c2 22 2 n2 U = (c1M1 + c2M2) - (c11 + c22) c2 12 1 n1 + c2 22 2 n2 N(0, 1) D = c1M1 + c2M2 - c2 12 1 n1 + c2 22 2 n2 u1-/2 H = c1M1 + c2M2 + c2 12 1 n1 + c2 22 2 n2 u1-/2 4 ˇ pokud 1, 2 neznáme, ale víme, že jsou si rovny T = (c1M1 + c2M2) - (c11 + c22) S c2 1/n1 + c2 2/n2 t(n1 + n2 - 2), kde S2 = (n1-1)S2 1 +(n2-1)S2 2 n1+n2-2 D = c1M1 + c2M2 - t1-/2(n1 + n2 - 2)S c2 1/n1 + c2 2/n2 H = c1M1 + c2M2 + t1-/2(n1 + n2 - 2)S c2 1/n1 + c2 2/n2 2. Interval spolehlivosti pro 2 1 2 2 W = S2 1/S2 2 2 1/2 2 F(n1 - 1, n2 - 1) D = S2 1 /S2 2 F1-/2(n1-1,n2-1) , H = S2 1 /S2 2 F/2(n1-1,n2-1) 4. Rychlost letadla byla určována v pěti zkouškách a z jejich výsledků byl vypočten odhad m = 870, 3 ms-1. Najděte 95% interval spolehlivosti pro , je-li známo, že rozptýlení rychlosti se řídí normálním rozložením se směrodatnou odchylkou = 2, 1 m s-1. 5. Bylo vylosováno 6 vrhů selat a z nich vždy dva sourozenci. Jeden z nich vždy dostal náhodně dietu č. 1 a druhý dietu č. 2. Přírůstky v gramech jsou následující: (62,52)',(54,56)',(55,49)',(60,50)',(53,51)',(58,50)' Sestrojte 95% interval spolehlivosti pro = 1 - 2. 6. Nechť X1, . . . Xn je náhodný výběr z rozložení N(; 0, 04). Zvolme hladinu významnosti = 0, 05. Jaký musí být nejmenší počet měření, aby šířka intervalu spolehlivosti pro neznámou střední hodnotu nepřesáhla číslo 0,16? 5 7. Při zjišťování přesnosti nově zaváděné metody pro stanovení obsahu manganu v oceli bylo rozhodnuto provést čtyři nezávislá měření u oceli se známým obsahem manganu, který je roven 0,30 %. Stanovte dolní odhad pro na hladině významnosti = 0, 05, když výsledky měření byly: 0,31 %, 0,30 %, 0,29 %, 0,32 %. Údaje o obsahu manganu v oceli považujeme za realizace náhodného výběru rozsahu 4 z N(, 2) 7. V tabulce jsou uvedeny výsledky analýz niklu získané dvěma analytickými metodami. Stanovte horní odhad pro podíl směrodatných odchylek obou metod při riziku = 0, 05, jestliže tyto výsledky považujeme za realizace nezávislých náhodných výběrů rozsahu 4 z N(1, 2 1) a N(2, 2 2). Metoda I: 3,26; 3,26; 3,27; 3,27 Metoda II: 3,23; 3,27; 3,29; 3,29 6