If— sociální fond V CR EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ mládeže a tělovýchovy OP Vzdělávánf pro konkurenceschopnost í C/l INVESTICE DO ROZVOJE VZDELÁVANÍ IMI j-- CA Z i Přednášky předmětu M6130 Výpočetní statistika Marie Budíková 2013 Poděkování Tento učební text vznikl za přispění Evropského sociálního fondu a státního rozpočtu CR prostřednictvím Operačního programu Vzdělávání pro konkurenceschopnost v rámci projektu Univerzitní výuka matematiky v měnícím se světě (CZ. 1.07/2.2.00/15.0203). Průzkumová analýza jednorozměrných dat, diagnostické grafy Motivace Průzkumová analýza dat je odvětví statistiky, které pomocí různých postupů odhaluje zvláštnosti v datech. Při zpracování dat se často používají metody, které jsou založeny na předpokladu, že data pocházejí z nějakého konkrétního rozložení, nejčastěji normálního. Tento předpoklad nemusí být vždy splněn, protože data - mohou pocházet z jiného rozložení - mohou být zatížena hrubými chybami - mohou pocházet ze směsi několika rozložení. Proto je důležité provést průzkumovou analýzu dat, abychom se vyvarovali neadekvátního použití statistických metod. Data zkoumáme pomocí funkcionálních a číselných charakteristik a pomocí diagnostických grafů. Osnova: - datový soubor - bodové a intervalové rozložení četností - typy znaků, číselné charakteristiky znaků - krabicový diagram, N-P plot, P-P plot, Q-Q plot, histogram Funkcionální charakteristiky datového souboru Označení Na množině objektů {e1,...,en} zjišťujeme hodnoty znaku X (např. u 6 domácností zjišťujeme počet členů). Hodnotu znaku X na objektu e; označíme xi? i = 1, n. (2\ Tyto hodnoty zaznamenáme do jednorozměrného datového souboru (např. 1 2 3 1 v2y Uspořádané hodnoty x(1) < x(2) < ... < x(n) tvoří uspořádaný datový soubor , v našem případě 1 2 2 2 v3y v[i] Vektor , kde xm < ... < x[r] jsou navzájem různé hodnoty znaku X, se nazývá vektor variant, v našem případě Bodové rozložení četností Je-li počet variant znaku X malý, přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností. nj - absolutní četnost varianty x^ pj = — - relativní četnost varianty x Nj = ni + ... + nj - absolutní kumulativní četnost prvních j variant N. Fj = — = pí + ... + pi — relativní kumulativní četnost prvních j variant n Absolutní a relativní četnosti zapisujeme do tabulky rozložení četností nebo je znázorňujeme graficky např. pomocí sloupkového diagramu či polygonu četností. [pjprox = xU],j = l, ...,r funkce: p(x) - 10 jinak Empirická distribuční funkce: F(x) = 0 pro x < Xrjj xrrl Intervalové rozložení četností Je-li počet variant znaku X velký, přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům (upu2), (ur,ur+1) a hovoříme o intervalovém rozložení četností. Názvy četností jsou podobné jako u bodového rozložení četností, na- víc zavádíme četnostní hustotu j-tého třídicího intervalu fj = kde dj = Uj+i - Uj. Stanovení počtu třídicích intervalů je dosti subjektivní záležitost. Často se doporučuje volit r blízké Vň. Hustota četnosti: f(x) = [fj prouj zaokrouhlíme nahoru na nejbližší celé číslo c^>xa=x( Pro speciálně zvolená a užíváme názvů: x0,5o - medián, x0,25 - dolní kvartil, x0j5 - horní kvartil, x0,i, x0,9 - decily, x0,oi, x0,99 - percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0,75 - x0,25- Příklad 3.: Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce: Počet bodů 0 1 2 3 4 5 6 7 8 9 10 Počet studentů 1 4 6 7 11 15 19 17 12 6 3 Zjistěte modus, medián, 1. decil, 9. decil a kvartilovou odchylku počtu bodů. Řešení: Modus je nejčetnější varianta znaku, v tomto případě tedy 6. Pro výpočet kvantilů musíme znát rozsah datového souboru: n = 1 + 4 + a na c xa—x(c) 0,50 50,5 51 6 0,10 10,1 11 2 0,90 90,9 91 8 0,25 25,25 26 4 0,75 75,75 76 7 + 3 = 101. Výpočty uspořádáme do tabulky. q=7-4=3 Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o 2 proměnných a 11 případech. První proměnnou nazveme X, druhou četnost a zapíšeme do nich počet bodů a odpovídající absolutní četnosti. Statistiky - Základní statistiky/tabulky - Popisné statistiky - zapneme proměnnou vah četnost - OK - OK - Proměnné X OK - Detailní výsledky - vybereme Medián, Dolní a horní kvartily, Kvantilové hranice - Výpočet - ve výstupní tabulce upravíme počet desetinných míst. Proměnná Popisné statistiky (počet bodu.sta) N platných 1 Medián Spodní kvartil Horní kvartil Kvantil I Kvantil 10,00000 190,00000 X 101 6 4 7 2 8 Znaky intervalového a poměrového typu U těchto znaků lze navíc obsahově interpretovat operaci rozdílu resp. podílu. Příklad intervalového znaku: teplota měřená ve stupních Celsia. Např. naměříme-li ve čtyřech po sobě jdoucích dnech po lední teploty 0, 2, 4, 6 °C, znamená to, že každým dnem stouply teploty o 2 °C. Nelze však říci, že z druhého na třetí den vzrostla teplota dvojnásobně, kdežto ze třetího na čtvrtý den pouze jeden a půl krát. Další příklady: kalendářní systémy, směr větru, inteligenční kvocient, ... Společný znak intervalových znaků: nula byla stanovena uměle, pouhou konvencí. Příklad poměrového znaku: délka předmětu měřená v cm. Má-li jeden předmět délku 8 cm a druhý 16 cm, má smysl prohlásit, že druhý předmět je dvakrát delší než první předmět. Další příklady: počet dětí v rodině, výška kapesného v Kč, hmotnost osoby, ... Společný znak poměrových znaků: poměrový znak má přirozený počátek, ke kterému jsou vztahovány všechny další hodnoty znaku. 1 n Charakteristika polohy: aritmetický průměr m = — YV . n i=i U poměrových znaků, které nabývají pouze kladných hodnot, lze použít geometrický průměr ^/x7 Pomocí průměru zavedeme i-tou centrovanou hodnotu Xj - m (podle znaménka poznáme, zda i-tá hodnota je podprůměrná či nadprůměrná). Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem Rozdělení s různými polohami hodnota znaku Vlastnosti aritmetického průměru - Aritmetický průměr si lze představit jako těžiště dat - součet podprůměrných hodnot je stejný jako součet nadprůměrných hodnot - oba součty jsou v rovnováze. 1 n 1 n 1 n 1 - Průměr centrovaných hodnot je nulový, protože — ^ (x; - m) = — ^ x; —^ m =m---n ■ m = 0 =0. n — i=l n — i=l n — i=l Výraz ^(x; - a)2 (tzv. kvadratická odchylka) nabývá svého minima pro a = m. Uvedený výraz charakterizuje celkovou i=l chybu, které se dopustíme, když datový soubor nahradíme jedinou hodnotou a. Tato chyba je tedy nejmenší, když datový soubor nahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku. - Pokud každou hodnotu Xj podrobíme lineární transformaci yi = a + bxi? pak průměr transformovaných hodnot je roven lineární transformaci původního průměru, tj. m2 = a + bmi. - Mají-li znaky X, Y průměry m1? m2, pak znak Z = X + Y má průměr ni! + m2. - Aritmetický průměr je silně ovlivněn extrémními hodnotami. - Aritmetický průměr je vhodné použít, pokud je rozložení dat přibližně symetrické. Příklad na vlastnosti aritmetického průměru: U skupiny 20 pracovníků v určité dílně byly zjišťovány měsíční mzdy. Průměr mezd činil 15 500 Kč. Určete průměr mezd, jestliže mzdy všech pracovníků se zvýší a) o 300 Kč, b) 1,1 krát, c) o 20%. v Řešení: Označme m: průměr hodnot x1? ..., xn a m2 průměr hodnot y1? ..., yn, přičemž y{ - a + bxj, i = 1, ..., n. Pak m2 = a + bm^ ad a) m2 = 300 + m: = 15 800 Průměr se zvýšil o 300 Kč na 15 800 Kč. ad b) m2 = l,l.mi = 17 050 Průměr se zvýšil na 17 050 Kč. ad c)m2= l,2.mi = 18 600 Průměr se zvýšil na 18 600 Kč. Charakteristiky variability intervalových a poměrových znaků Variační rozpětí R = x(n) - x(i) (nevýhoda - bere v úvahu pouze nejmenší a největší hodnotu datového souboru), 1 n •ná odchylka o = — V \xi - ml (udává, o kolik jednotek se data liší od průměru) n i=i 2 1 ° rozptyl s = — Y (x; - m)2 (nevýhoda - vychází ve druhých mocninách jednotek, v nichž byl měřen znak X) X- -m (vyjadřuje, o kolik směrodatných odchylek směrodatná odchylka s = V?. Pomocí směrodatné odchylky zavedeme i-tou standardizovanou hodnotu s se i-tá hodnota odchýlila od průměru). U poměrových znaků se jako charakteristika variability používá též: koeficient variace — (často se udává v procentech a udává, kolika procent průměru dosahuje směrodatná odchylka), m relativní průměrná odchylka — (při vyjádření v procentech udává, kolika procent průměru dosahuje průměrná odchylka) m Znázornění rozložení četností dvou datových souborů, které se liší rozptylem: Rozdělení s různými variabilitar Vlastnosti rozptylu: - Rozptyl je nulový pouze tehdy, když jsou všechny hodnoty stejné, jinak je kladný. 1 n 1 n Rozptyl centrovaných hodnot je roven původnímu rozptylu, neboť — Y[(x; -m)-0]2 =— Y(x; -m)2 = n ~ŕ n j-f i=l Rozptyl standardizovaných hodnot je 1, protože — ^ 1 ■ x. -m 1 1 ^ n ;= i=l s n : i=l 1^ Rozptyl se zpravidla počítá podle vzorce s = — ^x; -m . i=l Pokud každou hodnotu Xj podrobíme lineární transformaci yi = a + bxi? pak rozptyl transformovaných hodnot je roven původnímu rozptylu vynásobenému b2, tj. s22 = b2 Si2. - Rozptyl je stejně jako průměr silně ovlivněn extrémními hodnotami. - Rozptyl se nehodí jako charakteristika variability, je-li rozložení dat nesymetrické. Příklad 4.: Kurzy akcií společnosti AAA Auto Group v průběhu 23 dní v měsíci srpnu 2010 byly následující: 17,75; 17,74; 17,85; 17,59; 17,92; 17,98; 18,39; 18,25; 18,30; 18,00; 18,15; 18,15; 18,22; 18,40; 18,25; 17,95; 18,25; 18,23; 17,95; 17,90; 17,80; 17,87; 17,87. Vypočtěte charakteristiky variability. Řešení: Nejprve vypočítáme variační rozpětí: R = x(n) - x(1) = 18,4 -17,59 = 0,81. Před výpočtem dalších charakteristik variability musíme získat aritmetický průměr: m =—(17,75 +17,74 +... +17,87) = 18,033. Průměrná odchylka: o = - ^|x; - m| = — (jl7,75 -18,033| +117,74 -18,033| +... +117,87 -18,033|) = 0,1965 n i=i 23 Relativní průměrná odchylka: —100% = 0,1965100% = 1,09% m 18,033 Rozptyl: s2 =-Vxi2-m2 = — (l7,752 + 17,742 +... + 17,872)-18,0332 =0,049 n m 23 Směrodatná odchylka: s = Vš2" = ^0,049 = 0,2213 Koeficient variace: —100% =--100% = 1,23% m 18,033 Výpočet pomocí systému STATISTIC A: Otevřeme nový datový soubor o jedné proměnné X a 23 případech. Do proměnné X zapíšeme zjištěné kurzy akcií. Statistiky - Základní statistiky/tabulky - Popisné statistiky - OK - Proměnné X - OK - Detailní výsledky - vybereme Průměr, Rozptyl, Rozpětí - Výpočet. Ve výstupní tabulce přidáme za proměnnou Rozptyl tři nové proměnné nazvané rozptyl, směr. odch. a koef. variace. Do Dlouhého jména proměnné rozptyl napíšeme =v3*22/23, Dlouhého jména proměnné směr. odch. napíšeme =sqrt(v4) a do Dlouhého jména proměnné koef. variace napíšeme =100*v5/vl. Proměnná Průměr Rozpětí Rozptyl I rozptyl | =v3*22/2| směr. odch. =sqrt(v4) koef. variace =100*v5/v1 X 18,03304 0,810000 0,051231 0,049004 0,221367976 1,22756858 Pro výpočet průměrné odchylky a relativní průměrné odchylky je zapotřebí přidat k původnímu datovému souboru dvě nové proměnné nazvané Průměr a Odchylka. Do Dlouhého jména proměnné Průměr napíšeme =18,033 a do Dlouhého jména pro měnné Odchylka napíšeme =abs(vl-v2). Nyní spočteme průměr proměnné Odchylka: Statistiky - Základní statistiky/tabulky - Popisné statistiky - OK - Proměnné Odchylka - OK - Detailní výsledky - vybereme Průměr - Výpočet. Ve výstupní tabulce přejmenujeme proměnnou Průměr na prům. odch. a za tuto proměnnou přidáme proměnnou rel. prům. odch. Do jejího Dlouhého jména napíšeme =100*vl/18,033. Proměnná odchylka rel. prům. odch. =100*v1/18,033 Odchylka 0,196478 1,08954839 Vážené číselné charakteristiky Známe-li absolutní četnosti n1? ..., nr či relativní četnosti p1? ..., pr variant x[1]? x[r], můžeme spočítat r r vážený průměr m = -^njX[J] = 2pjx[j]5 n j=i j=i y r r r vážený rozptyl s2 =-^nJ(x[J] -m)2 = ^Pj(X[J] -m)2 (výpočetní vzorec: s2 =-^njX[J]2 -m2 = ^PjX[J]2 -m2), n H H n H H r r ženou průměrnou odchylku o = — ^]nj|x[j] _m| = SPj|xui _m| • n j=i j=i Příklad 5.: U 35 zaměstnanců byl zjištěn počet odpracovaných hodin za měsíc. Počet odpracovaných hodin 184 185 186 187 188 189 Počet zaměstnanců 4 6 7 6 7 5 Vypočtěte průměr, průměrnou odchylku, relativní průměrnou odchylku, směrodatnou odchylku a koeficient variace počtu odpracovaných hodin. v Řešení: Vážený průměr: m = -^njX[j] = — (4 ■ 184 + 6 ■ 185 + 7 ■ 186 + 6 ■ 187 + 7 ■ 188 + 5 ■ 189) = 186,6 n j_j 3 5 Vážená průměrná odchylka: 1 r 1 o = - j] n j|xtj] - m| = — (4 ■ |184 -186,6| + 6 • |l85 -186,6| + 7 ■ |186 -186,6| + 6 ■ |187 -186,6| + 7 • |l88 -186,6| + 5 • |l89 -186,6|) = l,38h = lh 23 mm Vážený rozptyl: s2 = njX[j]2 -m2 = — (4 • 1842 + 6 • 1852 + 7 • 1862 + 6 • 1872 + 7 • 1882 + 5 • 1892)-186,62 = 2,5257 n j_j 35 Vážená směrodatná odchylka: s = Vš^ = V^5257 = 1,59h = lh 35 min Relativní průměrná odchylka: —100% = -^-100% = 0,74% ť J m 186,6 s 1 59 Koeficient variace: —100% = ——100% = 0,85% m 186,6 Vidíme, že zaměstnanci odpracovali za měsíc v průměru 186,6 h, přičemž průměrná odchylka dosahuje 0,74 % průměrné odpracované doby a směrodatná odchylka dosahuje 0,85 % průměrné odpracované doby. Výpočet pomocí systému STATISTIC A: Otevřeme nový datový soubor o 2 proměnných a 6 případech. První proměnnou nazveme X, druhou četnost a zapíšeme do nich počet odpracovaných hodin a odpovídající počty zaměstnanců. Statistiky - Základní statistiky/tabulky - Popisné statistiky - zapneme proměnnou vah četnost - OK - OK - Proměnné X -OK - Detailní výsledky - vybereme Průměr, Rozptyl - Výpočet. Ve výstupní tabulce přidáme za proměnnou Rozptyl dvě nové proměnné nazvané směr. odch. a koef. variace. Do Dlouhého jména proměnné směr. odch. napíšeme =sqrt(v2*34/35) a do Dlouhého jména proměnné koef. variace napíšeme =100*v3/vl. Průměr 1 Rozptyl směr.odch. koef. variace Proměnná =sqrt(v2*34/35)| =100*v3/v1 X 186,6 2,6 1,5892496 0,851687888 Pro výpočet průměrné odchylky a relativní průměrné odchylky je zapotřebí přidat k původnímu datovému souboru dvě nové proměnné nazvané Průměr a Odchylka. Do Dlouhého jména proměnné Průměr napíšeme =186,6 a do Dlouhého jména proměnné Odchylka napíšeme =abs(vl-v3). Nyní spočteme průměr proměnné Odchylka: Statistiky - Základní statistiky/tabulky - Popisné statistiky - zapneme proměnnou vah četnost - OK - OK - Proměnné Odchylka - OK - Detailní výsledky - vybereme Průměr - Výpočet. Ve výstupní tabulce přejmenujeme proměnnou Průměr na prům. odch. a za tuto proměnnou přidáme proměnnou rel. prům. odch. Do jejího Dlouhého jména napíšeme =100*vl/186,6. Proměnná prům. rel. prům. odch. odch. 1 =100*v1/186,6 Odchylka 1,382857 0,741080998 Převod desetinných částí hodiny na minuty můžeme provést např. pomocí aplikace na adrese http://www.prevody-jednotek.cz/. Počáteční a centrální momenty Aritmetický průměr a rozptyl jsou speciální případy momentů. Zavedeme 1 A k-tý počáteční moment mk = — Y x;k , k = 1, 2, ... , n tí k-tý centrální moment 1 ^ = -X(x1-m)k,k=l,2,... i=l Pomocí 3. a 4. počátečního momentu se definuje šikmost a špičatost. m iikmost: oc3 = —p - měří nesouměrnost rozložení četností kolem průměru. Je-li rozložení dat symetrické kolem aritmetického průměru, pak (X3 = 0. Má-li rozložení dat prodloužený pravý konec, jde o kladně zešikmené rozložení, (X3 > 0. Má-li rozložení dar prodloužený levý konec, jde o záporně zešikmené rozložení, (X3 < 0. Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem a šikmostí í Rozdělení s různými polohami a šikmostmi 500 -1 400 - g 300 c ,2 200 _ 100 - 1 o 15 20 25 hodnota znaku Špičatost: a4 m. 3 - měří koncentraci rozložení četností kolem průměru. Je-li rozložení dat normální (Gaussovo), pak a4 = 0. Je-li rozložení dat strmé, pak a4 > 0. Je-li rozložení dat ploché, pak a4 < 0. Znázornění rozložení četností dvou datových souborů, které se liší špičatostí Rozdělení s různými špičatostmi 250 - 200 - g 150 H C «5 ioo >o 50 -0 - 7 12 17 hodnota znaku Diagnostické grafy Krabicový diagram Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce odlehlá hodnota horní vnitřní hradba nebo max. hodnota horní kvartil medián dolní kvartil dolní vnitřní hradba nebo min. hodnota extrémní hodnota Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x0,75 + l,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 - l,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0j5 + 3q, oo) či v intervalu (-00, x0,25 - 3q). Příklad 6.: Pro údaje z příkladu 1 sestrojte krabicový diagram. Řešení: Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky. a na c 0,25 7,5 8 2 0,50 15 15 X(15) + X(16)) 4 2 0,75 22,5 23 5 q=5-2=3 Dolní vnitřní hradba: x0,25 - l,5q = 2 - 1,5.3 = -2,5 Horní vnitřní hradba: x0j5 + l,5q = 5 + 1,5.3 = 9,5 Vidíme, že datový soubor vykazuje určitou nesymetrii - medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně sešikmen. V souboru se nevyskytují žádné odlehlé ani extrémní hodnoty. Výpočet pomocí systému STATISTIC A: Otevřeme nový datový soubor o 2 proměnných a 6 případech. První proměnnou nazveme počet, druhou četnost a zapíšeme do nich počet členů domácnosti a odpovídající absolutní četnosti. Zvolíme Grafy - 2D Grafy - Krabicové grafy. Zapneme proměnnou vah četnost, zadáme závisle proměnnou počet a dostaneme krabicový diagram: □ Medián =4 □ 25%-75% = (2, 5) I Rozsah neodletí. = 0.6) o Odlehlé * Extrémy Upozornění: Máme-li data intervalového či poměrového charakteru, o nichž lze předpokládat, že pocházejí z nějakého symetrického rozložení (například normálního), je možné použít jinou variantu krabicového diagramu: bod či čára uvnitř krabice reprezentuje průměr, vodorovné hrany krabice jsou ve výšce průměr ± směrodatná odchylka a svorky končí v minimu či maximu. V našem případě dostaneme krabicový diagram: Před uvedením dalších diagnostických grafů je nutné zavést pojem pořadí čísla v posloupnosti čísel. Pojem pořadí Nechť x1? ..., xn je posloupnost reálných čísel. a) Jsou-li čísla navzájem různá, pak pořadím Rj čísla x} rozumíme počet těch čísel x1? ..., xn, která jsou menší nebo rovna Číslu Xj. b) Vyskytují-li se mezi danými čísly skupinky stejných čísel, pak každé takové skupince přiřadíme průměrné pořadí. Příklad na stanovení pořadí a) Jsou dána čísla 9, 4, 5, 7, 3, 1. Stanovte pořadí těchto čísel. b) Jsou dána čísla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9. v Řešení ad a) _ usp. čísla 1 3 4 5 7 9 pořadí 1 2 3 4 5 6 ad b) usp. čísla 6 6 6 6 7 7 8 9 9 10 pořadí 1 2 3 4 5 6 7 8 9 10 prům. pořadí 2,5 2,5 2,5 2,5 5,5 5,5 7 8,5 8,5 10 Normální pravděpodobnostní graf (N-P plot) N- P plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení. Způsob konstrukce: Na vodorovnou osu vynášíme uspořádané hodnoty xa) < ... < x(n), na svislou osu kvantily ua standardizovaného normálního rozložení, kde a, =——- , přičemž j je pořadí j-té uspořádané J 3n + l hodnoty (jsou-li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak všechny dvojice (x(j) ,ua ) budou ležet na přímce. Pro data z rozložení s kladnou šikmostí se dvojice (x(j),ua ) budou řadit do konkávni křivky, pro data z rozložení se zápornou šikmostí se dvojice (x(j) ,ua ) budou řadit do konvexní křivky. Příklad na konstrukci N - P plotu: Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí normálního pravděpodobnostního grafu posuďte, zda se tato data řídí normálním rozložením. Řešení: usp. hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10), = (0,H29;0,2581;0,4032;0,5968;0,7419;0,8387;0,9355), vektor hodnot a, = ——- J 3n + l vektor kvantilů u a ^ = (-1,2112;-0,6493;-0,245;0,245;0,6493;0,9892;l,5179). Normální pravděpodobnostní graf 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 Protože dvojice (x(j),ua ) téměř leží na přímce, lze usoudit, že data pocházejí z normálního rozložení. Výpočet pomocí systému STATISTIC A: Otevřeme nový datový soubor o jedné proměnné a 10 případech. Zjištěné hodnoty zapíšeme do proměnné X. Grafy - 2D Grafy - Normální pravděpodobnostní grafy - Proměnná X - OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování - OK. Normální p-graf zx Tabulka21 1v*10c 2,0 1,5 I 1,0 K "D 0 _ÍZ 1 0,5 ■CD E b 0,0 CC > -CC O 8 -0.5 -1,0 -1,5 1,7 1,9 2,0 2,1 2,2 Pozorovaná hodnota C 2,3 2,4 2,5 Quantile - quantile plot (Q-Q plot) Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. STATISTICA nabízí 8 typů rozložení: beta, exponenciální, Gumbelovo, gamma, log-normální, normální, Rayleighovo a Weibulovo). ukce: na svislou osu vynášíme uspořádané hodnoty xa) < ... < x(n), J —^* na vodorovnou osu kvantily K„ (X) vybraného rozložení, kde a, =-—, přičemž radj a nadj jsou korigující faktory < 0,5, n + nadj implicitně radj = 0,375 a nadj = 0,25. (Jsou-li některé hodnoty x(1) < ... < x(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.) Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadnou z dat nebo je může zadat uživatel Body (Ka (X), x(j)) se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím je lepší soulad mezi empirickým a teoretickým rozložením. Příklad na konstrukci Q-Q plotu: Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí Q-Q plotu ověřte, zda se tato data řídí normálním rozložením. Řešení: usp.hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10) vektor hodnot ct: =ÍZ^Z^ = (0,1098;0,2561;0,4024;0,5976;0,7439;0,8415;0,939) J n + 0,25 vektor kvantilů ua = (-l,2278;-0,6554;-0,247;0,247;0,6554;l,0005;l,566) -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 Vzhled grafu nasvědčuje tomu, že data pocházejí z normálního rozložení Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné a 10 případech. Zjištěné hodnoty zapíšeme do proměnné X. Grafy - 2D Grafy - Grafy typu Q-Q- Proměnná X - OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování OK. Probability - probability plot (P-P plot) Používá se ke stejným účelům jako Q-Q plot, ale jinak se konstruuje. Způsob konstrukce: spočtou se standardizované hodnoty z(j) =———, j = 1, n. Na vodorovnou osu se vynesou hodnoty teoretické distribuční funkce ®(zq)) a na svislou osu hodnoty empirické distribuční funkce F(z,j)) = j/n. (Jsou-li některé hodnoty X(i) < ... < X(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.)Pokud se body (®(zu*l) XK dj nj Pj Nj Fj fj (35,65) 50 30 7 7/70=0,1 7 7/70=0,1 7/2100=0,0033 (65,95) 80 30 16 16/70=0,23 23 23/70=0,33 16/2100=0,0076 (95,125) 110 30 27 27/70=0,38 50 50/70=0,71 23/2100=0,0109 (l 25,155) 140 30 14 14/70=0,2 64 64/70=0,91 14/2100=0,0067 (l 55,185) 170 30 4 4/70=0,06 68 68/70=0,97 4/2100=0,0019 (185,215) 200 30 2 2/70=0,03 70 70/70=1 2/2100=0,00010 S pomocí této tabulky sestrojíme histogram: 0,014 0,012 0,010 0,008 0,006 0,004 0,002 0,000 35 65 95 125 155 185 215 Výpočet pomocí systému STATISTIC A: Otevřeme nový datový soubor o dvou proměnných a 6 případech. První proměnnou nazveme X, druhou četnost. Do pro- X 2 četnost 1 50 7 2 80 16 3 110 27 4 140 14 5 170 4 6 200 2 Grafy - Histogramy - zadáme proměnnou vah četnost - Proměnná X - zaškrtneme Hranice - Určit hranice - zaškrtneme Zadejte hraniční rozmezí: Minimum 35, Krok 30, Maximum 215 - OK - OK. Dostaneme graf: Histogram z X Tabulka8 2v'6c X- 70'30'normal(x; 109,1429; 34,6303) ............/ / v \ ....... 35 65 95 125 155 185 215 Na rozdíl od histogramu konstruovaného ručně jsou na svislé ose absolutní četnosti, nikoliv četnostní hustoty. V porovnání s grafem hustoty normálního rozložení je vidět, že naše rozložení četností je lehce kladně zešikmené. Naše data tedy nepocházejí z normálního rozložení. Vzhled diagnostických grafů pro rozložení s různou šikmostí Pro ilustraci se podívejme, jak se různá šikmost rozložení projeví na histogramu, N-P plotu a na krabicovém diagramu. Rozložení s kladnou šikmostí Normální rozložení Rozložení se zápornou šikmostí Histogram Histogram Histogram 2. ----- 1« ! :: : : _ i mm -0,4 ... .,4 0,0 1,2 ,,« 2,0 24 -0,0 -2,1 -2,. -, I -1,0 -.,1 ... 0.1 1.0 , I 2,0 2,1 2,0 -0,0 -0,2 0,2 0 1,4 1 0 2,2 NP plot NP plot NP plot y • ^< L r t . / 0,2 0,0 0,2 0 4 0 6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2 2 24 -8-2-10128 -0,4 -0,2 0,0 0,2 0,4 0,6 0,0 1,0 1,2 1,4 1,0 1,0 2,0 2,2 Krabicový diagram Krabicový diagram Krabicový diagram 4 * - • ■ • Průzkumová analýza vícerozměrných dat Osnova: - vícerozměrný datový soubor - vizualizace vícerozměrných dat - snížení dimenze dat metodou hlavních komponent - shluková analýza Vícerozměrná data: vyskytují se v situacích, kdy u každého z n objektů zjišťujeme hodnoty p znaků X1?Xp. p-rozměrný datový soubor: matice n x p: All Alp x • * * x y nl np J Řádky charakterizují objekty, sloupce znaky. Např. máme n sportovců, u každého sledujeme tyto znaky: pohlaví (0 - žena, 1 - muž), tělesná výška (v cm), tělesná hmotnost (v kg), nejlepší výkon ve skoku do dálky (v cm), nejlepší výkon ve skoku do výšky (v cm), nejlepší výkon v na 100 m (v s). Úkoly průzkumové analýzy vícerozměrných dat: - odhalit vektory pozorování nebo jejich složky, které se jeví jako vybočující - postihnout závislosti mezi sloupci datového souboru - identifikovat shluky v datech, které svědčí o nehomogenitě daného výběru - posoudit vícerozměrnou normalitu dat. Omezíme se na dva problémy, a to na vizualizaci dat pomocí hlavních komponent a na shlukovou analýzu dat. Vizualizace vícerozměrných dat Je-li p = 2 nebo p = 3, můžeme hodnoty znaků chápat jako souřadnice v dvou či třírozměrném prostoru a získáme tak dvourozměrný či třírozměrný tečkový diagram. Ze vzhledu těchto tečkových diagramů lze poznat, zda se v datech vyskytují odlehlá pozorování, zda mezi znaky existuje nějaká závislost nebo zda se objekty sdružují do skupin. Příklad: Máme k dispozici datový soubor z roku 1979 o 26 evropských zemích, který obsahuje údaje o procentuálním zastoupení ekonomicky činného obyvatelstva v různých odvětvích národního hospodářství: zemědělství, těžba, průmyslová výroba, energetika, stavebnictví, místní hospodářství, finanční sektor, služby, doprava a komunikace. 1 2 3 4 5 6 7 8 9 zemed. tezba průmysl enerq. staveb. mist. hosp. finance služby doprava Belqie _3,3 0,9 27,6 0,9 8,2 19,1 6,2 26,6 7,2 Dánsko 9,2 0,1 21,8 0,6 8,3 14,2 6,5 32,2 7,1 Francie 10,8 0,8 27,5 0,9 8,9 16,8 6 22,6 5,7 Záp. Německo 6,7 1,3 35,8 0,9 7,3 14,4 5 22,5 6,1 Irsko 23,2 1 20,7 1,3 7,5 16,8 2,8 20,6 6,1 Itálie 15,9 0,6 27,6 0,5 10 18,1 1,5 20,1 5,7 Lucembursko 7,7 3,1 30,8 0,8 9,2 18,5 4,5 19,2 6,2 Nizozemsko 6,3 0,1 22,5 1 9,9 18 6,9 28,5 6,8 Velká Británie 2,7 1,4 30,2 1,4 6,9 16,9 5,8 28,3 6,4 Rakousko 12,7 1,1 31,4 1,4 8 16,8 4,9 16,7 7 Finsko 13 0,4 25,9 1,3 7,4 14,7 5,5 24,2 7,6 1 Řecko 41,4 0,6 17,6 0,6 8,1 11,5 2,4 11,1 6,7 Norsko 9 0,5 22,4 0,8 8,6 16,9 4,7 27,7 9,4 Portuqalsko 27,8 0,3 24,5 0,6 8,4 13,3 2,7 16,7 5,7 Španělsko 22,9 0,8 28,5 0,7 11,5 9,7 8,5 11,9 5,5 Švédsko 6,1 0,4 25,9 0,8 7,2 14,4 6 32,4 6,8 Švýcarsko 7,7 0,2 37,8 0,8 9,5 17,5 5,3 15,5 5,7 Turecko 66,8 0,7 7,9 0,1 2,8 5,5 1,1 11,9 3,2 Bulharsko 23,6 1,9 32,3 0,6 7,9 8 0,7 18,2 6,8 Československo 16,5 2,9 35,5 1,2 8,7 9,2 0,9 17,9 7,2 Vých. N ěmecko 4,2 2,9 41,2 1,3 7,6 11,2 1,2 22,1 8,3 Maďarsko 21,7 3,1 29,6 1,9 8,2 9,4 0,9 17,2 8 Polsko 31,1 2,5 25,7 0,9 8,4 7,5 0,9 16,1 6,9 Rumunsko 34,7 2,1 30,1 0,6 8,7 5,9 1,3 11,6 5 Sovětský svaz 23,7 1,4 25,8 0,6 9,2 6,1 0,5 23,4 9,3 Jugoslávie 48,7 1,5 16,8 1,1 4,9 6,4 11,3 5,3 4 Vytvořte dvourozměrné tečkové diagramy pro všechny dvojice proměnných. v Řešení pomocí systému STATISTIC A: Grafy - Maticové grafy - Proměnné - Vybrat vše - OK. o c ° cf ■^éŕca e o f o oQ c = 0 Ä o o c 0° ° &0 °8 t S o cP °&° o 8 H1 o QO 35 c o Sí^o C 3>„ °c ccccS^1 ÍP ° o > %> =d%> % „ co G 'Jiň o o °ď o° Or, C 3 °6 o oo o §>f£ qpoEp^6 o o ° co 90 -1 O o °°oíp o ä 5) o ° o * CD ŕ 8 o o o 0° o o o c □)CQ0cr o c ,coS8 d Na hlavní diagonále maticového grafu jsou histogramy jednotlivých proměnných, mimo hlavní diagonálu jsou dvourozměrné tečkové diagramy odpovídajících dvojic proměnných. Vidíme např., že podíl obyvatel zaměstnaných v zemědělství záporně koreluje s podílem obyvatel zaměstnaných v průmyslu, službách či dopravě. Je-li p > 3, použijeme k vizualizaci dat metodu hlavních komponent (principál component analysis), která umožňuje vyjádřit informace o variabilitě obsažené v datovém souboru pomocí několika málo nových znaků Yi, ..., Ym získaných jako lineární kombinace znaků původních Xi, ..., Xp, m < p : Yi = vnXi + ... + vlpXp, Y2 = v2iXi + ... + v2pXp. Ym - vmiXi + ... + vmpXp. Tyto nové znaky, kterým se říká hlavní komponenty, jsou - nekorelované, - uspořádané podle svého klesajícího rozptylu. Většina informace o variabilitě původních dat je tedy soustředěna v první hlavní komponentě a nejméně informace je obsaženo v poslední hlavní komponentě. Ukazuje se, že pouze několik prvních hlavních komponent má dostatečně velký rozptyl. Ostatní pak můžeme zanedbat, čímž docílíme snížení dimenze dat. V datovém souboru však musí existovat mezi znaky dostatečně silná korelace, aby bylo možno tuto redukci provést. Analýza hlavních komponent může být chápána jako transformace z původního do nového souřadnicového systému, jehož osy jsou tvořeny hlavními komponentami. Osy procházejí směry maximálního rozptylu, protože podmínka nezávislosti komponent vede ke kolmosti os. Data pak znázorníme v prostoru prvních dvou či tří hlavních komponent. Metodu hlavních komponent (Principal Component Analysis - PCA) popsal v r. 1901 Karl Pearson a ve 30. letech 20. století ji dále rozvinul Harold Hotelling. Harold Hotelling (1895 - 1973), americký matematik a statistik Podstata metody hlavních komponent Uvažme datový soubor, který vznikl tak, že 6 žáků absolvovalo 4 testy, které měří následující veličiny: Xi - přírodovědné znalosti, X2 - literární vědomosti, X3 - schopnost koncentrace, X4 - logické myšlení. Testy se hodnotí na škále od 1 do 10 (1 = špatný výsledek, 10 = výborný výsledek) 1 2 3 4 1 X1 X2 X3 X4 I_1|_7 9 10 8 2 9 8 8 10 4 3 1 2 1 4| 2 3 2 2 5 3 1 2 4 6 1 1 1 4 Xj = (Xj!, xip) - vektor pozorování i-tého objektu, i = 1, 2, n Např. pro i = 3 máme x3 = (4 3 1 2)T mi - — ^xij - průměr j-tého znaku, j = 1, 2, p. Např. pro j = 1 máme mi = —(7 + 9 + 4 + 2 + 3 + 1) n i=l o sj--7^(xíj _mj) - rozptyl j-tého znaku, j = 1, 2, p. Např. pro j = 1 máme Sj2 = n — 1 i=1 Datový soubor s průměry, směrodatnými odchylkami a rozptyly: (7-4,3f + 1 2 3 4 X1 X2 X3 X4 _1_ 7 9 10 8 2 9 8 8 10 3 4 3 1 2 4 2 3 2 2 5 3 1 2 4 6 1 1 1 4 průměry 4,33 4,17 4,00 5,00 s.o. 3,08 3,49 3,95 3,29 rozptyly 9,47 12,17 15,60 10,80 xij ~mj Zy-- - (i,j)-tá standardizovaná hodnota, i = 1, 2, n, j = 1, 2, p sj 7-4,3 Např. pro i = 1, j = 1 máme zn = , '_ = 0,8667 ^9^6 Datový soubor standardizovaných hodnot 1 X1 _ 2 X2 _ 3 X3 _ 4 X4 ■ 0,866703 1,385674 1,519109 0,912871 1,51673 1,098983 -0,10834 -0,33447 -0,75836 -0,33447 -0,43335 -1,08338 -0,90786 -0,90786 1,012739 1,521452 -0,75955 -0,91287 -0,50637 -0,91287 -0,50637 -0,30429 -0,75955 -0,30429 Zi = (zu, zip) - vektor standardizovaných pozorování i-tého objektu, i = 1, 2, m - (mi, mp)T - vektor průměrů n m - výběrová varianční matice. V našem případě: Proměnná Kovariance (pca) X1 X2 X3 X4 X1 9,46667 9,73333 10,60000 8,80000 X2 9,73333 12,16667 13,20000 9,40000 X3 10,60000 13,20000 15,60000 11,60000 X4 8,80000 9,40000 11,60000 10,80000 výběrová korelační matice. V našem případě: Proměnná Korelace (pca) X1 X2 X3 X4 X1 1,000000 0,906937 0,872258 0,870307 X2 0,906937 1,000000 0,958133 0,820031 X3 0,872258 0,958133 1,000000 0,893684 X4 10,870307 0,820031 0,893684 1,000000 (S a R jsou čtvercové symetrické matice řádu p.) A - čtvercová matice řádu p. Vlastní číslo matice A - takové číslo X, které pro libovolný nenulový vektor v typu p x 1 splňuje rovnici Av = X\. Vlastní vektor matice A - vektor v. Charakteristický polynom matice A - determinant |A - Al|. Stopa matice A - součet jejích diagonálních prvků (značí se Tr(A)). Výpočet vlastních čísel matice A Rovnici Av = X\ upravíme na tvar (A - XI) v = o. Tato soustava p rovnic má netriviální řešení, právě když charakteristický polynom matice A je roven 0. Dostaneme rovnici p-tého stupně. Jejím řešením jsou vlastní čísla Xu Xp. Vlastnosti vlastních čísel Jejich součet je roven stopě matice A: Xi + ... + Xp - Tr(A), jejich součin je roven determinantu matice A: Xi... Xp - det(A), jsou seřazena sestupně: Xľ >... > Xp. Vlastnosti vlastních vektorů Mají jednotkovou délku: VítVí = 1, i = 1, p, jsou vzájemně ortogonální: VítVj = 0 pro všechna i ^ j Získání hlavních komponent Nechť výběrová varianční matice S má vlastní čísla ll9 lp a vlastní vektory Vi, vp, přičemž VjTVj = 1, j = 1, p a VjTvk = 0 pro j ^ k. Znamená to, že vektory Vi, vp jsou ortonormální. Bez újmy na obecnosti předpokládáme, že li > 12 > ... > lp. í komponenta vznikne jako lineární kombinace znaků Xi, Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru Vi, tedy Yi = vnXi + ... + vlpXp. Její rozptyl je li. Dosadíme-li za Xi, Xp vektory pozorování x;, i = 1, n, dostaneme vektor souřadnic yi = (yn, yin)T, kde yn = v/x;. 2. hlavní komponenta vznikne jako lineární kombinace znaků Xi, Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru v2, tedy Y2 = v2iXi + ... + v2pXp. Její rozptyl je 12. Přitom ViTv2 = 0, tj. 1. a 2. hlavní komponenta jsou lineárně nezávislé. Dosadíme-li za Xi, Xp vektory pozorování x;, i = 1, n, dostaneme vektor souřadnic y2 = (y21, y2n)T, kde y2i = v2TXi. j-tá hlavní komponenta vznikne jako lineární kombinace znaků Xi, Xp, kde koeficienty této lineární kombinace jsou souřadnice vlastního vektoru Vj, tedy Yj = VjíXí + ... + vJPXp. Její rozptyl je lj. Přitom Vj vk = 0, j = 1, k-1, tj. j-tá hlavní komponenta je lineárně nezávislá se všemi ostatními hlavními komponentami. Dosadíme-li za Xi, Xp vektory pozorování x;, i = 1, n, dostaneme vektor souřadnic y, = (yu, yjn)T, kde yp = v^X;. Lze dokázat, že celková variabilita obsažená v datech je rovna stopě matice S, tj. součtu vlastních čísel li + ... + lp. li 1. hlavní komponenta tedy vyčerpává li -100% celkové variability. Pokud je číslo li + --- + 1P dostatečně blízké 1, znamená to, že 1. hlavní komponenta dobře nahrazuje celý datový soubor. Je- li +--- + 1P li toto číslo podstatně menší než 1, musíme vzít tolik hlavních komponent, aby jejich součet dělený stopou matice S byl dostatečně blízký 1. (V mnoha aplikacích se stává, že i při velkém počtu znaků stačí poměrně malý počet hlavních komponent.) Znázorníme-li rozmístění objektů na ploše prvních dvou hlavních komponent, můžeme poznat, které objekty se řadí do skupin neboli shluků. (Před provedením metody hlavních komponent je třeba se rozhodnout, zda budeme pracovat s původními hodnotami znaků nebo standardizovanými hodnotami.) Důležité upozornění: Proměnné X1? ..., Xp musí být mezi sebou dostatečně korelované, jinak metoda hlavních komponent nedá dobré výsledky. Koeficient korelace i-tého znaku X} s k-tou hlavní komponentou Yk lze vyjádřit jako R(x;,Yk) = S: Reprodukce výchozí kovarianční matice: platí vzorec S = ^l^V;1 (tzv. spektrální rozklad matice S). i=l Rozhodneme-li se uvažovat právě m hlavních komponent (m < p), pak pomocí tohoto vztahu můžeme posoudit, jak těchto m hlavních komponent reprodukuje rozptyly a kovariance původních proměnných. Lze posoudit i reziduálni matici, tj. matici, kterou získáme jako rozdíl výchozí kovarianční matice a reprodukované kovarianční matice. Doporučený postup při analýze hlavních komponent a) Provedeme tabulkové a grafické zpracování datového souboru, abychom se blíže seznámili s daty. b) Sestavíme korelační matici a prověříme, zda jsou korelace natolik silné, aby mělo smysl provádět analýzu hlavních komponent. c) Rozhodneme, kolika hlavními komponentami lze popsat datový soubor bez podstatné ztráty informace. Označme tento vhodný počet jako m. Při stanovení m můžeme použít tato pomocná kritéria: • Kaiserovo kritérium - za m volíme počet těch vlastních čísel matice R, která jsou větší než 1. • Sutinový test (scree test) - grafická metoda, která spočívá v subjektivním posouzení vzhledu sutinového grafu (scree plot), tj. grafu znázorňujícího velikosti sestupně uspořádaných vlastních čísel matice R. Objeví-li se v grafu určité zploštění, pak za m vezmeme to pořadové číslo, kde se zploštění projevilo. • Kritérium založené na kumulativním procentu vysvětleného rozptylu. Požadujeme, aby vybrané hlavní komponenty vysvětlily aspoň 70% celkového rozptylu. • Kritérium založené na reziduálni korelační či kovarianční matici. Požadujeme, aby prvky reziduálni matice byly co možná nejmenší. d) Pokusíme se o interpretaci prvních m hlavních komponent. Zkoumáme přitom, jak jsou jednotlivé vybrané hlavní komponenty utvořeny z původních znaků a jak s nimi korelují. e) Vypočítáme vektory souřadnic a následně sestrojíme dvourozměrné tečkové diagramy. Pro náš datový soubor obsahující výsledky 6 žáků ve 4 testech nejprve znázorníme data pomocí krabicových diagramů: Gra fy - 2D Grafy - Krabicové grafy - zvolíme Vícenásobný - Proměnné - Závisle proměnné XI-X4 - OK - OK Krabicový graf z více proměnných pca.sta 4v*6c Medián; Krabice: 25%-75%; Svorka: Rozsah neodleh. r t c [ 1 X1 X2 X3 X4 □ Medián □ 25%-75% X Rozsah neodleh. o Odlehlé * Extrémy Nyní vypočteme korelační matici: Statistiky - Vícerozměrné průzkumné techniky - Hlavní komponenty & klasifikační analýza - Proměnné XI až X4, OK - OK - Popisné statistiky - Korelační matice Proměnná Korelace (pca.sta) X1 X2 X3 X4 X1 1,000000 0,906937 0,872258 0,870307 X2 0,906937 1,000000 0,958133 0,820031 X3 0,872258 0,958133 1,000000 0,893684 X4 0,870307 0,820031 0,893684 1,000000 Dále vypočteme vlastní čísla a procento vysvětleného rozptylu: na záložce Základní výsledky vybereme Vlastní čísla. Vlastní čísla korelační matice a související statistiky (pc; Pouze aktiv, proměnné Pořadí vl.č. vl. číslo % celk. rozptylu Kumulativ, vi. číslo Kumulativ. % 1 3,661431 91,53577 3,661431 91,5358 2 0,188636 4,71589 3,850066 96,2517 3 0,134072 3,35181 3,984139 99,6035 4 0,015861 0,39653 4,000000 100,0000 Vidíme, že 1. vlastní číslo li = 3,66, tedy 1. hlavní komponenta vyčerpává 91,5% variability dat, 2. vlastní číslo 12 = 0,19, 2. hlavní komponenta vyčerpává 4,7% variability dat atd. Podle Kaiserova kritéria by stačilo uvažovat pouze 1. hlavní komponentu, protože pouze první vlastní číslo je větší než 1. Kvůli znázornění objektů však budeme uvažovat první dvě hlavní komponenty. Dále vypočítáme vlastní vektory: na záložce Proměnné vybereme Vlastní vektory Proměnná Vlastní vektory korelační matice (pca) Pouze aktiv, proměnné Faktor 1 Faktor 2 Faktor 3 Faktor 4 X1 -0,498301 -0,000518 0,817131 -0,289816 X2 -0,503657 -0,508833 0,582217 -0,082290 0,632916 X3 0,185043 -0,539021 -0,645217 X4 -0,488994 -0,791696 -0,187036 0,314832 1. hlavní komponenta: Yi = -0,49Xi -0,5X2 - 0,51X3 - 0,49X4, 2. hlavní komponenta: Y2 = -0,0005Xi +0,58X2 + 0,19X3 - 0,79X4 atd. 91.54% 4\72% 3 35% ,4 0% 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 Pořadí vl. čísla V sutinovém grafu nastává výrazné zploštění po 1. vlastním čísle. Výpočet koeficientů korelace 1. a 2. hlavní komponenty a původních čtyř proměnných: na záložce Proměnné vybereme Korelace faktorů & proměnných Proměnná Faktor 1 Faktor 2 X1 -0,953492 -0,000225 X2 -0,963740 0,252869 X3 -0,973645 0,080368 X4 -0,935684 -0,343851 Vidíme, že 1. hlavní komponenta vysoce záporně koreluje se všemi proměnnými. 2. hlavní komponenta slabě kladně koreluje s druhou proměnnou a středně silně záporně koreluje s třetí proměnnou. Podívejme se rovněž na vektory souřadnic (v systému STATISTICA se jim říká faktorové souřadnice případů): Případy vybereme Faktorové souřadnice případů. Případ Faktor 1 Faktor 2 1 -2,34914 0,364696 2 -2,56859 -0,378068 3 1,05532 0,387487 4 1,25040 0,434674 5 1,07964 -0,381138 6 1,53238 -0,427651 Znázornění objektů (žáků) na ploše prvních dvou hlavních komponent: 1 4 o o o 2 5 o R 0 -4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Faktor 1:91,54% Shluková analýza Cíl shlukové analýzy Cílem shlukové analýzy je roztřídění n objektů, z nichž každý je popsán p znaky, do několika pokud možno stejnorodých (homogenních) skupin (shluků, clusterů). Požadujeme, aby objekty uvnitř shluků si byly podobné co nejvíce, zatímco objekty z různých shluků co nejméně. Přesný počet shluků většinou není přesně znám. Shluková analýza nachází uplatnění v celé řadě oborů, např. v biologii. U n populací změříme p biometrických charakteristik a zjišťujeme, zda určité skupiny populací tvoří shluky. Shluková analýza je ovšem průzkumovou metodou a měla by sloužit jako určité vodítko při dalším zpracování dat. Podobnost objektů Podobnost (či rozdílnost) objektů posuzujeme pomocí různých měr vzdálenosti. Pro znaky intervalového či poměrového typu nejčastěji používáme euklidovskou vzdálenost. Nechť k-tý objekt je popsán vektorem pozorování Xk = (xki, Xkp)T a 1-tý objekt vektorem xi = (xu,xip)T. Euklidovská vzdálenost k-tého a 1-tého objektu: i djd = vkJ-x1J)2 j=i Vzdálenosti vypočtené pro všechny dvojice objektů se uspořádají do matice vzdáleností. Je zřejmé, že je to čtvercová symetrická matice, která má na hlavní diagonále nuly. Matice euklidovských vzdáleností pro datový soubor s údaji o 6 žácích: Statistiky - Vícerozměrné průzkumné techniky - Shluková analýza - Spojování (hierarchické shlukování) - OK - Proměnné XI - X4 - OK - na záložce Detaily vybereme Sh Případ P 1 P2 P3 P4 P5 P 6 P 1 0,0 3,6 12,7 12,7 12,6 14,0 P 2 3,6 0,0 12,8 13,2 12,5 14,1 P 3 12,7 12,7 12,8 0,0 2,2 3,2 4,1 P 4 13,2 2,2 0,0 3,0 3,2 P 5 12,6 12,5 3,2 3,0 0,0 2,2 P 6 14,0 14,1 4,1 3,2 2,2 0,0 ukovat Případy (řádky) - OK - na záložce Detaily vybereme Matice vzdáleností. Hierarchické shlukování Při aplikacích shlukové analýzy se nejčastěji používá aglomerativní hierarchická procedura. Její princip spočívá v postupném slučování objektů, a to nejprve nejbližších a v dalších krocích pak stále vzdálenějších. Algoritmus: 1. krok: Každý objekt považujeme za samostatný shluk. 2. krok: Najdeme dva shluky, jejichž vzdálenost je minimální. 3. krok: Tyto dva shluky spojíme v nový, větší shluk a přepočítáme matici vzdáleností. Její řád se sníží o 1. Vrátíme krok. Funkce algoritmu končí, až jsou všechny objekty spojeny do jediného shluku. Vzdálenost mezi shluky se počítá různými způsoby. Uvedeme tři z nich. a) Metoda nejbližšího souseda: Vzdálenost mezi dvěma shluky je minimem ze všech vzdáleností mezi jejich objekty. ) Metoda nejvzdálenějšího souseda: Vzdálenost mezi dvěma shluky je maximem ze všech vzdáleností mezi jejich objekty. c) Metoda průměrné vazby: Vzdálenost mezi dvěma shluky je průměrem ze všech vzdáleností mezi jejich objekty. Výsledky aglomerativní hierarchické procedury se zpravidla znázorňují pomocí dendrogramu. Je to graficky znázorněná posloupnost dvojic {(vpS^jU.^v^S^)}, kde {vjj!^ je neklesající posloupnost úrovní spojování a S(l) je roztřídění objektů odpovídající úrovni vi5 i = 1, n. Příklad dendrogramu: C I 3 3 4 V levém sloupci jsou jednotlivé objekty, další sloupce reprezentují shluky, do nichž byly objekty zařazeny a délky čar představují vzdálenosti mezi shluky. Poznámka: Hierarchická shluková analýza může být použita nejen na shlukování objektů, ale též na shlukování znaků. Dendrogram podobnosti objektů je standardní výstup hierarchických shlukovacích metod, z něhož je zjevná struktura objektů ve shlucích. Dendrogram podobnosti znaků odhaluje nejčastěji dvojice či trojice (všeobecně m-tice) znaků, které si jsou velmi podobné a silně spolu korelují. Znaky, které jsou ve společném shluku, si jsou značne podobné a jsou tudíž vzájemně nahraditelné. To má značný význam pri plánování experimentu - některé vlastnosti či znaky není zapotřebí vůbec zjišťovat či měřit, protože jsou snadno nahraditelné jinými znaky a nemají velkou vypovídací hodnotu. Vytvoření dendrogramu v systému STATSTICA: - pro metodu nejbližšího souseda: Statistiky - Vícerozměrné průzkumné techniky - Shluková analýza - Spojování (hierarchické shlukování) - OK -Proměnné XI - X4 - OK - na záložce Detaily vybereme Shlukovat Případy (řádky), pravidlo slučování ponecháme Jednoduché spojení, míru vzdálenosti ponecháme Euklidovské vzd. - OK - Horizontální graf hierarch. stromu - pro metodu nej vzdálenějšího souseda: na záložce Detaily vybereme pravidlo slučování Úplné spojení, - pro metodu úplné vazby: Na záložce Detaily vybereme pravidlo slučování Nevážený průměr skupin dvojic. Str. diagram pro 6 případů Jednoduché spojení Euklid, vzdálenosti Str. diagram pro 6 případů Úplné spojení Euklid, vzdálenosti Str. diagram pro 6 případů Nevážený průměr skupin dvojic Euklid. vzdálenosti Vidíme, že výsledky všech tří metod jsou velmi podobné a odpovídají rozmístění objektů (žáků) na ploše prvních dvou hlavních komponent. Příklad: Uvažme datový soubor s údaji o 26 evropských státech. Tento datový soubor budeme analyzovat metodou hlavních komponent a následně provedeme shlukovou analýzu. Provedení PCA Nejprve pomocí korelační matice posoudíme, zda má smysl aplikovat PCA. Statistiky - Vícerozměrné průzkumné techniky - Hlavní komponenty&klasifikační analýza - Proměnné XI až XI9, OK OK - Popisné statistiky - Korelační matice. Proměnná Korelace (státy1979.sta) X1 X2 X3 X4 X5 X6 X7 X8 X9 X1 1,00 0,04 0,04 -0,67 -0,40 -0,53 -0,73 -0,22 -0,75 -0,56 X2 1,00 0,44 0,41 -0,02 -0,40 -0,44 -0,28 0,16 X3 -0,67 -0,40 -0,53 0,44 1,00 0,39 0,48 0,21 -0,15 0,15 0,36 X4 0,41 0,39 1,00 0,03 0,20 0,11 0,13 0,37 X5 -0,02 0,48| 0,03| 1,00 0,33 0,01 0,17 0,38 X6 -0,73 -0,40 0,211 0,20|~0,33 1,00 0,36 0,57 0,17 X7 -0,22 -0,44 -0,15 0,11 0,01 0,36 1,00 0,11 -0,25 X8 -0,75 -0,56 -0,28 0,15 0,13 0,17 0,57 0,11 1,00 0,56 X9 0,16 0,36 0,37 0,38 0,17 -0,25 0,56 1,00 Některé korelační koeficienty jsou v absolutní hodnotě dostatečně velké a zřejmě tedy bude mít smysl provést analýzu hlavních komponent. Nyní získáme vlastní čísla výběrové korelační matice a procento vysvětleného rozptylu: na záložce Základní výsledky vybereme Vlastní čísla._ Pořadí vl.č. vl. číslo % celk. rozptylu Kumulativ. vl. číslo Kumulativ. % 1 3,466490 38,51655 3,466490 38,5166 2 2,135004 23,72227 5,601494 62,2388 3 1,115581 12,39534 6,717075 74,6342 4 0,989394 10,99326 7,706468 85,6274 5 0,539211 5,99123 8,245679 91,6187 6 0,382111 4,24568 8,627790 95,8643 7 0,233226 2,59140 8,861015 98,4557 8 0,138985 1,54428 9,000000 100,0000 První hlavní komponenta tedy vysvětluje 38,52% variability obsažené v devíti sledovaných proměnných, druhá 23,72%, třetí 12,40% atd. Celkové procento variability vysvětlené prvními třemi hlavními komponentami je 74,63%. Sestrojíme sutinový graf (scree plot): na záložce Základní výsledky vybereme Sutinový graf. Počet m hlavních komponent zvolíme tři. V nabídce Výsledky hlavních komponent snížíme počet faktorů na 3. Vypočteme korelační koeficienty prvních tří hlavních komponent a původních devíti proměnných: na záložce Proměnné vybereme Korelace faktorů & proměnných._ Proměnná Korelace faktorů a proměnných (faktor, zátěže) podle korelací (statyl 979.sta] Faktor 1 Faktor 2 Faktor 3 X1 0,978776 0,081725 -0,049455 X2 -0,000898 0,901105 0,216344 X3 -0,652174 0,513343 0,112868 X4 -0,474888 0,378598 0,649962 X5 -0,595263 0,073032 -0,304047 X6 -0,698213 -0,513734 0,119592 X7 -0,136193 -0,663299 0,589451 X8 -0,727506 -0,327637 -0,251642 X9 -0,684094 0,304809 -0,337074 Graficky lze znázornit souvislost mezi novými proměnnými (např. 1. a 2. HK) a původními proměnnými XI, ..., X9 takto: na záložce Proměnné vybereme 2D graf fakt. souřadnic prom. - Osa x: Faktor I, Osa y: Faktor 2 - OK. Na ose x budou souřadnice vstupních proměnných vzhledem k první hlavní komponentě, na ose Y vzhledem ke druhé komponentě. Projekce proměnných do faktorové roviny (1x2) -1,0 -0,5 0,0 0,5 1. HK vysoce kladně koreluje s proměnnou XI, tj se zemědělstvím a negativně s proměnnou X8 - služby. Jelikož je podíl lidí v zemědělství a ve službách obecně považován za určité měřítko vyspělosti země, můžeme první komponentu interpretovat jako míru zaostalosti/vyspělosti. 2. HK výrazně pozitivně koreluje s těžebním průmyslem, energetikou a zpracovatelským průmyslem. Negativně koreluje se službami a finanční sférou. Budeme ji proto interpretovat jako míru toho, nakolik se země orientuje na průmyslovou výrobu. (Ne vždy mají komponenty takto jasnou interpretaci. Jsou jen jistou matematickou transformací vstupních proměnných, která může a nemusí odrážet nějakou reálnou vlastnost objektů!). Podívejme se rovněž na vektory souřadnic (v systému STATISTICA se jim říká faktorové souřadnice případů): na záložce Případy vybereme Faktorové souřadnice případů. Případ Faktor 1 Faktor 2 Faktor 3 Belgie -1,68273 -1,20656 0,16668 Dánsko -0,90831 -2,05598 -0,85147 Francie -0,74050 -1,11048 0,38553 Záp. Německo -0,85647 -0,03165 0,56466 Irsko 0,11153 -0,40400 0,53134 Itálie -0,36366 -0,74902 -1,29050 Lucembursko -1,04022 0,74294 0,46327 Nizozemsko -1,65732 -1,98866 -0,08729 Velká Británie -1,61201 -0,39776 1,35031 Rakousko -1,01103 0,16508 1,16804 Finsko -0,97223 -0,73166 0,54475 Řecko 2,07154 -0,33521 -0,92274 Norsko -1,66538 -1,05092 -1,14341 Portugalsko 0,99709 -0,74259 -0,75474 Španělsko 0,43244 -0,60818 0,31825 Švédsko -1,07387 -1,55390 -0,22815 Švýcarsko -1,04031 -0,74707 0,28216 Turecko 6,19519 -1,04930 -0,64265 Bulharsko 0,67558 1,48159 -1,03101 Československo -0,48005 2,63421 0,07902 Vých. Německo -1,73669 2,73412 0,26970 Maďarsko -0,57526 3,07981 1,09460 Polsko 1,08637 1,87264 -0,54684 Rumunsko 2,01536 1,57550 -0,48595 Sovětský svaz -0,04779 1,26246 -2,30671 Jugoslávie 3,87872 -0,78542 3,07316 1. HK vysoce kladně koreluje s proměnnou Xi (zemědělství) a záporně se všemi ostatními proměnnými. Tato hlavní komponenta tedy rozlišuje země na zemědělské a průmyslové. Povšimněte si, že souřadnice této hlavní komponenty jsou nejvyšší u Turecka (6,2) a Jugoslávie (3,9). 2. HK vysoce kladně koreluje s proměnnou X2 (těžba) a podstatně slaběji s proměnnou X3 (průmyslová výroba). Vysoké hodnoty souřadnic této hlavní komponenty najdeme u Maďarska, Východního Německa a Československa. 3. HK středně silně koreluje s proměnnou X4 (energetika) a X7 (finanční sektor). Nejvyšší hodnotu najdeme u Jugoslávie. Nyní znázorníme rozmístění zemí na ploše prvních dvou hlavních komponent: Na záložce Případy vybereme 2D graf fakt. Souřadnic příp. Projekce případů do faktorové roviny (1x2) Případy se součtem cos()A2 >= 0,00 cg co" cg cg o co 1—"—"—"—1 1—■—■—■—1 1—■—■—■—1 i—■—■—■—i 1—■—■—■—1 1—■—■—■—1 i—■—■—■—i i—■—■—■—i i—■—■—■—i i—■—■—■—i i—■—■—■— i—■—■—■— Maďarsko .,-----,.L o Vých škoslover o sko Po Isko Sověts c BulharsPo Rumunsko ý svaa q Rakousko Záp. (německo VelkáBntánié^ Lr CŠvjyWsHtálie5 Lancií? skô a Isko c Jugosl c ávie Tu řecko i ° Švédsko i NižozemsfeQnsko r~\ 1 "O o 1 1 1 1_I_■_■_1 1_i_i_i_1 i_i_i_i_i 1_1_1_1_1 1_■_■_■_1 i_■_■_■_i i_■_■_■_i i_■_■_■_i i_■_■_■_i i_■_■_■_i i_■_■_■_ 0 12 3 Faktor 1:38,52% Státy napravo jsou státy s vysokým podílem zemědělství. Vyniká zde zejména Turecko a Jugoslávie. Všechny státy obvykle považované za ekonomicky vyspělé jsou naopak na levé straně. Jsou to státy, kde je nižší podíl osob zaměstnaných v zemědělství, zato vyšší podíl osob pracujících ve službách. Je zde také hezky vidět zaměření zemí tehdejšího socialistického bloku na průmyslovou výrobu - horní část grafu. A naopak severské státy a státy Beneluxu orientované na finanční a další služby v dolní části. Provedení shlukové analýzy Statistiky - Vícerozměrné průzkumné techniky - Shluková analýza - Spojování (hierarchické shlukování) - OK - Proměnné XI až X4, OK, Detaily - Shlukovat případy (řádky) - Pravidlo slučování: Nevážený průměr skupin dvojic - Míry vzdálenosti: Euklidovské vzdálenosti - OK - Horizontální graf hierarch. stromu. Str. diagram pro 26 případů Nevážený průměr skupin dvojic Euklid. vzdálenosti I—.—.—.—.—|—.—.—.—.—,—.—-- Belgie Velká Británie „Dánsko Švédsko Nizozemsko Norsko Francie Finsko Itálie Lucembursko Rakousko Záp. N "§mecko Výcn. N"fmecko Švýcarsko Irsko Portugalsko Polsko Rumunsko Španělsko Bulharsko Maďarsko Československo Sovětský svaz Řecko Jugoslávie Turecko 0 10 15 20 25 30 35 40 45 Vzdálenost spoje Ukazuje se, že země se dělí do tří skupin: první skupinu tvoří rozvinuté demokratické země společně s NDR, druhou skupinu socialistické země s Irskem, Portugalskem a Španělskem a třetí Řecko s Jugoslávií. Turecko se chová jako singulární en- tita. Motivace: Matematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oborech lidské činnosti. Přitom se řídí principem statistické indukce, tj. na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží učinit závěry o vlastnostech tohoto rozložení. Ústředním pojmem matematické statistiky je tedy pojem náhodného výběru. Osnova: náhodný výběr z jednorozměrného a vícerozměrného rozložení statistika jako funkce náhodného výběru bodové a intervalové odhady parametrů a parametrických funkcí Definice náhodného výběru: a) Nechť X1? Xn jsou stochasticky nezávislé náhodné veličiny, které mají všechny stejné rozložení L(i3-). Řekneme, že Xi, Xn je náhodný výběr rozsahu n z rozložení L(i3-). (Číselné realizace Xi, xn náhodného výběru Xi? Xn uspořádané do sloupcového vektoru odpovídají datovému souboru zavedenému v popisné statistice.) b) Nechť (X^YO, (Xn,Yn) jsou stochasticky nezávislé dvourozměrné náhodné vektory, které mají všechny stejné dvourozměrné rozložení h2(ů). Řekneme, že (Xi,Yi), (Xn,Yn) je dvourozměrný náhodný výběr rozsahu n h2(ů). (Číselné realizace (x^y^, (xn,yn) náhodného výběru (X^Y^, (Xn,Yn) uspořádané do matice typu 2xn odpovídají dvourozměrnému datovému souboru zavedenému v popisné statistice.) c) Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z p-rozměrného rozložení Lp(i3-). Definice statistiky: Libovolná funkce T = T(X1? Xn) náhodného výběru X1? Xn (resp. T = T(Xi,Yi, Xn,Yn) náhodného výběru (Xi,Yi), (Xn,Yn)) se nazývá (výběrová) statistika. Definice důležitých statistik: a) Nechť Xi,Xn je náhodný výběr, n > 2. 1 11 2 1 n /- Onačme M = — Y x; ... výběrový průměr, S =-Y (x; - m)2 ... výběrový rozptyl, S = vS2 ... výběrová směrodatná odchylka Pro libovolné, ale pevně dané reálné číslo x je statistikou též hodnota výběrové distribuční funkce Fn(x) = — card{i;X; < x} n b) Nechť je dáno r > 2 stochasticky nezávislých náhodných výběrů o rozsazích ni > 2, ..., nr > 2. r Celkový rozsah je n = ^iij. j=i 2 2 ? Označme Mi, ..., Mr výběrové průměry a Si , ..., Sr výběrové rozptyly jednotlivých výběrů. Nechť ci, ..., cr jsou reálné konstanty, aspoň jedna nenulová. ■ Zin,-*,2 cj^j • • • lineární kombinace výběrových průměrů, s«2 = —-... váž< >zptylů. j=i n -r c) Nechť (Xi,Yi), (Xn,Yn) je náhodný výběr z dvourozměrného rozložení o rozsahu n. Označme M, =— Yx;, M2 =— Yy; výběrové průměry, =-Y(x; -Mj2, s22 =-Y(y; -M2)2 výběrové rozptyly. 1 - í^-proS^^O S12 =-X (Xí ~ Mi )(Yí ~ M2) • • • výběrová kovariance, Ri2 = ] ^1^2 ... výběrový koeficient korelace. n"Ul [o jinak Pro libovolnou, ale pevně zvolenou dvojici reálných čísel x,y je statistikou též hodnota výběrové simultánní distribuční funkce Fn(x,y) =— card{i;X; /970,85 Mezi náhodnými veličinami X a Y existuje silná nepřímá lineární závislost. Čím starší auto, tím nižší cena. Bodové a intervalové odhady parametru a parametrických funkcí Vycházíme z náhodného výběru Xi, Xn z rozložení L(#), které závisí na parametru ů. Množinu všech přípustných hodnot tohoto parametru označíme S. Tato množina se nazývá parametrický prostor. Např. je-li Xi, Xn náhodný výběr z rozložení N(u.,c2), pak ů = (p.,02) a v tomto prípade parametrický prostor S = (— oo5oo)x ^0,00) . Parametr ů neznáme a chceme ho odhadnout pomocí daného náhodného výběru (prípadne chceme odhadnout nějakou p rametrickou funkci h($)). Bodovým odhadem parametrické funkce h(ů) je statistika Tn = T(Xi, Xn), která nabývá hodnot blízkých h(ů), ať je hodnota parametru ů jakákoliv. Existují různé metody, jak konstruovat bodové odhady (např. metoda momentů či metoda maximální věrohodnosti, ale těmi se zde zabývat nebudeme) a také různé typy bodových odhadů. Omezíme se na odhady nestranné, asymptoticky nestranné a konzistentní. Intervalovým odhadem parametrické funkce h(ů) rozumíme interval (D, H), jehož meze jsou statistiky D = D(Xi, Xn), H = H(Xi, Xn) a který s dostatečně velkou pravděpodobností pokrývá h(ů), ať je hodnota parametru ů jakákoliv. Typy bodových odhadů Nechť Xi, Xn je náhodný výběr z rozložení L(ů), h(ů) je parametrická funkce, T, Tl5 T2, ... jsou statistiky. a) Řekneme, že statistika T je nestranným odhadem parametrické funkce h($), jestliže VůeZ: E(T) = h(ů). (Význam nestrannosti spočívá v tom, že odhad T nesmí parametrickou funkci h(ů) systematicky nadhodnocovat ani podhodnocovat. Není-li tato podmínka splněna, jde o vychýlený odhad.) b) Jsou-li Ti, T2 nestranné odhady téže parametrické funkce h(#), pak řekneme, že Ti je lepší odhad než T2, jestliže V-ôeS: D(Ti) 0: lim P(ÍTn - h(ů)\ > e) = 0. (Význam konzistence spočívá v tom, že s rostoucím rozsahem výběru klesá pravděpodobnost, že odhad se bude realizovat „daleko" od parametrické funkce h(ů).) Lze dokázat, že z nestrannosti odhadu vyplývá jeho asymptotická nestrannost a z asymptotické nestrannosti vyplývá konzistence, pokud posloupnost rozptylů odhadu konverguje k nule. Vlastnosti důležitých statistik a) Případ jednoho náhodného výběru: Nechť X1?Xnje náhodný výběr z rozložení se střední hodnotou li, rozptylem o a distribuční funkcí 2. Označme Mn výběrový průměr, Sn výběrový rozptyl a pro libovolné, ale pevně dané x G R označme Fn(x) hodnotu výběrové distribuční funkce. Pak pro libovolné hodnoty parametrů li , o2 a libovolné, ale pevně dané reálné číslo x platí: E(Mn) = li, D(Mn) = ^, E(Sn2) = a2, D(Sn2) = — _a (n kde y4 je 4. centrální moment, n n(n-l) E(Fn(x)) = 2 stochasticky nezávislých náhodných výběrů: Nechť Xn,...,Xln , Xrl,...,Xm je r stochasticky nezávislých náhodných výběrů o rozsazích n! > 2, nr > 2 z rozložení se středními hodnotami Lir a rozptylem o2. Celkový rozsah r je n = ^iij. Nechť Ci, cr jsou reálné konstanty, aspoň jedna nenulová. Pak pro libovolné hodnoty parametrů ..., Lir a o H platí: f r ECiMi =IĽ,LlM V -H J H E(S* ) = o . r Znamená to, že lineární kombinace výběrových průměrů ^c^M^ je nestranným odhadem lineární kombinace středních hod- H not ^cjl^j a vážený průměr výběrových rozptylů Sa j=i 2 _ H n -r 2 je nestranným odhadem rozptylu o c) Případ jednoho náhodného výběru z dvourozměrného rozložení: Nechť (X^Y^, (Xn,Yn) je náhodný výběr z dvourozměrného rozložení s kovariancí cl2 a koeficientem korelace p. Pak pro libovolné hodnoty parametrů cl2 a p platí: E(Si2) = a i2, E(R12) ~ p (shoda je vyhovující pro n > 30). Znamená to, že výběrová kovariance Si2 je nestranným odhadem kovariance oi2, avšak výběrový koeficient korelace Ri2 je vychýleným odhadem koeficientu korelace p. Pojem intervalu spolehlivosti Nechť Xl5 Xn je náhodný výběr z rozložení L(ů), h(#)je parametrická funkce, M0,1), D = D(Xi, Xq), H = H(Xi, Xn) jsou statistiky. a) Interval (D, H) se nazývá 100(l-a)% (oboustranný) interval spolehlivosti pro parametrickou funkci h(ů), jestliže: v^e «:P(D < h(ů) < H) > 1-a. b) Interval (D, ao) se nazývá 100(l-a)% levostranný interval spolehlivosti pro parametrickou funkci h(ů), jestliže:v^e S:P(D < h(#)) > 1-a. c) Interval (-ao, H) se nazývá 100(l-a)% pravostranný interval spolehlivosti pro parametrickou funkci h(ů), jestliže: v#e s :P(h(#) < H) > 1-a. Číslo a se nazývá riziko (zpravidla a = 0,05, méně často 0,1 či 0,01), číslo 1 - a se nazývá spolehlivost. Postup při konstrukci intervalu spolehlivosti a) Vyjdeme ze statistiky V, která je nestranným bodovým odhadem parametrické funkce h(ů). b) Najdeme tzv. pivotovou statistiku W, která vznikne transformací statistiky V, je monotónní funkcí h(-ť3) a přitom její roz ložení je známé a na h(-ť3) nezávisí. Pomocí známého rozložení pivotové statistiky W najdeme kvantily w^, wi-o/2, takže platí: VůeZ: P(Wo/2 < W < wj.^) > 1 - a. c) Nerovnost < W < Wi.^ převedeme ekvivalentními úpravami na nerovnost D < h(ů) < H. d) Statistiky D, H nahradíme jejich číselnými realizacemi d, h a získáme tak 100(1 -a)% empirický interval spolehlivosti, o němž prohlásíme, že pokrývá h(ů) s pravděpodobností aspoň 1 - a. (Tvrzení, že (d,h) pokrývá h(ů) s pravděpodobností aspoň 1 - a je třeba chápat takto: jestliže mnohonásobně nezávisle získáme realizace x1?xn náhodného výběru X1? Xn z rozložení L(ů) a. pomocí každé této realizace sestrojíme 100(1 -a)% empirický interval spolehlivosti pro h(ů), pak podíl počtu těch intervalů, které pokrývají h(ů) k počtu všech sestrojených intervalů bude přibližně 1 - a.) Ilustrace: Jestliže lOOx nezávisle na sobě uskutečníme náhodný výběr z rozložení se střední hodnotou li a pokaždé sestrojíme 95% empirický interval spolehlivosti pro li, pak přibližně v 95-ti případech bude ležet parametr li v intervalech spolehlivosti a asi v 5-ti případech interval spolehlivosti li nepokryje. )z Volba oboustranného, levostranného, nebo pravostranného intervalu závisí na konkrétní situaci. Např. oboustranný interval spolehlivosti použije konstruktér, kterého zajímá dolní i horní hranice pro skutečnou délku li nějaké součástky. Levostranný interval spolehlivosti použije výkupčí drahých kovů, který potřebuje znát dolní mez pro skutečný obsah zlata li v kupovaném slitku. Pravostranný interval spolehlivosti použije chemik, který potřebuje znát horní mez pro obsah nečistot li v analyzovaném vzorku. Příklad: Nechť Xl5Xn je náhodný výběr z rozložení N(u.,o2), kde n > 2 a rozptyl o2 známe. Sestrojte 100(l-a)% interval spolehlivosti pro neznámou střední hodnotu fi. Řešení: V tomto případě parametrická funkce h(ů) = \i. Nestranným odhadem střední hodnoty je výběrový průměr M = 1 ^ n ;= 2]X; . Protože M je lineární kombinací normálně rozložených náhodných veličin, bude mít také normální rozložení se í=i střední hodnotou E(M) = fi a rozptylem D(M) = —. Pivotovou statistikou W bude standardizovaná náhodná veličina n u = m-U_ ^N(0?1) a Kvantil Wo/2 = = -Ui-o/2, Wi.^ = ui. a/2- VŮG S : 1 - tt < PC-Ui.a/2 < U < Ui.a/2) = P Ul-a/2 < m-(i a < u l-a/2 M--^Ul-a/2 <(^, m + -= u j_ V Vn Dosadíme-li do vzorců pro dolní a horní mez číselnou realizaci m výběrového průměru M, dostaneme 100(l-a)% empirický interval spolehlivosti. Postup si ukážeme na následujícím numerickém příkladu. Příklad: 10 krát nezávisle na sobě byla změřena jistá konstanta li. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Výsledky považujeme za číselné realizace náhodného výběru Xi, Xi0 z rozložení N(li, a2), kde li neznáme a a2 = 0,04. Najděte 95% empirický interval spolehlivosti pro li, a to a) oboustranný, b) levostranný, c) pravostranný. Řešení: Vypočteme realizaci výběrového průměru: m = 2,06. Riziko a je 0,05. V tabulkách najdeme kvantil u0,975 = 1,96 pro oboustranný interval spolehlivosti a kvantil u0,95 = 1,64 pro jednostranné intervaly spolehlivosti. ad a) d = m —= Ui-a/2 = 2,06 0,2 VIĎ 1,96 = 1,94 h = m + ui-ofc = 2,06 + -^L 1,96 = 2,18 Vn VlO 1,94 < li< 2,18 s pravděpodobností aspoň 0,95. ad b) d = m —= Ui_a = 2,06 Vn 0,2 Vl(J 1,64 = 1,96 1,96 < li s pravděpodobností aspoň 0,95. ad c) h = m + Ul.a = 2,06 + -^L 1,64 = 2,16 Vn VlO li< 2,16 s pravděpodobností aspoň 0,95. Šířka intervalu spolehlivosti Nechť (d, h) je 100(l-a)% empirický interval spolehlivosti pro h(ů) zkonstruovaný pomocí číselných realizací xl9xn náhodného výběru X1?Xn z rozložení L($). a) Při konstantním riziku klesá šířka h-d s rostoucím rozsahem náhodného výběru. b) Při konstantním rozsahu náhodného výběru klesá šířka h-d s rostoucím rizikem. Ilustrace ad a) Grafické znázornění závislosti dolních a horních meze 95% empirických intervalů spolehlivosti pro střední hodnotu normálního rozložení při známém rozptylu na rozsahu náhodného výběru: 0 10 20 30 40 50 SO 70 80 90 Šířka intervalu spolehlivosti klesá se zvětšujícím se rozsahem náhodného výběru, zprvu rychle a pak stále pomaleji, ad b) Grafické znázornění závislosti dolních a horních mezí 100(l-a)% empirických intervalů spolehlivosti pro střední hodnotu normálního rozložení při známém rozptylu a konstantním rozsahu výběru na riziku: Vidíme, že šířka intervalu spolehlivosti s rostoucím rizikem klesá. Příklad: (stanovení minimálního rozsahu výběru z normálního rozložení) Nechť X1? Xn je náhodný výběr z N(u., o2), kde o2 známe. Jaký musí být minimální rozsah výběru n, aby šířka 100(l-a)% empirického intervalu spolehlivosti pro střední hodnotu fi nepřesáhla číslo A? Řešení: Požadujeme, aby A > h - d = m + -=u1_a/2 -(m--i=u1_a/2) =-=Uj_a/2. Z této podmínky dostaneme, že n > . Za rozsah výběru zvolíme nejmenší přirozené číslo vyhovující této podmínce. Příklad: Hloubka moře se měří přístrojem, jehož systematická chyba je nulová a náhodné chyby měření mají normální rozložení se směrodatnou odchylkou o = 1 m. Kolik měření je nutno provést, aby se hloubka stanovila s chybou nejvýše + 0,25 m při spolehlivosti 0,95? Řešení: Hledáme rozsah výběru tak, aby šířka 95% intervalu spolehlivosti pro střední hodnotu \i nepřesáhla 0,5 m. Přitom o známe. Z předešlého příkladu vyplývá, že n > 4°2Ui-a/22 4-1,96' 0,5 2 - 61,4656. Nejmenší počet měření je tedy 62. Základní pojmy matematické statistiky II Osnova: Základní typy uspořádání pokusů - jednoduché pozorování - dvojné pozorování - mnohonásobné pozorování Úvod do testování hypotéz - nulová a alternativní hypotéza - chyba 1. a 2. druhu - testování pomocí kritického oboru - testování pomocí intervalu spolehlivosti - testování pomocí p-hodnoty Testování normality - Kolmogorovův - Smirnovův test a jeho Lilieforsova varianta - Shapirův - Wilkův test - srovnání S-W testu a Lilieforsova testu pomocí simulačních studií Základní typy uspořádání pokusů Metody matematické statistiky často slouží k vyhodnocování výsledků pokusů. Aby mohl být pokus správně vyhodnocen, musí být dobře naplánován. Uvedeme zde nejjednodušší typy uspořádání pokusů. Předpokládejme například, že sledujeme hmotnostní přírůstky selat téhož plemene při různých výkrmných dietách. a) Jednoduché pozorování: Náhodná veličina X je pozorována za týchž podmínek. Situace je charakterizována jedním náhodným výběrem Xi, Xn. Náhodně vylosujeme n selat téhož plemene, podrobíme je jediné výkrmné dietě a zjistíme u každého selete hmotnostní přírůstek. Tím dostaneme realizaci jednoho náhodného výběru. b) Dvojné pozorování: Náhodná veličina X je pozorována za dvojích různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu. Dvouvýběrové porovnávání: situace je charakterizována dvěma nezávislými náhodnými výběry Xn,.. .,Xln a X21,...,X2ll2. Náhodně vylosujeme ni a n2 selat téhož plemene, náhodně je rozdělíme na dva soubory o ni a n2 jedincích, první podrobíme výkrmné dietě č. 1 a druhý výkrmné dietě číslo 2. Tak dostaneme realizace dvou nezávislých náhodných výběrů. Párové porovnávání: situace je charakterizována jedním náhodným výběrem (Xx l, X12),..., (Xnl, Xn2) z dvourozměrného rozložení. Přejdeme k rozdílovému náhodnému výběru Z* = Xn - Xi2, i = 1, ..., n a tím dostaneme jednoduché pozorování. Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme dva sourozence a náhodně jim přiřadíme první a druhou výkrmnou dietu. Tak dostaneme realizaci jednoho dvourozměrného náhodného výběru, kde první složka odpovídá první dietě a druhá složka druhé dietě. (Párové porovnávání je efektivnější, protože skutečný rozdíl v účinnosti obou diet je překrýván pouze náhodnými vlivy při samotném krmení a trvání, kdežto vliv různých dědičných vloh, který byl losováním znáhodněn, je u sourozeneckého páru selat částečně vyloučen.) c) Mnohonásobné pozorování: Náhodná veličina X je pozorována za r > 3 různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu. Mnohovýběrové porovnávání: situace je charakterizována r nezávislými náhodnými výběry Xu,..., Xln až Xrl,..., Xrn Náhodně vylosujeme n:, n2, ..., nr selat téhož plemene, náhodně je rozdělíme na r souborů o n:, n2, ..., nr jedincích, první podrobíme výkrmné dietě č. 1, druhý výkrmné dietě číslo 2 atd. až r-tý podrobíme výkrmné dietě číslo r. Tak dostaneme rea lizace r nezávislých náhodných výběrů. Blokové porovnávání: situace je charakterizována jedním náhodným výběrem (Xn,..., Xlr),..., (Xnl,..., Xnr) rozměrného rozložení. Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme r sourozenců a náhodně jim přiřadíme první až r-tou výkrmnou dietu. Tak dostaneme realizaci jednoho r-rozměrného náhodného výběru, kde první složka odpovídá první dietě , druhá složka druhé dietě atd. až r-tá složka odpovídá r-té dietě. z r- Motivace: Častým úkolem statistika je na základě dat ověřit předpoklady o parametrech nebo typu rozložení, z něhož pochází náhodný výběr. Takovému předpokladu se říká nulová hypotéza. Nulová hypotéza vyjadřuje nějaký teoretický předpoklad, často skeptického rázu a uživatel ji musí stanovit předem, bez přihlédnutí k datovému souboru. Proti nulové hypotéze stavíme alternativní hypotézu, která říká, co platí, když neplatí nulová hypotéza. Alternativní hypotéza je formulována tak, aby mohla platit jenom jedna z těchto dvou hypotéz. Pravdivost alternativní hypotézy by znamenala objevení nějakých nových skutečností, nebo zásadnější změnu v dosavadních představách. Např. výzkumník by chtěl na základě dat prověřit tezi (nový objev), že pasivní kouření škodí zdraví. Jako nulovou hypotézu tedy položí tvrzení, že pasivní kouření neškodí zdraví a proti nulové hypotéze postaví alternativní, že pasivní kouření škodí zdraví. Testováním hypotéz se myslí rozhodovací postup, který je založen na daném náhodném výběru a s jehož pomocí rozhodneme o zamítnutí či nezamítnutí nulové hypotézy. i Nulová a alternativní hypotéza Nechť Xi, Xn je náhodný výběr z rozložení L($), kde parametr ůe S neznáme. Nechť h(ů) je parametrická funkce a c daná reálná konstanta. a) Oboustranná alternativa: Tvrzení H0: h(-ô) = c se nazývá jednoduchá nulová hypotéza. Proti nulové hypotéze postavíme složenou oboustrannou alternativní hypotézu Hi: h(ů) * c. b) Levostranná alternativa: Tvrzení H0: h(ů) > c se nazývá složená pravostranná nulová hypotéza. Proti jednoduché nebo složené pravostranné nulové hypotéze postavíme složenou levostrannou alternativní hypotézu Hi: h(ů) < c. c) Pravostranná alternativa: Tvrzení H0: h(-d) < c se nazývá složená levostranná nulová hypotéza. Proti jednoduché nebo složené levostranné nulové hypotéze postavíme složenou pravostrannou alternativní hypotézu h(ů) > c. Testováním H0 proti Hi rozumíme rozhodovací postup založený na náhodném výběru Xi, Xn, s jehož pomocí zamítneme či nezamítneme platnost nulové hypotézy. Chyba 1. a 2. druhu Při testování H0 proti Hi se můžeme dopustit jedné ze dvou chyb: chyba 1. dr li spočívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Situaci přehledně znázorňuje tabulka: skutečnost rozhodnutí H0 nezamítáme H0 zamítáme H0 platí správné rozhodnutí chyba 1. druhu H0 neplatí chyba 2. druhu správné rozhodnutí Pravděpodobnost chyby 1. druhu se značí a a nazývá se hladina významnosti testu (většinou bývá a = 0,05, méně či 0,01). Pravděpodobnost chyby 2. druhu se značí p\ Číslo 1-P se nazývá síla testu a vyjadřuje pravděpodobnost, H0 zamítnuta za předpokladu, že neplatí. Obvykle se snažíme, aby síla testu byla aspoň 0,8. Obě hodnoty, a i l-p\ velikosti efektu, který se snažíme detekovat. Čím drobnější efekt, tím musí být větší rozsah náhodného výběru. často 0,1 že bude závisí na skutečnost rozhodnutí zdravý nemocný jsem zdravý zdravý a neléčený zdravý a léčený jsem nemocný nemocný a neléčený nemocný a léčený Testování pomocí kritického oboru Najdeme statistiku T0 = T0(X!, Xn), kterou nazveme testovým kritériem. Množina všech hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto dva obory jsou odděleny kritickými hodnotami (pro danou hladinu významnosti a je lze najít ve statistických tabulkách). Jestliže číselná realizace t0 testového kritéria T0 padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti a a znamená to skutečné vyvrácení testované hypotézy. Jestliže t0 padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští. Pravděpodobnosti chyb 1. a 2. druhu nyní zapíšeme takto: P(T0 e W/H0 platí) = a, P(T0 e V /Hi platí) = p. Stanovení kritického oboru pro danou hladinu významnosti a: Označme tmin (resp. tmax) nejmenší (resp. největší) hodnotu testového kritéria. Kritický obor v případě oboustranné alternativy má tvar W = (t^jj, Ka/2(T)) u (Kj a/2(T), tmax), kde Ko^CO a Ki^CO jsou kvantily rozložení, jímž se řídí testové kritérium T0, je-li nulová hypotéza pravdivá. Kritický obor v případě levo stranně alternativy má tvar: W= (tmin,Ka(T)). Kritický obor v případě pravostranné alternativy má tvar: W = (T),tmJ. Testování pomocí intervalu spolehlivosti Sestrojíme 100(l-a)% empirický interval spolehlivosti pro parametrickou funkci h(ů). Pokryje-li tento interval hodnotu c, pak H0 nezamítáme na hladině významnosti a, v opačném případě H0 zamítáme na hladině významnosti a. Pro test H0 proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti. h/0 Hei#HL<'í4mC Pro test H0 proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti. Pro test H0 proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti. p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je to riziko, že bude zamítnuta H0 za předpokladu, že platí (riziko planého poplachu). Jestliže p-hodnota < a, pak H0 zamítáme na hladině významnosti a, je-li p-hodnota > a, pak H0 nezamítáme na hladině významnosti a. Způsob výpočtu p-hodnoty: Pro oboustrannou alternativu p = 2 min{P(T0 < t0), P(T0 > to)}. Pro levostrannou alternativu p = P(T0 < t0). Pro pravostrannou alternativu p = P(T0 > t0). Ilustrace významu p-hodnoty pro test nulové hypotézy proti oboustranné, levostranné a pravostranné alternativě: p-hodnota i 0 t í (Zvonovitá křivka reprezentuje hustotu rozložení, kterým se řídí testové kritérium, je-li nulová hypotéza pravdivá.) p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace xl5 xn náhodného výběru Xl5 Xn podporují H0, je-li pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vyžaduje znalost distribuční funkce rozložení, kterým se řídí testové kritérium T0, je-li H0 pravdivá. Doporučený postup při testování hypotéz 1. Stanovíme nulovou hypotézu a alternativní hypotézu. Přitom je vhodné zvolit jako alternativní hypotézu ten předpoklad, jehož přijetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu. 2. Zvolíme hladinu významnosti a. Zpravidla volíme a = 0,05, méně často 0,1 nebo 0,01. 3. Najdeme vhodné testové kritérium a na základě zjištěných dat vypočítáme jeho realizaci. 4. a) Testujeme-li pomocí kritického oboru, pak ho stanovíme. Jestliže realizace testového kritéria padla do kritického oboru, nulovou hypotézu zamítáme na hladině významnosti a a přijímáme alternativní hypotézu. V opačném případě nulovou hypotézu nezamítáme na hladině významnosti a. b) Testujeme-li pomocí intervalu spolehlivosti, vypočteme empirický 100(l-a)% interval spolehlivosti pro parametrickou funkci h(ů). Pokud číslo c padne do tohoto intervalu, nulovou hypotézu nezamítáme na hladině významnosti a. V opačném případě nulovou hypotézu zamítáme na hladině významnosti a a přijímáme alternativní hypotézu. c) Testujeme-li pomocí p-hodnoty, vypočteme ji a porovnáme ji s hladinou významnosti a. Jestliže p < a, pak nulovou hypotézu zamítáme na hladině významnosti a a přijímáme alternativní hypotézu. Je-li p > a, pak nulovou hypotézu nezamítáme na hladině významnosti a. 5. Na základě rozhodnutí, které jsme učinili o nulové hypotéze, provedeme nějaké konkrétní opatření, např. seřídíme obráběcí stroj. (Při testování hypotéz musíme mít k dispozici odpovídající nástroje, nejlépe vhodný statistický software. Nemáme-li ho k dispozici, musíme znát příslušné vzorce. Dále potřebujeme statistické tabulky a kalkulačku.) Příklad: 10 x nezávisle na sobě byla změřena jistá konstanta li. Výsledky měření 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru X1? X10 z rozložení N(li, 0,04). Nějaká teorie tvrdí, že li = 1,95. 1. Oboustranná alternativa Proti nulové hypotéze H0: li = 1,95 postavíme oboustrannou alternativu Hi: li * 1,95. Na hladině významnosti 0,05 testujte H0 proti Hi všemi třemi popsanými způsoby. v Řešení: m= ^(2 + ... + 2,2) = 2,06, o2 =0,04, n = 10, a = 0,05, c = 1,95 a) Test provedeme pomocí kritického oboru. Pro úlohy o střední hodnotě normálního rozložení při známém rozptylu používáme pivotovou statistiku U = M^ ^ ~ N(0, 1). Testové kritérium tedy bude T0 = M^ c a bude mít rozložení N(0, 1), pokud je nulová hypotéza pravdivá. Vypočítáme realizaci testového kritéria: Vn to = 20a =1'74. Stanovíme kritický obor: lio (-oo-l,96)u(l,96,oo). Protože 1,74 £ W, H0 nezamítáme na hladině významnosti 0,05. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(l-a)% empirického intervalu spolehlivosti pro střední hodnotu li při známém rozptylu o2 jsou (d, h) = (m - -^L ui-o/2, m + Ui.^). Vn Vn V našem případě dostáváme: d = 2,06 - -^Íuo975 = 2,06 - -^í .1,96 = 1,936, ' VK) h = 2,06 + -^Íuo975 = 2,06 + -^L.1,96 = 2,184. VI0 ' VI0 Protože 1,95 e (1,936; 2,184), H0 nezamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty. Protože proti nulové hypotéze stavíme oboustrannou alternativu, použijeme vzorec p = 2 min{P(T0 < to), P(T0 > t0)} = 2 min {P(T0 < 1,74), P(T0 > 1,74)} = = 2 min { 0(1,74), 1 - 0(1,74) } = 2 min { 0,95907, 1 - 0,95907 } = 0,08186. Jelikož 0,08186 > 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Ilustrace významu p-hodnoty pro oboustranný test 0,45 0.40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0.00 -0,05 \ \ \ UUOIOD -1 74 1.74 -3,0 -2.5 -2,0 -1.5 -1.0 -0,5 0.0 0.5 1,0 1,5 2,0 2.5 3.0 2. Levostranná alternativa Proti nulové hypotéze H0: \i= 1,95 postavíme levostrannou alternativu Hi: fi< 1,95. Na hladině významnosti 0,05 testujte H0 proti Hi všemi třemi popsanými způsoby. v Řešení: a) Test provedeme pomocí kritického oboru. Na rozdíl od oboustranné alternativy bude mít kritický obor tvar W = (- oo, u „) = (- co, u ao5) = (- co -1,645). Protože 1,74 £ W, H0 nezamítáme na hladině významnosti 0,05. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(l-a)% empirického pravostranného intervalu spolehlivosti pro střední hodnotu fi při známém rozptylu o jsou (-oo, h) = (-oo, m + ui_o). Vn V našem případě dostáváme: h = 2,06 + -^Lu095 = 2,06 + ^= .1,645 = 2,164. vio ' vio Protože 1,95 e (-oo; 2,164), H0 nezamítáme na hladině významnosti 0,05. c) Test provedeme pomocí p-hodnoty. Protože proti nulové hypotéze stavíme levostrannou alternativu, použijeme vzorec p = p(T0 < t0) = 0,05, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Ilustrace významu p-hodnoty pro levostranný test 3. Pravostranná alternatíva Proti nulové hypotéze H0: \i= 1,95 postavíme pravostrannou alternativu Hi: (i > 1,95. Na hladině významnosti 0,05 testujte H0 proti Hi všemi třemi popsanými způsoby. v Řešení: a) Test provedeme pomocí kritického oboru. Na rozdíl od oboustranné alternativy bude mít kritický obor tvar W= (Ul_a,oo)=(Uo95,oo) = (1,645, co). Protože 1,74 e W, H0 zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy. b) Test provedeme pomocí intervalu spolehlivosti. Meze 100(l-a)% empirického levostranného intervalu spolehlivosti pro střední hodnotu fi při známém rozptylu o jsou (d, oo) = (m - ui_a, oo). Vn V našem případě dostáváme: d = 2,06 - -^u095 = 2,06 - ^= .1,645 = 1,956. V10 ' Vio Protože 1,95 £ (1,956, oo), H0 zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy. c) Test provedeme pomocí p-hodnoty. Protože proti nulové hypotéze stavíme pravostrannou alternativu, použijeme vzorec p = P(T0 > t0) = 1 - 0(1,74) = 1 - 0,95907 = 0,04093. Jelikož 0,04093 < 0,05, nulovou hypotézu zamítáme na hladině významnosti 0,05 ve prospěch pravostranné alternativy. Ilustrace významu p-hodnoty pro pravostranný test 0,45 0.40 0,35 0,30 0,25 0,20 0,15 0ľ10 0,05 0,00 -0.05 0 04093 1.74 -3.0 -2.5 -2,0 -1,5 -1,0 -0,5 0.0 0.5 1,0 1.5 2,0 2,5 3.0 Testy normality dat K ověřování normality dat slouží celá řada testů, které jsou podrobně popsány ve statistické literatuře. Zde se omezíme na dva testy, které jsou implementovány v systému STATISTICA, a to Kolmogorovův - Smirnovův test a jeho Lilieforsovu variantu a Shapirův - Wilksův test. K závěrům těchto testů však přistupujeme s určitou opatrností. Máme-li k dispozici rozsáhlejší datový soubor (orientačně n > 30) a test zamítne na obvyklé hladině významnosti 0,01 nebo 0,05 hypotézu o normalitě, i když vzhled diagnostických grafů svědčí jenom o lehkém porušení normality, nedopustíme se závažné chyby, pokud použijeme statistickou metodu založenou na normalitě dat. Kolmogorovův - Smirnovův test a jeho Lilieforsova varianta Testujeme hypotézu, která tvrdí, že náhodný výběr Xi, Xn pochází z normálního rozložení s parametry li a o2. Distribuční funkci tohoto rozložení označme
T (x)|. -oo Dn(a), kde Dn(a) je tabelovaná kritická hodnota. n 2 Pro n > 30 lze Dn(a) aproximovat výrazem —ln— . V 2n a V případě, že neznáme parametry li a o normálního rozložení, musíme je odhadnout z dat (střední hodnotu odhadneme pomocí m a rozptyl pomocí s ). Tím se změní rozložení testové statistiky Dn. Příslušné modifikované kvantily byly určeny pomocí simulačních studií. V této situaci používáme Lilieforsovu variantu Kolmogorovova - Smirnovova testu. Shapirův - Wilksův test normality dat Testujeme hypotézu, která tvrdí, že náhodný výběr Xb Xn pochází z normálního rozložení N(li, o2). Testová statistika má tvar: í>,'"K-,„-x<„]2 W = ^-, Z(X;-M)2 í=i kde m = n/2 pro n sudé a m = (n-l)/2 pro n liché. Koeficienty ai(n) jsou tabelovány. Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení. V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme na hladině významnosti a, když se na této hladině neprokáže korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1). Lze také říci, že S - W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od regresní přímky proložené těmito body. (S-W test se používá především pro výběry menších rozsahů, n < 50, ale v systému STATISTICA je implementováno jeho rozšíření i na výběry velkých rozsahů, kolem 2000.) Andersonův - Darlingův test Testujeme hypotézu, která tvrdí, že náhodný výběr X1? Xn pochází z normálního rozložení N(u, a2). Testová statistika má tvar: AD = — n Š(2i-1) ln4> + ln 1-$ i=l 'n+l-(i) J J n , kde X(i) jsou vzestupně uspořádané realizace náhodného výběru, O je distribuční funkce rozložení N(0,1). Hypotéza Hn se zamítá na hladině významnosti a, je-li vypočítaná hodnota testové statistiky AD větší než kritická hodnota D!_a. Pro velký rozsah výběru se přibližná 95% kritická hodnota počítá podle vzorce D0>95 = 1,0348 1 1,013 0,93 Příklad: Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí Lilieforsova testu, S-W testu a A - D testu testujte na hladině významnosti 0,05 hypotézu, že tato data pocházejí z normálního rozložení. Řešení: Vytvoříme nový datový soubor o jedné proměnné nazvané X a pěti případech. Do proměnné X zapíšeme uvedené hodnoty. Provedení Lilieforsova a S-W testu: V menu vybereme Statistiky - Základní statistiky /tabulky - Tabulky četností - OK, Proměnné X - OK. Na záložce zvolíme Normalita a zaškrtneme Lilieforsův test a Shapiro - Wilksův W test - Testy normality. Proměnná Testy normality (Tabulkal) N max D 1 Lilliefors 1 W p 1 P 1 1 X 5 0,224085 p>.20 0,912401 0,482151 Vidíme, že testová statistika K-S testuje d = 0,22409, odpovídající Lilieforsova p-hodnotaje větší než 0,2, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Testová statistika S-W testuje W = 0,9124, odpovídající p-hodnotaje 0,48215, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Provedení A - D testu: Statistiky - Rozdělení & simulace - proložení dat rozděleními - OK - Proměnné Spojité: X - na záložce Spojité proměnné ponecháme zaškrtnuté pouze Normální, na záložce Možnosti vybereme Anderson - Darling - OK - Souhrnné statistiky rozdělení. Souhrn rozdělení for Proměnná: x (Tabulka4 K-S d K-S p-hodn. AD stat. AD p-hodn. Chí-kvadrát Chí-kvadr. p-hodn. Chí-kvadr. SV Posun (práh/poloha) Normální (poloha,měřítko) 0,224085 0,915101 0,295219 0,940172 I Testová statistika A - D testuje 0,2952, odpovídající p-hodnotaje 0,9402, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Srovnání S-W testu, Lilieforsovy varianty K-S testu a A-D testu pomocí simulačních studií Simulační studie byly provedeny v bakalářské práci Marka Haičmana Simulace a testy normality. Odhad pravděpodobnosti chyby 1. druhu Bylo vygenerováno 100 000 náhodných výběrů z normálního rozložení, jejichž rozsahy se pohybovaly od 5 do 1000. Na tyto výběry byly aplikovány oba testy (s hladinou významnosti 0,05) a byla stanovena relativní četnost těch případů, kdy došlo k neoprávněnému zamítnutí pravdivé nulové hypotézy. Tato relativní četnost je považována za odhad pravděpodobnosti chyby 1. druhu. Závislost odhadu pravděpodobnosti chyby 1. druhu na rozsahu výběru (hodnoty na vodorovné ose jsou logaritmovány) Rozsah simulace: 100000 vyoeru; na hůdine významnosti 0,05 0.2 = 0.18 i 0.16 — £0.14 $ ij 0.12 w o 0.1 „0.08 ■o * 0.06 a. » 0.04 °0.02 0 — Lillietorsova varianta K-S testu — Andersenu v-Dartrnguv test —Shaíjiiuv-Wiikuv test * —~™— — ■ ■ / 10 10 Rozsah vyberu 10J Výsledek: Lileforsův test má pravděpodobnost chyby 1. druhu nezávislou na rozsahu výběru, udržuje se na 5 %. S-W test má do velikosti výběru 60 vyšší pravděpodobnost chyby 1. druhu, poté poklesne pod 5 % a již nevystoupí nad 5 %. Odhad pravděpodobnosti chyby 2. druhu Pro toto zkoumání byla vybrána následující rozložení: rovnoměrné spojité, exponenciální, logaritmicko - normální, Studentovo s jedním, třemi a pěti stupni volnosti. Pro každé z těchto rozložení bylo vygenerováno 100 000 náhodných výběrů o rozsazích 5 až 1 000. Při aplikaci všech tří testů byla zjišťována relativní četnost těch případů, kdy test nezamítl nepravdivou nulovou hypotézu. Tato relativní četnost je považována za odhad pravděpodobnosti chyby 2. druhu. Lustrace pro rovnoměrné spojité rozložení a exponenciální rozložení: závislost odhadu pravděpodobnosti chyby 2. druhu na rozsahu výběru (hodnoty na vodorovné ose jsou logaritmovány) Rozsan simulace: 100000 vyberu: na hladine významnosti 0.05 Rozsah simulace: 1DD000 vyberu: na hladine významnosti 0.05 ■LBlleforsova varianta K-3 testu - Andersonuv-Oaninguv test -Siwruv-ywhuv test_ i a 0.9 š 0 Ô '0-7- 0 6 ■ 101 Rozsah vybeiu 10J 0.5 D-4 0,3 Q 2 C i 0 .....- Lillieforsova vaiianla K-S testu —Andersonuv-Oarlinguif lest - - -Shapinjv-WHi(uv test Ví - : \ _ ■ Ns. v. : \ 10' 10J Rozsah vyberu 10 Výsledek: Lilieforsův test a A-D test nejméně chybují u velmi malých výběrů, orientačně do 10 prvků. S-W test a A-D test se pro výběry větších rozsahů (nad 60) vesměs nedopouštějí chyby. K chybám však dochází i pro velmi rozsáhlé výběry ze Studentova rozložení. Stanovení hranice 20 % odhadu pravděpodobnosti chyby 2. druhu Zde byl hledán rozsah výběru z rovnoměrného, exponenciálního, logaritmicko - normálního a Studentova rozložení tak, aby odhadu pravděpodobnosti chyby 2. druhu byl nanejvýš 20 %. Tabulka minimálních rozsahů výběrů, pro něž je odhad pravděpodobnosti chyby 2. druhu nejvýše 20 %: Test normality Nonn Rovno. Expo. Logn. Stud(l) Stud(3) Stud(5) A uder son-Darling — 72 21 15 16 87 247 Lílliefors 143 32 21 18 121 377 Shapiro- Wilk — 65 22 17 19 89 221 Výsledek: S-W test a A-D test je možno použít na výběry menších rozsahů než Lilieforsův test. U výběrů, jejichž rozsah je menší než 15, nemá příliš smysl testovat hypotézu o normalitě, neboť pravděpodobnost chyby 2. druhuje příliš vysoká (nad 70 %). Parametrické úlohy o jednom náhodném výběru z normálního rozložení Motivace: K nejčastěji používaným statistickým metodám patří konstrukce intervalů spolehlivosti pro parametry normálního rozložení či testování hypotéz o těchto parametrech. Normální rozložení je charakterizováno dvěma parametry - střední hodnotou li a rozptylem a2. Budeme tedy řešit úlohy, které se týkají těchto dvou parametrů. K tomu slouží např. jednovýběrový z-test, t-test či test o rozptylu. Můžeme také mít k dispozici náhodný výběr z dvourozměrného rozložení s vektorem středních hodnot vl1 a naším úkolem bude posoudit rozdílnost středních hodnot lIj,li2 . K řešení tohoto problému slouží párový t-test. i) Osnova: - rozložení statistik odvozených z výběrového průměru a výběrového rozptylu - vzorce pro meze intervalů spolehlivosti pro střední hodnotu a rozptyl - jednotlivé typy testů pro parametry normálního rozložení (z-test, jednovýběrový t-test, test o rozptylu, párový t-test) Rozložení statistik odvozených z výběrového průměru a výběrového rozptylu Nechť Xi, Xn je náhodný výběr z rozložení N(li, g ). Pak platí a) M ~ N(li, —), tedy U = N(0, 1). n o Vn (Pivotová statistika U slouží k řešení úloh o li, když o2 známe.) b) K=5Í~xVl). g (Pivotová statistika K slouží k řešení úloh o g2, když li neznáme.) É(x,-n)2 c) ^---X2(n). g (Tato pivotová statistika slouží k řešení úloh o g2, když li známe.) d) T= ^-^~t(n-l). Vn (Pivotová statistika T slouží k řešení úloh o li, když g2 neznáme.) Vysvětlení ad a) Výběrový průměr M je lineární kombinace náhodných veličin s normálním rozložením, má tedy normální rozložení s parametry E(M) = \i, D(M) = o2/n. Statistika U se získá standardizací M. ad b) Vhodnou úpravou výběrového rozptylu S2, kde použijeme obrat X{ - M = (Xi - \i) - (M - u), lze statistiku K vyjádřit jako součet kvadrátů n - 1 stochasticky nezávislých náhodných veličin se standardizovaným normálním rozložením. Tento součet se řídí rozložením x2(n-l). ad c) Tato statistika je součet kvadrátů n stochasticky nezávislých náhodných veličin se standardizovaným normálním rozložením, řídí se tedy rozložením %(n). ad d) U ~ N(0, 1), K ~ % (n-1) jsou stochasticky nezávislé, protože M a S jsou stochasticky nezávislé, tudíž statistika U _ M-(i T = IJL n-1 ~t(n-l). Vn Příklad: Hmotnost balíčku krystalového cukru baleného na automatické lince se řídí normálním rozložením se střední hodnotou 1002 g a směrodatnou odchylkou 8 g. Kontrolor náhodně vybírá 9 balíčků z jedné série a zjišťuje, zda jejich průměrná hmotnost je alespoň 999 g. Pokud ne, podnik musí zaplatit pokutu 20 000 Kč. Jaká je pravděpodobnost, že podnik bude muset zaplatit pokutu? v Řešení: X ~ N(1002, 64), M ~ NÍl002,-^l f P(M<999) = P M-1002< 999-1002 -9 = P U<-- =4> — =l-d - =l-cí>(l,125) = 1-0,87076 = 0,12924 Pravděpodobnost, že podnik bude platit pokutu, je asi 12,9%. Řešení pomocí systému STATISTIC A: Využijeme toho, že STATISTICA pomocí funkce INormal(x;mu;sigma) umí vypočítat hodnotu distribuční funkce normálního rozložení se střední hodnotou mu a směrodatnou odchylkou sigma. Tedy P(M < 999) = <í>(999), kde Oje distribuční funkce rozložení N(1002, 64/9). Otevřeme nový datový soubor o jedné proměnné a jednom případu. Dvakrát klikneme na název proměnné Proml. Do Dlou hého jména této proměnné napíšeme = INormal(999;1002;8/3). V proměnné Proml se objeví hodnota 0,130295. Vzorce pro meze 100(l-a)% empirických intervalů spolehlivosti pro \i a o a) Interval spolehlivosti pro li, když o známe (využití pivotové statistiky U) Oboustranný: (d, h) = (m - -^L Ui.^, m + Ui.^) Levostranný: (d, oo) = (m --^L Ui.a, oo) Vn Pravostranný: (-00, h) = (-00, m +-^= Ui_a) Vn b) Interval spolehlivosti pro li, když a2 neznáme (využití pivotové statistiky T) Oboustranný: (d, h) = (m - ti_a/2(n-l), m + -^= ti.a/2(n-l)) Vn Vn Levostranný: (d, 00) = (m - —j= ti_a(n-l), 00) Vn s Pravostranný: (-00, h) = (-00, m + —== ti_a(n-l)) Vn c) Interval spolehlivosti pro o , když li neznáme (využití pivotové statistiky K) Oboustranný: (d, h) = Levostranný: (d, oo) = (n-l)s2 (n-l)s2 ^ X2i-a/2(n-l) %2a/2(n-l) f Pravostranný: (-00, h) = (n-l)s2 - cx X2i-a(n-l)' (n-l)s 2 "\ X «(n-l) d) Interval spolehlivosti pro o , když li známe (využití pivotové statistiky — Oboustranný: (d, h) = f n n >\ ^(Xl-Ll)2 ^(Xl-Ll)2 i=l i=l X2i-a/2(n) X2«/2(n) v Levostranný: (d, 00) = f n >\ X2i-«(n) Pravostranný: (-00, h) = i=l X2«(n) Příklad: 10 krát nezávisle na sobě byla změřena jistá konstanta li. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Tyto výsledky považujeme za číselné realizace náhodného výběru Xl5 X10 z rozložení N(li, o2), kde parametry li, o2 neznáme. Najděte 95% empirický interval spolehlivosti jak pro li, tak pro o2 a to a) oboustranný, b) levostranný, c) pravostranný. Řešení: m = 2,06, s2 = 0,0404, s = 0,2011, a = 0,05, t0,975(9) = 2,2622, t0,95(9) = 1,8331, x2o,975(9) = 19,023, x2o,o25(9) = 2,7, X2o,95(9) = 16,919, x2o,o5(9) = 3,325 ad a) Oboustranný interval spolehlivosti pro střední hodnotu li d = m- 4= ti_ofc(n-l) = 2,06- ^2ii 2,2622 = 1,92 Vn VlO h = m + 4- ti.a/2(n-l) = 2,06 + 2,2622 = 2,20 Vn VlO 1,92 < < 2,20 s pravděpodobností aspoň 0,95. Oboustranný interval spolehlivosti pro rozptyl o d= /"-f ,-2^91.00191 X i-a/2(n-l) 19,023 h= (n-lV 9^04O4 = X2a/2(n-l) 2,7 0,0191 < o2 < 0,1347 s pravděpodobností aspoň 0,95. ad b) Levostranný interval spolehlivosti pro střední hodnotu li d = m- 4= ti_a(n-l) = 2,06- -9^1,8331 = 1,94 Vn VK) 1,94 < li s pravděpodobností aspoň 0,95. pro rozptyl o2 Levostranný interval spolehlivosti , (n-l)s2 9 0,0404 d - —„—j1—r---0,0215 X2i-a(n-l) 16,919 o2 > 0,0215 s pravděpodobností aspoň 0,95. ad c) Pravostrar h-mi. _JL t, j. 0,20 : 2,18 „ pro střední hodnotu li h = m + 4- ti_a(n-l) = 2,06 + 1,8331 = Vn VlO li< 2,18 s pravděpodobností aspoň 0,95. Pravostranný interval spolehlivosti pro rozptyl o (n-lV 0.0 0404 h_ (n-l)s2 _ 9 0,0404 ~X2«(n-l)~ 3,325 = 0,1094 o2 < 0,1094 s pravděpodobností aspoň 0,95. Řešení pomocí systému STATISTICA: Vytvoříme nový datový soubor o jedné proměnné X a 10 případech. Do proměnné X napíšeme dané hodnoty. Statistika - Základní statistiky a tabulky - Popisné statistiky - OK - Proměnné X - OK - Detailní výsledky - zaškrtneme Meze spolehl, prům. a Meze sp. směr. odch. (ostatní volby zrušíme) - pro oboustranný 95% interval spolehlivosti ponecháme implicitní hodnotu pro Interval 95,00, pro jednostranné intervaly změníme hodnotu na 90,00. Výsledky pro oboustranné 95% intervaly spolehlivosti pro střední hodnotu li, pro směrodatnou odchylku o a rozptyl o : | Proměnná Int. spolehl. Int. spolehl. -95,000% 95,000 1 1 Spolehlivost Sm.Odch. -95,000% Spolehlivost Sm.Odch. +95,000% NProml =v3A2 NProm2 =v4A2 x 1,916136 2,203864| 0,138329 0,367145 0,019135 0,134795 Vidíme, že 1,92 < jx < 2,20 s pravděpodobností aspoň 0,95, 0,1383 < o < 0,3671 s pravděpodobností aspoň 0,95. 0,0191 < o2 < 0,1348 s pravděpodobností aspoň 0,95. Výsledky )ro jednostranné 95% intervaly spolehlivosti pro střední hodnotu \i, pro směrodatnou odchylku o a rozptyl o | Proměnná Int. spolehl. -90,000% Int. spolehl. 90,000 Spolehlivost Spolehlivost Sm.Odch. Sm.Odch. -90,000% +90,000% NProml =v3A2 NProm2 =v4A2 x 1,943421 2,176579 0,146678 0,330862 0,021514 0,10947 Vidíme, že (i > 1,94 s pravděpodobností aspoň 0,95, (i < 2,20 s pravděpodobností aspoň 0,95, o > 0,1467 s pravděpodobností aspoň 0,95, o < 0,3309 s pravděpodobností aspoň 0,95, o2 > 0,0215 s pravděpodobností aspoň 0,95, o2 < 0,1095 s pravděpodobností aspoň 0,95, Jednotlivé typy testů pro parametry normálního rozložení 2 2 a) Nechť Xi,Xn je náhodný výběr N(jli, o ), kde o známe. Nechť n > 2 a c je konstanta. Test H0: li = c proti Hi: li *c se nazývá jednovýběrový z-test. 2 2 b) Nechť Xi,Xn je náhodný výběr N(jli, o ), kde o neznáme. Nechť n > 2 a c je konstanta. Test H0: li = c proti Hi: jli *c se nazývá j ednovýběrový t-test. c) Nechť X1?Xn je náhodný výběr N(jli, o ), kde jli neznáme. Nechť n > 2 a c je konstanta. 2 2 Test H0: o = c proti Hi: o * c se nazývá test o rozptylu. Provedení testů o parametrech p, o pomocí kritického oboru a) Provedení jedno výběrového z-testu _ m-c Vypočteme realizaci testového kritéria *o _ ~ . Stanovíme kritický obor W. Pokud t0 e W, H0 zamítáme na hladině Vn významnosti a a přijímáme Hi. Oboustranný test: Testujeme H0: p = c proti Hi: p * c. Kritický obor má tvar: W = (-°°,-ul_a/2) u(u^^,°°). Levostranný test: Testujeme H0: p = c proti Hi: p < c. Kritický obor má tvar: W = (- °°,- ux_a). Pravostranný test: Testujeme H0: p = c proti Hi: p > c. Kritický obor má tvar: W = (u^, °°). b) Provedení j ednovýběrového t-testu _ m-c Vypočteme realizaci testového kritéria *o _ ~ . Stanovíme kritický obor W. Pokud t0 e W, H0 zamítáme na hladině Vn významnosti a a přijímáme Hi. Oboustranný test: Testujeme H0: p = c proti Hi: p * c. Kritický obor má tvar: W = (- °°,-(n -1)) u (t^^ (n -1),oo) Levostranný test: Testujeme H0: p = c proti Hi: p < c. Kritický obor má tvar: W = (-°o,-1^ (n -1)). Pravostranný test: Testujeme H0: p = c proti Hi: p > c. Kritický obor má tvar: W = (t^ (n -1), oo) c) Provedení testu o rozptylu Vypočteme realizaci testového kritéria t0 významnosti a a přijímáme Hi. (n-l) . Stanovíme kritický obor W. Pokud to e W, H0 zamítáme na hladině Oboustranný test: Testujeme H0: a2 = c proti Hi: a2 ŕ c. Kritický obor má tvar:. W =(0,x2a/2(n-l))u(x21-a/2(n-l),oo) Levostranný test: Testujeme H0: a2 = c proti Hi: a2 < c. Kritický obor má tvar: W = ^0,%2a (n -1)^. Pravostranný test: Testujeme H0: a2 = c proti Hi: a2 > c. Kritický obor má tvar: W = (%2i-«(n -1),°°). Příklad: Podle údajů na obalu čokolády by její čistá hmotnost měla být 125 g. Výrobce dostal několik stížností od kupujících, ve kterých tvrdili, že hmotnost čokolád je nižší než deklarovaných 125 g. Z tohoto důvodu oddělení kontroly náhodně vybralo 50 čokolád a zjistilo, že jejich průměrná hmotnost je 122 g a směrodatná odchylka 8,6 g. Za předpokladu, že hmotnost čokolád se řídí normálním rozložením, můžeme na hladině významnosti 0,01 považovat stížnosti kupujících za oprávněné? Řešení: Xl5X50 je náhodný výběr z N(li, o ). Testujeme hypotézu H0: li = 125 proti levostranné alternativě li< 125. Protože neznáme rozptyl o2, použijeme jedno výběrový t-test. m-c _ 122-125 _ Testové kritérium - 7T7 - -2,4667 s 8,6 Kritický obor W = (- oo, -1ľ_a (n -1)) = (- -10 99 (49)) = (-«>,- 2,4049). Jelikož testové kritérium se realizuje v kritickém oboru, zamítáme nulovou hypotézu na hladině významnosti 0,01. Stížnosti kupujících tedy lze považovat za oprávněné. Výpočet pomocí systému STATISTICA: Statistiky - Základní statistiky a tabulky - Testy rozdílů: r, %, průměry - OK - vybereme Rozdíl mezi dvěma průměry (normální rozdělení) - zaškrtneme Výběrový průměr vs. Střední hodnota a zvolíme jednostr. - do políčka Prl napíšeme 122, do políčka SmOdl napíšeme 8,6, do políčka NI napíšeme 50, do políčka Pr2 napíšeme 125 - Výpočet. Dostaneme p-hodnotu 0,0086, tedy zamítáme nulovou hypotézu na hladině významnosti 0,01 Náhodný výběr z dvourozměrného rozložení Nechť íx0 f x ^ n UJ" Y V 1n J je náhodný výběr z dvourozměrného rozložení, přičemž n > 2. Označíme li = Li! - li2 a zavedeme rozdílový náhodný výběr ZÍ = XÍ-YÍ, ... ,Zn = Xn-Yn, o němž předpokládáme, že se řídí normálním rozložením. Vypočteme M =-j^zi, S2 =-j^(zi -M)2. i=i n T i=i Vzorec pro meze 100(l-a)% empirického intervalu spolehlivosti pro střední hodnotu rozdílového náhodného výběru Oboustranný: (d, h) = (m - ti.a/2(n-l), m + ti_a/2(n-l)) Vn Vn Levostranný: (d, oo) = (m - -j= ti_a(n-l), oo) Vn Pravostranný: (-00, h) = (-00, m + -= ti.a(n-l)) Vn Příklad: Dvěma rozdílnými laboratorními metodami se zjišťoval obsah chemické látky v roztoku (v procentech). Bylo vybráno 5 vzorků a proměřeno oběma metodami. Výsledky měření jsou obsaženy v tabulce: číslo vzorku 1 2 3 4 5 1. metoda 2,3 1,9 2,1 2,4 2,6 2. metoda 2,4 2,0 2,0 2,3 2,5 Za předpokladu, že data mají normální rozložení, sestrojte 90% empirický interval spolehlivosti pro rozdíl středních hodnot výsledků obou metod. v Řešení: Přejdeme k rozdílovému náhodnému výběru, jehož realizace jsou:-0,1 -0,1 0,1 0,1 0,1. Vypočteme m = 0,02, s =0,012, s = 0,109545. Předpokládáme, že tato data pocházejí z normálního rozložení N(u., o2). Vypočteme meze 90% oboustranného intervalu spolehlivosti pro fi při neznámém o: s i i\ ™ 0,109545 ... 0,109545 „ 1010 d = m —= t!_„,2 (n -1) = 0,02 —'—=— 10 95 (4) = 0,02 ——=— 2,1318 = -0,0844 Vn V5 ' V5 h = m + t,_al2 (n -1) = 0,02 + Q,1Q^545 10 95 (4) = 0,02 + Q,1Q^545 2,1318 = 0,1244 Vn V5 ' V5 -0,0844 < (i< 0,1244 s pravděpodobností aspoň 0,9. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o 3 proměnných a 5 případech. Do 1. proměnné X napíšeme hodnoty pro 1. metodu, do 2. proměnné Y hodnoty pro 2. metodu a do 3. proměnné Z rozdíly mezi X a Y. Statistiky - Základní statistiky a tabulky - Popisné statistiky, OK - Proměnné Z, Detailní výsledky - zaškrtneme Meze spolehl. Prům. - Interval 90% - Výpočet. Dostaneme tabulku: Proměnná Popisné statistiky (chemická latka) | Int. spolehl. -90,000% Int. spolehl. 90,000 Z -0,084439 0,124439 Vidíme tedy, že -0,0844 < li< 0,1244 s pravděpodobností aspoň 0,9. Párový t-test Nechť ÍX1] f x ^ n , . . ., Y V n y je náhodný výběr z dvourozměrného rozložení, přičemž n > 2. Označíme li = Lij -li2 a zavedeme 1 a rozdílový náhodný výběr Zj =X! - Yj,...^ =Xn -Yn, jehož výběrový průměr jeM =— V Z; a výběrový rozptyl je n i=l 1 S2 =-T] (z - M)2. Předpokládáme, že tento náhodný výběr pochází z normálního rozložení. Test hypotézy o rozdílu středních hodnot Lij -li2 se nazývá párový t-test a provádí se stejně jako jednovýběrový t-test aplikovaný na rozdílový náhodný výběr Zj =xl-Yl,...,Zn =Xn -Yn. Provedení párového t-testu Vypočteme realizaci testového kritéria t0 významnosti a a přijímáme m-c s Vn Stanovíme kritický obor W. Pokud t0 e W, H0 zamítáme na hladině Oboustranný test: Testujeme H0: Li = cprotiHi: li *c. Kritický obor má tvar: W = (-oo,-t1_0[/2(n-l))u(t1_0[/2(n-l),oo). Levostranný test: Testujeme H0: li = c proti Hi: li< c. Kritický obor má tvar: W = (-00,-^(11-1)). Pravostranný test: Testujeme H0: li = c proti Hi: li > c. Kritický obor má tvar: W = (t1_a(n-l),oo). Přiklad: V následující tabulce jsou údaje o výnosnosti dosažené 12 náhodně vybranými firmami při investování do č.firmy 1 2 3 4 5 6 7 8 9 10 11 12 X 10 12 14 12 12 17 9 15 9 11 7 15 Y 11 14 15 11 13 16 10 13 11 17 9 19 (Výnosnost je vyjádřena v procentech a představuje podíl na zisku vložených investic za rok.) Za předpokladu, že data pocházejí z dvourozměrného rozložení a jejich rozdíl se řídí normálním rozložením, na hladině významnosti 0,1 testujte hypotézu, že neexistuje rozdíl mezi střední hodnotou výnosnosti investic do mezinárodního a domácího podnikání proti oboustranné alternativě. Testování proveďte a) pomocí intervalu spolehlivosti, b) pomocí kritického oboru. (Pro úsporu času známe realizace výběrového průměru m = -1,3 a výběrového rozptylu s2 = 4,78 rozdílového náhodného výběru Zi = Xi - YÍ5 i = 1, ..., 12.) v Řešení: Testujeme H0: li = 0 proti Hi: li ^ 0 ad a) 90% interval spolehlivosti pro střední hodnotu li při neznámém rozptylu o má meze: m- t0,95(n-!) = -!, 3-^1, VÍ2 7959 = -2,4677 7959 = -0,1989 h = m + -^t0 95 (n-l) = -l,3 + ^^l, _ Vn ' v 12 Protože číslo c = 0 neleží v intervalu (-2,4677; -0,1989), H0 zamítáme na hladině významnosti 0,1. ad b) Vypočítáme realizaci testové statistiky t0 = Stanovíme kritický obor W = (- m-c s -1,3 V4J8 VÍ2 = -2,11085 L0,95 (11)) u (t095 (11), oo) =(- oo, -1,7959) u (l,7959,oo) Protože testová statistika se realizuje v kritickém oboru, H0 zamítáme na hladině významnosti 0,1. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o 2 proměnných a 12 případech. Do 1. proměnné X napíšeme hodnoty pro mezinárodní podnikaní, do 2. proměnné hodnoty pro domácí podnikaní. Statistiky - Základní statistiky a tabulky - t-test pro závislé vzorky, OK - Proměnné X, Y - OK - Výpočet. Dostaneme tabulku: Proměnná t-test pro závislé vzorky (investováni) Označ, rozdíly jsou významné na hlad. p < ,05000 Průměr Sm.odch. N Rozdíl Sm.odch. t sv p rozdílu X 11,91667 2,937480 Y 13,25000 3,048845 12 -1,33333 2,188122 -2,11085 11 0,058490 Vypočtenou p-hodnotu 0,05849 porovnáme se zvolenou hladinou významnosti a = 0,1. Protože p < a, zamítáme nulovou hypotézu na hladině významnosti 0,1. Parametrické úlohy o dvou nezávislých náhodných výběrech z normálních rozložení Motivace: Máme-li k dispozici dva nezávislé náhodné výběry z normálních rozložení, je naším úkolem porovnat střední hodnoty či rozptyly těchto rozložení. Zpravidla konštruujeme intervaly spolehlivosti pro rozdíl středních hodnot respektive hodnotíme shodu středních hodnot pomocí dvouvýběrového t-testu či dvouvýběrového z-testu a shodu rozptylů pomocí F-testu. Osnova: - rozložení statistik odvozených ze dvou výběrových průměrů a rozptylů - vzorce pro meze intervalů spolehlivosti pro rozdíl středních hodnot a podíl rozptylů - jednotlivé typy testů pro parametry dvou normálních rozložení (dvouvýběrový z-test, dvouvýběrový t-test, F-test) - Cohenův koeficient věcného účinku Rozložení statistik odvozených z výběrových průměrů a výběrových rozptylů normálních rozložení Předpokládáme, že Xn,...,Xln je náhodný výběr z rozložení N(li1? Oi2), X21,...,X2n2 je náhodný výběr z rozložení N(li2, o22), přičemž n: > 2 a n2 > 2 a oba výběry jsou stochasticky nezávislé. Označme M1? M2 výběrové průměry, Si2, S22 výběrové rozptyly a (n.-VjS,2 +(n2-V)S22 S«2 =-~- vážený průměr výběrových rozptylů. n. ^ ~\~ n. ^ " Pak platí: a) Statistiky Mi - M2 a S*2 jsou stochasticky nezávislé. b) U = _ (M,-M2)-((!,-(!,) ^ 2 2 fgl , g2 ni n2 N(0, 1). 2 2 (Pivotová statistika U slouží k řešení úloh o \ii - li2, když Oi a o2 známe.) 2 _2 . _2 T, _ (n1+n -2)S. _ x2(ni + ^ _ 2)> c) Jestliže oi = o2 =: o , pak K = (Pivotová statistika K slouží k řešení úloh o neznámém společném rozptylu a .) d) Jestliže oi = o2 =: o , pak T = _ (M, -M2)-([i, -li2) Vni n2 ~t(ni + n2 -2). 2 2 (Pivotová statistika T slouží k řešení úloh o Ui - li2, když oi a o2 neznáme, ale víme, že jsou shodné.) e) F=-^4 ~F(ni-l,n2-l). a, /o2 (Pivotová statistika F slouží k řešení úloh o Oi / o2 .) Vysvětlení: ad a) Neuvádíme, viz např. J. Anděl: Matematická statistika, ad b) Mi - M2 je lineární kombinace náhodných veličin s normálním rozložením, má tedy normální rozložení s parametry E(Mi - M2) = Lir li2, D(M: - M2) = ai 2/n: + o2 2/n2. U se získá standardizací Mi - M2. ad c) K: = ——j—*— - X2(ni - 1) a K2 = ——~ l(n2 ~ 1) jsou stochasticky nezávislé náhodné veličiny, tedy a a K = K1 + K2~X2(ni + n2 -2). ad d) U = ——^' Ji2) ~ N(o, 1), K = (ni + n2^ 2)s* _ + n2 _ 2) jsou stochasticky nezávislé, protože M: - M2 a S*2jsou stochasticky nezávislé. T = U = (Mi M^ ki=Jh) „ ^ + Yl2_ 2y I K __. / 1 1 S* — + ■ rij + n2 - 2 v rij n2 ad e) Ki = —!—j—*— ~ %(ni - 1) a K2 = —2—r~X2(n2 - 1) jsou stochasticky nezávislé náhodné veličiny, tedy n.-l c 2 /c 2 „ ii,-! 5/5 F-lET=^V~F(ni-l,n2-l). _ 2 , 2 Příklad: Nechť jsou dány dva nezávislé náhodné výběry, první pochází z rozložení N(0,28; 0,09) a má rozsah 16, druhý pochází z rozložení N(0,25; 0,04) a má rozsah 25. Jaká je pravděpodobnost, že výběrový průměr 1. výběru bude větší než výběrový průměr 2. výběru? Řešení: P(Mj >M2) = P(Mj-M2 >0) = 1-P(M!-M2<0) = 1-P (M, -M2)-((i1 -|i2) ^ O-Clí! -|i2) Í2 2 °1 , o2 2 2 [Ol , g2 ni n2 ni n2 J = 1-P u< -0,28 + 0,25 /0,09 0,04 ' - + - = 1 - P(U < -0,35294) = 1 - O(-0,35) = 0(0,35) = 0,63683 V 16 25 . S pravděpodobností přibližně 63,7% je výběrový průměr 1. výběru větší než výběrový průměr 2. výběru. Výpočet pomocí systému STATISTICA: Statistika Mi - M2 se podle bodu (a) řídí rozložením N(li: - li2, 2 2 °1 °2 n n. ), o,2 o 2 0,09 0,04 kde Li: - li2 = 0,28 - 0,25 = 0,03, ~^ + ^~ = ~^ + ^T = 0,007225, tj. statistika M: - M2 ~ N(0,03;0,007225). ni n2 16 25 Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména této proměnné napíšeme = l-INormal(0;0,03;sqrt(0,007225)). V proměnné Proml se objeví hodnota 0,637934: I 1 Proml 1 0,637934 Intervaly spolehlivosti pro parametrické funkce jlli - \i2, Oi2/o2 Uvedeme přehled vzorců pro meze 100(l-a)% empirických intervalů spolehlivosti pro parametrické funkce jiti - jli2 , Ci7 <52 a) Interval spolehlivosti pro \í\-\í2, když Oi2 o22 známe (využití pivotové statistiky U) Oboustranný: (d, h) = (m: - m2 - j—+ ^- Ui.^, m: - m2 + J—+ ^- Ui.^) la 2 a 2 Levostranný: (d, oo) = (mi - m2 - — + —2- Ui.a, oo) ni n2 p a 2 a 2 Pravostranný: (-oo, h) = (-oo,mi - m2 + J^—+ —^- Ui.a) b) Interval spolehlivosti pro Ui-|u2, když cl o2 neznáme, ale víme, že jsou shodné (využití pivotové statistiky T) Oboustranný: (d, h) = (mi - m2 - s. J—+ —t1.a/2(n1+n2-2), m: - m2 +s« J—+ —t1.a/2(n1+n2-2)) n, n. n, n~ Levostranný: (d, oo) = (ni! - m2 -s„ /—+ —ti.a(n1+n2-2), oo) Vn, n, Pravostranný: (-oo, h) = (-oo, mi - m2 + s„ i— + — ti.a(n1+n2-2)) Vn, n, c) Interval spolehlivosti pro společný neznámý rozptyl o (využití pivotové statistiky K) Oboustranný: (d, h) = Levostranný: (d, oo) = f 2 2 \ (n1 + n2 - 2)s* (n1 + n2 - 2)s* v%2i-a/2 (nj + n2 - 2)' %2a/2 (nj + n2 - 2) (rij + n2 - 2)s* Pravostranný: (-oo, h) = Xi-«(ni +n2 -2) (rij + n2 - 2)s* J 2 \ %«(!!! +n2 -2) d) Interval spolehlivosti pro podíl rozptylů (využití pivotové statistiky F) f Oboustranný: (d, h) = 2 , 2 Si /s2 2,2 ~\ Si /s2 Levostranný: (d, oo) = _Fl-a/2(nl -!'n2 "I) Fa/2(nl -!'n2 f 2,2 Sl /s2 Fl-a(nl -!'n2 "I) Pravostranný: (-oo, h) = řidl Upc 2/2 ^ Fa(ni -!'n2 -1) Není-li v bodě (b) splněn předpoklad o shodě rozptylů, lze sestrojit aspoň přibližný 100(l-a)% interval spolehlivosti pro li!-li2. (si2/^ +s22/n2)2 V tomto případě má statistika T přibližně rozložení t(v), kde počet stupňů volnosti v = V ll_ (Sl2/nl)2 | (S22/n2)' Není-li nj-1 n2-l číslo, použijeme v tabulkách kvantilů Studentova rozložení lineární interpolaci. Příklad: Ve dvou nádržích se zkoumal obsah chlóru (v g/l). Z první nádrže bylo odebráno 25 vzorků, z druhé nádrže 10 vzorků. Byly vypočteny realizace výběrových průměrů a rozptylů: mi = 34,48, m2 = 35,59, Si2 = 1,7482, s22 = 1,7121. Hodnoty zjištěné z odebraných vzorků považujeme za realizace dvou nezávislých náhodných výběrů z rozložení N(ui, o2) N(li2, o2). Sestrojte 95% empirický interval spolehlivosti pro rozdíl středních hodnot u-i - li2. Řešení: Úloha vede na vzorec (b) s využitím statistiky T. Vypočteme vážený průměr výběrových rozptylů a najdeme odpovídající kvantily Studentova rozložení: , (n,-l)s:2+(n2-l)s22 24-1,7482 + 9-1,7121 s,2= 1 _% =-:-~-:-= V7384, t0,975(33) = 2,035 Dosadíme do vzorců pro dolní a horní mez intervalu spolehlivosti: d = mi-m2-s* — + — ti.o/2(ni+n2-2) = Vni n2 34,48-35,59 - A7384 • ^ + ^ • 2,035 = -2,114 , 1 1 h = mi-m2+s* — + — ti_a/2(ni+n2-2) = ni n2 -2,114 g/l < u-i - u-2 < -0,106 g/l s pravděpodobností aspoň 0,95. 34,48-35,59 + VL7384 • ^ + '2'035 = 106 Výpočet pomocí systému STATISTIC A: Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme ^^^^^^^^^^^^^^^^)^^qrt(a/25>^^ Do Dlouhého jména proměnné h napíšeme =34,48-35,59+ sqrt((24* 1,7482+9* 1,7121 )/33)*sqrt(( l/25)+( 1/10))* VStudent(0,975 [ 1 d 2 h -2,11368i -0,10632 S pravděpodobností aspoň 0,95 tedy -2,114 g/l < [ii - li2 < -0,106 g/l. Příklad: V předešlém příkladě nyní předpokládáme, že dané dva náhodné výběry pocházejí z rozložení N(u-i, Oi2) a N(p2, o22). Sestrojte 95% empirický interval spolehlivosti pro podíl rozptylů. Řešení: Úloha vede na vzorec (d) s využitím statistiky F. S!2/s22 1,7482/1,7121 1,7482/1,7121 d = h- = 0,28 F,a/2(ni-l,n2-l) F0975(24,9) 3,6142 s^/s,2 1,7482/1,7121 1,7482/1,7121 1,7482/1,7121 Fa/2(ni-l,n2-l) F0025(24,9) 1/F0975(9,24) 1/2,7027 2 0,28 < —^-r < 2,76 s pravděpodobností aspoň 0,95. = 2,76 [ Výpočet pomocí systému STATISTIC A: Otevřeme nový datový soubor o dvou proměnných d a h a jednom případu. Do Dlouhého jména proměnné d napíšeme =(1,7482/1,7121)/VF(0,975;24;9) (Funkce VF(x;ný;omega) počítá x-kvantil Fisherova - Snedecorova rozložení F(ný, omega).) Do Dlouhého jména proměnné h napíšeme =(1,7482/1,7121)/VF(0,025;24;9) 2 h 0,282521 2,759698 S pravděpodobností aspoň 0,95 tedy platí: 0,28 < oi / o2 < 2,76. Jednotlivé typy testů o parametrických funkcích li: - li2, oi /o2 a) Nechť Xu,..., Xln je náhodný výběr z rozložení N(ui, d2) a X21,..., X2nj je na něm nezávislý náhodný výběr z rozložení N(li2, a2 ), přičemž ni > 2, n2 > 2 a ai2, a22 známe. Nechť c je konstanta Test H0: Ui - li2 = c proti Hi: Ui - li2 ^c se nazývá dvouvýběrový z-test. b) Nechť Xu,..., Xln je náhodný výběr z rozložení N(li1? o2) a X21,..., X2nj je na něm nezávislý náhodný výběr z rozložení N(li2, a ), přičemž nx > 2 a n2 > 2 a o2 neznáme. Nechť c je konstanta. Test H0: |ii - |i2 = c proti Hi: Li! - li2 ^c se nazývá dvouvýběrový t-test. c) Nechť Xu,..., Xln je náhodný výběr z rozložení N(ui, oi2) a X21,..., X2n je na něm nezávislý náhodný výběr rozlože- 2 Oi ní N(li2, a2 ), přičemž ni > 2 a n2 > 2. Test H0: -1 = 1 proti Hi: * 1 se nazývá F-test. Provedení testů o parametrických funkcích - li2, oi2/o2 2 pomocí kritického oboru a) Provedení dvouvýběrového z-testu (M^Mj-c Vypočteme realizaci t0 testového kritéria To hladině významnosti a a přijímáme H! 2 2 Gl , G2 . Stanovíme kritický obor W. Pokud t0 e W, H0 zamítáme na n Oboustranný test: Testujeme H0: Ui - li2 = c proti Hi: ui - li2 žc. Kritický obor má tvar: W = (-oo,-u1_a/2}u(u1_0,/2,o°). Levostranný test: Testujeme H0: Ui - li2 = c proti li: - li2 < c. Kritický obor má tvar: W = (- °°, - uľ_a) . Pravostranný test: Testujeme H0: li: - li2 = c proti Hi: u-i - li2 > c. Kritický obor má tvar: W = (u^, °°). b) Provedení dvouvýběrového t-testu _(M1-M2)-c Vypočteme realizaci t0 testového kritéria o rz — . Stanovíme kritický obor W. Pokud t0 e W, H0 zamítáme na 1 1 — + — «1 «2 hladině významnosti a a přijímáme Hi. Oboustranný test: Testujeme H0: Ui - li2 = c proti li: - li2 žc. Kritický obor má tvar: W = (- °°, -1^/2 (nt + n2 - 2)) u (t^/2 (nt + n2 - 2),«.). Levostranný test: Testujeme H0: Ui - li2 = c proti li: - li2 < c. Kritický obor má tvar: W = (-o°,-t1_cx(n1 +n2 -2)) Pravostranný test: Testujeme H0: u-i - li2 = c proti Hi: \ii - li2 > c. Kritický obor má tvar: W = (t^ (nl + n2 - 2),°°) _ c) Provedení F-testu Vypočteme realizaci testového kritéria 2 . Stanovíme kritický obor W. Pokud t0 e W, H0 zamítáme na hladině S2 významnosti a a přijímáme Hi. Oboustranný test: Testujeme H0: ^— - 1 proti Hi: ^— * 1. Kritický obor má tvar: W = (0,Fa/2(ni -l,n2 -l))u(F1_a/2(n1 -l,n2 -l),oo). Levostranný test: Testujeme H0: -^y = 1 proti Hi: -^y < 1. Kritický obor má tvar: W = (0,Fot(n1 -l,n2 -l)). 1. Kritický obor má tvar: W = (F1_ot(n1 -l,n2 -l),oo)# Příklad: V restauraci "U bílého koníčka" měřili ve 20 případech čas obsluhy zákazníka. Výsledky v minutách: 6, 8, 11, 4, 7, 6, 10, 6, 9, 8, 5, 12, 13, 10, 9, 8, 7, 11, 10, 5. V restauraci "Zlatý lev" bylo dané pozorování uskutečněno v 15 případech s těmito výsledky: 9, 11, 10, 7, 6, 4, 8, 13, 5, 15, 8, 5, 6, 8 ,7. Za předpokladu, že uvedené hodnoty pocházejí ze dvou normálních rozložení, na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty doby obsluhy jsou v obou restauracích stejné. v Řešení: Na hladině významnosti 0,05 testujeme nulovou hypotézu H0: jlii - li2 = 0 proti oboustranné alternativě Hi: jiii - jli2 ^0. Je to úloha na dvouvýběrový t-test. Před provedením tohoto testu je však nutné pomocí F-testu ověřit shodu rozptylů. Na hladině a 2 a 2 významnosti 0,05 tedy testujeme H0: = 1 proti Hi: 2 2 ^ 1. Nejprve vypočteme mi = 8,25, m2 = 8,13, Si = 6,307, s2 = 9,41, s,2 = (nx -l)Sl2 + (n2 -l)s2 19• 6,307 +14 • 9,41 rij + n2 33 = 7,623. Podle vzorce (c) vypočteme realizaci testové statistiky: t0 = 6,307 s22 9,41 = 0,6702. Stanovíme kritický obor: W = (0,^(^-1,^-1))^^ - (0,1 / F0 975 (14,19)) u (F0 975 (19,14), oo) = (0,1 / 2,649) u (2,8607 -) = (0;0,3778) u (2,8607,») Protože se testová statistika nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Rozptyly tedy můžeme považovat za shodné. Nyní se vrátíme k dvouvýběrovému t-testu. Podle vzorce (b) vypočteme realizaci testové statistiky: 8,25-8,13 t0 = m, = 0,124. Stanovíme kritický obor: f, n2 V 20 15 W = (- oo, - tl_a/2 (ni + n2 - 2)) u (va/2 (ni + n2 - 2), oo) = (- oo, -10 975 (33)) u (t0>975 (33), oo) = (- oo, - 2,035) u (2,035 -) Protože testová statistika se nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o dvou proměnných a 35 případech. První proměnnou nazveme OBSLUHA, druhou ID. Do proměnné OBSLUHA napíšeme nejprve doby obsluhy v první restauraci a poté doby obsluhy ve druhé restauraci. Do proměnné ID, která slouží k rozlišení první a druhé restaurace, napíšeme 20 krát jedničku a 15 krát dvojku. Pomocí NP-grafu ověříme normalitu dat v obou skupinách. Grafy - 2D Grafy - Normální pravděpodobnostní grafy -zaškrtneme S-W test - Proměnné OBSLUHA, OK, Kategorizovaný - Kategorie X, zaškrtneme Zapnuto, Změnit proměnnou - ID, OK. Dostaneme graf Normální p-graf z obsluha; kategorizovaný id restaurace.sta 2v*35c 2,0 >0 1,5 1,0 2? 0,5 o "O £ 0,0 E 9 -0,5 -1,0 -1,5 -2,0 >o o c / ( —i-■-\-■-1-■-1-■-\-■-r~ c / c c o / cy y c > y / / ( 10 12 14 16 2 10 12 14 16 id: 1 obsluha: SW-W = 0,9715; p = 0,7871 id: 2 id: 2 obsluha: SW-W = 0,9345; p = 0,3185 orovaný kvantil V obou případech se tečky odchylují od přímky jenom málo a p-hodnoty S-W testu převyšují 0,05. Předpoklad o normálním rozložení dat v obou skupinách je oprávněný. Nyní provedeme dvouvýběrový t-test současně s testem o shodě rozptylů: Statistika - Základní statistiky a tabulky - t-test, nezávislé, dle skupin - OK, Proměnné -Závislé proměnné OBSLUHA, Grupovací proměnná ID - OK. Po kliknutí na tlačítko Souhrn dostaneme tabulku Proměnná t-testy; grupováno: ID (restaurace) Skup. 1:1 Skup. 2: 2 Průměr 1 Průměr 2 t sv P Poč.plat 1 Poč.plat. 2 Sm.odch. 1 Sm.odch. 2 F-poměr rozptyly P rozptyly OBSLUHA 8,250000 8,133333 0,123730 33 0,902279 20 15 2,510504 3,067495 1,492952 0,410440 Vidíme, že testová statistika pro test shody rozptylů se realizuje hodnotou 1,492952 (je to převrácená hodnota k číslu 0,6702, které jsme vypočítali při ručním postupu), odpovídající p-hodnota je 0,41044, tedy na hladině významnosti 0,05 nezamítáme hypotézu o shodě rozptylů. (Upozornění: v případě zamítnutí hypotézy o shodě rozptylů je zapotřebí v tabulce t-testu pro nezávislé vzorky dle skupin zaškrtnout volbu Test se samostatnými odhady rozptylu.) Dále z tabulky plyne, že testová statistika pro test shody středních hodnot se realizuje hodnotou 0,12373, počet stupňů volnosti je 33, odpovídající p-hodnota 0,902279, tedy hypotézu o shodě středních hodnot nezamítáme na hladině významnosti 0,05. Znamená to, že s rizikem omylu nejvýše 5% se neprokázal rozdíl ve středních hodnotách dob obsluhy v restauracích "U bílého koníčka" a „Zlatý lev". Tabulku ještě doplníme krabicovými diagramy. Na záložce Detaily zaškrtneme krabicový graf a vybereme volbu Průměr/S mOdch/Min-Max. Krabicový graf z obsluha seskupený id restaurace, sta 2v*35c □ Průměr □ Průměr±SmOdch I Min-Max o Odlehlé * Extrémy Z grafu je vidět, že průměrná doba obsluhy v první restauraci je nepatrně delší a má menší variabilitu než ve druhé restauraci. Extrémní ani odlehlé hodnoty se zde nevyskytují. Upozornění: V případě, že známe realizace obou výběrových průměrů a směrodatných odchylek, můžeme pro provedení dvouvýběrového t-testu v systému STATISTICA použít aplikaci Tesy rozdílů. Postup si ukážeme na příkaldě s dobou obsluhy ve dvou restauracích Statistiky - Základní statistiky a tabulky - Testy rozdílů: r, %, průměry - OK - vybereme Rozdíl mezi dvěma průměry (normální rozdělení) - do políčka Prl napíšeme 8,25, do políčka SmOdl napíšeme 2,5105, do políčka NI napíšeme 20, do políčka Prl napíšeme 8,25, do políčka SmOdl napíšeme 3,0675, do políčka NI napíšeme 15 - Výpočet. Dostaneme p-hodnotu 0,9023, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Tl-lxl fťsty rozdílů: r, průměry: řMtatiracejfca T Poslat/tisknout výsledky každ výpo&u do akrra protokolu Rozdíl mezí dvěma koielačními kcelidenly r L.._ Storro Í |oroo 0,00 lij 10 1 p:1JQQ00 ľ" Jedností Dbouslr. Yjpočei Rozdíl mezi dvěma piůměsy (noimální tozdéleni] Prl: 8,25 [8J333 MZ:|l5 I- Výběrový průměr vs. slřednf hodnot* í~ Jednostr. ^ Qboustr Rozdíl mezi dvěma pmněry Pl- .5QQQ0 1 Pfr .50000 10 v p:lj0000 Jednosti. & Dbousli, Výpočet Nepovinná část: Cohenův koeficient věcného účinku - doplnění významu dvouvýběrového t-testu: Nechť Xu,...,Xln je náhodný výběr z rozložení N(li15 o2) a X21,...,X2ll2 je na něm nezávislý náhodný výběr rozložení 2 2 N(li2, o ), přičemž n!>2an2>2ao neznáme. Nechť c je konstanta. Testujeme H0: u-i - li2 = c proti Hi: - li2 ^c. Označme mi, m2 realizace výběrových průměrů hodnot dané veličiny - - - (»i -l)si2 +(n2 -l)s:2 v těchto dvou skupinách, Si , s2 realizace výběrových rozptylů a s* - »i +n2 realizaci váženého průměru výběrových rozptylů. Cohenův koeficient d vypočteme podle vzorce: d = Fl -m2 S ^ Tento koeficient slouží k posouzení velikosti rozdílu průměrů, který je standardizován pomocí odmocniny z váženého prů měru výběrových rozptylů. Jedná se o tzv. věcnou významnost neboli velikost účinku skupiny na variabilitu hodnot sledované náhodné veličiny. Velikost účinku hodnotíme podle následující tabulky: Hodnota d účinek aspoň 0,8 velký mezi 0,5 až 0,8 střední mezi 0,2 až 0,5 malý pod 0,2 zanedbatelný (Uvedené hodnoty nemají samozřejmě absolutní platnost, posouzení, jaký účinek považujeme za velký či malý, závisí na kontextu.) Je zapotřebí si uvědomit, že při dostatečně velkých rozsazích náhodných výběrů i malý rozdíl ve výběrových průměrech způsobí zamítnutí nulové hypotézy na hladině významnosti a, i když z věcného hlediska tak malý rozdíl nemá význam. Naopak, máme-li výběry malých rozsahů, pak i značně velký rozdíl ve výběrových průměrech nemusí vést k zamítnutí nulové hypotézy na hladině významnosti a. Příklad: Máme k dispozici údaje o celkovém IQ 856 žáků ZŠ. Zajímáme se jednak o skupinu dětí, jejichž oba rodiče mají pouze základní vzdělání (je jich 296) a jednak o skupinu dětí, jejichž oba rodiče mají vysokoškolské vzdělání (těch je 75). Na hladině významnosti 0,05 budeme testovat hypotézu, že střední hodnota celkového IQ je v obou skupinách stejná a také vypočteme Cohenův koeficient věcného účinku. v Rešení:Normalitu dat v obou skupinách posoudíme pomocí N-P plotu: 50 70 90 110 130 150 50 70 90 110 130 150 60 80 100 120 140 60 80 100 120 140 Vzhled N- P plotů v obou skupinách podporuje domněnku o normalitě dat. í Proměnná t-testy; grupováno:ZS a VS (IQ) Skup. 1: oba ZŠ Skup. 2: oba VŠ Průměr oba ZŠ Průměr obaVŠ t sv P Poč.plat oba ZŠ Poč.plat. obaVŠ Sm.odch. oba ZŠ Sm.odch. I F-poměr I p oba VŠ I Rozptyly I Rozptyly IQ CELK 94,13851 110,9067 -10,6295| 369 0,000000 296 75 11,82604| 13,60164| 1,322829| 0,110124 Hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05, protože odpovídající p-hodnota je velmi blízká 0 (hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05, p-hodnota F-testu je 0,110124, což je větší než 0,05). Vidíme, že průměrné celkové IQ dětí v 1. skupině je 94,1, zatímco ve 2. skupině 110,9. Vliv skupiny na variabilitu hodnot celkového IQ posoudíme pomocí Cohenova koeficientu. 2 n2 3 4 m1 m.2 5 s1 6 7 s2 d 1 1 296 75 94,13851 110,9067 11,82604 13,60164 1,374117 Cohenův koeficient nabývá hodnoty 1,37, tudíž vliv skupiny na variabilitu hodnot celkového IQ lze považovat za velký. Parametrické úlohy o jednom a dvou výběrech z alternativního rozložení Osnova: Případ jednoho náhodného výběru - asymptotické rozložení statistiky odvozené z výběrového průměru alternativního rozložení - vzorec pro meze intervalu spolehlivosti pro parametr alternativního rozložení - testování hypotézy o parametru alternativního rozložení Případ dvou nezávislých náhodných výběrů - asymptotické rozložení statistiky odvozené z výběrových průměrů dvou nezávislých alternativních rozložení - vzorec pro meze intervalu spolehlivosti pro rozdíl parametrů dvou alternativních rouložení - testování hypotézy o rozdílu parametrů dvou alternativních rozložení Případ jednoho náhodného výběru: S náhodným výběrem rozsahu n z alternativního rozložení se setkáváme v situaci, kdy provádíme n opakovaných nezávislých pokusů a v každém z těchto pokusů sledujeme nastoupení úspěchu. Pravděpodobnost úspěchu je pro všechny pokusy stejná. Náhodná veličina Xt nabude hodnoty 1, pokud v i-tém pokusu nastal úspěch a hodnoty 0, pokud v i-tém pokusu úspěch nenastal, i = 1,2, ..., n. Realizací náhodného výběru Xl5 ..., Xn je tedy posloupnost 0a 1. Opakování: Alternativní rozložení: Náhodná veličina X udává počet úspěchů v jednom pokusu, přičemž pravděpodobnost úspěchu je ů. Píšeme X~A(ů). l-ůpro x = 0 7l(x) = < i3pro x = 1 0 jinak Binomické rozložení: Náhodná veličina X udává počet úspěchů v posloupnosti n nezávislých opakovaných pokusů přičemž pravděpodobnost úspěchu je v každém pokusu ů. Píšeme X ~ Bi(n, ů). neboli ttwJ^1"^^0-1 I 0 jinak ůx(l-ů)n~x prox = 0,...,n 7l(x) = < 0 jinak E(X) = nfl,D(X) = nfl (l-ů) (Alternativní rozložení je speciálním případem binomického rozložení pro n = 1. Jsou-li Xi, Xn stochasticky nezávislé náhodné veličiny, Xt ~ A(ů), i = 1, n, pak X = ~ Bi(n, ů).) Centrální limitní věta: Jsou-li náhodné veličiny Xi, ..., Xn stochasticky nezávislé a všechny mají stejné rozložení se střední hodnotou li n a rozptylem o2, pak pro velká n (n > 30) lze rozložení součtu ^] aproximovat normálním rozložením N(nLi, no2). i=l Zkráceně píšeme XXi « N(mi,no2). i=l SX,-nu Pokud součet ^] Xi standardizujeme, tj. vytvoříme náhodnou veličinu Un = — j= ? pak rozložení této náhodné veli i=i CTVn činy lze aproximovat standardizovaným normálním rozložením. Zkráceně píšeme Un ~ N(0,1) Normální rozložení je tedy rozložením limitním, k němuž se blíží všechna rozložení, proto hraje velmi důležitou roli v počtu pravděpodobnosti a matematické statistice. Ilustrace centrální limitní věty - opakované hody kostkou 464 Asymptotické rozložení statistiky odvozené z výběrového průměru Nechť Xi, Xn je náhodný výběr z rozložení A(ů) a nechť je splněna podmínka nd(l-i3) > 9 Pak statistika U = íů{l-ů) konverguje v distribuci k náhodné veličině se standardizovaným normálním rozložením. (Říkáme, že U má asymptoticky rozložení N(0,1) a píšeme U ~ N(0,1).) Vysvětlení: n Protože X1? Xn je náhodný výběr z rozložení A($), bude mít statistika Yn = (výběrový úhrn) rozložení Bi(n, ů). i=l Yn má střední hodnotu E(Yn) = nů a rozptyl D(Yn) = ird(l-i3). Podle centrální limitní věty se standardizovaná statistika Y —nů U = , 11, —r asymptoticky řídí standardizovaným normálním rozložením N(0,1). Pokud čitatele i jmenovatele podělíme n, dostaneme vyjádření: U Y. -ů 1 n n i=l M-ů rô(l--ô) jů{l-ů) jů{l-ů) »N(0,l) Vzorec pro meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametr ů. Meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametr ů jsou: d = m- m(l-m) u1_a/2,h = m + . m(l-m) ll-a/2 ' Vysvětlení: Pokud rozptyl d(m) = ——— nahradíme odhadem ——, konvergence náhodné veličiny U k veličině s rozložením N(0,1) se neporuší. Tedy \/ůe S :l-oc

9: parametr $ neznáme, musíme ho nahradit výběrovým průměrem. Pak 100.0,34.0,66 = 22,44 > 9. d = 0,34 - 034(1-0,34) = = 0,34(1-0,34) = V íoo v ioo S pravděpodobností přibližně 0,95 tedy 0,2472 < ů < 0,4328. Znamená to, že s pravděpodobností přibližně 95% je v uvažované populaci nejméně 24,7% a nejvíce 43,3% osob, které nakupují v internetových obchodech. Výpočet pomocí systému STATISTICA: Použijeme modul Analýza sily testu Statistiky - Analýza sily testu - Odhad intervalu - Jeden podíl, Z, Chĺ-kvadrát test - OK - Pozorovaný podíl p: 0,34, Velikost vzorku: 100, Spolehlivost: 0,95 - Vypočítat. Dostaneme tabulku: Hodnota Podíl vzorku p 0,3400 Velikost vz. ve skup. (N) 100,0000 Interval spolehlivosti 0,9500 Meze spolehlivosti: Pí (přesně): Dolní mez 0,2482 Horní mez 0,4415 Pí (přibližně): Dolní mez 0,2501 Horní mez 0,4423 Pí (původ.): Dolní mez 0,2472 Horní mez 0,4328 Zajímá nás výsledek uvedený v dolní části tabulky, tj. Pí (původ.). Zjišťujeme, že s pravděpodobností aspoň 0,95 se pravděpodobnost nákupu v internetových obchodech bude pohybovat v mezích 0,2472 až 0,4328. Příklad: Kolik osob musíme vybrat, abychom podíl modrookých osob v populaci odhadli se spolehlivostí 90% a šířka intervalu spolehlivosti byla nanejvýš a) 0,06, b) 0,01? v Řešení: Šířka 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametr ů: , , Im(l-m) h - d = m +J—---u f l-a/2 n m(l-m) m-J-Ul-a/2 v V n , _ m(l-m) •y n Ul-a/2 Požadujeme, aby h - d < A, tedy 2Jm^ m^Ui_a/2 ^ A. Odtud vyjádříme n > —m^Ul a'2 Předpokládejme, že nemáme žádné předběžné informace o podílu modrookých osob v populaci. Musíme tedy zvolit takové m, aby šířka intervalu spolehlivosti byla maximální. Maximalizujeme výraz m(l — m) = m — m2. Derivujeme podle m a položíme rovno 0: 1 - 2m = 0 => m = ^ .V tomto případě volíme relativní četnost m = 0,5. ad a) n>4m(l-mV,.„„' =4.Q,5.Q,5.u,M' = 4.0,5.0,5.1,645-- A2 0,062 0,062 Uvedenou podmínku tedy splníme, když vybereme aspoň 752 osob. adb) n>Ml-m)w =4.(tf-05.uM' = 4.0,5-0.5.1.645' A2 0,012 0,012 Chceme-li dosáhnout podstatně užšího intervalu spolehlivosti, musíme vybrat aspoň 27 061 osob. Modifikace: Předpokládejme, že v populaci je nanejvýš 30% modrookých osob. Pak relativní četnost m = 0,3. ada) nž4m(l-m>W =4 0.3.0.7^,,/- = 4.0,3-0.7■ 1.645^ A2 0,062 0,062 V tomto případě stačí vybrat 632 osob. Ve srovnání s předešlým případem vidíme, že rozsah výběru skutečně klesl. ad b) n^4m(l-m)u1_a/22 _4-0,3-0,7-u0,952 _ 4-0,3-0,7-1,6452 _22?3()61 A2 0,012 0,012 V tomto případě musíme vybrat aspoň 22 731 osob. Testování hypotézy o parametru ů Nechť Xi,Xn je náhodný výběr z rozložení A(ů) a nechť je splněna podmínka nvXl-13) >9. Na asymptotické hladině významnosti a testujeme hypotézu H0: ů = c proti alternativě Hi: ů f c (resp. Hi: ů< c resp. Hi: ů > c). Testovým kritériem j e statistika T0 =- M-c ca-c) , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). n Kritický obor má tvar w=(-°o-Ul^/2)u(Ul^/2,°o) (resp. w=(-oo-Ul^) resp. w=(u^,oo)). (Testování hypotézy o parametru ů lze samozřejmě provést i pomocí 100(l-a)% asymptotického intervalu spolehlivosti nebo pomocí p-hodnoty.) Příklad: Podíl zmetků při výrobě určité součástky činí ů = 0,01. Bylo náhodně vybráno 1000 výrobků a zjistilo se, že mezi nimi je 16 zmetků. Na asymptotické hladině významnosti 0,05 testujte hypotézu H0: l3" = 0,01 proti oboustranné alternativě Hi: Ů ^ 0,01. Řešení: Zavedeme náhodné veličiny Xi, Xiooo, přičemž X; = 1, když i-tý výrobek byl zmetek a X; = 0 jinak, i = 1, 1000. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A(i3). Testujeme hypotézu Ho: ů = 0,01 proti alternativě Hi: ů ^ 0,01. Známe: n = 1000, m = - 0,016 , c = 0,01, a = 0,05, ui.a/2 = u0,975 = 1,96 Ověření podmínky nů{l -ů) > 9 : 1000.0,01.0,99 = 9,9 > 9. a) Testování pomocí kritického oboru: Realizace testového kritéria: t0 = , ™~C = 0fl6~m = 1,907 . c-(l-c) 10,01-0,99 V n V 1000 Kritický obor: W = (-°°,-u0 975)u^u0 975,oo) = (--1,96) u(l,96,°°). Protože 1,907 £ W, H0 nezamítáme na asymptotické hladině významnosti 0,05. b) Testování pomocí intervalu spolehlivosti m(l-m) nMr 0,016■ 0,984, nr d = m-J—--u, _,, = 0,016-J—---1,96 = 0,0082 V n 1~an V 1000 m(l-m) nni, 0,016 0,984. n, AAOao h = m + ,—--u, „n =0,016 + ,—---1,96 = 0,0238 V n ^a>1 V 1000 Protože číslo c = 0,01 leží v intervalu 0,0082 až 0,0238, H0 nezamítáme na asymptotické hladině významnosti 0,05. c) Testování pomocí p-hodnoty Protože testujeme nulovou hypotézu proti oboustranné alternativě, vypočteme p-hodnotu podle vzorce: p = 2 min{ 0(1,907), 1-0(1,907) } = 2 min { 0,97104, 1 - 0,97104 } = 0,05792. Protože vypočtená p-hodnota je větší než hladina významnosti 0,05, Ho nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA a) Využití aplikace Testy rozdílů Statistiky - Základní statistiky a tabulky - Testy rozdílů: r, %, průměry - OK - vybereme Rozdíl mezi dvěma poměry - do políčka P 1 napíšeme 0,016, do políčka NI napíšeme 1000, do políčka P 2 napíšeme 0,01, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0626, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Testy rozdílů: r, %, průměry: Ta bullu 3 I- Pí3E|at/íisknaul výsfedky každ výpočtu do okna piotokolu Rozdíl íinezi dvěma korelačními koeficienty rl 0.00 ^ NI 10 i2: 0.00 1 N2F p; 1X1000 Oboustr. Rozdíl mezi dvěma průměry (mrrneW rozděleníl Ô! räSmOdliFT Tl-lxl Storno r Jedhostí. I Pr1 Pr2: [Ô- gSmDdřfT P Výběrový průměr vt středná hodnota g N1-|10 g p; 1,0000 f Jednt C Obousli Výpočet Rozdíl mezí dvěma pomery 01600 g N1 P1 1000 P 2: .01000 1 HZ 32767 p: ,0626 ^ Jedrwstr. ť1 Qbwstr. b) Využití modulu Analýza sily testu Statistiky - Analýza sily testu - Odhad intervalu - Jeden podíl, Z, Chĺ-kvadrát test - OK - Pozorovaný podíl p: 0,016, Velikost vzorku: 1000, Spolehlivost: 0,95 - Vypočítat. Dostaneme tabulku: Hodnota Podíl vzorku p 0,0160 Velikost vz. ve skup. (N) 1000,0000 Interval spolehlivosti 0,9500 Meze spolehlivosti: Pí (přesně): Dolní mez 0,0092 Horní mez 0,0259 Pí (přibližně): Dolní mez 0,0095 Horní mez 0,0264 Pí (původ.): Dolní mez 0,0082 Horní mez 0,0238 Zajímá nás výsledek uvedený v dolní části tabulky, tj. Pí (původ.). Zjišťujeme, že s pravděpodobností aspoň 0,95 se pravděpodobnost vyrobení zmetku bude pohybovat v mezích 0,00822 až 0,0238. Protože tento interval obsahuje číslo 0,01, nelze nulovou hypotézu zamítnout na asymptotické hladině významnosti 0,05. Příklad: Nový léčebný postup považujeme za úspěšný, pokud po jeho ukončení bude dosaženo zlepšení zdravotního stavu u alespoň 50% zúčastněných pacientů. Nová terapie byla vyzkoušena u 40 pacientů a ke zlepšení došlo u 24 osob, tj. u 60%. Je možné na asymptotické hladině významnosti 0,05 zamítnout hypotézu, že tato terapie nedosahuje úspěšnosti aspoň 50%? Řešení: Zavedeme náhodné veličiny X1?X40, přičemž Xi = 1, když terapie u i-tého pacienta byl úspěšná a Xi = 0 jinak, i = 1.....40. Tyto náhodné veličiny tvoří náhodný výběr z rozložení A(-r3). Testujeme hypotézu H0: ů < 0,5 proti pravostranné alternativě Hi: ů > 0,5. 24 Známe: n = 40, m = — = 0,6, c = 0,5, a = 0,05, Ui_a = u0,95 = 1,645 Ověření podmínky irô(l -ů) > 9: 40.0,6.0,4 = 9,6 > 9. Realizace testového kritéria: t0 = , m c x = °'5 = 1,2649. ■(l-c) 105-0,5 n V 40 Kritický obor: W = (u!_„,<*>) = (u0 95,°°) = (1,645,°°). Protože 1,2649 £ W, H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTIC A: Te^ty rozdílů: r, průměry; Tabulka9 ľ" PodäViisknoul výsledky keíd yýEoétu do o^na protokolu Rozdíl mezi dvéma koreĚačními koeíicienljř ll o.oo ů |äôô" 1 >»F p: 1.0000 N2:|1Q Rozdíl mezi dvěnia průměty [noímáäní rozdělení)- ŕ"" Jednosli. & Dbouslr. Pil 0, 1» m PfZ fb- gSmOdZJT- g N2|1Q g r f Výběfový průměr vs. slřední hodnota ptUOOOO Jedno;U. Obou :!i Vrpočel Rqjdfl rneíi dvěma poměiy P1: P£ ,60000 ,50000 40 pc,1G31 í* Jednoslr. í™ Obousli Výpočet | Vypočtená p-hodnota jednostranného testuje 0,1031, tedy větší než asymptotická hladina významnosti 0,05. H0 nezamítáme na asymptotické hladině významnosti 0,05. Případ dvou nezávislých výběrů z alternativních rozložení: Provádíme opakovaně nezávisle ni-krát jeden náhodný pokus a nezávisle na tom n2-krát druhý náhodný pokus. V první sérii pokusů sledujeme nějaký jev, který v každém pokusu může nastat s pravděpodobností 0. a ve druhé sérii pokusů sledujeme nějaký jiný jev, jehož pravděpodobnost nastoupení je ů2. Parametry , ů2 neznáme. Naším úkolem bude konstruovat interval spolehlivosti pro parametrickou funkci -ů2 nebo testovat hypotézu o této parametrické funkci, a to pomocí dvou nezávislých náhodných výběrů z alternativních rozložení A(A), A(fl2). Asymptotické rozložení statistiky odvozené ze dvou výběrových průměrů alternativních rozložení Nechť Xn,...,Xln je náhodný výběr z alternativního rozložení A(ůl) a X21,...,X2 je na něm nezávislý náhodný výběr alternativního rozložení A(ů2) a nechť jsou splněny podmínky ni0. (l-ô1)>9an2ô2 (l-ů2)>9. Označme Mi, M2 výběrové průměry. Pak statistika U = Mi ~M2-fa-^2) s N(01) _ 0.(1-0.) | ů2{l-ů2) V ni n2 Vysvětlení: Analogicky jako v případě jednoho náhodného výběru z alternativního rozložení. Vzorec pro meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametrickou funkci ůx -ů2, Meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro ů{ -ů2 jsou: d = m1-m2-. fm^l-m,) | m2(l-m2)u l-a/2 Vysvětlení: Pokud rozptyl d(m;) = ^-^—— nahradíme odhadem ——^, i = 1, 2, konvergence náhodné veličiny U n. n. k veličině s rozložením N(0,1) se neporuší. Tedy Vůx-ů2g S:l-a

9 a n2fy (1-fy) > 9: Parametry fy a fy neznáme, nahradíme je odhady mi a m2, tedy 97.(1-97/200) = 49,955 > 9, 162.(1-162/300) = 74,52 > 9. Meze 100(l-a)% asymptotického empirického intervalu spolehlivosti pro parametrickou funkci fy -fy jsou: 97 162 d = nij -m2 - h = nij -m2 + 1 nij(1 - m m2(l- m2)u ni nij(1 - m ) m2(l- m2) 97 (i__97_\ 162 n _ 162 \ 200 ^ 200' . 300 ^ 300/ 200 300 97 162 200 300 97 /-i__97\ 162 n _ 162 \ 200 ^ 200' , 300 ^ 300/ 300' 1,96 --0,1443 300 ^ 1,96 -0,0343 2 200 300 V 200 300 Zjistili jsme tedy, že s pravděpodobností přibližně 0,95: -0,1443 < fy -fy < 0,0343 Testování hypotézy o parametrické funkci fy - fy Nechť Xn,...,Xlni je náhodný výběr z alternativního rozložení A(fy) a X21,...,X2n2 je na něm nezávislý náhodný výběr alternativního rozložení A(fy) a nechť jsou splněny podmínky nify (1-fy) > 9 a n2fy (1-fy) > 9. Na asymptotické hladině významnosti a testujeme nulovou hypotézu H0: fy -ů2 - c proti alternativě fy -fy ^ c (resp. Hi. fy - fy < c resp. fy - fy > c). Testovým kritériem je statistika Mj -M2 -c (M1(l-M1)| M2(l-M2) , která v případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Kritický obor má tvar w = (-°°,-u1_0l/2)u(u1_(X/2,oo) (resp. w = (-°o,-Ul_a> resp. W = (u1_a,oo)). (Testování hypotézy o parametrické funkci fy -fy lze provést též pomocí 100(l-a)% asymptotického intervalu spolehlivosti nebo pomocí p-hodnoty.) Poznámka: Postup při testování hypotézy ůx -ů2 = 0 Je-li c = 0, pak označme M* = n'M' +niMl vážený průměr výběrových průměrů. Jako testová statistika slouží nl+n2 T0 = Mi M2 ^tej-á y případě platnosti nulové hypotézy má asymptoticky rozložení N(0,1). Kritický obor má tvar W = (-°°,-u1_a/2)u(u1_a/2,oo) (resp. W = (-oo,-Ul_a) resp. W = (u^,-)). Testová statistika T0 vznikne standardizací statistiky Mi - M2, kde neznámé parametry i3-l5 ů2 nahradíme společným odhadem M*. Příklad: Pro údaje z příkladu o slevách v supermarketu testujte na asymptotické hladině významnosti 0,05 hypotézu, že týden se slevami nezvýší pravděpodobnost uskutečnění většího nákupu. v Řešení: Testujeme hypotézu fy -fy =0 proti levostranné alternativě Hi: fy - fy < 0 na asymptotické hladině významnosti 0,05. ni = 200, n2 = 300, mi = 97/200, m2 = 162/300, m* = (97 + 162)/500 = 0,518. Podmínky dobré aproximace byly ověřeny v předešlém příkladu. Testování pomocí intervalu spolehlivosti: Pro levostrannou alternativu používáme pravostranný interval spolehlivosti: m, -m,, + m,(l-m,) , m2(l-m2)u ^_162+ MzM + MzMlM5 = 0fi2 \ nl n2 200 300 V 200 300 Protože číslo c = 0 je obsaženo v intervalu (-oo;0,02), H0 nezamítáme na asymptotické hladině významnosti 0,05. Testování pomocí kritického oboru: Realizace testového kritéria: m -m _9j__m ' ° 200 300 --1,2058. ° Vm.(l+ V0.518(l-0,518X^+3Žo) Kritický obor je w = (-«>,-u^) = (-°°,-u0 95) = {-<*>,-1,645). Protože testové kritérium nepatří do kritického oboru, H0 nezamítáme na asymptotické hladině významnosti 0,05. Testování pomocí p-hodnoty: Pro levostrannou alternativu se p-hodnota počítá podle vzorce p = P(T0 < t0): p = P(T0 < -1,2058) = 4>(-1,2058) = 1 - 4>(l,2058) = 1 - 0,8861 = 0,1139 Protože p-hodnota je větší než 0,05, H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTIC A: Statistiky - Základní statistiky a tabulky - Testy rozdílů: r, %, průměry - OK - vybereme Rozdíl mezi dvěma poměry - do políčka P 1 napíšeme 0,485, do políčka NI napíšeme 200, do políčka P 2 napíšeme 0,54, do políčka N2 napíšeme 300 -zaškrtneme Jednostr. - Výpočet. Dostaneme p-hodnotu 0,1142, tedy nezamítáme nulovou hypotézu na hladině významnosti 0,05. Iffgj Testy iwíhliV: r, |t0|), proto kromě typu alternativy záleží i na znaménku realizace testového kritéria. Skutečnou p-hodnotu (ozn. skut. p) tedy počítáme podle následující tabulky: (T) t q > 0, levostranná alternativa skut. p = softw. p (3) t q < 0, levostranná alternativa s/oit. p = 1 — softw. p (2) t0 > 0, pravostranná alternativa skut. p = 1 — softw. p (4) t0 < 0, pravostranná alternativa s/oit. p = softw. p Parametrické úlohy o více nezávislých náhodných výběrech Osnova: Porovnání aspoň tří nezávislých náhodných výběrů z normálních rozložení (jednofaktorová analýza rozptylu) - testování hypotézy o shodě středních hodnot - testování hypotézy o shodě rozptylů (testy homogenity rozptylů) - zkoumání vlastností testů homogenity pomocí simulačních studií - post-hoc metody mnohonásobného porovnávání Porovnání aspoň tří nezávislých náhodných výběrů z alternativních rozložení - test homogenity binomických rozložení - mnohonásobné porovnávání I. Případ r > 3 nezávislých náhodných výběrů z normálních rozložení (Analýza rozptylu jednoduchého třídění) Motivace: Zajímáme se o problém, zda lze určitým faktorem (tj. nominální náhodnou veličinou A) vysvětlit variabilitu pozorovaných hodnot náhodné veličiny X, která je intervalového či poměrového typu. Např. zkoumáme, zda metoda výuky určitého předmětu (faktor A) ovlivňuje počet bodů dosažených studenty v závěrečném testu (náhodná veličina X). Předpokládáme, že faktor A má r > 3 úrovní a přitom i-té úrovni odpovídá ni pozorování Xu,...,Xin , které tvoří náhodný výběr z rozložení N(lii, o2), i = 1, r a jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy Xy = lii + Sy, kde Sy jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, o2), i = 1, ..., r, j = 1, ..., n^ Výsledky lze zapsat do tabulky faktor A výsledky úroveň 1 xn,...,xlni úroveň 2 X21,...,X2ll2 > > • . . • úroveň r Xrl'"-'Xrnr Ilustrace: Na hladině významnosti a testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné, tj. H0: Ui = ... = Ur proti alternativní hypotéze Hi, která tvrdí, že aspoň jedna dvojice středních hodnot se liší. Jedná se tedy o zobecnění dvouvýběrového t-testu a na první pohled se zdá, že stačí utvořit dvojic náhodných výběrů a na každou dvojici aplikovat dvouvýběrový t-test. Hypotézu o shodě všech středních hodnot bychom pak zamítli, pokud f A aspoň v jednom případě z porovnávání se prokáže odlišnost středních hodnot. Odtud je vidět, že k neoprávněnému za- mítnutí nulové hypotézy (tj. k chybě 1. druhu) může dojít s pravděpodobností větší než a. Proto ve 30. letech 20. století vytvořil R. A. Fisher metodu ANOVA (analýza rozptylu, v popsané situaci konkrétně analýza rozptylu jednoduchého třídění), která uvedenou podmínku splňuje. Pokud na hladině významnosti a zamítneme nulovou hypotézu, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. H; nezamítáme STOP DATA ANOVA provést mnohonásobné porovnáváni Ho zamítáme - Označení: V analýze rozptylu jednoduchého třídění se používá tzv. tečková notace. r n = ^] n;... celkový rozsah všech r výběrů i=l X; = ]Tx;j ... součet hodnot v i-tém výběru M; = —X; ... výběrový průměr v i-tém výběru r n. X = ^^X;j ... součet hodnot všech výběrů i=i H M = — X ... celkový průměr všech r výběrů n Zavedeme součty čtverců r n. ST = ^ ^ (x;j - M f ... celkový součet čtverců (charakterizuje variabilitu jednotlivých pozorování kolem celkového průmě- i=i H ru), počet stupňů volnosti fT = n - 1, r \2 SA = ^n^M. -M f ... skupinový součet čtverců (charakterizuje variabilitu mezi jednotlivými náhodnými výběry), í=i počet stupňů volnosti f A = r - 1. Sčítanec (ml - m ) představuje bodový odhad efektu cii. r n. SE =^^(xij -M; f ... reziduálni součet čtverců (charakterizuje variabilitu uvnitř jednotlivých výběrů), í=i j=i počet stupňů volnosti fE = n - r. Lze dokázat, že ST = SA + SE. (Důkaz je proveden např. ve skriptech Budíková, Mikoláš, Osecký: Popisná statistika v poznámce 5.20.) Testování hypotézy o shodě středních hodnot Náhodné veličiny Xy se řídí modelem MO: Xij = li + ai + sy pro i = 1, r, j = 1, ni, přičemž By jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, o2), Lije společná část střední hodnoty závisle proměnné veličiny, Oi je efekt faktoru A na úrovni i. Parametry li, (Xí neznáme. r Požadujeme, aby platila tzv. reparametrizační rovnice: ^ rijCC; = 0. i=l (Pokud je třídění vyvážené, tj. pokud mají všechny výběry stejný rozsah: m. = n2 = ... = nr, pak lze použít zjednodušenou r podmínku ^ oc; = 0.) Kdyby nezáleželo na faktoru A, platila by hypotéza ai = ... = ar = 0 a dostali bychom model Ml: Xy = li + šij. Během analýzy rozptylu tedy zkoumáme, zda výběrové průměry Mi, ..., Mr se od sebe liší pouze v mezích náhodného kolísání kolem celkového průměru M nebo zda se projevuje vliv faktoru A. Rozdíl mezi modely MO a Ml ověřujeme pomocí testové statistiky S /f c - A A , která se řídí rozložením F(r-l,n-r), je-li model Ml správný. Hypotézu o nevýznamnosti faktoru A tedy zamít- sE/fE neme na hladině významnosti a, když platí: FA> Fi_a(r-l,n-r). Výsledky výpočtů zapisujeme do tabulky analýzy rozptylu jednoduchého třídění. Zdroj variability součet čtverců stupně volnosti podíl FA skupiny SA fA = r-l sA/fA sA/fA sE/fE reziduálni Se fE = n - r sE/fE - celkový St fT = n - 1 - - Sílu závislosti náhodné veličiny X na faktoru A můžeme měřit pomocí poměru determinace: P2 z intervalu (0,l). Testování hypotézy o shodě rozptylů Před provedením analýzy rozptylu je zapotřebí ověřit předpoklad o shodě rozptylů v daných r výběrech. a) Levenův test: Položme Z;j =|xy -ML|. Označíme Mzi=-^Z;j, 1 r lij Mz-ZZZ, n i=i j=i sZE=ÉŽ(ziJ-Mzi)2' i=i j=i SZA=^ni(Mzi-Mz)2 i=l Platí-li hypotéza o shodě rozptylů, pak statistika FZA=f^^-F(r-l,n-r). SzEAn-r) Hypotézu o shodě rozptylů tedy zamítáme na asymptotické hladině významnosti a, když FZA > Fi_a(r-1, n-r). (Levenův test je vlastně založen na analýze rozptylu absolutních hodnot centrovaných pozorování. Vzhledem k tomu, že náhodné veličiny Xy - Mi nejsou stochasticky nezávislé a absolutní hodnoty těchto veličin nemají normální rozložení, je Levenův test pouze aproximativní.) b) Brownův - Forsytheův test je modifikací Levenova testu. Modifikace spočívá v tom, že místo výběrového průměru i-tého výběru se při výpočtu veličiny z;j používá medián i-tého výběru. c) Bartlettův test: Platí-li hypotéza o shodě rozptylů a rozsahy všech výběrů jsou větší než 6, pak statistika B C (n-rJlnS.'-Šfo-lJlnSj2 i=l se asymptoticky řídí rozložením %2(r-l). Přitom konstanta C = l + 3(r-0 I" S* je vážený průměr výběrových rozptylů. H0 zamítáme na asymptotické hladině významnosti a, když B se realizuje v kritickém oboru W =(%2i-a(r-l),oo). Zkoumání vlastností uvedených tří testů Pro odhad pravděpodobnosti chyby 1. druhu bylo vždy vygenerováno 100 000 náhodných výběrů, a to postupně z těchto rozložení: N(10; 1), t(10), LN(1; 0,4), Ex(0,85). Všechny výběry měly stejný rozsah od 3 do 11 s krokem 2, počet výběrů byl od 2 do 10 s krokem 2. Jako odhad pravděpodobnosti chyby 1. druhu sloužila relativní četnost těch případů, kdy se na hladině významnosti 0,05 zamítla nulová hypotéza o shodě rozptylů. Simulace byly provedeny v programu MathCad. Prípad dvou nezávislých náhodných výběrů Nejprve bylo provedeno srovnání F-testu s Bartlettovým testem a Brownovým - Forsytheovým testem pro dva nezávislé náhodné výběry. V grafech se modrá barva vztahuje k F-testu, červená k Bartlettovu testu a zelená k Brownovu -Forsytheovu testu. Normální rozložení N(10; 1) 0,28 i-.-.-.- 0,24 0,20 J5 0,16 co ¥ 0,12 ~D O 0,08 0,04 0,00 1 5 7 9 rozsah výbě rů Log - normální rozložení LN(1; 0,4) 0,28 rozsah výbě rů 13 —b -•- b-f Studentovo rozložení t(10) 0,281-■-■-■- 0,24 0,20 .2 0,16 to i? 0,12 ■o o 0,08 0,04 0,00 1 5 7 9 11 rozsah výbě rů Exponenciální rozložení Ex(0,85) 5 7 9 rozsah výběrů 11 >- f 13 b -•- b-f 13- ■ f • b - b-f Komentář: Podle očekávání je nejnižších odhadů pravděpodobnosti chyby 1. druhu dosahováno pro výběry z normálního rozložení, kdy všechny testy udrží odhad pod hladinou významnosti 0,05. S postupným „vzdalováním se" od normality relativní četnost neoprávněného zamítnutí nulové hypotézy roste, nej vyšší je pro výběry z exponenciálního rozložení, kde se pro F-test a Bartlettův test blíží k 0,24. Pro všechna zkoumaná rozložení dávají F-test a Bartlettův test srovnatelné výsledky, u F-testu pozorujeme poněkud nižší odhad. Jednoznačně nejlepší výsledky jsou dosahovány při použití B-F testu, který i pro výběry z exponenciálního rozložení poskytuje odhad pravděpodobnosti chyby 1. druhu dostatečně hluboko pod 0,05. se Případ více než dvou nezávislých náhodných výběrů Dále jsme se zabývali srovnáním Bartlettova testu s Brownovým - Forsytheovým testem pro 4, 6, 8 a 10 nezávislých náhodných výběrů, jejichž rozsahy byly 3, 5, 7, 9, 11. Kvůli větší přehlednosti jsou grafy závislosti odhadu na rozsahu výběrů uvedeny zvlášť pro 4 a 6 výběrů a poté pro 8 a 10 výběrů. V grafech se modrá a zelená barva vztahuje k Bartlettovu testu, červená a hnědá pak k Brownovu - Forsytheovu testu. a) Normální rozložení N(10; 1) Počet výběrů 4 a 6 0,06 0,05 0,04 03 I 0.03 "O 03 € 0,02 o 0,01 0,00 -0,01 5 7 9 rozsah výběrů 4 B-F 13-«-6B -•- 6 B-F 0,06 0,05 0,04 03 I 0,03 "O 03 € 0,02 o 0,01 0,00 -0,01 1 Počet výběrů 8 a 10 5 7 9 rozsah výběrů t__--~ t 13-«-ioe Pro výběry z normálního rozložení dává Bartlettův test odhady velmi blízké hladině významnosti 0,05. Není zde pozorovatelná závislost na rozsahu výběrů. Brownův - Forsytheův test neoprávněně zamítá nulovou hypotézu s podstatně menší relativní četností, která nepřesáhne 0,021. b) Studentovo rozložení t(10) Počet výběrů 4 a 6 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 -0,02 1 5 7 9 rozsah výbě rú -•— 4 E 3 6 E 0,18 0,16 0,14 0,12 3 0,10 CD "S 0,08 .n o 0,06 0,04 0,02 0,00 -0,02 1 Počet výběrů 8 a 10 5 7 9 rozsah výbě rú 13-«- 10 E Pro výběry ze Studentova rozložení jsou výsledky Bartlettova testu již ovlivněny porušením předpokladu normality. Získané odhady narůstají se zvětšujícím se rozsahem výběrů a v nejméně příznivém případě, tj. pro 10 nezávislých náhodný výběrů o rozsahu 11, odhad pravděpodobnosti chyby 1. druhu převyšuje 0,16. Brownův - Forsytheův test neoprávněně zamítá nulovou hypotézu s relativní četností, která nepřesáhne 0,023. Rozdíly mezi odhady pro různé počty výběrů jsou u B-F testu zanedbatelně malé. c) Logaritmicko - normální rozložení LN(1; 0,4) Počet výběrů 4 a 6 Počet výběrů 8 a 10 1 3 5 7 9 11 13—6b 1 3 5 7 9 11 13— 10b 6 b-f -*- 10 b- rozsah výbě ru rozsah výbě rů Pro výběry z logaritmicko - normálního rozložení odhad pravděpodobnosti chyby 1. druhu získaný Bartlettovým testem velmi výrazně narůstá, zvláště pro větší počet rozsáhlejších výběrů. Zde je dokonce o něco vyšší než 0,42, tudíž použití Bartlettova testu skutečně nelze doporučit. Daleko lepší výsledky poskytuje Brownův - Forsytheův test, kde odhady zůstávají pod 0,03. d) Exponenciální rozložení Ex(0,85) Počet výběrů 4 a 6 5 7 9 rozsah výbě rů 13-»-6B -•- 6 B-F 0,8 0,7 0,6 0,5 Ťš 0,4 "O CD % 0,3 o 0,2 0,1 0,0 -0,1 Počet výběrů 8 a 10 5 7 9 rozsah výbě rů 13 10 B 10 B-F Vidíme, že použití Bartlettova testu pro výběry z exponenciálního rozložení nelze vůbec doporučit. Odhad pravděpodobnosti chyby 1. druhuje neúnosně velký, v nejméně příznivém případě - pro 10 nezávislých náhodných výběrů o rozsahu 11 - se tento odhad blíží 0,75. Naproti tomu odhady získané Brownovým - Forsytheovým testem jsou nanejvýš 0,035, což ještě zdaleka nedosahuje hladiny významnosti 0,05. Komentář Výsledky našich simulačních studií vedou k závěru, že pro testy homogenity rozptylů je vhodné používat Brownův - Forsy-theův test, a to jak pro dva, tak pro více nezávislých náhodných výběrů. Ukazuje se, že tento test lze aplikovat i na výběry, které pocházejí z výrazně nenormálních rozložení. To lze vysvětlit tím, že při jeho konstrukci jsou použity výběrové mediány jednotlivých výběrů, přičemž medián - na rozdíl od průměru - je robustní vůči odlehlým či extrémním hodnotám. U Brownova - Forsytheova testu odhad pravděpodobnosti chyby 1. druhu ve všech případech zůstal pod hladinou významnosti 0,05, nejhorší výsledek byl 0,036 pro 4 nezávislé výběry z exponenciálního rozložení. Bartlettův test zcela selhává pro výběry z nesymetrických rozložení. Např. pro 10 nezávislých výběrů z exponenciálního rozložení, jejichž rozsah byl 11, se odhad pravděpodobnosti chyby 1. druhu blížil číslu 0,8. Výhodou Brownova - Forsytheova testu je rovněž skutečnost, že velikosti odhadů vykazují jen velmi nepatrnou závislost na počtu výběrů. Brownův - Forsytheův test je implemenován např. v systémech STATISTICA či MÍNITAB, Bartlettův test najdeme v systému MÍNITAB, F-test pak v obou zmíněných systémech. >e Post - hoc metody mnohonásobného porovnávání Zamítneme-li na hladině významnosti a hypotézu o shodě středních hodnot, chceme zjistit, které dvojice středních hodnot se liší na dané hladině významnosti a, tj. na hladině významnosti a testujeme H0: pi = Pk proti Hi: pi ^ jxk pro všechna 1, k = 1, ..,r,l^k. a) Mají-li všechny výběry týž rozsah p (říkáme, že třídění je vyvážené), použijeme Tukeyovu metodu. |MV -M,| Testová statistika má tvar . Rovnost středních hodnot pk a pi zamítneme na hladině významnosti a, když '-^.„(r.n-r) , kde hodnoty qi-a(r, n-r) jsou kvantily studentizovaného rozpětí a najdeme je ve statistických ta- X(n) — bulkách. (Studentizované rozpětí je náhodná veličina Q =-.) s y i \/ o Existuje modifikace Tukeyovy metody pro nestejné rozsahy výběrů, nazývá se Tukeyova HSD metoda. V tomto případě má testová statistika tvar Mk.-ML 1 1 1 — + — Vnk niy . Rovnost středních hodnot pk a pi zamítneme na hladině významnosti a, když Mk.-Mi . / ^ 1 1 1 —+ — Vnk niy b) Nemají-li všechny výběry stejný rozsah, použijeme Scheffého metodu: rovnost středních hodnot Lik a ui zamítneme na hladině významnosti a, když (r-1) Vnk 1 1 — + — n F^Jr-Ln-r). Výhodou Scheffého testuje, že k jeho provedení nepotřebujeme speciální statistické tabulky s hodnotami kvantilů studenti-zovaného rozpětí, ale stačí běžné statistické tabulky s kvantily Fisherova - Snedecorova rozložení. V případě vyváženého třídění, kdy lze aplikovat Tukeyovu i Scheffého metodu, použijeme tu, která je citlivější. Tukeyova metoda tedy bude výhodnější, když qi.a2(r, n-r)<2(r-l)F1.a(r-l,n-r). Metody mnohonásobného porovnávání mají obecně menší sílu než ANOVA. Může nastat situace, kdy při zamítnutí H0 nenajdeme metodami mnohonásobného porovnávání významný rozdíl u žádné dvojice středních hodnot. K tomu dochází zvláště tehdy, když p-hodnota pro ANOVU je jen o málo nižší než zvolená hladina významnosti. Pak slabší test patřící do skupiny metod mnohonásobného porovnávání nemusí odhalit žádný rozdíl. Doporučený postup při provádění analýzy rozptylu: a) Ověření normality daných r náhodných výběrů (grafické metody - NP plot, Q-Q plot, histogram, testy hypotéz o normálním rozložení - Lilieforsova varianta Kolmogorovova - Smirnovova testu nebo Shapirův - Wilkův test). Doporučuje se kombinace obou způsobů. Závěry učiníme až na základě posouzení obou výsledků. Obecně lze říci, že analýza rozptylu není příliš citlivá na porušení předpokladu normality, zvláště při větších rozsazích výběrů (nad 20), což je důsledek působení centrální limitní věty. Mírné porušení normality tedy není na závadu, při větším porušení použijeme např. Kruskalův - Wallisův test jako neparametrickou obdobu analýzy rozptylu jednoduchého třídění. b) Po ověření normality se testuje homogenitu rozptylů, tj. předpoklad, že všechny náhodné výběry pocházejí z normálních rozložení s týmž rozpylem. Graficky ověřujeme shodu rozptylů pomocí krabicových diagramů, kdy sledujeme, zdaje šířka krabic stejná. Numericky testujeme homogenitu rozptylů pomocí Levenova testu, Brownova - Forsytheova testu (oba jsou implementovány ve STATISTICE, Brownův - Forsytheův test v MÍNITABu) či Bartlettova testu (je k dispozici v MÍNIT ABu). Slabé porušení homogenity rozptylů nevadí, při větším se doporučuje mediánový test. c) Pokud jsou splněny předpoklady normality a homogenity rozptylů, můžeme přistoupit k testování shody středních hodnot. Předtím je samozřejmě vhodné vypočítat průměry a směrodatné odchylky či rozptyly v jednotlivých skupinách. d) Dojde-li na zvolené hladině významnosti k zamítnutí hypotézy o shodě středních hodnot, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží post-hoc metody mnohonásobného porovnávání, např. Scheffé-ho nebo Tukeyova metoda. Příklad: U čtyř odrůd brambor (označených symboly A, B, C, D) se zjišťovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky (v kg): odrůda hmotnost A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Řešení: Data považujeme za realizace čtyř nezávislých náhodných výběrů ze čtyř normálních rozložení se stejným rozptylem. Testujeme hypotézu, že všechny čtyři střední hodnoty jsou stejné. Vypočítáme výběrové průměry v jednotlivých výběrech: ML = 0,8, M2. = 1,2, M3. = 1,4, M4. = 1,1, celkový průměr: M = 1,14, výběrové rozptyly: Si2 = 0,02, S22 = 0,03, S32 = 0,04, S42 = 0,01, io o2 Tt 3-0,02 + 2-0,03 + 4-0,04 + 2-0,01 3 --vazený prumer výberových rozptylu: S* = —-= —---——----— = = 0,027, n -r 11 110 reziduálni součet čtverců: SE - (n - r)S* -11- —— - 0,3 ? 110 skupinový součet čtverců: SA = £ n; (ML - M f = 4 • (0,8 -1,14)2 + 3 • (1.2 -1,14)2 + 5 • (l,4 -1,14)2 + 3 • (l,l -1,14)2 = 0,816 i=l celkový součet čtverců: ST = SA + SE = 0,816 + 0,3 = 1,116, testová statistika FA = = 0,816/3 = 9,97, A SE/fE 0,3/11 Kritický obor W = (F0 95 (3,11), 00) = (3,59,00), Protože testová statistika se realizuje v kritickém oboru, H0 zamítáme na hladině významnosti 0,05. S 0 816 Vypočteme poměr determinace: P2 = — = —— = 0,7312 ST 1,116 Výsledky zapíšeme do tabulky ANOVA: Zdroj variability Součet čtverců Stupně volnosti podíl FA skupiny SA = 0,816 3 SA/3 = 0,272 Sa/G-i) _997 SE/(n-r)-y'y reziduálni SE = 0,3 11 Se/11 =0,02727 - celkový ST= 1,116 14 - - Nyní pomocí Scheffého metody zjistíme, které dvojice odrůd se liší na hladině významnosti 0,05. Srovnávané odrůdy Rozdíly Mk -Mj Pravá strana vzorce A, B 0,4 0,41 A, C 0,67 0,36 A, D 0,3 0,41 B, C 0,2 0,40 B,D 0,1 0,44 C,D 0,3 0,40 Na hladině významnosti 0,05 se liší odrůdy A a C. Řešení pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných X a odrůda a 15 případech. Do proměnné X zapíšeme zjištěné hmotnosti do proměnné odrůda kódy pro dané odrůdy (1 pro A, 2 pro B, 3 pro C a 4 pro D). i 2 odrůda 1 0,9 A 2 0,8 A 3 0,6 A 4 0,9 A 5 1,3 B 6 1 B 7 1,3 B 8 1,3 C 9 1,5 C 10 1,6 C 11 1,1 c 12 1,5 C 13 1,1 D 14 1,2 D 15 1 D Vypočteme výběrové průměry a výběrové rozptyly: Statistiky - Základní statistiky a tabulky - Rozklad & jednofakt. ANOVA odrůda - OK - Skupiny tabulek - zaškrtneme Rozptyly - Výpočet. OK - Proměnné - Závislé - X, Grupovací Rozkladová tabulka popisných statistik (priklad8301) N=15 (V seznamu záv. prom. nejsou ChD) odrůda X průměr X N x Sm.odch. x Rozptyl A 0,800000 4 0,141421 0,020000 B 1,200000 3 0,173205 0,030000 C 1,400000 5 0,200000 0,040000 D 1,100000 3 0,100000 0,010000 Vš.skup. 1,140000 15 0,282337 0,079714 Nyní ověříme předpoklad shody rozptylů. Na záložce Skupiny tabulek zaškrtneme Levenův test - Výpočet. Proměnná Leveneův test homogenity rozpylů (priklad8301) Označ, efekty jsou význ. na hlad. p < ,05000 SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F P X 0,018667 3 0,006222| 0,065333 11 0,005939| 1,047619 0,410027 Vidíme, že p-hodnota Levenova testuje 0,41, tedy větší než hladina významnosti 0,05. Hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05. Přistoupíme k testu hypotézy o shodě středních hodnot. Na záložce Skupiny tabulek zaškrtneme Analýza rozptylu - Výpočet. Proměnná Analýza rozptylu (priklad8301) Označ, efekty jsou význ. na hlad. p < ,05000 SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F I P X 0,816000 3 0,272000 0,300000 11| 0,027273| 9,973333| 0,001805 Jelikož p-hodnota = 0,001805 je menší než hladina významnosti 0,05, hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Nyní aplikujeme Scheffého metodu mnohonásobného porovnávání, abychom zjistili, které dvojice odrůd se liší na hladině významnosti 0,05. Na záložce Post - hoc zvolíme Schefféův test. Scheffého test; proměn.:X (priklad8301) Označ, rozdíly jsou významné na hlad. p < ,05000 odrůda {1} M=,80000 {2} M=1,2000 {3} M=1,4000 {4} M=1,1000 A {1} 0,059165 0,001950 0,190463 B {2} 0,059165 0,464537 0,905502 C {3} 0,001950 0,464537 0,163499 D {4} 0,190463 0,905502 0,163499 Tabulka obsahuje p-hodnoty pro vzájemné porovnání středních hodnot hmotnosti všech čtyř odrůd. Vidíme, že na hladině významnosti 0,05 se liší odrůdy A, C. Význam předpokladů v analýze rozptylu a) Nezávislost jednotlivých náhodných výběrů - velmi důležitý předpoklad, musí být splněn, jinak dostaneme nesmyslné výsledky. b) Normalita - ANO V A není příliš citlivá na porušení normality, zvlášť pokud mají všechny výběry rozsah nad 20 (důsledek centrální limitní věty). Při výraznějším porušení normality se doporučuje Kruskalův - Wallisův test. c) Shoda rozptylů - mírné porušení nevadí, při větším se doporučuje Kruskalův - Wallisův test. Test shody rozptylů má smysl provádět až po ověření předpokladu normality. II. Případ r > 3 nezávislých náhodných výběrů z alternativních rozložení Test homogenity binomických rozložení Nechť máme r > 3 nezávislých náhodných výběrů o rozsazích n1? ..., nr, přičemž j-tý náhodný výběr pochází z alternativního rozložení A(-ôj), j = 1, 2, r. Testujeme hypotézu H0: ůl=... = ůT proti alternativní hypotéze Hi: aspoň jedna dvojice parametrů je různá. Označme n~Zjnj celkový rozsah všech r výběrů, j=i n vážený průměr výběrových průměrů. 1 ■ X n. (M. - M. )2 - X2 (r -1), když H0 platí. Testové kritérium: Q = - , ,, \ /, M41-MJ^ Kritický obor: W = |fi-a (r - l),oo) H0 tedy zamítáme na asymptotické hladině významnosti a, když QeW Podmínka dobré aproximace: njM* > 5 pro všechna j = 1, r. 1 r 2 Brandtův - Snedecorův výpočetní tvar: Q = ——z—:rprXn j ~~ n7 lvi # yL lvi # J ;_i i M, M* ' Test homogenity založený na arkussinusové transformaci Není-li splněna podmínka njM* > 5 pro všechna j = 1, r, doporučuje se následující postup: označme aj =arcsinA/M~,j = i,...,r, B = -ÉnjAj nj=i Pak statistika Q = 4ZnjlAj ~Bf ~ xVl)- j=i H0 tedy zamítáme na asymptotické hladině významnosti a, když Q > % i_a(r-l). Mnohonásobné porovnávání Zamítneme-li nulovou hypotézu na asymptotické hladině významnosti a, chceme zjistit, které dvojice parametrů ůk,ůy se liší. Platí-li nerovnost A. - A, > 1 1 — + — • q!_a (r, oo), pak na hladině významnosti a zamítáme hypotézu o shodě para- metrů i\,iV (Hodnoty qi-«(r, oo) najdeme v tabulkách.) Příklad: Na gymnázium bylo přijato 142 studentů. Ti byli náhodně rozděleni do čtyř tříd A, B, C, D. V každé třídě byla matematika vyučována jinou metodou. Na konci školního roku psali všichni studenti stejnou písemnou práci a byl zaznamenán počet těch studentů, kteří vyřešili všechny zadané úkoly. Třída A B C D Počet studentů 35 36 37 34 Počet úspěšných studentů 5 8 17 15 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozdíly mezi třídami jsou způsobeny pouze náhodnými vlivy. Řešení: Máme čtyři nezávislé náhodné výběry, j-tý pochází z rozložení A(fy), j = 1, 2, 3, 4. Testujeme hypotézu H0: fy = fy = fy = fy. ni - 35, n2 - 36, n3 - 37, n4 = 34, n = 142 m! = 5/35, m2 = 8/36, m3 = 17/37, nu = 15/34, m* = (5+8+17+15)/142 = 45/142. Podmínky dobré aproximace: 45 45 45 45 35--= 11,09, 36--= 11,41, 37--= 11,73, 34--= 10,77 142 142 142 142 Testová statistika M,(l-M,)fľ J J 1- Ma 45 1 45 35- r 5 V f 8 V „„ f 17 Y _ fl5^2 v35y + 36- v36y + 37- 37 + 34- v34y 45 142 14^ =12,288 . 45 1421 142 142 Kritický obor: W = (x2o,95(3),oo) = (7,81,oo) Protože testové kritérium se realizuje v kritickém oboru, H0 zamítáme na asymptotické hladině významnosti 0,05. Nyní metodou mnohonásobného porovnávání zjistíme, které dvojice parametrů se od sebe liší na hladině významnosti 0,05. Pomocí arkussinusové transformace vypočteme hodnoty A j = arcsin ^Mj : Ai = 0,3876, A2 = 0,4909, A3 = 0,7448, A4 = 0,7264 Platí-li nerovnost Ak - Aj > ůk,ův 1 1 — + — ■ q!_a (r, oo) 5 pak na hladině významnosti a zamítáme hypotézu o shodě parametrů Kvantil studentizovaného rozpětí najdeme v tabulkách: qo,95(4,oo) = 3,63 Srovnávané třídy Rozdíly Ak - Aj Pravá strana vzorce A, B 0,1033 0,30 A, C 0,3572 0,30 A, D 0,3388 0,31 B, C 0,2539 0,30 B, D 0,2356 0,31 C, D 0,0184 0,30 Na hladině významnosti 0,05 se liší třídy A, C a A, D. Řešení pomocí systému STATISTICA Vytvoříme nový datový soubor se dvěma proměnnými a 142 případy. Proměnná USPECH obsahuje hodnotu 1, pokud student vyřešil všechny zadané úkoly, jinak obsahuje hodnotu 0. Proměnná TRIDA má hodnotu 1, pokud student pochází z třídy A, hodnotu 2 pro třídu B, hodnotu 3 pro třídu C a hodnotu 4 pro třídu D. Nejprve zjistíme podíly úspěšných studentů v jednotlivých třídách. Statistiky - Základní statistiky a tabulky - Rozklad - OK - Proměnné - Závislé - USPECH, Grupovací - TRIDA - OK Skupiny tabulek - odškrtneme Směrovat, odchylka - Výpočet. TRIDA USPECH USPECH Průměry N A 0,142857 35 B 0,222222 36 0,459459 37 D 0,441176 34 Vš.skup. 0,316901 142 Vidíme, že nejslabší výkony podávali studenti ze třídy A, úspěšných bylo pouze 14,3% studentů, ve třídě B 22,2%, ve třídě C 45,9% a ve třídě D 44,1%. Třídy C a D se z hlediska úspěchu v písemce z matematiky liší jen nepatrně Dále provedeme testování hypotézy o shodě parametrů čtyř alternativních rozložení. Nejprve ověříme splnění podmínek dobré aproximace: njm* > 5 pro všechna j = 1, r. Vážený průměr m* se nachází v posledním řádku výstupní tabulky procedury Rozklad. Jeho hodnotu okopírujeme do políček pro průměry tříd A, B, C, D, poslední řádek odstraníme a k tabulce přidáme jednu novou proměnnou, do jejíhož Dlouhého jména napíšeme =v2*v3. TRIDA JSPECH Průměry JSPECH N NProm =v2*v3 A 0,316901 35 11,09155 B 0,316901 36 11,40845 c 0,316901 37 11,72535 D 0,316901 34 10,77465 Vidíme, že podmínky dobré aproximace jsou splněny. Statistiky - Základní statistiky/tabulky - Kontingenční tabulky - OK - Specif. tabulky - List 1 USPECH, List 2 TRIDA, OK- Možnosti - Statistiky dvourozměrných tabulek - zaškrtněte Pearson & M-L Chi -square - Detailní výsledky - Detailní 2-rozm. tabulky. Statist. Chĺ-kvadr. | sv | p Pearsonův chí-kv. 12,28760 df=3 p=,00646 M-V chí-kvadr. 12,80263 df=3 p=,00509 Testová statistika Q se realizuje hodnotou 12,2876, počet stupňů volnosti je 3, odpovídající p-hodnota = 0,00646, tedy na asymptotické hladině významnosti 0,05 hypotézu H0 zamítáme. S rizikem omylu nejvýše 0,05 jsme tedy prokázali, že rozdíly v podílech úspěšných studentů v jednotlivých třídách nelze vysvětlit náhodnými vlivy. Upozornění: Systém STATISTICA neumožňuje provedení metody mnohonásobného porovnávání pro náhodné výběry z alternativního rozložení. Pro orientaci lze použít Scheffého metodu. V našem případě: TRIDA {1} M=, 14286 {2} M=,22222 {3} M=,45946 {4} M=,44118 A {1} 0,907720 0,034818 0,060978 B {2} 0,907720 0,173652 0,253566 C {3} 0,034818 0,173652 0,998684 D {4} 0,060978 0,253566 0,998684 Na asymptotické hladině významnosti 0,05 se liší třídy A a C. Neparametrické testy o mediánech Osnova: - jedno výběrové a párové testy dvouvýběrové testy neparametrické obdoby jednofaktorové analýzy rozptylu Motivace: Při aplikaci t-testů či analýzy rozptylu by měly být splněny určité předpoklady: - normalita dat (pro výběry větších rozsahů (n > 30) nemá mírné porušení normality závažný dopad na výsledky) - homogenita rozptylů - intervalový či poměrový charakter dat Pokud nejsou tyto předpoklady splněny, použijeme tzv. neparametrické testy, které nevyžadují předpoklad o konkrétním typu rozložení (např. normálním), stačí např. předpokládat, že distribuční funkce rozložení, z něhož náhodný výběr pochází, je spojitá. Nevýhoda - ve srovnání s klasickými parametrickými testy jsou neparametrické testy slabší, tzn., že nepravdivou hypotézu zamítají s menší pravděpodobností než testy parametrické. V této kapitole se omezíme na ty neparametrické testy, které se týkají mediánů. Jednovýběrové testy (Jde o neparametrické obdoby jedno výběrového t-testu a párového t-testu.) Znaménkový test a jeho asymptotická varianta Nechť X!,...,Xn je náhodný výběr ze spojitého rozložení. Nechť x0 50 je mediánem tohoto rozložení a c je reálná konstanta. Testujeme hypotézu H0 : x0 50 =c proti oboustranné alternativě Hl: x0 50 * c (resp. proti levostranné alternativě Hj: x0 50 < c resp. proti pravostranné alternativě Hl: x0 50 > c). Znaménkový test se nejčastěji používá jako párový test, kdy máme náhodný výběr ze spojitého dvourozměrného rozložení a testujeme hypotézu o rozdílu mediánů, tj. H0 : x0 50 - y0 50 = c proti Hj: x0 50 - y0 50 * c (resp. proti jednostran- ÍX11 n , . . ., V V n y ným alternativám). Přejdeme k rozdílům z1 = X1 - Y1,..., Zn = Xn - Yn a testujeme hypotézu o mediánu těchto rozdílů, tj. Hz = c A10 • ^0,50 *" ' a) Utvoříme rozdíly D; = X; - c pro jedno výběrový test resp. D; = z; - c pro párový test, i = 1,.. .,n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.) b) Zavedeme statistiku Sz+, která udává počet těch rozdílů Di? které jsou kladné. Sz+ je součtem náhodných veličin s alternativním rozložením (i-tá veličina nabývá hodnoty 1, když i-tý rozdíl je kladný a hodnoty 0, když je záporný). Platí-li H0, pak pravděpodobnost kladného i záporného rozdílu je stejná, tedy Sz+ ~ Bi(n,|). Z vlastností binomického rozložení plyne, že E(sz+) = f, D(sz+)=t. c) Stanovíme kritický obor. Pro oboustrannou alternativu: W ^(Xk^u^n), pro levostrannou alternativu: W = (0,kj), pro pravostrannou alternativu: W = (k2,n>. (Nezáporná celá čísla ki? k2 pro oboustranný test i pro jednostranné testy lze najít v tabulkové příloze. Pozor - čísla ki? k2 pro oboustrannou alternativu jsou jiná než pro jednostranné alternativy!) ") H0 zamítáme na hladině významnosti a, když Sz+ e W. Asymptotická varianta testu Pro velká n (prakticky n > 20) lze využít asymptotické normality statistiky Sz+. S + - EIS + I S + —— Testová statistika U0 = z = z .- 2 má za platnosti H0 asymptoticky rozložení N(o,l). Kritický obor pro oboustranný test: W = {-oo,-^l.a/2) vj(víl_al2,oo). Kritický obor pro levostranný test: w = (-«>, - Ul_a). Kritický obor pro pravostranný test: W = (u^oo). Aproximace rozložením N(o,l)se zlepší, když použijeme tzv. korekci na nespojitost. Testová statistika pak má S +--±1 tvarU0 = ——já—-, přičemž \ přičteme, když Sz+ 20. Je tedy vhodnější najít v tabulkách kritické hodnoty pro znaménkový test. Pro n = 9 a a = 0,05 jsou kritické hodnoty k: = 1, k2 = 8. Protože kritický obor W = (0,l) u (8,9) neobsahuje hodnotu 3, nezamítáme HQ na hladině významnosti 0,05. Dostáváme týž výsledek jako při použití asymptotického testu. Příklad na párový znaménkový test U 9 náhodně vybraných manželských párů byl zjištěn průměrný roční příjem (v tisících Kč). číslo páru 1 2 3 4 5 6 7 8 9 příjem manžela 216 336 384 432 456 528 552 600 1872 příjem manželky 336 240 192 336 384 288 960 312 576 Na hladině významnosti 0,05 testujte hypotézu, že mediány příjmů manželů a manželek jsou stejné. Řešení: Jedná se o párový test. Vypočteme rozdíly mezi příjmy manželů a manželek, čímž úlohu převedeme na jedno výběrový test. Testujeme H0: z0 50 = Oproti oboustranné alternativě Hj: z0 50 ^ 0, kde z0 50 je medián rozložení, z něhož pochází rozdílový náhodný výběr Zx =Xj-Yj,...,Z9 =X9-Y9. Vypočtené rozdíly x;-yi:-120 96 192 96 72 240 -408 288 1296 Testová statistika Sz+= 7. Ve statistických tabulkách najdeme pro n = 9 a a = 0,05 kritické hodnoty kj = 1, k2 = 8. Protože kritický obor W = (0,1) u (8,9) neobsahuje hodnotu 7, nemůžeme H0 zamítnout na hladině významnosti 0,05. Neprokázaly se tedy významné rozdíly v mediánech příjmů manželů a manželek. Výpočet pomocí systému STATISTIC A: Vytvoříme nový datový soubor se dvěma proměnnými a 9 případy. Do proměnné X napíšeme příjmy manželů, do proměnné Y příjmy manželek. Statistiky - Neparametrická statistika - Porovnání dvou závislých vzorků - OK - 1. seznam proměnných X, 2. seznam proměnných Y - OK - Znaménkový test. Dvojice proměnných Počet různých procent 1 v < V Z Úroveň p X & Y 9 22,22222 1,333333 0,182422 9-2 = 7 Vidíme, že nenulových hodnot n = 9. Z nich záporných je 22,2%, tj. 2. Hodnota testové statistiky S2 Asymptotická testová statistika U0(zde označená jako Z) se realizuje hodnotou 1,3. Odpovídající asymptotická p-hodnota je 0,1824, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu, že mediány příjmů manželů a manželek jsou stejné. Upozornění: V tomto případě není splněna podmínka pro využití asymptotické normality statistiky Sz+, tj. n > 20. Je tedy vhodnější najít v tabulkách kritické hodnoty pro znaménkový test. Pro n = 9 a a = 0,05 jsou kritické hodnoty ki = 1, k2 = 8. Protože kritický obor W = (0,l) u (8,9) neobsahuje hodnotu 7, nezamítáme HQ na hladině významnosti 0,05. Dostáváme týž výsledek jako při použití asymptotického testu. Jednovýběrový Wilcoxonův test a jeho asymptotická varianta Frank Wilcoxon (1892 - 1965): Americký statistik a chemik Nechť Xi, Xn je náhodný výběr ze spojitého rozložení s hustotou cp(x 9(xo,5o + x) - 9(xo,5o - x). Nechť c je reálná konstanta. Testujeme hypotézu H0: x0,5o = c proti oboustranné alternativě Hi: x0,so i1 c nebo proti levostranné alternativě Hi: x0,so < c nebo proti pravostranné alternativě Hi: x0,so > c. Postup provedení testu: a) Utvoříme rozdíly Dj = Xj - c, i = 1, n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.) b) Absolutní hodnoty I D. I uspořádáme vzestupně podle velikosti a spočteme pořadí Ri. c) Zavedeme statistiky Sw+ = ^R;+, což je součet pořadí přes kladné hodnoty Di? D.>0 Sw = X Ri ' c°ž Je součet pořadí přes záporné hodnoty Di. Dj<0 Přitom platí, že součet Sw++ Sw"= n(n+l)/2. Je-li H0 pravdivá, pak E(SW+) = n(n+l)/4 a D(SW+) = n(n+l)(2n+l)/24. d) Testová statistika = min(Sw+, Sw") pro oboustrannou alternativu, = Sw+ pro levostrannou alternativu, = Sw" pro pravostrannou alternativu. e) H0 zamítáme na hladině významnosti a, když testová statistika je menší nebo rovna tabelované kritické hodnotě. Asymptotická varianta jedno výběrového Wilcoxonova testu: Pro n > 30 lze využít asymptotické normality statistiky Sw+. C + u(c +\ C + n(n+l) Platí-li H0, pak U0 i+i) N(0,1). ^7) ~ Kritický obor: pro oboustrannou alternativu W = (-°°,-u1_a/2)u(u1_a/2,oo), pro levostrannou alternativu W = (-^-u^), pro pravostrannou alternativu W = (u H0 zamítáme na asymptotické hladině významnosti a, když U0 e W. Předpoklady použití jedno výběrového Wilcoxonova testu: - rozložení, z něhož daný náhodný výběr pochází, je spojité - hustota tohoto rozložení je symetrická kolem mediánu - sledovaná veličina X má aspoň ordinální charakter (Není-li splněn předpoklad o symetrii hustoty kolem mediánu, lze použít např. znaménkový test.) Příklad: U 12 náhodně vybraných zemí bylo zjištěno procento populace starší 60 let: 4,9 6,0 6,9 17,6 4,5 12,3 5,7 5,3 9,6 13,5 15,7 7,7. Na hladině významnosti 0,05 testujte hypotézu, že medián procenta populace starší 60 let je 12 proti oboustranné alternativě. Řešení: Testujeme hypotézu H0: x0,5o = 12 proti oboustranné alternativě Hi: x0,5o i" 12. Vypočteme rozdíly pozorovaných hodnot od čísla 12:-7,1 -6,0 -5,1 5,6 -7,5 0,3 -6,3 -6,7 -2,4 1,5 3,7 -4,3. Absolutní hodnoty těchto rozdílů uspořádáme vzestupně podle velikosti. Kladné rozdíly přitom označíme červeně: 121 0,3 2,4 \J 4,3 5,1 5,6 6 6,3 6,7 7,1 7,5 10 11 12 usp. | Xi- iz | 0,3 1,5 2,4 3,7 pořadí 2 3 5 6 8 Sw+ = 1 + 2 + 4 + 7 =14, Sw" = 3 + 5 + 6 + 8 + 9 + 10 + 11 + 12 = 64, n = 12, a = 0,05, tabelovaná kritická hodnota pro n = 12 a a = 0,05 je 13, testová statistika = min(Sw+, Sw") = min( 14,64) = 14. Protože 14 > 13, H0 nezamítáme na hladině významnosti 0,05. Znamená to, že na hladině významnosti 0,05 se nepodařilo prokázat, že aspoň v polovině zemí by se podíl populace nad 60 let odlišoval od 12 %. Výpočet pomocí systému STATISTIC A: Utvoříme nový datový soubor se dvěma proměnnými a 12 případy. Do proměnné procento napíšeme zjištěné hodnoty a do proměnné konst uložíme číslo 12. Statistiky - Neparametrická statistika - Porovnání dvou závislých vzorků - OK - 1. seznam proměnných rozdil, Druhý seznam proměnných konst - OK - Wilcoxonův párový test. Dvojice proměnných Wilcoxonův párový test (populace_nad_60) Označené testy jsou významné na hladině p <,05000 Počet platných | T Z Úroveň p procento & konst 12 14,00000 1,961161 0,049861 Výstupní tabulka poskytne hodnotu testové statistiky SW+ (zde označena T), hodnotu asymptotické testové statistiky U0 a p-hodnotu pro U0. V tomto případě je p-hodnota 0,049861, tedy nulová hypotéza se zamítá na asymptotické hladině významnosti 0,05. Tento výsledek je v rozporu s výsledkem, ke kterému jsme dospěli při přesném výpočtu. Je to způsobeno tím, že není splněna podmínka pro využití asymptotické normality statistiky SW+, tj. n > 30. Párový Wilcoxonův test Nechť (Xi, Yi), (Xn, Yn) je náhodný výběr ze spojitého dvourozměrného rozložení. Testujeme H0: x0,5o - yo,5o = c proti Hi: x0,5o - yo,5o i1 c (resp. proti jednostranným alternativám). Utvoříme rozdíly Zi = Xi - Yi? i = 1, n a testujeme hypotézu o mediánu z0,5o, tj. H0: z0,5o = c proti Hi: z0,5o i1 c. Příklad: K zjištění cenových rozdílů mezi určitými dvěma druhy zboží bylo náhodně vybráno 15 prodejen a byly zjištěny ceny zboží A a ceny zbožíB: (11,10), (14,11), (11,9), (13,9), (11,9), (10,9), (12,10), (10,8), (12,11), (11,9), (13,10), (14,10), (14,12), (19,15), (14,12). Nahladině významnosti 0,05 je třeba testovat hypotézu, že medián cenových rozdílů činí 3 Kč. Řešení:Testujeme H0: z0,5o = 3 proti oboustranné alternativě Hi: z0,5o i1 3, kde z0j5o je medián rozložení, z něhož pochází rozdílový náhodný výběr Zi = Xi - Yi, ... Z15 = X15 - Yis.Vypočteme rozdíly mezi cenou zboží A a cenou zboží B, čímž úlohu převedeme na jednovýběrový test. Výpočty uspořádáme do tabulky: č. prodejny cena zboží A cena zboží B rozdíl Irozdíl-mediánl pořadí 1 11 10 1 2 12 2 14 11 3 0 - 3 11 9 2 1 5,5 4 13 9 4 1 5,5 5 11 9 2 1 5,5 6 10 9 1 2 12 7 12 10 2 1 5,5 8 10 8 2 1 5,5 9 12 11 1 2 12 10 11 9 2 1 5,5 11 13 10 3 0 - 12 14 10 4 1 5,5 13 14 12 2 1 5,5 14 19 15 4 1 5,5 15 14 12 2 1 5,5 (Tučně jsou vytištěna pořadí pro kladné hodnoty rozdíl - medián.) Sw = 5,5 + 5,5 + 5,5 = 16,5, Sw" = 12 + 5,5 + 5,5 + 12 + 5,5 + 5,5 + 12 + 5,5 + 5,5 + 5,5 = 74,5, n = 13, a = 0,05, tabelovaná kritická hodnota = 17, testová statistika = min(Sw+, Sw") = min(16,5; 74,5) na hladině významnosti 0,05. 16,5. Protože 16,5 < 17, H0 zamítáme Výpočet pomocí systému STATISTIC A: Vytvoříme nový datový soubor se čtyřmi proměnnými A, B, rozdíl, konst a 15 případy. Do proměnných A, B napíšeme ceny zboží A a B, do proměnné rozdíl uložíme rozdíl cen A a B a do proměnné konst uložíme číslo 3. Statistiky - Neparametrická statistika - Porovnání dvou závislých vzorků - OK - 1. seznam proměnných rozdil, 2. seznam proměnných konst - OK - Wilcoxonův párový test. Dvojice proměnných Wilcoxonův párový test (ceny zbozi) Označené testy jsou významné na hladině p <,05000 Počet platných | T I Z I Úroveň p rozdil & konst 15 16,50000 2,026684| 0,042696 Testová statistika (zde označená jako T) nabývá hodnoty 16,5, asymptotická testová statistika (označená jako Z) nabývá hodnoty 2,026684, odpovídající asymptotická p-hodnota je 0,042696, tedy na asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme. Příklad (na asymptotickou variantu Wilcoxonova testu): 30 náhodně vybraných osob mělo nezávisle na sobě bez předchozího nácviku odhadnout, kdy od daného signálu uplyne právě 1 minuta. Byly získány následující výsledky (v sekundách): 53 48 45 55 63 51 66 56 50 58 61 51 64 63 59 47 46 58 52 56 61 57 48 62 54 49 51 46 53 58. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že medián rozložení, z něhož daný náhodný výběr pochází, je 60 sekund proti oboustranné alternativě (nulová hypotéza vlastně tvrdí, že polovina osob délku jedné minuty podhodnotí a druhá nadhodnotí). v Řešení: Testujeme H0: x0,5o = 60 proti oboustranné alternativě Hi: x0,5o i1 60. Obvyklým způsobem stanovíme statistiku Sw+ = 55. Asymptotická testová statistika: o +_-p(c +) C + n(n+l) g g 30(30+1) >->W 11 V3W / _ °W 4 _ JJ 4 U 30(30+l)(2.30+l) -3,65 Kritický obor: W = (- oo, - u 2 ) U (U 2 , oo) =(- oo, - u „ 975 ) U (u „ m , oo) =(- oo, - 1,96) U (l,96, oo) . Testová statistika se realizuje v kritickém oboru, tedy H0 zamítáme na asymptotické hladině významnosti 0,05. S rizikem omylu nejvýše 5% jsme tedy prokázali, že pravděpodobnost nadhodnocení jedné minuty není stejná jako pravděpodobnost podhodnocení. Výpočet pomocí systému STATISTIC A: Utvoříme nový datový soubor se dvěma proměnnými a 30 případy. Do proměnné odhad napíšeme zjištěné hodnoty a do proměnné konst uložíme číslo 60. Statistiky - Neparametrická statistika - Porovnání dvou závislých vzorků - OK - 1. seznam proměnných odhad, 2. seznam proměnných konst - OK - Wilcoxonův párový test. Dvojice proměnných Wilcoxonův párový test (odhad minuty) Označené testy jsou významné na hladině p <,05000 Počet platných | T 1 Z 1 Úroveň p odhad & konst 30 55,00000 3,650880| 0,000261 Testová statistika (zde označená jako T) nabývá hodnoty 55, asymptotická testová statistika (označená jako Z) nabývá hodnoty 3,65088, odpovídající asymptotická p-hodnota je 0,000261, tedy na asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme. Dvouvýběrové testy (Jedná se o neparametrickou obdobu dvouvýběrového t-testu) Dvouvýběrový Wilcoxonův test a jeho asymptotická varianta Nechť Xi, Xna Yi,Ym jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou lišit pouze posunutím. Označme x0 50 medián prvního rozložení a y0,5o medián druhého rozložení. Na hladině významnosti 0,05 testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné neboli mediány jsou shodné proti alternativě, že jsou rozdílné, tj. H0: x0,5o - yo,5o = 0 proti Hi: x0,5o - yo,so + 0. Postup provedení testu: a) Všech n + m hodnot Xi,Xn a Yi,Ym uspořádáme vzestupně podle velikosti. b) Zjistíme součet pořadí hodnot Xi, Xn a označíme ho Ti. Součet pořadí hodnot Yi,Ym označíme T2. c) Vypočteme statistiky U1 = mn + n(n+l)/2 - Ti , U2 = mn + m(m+l)/2 - T2. Přitom platí U1 + U2 = mn. d) Pokud miníUpl^) < tabelovaná kritická hodnota (pro dané rozsahy výběrů m, n a dané a), pak nulovou hypotézu o totožnosti obou distribučních funkcí zamítáme na hladině významnosti a. V tabulkách: n = min{m,n} a m = max{m,n}. Asymptotická varianta dvouvýběrového Wilcoxonova testu: Pro velká n, m (n, m > 30) lze využít asymptotické normality statistiky Ui. U — — Platí-li H0, pak U0 = 1 2 ^ N(0,1), kde Ui = min(U,,U9). r /mn(m+n+l) v 7 1 -2 V Í2 Kritický obor: pro oboustrannou alternativu W = (- <*>, - ux_al2) u (ux_al2,00), pro levostrannou alternativu W = (-oo,-Ul_a), pro pravostrannou alternativu W = (u!_„,«>) H0 zamítáme na asymptotické hladině významnosti a, když U0 e W. Předpoklady použití dvouvýběrového Wilcoxonova testu: - dané dva náhodné výběry jsou nezávislé - rozložení, z nichž dané dva náhodné výběry pocházejí, jsou spojitá - distribuční funkce těchto rozložení se mohou lišit pouze posunutím - sledovaná veličina má aspoň ordinální charakter (Není-li splněn předpoklad, že distribuční funkce se mohou lišit pouze posunutím, lze použít např. dvouvýběrový Kolmogorovův - Smirnovův test.) Příklad: Bylo vybráno 10 polí stejné kvality. Na čtyřech z nich se zkoušel nový způsob hnojení, zbylých šest bylo ošetřeno starým způsobem. Pole byla oseta pšenicí a sledoval se její hektarový výnos. Je třeba zjistit, zda nový způsob hnojení má týž vliv průměrné hektarové výnosy pšenice jako starý způsob hnojení, hektarové výnosy při novém způsobu: 51 52 49 55 hektarové výnosy při starém způsobu: 45 54 48 44 53 50 Test proveďte na hladině významnosti 0,05. v Řešení: Na hladině významnosti 0,05 testujeme H0: x0,5o - yo,5o = 0 proti oboustranné alternativě Hi: x0,5o - yo,5o i1 0. usp. hodnoty 44 45 48 49 50 51 52 53 54 55 pořadí x-ových hodnot 4 6 7 10 pořadí y-ových hodnot 1 2 3 5 8 9 T1 = 4 + 6 + 7 +10 = 27, T2 =1+2 + 3 + 5 + 8 + 9 = 28 U1 = 4.6 + 4.5/2 - 27 = 7, U2 = 4.6 + 6.7/2 - 28 = 17 Kritická hodnota pro a = 0,05, min(4,6) = 4, max(4,6) = 6 je 2. Protože min(7,17) = 7 > 2, nemůžeme na hladině významnosti 0,05 zamítnout hypotézu, že nový způsob hnojení má na hektarové výnosy pšenice stejný vliv jako starý způsob. Výpočet pomocí systému STATISTIC A: Utvoříme nový datový soubor se dvěma proměnnými a 10 případy. Do proměnné vynos napíšeme zjištěné hodnoty a do proměnné hnojeni napíšeme 4x číslo 1 pro nový způsob hnojení a 6x číslo 2 pro starý způsob hnojení. Statistiky - Neparametrická statistika - Porovnání dvou nezávislých vzorků - OK - Proměnné - Seznam závislých proměnných vynos, Nezáv. (grupov.) proměnná hnojeni - OK - M-W U test. Proměnná Mann-Whitneyův U test (vynos) Dle proměn, hnojeni Označené testy jsou významné na hladině p <,05000 Sčt poř. 1 Sčt poř. 1 U Z skup. 1 | skup. 2 | Úroveň p Z upravené Úroveň p N platn. N platn. I 2*1 str. skup. 1 skup. 2 | přesné p vynos 27,00000 28,00000 7,000000 1,066004 0,286423 1,066004 0,286423 4 6 0,352381 Ve výstupní tabulce jsou součty pořadí Ti, T2, hodnota testové statistiky min(Ui, U2) označená U, hodnota asymptotické testové statistiky U0 (označená Z), asymptotická p-hodnota pro U0 a přesná p-hodnota (ozn. 2*lstr. přesné p - ta se používá pro rozsahy výběrů pod 30). V našem případě přesná p-hodnota = 0,352381, tedy H0 nezamítáme na hladině významnosti 0,05. Výpočet je vhodné doplnit krabicovým diagramem. Je zřejmé, že výnosy při novém způsobu hnojení jsou vesměs nižší než při starém způsobu a také vykazují mnohem větší variabilitu. Dvouvýběrový Kolmogorovův - Smirnovův test Nechť X!,...,Xn a Y1,...,Ymjsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou lišit nejenom posunutím, ale také tvarem. Testujeme hypotézu H0: distribuční funkce těchto rozložení jsou shodné (tj. všech n + m veličin pochází z téhož rozložení) proti alternativě Hi: distribuční funkce jsou rozdílné. Nechť Fj(x) je výběrová distribuční funkce 1. výběru a F2(y) je výběrová distribuční funkce 2. výběru. Testová statistika d = max If^x) - F2(x)|. H0 zamítáme na hladině významnosti a, když d > dnm(a), kde dnm(a) je tabelovaná kritická hodnota. Pro větší rozsahy n,mlze kritickou hodnotu aproximovat vzorcem Jn + mln — . V 2nm a Příklad: Výrobce určitého výrobku se má rozhodnout mezi dvěma dodavateli polotovarů vyrábějících je různými technologiemi. Rozhodující je procentní obsah určité látky. 1. technologie: 1,52 1,57 1,71 1,34 1,68 2. technologie: 1,75 1,67 1,56 1,66 1,72 1,79 1,64 1,55 Na hladině významnosti 0,05 posuďte pomocí dvouvýběrového K-S testu, zdaje oprávněný předpoklad, že obě technologie poskytují stejné procento účinné látky. Výpočet pomocí systému STATISTIC A: Utvoříme nový datový soubor se dvěma proměnnými a 13 případy. Do proměnné X napíšeme zjištěné hodnoty a do proměnné ID napíšeme 5x číslo 1 pro první technologii a 8x číslo 2 pro starý druhou technologii. Statistiky - Neparametrická statistika - Porovnání dvou nezávislých vzorků - OK - Proměnné - Seznam závislých proměnných X, Nezáv. (grupov.) proměnná ID - OK - Kolmogorov-Smirnovův 2-výběrový test. Proměnná Max záp 1 rozdíl Max klad rozdíl Úroveň p Průměr 1 skup. 1 I Průměr skup. 2 | Sm.odch. Sm.odch. skup. 1 | skup. 2 N platn. I skup. 1 | N platn. skup. 2 obsah -0,400000 0,025000 p>.10 1,564000| 1,667500 0,147411 0,085147 5 8 Ve výstupní tabulce pro dvouvýběrový K-S test dostaneme maximální záporný a maximální kladný rozdíl mezi hodnotami obou výběrových distribučních funkcí, dolní omezení pro p-hodnotu (p > 0,1), průměry, směrodatné odchylky a rozsahy obou výběrů. Jelikož p-hodnota převyšuje hladinu významnosti 0,05, na této hladině nelze nulovou hypotézu zamítnout. Nechť je dáno r > 3 nezávislých náhodných výběrů o rozsazích nb ... , n.. Předpokládáme, že tyto výběry pocházejí ze spojitých rozložení. Označme n = n1 + ... + n. Na asymptotické hladině významnosti a chceme testovat hypotézu, že všechny tyto výběry pocházejí z téhož rozložení. Postup testu: a) Všech n hodnot seřadíme do rostoucí posloupnosti. b) Určíme pořadí každé hodnoty v tomto sdruženém výběru. c) Označme Tj součet pořadí těch hodnot, které patří do j-tého výběru, j = 1, r (kontrola: musí platit T1 + ... + T. = n(n+l)/2). 12 ^ T/ d) Testová statistika má tvar: Q = —-— X--3(n +1). Platí-li H0, má statistika Q asymptoticky rozložení y (r-1). n(n + l)^ n j e) Kritický obor: W = Va (r -1), oo). f) HQ zamítneme na asymptotické hladině významnosti a, když Q > Xi-a 2(r"l)- Příklad: V roce 1980 byly získány tři nezávislé výběry obsahující údaje o průměrných ročních příjmech (v tisících dolarů) čtyř sociálních skupin ve třech různých oblastech USA. jižní oblast: 6 10 15 29 pacifická oblast: 11 13 17 131 severovýchodní oblast: 7 14 28 25 Na hladině významnosti 0,05 testujte hypotézu, že příjmy v těchto oblastech se neliší. v Řešení: Výpočty uspořádáme do tabulky Usp. hodnoty 6 7 10 11 13 14 15 17 25 28 29 131 Pořadí 1.výběru 1 3 7 11 Pořadí 2.výběru 4 5 8 12 Pořadí 3.výběru 2 6 9 10 Ti = l + 3+7 + ll = 22, T2 = 4 + 5 + 8 + 12 = 29, T3 = 2 + 6 + 9 + 10 = 27 12 Q r rp Z. -3(n + l) 12 f 222 292 272^ ■ +-+ -3-13 = 0,5, n(n + l)^ lij ^ ' 12-13 ^ 4 4 4 y W = (%\-a (r - 1), oo) = (%20,95 (2), oo) = (5,99l,oo) Protože Q < 5,991, H0 nezamítáme na asymptotické hladině významnosti 0,05. Rozdíly mezi průměrnými ročními příjmy v uvedených třech oblastech se neprokázaly. Mediánový test Výchozí situace je stejná jako u K-W testu Postup testu: a) Všech n hodnot uspořádáme do rostoucí posloupnosti. b) Najdeme medián x0,5o těchto n hodnot. c) Označme Pj počet hodnot v j-tém výběru, které jsou větší nebo rovny mediánu x0,5o. d) Testová statistika má tvar QM = 4T—]—n . Platí-li H0, má statistika QM asymptoticky rozložení % (r-1). j=i ni d) Kritický obor: w = (%V« (r -1), °°). e) H0 zamítneme na asymptotické hladině významnosti a, když QM > Xi-a (r-l)- Příklad: Pro data o průměrných ročních příjmech proveďte mediánový test. Hladinu významnosti volte 0,05. v Řešení: Usp. hodnoty 6 7 10 11 13 14 15 17 25 28 29 131 Medián je průměr 6. a 7. uspořádané hodnoty: x0 14 + 15 50 14,5, V prvním výběru existují 2 hodnoty, které jsou větší nebo rovny 14,5, stejně tak i ve druhém a třetím výběru, tedy Pi = P2 = P3 = 2. Testová statistika: QM = 4^——n = 4 j=i ni -(22 +22 + 4V 22) -12 = 0 Kritický obor: w =(x2i-a(r-l),oo) = ^x20,95 (2),oo) = (5,991,oo) Protože QM < 5,991, H0 nezamítáme na asymptotické hladině významnosti 0,05. Metody mnohonásobného porovnávání Zamítneme-li hypotézu, že všechny náhodné výběry pocházejí z téhož rozložení, zajímá nás, které dvojice náhodných výběrů se liší na zvolené hladině významnosti. Testujeme H0: k-tý a 1-tý náhodný výběr pocházejí z téhož rozložení, k, 1 .., r, k ^ 1 proti Hi: aspoň jedna dvojice výběrů pochází z různých rozložení. a) Neményiho metoda (Peter Neményi 1927 - 2002: Americký matematik maďarského původu) - Všechny výběry mají týž rozsah p (třídění je vyvážené). - Vypočteme | Ti - Tk | . - V tabulkách najdeme kritickou hodnotu (pro dané p, r, a ). - Pokud | Ti - Tk > tabelovaná kritická hodnota, pak na hladině významnosti a zamítáme hypotézu, že 1-tý a k-tý výběr pocházejí z téhož rozložení. b) Obecná metoda mnohonásobného porovnávání Vypočteme n, n, Ve speciálních statistických tabulkách najdeme kritickou hodnotu hKw(a). Při větších rozsazích výběrů je možno ji nahradit kvantilem x,i-a 2(r"l)- Jestliže Tl Tk > 1 f 1 1 1 1 K — + — nl nk 12 n(n + l)hKW (a), pak na hladině významnosti a zamítáme hypotézu, že 1-tý a k-tý výběr pocházejí z téhož rozložení. Příklad: Čtyři laboranti provedli analytické stanovení procenta niklu v oceli. Každý hodnotil pět vzorků. Laborant A: 4,15 4,26 4,10 4,30 4,25 Laborant B: 4,38 4,40 4,29 4,39 4,45 LaborantC: 4,23 4,16 4,20 4,24 4,27 Laborant D: 4,41 4,31 4,42 4,37 4,43 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že všechny čtyři náhodné výběry pocházejí ze stejného rozložení. Pokud nulovou hypotézu zamítnete, zjistěte, které dvojice výběrů se liší. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o dvou proměnných a 20 případech. Do proměnné nikl napíšeme změřené hodnoty, do proměnné laborant napíšeme 5x1 pro 1. laboranta atd. až 5x4 pro 4. laboranta. Statistiky - Neparametrická statistika - Porovnání více nezávislých vzorků - OK - Seznam závislých proměnných nikl, Nezáv. (grupo vací) proměnná laborant - OK - Summary: Kruskal-Wallis ANO V A & Medián test. Ve dvou výstupních tabulkách se objeví výsledky K-W testu a mediánového testu. Kruskal-Wallisova ANOVA založ, na poř.; nikl (nikl v oceli Nezávislá (grupovací) proměnná laborant Kruskal-Wallisův test: H ( 3, N= 20) =13,77714 p =,0032 Závislá: Kód Počet Součet nikl platných pořadí 1 1 5 29,00000 2 2 5 75,00000 3 3 5 27,00000 4 4 5 79,00000 Mediánový test, celk. medián = 4,29500; nikl (nikl v oceli Nezávislá (grupovací) proměnná : laborant nikl 1 2 3 4 Celkem <= Medián: pozorov. 4,00000 1,00000 5,00000 0,00000 10,00000 očekáv. 2,50000 2,50000 2,50000 2,50000 poz.-oč. 1,50000 -1,50000 2,50000 -2,50000 > Medián: pozorov. 1,00000 4,00000 0,00000 5,00000 10,00000 očekáv. 2,50000 2,50000 2,50000 2,50000 poz.-oč. -1,50000 1,50000 -2,50000 2,50000 Celkem: oček. 5,00000 5,00000 5,00000 5,00000 20,00000 Oba testy zamítají hypotézu o shodě mediánů v daných čtyřech skupinách na asymptotické hladině významnosti 0,05. Nyní provedeme mnohonásobné porovnávání, abychom zjistili, které dvojice laborantů se liší. Zvolíme Vícenás. porovnání Závislá: nikl Vícenásobné porovnání p hod Nezávislá (grupovací) proměn Kruskal-Wallisův test: H ( 3, N not (oboustrr)[kl (nikl v oceli náaborant = 20) =13,77714 p =,0032 R:5,8000 2 R:15,000 3 R:5,4000 4 R:15,800 J_ 0,083641 1,00000í 0,04515? 2 0,083641 0,06177í 1,00000í 3 1,00000í 0,06177í 0,03266' 4 0,04515í 1,00000í 0,03266' Tabulka obsahuje p-hodnoty pro porovnání dvojic skupin. Vidíme, že na hladině významnosti 0,05 se liší laboranti A, D a laboranti C, D. Grafické znázornění výsledků Krabicový graf dle skupin Proměnná:nikl Porovnaní empirického a teoretického rozložení Osnova: - testy dobré shody pro diskrétní a spojité rozložení pň úplně i neúplně specifikovaném problému - jednoduchý test pro exponenciální a Poissonovo rozložení Motivace Možnost použití statistických testů je podmíněna nějakými předpoklady o datech. Velmi často je to předpoklad o typu rozložení, z něhož získaná data pocházejí. Mnoho testů je založeno na předpokladu normality. Opomíjení předpokladů o typu rozložení může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost. Testy dobré shody pro diskrétní a spojité rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1? Xn pochází z rozložení s distribuční funkcí x[j]- Testová statistika: K = ^ (n. -nPj)2 . Platí-li nulová hypotéza, pak K ~ x (r_l-pX kde p je počet odhadovaných parametrů daného rozložení. (Např. pro normální rozložení p = 2, protože z dat odhadujeme střední hodnotu a rozptyl.) Nulovou hypotézu zamítáme na asymptotické hladině významnosti a, když testová statistika K > x2i-a(r-l-p)- Aproximace se považuje za vyhovující, když teoretické četnosti npj > 5, j = 1,r. Upozornění: Hodnota testové statistiky K je silně závislá na volbě třídicích intervalů. Navíc při nesplnění podmínky npj > 5, j = 1,r je třeba některé intervaly resp. varianty slučovat, což vede ke ztrátě informace. Příklad: Testování shody empirického a teoretického rozložení při úplně specifikovaném problému Byl zjišťován počet poruch určitého zařízení za 100 hodin provozu ve 150 disjunktních 100 h intervalech. Výsledky měření: Počet poruch za 100 hodin provozu 0 1 2 3 4 a víc Absolutní četnost 52 48 36 10 4 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že náhodný výběr Xl5 X150 pochází z rozložení Po(l,2). Řešení: Pravděpodobnost, že náhodná veličina s rozložením Po(X), kde X - 1,2 bude nabývat hodnot 0, 1,4 a víc je J! Pj =— e " =—.re 1,2»j = 0,l,2,3,p4 =l-(p0+p1+p2+p3). Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j nj Pj npj (nj - npj)2/ npj 0 52 0,301 150.0,301=45,15 1,039 1 48 0,361 150.0,361=54,15 0,698 2 36 0,217 150.0,217=32,55 0,366 3 10 0,087 150.0,087=13,05 0,713 4 4 0,034 150.0,034=5,1 0,237 Podmínky dobré aproximace jsou splněny, všechny teoretické četnosti jsou větší než 5. K = 1,039 + 0,698 + 0,713 + 0,237 = 3,053, r = 5, x2o,9s(4) = 9,488. Protože 3,053 < 9,488, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTIC A: Načteme datový soubor poruchy.sta. Proměnná POČET obsahuje počet poruch, proměnná ČETNOST pak absolutní četnosti zjištěného počtu poruch. Statistiky - Prokládání rozdělení - Diskrétní rozdělení - Poissonovo - OK - Proměnná POČET - klikneme na ikonu se závažím - Proměnná vah ČETNOST - Stav Zapnuto - OK - záložka Parametry - Lambda 1,2 - Výpočet. Kategorie Proměnná: POČET, Rozdělení:Poissonovo, Lambda = 1,200 (poruchy.sta) Chí-kvadrát = 3,03371, sv = 3, p = 0,38646 Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. <= 0,00000 52 52 34,66667 34,6667 45,17914 45,1791 30,11943 36,14330 21,68598 8,67439 30,1194 66,2627 87,9487 96,6231 1,00000 48 100 32,00000 66,6667 54,21495 99,3941 2,00000 36 136 24,00000 90,6667 32,52897 131,9231 3,00000 10 146 6,66667 97,3333 13,01159 144,9347 < Nekonečno 4 150 2,66667 100,0000 5,06535 150,0000 3,37690 100,0000 V záhlaví výstupní tabulky je uvedena hodnota testového kritéria (3,03371), počet stupňů volnosti = 3 a p-hodnota (0,38646). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Počet stupňů volnosti 3 však neodpovídá tomu, že známe parametr X, ve skutečnosti je počet stupňů volnosti 4. Proto pro výpočet p-hodnoty otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména napíšeme =l-IChi2(3,03371;4). Dostaneme p-hodnotu 0,5522. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení - Základní výsledky - Graf pozorovaného a očekávaného rozdělení Proměnná: POČET, Rozdělení:Poissonovo, Lambda = 1,20000 Chí-kvadrát test = 3,03371, sv = 3, p = 0,38646 Kategorie (horní meze) V grafu jsou patrné určité rozdíly mezi hodnotami pravděpodobnostní a četnostní funkce, ale tyto rozdíly nejsou příliš velké. Příklad: Testování shody empirického a teoretického rozložení při neúplně specifikovaném problému Počet branek 0 1 2 3 4 a víc Počet zápasů 19 30 17 10 8 Na hladině významnosti 0,05 testujte hypotézu, že jde o výběr z Poissonova rozložení. Výpočet pomocí systému STATISTICA: Načteme datový soubor branky.sta. Proměnná POČET obsahuje počet vstřelených branek, proměnná ČETNOST pak počet zápasů, v nichž bylo dosaženo zjištěného počtu branek. Statistiky - Prokládání rozdělení - Diskrétní rozdělení - Poissonovo - OK - Proměnná POČET - klikneme na ikonu se závažím - Proměnná vah ČETNOST - Stav Zapnuto - OK - Výpočet. < Nekonečno Proměnná: POČET, Rozdělení:Poissonovo, Lambda = 1,500 (branky.sta) Chí-kvadrát = 2,07051, sv = 3, p = 0,55790_ Pozorované Kumulativ. Procent Kumul. % Očekáv. Kumulativ. Procent Kumul. % Četnosti Pozorované Pozorované Pozorované Četnosti Očekáv. Očekáv. Očekáv. 19 30 17 10 19 49 66 76 84 22,61905 35,71429 20,23810 11,90476 9,52381 22,6190 18,74294 58,3333 28,11440 78,5714 21,08580 90,4762 10,54290 18,74294 22,31302 22,3130 46,85733 33,46952 55,7825 67,94313 25,10214 80,8847 78,48603 12,55107 100,0000 5,51397 84,00000 6,56424 93,4358 100,00001 V tomto případě je parametr X Poissonova rozložení neznámý, je odhadnut pomocí výběrového průměru a odhad činí 1,5. Dále je v záhlaví výstupní tabulky uvedena hodnota testového kritéria (Chí kvadrát = 2,07051), počet stupňů volnosti r-p-1 = 5-1-1 = 3a p-hodnota (0,5578). Nulová hypotéza se tedy nezamítá na asymptotické hladině významnosti 0,05. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení - Základní výsledky - Graf pozorovaného a očekávaného rozdělení. Poznámka k testu dobré shody: Tento test může být použit i v těch případech, kdy rozložení, z něhož daný náhodný výběr pochází, neodpovídá nějakému známému rozložení (např. exponenciálnímu, normálnímu, Poissonovu, ...), aleje určeno intuitivně nebo na základě zkušenosti. Příklad: Ve svých pokusech pozoroval J.G. Mendel 10 rostlin hrachu a na každé z nich počet žlutých a zelených semen. Výsledky pokusu: číslo rostliny 1 2 3 4 5 6 7 8 9 10 počet žlutých semen 25 32 14 70 24 20 32 44 50 44 počet zelených semen 11 7 5 27 13 6 13 9 14 18 celkem 36 39 19 97 37 26 45 53 64 62 Z genetických modelů vyplývá, že pravděpodobnost výskytu žlutého semene by měla být 0,75 a zeleného 0,25. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že výsledky Mendelových pokusů se shodují s modelem. v Řešení: Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. j nj Pj nPj - npj)2/ npj 1 25 0,75 36.0,75=27 0,148148 2 32 0,75 39.0,75=29,25 0,258547 10 44 0,75 62.0,75=46,5 0,134409 K = 0,148148 + 0,258547 + ... + 0,134409 = 1,797495, r = 10, x o,95(9) = 16,9. Protože 1,797495 < 16,9, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTIC A: Načteme datový soubor Mendel hrach.sta. Proměnná celkem obsahuje celkový počet semen, X obsahuje pozorovaný počet žlutých semen a Y vypočítané teoretické četnosti žlutých semen (v našem případě X*0,75). Statistiky - Neparametrická statistika - Pozorované versus očekávané % - OK - Pozorované četnosti X, Očekávané četnosti Y - OK - Výpočet. Dostaneme tabulku: Pozorované vs. očekávané četnosti (Mendel hrach.sta Chi-Kvadr. = 1,797495 sv = 9 p = ,994280 POZN.: Nestejné součty pozor, a oček, četností_ pozorov. očekáv. P-0 (P-0)A2 Případ X Y 10 C 1 25,0000 27,0000 -2,00000 0,148148 C 2 32,0000 29,2500 2,75000 0,258547 C 3 14,0000 14,2500 -0,25000 0,004386 C 4 70,0000 72,7500 -2,75000 0,103952 C 5 24,0000 27,7500 -3,75000 0,506757 C 6 20,0000 19,5000 0,50000 0,012821 C 7 32,0000 33,7500 -1,75000 0,090741 C 8 44,0000 39,7500 4,25000 0,454403 C 9 50,0000 48,0000 2,00000 0,083333 C 10 44,0000 46,5000 -2,50000 0,134409 Sčt 355,0000 358,5000 -3,50000 1,797495 Ve výstupní tabulce najdeme hodnotu testové statistiky (Chi-Kvadr = 1,797495), počet stupňů volnosti (sv = 9) a odpovídající p-hodnotu, kterou porovnáme se zvolenou hladinou významnosti. V našem případě je p-hodnota 0,99428, takže nulová hypotéza se nezamítá na asymptotické hladině významnosti 0,05. Příklad: Při 60 hodech kostkou jsme dosáhli těchto výsledků: 9 x jednička, 11 x dvojka, 10 x trojka, 13 x čtyřka, 11 x rjětka a 6 x šestka. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že kostka je homogenní. Řešení: n = 60 j P] npj (ni - npO2 (ní - npO2/ npi 1 9 1/6 10 1 1/10 2 11 1/6 10 1 1/10 3 10 1/6 10 0 0 4 13 1/6 10 9 9/10 5 11 1/6 10 1 1/10 6 6 1/6 10 16 16/10 K = 2,8, r = 6, p = 0, % o,9s(5) = 11,07. Protože K < 11,07, H0 nezamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor kostka.sta. Proměnná X obsahuje pozorované četnosti jednotlivých čísel 1, ...,6a proměnná Y obsahuje teoretické četnosti (v našem případě 10). Statistiky - Neparametrická statistika - Pozorované versus očekávané % - OK - Pozorované četnosti X, Očekávané četnosti Y - OK - Výpočet. Dostaneme tabulku: Pozorované vs. očekávané četnosti (kostka.sta' Chi-Kvadr. = 2,800000 sv = 5 p = ,730786 Případ pozorov. X očekáv. Y P-0 (P-0)A2 10 C 1 9,00000 10,00000 -1,00000 0,100000 C 2 11,00000 10,00000 1,00000 0,100000 C 3 I 10,00000 10,00000 0,00000 0,000000 C 4 13,00000 10,00000 3,00000 0,900000 C 5 11,00000 10,00000 1,00000 0,100000 C 6 6,00000 10,00000 -4,00000 1,600000 Sčt 60,00000 60,00000 0,00000 2,800000 Ve výstupní tabulce najdeme hodnotu testové statistiky (Chi-Kvadr = 2,8), počet stupňů volnosti (sv = 5) a odpovídající p-hodnotu, kterou porovnáme se zvolenou hladinou významnosti. V našem případě je p-hodnota 0,730786, takže nulová hypotéza se nezamítá na asymptotické hladině významnosti 0,05. Příklad: Ze záznamů autosalónu byl ve 100 náhodně vybraných dnech zjištěn počet prodaných aut. Počet prodaných aut za den 0 1 2 3 4 5 a víc Počet dnů 9 43 29 11 5 3 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že počet prodaných aut za den se řídí Poissonovým rozložením. Řešení: Parametr X Poissonova rozložení neznáme, odhadneme ho pomocí výběrového průměru. m = -^njx[j]=^(0-9 + l-43 + 2-29 + 311 + 4- 5 + 5- 3) = l,7 = X. Pravděpodobnost, že náhodná veličina X ~ Po(l,7) bude j=i nabývat hodnot pj, j = 0,1,2,3,4,5 a víc, je p j 1JI-e-».J: J i! 0,1,2,3,4,p5 =l-(p0 +Pi +p2 +p3 +p4) .i ni Pi npj (nj - npj)2 (nj - npj)2/ npj 0 9 0,1827 18,27 85,9329 4,7035 1 43 0,3106 31,06 142,5636 4,5899 2 29 0,264 26,4 6,76 0,2561 3 11 0,1496 14,96 15,6816 1,0482 4 5 0,0636 6,36 1,8496 0,2908 5 a víc 3 0,0296 2,96 0,0016 0,0005 Vidíme, že není splněna podmínka dobré aproximace. Sloučíme proto varianty 4 a 5 10 j ni Pi npj (nj - npj)2 (nj - npj)2/ npj 0 9 0,1827 18,27 85,9329 4,7035 1 43 0,3106 31,06 142,5636 4,5899 2 29 0,264 26,4 6,76 0,2561 3 11 0,1496 14,96 15,6816 1,0482 4 a víc 8 0,0932 9,32 1,7424 0,1869 r = 5,p= l,x o,9s(3) = H0 zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Načteme datový soubor autosalon.sta. Proměnná POČET obsahuje počet prodaných aut, proměnná ČETNOST pak počet dnů, v nichž byl prodán zjištěný počet aut. Statistiky - Prokládání rozdělení - Diskrétní rozdělení - Poissonovo - OK - Proměnná POČET - klikneme na ikonu se závažím - Proměnná vah ČETNOST - Stav Zapnuto - OK - Výpočet. Kategorie Proměnná: POČET, RozděleníiPoissonovo, Lambda = 1,69000 (autosalon.sta) Chí-kvadrát = 10,73029, sv = 3 (uprav.) , p = 0,01328 Pozorované Četnosti Kumulativ. Pozorované Procent Pozorované Kumul. % Pozorované Očekáv. Četnosti Kumulativ. Očekáv. Procent Očekáv. Kumul. % Očekáv. <= 0,00000 9 9 9,00000 9,0000 18,45196 18,4520 18,45196 18,4520 1,00000 43 52 43,00000 52,0000 31,18380 49,6358 31,18380 49,6358 2,00000 29 81 29,00000 81,0000 26,35031 75,9861 26,35031 75,9861 3,00000 11 92 11,00000 92,0000 14,84401 90,8301 14,84401 90,83"ÔTT 4,00000 5 _97 5,00000 97,0000 6,27159 97,1017 6,27159 97,1017 < Nekonečno 3 100 3,00000 100,0000 2,89834 100,0000 2,89834 ioo,oooo| V záhlaví výstupní tabulky uvedena hodnota testového kritéria (10,73029), počet stupňů volnosti 3 a p-hodnota (0,01328). Nulová hypotéza se tedy zamítá na asymptotické hladině významnosti 0,05. Vidíme, že nesouhlasí počet stupňů volnosti, měl by být 4. Proto p-hodnotu vypočteme zvlášť. Otevřeme nový datový soubor o jedné proměnné a jednom případu. Do Dlouhého jména napíšeme =l-IChi2(10,73029;4). Dostaneme p-hodnotu 0,0298. Pro vytvoření grafu se vrátíme do Proložení diskrétních rozložení - Základní výsledky - Graf pozorovaného a očekávaného rozdělení. I •| 30 -G o 25 ■ 1 Proměnná: POČET, Rozdělení:Poissonovo, Lambda= 1,6900C Chí-kvadrát test = 10,73029, sv = 3 (uprav.), p = 0,01328 V tomto případě jsou patrné značné rozdíly mezi pozorovanými a teoretickými četnostmi. Jednoduchý test exponenciálního rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr Xi, Xn pochází z exponenciálního rozložení. Označme M výběrový průměr a S výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Ex(X) je E(X) = l/A, a rozptyl je D(X) = l/ť. (n-l)S2 2 Test založíme na statistice K = ———, která se v případě platnosti H0 asymptoticky řídí rozložením % (n-1). Kritický obor: W = (0,%2«/2(n -l))u(%2i-«/2(n -1),°°). Jestliže Kg W, H0zamítáme na asymptotické hladině významnosti a. Příklad: Byla zkoumána doba životnosti 45 součástek (v hodinách). Zjistili jsme, že průměrná doba životnosti činila m = 99,93 h a rozptyl s2 = 7328,91 h2. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z exponenciálního rozložení. v Rešení: Testová statistika: K = = = 32,2924 M 99,932 Kritický obor: W = (o,%\n(n -1)) u (%2i-a/2 (n -l),oo) = (o, %20,o25 (44)} u (%20,975 (44),«>) = (0,27,575) u (64,202,oo) Protože se testová statistika nerealizuje v kritickém oboru, hypotézu o exponenciálním rozložení nezamítáme na asymptotické hladině významnosti 0,05. Jednoduchý test Poissonova rozložení Testujeme hypotézu, která tvrdí, že náhodný výběr X1? Xn pochází z Poissonova rozložení. Označme M výběrový průměr a S výběrový rozptyl tohoto náhodného výběru. Víme, že střední hodnota náhodné veličiny X ~ Po(X) je E(X) = X a rozptyl je D(X) = X. , která se v případě platnosti H0 asymptoticky řídí rozložením x2(n-l). Test založíme na statistice K = M Kritický obor: W = (o,x2«/2(n -l)) u (x2i-«/2(n -l),°o). Příklad: Studujeme rozložení počtu pacientů, kteří během 75 dnů přijdou na pohotovost. Osmihodinovou pracovní dobu rozdělíme do půlhodinových intervalů a v každém intervalu zjistíme počet příchozích pacientů: Počet pacientů 0 1 2 3 4 5 6 7 8 9 10 Pozorovaná četnost 79 188 282 275 196 114 45 10 7 3 1 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z Poissonova rozložení. v Řešení: Nejprve musíme vypočítat realizaci výběrového průměru a výběrového rozptylu: = —!—(0-79+ 1-188 + ... + 10-1) = 2,803 m 1200 — [79 • (O - 2,803 f +188 • (l - 2,803 f +... +1 • (lO - 2,803 f ] = 2,708579 1199 Q^= 1199-2.708579 M 2,803 Kritický obor: W = (o,%2«/2 (n -1)} u (%2i-«/2 (n - l),oo) = (0;1104,93) u (1296,86; 00), H0 nezamítáme na asymptotické hladině významnosti 0,05. Příklad: V systému hromadné obsluhy byla sledována doba obsluhy 70 zákazníků (v min). Výsledky jsou uvedeny v tabulce rozložení četností: Doba obsluhy Počet zákazníků (0, 3] 14 (3,6] 16 (6,9] 10 (9,12] 9 (12,15] 8 (15,18] 5 (18,21] 3 (21,24] 5 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že daný náhodný výběr pochází z exponenciálního rozložení. Použijte: a) test dobré shody, b) jednoduchý test exponenciálního rozložení Řešení: Testujeme H0: náhodný výběr Xi, ..., X70 pochází z Ex(X) proti Hi: non H0. Ad a) Nejprve odhadneme parametr X exponenciálního rozložení: X 1 m rÉnjxD] =^(14-1,5 + 16-4,5 + ... + 5-22,5) 0,1122 j=o Pravděpodobnost, že náhodná veličina s rozložením Ex(X), kde X - 0,1122 se bude realizovat v intervalu (uj5uj+1) je Pj = 0(uj+i) - O(uj), j = 1, ..., r, kde <ř(x) = 1 - . Výpočty potřebné pro stanovení testové statistiky K uspořádáme do tabulky. (uj>uj+l) x[j] nj Pj npj (0, 3] 1,5 14 0,2858 20,0033 (3,6] 4,5 16 0,2041 14,2871 (6,9] 7,5 10 0,1458 10,2044 (9,12] 10,5 9 0,1041 7,2884 (12,15] 13,5 8 0,0744 5,2056 (15,18] 16,5 5 0,0531 3,7181 (18,21] 19,5 3 0,0378 2,6556 (21,24] 22,5 5 0,0271 1,8967 Podmínky dobré aproximace nejsou splněny, sloučíme tedy intervaly (15,18], (18,21] a (21,24]. (uj>uj+l) x[j] nj Pj nPj (^ - npj)2/ npj (0, 3] 1,5 14 0,2858 20,0033 1,8017 (3,6] 4,5 16 0,2041 14,2871 0,2054 (6,9] 7,5 10 0,1458 10,2044 0,0041 (9,12] 10,5 9 0,1041 7,2884 0,4020 (12,15] 13,5 8 0,0744 5,2056 1,5000 (15,24] 19,5 13 0,1181 8,2704 2,7047 Testová statistika K = 1,8017 + ... + 2,7047 = 6,6178, r = 6,p = l,r-p-l=4, x2o,95(4) = 9,4877. Testová statistika se nerealizuje v kritickém oboru W = (9,4877, oo), na asymptotické hladině významnosti 0,05 nelze zamítnout hypotézu, že doba obsluhy se řídí exponenciálním rozložením. Ad b) Jednoduchý ,es, exponent —ní je zaMen „a stads.iee K - . která se v pHpadé pla,„oSti * IVT asymptoticky řídí rozložením % (n-1). Kritický obor: W = (0,%2«/2(n -l))u(%2i-«/2(n -l),°°). Nejprve musíme vypočítat realizaci výběrového průměru a výběrového rozptylu: -(14 -1,5 +16 -4,5 + ... + 5 -22,5) = 8,9143 41,1447 70 s2 = —[l9 • (1,5 - 8,9143)2 +16 • (4,5 - 8,9143)2 +... + 5 • (22,5 - 8,9143)2 69 K=(n-^1=69.41,1447=3 M2 8,91432 Kritický obor: W = (o, %2a/2(n -1)} u (%2i-«/2(n -l),oo) = (o, %2o,o25 (69)) u (%2o,975 (69),oo) = (0;47,9242) u (93,8565,oo). H0 zamítáme na asymptotické hladině významnosti 0,05. Hodnocení kontingenčních tabulek Osnova: zavedení kontingenční tabulky testování hypotézy o nezávislosti a měření síly závislosti test homogenity analýza čtyřpolních tabulek Motivace Při zpracování dat se velmi často setkáme s úkolem zjistit, zda dvě náhodné veličiny nominálního typu jsou stochasticky nezávislé. Např. nás může zajímat, zda ve sledované populaci je barva očí a barva vlasů nezávislá. Zpravidla chceme také zjistit intenzitu případné závislosti sledovaných dvou veličin. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1. Čím je takový koeficient bližší 1, tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. Kontingenční tabulky Nechť X, Y jsou dvě nominální náhodné veličiny (tj. obsahová interpretace je možná jenom u relace rovnosti). Nechť X nabývá variant % ...,x[r]aY nabývá variant y[i], y[s]. Označme: 71 jk = P(x = x[j] a Y = y[k]) ... simultánní pravděpodobnost dvojice variant (xrjj, y[k]) 71. = p(x = xj ... marginální pravděpodobnost varianty 7Ck =p(Y = y[k]) ... marginální pravděpodobnost varianty y[k] Simultánní a marginální pravděpodobnosti zapíšeme do kontingenční tabulky: y y[i] •• • y[s] "i. X 7% X[l] 7ln .. • 7lis 7ll. Xfrl 7lri .. • ítis Tl.i •• • ít.s 1 Pořídíme dvourozměrný náhodný výběr (Xi, Yi), (Xn, Yn) rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X, Y). Zjištěné absolutní simultánní četnosti njk dvojice variant (x^, y[k]) uspořádáme do kontingenční tabulky: y y[i] •• ym nj. X njk X[l] nn .. nis nL Xírl nri .. nrs nr. n.i .. n.s n nj. = n_ji + ... + njs je marginální absolutní četnost varianty x^ n.k = nik + ... + nrk je marginální absolutní četnost varianty y[k] Simultánní pravděpodobnost 7ijk odhadneme pomocí simultánní relativní četnosti pjk nj n k a 7i k odhadneme pomocí marginálních relativních četností p j = — a p k = —^. n n n jk n , marginální pravděpodobnosti jij. Pořídíme dvourozměrný náhodný výběr (Xi, Yi), (Xn, Yn) rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X, Y). Zjištěné absolutní simultánní četnosti njk dvojice variant (xrjj, y[k]) uspořádáme do kontingenční tabulky: y y[i] •• ym nj. X X[l] nn .. nis nL Xírl nri nrs nr. n.i .. n.s n nj. = n_ji + ... + njs je marginální absolutní četnost varianty Xrjj n.k = nik + ... + nrk je marginální absolutní četnost varianty y[k] Simultánní pravděpodobnost % odhadneme pomocí simultánní relativní četnosti pjk nj n k a 7i k odhadneme pomocí marginálních relativních četností p j = — a p k = —^. n n n jk n , marginální pravděpodobnosti jij. Testování hypotézy o nezávislosti Testujeme nulovou hypotézu H0: X, Y jsou stochasticky nezávislé náhodné veličiny proti alternativě Hi: X, Y nejsou stochasticky nezávislé náhodné veličiny. Kdyby náhodné veličiny X, Y byly stochasticky nezávislé, pak by platil multiplikativní vztah n Jk Vj = l,...,r, Vk = l,...,s: 7ijk = 7ij 7ik neboli — = —1 n n n >tj. n jk n = nk . n = nk ^-L. Číslo -J^JL n n se nazývá teoretická četnost dvojice variant (xB], y[k]). Testová statistika: j=l k=l njk" njn.k n njn.k n Platí-li H0, pak K se asymptoticky řídí rozložením % ((r-l)(s-l)). Kritický obor: w = (%Y« ((r - l)(s -1)),«,). Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti a, když K > x2i-a((r-l)(s-l)). Podmínky dobré aproximace Rozložení statistiky K lze aproximovat rozložením % ((r-l)(s-l)), pokud teoretické četnosti njnk n aspoň v 80% případů na- bývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna podmínka dobré aproximace, doporučuje se slučování některých variant. Měření síly závislosti Cramérův koeficient: v = I———, kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je k 1, tím je \ n(m-l) závislost mezi X a Y těsnější, čím blíže je k 0, tím je tato závislost volnější. Význam hodnot Cramérova koeficientu: mezi 0 až 0,1 ... zanedbatelná závislost, mezi 0,1 až 0,3 ... slabá závislost, mezi 0,3 až 0,7 ... střední závislost, mezi 0,7 až 1 ... silná závislost. Carl Harald Cramér (1893 - 1985): Švédský matematik Příklad V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen náhodný výběr rozsahu 360. Mimo jiné se zjišťovala sociální skupina, ze které uchazeč pochází (veličina X) a typ školy, na kterou se hlásí (veličina Y). Výsledky jsou zaznamenány v kontingenční tabulce: Sociální skupina Typ školy nj. univerzitní technický ekonomický I 50 30 10 90 II 30 50 20 100 III 10 20 30 60 IV 50 10 50 110 140 110 110 360 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální skupiny. Vypočtěte Cramé-rův koeficient. Řešení: Sociální skupina Typ školy nJ. univerzitní technický ekonomický I 50 30 10 90 II 30 50 20 100 III 10 20 30 60 IV 50 10 50 110 n.k 140 110 110 360 90 140 n 360 n2n.l 100 140 n 360 n3n.i 60 140 n 360 n4n.l 110-140 90-110 =27An^ 38,9,- 360 100 110 360 = 23,3, n3.n2 360 60110 30,6, 90110 360 , 100110 = 42,8,- 360 110110 360 = 18,3, n3 n 3 = 33,6, 360 60110 360 110110 = 27,5, 30,6, 360 = 18,3, = 33,6 Vidíme, že podmínky dobré aproximace jsou splněny, všechny teoretické četnosti převyšují číslo 5. Dosadíme do vzorce pro testovou statistiku K: K_(50-35)2 | (30-27,5)2 | | (50-33,6)2 _?6g1 35 27,5 "' 33,6 Dále stanovíme kritický obor: W = (x2i-a ((r - l)(s -1)), oo) = (X20,95 ((4 -1)(3 -1)), oo) = (X20,95 (6),») = (l2,6,») Protože K e W, hypotézu o nezávislosti typu školy a sociální skupiny zamítáme na asymptotické hladině významnosti 0,05. Vypočteme Cramérův koeficient: v =. f 76,4 360-2 = 0,3267. Hodnota Cramérova koeficientu svědčí o tom, že mezi veličinami X a Y existuje středně silná závislost. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o třech promě ;nných (X - sociální skupina, Y - typ školy, četnost) a 12 případech: 1 2 3 X Y četnost 1 I univerzitní 50 2 I technický 30 3 I ekonomický 10 4 II univerzitní 30 5 II technický 50 6 II ekonomický 20 7 III univerzitní 10 8 III technický 20 9 III ekonomický 30 10 IV univerzitní 50 11 IV technický 10 12 IV ekonomický 50 Statistiky - Základní statistiky/tabulky - OK - Specif. Tabulky - List 1 X, List 2 Y - OK, zapneme proměnnou vah četnost - OK, Výpočet - na záložce Možnosti zaškrtneme Očekávané četnosti. Dostaneme kontingenční tabulku teoretických četností: Souhrnná tab.: Očekávané četnosti (typ školy) Četnost označených buněk > 10 Pearsonův chí-kv. : 76,8359, sv=6, p=,000000 X Y univerzitní Y technický ■ H ekonomický Řádk. součty I 35,0000 27,5000 27,5000 90,0000 II 38,8889 30,5556 30,5556 100,0000 III 23,3333 18,3333 18,3333 60,0000 IV 42,7778 33,6111 33,6111 110,0000 Vš.skup. 140,0000 110,0000 110,0000 360,0000 Všechny teoretické četnosti jsou větší než 5, podmínky dobré aproximace jsou splněny. V záhlaví tabulky je uvedena hodnota testové statistiky K = 76,8359, počet stupňů volnosti 6 a odpovídající p-hodnota. Je velmi blízká 0, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o nezávislosti typu školy a sociální skupiny. Hodnotu testové statistiky a Cramérův koeficient dostaneme také tak, že na na záložce Možnosti zaškrtneme Pearsonův & M-V chí kvadrát a Cramérovo V, na záložce Detailní výsledky vybereme Detailní 2 rozm. tabulky. Test homogenity v tabulce typu 2 x s Máme kontingenční tabulku, v níž veličina X má jen dvě varianty a veličina Y s variant: y V[l] •• • y[S] X X[l] 7ln .. • Ttls XÍ21 TÍ21 .. • 7t2s TC.k 71.1 •• • 7t.s 1 Pořídíme dvourozměrný náhodný výběr (Xi, Yi), (Xn, Yn) rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X, Y). Zjištěné absolutní simultánní četnosti njk dvojice variant (xrjj, y[k]) uspořádáme do kontingenční tabulky: y ym •• • Ym nj. X X[l] nu .. • nis ni. XÍ21 n2i • n2s n2. n.i .. • n.s n Na asymptotické hladině významnosti a testujeme hypotézu H0:Jirk = 7i2k, k = 1, 2, ..., s proti alternativě Hi: aspoň jedna dvojice pravděpodobností se liší. Na problém lze pohlížet tak, že máme s nezávislých náhodných výběrů z alternativních rozložení, přičemž první má rozsah ni = nu + n2i a pochází z rozložení A^), .... , s-tý má rozsah ns = nis + n2s a pochází z rozložení A(ůs). Testujeme hypotézu H0: ůx =... = ůs proti alternativě Hi: non H0. V kapitole o hodnocení náhodných výběrů z alternativních rozložení jsme použili testovou statistiku: Q= 1 J n ■ (M j - M, )2 « x2 (s -1), když H0 platí. M,(l-M,)jľ? Kritický obor: W = |x2i-« (s -1),°°) H0 tedy zamítáme na asymptotické hladině významnosti a, když QeW. Přitom M, výběrových průměrů. 'V s o n je vazený prumer 2 s Nyní použijeme testovou statistiku njk" njn.k n j=i k=i nj-n-k n , stejně jako u testu nezávislosti. Lze dokázat, že při výše uvedeném označení jsou statistiky Q a K totožné. Tedy test homogenity lze provést stejně jako test nezávislosti. Tato statistika se v případě platnosti nulové hypotézy asymptoticky řídí rozložením x2(s-l). Kritický obor: W = (x2i a(s -l), Nulovou hypotézu zamítáme na asymptotické hladině významnosti a, když Ke W. Příklad: 104 náhodně vybraných matek bylo dotázáno, zda jejich kojenec dostává dudlík. Zjišťoval se též nej vyšší stupeň dosaženého vzdělání matky. Vzdělání matky Počet matek Počet dětí s dudlíkem ZS 39 27 ss 47 34 vs 18 15 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že používání dudlíku nezávisí na vzdělání matky. (Jedná se o příklad 8.6.2. ze skript Základní statistické metody. Zde je uvedeno, že testová statistika Q se realizuje hodnotou 1,267, kritický obor je W = (5,992,oo), tedy nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05.) Matka ZŠ Matka SŠ Matka VŠ ni. Dudlík ano 27 34 15 76 Dudlík ne 12 13 3 28 39 47 18 104 Ověříme splnění podmínek dobré aproximace: n j n 7"9 = 28,5,^i 76 18 =4,85, BlS, ^ = 28,5,^ 104 n 28-47 =3935 n2.n3 = 28-18 104 ' ' n 104 n 104 n 104 n 104 n Podmínky dobré aproximace jsou splněny, pouze v 1 případě ze 6 je teoretická četnost menší než 5. Dosadíme do vzorce pro testovou statistiku K: K = (27-28-5'2 + <34-'2-M)2 +...+ (3-'3J5)2 =1,2686 28,5 12,65 13,15 Kritický obor: W = (x2i-<* (s - l),°o) = (%20,95 (2),«») = (5,992,oo) Na asymptotické hladině významnosti 0,05 se tedy neprokázalo, že používání dudlíku závisí na vzdělání matky. = 13,15 Čtyřpolní tabulky Nechť r = s = 2. Pak hovoříme o čtyřpolní kontingenční tabulce a používáme označení: nu = a, ni2 = b, n2i = c, n22 = d. X I Y U _iiiLim__ xri1 a b a+b xr21 c d c+d nk|a+c|b+d| n Test nezávislosti ve čtyřpolní tabulce Testovou statistiku pro čtyřpolní kontingenční tabulku lze zjednodušit do tvaru: K= n(ad-bc)2 (a + b)(c + d)(a + c)(b + d)' Platí-li hypotéza o nezávislosti veličin X, Y, pak K se asymptoticky řídí rozložením % (1). Kritický obor: W = (%2i-a(l),°°) Nulovou hypotézu zamítáme na asymptotické hladině významnosti a, když Ke W. Povšimněte si, že za platnosti hypotézy o nezávislosti ad = bc. Pro čtyřpolní tabulku navrhl R. A. Fisher přesný (exaktní) test nezávislosti známý jako Fisherův faktoriálový test. f f Sir Ronald Aylmer Fisher (1890 - 1962): Britský statistik a genetik. (Fisherův přesný test je popsán např. v knize K. Zvára: Biostatistika, Karolinum, Praha 1998. Princip spočívá v tom, že pomocí kombinatorických úvah se vypočítají pravděpodobnosti toho, že při daných marginálních četnostech dostaneme tabulky, které se od nulové hypotézy odchylují aspoň tak, jako daná tabulka.) Upozornění: STATISTICA poskytuje p-hodnotu pro Fisherův přesný test. Jestliže vyjde p < a, pak hypotézu o nezávislosti zamítáme na hladině významnosti a. Příklad: V náhodném výběru 50 obézních dětí ve věku 6-14 let byla zjišťována obezita rodičů. Veličina X - obezita matky, veličina Y - obezita otce. Výsledky průzkumu jsou uvedeny v kontingenční tabulce: X Y % ano ne ano 15 9 24 ne 7 19 26 n.k 22 28 50 Pomocí Fisherova exaktního testu ověřte, zda lze na hladině významnosti 0,05 zamítnout hypotézu o nezávislosti náhodných veličin X a Y. Výpočet pomocí systému STATISTIC A: Vytvoříme datový soubor o třech proměnných X, Y (varianty 0 neobézní, 1 - obézní) a četnost a čtyřech případech: 1 2 3 X Y četnost "I obézní obézní 15 2 obézní neobézní 9 3 neobézní obézní 7 4 neobézní neobézní 19 Statistiky - Základní statistiky/tabulky - OK - Specif. Tabulky - List 1 X, List 2 Y - OK, zapneme proměnnou vah četnost OK, Výpočet - na záložce Možnosti zaškrtneme Fisher exakt, Yates, McNemar (2x2). Dostaneme výstupní tabulku: rodicu] Statist. : X(2) x Y(2) (obezita Statist. Chí-kvadr. sv P Pearsonův chí-kv. 6,410777 df=1 p=,01134 M-V chí-kvadr. 6,548348 df=1 p=,01050 Yatesův chí-kv. 5,048207 df=1 p=,02465 Fisherův přesný, 1 -str. p=,01188 2-stranný p=,02163 McNemarův chí-kv. (A/D) ,2647059 df=1 p=,60691 (B/C) ,0625000 df=1 p=,80259 Vidíme, že p-hodnota pro Fisherův exaktní oboustranný test je 0,02163, tedy na hladině významnosti 0,05 zamítáme hypotézu, že obezita matky a otce spolu nesouvisí. Test homogenity ve čtyřpolní tabulce Na asymptotické hladině významnosti a testujeme hypotézu H0: 7iik = 7t2k, k = 1, 2 proti alternativě Hi: aspoň jedna dvojice pravděpodobností se liší. Na problém lze pohlížet tak, že máme dva nezávislé výběry z alternativních rozložení, první má rozsah ni = a+c a pochází z rozložení A^), druhý má rozsah n2 = b+d a pochází z rozložení A(ů2). Testujeme hypotézu H0: iS-j -ů2 =0 proti oboustranné alternativě. V kapitole o hodnocení náhodných výběrů z alternativních rozložení jsme použili testovou statistiku Mx-M2 která se za platnosti nulové hypotézy asymptoticky řídí rozložením N(0,1). (M* je vážený prů- měr výběrových průměrů.) Příklad: Očkování proti chřipce se zúčastnilo 460 dospělých, z nichž 240 dostalo očkovací látku proti chřipce a 220 dostalo placebo. Na konci experimentu onemocnělo 100 lidí chřipkou. 20 z nich bylo z očkované skupiny a 80 z kontrolní skupiny. Na asymptotické hladině významnosti 0,01 testujte hypotézu, že výskyt chřipky v očkované a kontrolní skupině je shodný. v Řešení: Údaje uspořádáme do čtyřpolní kontingenční tabulky, kde roli veličiny X hraje onemocnění chřipkou a roli veličiny Y existence očkování. X onemocnění chřipkou Y existence očkování ano ne ano 20 80 100 ne 220 140 360 n.k 240 220 460 Vypočteme sloupcově podmíněné relativní četnosti: X onemocnění chřipkou Y existence očkování ano ne ano 8,3% 36,4% ne 91,7% 63,6% Vidíme, že v očkované skupině onemocnělo chřipkou 8,3% lidí, v kontrolní skupině však 36,4%. Zjistíme, zda takto velký rozdíl je způsoben pouze náhodnými vlivy. Ověříme splnění podmínek dobré aproximace, tedy nejprve vypočteme teoretické četnosti: X onemocnění chřipkou Y existence očkování nj. ano ne ano 20 80 100 ne 220 140 360 240 220 460 n1n,_l«).240= nini = 100^ = n n2.n.i 460 360-240 n = 187,83, n2.n2 460 360-220 = 172,17 n 460 n 460 Všechny teoretické četnosti jsou větší než 5, podmínky dobré aproximace jsou splněny. Realizace testové statistiky: n(ad - bc)2 _ 460(20 • 140 - 80 • 220)2 K = = 53,01. (a + b)(c + d)(a + c)(b + d) 240 • 220 • 100 • 360 Kritický obor: W = (x2i-<* (l),°°) = (%2o,99 (l),°°) = (6,635,oo). Protože Ke W, H0 zamítáme na asymptotické hladině významnosti 0,01. S rizikem omylu nejvýše 0,01 jsme tedy prokázali, že výskyt chřipky v očkované a kontrolní skupině se liší. Nyní provedeme výpočet pomocí statistiky T = M1 -M: 1 Mt(l-M( 1 1 — + — n, n , která se v případě platnosti nulové hypotézy 2 J asymptoticky řídí rozložením N(0,1). Přitom očkovaných bylo 240, z nich onemocnělo 20, neočkovaných bylo 220, z nich onemocnělo 80. V našem případě tedy n: = 240, n2 = 220, m, 20 80 20 + 80 5 -,m2 -,m„ 240 220 460 23 Ověření podmínek nify (1-fy) > 9 a n2ů2 (l-ů2) > 9: Parametry uľ a ů2 neznáme, nahradíme je odhady mi a m2, tedy 20.(1-20/240) = 18,333 > 9, 80.(1-80/220) = 50,909 > 9. Realizace testového kritéria: tn = nij -m, 20 80 240 220 ■ = -7,2807. 5 + 1 V240 ^ 220/ V 23 v 23^ Kritický obor je W = (-°°,-u1_a/2)u(u1_a/2,oo)= (-°o,-u10 995)u(u0 995 ,°°) = (-oo,-2,5758)u(2,5758,°o). Protože testové kritérium patří do kritického oboru, H0 zamítáme na asymptotické hladině významnosti 0,05. Podíl šancí ve čtyřpolní kontingenční tabulce ad Ve čtyřpolních tabulkách používáme charakteristiku OR = —, která se nazývá výběrový podíl šancí (odds ratio). Považuje- bc me ho za odhad neznámého teoretického podílu šancí op ^21^12 . Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem. Výsledek pokusu okolnosti % I II úspěch a b a+b neúspěch c d c+d n.k a+c b+d n a b Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za 1. okolností je -, za druhých okolností je -. Podíl šancí je tedy c d OR = ad bc Jsou-li veličiny X, Y nezávislé, pak njk = %.% k, tudíž teoretický podíl šancí op = 1. Závislost veličin X, Y bude tím silnější, čím více se op bude lišit od 1. Avšak ope (0,oo), tedy hodnoty op jsou kolem 1 rozmístěny nesymetricky. Z tohoto důvodu raději používáme logaritmus teoretického či výběrového podílu šancí. Testování nezávislosti ve čtyřpolních tabulkách pomocí podílu šancí Na asymptotické hladině významnosti a testujeme hypotézu H0: X,Y jsou stochasticky nezávislé náhodné veličiny (tj. In op = 0) proti alternativě Hi: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. In op ^ 0). Testová statistika Tn lnOR 1111 'a b c d se asymptoticky řídí rozložením N(0,l), když nulová hypotéza platí. Kritický obor: W = (-oo,-Ul^/2>u(u1^1/2,oo). Nulovou hypotézu tedy zamítáme na asymtotické hladině významnosti a, když se testová statistika realizuje v kritickém oboru W. Testování nezávislosti lze provést též pomocí 100(l-a)% asymptotického intervalu spolehlivosti pro logaritmus podílu šancí op, který je dán vzorcem: 1111 1111 (d, h) = ln OR - J— + — + - + — u l_al2, ln OR +. i— + — + - + — u j -a/2 Jestliže interval spolehlivosti neobsahuje 0, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti a Příklad (testování nezávislosti pomocí podílu šancí a pomocí statistiky K): U 135 uchazečů o studium na jistou fakultu byl hodnocen dojem, jakým zapůsobili na komisi u ústní přijímací zkoušky. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že přijetí na fakultu nezávisí na dojmu u přijímací zkoušky. přijetí doj em nj. dobrý špatný ano 17 11 28 ne 39 58 97 n.k 56 69 125 Řešení: a) Testování pomocí podílu šancí: OR = — = 17 58 = 2,298 . Podíl šancí nám říká, že uchazeč, který zapůsobil na komisi dobrým dojmem, má asi 2,3 x větší bc 11-39 šanci na přijetí než uchazeč, který zapůsobil špatným dojmem. Provedeme další pomocné výpočty: ln OR = 0,832, Ja + b+č+ď = )ín+n+^+^=a439'u»-=1'% Dosadíme do vzorců pro meze asymptotického intervalu spolehlivosti pro podíl šancí: , , , _ 1111 lnd = lnOR-, - + - + - + -U Va b c d = 0,832 - 0,439 ■ 1,96 = -0,028, ln h = ln OR + /-+- + - + -u^/2 = 0,832+0,439 ■ 1,96 = 1,692 a b c d Protože interval (-0,028; 1,692) obsahuje číslo 0, na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti dojmu u přijímací zkoušky a přijetí na fakultu. b) Testování pomocí statistiky K: přijetí doj em nj. dobrý špatný ano 17 11 28 ne 39 58 97 n.k 56 69 125 Ověříme splnění podmínek dobré aproximace: 28-69 ^ = 2^ ^ n 125 n n2n.i _ 97-56 125 15,456, 43,456,^ = ^ = 53,544 n 125 n 125 Podmínky dobré aproximace jsou splněny. Dosadíme do zjednodušeného vzorce pro testovou statistiku K: n(ad-bc)2 _ 125 ■ (17 ■ 58-11-39)2 K : 3,6953 (a + b)(c + d)(a + c)(b + d) 28-97-56-69 Kritický obor: W = (x2o,9s(l),°°) = (3,841,oo). Protože testová statistika se nerealizuje k kritickém oboru, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. K 3,6953 Vypočteme ieště Cramérův koeficient: V = I——— = I ",v""" =0,1719 Vn(m-l) "\( 125(2-1) Vidíme, že mezi dojmem u přijímací zkoušky a přijetím na fakultu je pouze slabá závislost. Poznámka k jednostranným alternativám: Nulová hypotéza tvrdí, že podíl šancí je roven 1, tj. H0: op = 1. Pokud víme, že za prvních okolností je šance na úspěch vyšší než za druhých okolností, pak proti nulové hypotéze postaví me pravostrannou alternativu Hi: op > 1. Nulovou hypotézu zamítáme na asymptotické hladině významnosti a ve prospěch pravostranné alternativy, když 100(l-a)% empirický asymptotický levostranný interval spolehlivosti pro ln op neobsahuje číslo 0. Pokud víme, že za prvních okolností je šance na úspěch nižší než za druhých okolností, pak proti nulové hypotéze postavíme levostrannou alternativu Hi: op < 1. Nulovou hypotézu zamítáme na asymptotické hladině významnosti a ve prospěch levostranné alternativy, když 100(l-a)% empirický asymptotický pravostranný interval spolehlivosti pro ln op neobsahuje číslo 0. Pokud jsou šance na úspěch stejné za prvních i druhých okolností, pak proti nulové hypotéze postavíme oboustrannou alternativu Hiiopŕl. Nulovou hypotézu zamítáme na asymptotické hladině významnosti a ve prospěch oboustranné alternativy, když 100(l-a)% empirický asymptotický oboustranný interval spolehlivosti pro ln op neobsahuje číslo 0. Příklad: U 24 žáků 6. třídy základní školy bylo zjišťováno, zda jsou úspěšní v matematice (tj. mají na posledním vysvědčení známku 1 nebo 2 z matematiky) a zda hrají na nějaký hudební nástroj. Z 10 úspěšných matematiků 6 hrálo na nějaký hudební nástroj, kdežto ve skupině neúspěšných matematiků hrál pouze 1 žák na hudební nástroj. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že úspěch v matematice a hra na hudební nástroj jsou nezávislé veličiny. Proti nulové hypotéze postavte a) oboustrannou alternativu, tj. tvrzení, úspěch v matematice a hra na hudební nástroj spolu souvisí, b) pravostrannou alternativu, tj. tvrzení, že šance na úspěch v matematice jsou vyšší pro žáky, kteří hrají na nějaký hudební nástroj, c) levostrannou alternativu, tj. tvrzení, že šance na úspěch v matematice jsou nižší pro žáky, kteří hrají na nějaký hudební nástroj. v Řešení: Máme kontingenční tabulku úspěch v M hra na hudební nástroj % ano ne ano 6 4 10 ne 1 13 14 n.k 7 17 24 cic 6 13 39 Vypočteme podíl šancí: OR = — = j- = — = 19,5. Podíl šancí nám říká, že žák, který hraje na nějaký hudební nástroj, má 19,5 x větší šanci na úspěch v matematice než žák, který nehraje na žádný hudební nástroj. Ad a) Pro testování nulové hypotézy proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti: Dolní a horní mez intervalu spolehlivosti pro op zjistíme pomocí STATISTIKY. Vytvoříme datový soubor o dvou proměnných DM a HM a jednom případu. Do Dlouhého jména proměnné DM napíšeme vzorec pro dolní mez: =log(19,5)-sqrt(l/6+l/4+l/l+l/13)*VNormal(0,975;0;l) la analogicky do Do Dlouhého jména proměnné HM napíšeme vzorec pro horní mez: llog(19,5)+sqrt(l/6+l/4+l/l+l/13)*VNormal(0,975;0Tl)r E 1 2 DM HM 1 0,575093 5,365736 Vidíme, že 0,575093 < ln op < 5,365736 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje 0, nulovou hypotézu zamítáme na asymptotické hladině významnosti 0,05 ve prospěch oboustranné alternativy. S rizikem omylu nejvýše 5% se tedy prokázalo, že úspěch v matematice souvisí s hrou na hudební nástroj. Ad b) Pro testování nulové hypotézy proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti: Do Dlouhého jména proměnné DM napíšeme vzorec pro dolní mez: llog(19,5)-sqrt(l/6+l/4+l/l+l/13)*VNormal(0,95;0;l)| 1 DM 1 0,960198 Protože interval (0,960198; oo) neobsahuje 0, nulovou hypotézu zamítáme na asymptotické hladině významnosti 0,05 ve prospěch pravostranné alternativy. S rizikem omylu nejvýše 5% se tedy prokázalo, že žáci, kteří hrají na nějaký hudební nástroj, mají vyšší šance na úspěch v matematice. Ad c) Pro testování nulové hypotézy proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti: Do Dlouhého jména proměnné HM napíšeme vzorec pro dolní mez: llog( 19.5 )+sqrt( I /6+1 /4+1 /1 +1 /13 )* VNormah 0.95:0: T)| 1 HM 1 4,980631 Protože interval (-oo; 4,980631) obsahuje 0, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05 ve prospěch levostranné alternativy. Neprokázalo se tedy, že žáci, kteří hrají na nějaký hudební nástroj, mají nižší šance na úspěch v matematice. Jednoduchá korelační analýza Osnova: - Spearmanův koeficient pořadové korelace - testování pořadové nezávislosti - Pearsonův koeficient korelace a výběrový koeficient korelace - testování nezávislosti - porovnání koeficientu korelace s danou konstantou - porovnání dvou koeficientů korelace Motivace Uvažme náhodné veličiny X, Y, které jsou aspoň ordinálního typu. Tyto náhodné veličiny mohou mít různý vztah: - Deterministická (funkční) závislost: jedna náhodná veličina je spjata s druhou náhodnou veličinou funkční závislostí vyjádřenou předpisem Y = g(X), např. X - poloměr náhodně vybrané sériově vyráběné kuličky do kuličkových ložisek, Y -^-tcX3 - objem této kuličky. Každé realizaci náhodné veličiny X (vysvětlující proměnná) je přiřazena právě jedna realiza ce náhodné veličiny Y (vysvětlovaná proměnná). Stochastická závislost: jedna náhodná veličina ovlivňuje v různé míře druhou náhodnou veličinu, např. X - věk pracovníka v letech, Y - počet dnů absence za rok. Každé realizaci náhodné veličiny X může být přiřazeno více realizací náhodné veličiny Y. Závislost může být jednostranná i oboustranná. stochastická závislost Stochastická nezávislost: náhodné veličiny se navzájem neovlivňují, např. házíme-li naráz dvěma kostkami a označíme X - počet ok padlých na jedné kostce, Y - počet ok padlých na druhé kostce, pak náhodné veličiny X, Y jsou stochasticky nezávislé. nezávislost 10 - vysvětlovaná '«7,5 -c >(U ,-E 5 " o Q2,5 -n < ► ♦ ♦ ♦ ♦ ♦ ♦ ♦ » ♦ U t 2 4 6 8 vysvětlující proměnná 10 X a Y jsou stochasticky nezávislé, když platí: v(x,y)<= R2:4>(x,y) = 4>1(x)4>2(y) X a Y jsou nekorelované, když platí C(X, Y) = 0 (tj. mezi X a Y není žádný lineární vztah). Ze stochastické nezávislosti vyplývá nekorelovanost, avšak z nekorelovanosti nevyplývá stochastická nezávislost. Korelační analýza: • zkoumá, zda existuje závislost mezi dvěma náhodnými veličinami X, Y, které jsou buď ordinálního nebo intervalového či poměrového typu. I áležité - nelze se spokojit s formálním matematickým popisem závislosti, závislost musí být logicky zdůvodnitelná! • pomocí Pearsonova či Spearmanova koeficientu korelace měří těsnost této závislosti pro náhodné veličiny intervalového a poměrového typu je založena na předpokladu, že dvourozměrný náhodný vektor se řídí dvourozměrným normálním rozložením JN2 f « 2 o, pG^ G22 , kde Hi = E(X), pá = E(Y), d2 = D(X), o22 = D(Y), p = R(X,Y) při výraznějším porušení předpokladu dvourozměrné normality doporučuje použití metod, které jsou určeny pro náhodné veličiny ordinálního typu Spearmanův koeficient pořadové korelace Charles Edward Spearman (1863 - 1945): Britský psycholog a statistik, zakladatel faktorové analýzy Nechť X,Y jsou náhodné veličiny ordinálního typu (tj. obsahová interpretace je možná jenom u relace rovnosti a relace uspořádání). Pořídíme dvourozměrný náhodný výběr (Xi, Yi), (Xn, Yn) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme Ri pořadí náhodné veličiny X} a Oj pořadí náhodné veličiny Yi? i = 1, n. 6 n Spearmanův koeficient pořadové korelace: rs = 1—r——tY(Rj -Qj)2 • n(n -lji=i Tento koeficient nabývá hodnot mezi -1 a 1. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší -1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Teoretická hodnota Spearmanova koeficientu se značí ps. Vlastnosti Spearmanova koeficientu pořadové korelace Pro Spearmanův koeficient pořadové korelace platí -1 < rs < 1. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší -1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Je-li rs =1 resp. rs = -1, pak realizace (xi,yi),i = l,...,n daného náhodného výběru leží na nějaké rostoucí resp. klesající funkci. Hodnoty rs se nezmění, když provedeme vzestupnou transformaci původních dat. Hodnoty rs se vynásobí -1, když provedeme sestupnou transformaci původních dat. Koeficient je symetrický. Koeficient je rezistentní vůči odlehlým hodnotám. Význam absolutní hodnoty Spearmanova koeficientu: mezi 0 až 0,1 ... zanedbatelná pořadová závislost, mezi 0,1 až 0,3 ... slabá pořadová závislost, mezi 0,3 až 0,7 ... střední pořadová závislost, mezi 0,7 až 1 ... silná pořadová závislost. Spearmanův koeficient pořadové korelace se používá v situacích, kdy - zkoumaná data mají ordinální charakter - nelze předpokládat, že vztah mezi veličinami X, Y je lineární - náhodný výběr nepochází z dvourozměrného normálního rozložení Testování nezávislosti ordinálních veličin Na hladině významnosti a testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti - oboustranné alternativě Hi: X, Y jsou pořadově závislé náhodné veličiny - levostranné alternativě Hi: mezi X a Y existuje nepřímá pořadová závislost - pravostranné alternativě Hi: mezi X a Y existuje přímá pořadová závislost). Jako testová statistika slouží Spearmanův koeficient pořadové korelace rs. Nulovou hypotézu zamítáme na hladině významnosti a ve prospěch - oboustranné alternativy, když | rs | > rs,i-o/2(n) - levostranné alternativy, když rs < - rs,i-a(n) - pravostranné alternativy, když rs > rs,i-a(n), kde rS;1.a(n) je kritická hodnota, kterou pro a = 0,05 nebo 0,01 a n < 30 najdeme v tabulkách. Asymptotické varianty testu Pro n > 20 lze použít testovou statistiku T0 = fs n 2 4 , která se v případě platnosti nulové hypotézy asymptoticky řídí l-r0 rozložením t(n-2). Kritický obor pro oboustrannou alternativu: W = (-°°,-1^^(n -2)}u(tl_a/2(n ~2),°°) Kritický obor pro levostrannou alternativu: W = (-oo-t^(n-2)> Kritický obor pro pravostrannou alternativu: W = (t1_a(n-2),oo). Hypotézu o pořadové nezávislosti náhodných veličin X, Y zamítáme na asymptotické hladině významnosti a, když t0 e W. Upozornění: Systém STATISTICA používá tuto variantu testu pořadové nezávislosti bez ohledu na rozsah náhodného výběru. Pro n > 30 lze použít testovou statistiku rs V n — 1. Platí-li H0, pak rs V n -1 ~ N(0, 1). Nulovou hypotézu tedy zamítáme na asymptotické hladině významnosti a ve prospěch oboustranné alternativy, když rsVn-l e (-°°,-Ui_C(/2)u(u1_C(/2,oo) , levostranné alternativy, když rsVn-le (-oo,-Ul_a), pravostranné alternativy, když rsVn-l e (u1 _a,°°) říklad na testování pořadové nezávislosti (jsou známa pořadí): Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. v Řešení: Na hladině významnosti 0,05 testujeme H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H:: X, Y jsou pořadově závislé náhodné veličiny. V tomto příkladě přímo známe pořadí Ri (tj. hodnocení 1. lékaře) a pořadí Qi (tj. hodnocení 2. lékaře). Vypočteme rs=l-^^[(4-4)^ Kritická hodnota: rSA975(7) = 0,745. Protože 0,857 > 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X (hodnocení 1. lékaře), Y (hodnocení 2. lékaře) a sedmi případech. Do 1 X 2 Y 1 4 4 2 1 2 3 6 5 4 5 6 5 3 1 6 2 3 7 7 7 Statistiky - Neparametrické statistiky - Korelace - OK - vybereme Vytvořit detailní report - Proměnné X, Y - OK Spearmanův koef. R. Dostaneme tabulku Dvojice proměnných Spearmanovy korelace (dva lekari.sta) ChD vynechány párově Označ, korelace jsou významné na hl. p <,05000 Počet plat. Spearman R t(N-2) Úroveň p X & Y 7 0,857143 3,721042 0,013697 Spearmanův koeficient pořadové korelace nabývá hodnoty 0,857, testová statistika se realizuje hodnotou 3,721, odpovídající p-hodnota je 0,0137, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o pořadové nezávislosti hodnocení dvou lékařů ve prospěch oboustranné alternativy. Příklad na testování pořadové nezávislosti (pořadí musíme stanovit): Jsou dány realizace náhodného výběru z dvourozměrného rozložení, kterým se řídí náhodný vektor (X,Y): (2,5 13,4), (3,4 15,2), (1,3 11,8), (5,8 13,1), (3,6 14,5). Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny jsou pořadově nezávislé proti oboustranné alternativě. v Řešení: Xi 2,5 3,4 1,3 5,8 3,6 Yi 13,4 15,2 11,8 13,1 14,5 Ri 2 3 1 5 4 Qi 3 5 1 2 4 (Ri-Qi)2 1 4 0 9 0 Testová statistika: i—r^-rsŽ(Ri-Qi )2=1- 5-24 14 = 0,3 Kritická hodnota: pro n = 5 a a = 0,05 je kritická hodnota 0,9. Protože testová statistika se realizuje hodnotou 0,3, hypotézu o pořadové nezávislosti veličin X a Y nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Postupujeme úplně stejně jako v předešlém případě. Výstupní tabulka má tvar: Dvojice proměnných Spearmanovy korelace (pořadová korelace.sta) ChD vynechány párově Označ, korelace jsou významné na hl. p <,05000 Počet plat. Spearman R t(N-2) Úroveň p X & Y 5 0,300000 0,544705 0,623838 Spearmanův koeficient pořadové korelace nabývá hodnoty 0,3, testová statistika se realizuje hodnotou 0,5447, odpovídající p-hodnota je 0,6238, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o pořadové nezávislosti veličin X, Y. Pearsonův koeficient korelace Karl Pearson (1857 - 1936): Britský statistik Číslo R(X,Y) = rX-E(X) y-e(y)^ i- i- - J^'lL_ pro VĎpČ) VĎ(y) > 0 VĎpč) Vtxy) J A/bpôVĎ(y) 0 jinak se nazývá Pearsonův koeficient korelace. (Pro výpočet Pearsonova koeficentu korelace musíme znát simultánní distribuční funkci 0 [-R(X,Y)prob1b2 <0 c) R(X, X) = 1 pro D(X) f 0, R(X, X) = 0 jinak d) R(X, Y) = R(Y, X) e) |R(X, Y)| < 1 a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností 1 úplná lineárni závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1. Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova - Schwarzova - Buňakovského nerovnost.) Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. Definice nekorelovanosti Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou n íé. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost. Jsou-li náhodné veličiny X,Y stochasticky nezávislé, pak jsou samozřejmě i nekorelované.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) Výběrový koeficient korelace Nechť (Xi, Yi), (Xn, Yn) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí Q n-lir S, So 1 2 . Vlastnosti Pearsonova koeficientu korelace í=i ji 0 jinak přenášejí i na výběrový koeficient korelace. (Spearmanův koeficient pořadové korelace odpovídá Pearsonovu koeficientu korelace aplikovanému na pořadí.) Příklad: Výpočet realizace výběrového koeficientu korelace U 65 zaměstnanců jisté firmy byla zjišťována délka praxe v letech (veličina X) a výška prémií v Kč (veličina Y). Dvouroz měrné rozložení četností je dáno kontingenční tabulkou: X y 1250 1750 2250 2750 3250 3750 4250 12,5 5 3 0 0 0 0 0 17,5 2 4 4 0 0 0 0 22,5 0 1 6 7 4 0 0 27,5 0 0 1 3 7 1 0 32,5 0 0 0 1 10 5 1 Vypočtěte realizaci rí2 výběrového koeficientu korelace Ri2 a interpretujte jeho hodnotu. Pro úsporu času máte uvedeny následující součty: 2>jX[j] = 1562,5, £nky[k] = 172750,^ X[J]2 = 40456, £nky[k]2 j=l k=l j=l k=l t í>JkW[k]= 4446875 j=l k=l 498562500, Řešení: 5 7 Známe tyto součty: xtj] = 1562,5, £ n ky[k] = 172750,^ X[J] 2 = 40456, £n ky[k]2 = 498562500 ,^^nikX|j]y[k] = 4446875 j=l k=l j=l k=l j=l k=l Vypočteme průměrnou délku praxe: m, = 1562,5 65 = 24,038, 172750 průměrnou výšku prémií: m2 = ——— = 2657,692 rozptyl délky praxe: Sj2 J_ 64 rozptyl výše prémií: s22 = f ĺ v f 65 40456-65- í 1562,5^ l 65 J 2^ 45,25 498562500-65 í 172750^ \ 65 J 2^ = 616346 kovariance délky praxe a výše prémií: s12 = — í 4446875 - 65 ■1562,5 ■172750 j = 4597,4 64^ koeficient korelace délky praxe a výše prémií: r12 = 65 4597,4 65 J = 0,8705 •745,25 V616346 Hodnota koeficientu korelace svědčí o tom, že mezi délkou praxe a výškou prémií existuje dosti silná přímá lineární závislost - čím delší praxe, tím vyšší prémie. Pearsonův koeficient korelace dvourozměrného normálního rozložení Jak bylo uvedeno v motivaci, korelační analýza předpokládá, že daný náhodný výběr pochází z dvourozměrného normálního rozložení. Proč je tento předpoklad tak důležitý? Odpověď poskytne následující věta. Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou 0). Testová statistika má tvar: T0 = ^12"^n ^ . Platí-li nulová hypotéza, pak T0 ~ t(n-2). Kritický obor pro test H0 proti - oboustranné alternativě: w = (-«>,- tx_al2 (n - 2)) u (t^^(n - 2),«>), - levostranné alternativě: W = (- «>,-(n - 2)), - pravostranné alternativě: W = (^.„(n -2),oo). H0 zamítáme na hladině významnosti a, když t0 e W. Příklad: Testování hypotézy o nezávislosti proti oboustranné alternativě V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y): X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Předpokládejte, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte hypotézu o nezávislosti X a Y proti oboustranné alternativě. Řešení: Vypočteme realizace 1 n 1 n výběrových průměrů: m i =—Yx; - 18,267, m2 - —Yy; - 83,6, n i=i n i=1 2 1 n 2 1 n výběrových rozptylů: Si =-Y(x; -mj2 = 5,6381, s2 =-Y(y; -m2)2 = 121,4, n-ltŕ n-ltŕ 1 výběrové kovariance: Si2 =-Y(x; -m^y; -m2) = 24,2571 n-1 m výběrového koeficientu korelace: r, »12 _ 12 = 0,927. Realizace testové statistiky: t0 = r'2^n 2- - 8,912, 12 kritický obor W = (- °°,- 10 995 (13)) u (t0 995(13), °o) =(-°°,- 3,012) u (3,012,«). Protože t0 e W, hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem omylu nejvýše 1% jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem zhotovených výrobků existuje závislost. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X, Y a 15 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu: Grafy - Bodové grafy - Proměnné X, Y - OK - odškrtneme Typ proložení Lineární - na záložce Detaily zaškrtneme Elipsa Normální - OK. lni - O* 20 25 Statistiky - Základní statistiky/tabulky - Korelační matice - OK - 1 seznam proměn. - X, Y - OK - na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků - Výpočet. Prom. X & prom. Y Korelace (směny a vyrobky.sta) Označ, korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Průměr Sm.Odch. r(X,Y) r2 t P N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X X 18,26667 2,37447 X 18,26667 2,37447 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000 X 18,26667 2,37447 Y 83,60000 11,01817 0,859663 8,923795 0,000001 15 5,010135 4,302365 1,562407 0,199812 Y 83,60000 11,01817 X 18,26667 2,37447 0,859663 8,923795 0,000001 15 1,562407 0,199812 5,010135 4,302365 Y 83,60000 11,01817 Y 83,60000 11,01817 1,000000 1,000000 I 15| 0,000000| 1,000000| 0,000000| 1,000000 Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty 8,924, odpovídající p-hodnota je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o nezávislosti veličin X, Y. Příklad: Testování hypotézy o nezávislosti proti levostranné alternativě Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi věkem zaměstnance (náhodná veličina X) a počtem dní absence za rok (náhodná veličina Y). Proto náhodně vybral údaje o 10 zaměstnancích: X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny proti alternativě, že X, Y jsou záporně korelované náhodné veličiny. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Na hladině významnosti 0,05 testujeme H0: p = 0 proti Hi: p < 0. Vypočítáme rí2 - -0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Realizace testové statistiky: t0 = r'^n~2 = -7,3053, kritický obor w = (-«», - 10 95 (8)) = (-«»,-1,8595). Jelikož t0 e W, zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch levostranné alter nativy. S rizikem omylu nejvýše 5% jsme prokázali, že mezi věkem pracovníka a počtem dnů absence za rok existuje nepřímá lineární závislost. Výpočet pomocí systému STATISTICA Můžeme využít toho, že již známe r12. Statistiky - Pravděpodobnostní kalkulátor - Korelace - vyplníme n = 10, r = -0,9325, odškrtneme Dvojité, zaškrtneme Výpočet p z r - Výpočet. V okénku p se objeví hodnota 0,000041, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X a Y ve prospěch levostranné alternativy. ::! Rozdělení Pearson. moment, korelačního koeficientu tl-lxi N:|" 1 ľ~ Oboustranné [ Výpočet !j r. j-0,9325 (* Výpočet p. z t JConec P1 .000042 C Výpočet r z p Fisher. z: |-1,677221 g f* Výpočet r ze z. I- Do protokolu Q Příklad: Testování hypotézy o nezávislosti proti pravostranné alternativě Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelované. Řešení: Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec. Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti. Na hladině významnosti 0,05 testujeme H0: p = 0 proti pravostranné alternativě p > 0. Výpočtem zjistíme: rí2 - 0,6668, t0 = 2,1917. Stanovíme kritický obor: W = (t0;95(6);oo) = (i,9432;oo). Jelikož t0 e W, zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné alternativy. S rizikem omylu nejvýše 5% jsme prokázali, že mezi výsledky 1. a 2. testu existuje přímá lineární závislost. Výpočet pomocí systému STATISTICA Můžeme využít toho, že již známe rí2. Statistiky - Pravděpodobnostní kalkulátor - Korelace - vyplníme n = 8, r = 0,6668, odškrtneme Dvojité, zaškrtneme Výpočet p z r - Výpočet. V okénku p se objeví hodnota 0,035455, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné alternativy. Rozdělení Pearson. moment, koreláciiiho koeficientu N: r, P Fiíhef. z 3 g r Oboustranné 0.S668 g (í VŕpočetfiZí Konet 035455 g C VjSpočetizp .804359 g rvŕpocetr»z T Ooprotfl^b & Postup při nesplnění předpokladu dvourozměrné normality Máme k dispozici realizace náhodného výběru rozsahu 12 z dvourozměrného rozložení: X 1 3 4 5 6 8 10 11 13 14 16 17 Y 13 15 18 16 23 31 39 56 45 43 37 0 Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny X, Y jsou nezávislé proti oboustranné alternativě. v Řešení: Na hladině významnosti 0,05 testujeme H0: p = 0 proti oboustranné alternativě Hi: p ^ 0. Pokud neověříme předpoklad dvourozměrné normality, obvyklým způsobem vypočteme realizaci výběrového koeficientu korelace r12 = 0,3729 a realizaci testové statistiky t0 = 1,271. Stanovíme kritický obor: w = (-«», -10>975 (10)) u (t0 975 (10), °°) =(-«»,- 2,2281) u (2,2281, °°). Protože t0 e W, nezamítáme na hladině významnosti 0,05 hypotézu o nezávislosti náhodných veličin X a Y. Nyní budeme testovat hypotézu o normalitě náhodné veličiny X a náhodné veličiny Y. Grafické ověření pomocí N-P grafů: N-P graf pro veličinu X N-P graf pro veličinu Y O o i Pozorovaná hodnota Pozorovaná hodnota Vzhled grafů svědčí ve prospěch normality. Testování pomocí Lilieforsovy varianty K - S testu a S - W testu: Proměnná Testy normality N max D Lilliefors I W p P I I X 12| 0,130669i p > .20| 0,956714i 0,736098 Y 12 0,145742 p>.20 0,968954 0,899540 V obou případech hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Ověření dvourozměrné normality pomocí dvourozměrného tečkového diagramu: Dvourozměrná normalita je silně porušena, tečky nevyplňují vnitřek elipsovitého obrazce. Přejdeme tedy k testování hypotézy o pořadové nezávislosti. Testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě Hi: X, Y jsou vě závislé náhodné veličiny. Vypočítáme Spearmanův koeficient pořadové korelace. X 1 3 4 5 6 8 10 11 13 14 16 17 Y 13 15 18 16 23 31 39 56 45 43 37 0 Ri 1 2 3 4 5 6 7 8 9 10 11 12 Qi 2 3 5 4 6 7 9 12 11 10 8 1 1- 12(l22 -l) (l_2)2+(2-3)2+(3-5)2+(4-4)2+(5-6)2 + (6-7)2 + (7-9)2 +" + (8 -12)2 + (9 -11)2 + (10 -10)2 + (l 1 - 8)2 + (12 -1)2 = 1---—(1 + 1 +4 +0 + 1 +1 + 4 +16 +4 + 0 +9 +121) = 1——■ 162 = 0,4336 12-143 286 Stanovíme kritický obor: W = (-1 ,-rs>1_a/2(n)) u(rs>1_a/2(n),l) = (-l,-rs>0>975(12)) u(rs>0>975 (l2),l> = (-1,-0,5804) u(0,5804,1). Testová statistika se nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Porovnání koeficientu korelace s danou konstantou Nechť c je reálná konstanta. Testujeme H0: p = c proti Hi: p ^ c. (Tento test se provádí např. tehdy, když experimentátor porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře.) Test je založen na statistice U Z-il„l^ 2 1-c Vn-3, která má za platnosti H0 pro n > 10 asymptoticky rozložení N(0,1), přičemž Z = -ln-1 + Rl2 2(n-l) je tzv. Fisherova Z-transformace. Kritický obor pro test H0 proti oboustranné alternativě tedy je W = (-°°,-u1_a/2)u(u1_a/2,oo). H0 zamítáme na asymptotické hladině významnosti a, když Ue W. 2 l-R, Příklad: U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být 0,9. Na asymptotické hladině významnosti 0,05 testujte hypotézu H0: p = 0,9 proti H:: p f 0,9. 0,9 ^ Řešení: Z = Iin±±^ = 1,2562, U 2 1-0,85 l,2562-iln1 + 0'9 2 1-0,9 2(600-1) Protože U e W, H0 zamítáme na asymptotické hladině významnosti 0,05 V600-3 = -5,2976, u0,975 = 1,96, W = (- °°, -1,96) u (l,96, °°). Výpočet pomocí systému STATISTICA (pouze přibližný): Statistiky - Základní statistiky a tabulky - Testy rozdílů: r, %, průměry - OK - vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka rl napíšeme 0,85, do políčka NI napíšeme 600, do políčka r2 napíšeme 0,9, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0000, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. r pc tikrwut ví Rozdíl mezi dvěma korelačními Koeficienty NT Storno r1 r2 ,85 600 ,ÚO00 ,,30 § N2 [327S7 g Rozdíl mezi dvěma ptůměty (noimální rozdělení) Pí1: [Ô gSmQdlifT § 'Ni*7 r Jednoílf. P Obouíli, gjSmQdl ' gSm0d2; [i 10 Pr2 0. P Výberový prbnér Ví slední hodnota Rozdíl mezi dvěma poměry I 1 H?fvF Výpočet | g p: 1,0000 Výpočet C Jednostr. P Ohoustf. Upozornění: Pokud bychom chtěli pomocí systému STATISTICA provést přesnější test s využitím statistiky U, můžeme vypočítat Fisherovu Z- transformaci pomocí Pravděpodobnostního kalkulátoru - Korelace, kde zadáme realizaci výběrového koeficientu korelace, rozsah výběru. Zajímá nás Fisher z. Porovnání dvou korelačních koeficientů Nechť jsou dány dva nezávislé náhodné výběry o rozsazích n a n z dvourozměrných normálních rozložení s korelačními koeficienty p a p*. Testujeme H0: p = p* proti Hi: p ^ p*. Označme Ri2 výběrový korelační koeficient 1. výběru a Ri2* výběrový korelační koeficient 2. výběru. Položme z = -ln^^ a Z* =Iin!±^. 1-R 12 1-R Platí-li H0, pak testová statistika U = 12 z-z má asymptoticky rozložení N(0,1). Kritický obor pro test H0 proti oboustranné alternativě tedy je W = (-oo,-u1_a/2)u(u1_0l/2,oo). H0 zamítáme na asymptotické hladině významnosti a, když u e W. Příklad: Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový korelační koeficient mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že korelační koeficienty v obou skupinách se neliší. ■\ v t 1 1 + 0,65 _ ____ „* 1. 1 + 0,37 „„„. TT 0,7753— 0,3884 _ ^_1 n^ „T / . -v n^ \ Reseni: Z = -ln--— = 0,7753,Z =-ln--— = 0,3884, U = , = 2,9242, u0975 = 1,96, W = 1,96) u (1,96,°°). 2 1-0,65 2 1-0,37 ^ : ~ ' V 1 N Výpočet pomocí systému STATISTICA: Statistiky - Základní statistiky a tabulky - Testy rozdflú: r, %, průměry - OK - vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka rl napíšeme 0,65, do políčka NI napíšeme 100, do políčka r2 napíšeme 0,37, do políčka N2 napíšeme 142 - Výpočet. Dostaneme p-hodnotu 0,0038, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. i ^mmm^m.....l.ll,, jjmu, j„ m*^^*r-i>ä P Prxlat/Jiskririut výiíecftjj kaíó. výročiu do íkna protokolu Storno Rozdíl mesi dvěma korelačními koeficienty - r1: 37 N1: N2: 100 142 p: .0038 C Jednoslr. & Obouslf. Rozdíl mezi dvěma pfůméry Inorr.iální rozdelení) Pil SmOdl NI lU p: 1,0000 Výpočet | Pr2 [Ô |gSm0d2fn '§ NZjiÔ-g £ Jedno*. P Výběrový průměr vs. střední hodnota Oboyítr. Rozdíl mezi dvěma poměry | .50000 1 | .50000 1 10 id 1 1 p: 1J000O i** Jednosti. & Obouslr. Výpocei Interval spolehlivosti pro korelační koeficient Jestliže dvourozměrný náhodný výběr rozsahu n pochází z dvourozměrného normálního rozložení, jehož korelační koeficient se příliš neliší od nuly (je splněna podmínka I p I < 0,5) a rozsah výběru je dostatečně velký (n > 100), lze odvodit, že 100(l-a)% interval spolehlivosti pro p má meze R12 ±u1_a/: 1-R 12 12 ' Nejsou-li uvedené podmínky splněny, pak nelze tento vzorec použít, protože rozložení výběrového korelačního koeficientu 1 1 + R je příliš zešikmené. V takovém případě využijeme toho, že náhodná veličina Z = —ln-— má i při malém rozsahu výběru 2 1-R 12 1T" 1 + ^ +^-^—r (2. sčítanec lze při větším n zanedbat) a rozptylem přibližně normální rozložení se střední hodnotou E (z) = —ln , , > ť 2 1-p 2(n-l) d(z) = —^. Standardizací veličiny Z dostaneme veličinu U = Z. E^Z'), která má asymptoticky rozložení N(0,1). Tudíž n-3 VĎ(Ž) 100(l-a)% asymptotický interval spolehlivosti pro — ln^-^ bude mít meze Z± u/ a/2 . Interval spolehlivosti pro p pak 2 1-p Vn-3 dostaneme zpětnou transformací. Poznámka: Jelikož Z = arctgh Ri2, dostáváme Ri2 = tgh Z a meze intervalu spolehlivosti pro p můžeme psát ve tvaru Přiklad: Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní absence za rok (veličina Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10 pracovnících. Č.prac. 1 2 3 4 5 6 7 8 9 10 X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10 z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient p. v Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. -20 0 20 40 60 Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Testujeme H0: p = 0 proti Hi: p ^ 0. Vypočítáme Ri2 = -0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Testová statistika: T = -7,3053, kvantil ^,975(8) = 2,306, kritický obor W = (-00,-2,306) u (2,306,00). Jelikož TeW, zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y. Výpočet pomocí systému STATISTIC A: Ve STATISTICE vypočteme meze 100(l-a)% asymptotického intervalu spolehlivosti pro koeficient korelace p tak, že otevřeme nový datový soubor se dvěma proměnnými (pojmenujeme je DM a HM) a jedním případem. Do Dlouhého jména proměnné DM zapíšeme příkaz = TanH(0,5*log((l-0,9325)/(l+0,9325))-VNormal(0,975;0;l)/sqrt(7)) a do Dlouhého jména proměnné HM zapíšeme příkaz = TanH(0,5*log((l-0,9325)/(l+0,9325))+VNormal(0,975;0;l)/sqrt(7)) 1 DM 2 HM 1 -0,98425 -0,73358 95% asymptotický interval spolehlivosti pro koeficient korelace p má tedy meze -0,98425 a -0,73358. (Protože nepokrývá hodnotu 0, zamítáme hypotézu o nezávislosti veličin X, Y na asymptotické hladině významnosti 0,05.) Ilustrace vlastností Pearsonova a Spearmanova koeficientu korelace ri2 = = 0,82, rs = 0,82 ri2: = 0,82, rs = 0,69 ti -10 - * 9 -B - • * • * * • * 9 -8 -7 - • • • • * * 7 -e - * * *-Si • 5 -4 - » * 3 - • H- 4 —i— i 4 8 10 i"' 1? i 14 -T- 1 1 i 4 e 8 10 12 14 ri2; = 0,82, rs = 0,99 ri2: = 0,82, rs = 0,5 ta- • 12 - * 10 - 10- * ■ * a - * • t 6 - * • * * * e - i • t ■ ■ T 4 i ™ 1 9- * 10 i 14 •-i-1-1-1-r-1 8 10 t2 14 10 '* ri2: = 0, rs = 0 ri2: = -0,77, rs = -1 ri2 = = 0, rs = 0 ri2 = = -0,77,rs = -l 10 - • • • * • 10 - • s - • • e - !■- 7 - 6 - 6 - 4 - • 6-4 - * • 2 - • ■ Í 4 g 6 1(1 K> 14 0 - r i i 4 6a i 10 i •2 M 3. obrázek ukazuje odolnost Spearmanova koeficientu vůči odlehlým hodnotám. 6. obrázek dokumentuje schopnost Spearmanova koeficientu měřit monotónní vztahy. Využití modulu „Analýza sily testu" v systému STATISTICA Testujeme-li na hladině významnosti a nulovou hypotézu (v našem případě H0: p = 0) proti alternativní hypotéze (v našem případě Hi: p ^ 0), můžeme se dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Pravděpodobnost chyby 1. druhu se značí a a nazývá se hladina významnosti testu. Pravděpodobnost chyby 2. druhu se značí p. Číslo 1 - P se nazývá síla testu a vyjadřuje pravděpodobnost, s jakou test vypoví, že H0 neplatí. Modul „Analýza síly testu" nám umožní vyřešit tři úkoly: a) pro daný korelační koeficient p a danou hladinu významnosti a stanovit, jaký musí být rozsah výběru n, aby síla testu byla aspoň rovna danému číslu 1 - P b) pro dané p, a, n vypočítat sílu testu 1 - P c) pro daný výběrový koeficient korelace r a dané a určit meze 100(1- a)% intervalu spolehlivosti pro p. Ad a) Stanovení rozsahu výběru Předpokládáme, že náhodný výběr (Xi, Yi),(Xn, Yn) pochází z dvourozměrného normálního rozložení rozložení s koeficientem korelace p = 0,3. Jak velký musí být rozsah tohoto výběru, aby test H0: p = 0 proti Hi: p ^ 0 měl sílu 0,8, je-li hladina významnosti a = 0,05? Statistiky - Analýza síly testu - Výpočet velikosti vzorku - Jedna korelace, t-test - OK - Ró: 0,3, Alfa: 0,05, Požadovaná síla: 0,8 - OK - Vypočítat N. Zjistíme, že minimální velikost výběru je 84. Ad b) Výpočet síly testu Předpokládáme, že náhodný výběr (Xl9 Yi),(X25, Y25) pochází z dvourozměrného normálního rozložení s koeficientem korelace p, který je neznámý. Výběrový koeficient korelace nabyl hodnoty -0,56. Na hladině významnosti a = 0,05 testujeme H0: p = 0 proti Hi: p ^ 0. Jaká je síla testu? Statistiky - Analýza síly testu - Výpočet síly testu - Jedna korelace, t-test - OK - Ró: -0,56, N: 25, Alfa: 0,05 - OK - Výpočetní algoritmus: zaškrtneme t-statistika - Vypočítat sílu. Zjistíme, že síla testuje 0,8582. Ad c) Nalezení intervalu spolehlivosti Předpokládáme, že náhodný výběr (Xi, Yi),(X25, Y25) pochází z dvourozměrného normálního rozložení s koeficientem korelace p, který je neznámý. Výběrový koeficient korelace nabyl hodnoty -0,56. Najděte 95% interval spolehlivosti pro p. Statistiky - Analýza síly testu - Odhad intervalu - Jedna korelace, t-test - OK - Pozorované R: -0,56, N: 25, Spolehlivost: 0,95 - Výpočetní algoritmus: zaškrtneme Fisherovo Z (původní) - Vypočítat. Zjistíme, že Dolní mez = -0,7821, Horní mez = -0,2117. Jednoduchá lineární regrese Osnova: - specifikace klasického modelu lineární regrese a jeho maticový zápis - intervaly spolehlivosti pro regresní parametry - celkový F-test - dílčí t-testy - kritéria pro posouzení vhodnosti zvolené regresní funkce - detailní rozbor modelu regresní přímky Motivace: Cíl regresní analýzy - popsat závislost hodnot veličiny Y na hodnotách veličiny X. Nutnost vyřešení dvou problémů: a) jaký typ funkce se použije k popisu dané závislosti; b) jak se stanoví konkrétní parametry daného typu funkce? ad a) Při určení typu funkce je třeba provést teoretický rozbor zkoumané závislosti. Teoretická analýza může upozornit například na to, že s růstem hodnot veličiny X budou mít hodnoty veličiny Y tendenci monotónně růst či klesat, tato tendence má charakter zrychlujícího se či zpomalujícího se růstu či poklesu, jde o závislost, kdy s růstem hodnot veličiny X dochází zpočátku k růstu hodnot veličiny Y, který je po dosažení určitého maxima vystřídán poklesem, apod. Můžeme např. zkoumat závislost ceny ojetého auta (veličina Y) na jeho stáří (veličina X). Je zřejmé, že s rostoucím stářím bude klesat cena, ale není jasné, zda lineárně, kvadraticky či dokonce exponenciálně. Vždy se snažíme o to aby regresní model byl jednoduchý, tj. aby neobsahoval příliš mnoho parametrů. Připadá-li v úvahu více funkcí, posuzujeme jejich vhodnost pomocí různých kritérií - viz dále. Často však nemáme dostatek informací k provedení teoretického rozboru. Pak se snažíme odhadnout typ funkce pomocí dvourozměrného tečkového diagramu. Zde se omezíme na funkce, které závisejí lineárně na parametrech P0,j3p...,|3p. adb) Odhady b0,bj,...,b neznámých parametrů j30,p\,...,|3 získáme na základě dvourozměrného datového souboru yn me- todou nej menších čtverců, tj. z podmínky, aby součet čtverců odchylek zjištěných a odhadnutých hodnot byl minimální. Specifikace klasického modelu lineární regrese Y = m(x;P0,PP...,Pp)+e, kde m(x; po, Pj ,..., Pp) - teoretická regresní funkce, která lineárně závisí na neznámých regresních parametrech (30, ,..., |3p a známých funkcích f j (x),..., f p (x), které již neobsahují neznámé parametry, tj. m(x; |30, ,..., |3p) = ^ J3jf ■ (x), přičemž f 0 (x) j=o Jde o deterministickou složku modelu. Složka e - náhodná složka modelu. Je to náhodná odchylka od deterministické závislosti Y na X. Popisuje závislost vysvětlované proměnné na neznámých nebo nepozorovaných proměnných a popisuje i vliv náhody. Nelze ji funkčně vyjádřit. Veličina Y - závisle proměnná (též vysvětlovaná) veličina. Veličina X - nezávisle proměnná (též vysvětlující) veličina. Pořídíme n dvojic pozorování (x1,y1),...,(xn,yn), tj. dvourozměrný datový soubor ^x v ^ Proi= 1, n platí: y; = m(xi;p0,p1,...,pp)+ei. O náhodných odchylkách 8!,...,8npředpokládáme, že a) E(e;) = 0 (odchylky nej sou systematické) b) D(e;) = o2 > 0 (všechna pozorování jsou prováděna s touž přesností) c) c(e;, e j) = 0 pro i * j (mezi náhodnými odchylkami neexistuje žádný lineární vztah) d) e;~ n(o,g2). V tomto případě hovoříme o klasickém modelu lineární regrese. Označení b0,bp...,bp - odhady regresních parametrů p0,pp...,|3p (nejčastěji je získáme metodou nejmenších čtverců, tj. z podmínky výraz Z yi -ŽPjfj(xi) nabývá svého minima pro Pj = bj9 j = 0, 1.....p) i=I ^ j=0 ) m(x;b0,..., b ) - empirická regresní funkce ý; =ŕh(xi;b0,...,bp)=^bjfj(xi) - regresní odhad i-té hodnoty velič ny Y (i-tá predikovaná hodnota veličiny Y) j=0 e; = y; - ýj - i-té reziduum n se = ~ ^i ^ " reziduální součet čtverců i=l n -p -1 odhad rozptylu o sr = ^(ýi -m2)2 - regresní součet čtverců (m2 =— Ty;) i=i " n i=1 n st =Z(Yí -mif - celkový součet čtverců (ST = SR +SE) Význam jednotlivých typů součtů čtverců Předpokládejme, že máme dvourozměrný datový soubor, v němž průměr hodnot závisle proměnné veličiny Y je 9 a závislost veličiny Y na veličině X je popsána regresní přímkou y = 2x + 3. Dvourozměrný tečkový diagram obsahuje bod o souřadnicích (5, 19), který pochází z datového souboru. Na regresní přímce leží bod o souřadnicích (5, 13). Odchylka zjištěné hodnoty 19 od průměru 9 je v obrázku označena „Total deviation" a po umocnění je to jedna ze složek celkového součtu čtverců ST, tj. složka y; -m2. Odchylka zjištěné hodnoty 19 od hodnoty 13 na regresní přímce je v obrázku označena „Unexplained deviation" a po umocnění je to jedna ze složek reziduálního součtu čtverců SE, tj. složka y; - ý;. Odchylka hodnoty 13 na regresní přímce od průměru 9 je v obrázku označena „Explained deviation" a po umocnění je to jedna ze složek regresního součtu čtverců SR, tj. složka ý; -m2. Maticový zápis klasického modelu lineární regrese y = xp + s, kde y = (yy n) - vektor pozorování závisle proměnné veličiny Y, X 1 f, (x,) ... fp(xj regresní matice f,(xn) - fp(x.),' (předpokládáme, že h(X) = p+1 < n) P = (po, p\,..., Pp) - vektor regresních parametrů, e = (f!,..., f n)' - vektor náhodných odchylek. Podmínky (a) až (d) lze zkráceně zapsat ve tvaru e ~ Nn(0, o21). Maticově zapsaná metoda nejmenších čtverců vede na rovnice X'Xp = X'y - systém normálních rovnic b = (X'X)"1 X' y - odhad vektoru P získaný metodou nejmenších čtverců ý = Xb - vektor regresních odhadů (vektor predikce) e = y - ý - vektor reziduí Vlastnosti odhadu b: - odhad b je lineární, neboť je vytvořen lineární kombinací pozorování y 1? ..., yn s maticí vah (x'x)"' X ; - odhad b je nestranný, neboť E(b) = P; 2 "I - odhad b má varianční matici var b = o (X'X) ; - odhad b ~ Np+i(P, o2 (X'X)_i) vzhledem k platnosti podmínky (d); - pro odhad b platí Gaussova - Markovova věta: Odhad b = (X'X)1 X'y je nejlepší nestranný lineární odhad vektoru p. Příklad Sestrojte regresní matici X pro lineární regresní model a) y; = Po + Pix; + e;> provedeme-li 4 měření, b) y. = (30 + PjXj! + p^x2 + (33 lnxi2 + 8;, provedeme-li 5 měření. v Řešení: 1 x2 1 x3 Vl X4y ada)X= 1 A2 , adb) X Intervaly spolehlivosti pro regresní parametry sb = s^y~ - směrodatná chyba odhadu bj, kde vy je j-tý diagonální prvek matice (X'X)"1. 1 xll lnx12^ 1 X21 v2 A21 lnx22 1 X31 x2 A31 lnx32 1 X41 x2 lnx42 1 X51 X^ lnX52, Pro j = 0, 1,p statistika T\ t(n - p -l), tedy 100(1- a)% interval spolehlivosti pro Pj má meze: bJ±ti-a/2(n-p-1)sbJ- (S intervaly spolehlivosti souvisí relativní chyby odhadů regresních parametrů. Získají se tak, že se vypočítá absolutní hodnota podílu poloviční šířky intervalu spolehlivosti a hodnoty odhadu. Relativní chyba odhadu by neměla přesáhnout 10 %.) Přiklad: V tabulce jsou výnosy technické cukrovky v tunách na ha od roku 2000 do roku 2007. i rok cukrovka technická 1 2000 45,83 2 2001 45,41 3 2002 49,45 4 2003 45,20 5 2004 50,34 6 2005 53,31 7 2006 51,48 8 2007 53,25 Předpokládejte, že závislost výnosu cukrovky na roku lze vyjádřit regresní přímkou y = (30 + frx + e, a) MNC najděte odhady neznámých regresních parametrů p0^ Pí- b) Sestrojte 95% intervaly spolehlivosti pro regresní parametry $0, p\. c) Najděte relativní chyby odhadů regresních parametrů p0^ Pi- Řešení: Vytvoříme datový soubor se dvěma proměnnými rok, Y a osmi případy. Získání odhadů bo, bi: Statistiky - Vícerozměrná regrese - Závisle proměnná rok, nezávisle proměnné Y - OK - OK - Výpočet: Výsledky regrese. N=8 Abs.člen rok Výsledky regrese se závislou proměnnou : Y (cukrovkajechnicka.sta) R= ,84604287 R2= ,71578853 Upravené R2= ,66841995 F(1,6)=15,111 p<,00810 Směrod. chyba odhadu : 1,9651 Sm.chyba z b* | Sm.chyba J_zb_ t(6) p-hodn. 0,846043 0,217643 -2312,22 1 18 607,4943 0,3032 -3,80616 0,008903 3,88729 0,008102 Výpočet mezí intervalu spolehlivosti a relativních chyb odhadů: K výstupní tabulce přidáme tři nové proměnné DM, HM a chyba. Do Dlouhého jméně proměnné DM napíšeme =v3-v4*VStudent(0,975;6) Do Dlouhého jméně proměnné HM napíšeme =v3+v4*VStudent(0,975;6) Do Dlouhého jména proměnné chyba napíšeme =100*abs(0,5*(v8-v7)/v3)_ N=8 Výsledky regrese se závislou proměnnou : Y (cukrovkajechnicka.sta) R= ,84604287 R2= ,71578853 Upravené R2= ,66841995 F(1,6)=15,111 p<,00810 Směrod. chyba odhadu : 1,9651 b* Sm.chyba z b* b Sm.chyba I t(6) I p-hodn. I DM HM chyba z b | =v3-v4*v| =v3+v4*v| =100*abs Abs.člen -2312,22 607,4943 -3,80616 0,008903 -3798,71 -825,738 64,28814 rok 0,846043 0,217643 1,18 2 0,436747 1,920634| 62,94643 S pravděpodobností 95% se bude úsek Po regresní přímky nacházet v intervalu (-3798,71; -825,738). Odhad bo úseku Poje zatížen relativní chybou 64,3%. S pravděpodobností 95% se bude směrnice Pi regresní přímky nacházet v intervalu (-3798,71; -825,738). Odhad bi úseku Pi je zatížen relativní chybou 62,9%. Testování významnosti modelu jako celku (celkový F-test) Na hladině významnosti a testujeme H0: (pp...,pj=(0,...,0)' proti Hi: fe,...,pp)%(0,...,0)'. (Nulová hypotéza říká, že dostačující je model konstanty.) Testová statistika: F = — fR^—r má rozložení F(p, n-p-1), pokud H0 platí. SE/(n-p-l) Kritický obor: W = (F^ (p, n - p -1), «>). FeWí> H0 zamítáme na hladině významnosti a. Výsledky F-testu zapisujeme do tabulky analýzy rozptylu: zdroj variability součet čtverců stupně volnosti podíl statistika F model Sr P SR/p sr/p SE/(n-p-l) reziduálni Se n-p-1 SE/(n-p-l) - celkový St n-1 - - Příklad: Majitelé prodejny počítačových her nechali své prodavače absolvovat kurz prodejních dovedností. Poté zjišťovali po dobu 20 dnů, kolik osob navštíví během otevírací doby prodejnu (proměnná X) a jaká je v tento den tržba (proměnná Y, udává se v tisících Kč a je zaokrouhlená). i i 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Xi 20 21 2 27 28 29 30 31 32 34 35 37 38 39 42 44 48 49 51 54 yi 5 6 7 7 8 9 10 11 12 13 13 14 14 15 16 15 15 14 13 13 Dvourozměrný tečkový diagram 15 20 25 30 35 40 45 50 55 60 Z grafu závislosti Y na X vyplývá, že s rostoucím počtem zákazníků se tržby zvyšují, avšak při denním počtu zákazníků asi 42 dosahují svého maxima a pak už zase klesají (vyšší počet zákazníků obsluha prodejny nezvládá a zákazníci odcházejí, aniž by nakoupili). Zdá se tedy, že vhodným modelem závislosti tržeb na počtu zákazníků bude regresní parabola y = P0+plX + p2x2+8. Odhadněte parametry regresního modelu a proveďte celkový F-test. Řešení: Vytvoříme nový datový soubor se třemi proměnnými X, Xkv, Y a o 20 případech. Do proměnných X a Y napíšeme zjištěné hodnoty a do Dlouhého jména proměnné Xkv napíšeme = XA2. Získání odhadů b0, bb b2: Statistiky - Vícerozměrná regrese - Závisle proměnná rok, nezávisle proměnné Y - OK - OK - Výpočet: Výsledky regrese. N=20 Abs.člen xkv Výsledky regrese se závislou proměnnou : y (prodejna_software.sta) R= ,95519276 R2= ,91239322 Upravené R2= ,90208653 F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623 _ Sm.chyba z b* Sm.chyba zb t(17) p-hodn. 4,52641 -20,7723 0,548220 1,5651 3,373256 0,189559 -6,15792 0,000011 8,25655 0,000000 -3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003 Regresní parabola má tedy tvar: y = -20,7723 + 1,565 lx - 0,0173x Výsledky celkového F-testu jsou uvedeny v záhlaví výstupní tabulky. Testová statistika F nabývá hodnoty 88,524, odpovídající p-hodnota je blízká 0, tedy na hladině významnosti 0,05 zamítáme hypotézu, že dostačující je model konstanty. Podrobnější výsledky získáme v tabulce analýzy rozptylu: Aktivujeme Výsledky-vícenásobná regrese - Detailní výsledky - ANO V A Efekt Analýza rozptylu (prodejna_software.sta) Součet čtverců sv Průměr čtverců F p-hodn. Regres. 199,8141 99,90706 88,52445 0,000000 Rezid. 19,1859 219,0000 17 1,12858 Celk. Testování významnosti regresních parametrů (dílčí t-testy) Na hladině významnosti a pro j = 0,1, p testujeme hypotézu H0: fy = Oproti Hi: Pj ^0. Testová statistika: T- = — má rozložení t(n-p-l), pokud H0 platí. \ Kritický obor: w = (-«>, -1,^/2 (n - p -1)> u (t,^/2 (n - p -l), °°). T.eW^Ho zamítáme na hladině významnosti a. Příklad: V předešlém příkladě, kde byla modelována závislost tržby na počtu zákazníků regresní parabolou, proveďte dílčí t-testy o nevýznamnosti jednotlivých regresních parametrů v Řešení: Stačí interpretovat výstupní tabulku vícenásobné regrese: N=20 Abs.člen xkv Výsledky regrese se závislou proměnnou : y (prodejna_software.sta) R= ,95519276 R2= ,91239322 Upravené R2= ,90208653 F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623 Sm.chyba zb* -20,7723 4,52641 -3,73838 0,548220 0,548220 1,5651 -0,0173 Sm.chyba 3,373256 0,189559 0,002535 t(17) -6,15792 8,25655 -6,81912 p-hodn. 0,000011 0,000000 0,000003 Sloupec označený t(17) obsahuje realizace testových statistik a sloupec p-hodn. pak odpovídající p-hodnoty. Ve všech třech případech jsou p-hodnoty menší než 0,05, tedy na hladině významnosti 0,05 zamítáme hypotézy o nevýznamnosti regresních parametrů p0, Pi, p2. Kritéria pro posouzení vhodnosti zvolené regresní funkce a) Index determinace S S ID2 = ^- = 1 —^ - index determinace (0 < ID2 < 1) St St t t • udává, jakou část variability závisle proměnné veličiny Y lze vysvětlit zvolenou regresní funkcí (často se udává v %); • je zároveň mírou těsnosti závislosti proměnné Y na proměnné X; • je to obecná míra, nezávislá na typu regresní funkce (lze použít i pro měření nelineární závislosti); • je to míra, která nebere v úvahu počet parametrů regresní funkce. U regresních funkcí s více parametry vychází tedy obvykle vyšší než u regresních funkcí s méně parametry; • tato míra není symetrická. Za vhodnější se považuje ta regresní funkce, pro niž je index determinace vyšší. V případě, že porovnáváme několik modelů s rozdílným počtem parametrů, používáme adjustovaný index determinace: (l-ID2)p IDadj2=ID2 - adjustovaný index determinace n -p -1 V příkladu s prodejem software najdeme index determinace ve výstupní tabulce regrese: N=20 Abs.člen x xkv Výsledky regrese se závislou proměnnou : y (prodejna_software.sta) R= ,95519276 R2= ,91239322 Upravené R2= ,90208653 F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623 Sm.chyba zb* Sm.chyba zb t(17) p-hodn. _ 4,52641 0,548220 -20,7723 1 5651 3,373256 0,189559 -6,15792 0,000011 8,25655 0,000000 -3,73838| 0,548220| -0,0173| 0,002535| -6,81912 0,000003 Index determinace je zde označen jako R2, nabývá hodnoty 0,9124 a říká nám, že 91,24% variability tržeb je vysvětleno regresní parabolou. Adjustovaný index determinace je označen Upravené R2. b) Testové kritérium F Za vhodnější je považována ta regresní funkce, u níž je hodnota testové statistiky F SR/p SE/(n-p-l) pro test významnosti modelu jako celku vyšší. Ve výstupní tabulce regrese je testová statistika F uvedena v záhlaví: Výsledky regrese se závislou proměnnou : y (prodejna_software.sta) R= ,95519276 R2= ,91239322 Upravené R2= ,90208653 F(2,17)=88,524 p<,00000 Směrod. chyba odhadu : 1,0623 N=20 b* Sm.chyba zb* Sm.chyba zb t(17) p-hodn. Abs.člen -20,7723 3,373256 -6,15792 0,000011 X 4,52641 0,548220 1,5651 0,189559 8,25655 0,000000 xkv -3,73838 0,548220 -0,0173 0,002535 -6,81912 0,000003 V našem příkladě je označena F(2,17) a nabývá hodnoty 88,524. c) Reziduálni součet čtverců a reziduálni rozptyl n Reziduálni součet čtverců: SE = ^ (y; - ý; f í=i Za vhodnější považujeme funkci, která má reziduálni součet čtverců nižší. Reziduálni součet čtverců lze použít pouze tehdy, když srovnáváme funkce se stejným počtem parametrů. Reziduálni rozptyl: s2 =--— n -p -1 Za vhodnější považujeme tu funkci, která má reziduálni rozptyl nižší. Reziduálni rozptyl můžeme použít vždy, bez ohledu na to, kolik parametrů mají srovnávané regresní funkce. Obě charakteristiky najdeme v tabulce ANOVA: idy, Efekt Analýza rozptylu (prodejna_software.sta) Součet čtverců sv Průměr čtverců F p-hodn. Regres. 199,8141 99,90706 88,52445 0,000000 Rezid. 19,1859 17 1,12858 Celk. 219,0000 Reziduálni součet čtvercuje 19,1859 a reziduálni rozptyl je 1,12858. d) Střední absolutní procentuální chyba predikce (MAPE) 1 11 v — v MAPE = -V —^ Za vhodnější považujeme tu funkci, která má MAPE nižší. Systém STATISTICA MAPE neposkytuje, tuto chybu musíme vypočítat. Statistiky - Vícerozměrná regrese - Závisle proměnná y, nezávisle proměnné x, xkv - OK - OK - zvolíme Rezidua/předpoklady/předpovědi - Reziduálni analýza - Uložit - Uložit rezidua & předpovědi - vybereme proměnnou y - OK. K vzniklému datovému souboru přidáme jednu novou proměnnou, nazveme ji chyba a do jejího Dlouhého jména napíšeme =100*abs((vl-v2)/vl) Pomocí Statistiky - Základní statistiky/tabulky - Popisné statistiky zjistíme průměr proměnné chyba. V našem případě je MAPE 9,31%. e) Analýza reziduí Rezidua považujeme za odhady náhodných odchylek a klademe na ně stejné požadavky jako na náhodné odchylky, tj. mají být nezávislá, mají být normálně rozložená, mají mít nulovou střední hodnotu, mají mít konstantní rozptyl (tj. jsou homoskedastická). Nezávislost reziduí (autokorelaci) posuzujeme např. pomocí Durbinovy - Watsonovy statistiky, která by se měla nacházet v intervalu (l,4;2,6) (to je ovšem pouze orientační vodítko, korektní postup spočívá v porovnání této statistiky s tabelovanou kritickou hodnotou). Normalitu reziduí ověřujeme pomocí testů normality (např. Lilieforsovou variantou Kolmogorovova - Smirnovova testu nebo Shapirovým - Wilksovým testem) či graficky pomocí N-P plotu. Testování nulovosti střední hodnoty reziduí provádíme pomocí jedno výběrového t-testu. Homoskedasticitu reziduí posuzujeme pomocí grafu závislosti reziduí na predikovaných hodnotách. V tomto grafu by rezidua měla být rovnoměrně rozptýlena. Příklad: Proveďte analýzu reziduí pro příklad s modelováním závislosti tržby na počtu zákazníků. Posouzení nezávislosti reziduí pomocí Durbinovy - Watsonovy statistiky: Statistiky - Vícenásobná regrese - proměnná Závislá: y, nezávislá x, xkv - OK - na záložce Resi-dua/předpoklady/předpovědi vybereme Reziduálni analýza - Detaily - Durbin-Watsonova statistika: Odhad Durbin- Sériové Watson.d korelace 0,702506 0,599248 Hodnota této statistiky je nízká, svědčí o tom, že rezidua jsou kladně korelovaná. Posouzení homoskedasticity reziduí Předpovězené hodnoty vs. rezidua Závislá proměnná : y o o ° Reziduí 2 l 6 10 1 2 14 16 Předpov. hodnoty 10,95 Int.spol. Je vidět, že rezidua nejsou kolem 0 rozmístěna náhodně. Model s regresní parabolou tedy není úplně vhodný. Testování nulovosti střední hodnoty reziduí: Pro proměnnou Rezidua z tabulky uložené pomocí Reziduálni analýzy provedeme jednovýběrový t-test: Statistiky - Základ I 1 Proměnná Průměr Sm.odch. N Sm.chyba I Referenční konstanta | t SV P | Rezidua -0,000000| 1,004880 20 0,224698 0,00 -0,000000 19 1,000000 Na hladině významnosti 0,05 nezamítáme hypotézu, že střední hodnota reziduí je 0. Posouzení normality reziduí: Normální p-graf z Rezidua Tabulkal 9v'20c f irmál E O So -2 5 -2 ,0 -1,5 -1 0 -0 ,5 0,0 0 5 1 0 1,5 2,0 Rezidua : SW-W -0,9601; p- 0,5453 j Pozorovaný kvantil Rezidua se řadí kolem ideální přímky, lze tedy soudit, že se řídí normálním rozložením. Závěr: V neprospěch regresní paraboly hovoří hodnota Durbinovy - Watsonovy statistiky a graf závislosti reziduí na predi kovaných hodnotách. Model regresní přímky Máme regresní model Y = (30 + p\x + e, kde y = po + p\x - teoretická regresní přímka (deterministická složka modelu). (Parametr (30 interpretujeme jako teoretickou hodnotu Y při x = 0 a p\ udává změnu Y, když X se změní o jednotku.) Složka e - náhodná složka modelu. Předpoklady použití regresní přímky: - Závislost Y na X má lineární charakter. - Pro celý rozsah uvažovaných hodnot nezávisle proměnné X je reziduálni rozptyl s2 konstantní (hovoříme o homoskedasticitě a znamená to, že variabilita hodnot závisle proměnné veličiny Y kolem regresní přímky je stejná pro všechny uvažované hodnoty nezávisle proměnné veličiny X). - Hodnoty závisle proměnné veličiny Y mají normální rozložení pro dané hodnoty Xj a jsou stochasticky nezávislé (to souvisí s uspořádáním experimentu). Poznámka: Menší odchylky od normality a homoskedasticity je možno tolerovat. Systém normálních rovnic pro regresní přímku Uvažujeme regresní model Y = (30 + p\x + e. Systém normálních rovnic pro odhad regresních parametrů (30 a p\ získáme derivováním výrazu q(p0,p1) = -^(yi-p0-p1xi)2 parciálně podle p0 a p\: %6] = 2lŽ(,i-p„-p,xi)(-l) = 0,%fi> = 2lŽ(yi-p„-P1x,)(-i) = 0 dp0 n i=1 dp\ n n n n n ZX:'Z>: -ZX:ZX:>: nZx > "ZX:Z>: Řešením tohoto systému získáme odhady b0 = —-—-———2-, bj = —^-—— nZxi2-[ZxiJ nZxi2-[ZxiJ Po jednoduchých úpravách dospějeme ke tvaru bj = %, kde s12 je kovariance hodnot (xj, yj), i = 1, n a s/ je rozptyl hodnot Xj,... ,xn. Dále dostáváme b0 = m2 - bjirij, tedy regresní přímku můžeme vyjádřit ve tvaru y = m2 + —(x - ni!). ------------------i i * Index determinace regresní přímky Kvalitu regresních modelů posuzujeme mj. pomocí indexu determinace: ID2 = —, kde n n SR = ^(ý. -m2)2 je regresní součet čtverců a ST = ^(y; -m2)2 je celkový součet čtverců. i=l i=l Pro regresní přímku má regresní součet čtverců tvar: sR=Z(y;-m2)2=2: i=l i=l m2+^r(xi-mi)-m2 J12 4 St i=l É(xi_m2)2=n^T Celkový součet čtverců ST = ^(y; -m2)2 =ns22, tedy index determinace i=l 312 ID =■ 2 S 2~ _ _ 2 2 — x12 SZ Z x ns2 Sj s 12_— r 2 Vidíme tedy, že v případě regresní přímky index determinace je roven kvadrátu koeficientu korelace. Index determinace nabývá hodnot z intervalu (0,l). Často se vyjadřuje v procentech a informuje nás o tom, variability hodnot závisle proměnné veličiny Y vyčerpává regresní model. Sdružené regresní přímky Předpokládáme, že obě veličiny Y a X jsou náhodné a veličina X nezávisí na náhodné složce e. Pak jde o případ oboustranné závislosti. Závislost Y na X vystihuje regresní model Y = (30 + p\x + 8, závislost X na Y vystihuje regresní model X = cc0 + cqy + ô. Odhady a0,al regresních parametrů a,,,^ v modelu X; = a0 + 0^ +ô; získáme opět MNC ve tvaru Empirická regresní přímka závislosti X na Y má tedy rovnici: x = m1+^|(y-m2). S2 Obě empirické regresní přímky y = b0 + bix, x = an + aiy se nazývají sdružené regresní přímky a odhady regresních parametrů se nazývají odhady párově sdružených regresních parametrů. Je zřejmé, že blal = r122. Rovnice sdružených regresních přímek můžeme tedy psát ve tvaru: y = m2+^f (x-mj, y = ml +—^(x-m2). Sj r12 Sj Vlastnosti sdružených regresních přímek a) Sdružené regresní přímky se protínají v bodě o souřadnicích [m1,m2] (tj. v těžišti dvourozměrného tečkového diagramu). b) Je-li r 12 = 0 (tj. náhodné veličiny X, Y jsou nekorelované), pak sdružené regresní přímky mají rovnice y = m2, x = ni! (tj. jsou to kolmice rovnoběžné se souřadnými osami). c) Je-li ri22 = 1 (tj. mezi náhodnými veličinami X, Y existuje úplná lineární závislost), pak sdružené regresní přímky splynou 1 a a, = —. bi d) Je-li 0 < ri22 < 1, pak sdružené regresní přímky se liší a svírají úhel, který je tím menší, čím je těsnější lineární závislost veličin X, Y. e) Označíme-li cp úhel, který svírají sdružené regresní přímky, pak z předešlých úvah plyne: coscp = 0 o mezi X a Y neexistuje žádná lineární závislost; coscp = 1 o mezi X a Y existuje úplná přímá lineární závislost; coscp = -1 o<=> mezi X a Y existuje úplná nepřímá lineární závislost. Příklad: Z fiktivního 60 vzorků a základního souboru všech vzorků oceli odpovídajících „všem myslitelným tavbám" bylo do laboratoře dodáno zjištěny a hodnoty proměnné X - mez plasticity a Y - mez pevnosti. Datový soubor má tvar: " 1m 178 s3 08 73 75 133 106 111 77 S5 58 75 92 104 17 61 145 101 es 10Í 59 95 94 107 11S 11S 137 142 113 141 08 102 44 68 36 97 103 103 92 lift 121 L 27 E>E> 119 141 157 119 138 104 m 155 18? 112 125 107 us 136 155 85 97 98 uo 82 81 41 72 97 nu 130 103 96 113 105 101 72 79 45 SO 71 93 66 Bl 99 109 3a 69 42 61 95 122 147 113 123 101 33 52 42 S5 1ÔD 169 78 117 133 147 87 101 114 137 153 179 88 125 149 91 a) Určete regresní přímku meze pevnosti na mez plasticity. b) Zakreslete regresní přímku do dvourozměrného tečkového diagramu. c) Najděte regresní odhad meze pevnosti pro mez plasticity = 60. d) Vypočtěte index determinace a interpretujte ho. e) Najděte reziduální součet čtverců a odhad rozptylu náhodných odchylek. f) Určete regresní přímku meze plasticity na mez pevnosti. g) Zakreslete regresní přímku do dvourozměrného tečkového diagramu. h) Obě regresní přímky zakreslete do téhož dvourozměrného tečkového diagramu. Řešení v systému STATISTICA: Ad a) Odhad parametrů 1. regresní přímky: Statistiky - Vícerozměrná regrese - Závisle proměnná Y, nezávisle proměnná X - OK - OK - Výpočet: Výsledky re N=60 Výsledky regrese se závislou proměnnou : Y (ocel.sta) R= ,93454811 R2= ,87338017 Upravené R2= ,87119707 F(1,58)=400,06 p<0,0000 Směrod. chyba odhadu : 11,768 Beta Srn.chyba beta B Sm.chyba B t(58) Úroveň p Abs.člen 24,58814 4,740272 5,18707 0,000003 X 0,934548 0,046724 0,93668 0,046830 20,00160 0,000000 Ad b) Zakreslení regresních přímky do dvourozměrného tečkového diagramu: Grafy - Bodové grafy - Proměnné X, Y - OK - OK. Bodový graf z Y proti X ocel.sta 2v*60c Y = 24,5881 +0,9367*X 20 40 60 80 100 120 140 160 1 Ad c) Výpočet predikované hodnoty: Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi -Předpovědi závisle proměnné X: 60 OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpověď: 80,79 Předpovězené hodnoty (ocel.sta] Proměnná b-váha Hodnota b-váha * Hodnot X 0,936679 60,00000 56,20071 Abs. člen 24,58814 Předpověď 80,78885 -95,0%LS 76,25426 +95,0%LS 85,32344 Regresní odhad meze pevnosti pro mez plasticity 60 je tedy 80,8. Ad d) Index determinace najdeme ve výstupní tabulce regrese pod označením R2: N=60 Výsledky regrese se závislou proměnnou : Y (ocel.sta) R= ,93454811 R2= ,8733801 7 Upravené R2= ,87119707 F(1,58)=400,06 p<0,0000 Směrod. chyba odhadu : 11,768 Beta Srn.chyba beta B Sm.chyba t(58) Úroveň p B I I Abs.člen 24,58814 4,740272 5,1870/1 0,000002 X 0,934548 0,046724 0,93668 0,04683C 20,0016c| 0,00000C Vidíme, že variabilita meze pevnosti je regresní přímkou vyčerpána z 87,3 %. Ad e) Reziduálni součet čtverců a odhad rozptylu najdeme v tabulce ANOVA: Vrátíme se do Výsledky - Vícenásobná regrese - na záložce Detailní výsledky zvolíme ANOVA (Celk. vhodnost modelu) Efekt Analýza rozptylu (ocel.sta) Součet čtverců sv Průměr čtverců F p-hodn. Regres. 55400,60 55400,60 400,0641 0,000000 Rezid. 8031,80 58 138,48 Celk. 63432,40 Vidíme, že reziduálni součet čtvercuje 8031,8 a reziduálni rozptyl nabývá hodnoty 138,48. Ad f) Výsledky pro 2. regresní přímku: N=60 Výsledky regrese se závislou proměnnou : X (ocel.sta) R= ,93454811 R2= ,87338017 Upravené R2= ,87119707 F(1,58)=400,06 p<0,0000 Směrod. chyba odhadu : 11,741 Beta ISm.chyba beta B ISm.chyba I t(58) I Úroveň p B Abs.člen -10,7858 5,54425C -1,9454C 0,056579 Y 0,93454S| 0,046724 0,9324| 0,046617 20,0016C 0,00000C Vidíme, že x = -10,7858 + 0,9324y. Ad g) Dvourozměrný tečkový diagram se zakreslenou 2. regresní přímkou Ad h) Nakreslení sdružených regresních přímek do jednoho diagramu: K datovému souboru ocel.sta přidáme dvě nové proměnné yl a y2. Do proměnné yl uložíme predikované hodnoty meze pevnosti na mezi plasticity (do Dlouhého jména proměnné yl napíšeme =24,58814 + 0,93668*x a do Dlouhého jména proměnné y2 napíšeme =(x+l0,785 8)/0,9324 Grafy - Bodové grafy - zaškrtneme Vícenásobný - Proměnné X: X, Y: Y, yl, y2 - OK. Ve vytvořeném grafu pak vypneme zobrazování značek pro yl, y2 a naopak zapneme Spojnici. 20 40 100 120 140 16i Kritické hodnoty Durbinova-Watsonova testu pro autokorelaci 1. řádu pro a = 0,05, rozsah výběru n a počet regresorä p (bez konstant) p=l p=2 p=3 p=4 p=5 n dL du dL du dL du dL du dL du 15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21 20 1,20 1,41 1,10 1,54 1,00 1,68 0,90 1,83 0,79 1,99 30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83 40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79 60 1,55 1,62 1,51 1,65 1,48 1,69 1,44 1,73 1,41 1,77 80 1,61 1,66 1,59 1,69 1,56 1,72 1,53 1,74 1,51 1,77 100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,57 1,78 Uvod do analýzy časových řad Osnova: - pojem časové řady - druhy časových řad a jejich grafické znázornění - statické a dynamické charakteristiky časové řady - aditivní model časové řady - odhad trendu časové řady pomocí klouzavých průměrů - regresní analýza trendu Pojem časové řady: Časovou řadou rozumíme řadu hodnot yti ,...,yt určitého ukazatele uspořádanou podle přirozené časové posloupnosti ti < ... < tn. Jsou-li časové intervaly (ti, t2),(tn-i, tn) stejně dlouhé (ekvidistantní), zjednodušeně zapisujeme časovou řadu jako yi, yn. Přitom ukazatel je veličina, která charakterizuje nějaký jev v určitém prostoru a určitém čase (okamžiku či intervalu). Druhy časových řad a) Časová řada okamžiková: příslušný ukazatel udává, kolik jevů existuje v daném časovém okamžiku (např. počet obyvatelstva k určitému dnu). b) Časová řada intervalová: příslušný ukazatel udává, kolik jevů vzniklo či zaniklo v určitém časovém intervalu (např. počet sňatků během roku). Nejsou-li jednotlivé časové intervaly ekvidistantní, musíme provést očištění časové řady od důsledků kalendářních variací. Příklad: Máme k dispozici údaje o tržbě obchodní organizace (v tis. Kč) v jednotlivých měsících roku 1995: 2400, 2134, 2407, 2445, 2894, 3354, 3515, 3515, 3225, 3063, 2694, 2600. Vypočtěte očištěné údaje. Řešení: Průměrná délka měsíce je 365/12 dne. Očištěná hodnota pro leden y<0) =2400-pro únor y(20) = 2134- 365 12-31 365 = 2354,84, = 2318,18. 12-28 Pro ostatní měsíce analogicky dostaneme 2361,71; 2478,96; 2839,54; 3400,58, 3448,86; 3448,86; 3269,79; 3005,36; 2731,42; 2551,08. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o třech proměnných: tržba, dm (délky jednotlivých měsíců) a ot (očištěná tržba) a 12 případech. Do proměnné tržba zapíšeme zjištěné hodnoty. Do proměnné dm vložíme délky jednotlivých měsíců, tj. 31, 28, 30, 31. Do Dlouhého jména proměnné ot napíšeme =trzba*365/(12*dm). 1 tržba 2 dm 3 ot 1 2400 31 2354,839 2134 28 2318,185 2407 31 2361,707 4 2445 30 2478,958 5 2894 31 2839,543 3354 30 3400,583 3515 31 3448,858 3515 31 3448,858 9 3225 30 3269,792 3063 31 3005,363 2694 30 2731,417 12 2600 31 2551,075 Grafické znázornění okamžikové časové řady Použijeme spojnicový diagram. Na vodorovnou osu vynášíme časové okamžiky ti, tn, na svislou osu odpovídající hodnoty yi, yn. Dvojice bodů (ti, y0, i = 1, n spojíme úsečkami. Příklad: Časová řada obsahuje údaje o počtu zaměstnanců určité akciové společnosti v letech 1989 - 1996 vždy k 31.12. 1989 1990 1991 1992 1993 1994 1995 1996 622 627 631 635 641 641 632 625 Znázorněte tuto časovou řadu graficky. Řešení pomocí systému STATISTIC A: Vytvoříme datový soubor o dvou proměnných nazvaných rok a počet a 8 případech. Grafy - Bodové grafy - odškrtneme Lineární proložení - Proměnné X - rok, Y - počet grafu - vybereme Graf: obecné - zaškrtneme Spojnice - OK. OK - OK. 2x klikneme na pozadí Grafické znázornění intervalové časové řady Použijeme sloupkový diagram. Je to soustava obdélníků, kde šířka obdélníku je rovna délce intervalu a výška odpovídá hodnotě ukazatele v daném intervalu. Ke znázornění intervalové časové řady lze použít i spojnicový diagram, přičemž na vodorovnou osu vynášíme středy příslušných intervalů. Příklad: Máme k dispozici údaje o produkci určitého podniku (v tisících výrobků) v letech 1991-1996 1991 1992 1993 1994 1995 1996 114 106 107 102 116 137 Znázorněte tuto časovou řadu graficky. v Řešení pomocí systému STATISTIC A: Vytvoříme datový soubor o dvou proměnných nazvaných rok a produkce a 6 případech. Grafy - Bodové grafy - odškrtneme Lineární proložení - Proměnné X - rok, Y - produkce - OK - OK. 2x klikneme na pozadí grafu - vybereme Graf: obecné - zaškrtneme Spojnice - Přidat nový graf - typ Sloupcový graf - OK. Do sloupců označených jako Novýl, Nový2 okopírujeme hodnoty proměnných rok a produkce. Ve Všech možnostech: Sloupce upravíme šířku sloupce na 1. 100 1—■—1—■—•—■—1—■—•—■—1—■—•—■—1—■—•—■—1—■—•—■—1—■—•—■—1—■—1 1990 1991 1992 1993 1994 1995 1996 1997 rok Průměr okamžikové časové řady Nejprve vypočteme průměry pro jednotlivé dílčí intervaly (ti, t2), (t2, t3), (tn_i, tn): y' ,y2 *y3^^^^ • Jsou-li všechny tyto intervaly stejně dlouhé, vypočteme prostý chronologický průměr okamžikové časové řady: í„ n-l „ "\ 1 n —X- Yi-i + ľ i 1 n-l V L i=2 Nemají-li intervaly stejnou délku, vypočteme di = ti - ti_i, i = 2, n a použijeme vážený chronologický průměr okamžikové časové řady: Z", " i=2 Příklad: Časová řada vyjadřuje počet obyvatelstva ČSSR (v tisících) v letech 1965 až 1974 vždy ke dni 31.12. Rok 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 počet 14194 14271 14333 14387 14443 14345 14419 14576 14631 14738 Charakterizujte tuto časovou řadu chronologickým průměrem. yC v , _ 1(14194 14738 l Reseni: y = - -+14271+... +14631+- =14430. Průměr intervalové časové řady y=-Zyi i=l Příklad: Vypočtěte průměrnou hodnotu roční časové řady HDP ČR (v miliardách Kč) v letech 1994 až 2000. 1994 1995 1996 1997 1998 1999 2000 1303,6 1381,1 1447,7 1432,8 1401,3 1390,6 1433,8 Řešení: y = - (1303,6 +... +1433,8) = 1398,7 Dynamické charakteristiky časových řad Absolutní přírůstky 1. diference: Ay; = y, -yM,i = 2,...,n 2. diference: A(2)yi = Ayt -AyM = y; -2yi_1 + yi_2,i = 3,...,n atd. (Diferencování má velký význam při odhadu trendu časové řady regresními metodami.) i>yi Průměrný absolutní přírůstek: A - 1=2 n-1 yn -yi n-l Relativní přírůstek ô, = ^-,i = 2,...,n ľi-i (Relativní přírůstek po vynásobení 100 udává, o kolik procent se změnila hodnota v čase ti oproti času tu.) Koeficient růstu (tempo růstu) k; =^,i = 2,...,n Yi-i (Koeficient růstu po vynásobení 100 udává, na kolik procent hodnoty v čase tu vzrostla či poklesla hodnota v čase ti.) Průměrný koeficient růstu v yi Průměrný relativní přírůstek 5 = k-l Příklad: Pro časovou řadu HDP ČR v letech 1994 až 2000 (v miliardách Kč) vypočtěte základní charakteristiky dynamiky a graficky znázorněte 1. diference a koeficienty růstu. Řešení: rok HDP Ayi ki 5i 1994 1303,6 X X X 1995 1381,1 77,5 1,059 0,059 1996 1447,7 66,6 1,048 0,048 1997 1432,8 -14,7 0,990 -0,010 1998 1401,3 -31,5 0,978 -0,022 1999 1390,6 -10,7 0,992 -0,008 2000 1433,8 43,2 1,031 0,031 Průměrný absolutní přírůstek: A = - 1433,8-1303,6 = 21,7, tzn., že v období 1994 - 2000 rostl HDP průměrně o 21,7 miliard Kč rocne. Průměrný koeficient růstu: k = 6 1433,8 1303,6 1,016, tzn., že v období 1994 - 2000 rostl HDP průměrně o 1,6% ročně. Graf 1. diferencí: Graf koeficientů růstu: Výpočet pomocí systému STATISTICA Statistiky - Pokročilé lineární/nelineární modely - Časové řady/predikce - Proměnné HDP - OK - OK (transformace, autokorelace, kříž. korelace, grafy) - Diferencování - OK (transformovat vybrané řady) - vykreslí se graf. Graf proměnné: HDP D<-1) 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 Čísla případů Vrátíme se do Transformace proměnných - Uložit proměnné. Otevře se nové datové okno, kde v proměnné HDP_1 jsou uloženy 1. diference. HDP HDP_1 1 1303,600 2 1381,100 77,500 3 1447,700 66,600 4 1432,800 -14,900 5 1401,300 -31,500 6 1390,600 -10,700 7 1433,800 43,200 Výpočet relativních přírůstků: S; ľi-i pro i = 2,...,n Vrátíme se do Transformace proměnných - označíme proměnnou, kterou chceme transformovat (HDP) - vybereme Posun -OK, (Transformovat vybrané řady) - vykreslí se graf. Vrátíme se do Transformace proměnných - Uložit proměnné. Tato transformovaná veličina se uloží do tabulky pod názvem HDP_1 (proměnná s 1. diferencemi se přejmenuje na HDP_2). Přidáme novou proměnnou RP a do jejího Dlouhého jména napíšeme vzorec =HDP_2/HDP_1. Výpočet koeficientů růstu: k; = pro i = 2,...,n ľi-i Do tabulky přidáme proměnnou KR a do jejího Dlouhého jména napíšeme vzorec =HDP/HDP_1. Získáme tabulku 1 HDP 2 HDP 2 3 HDP 1 4 RP 5 KR 1 1303,600 1381,100 77,500 1303,600 0,059451 1,059451 3 1447,700 66,600 1381,100 0,048222 1,048222 4 1432,800 -14,900 1447,700 -0,01029 0,989708 5 1401,300 -31,500 1432,800 -0,02198 0,978015 6 1390,600 -10,700 1401,300 -0,00764 0,992364 7 1433,800 43,200 1390,600 0,031066 1,031066 8 1433,800 Pomocí Grafy - 2D Grafy - Spojnicové grafy (Proměnné) vykreslíme průběh relativních přírůstků a koeficientů růstu. Průměrný absolutní přírůstek a průměrný koeficient růstu vypočteme na kalkulačce pomocí vzorců 6 V 1303,6 Aditivní model časové řady Předpokládejme, že pro časovou řadu yi,yn platí model yt = f(t) + st, t = 1,n, kde f(t) je neznámá trendová funkce (trend), kterou považujeme za systematickou (deterministickou) složku časové řady (popisuje hlavní tendenci dlouhodobého vývoje časové řady), st je náhodná složka časové řady zahrnující odchylky od trendu. Náhodná složka splňuje předpoklady E(st) = 0, D(st) = o2, C(st, st+h) = 0, st ~ N(0, o2) (říkáme, že st je bílý šum). Odhad trendu časové řady pomocí klouzavých průměrů Podstata klouzavých průměrů Předpokládáme, že časová řada se řídí aditivním modelem yt = f(t) + st, t = 1, ...,n. Odhad trendu v bodě t získáme určitým zprůměrováním původních pozorování z jistého okolí uvažovaného časového okamžiku t. Můžeme si představit, že podél dané časové řady klouže okénko, v jehož rámci se průměruje. Nechť toto okénko zahrnuje d členů nalevo od bodu t a d členů napravo od bodu t. Hovoříme pak o vyhlazovacím okénku šířky h = 2d + 1. Prvních a posledních d hodnot trendu neodhadujeme, protože pro t e {l,..., d}u {n - d +1,..., n} není vyhlazovací okénko symetrické. Odhad trendu ve středu vyhlazovacího okénka je dán vztahem: 1 1 2d f (t) = t—- (y t-d + y t-d+i + • • •+y t+d) = t—r Z y t-d+k, t = d+1,..., n-d. zú +1 zú +1 k_Q Šířka vyhlazovacího okénka Velmi důležitou otázkou je stanovení šířky vyhlazovacího okénka. Je-li okénko příliš široké, bude se odhad trendu blížit přímce (říkáme, že je přehlazen) a zároveň se ztratí velký počet členů na začátku a na konci časové řady. Je-li naopak okénko úzké, bude se odhad trendu blížit původním hodnotám (říkáme, že odhad je podhlazen). Nejčastěji se volí šířka okénka h = 3, 5, 7, pro čtvrtletní hodnoty pak 4. Příklad: Časová řada 215, 219, 222, 235, 202, 207, 187, 204, 174, 172, 201, 272 udává roční objemy vývozu piva (v miliónech litrů) z Československa v letech 1980 až 1991. a) Odhadněte trend této časové řady pomocí klouzavých průměrů s vyhlazovacím okénkem šířky 3 a poté 5. b) Graficky znázorněte průběh časové řady s odhadnutým trendem. v Řešení pomocí systému STATISTIC A: Vytvoříme datový soubor export_piva.sta o dvou proměnných ROK a VYVOZ a dvanácti případech. Statistiky - Pokročilé lineární/nelineární modely - Časové řady/predikce - Proměnné Y - OK- OK (transformace, autokorelace, kříž. korelace, grafy) - Vyhlazování - zaškrtneme N-bod. klouzavý průměr, N = 3 - OK (Transformovat vybrané řady) - vykreslí se graf, vrátíme se do Transformace proměnných - Uložit proměnné. Otevře se nový spreadsheet, kde v proměnné VYVOZ_l jsou uloženy klouzavé průměry pro N = 3. Totéž uděláme pro případ N = 5. Ve spreadsheetu se proměnná VYVOZ_l přepíše na VYVOZ_2 a nová proměnná se uloží jako VYVOZ_l. Nově vzniklé proměnné nazveme KP3 a KP5. K datovému souboru přidáme proměnnou ROK, do jejíhož Dlouhého jména napíšeme =1979+v0. export_piva.sta rok VYVOZ KP3 4 KP5 1 1980 215,000 2 1981 219,000 218,667 3 1982 222,000 225,333 218,600 4 1983 235,000 219,667 217,000 5 1984 202,000 214,667 210,600 6 1985 207,000 198,667 207,000 7 1986 187,000 199,333 194,800 8 1987 204,000 188,333 188,800 9 1988 174,000 183,333| 187,600 10 1989 172,000 182,333 204,600 11 1990 201,000 215,000 12 1991 272,000 Cíl regresní analýzy trendu Regresní analýza trendu má objasnit vztah mezi závisle proměnnou veličinou Y a časem t. Předpokládáme, že trend f(t) závisí (lineárně či nelineárně) na neznámých parametrech p0, Pi, Pk a známých funkcích cpo(t), cpi(t), (Pk(t), které již neobsahují žádné neznámé parametry, tj. f(t) = g(p0, Pi,pk; cpo(t), cpi(t),(Pk(t)). Odhady b0, bi,bk neznámých parametrů p0, Pi,Pk lze získat např. metodou nejmenších čtverců a pak vyjádřit odhad f (t) neznámého trendu v bodě t pomocí odhadů b0, bi,bk a funkcí cp0(t), cpi(t),(pk(t), tj. f (t) = g(b0, bi,bk; cpo(t), cpi(t),(pk(t)). Nej důležitější typy trendových funkcí Volba typu trendové funkce se provádí - na základě teoretických znalostí a zkušeností se zkoumanou veličinou Yt - pomocí grafu časové řady - pomocí informativních testů založených na jednoduchých charakteristikách časové řady b) Kvadratický trend Analytické vyjádření: f (t) = (30 + p\ t + (32t2 Informativní test: 1. diference mají přibližně lineární trend, 2. diference (A(2)yt = Ayt - Ayt_j = yt -2yt_j + yt_2,t = 3,...,n) jsou přibližně konstantní. Příklad kvadratického trendu: d) Modifikovaný exponenciálni trend Analytické vyjádření: f (t) = a + P0pY. Informativní test: řada podílů sousedních 1. diferencí je přibližně konstantní. Příklad modifikovaného exponenciálního trendu 1 5 čas e) Logistický trend Analytické vyjádření: f (t) a 1 + PoíV Informativní test: průběh 1. diferencí je podobný Gaussově křivce a podíly Vyt+2-Vy t+i i/yt+i-Vyt jsou přibližně konstantní. Příklad logistického trendu: Modely (a), (b), (c) jsou lineární nebo se dají linearizovat a odhady parametrů získáme metodou nejmenších čtverců. Modely (d), (e), (f) jsou nelineární a odhady parametrů se získávají speciálními numerickými metodami. Orientační ověřování kvality modelu - Index determinace (tj. podíl vysvětlené a celkové variability závisle proměnné veličiny) by měl být blízký 1. - Body grafu (f (t),f (t)), t = 1, 2, n by se měly řadit do přímky se směrnicí 1. Příklad: Časová řada 112, 149, 238, 354, 580, 867 udává zisk (v tisících dolarů) jisté společnosti v prvních šesti letech jej existence. a) Graficky znázorněte průběh této časové řady. b) Vypočtěte koeficienty růstu c) Z grafu časové řady a chování koeficientů růstu lze usoudit, že časová řada má exponenciální trend f (t) = |30pY . Odhadněte jeho parametry. d) Najděte odhad zisku společnosti v 7. a 8. roce její existence. e) Zjistěte index determinace a sestrojte graf (f(t),f(t)), t = 1,6. ad b) Koeficienty růstu: 149/112 = 1,33, 238/149 = 1,597, 354/238 = 1,487, 580/354 = 1,628, 867/580 = 1,495. Vidíme, že koeficienty růstu jsou přibližně konstantní. ad c) Model f (t) = |30pY linearizujeme a metodou nejmenších čtverců získáme odhady ln b0 = 4, 227983, ln bi = 0,420199. Odlogaritmováním dostaneme b0 = 68,57875, bi = 1,522265. add) ý7 = 68,57875 -1.5222657 =1299,ý8 = 68,57875-1.5222658 =1977 ad e) ID2 = 0,996 Výpočet pomocí systému STATISTIC A: Vytvoříme datový soubor se dvěma proměnnými čas a Y a 6 případy, ad a) Časovou řadu znázorníme graficky pomocí Grafy - Bodové grafy. ad b) Koeficienty růstu získáme pomocí Statistiky - Pokročilé lineární/nelineární modely - Časové řady/predikce. ad c) K datovému souboru přidáme novou proměnnou In Y, kterou získáme zlogaritmováním proměnné Y, v níž jsou uloženy hodnoty zisku společnosti. Provedeme regresní analýzu se závisle proměnnou ln Y a nezávisle proměnnou čas. K vý-stupní tabulce přidáme novou proměnnou, do jejíhož Dlouhého jména napíšeme =exp(b) N=6 Abs.člen cas Výsledky regrese se závislou proměnnou : InY (zisk_spolecnosti.sta) R= ,99801042 R2= ,99602479 Upravené R2= ,99503099 F(1,4)=1002,2 p<,00001 Směrod. chyba odhadu : ,05553 Srn.chyba b Srn.chyba t(4) p-hodn. I z b* zb I NProm =exp(b) 4,227983| 0,051691| 81,79336| 0,000000| 68,57875 0,998010 0,031525 0,420199 0,013273 31,65812 0,000006 1,5222651 Vidíme, že Y = 68,57875 ■ 1,522265'. ad d) Pro výpočet predikovaného zisku v 7. a 8. roce existence společnosti použijeme STATISTIKU jako kalkulačku. ad e) Index determinace najdeme ve výstupní tabulce regrese pod označením R2. V našem případě je 0,996. Pro získání grafu závislosti predikovaných hodnot na naměřených hodnotách přidám ek datovému souboru proměnnou predikce a do jejího Dlouhého jména napíšeme =68,57875*l,52265Acas. Pak vytvoříme Bodový graf. Seznam literatury BUDÍKOVÁ, Marie, Maria KRÁLOVA a Bohumil MAROS. Průvodce základními statistickými metodami, vydání první. Praha: Grada Publishing, a.s., 2010. 272 s. edice Expert. ISBN 978-80-247-3243-5. BUDÍKOVÁ, Marie, Tomáš LERCH a Štěpán MIKOLÁŠ. Základní statistické metody. 1. vyd. Brno: Masarykova univerzita, 2005. viii, 170. ISBN 80-210-3886-1. HENDL, Jan. Přehled statistických metod: analýza a metaanalýza dat. 3., přeprac. vyd. Praha: Portál, 2009. 695 s. ISBN 978-80-7367-482-3.