Analýza rozptylu jednoduchého třídění Motivace: Zajímáme se o problém, zda lze určitým faktorem (tj. nominální náhodnou veličinou A) vysvětlit variabilitu pozorovaných hodnot náhodné veličiny X, která je intervalového či poměrového typu. Např. zkoumáme, zda metoda výuky určitého předmětu (faktor A) ovlivňuje počet bodů dosažených studenty v závěrečném testu (náhodná veličina X). Předpokládáme, že faktor A má r ≥ 3 úrovní a přitom i-té úrovni odpovídá ni pozorování iin1i X,,X  , které tvoří náhodný výběr z rozložení N(μi, σ2 ), i = 1, ..., r a jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy Xij = μi + εij, kde εij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, σ2 ), i = 1, …, r, j = 1, …, ni. Výsledky lze zapsat do tabulky faktor A výsledky úroveň 1 1n111 X,,X  úroveň 2 2n221 X,,X  … … úroveň r rrn1r X,,X  Ilustrace: Na hladině významnosti α testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné, tj. H0: μ1 = … = μr proti alternativní hypotéze H1, která tvrdí, že aspoň jedna dvojice středních hodnot se liší. Jedná se tedy o zobecnění dvouvýběrového t-testu a na první pohled se zdá, že stačí utvořit       2 r dvojic náhodných výběrů a na každou dvojici aplikovat dvouvýběrový t-test. Hypotézu o shodě všech středních hodnot bychom pak zamítli, pokud aspoň v jednom případě z       2 r porovnávání se prokáže odlišnost středních hodnot. Odtud je vidět, že k neoprávněnému zamítnutí nulové hypotézy (tj. k chybě 1. druhu) může dojít s pravděpodobností větší než α. Proto ve 30. letech 20. století vytvořil R. A. Fisher metodu ANOVA (analýza rozptylu, v popsané situaci konkrétně analýza rozptylu jednoduchého třídění), která uvedenou podmínku splňuje. Pokud na hladině významnosti α zamítneme nulovou hypotézu, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. Označení: V analýze rozptylu jednoduchého třídění se používá tzv. tečková notace.   r 1i inn … celkový rozsah všech r výběrů   in 1j ij.i XX … součet hodnot v i-tém výběru .i i .i X n 1 M  … výběrový průměr v i-tém výběru    r 1i n 1j ij.. i XX … součet hodnot všech výběrů .... X n 1 M  … celkový průměr všech r výběrů Zavedeme součty čtverců     r 1i n 1j 2 ..ijT i MXS … celkový součet čtverců (charakterizuje variabilitu jednotlivých pozorování kolem celkového průmě- ru), počet stupňů volnosti fT = n – 1,    r 1i 2 ...iiA MMnS … skupinový součet čtverců (charakterizuje variabilitu mezi jednotlivými náhodnými výběry), počet stupňů volnosti fA = r – 1. Sčítanec  ...i MM  představuje bodový odhad efektu αi.     r 1i n 1j 2 .iijE i MXS … reziduální součet čtverců (charakterizuje variabilitu uvnitř jednotlivých výběrů), počet stupňů volnosti fE = n - r. Lze dokázat, že ST = SA + SE. (Důkaz je proveden např. ve skriptech Budíková, Mikoláš, Osecký: Popisná statistika v poznámce 5.20.) Testování hypotézy o shodě středních hodnot Náhodné veličiny Xij se řídí modelem M0: Xij = μ + αi + εij pro i = 1, …, r, j = 1, …, ni , přičemž εij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, σ2 ), μ je společná část střední hodnoty závisle proměnné veličiny, αi je efekt faktoru A na úrovni i. Parametry μ, αi neznáme. Požadujeme, aby platila tzv. reparametrizační rovnice: 0n r 1i ii  . (Pokud je třídění vyvážené, tj. pokud mají všechny výběry stejný rozsah: n1 = n2 = … = nr, pak lze použít zjednodušenou podmínku 0 r 1i i  .) Kdyby nezáleželo na faktoru A, platila by hypotéza α1 = … = αr = 0 a dostali bychom model M1: Xij = μ + εij. Během analýzy rozptylu tedy zkoumáme, zda výběrové průměry M1, …, Mr se od sebe liší pouze v mezích náhodného kolísání kolem celkového průměru M nebo zda se projevuje vliv faktoru A. Rozdíl mezi modely M0 a M1 ověřujeme pomocí testové statistiky EE AA A f/S f/S F  , která se řídí rozložením F(r-1,n-r), je-li model M1 správný. Hypotézu o nevýznamnosti faktoru A tedy zamítneme na hladině významnosti α, když platí: FA ≥ F1-α(r-1,n-r). Výsledky výpočtů zapisujeme do tabulky analýzy rozptylu jednoduchého třídění. Zdroj variability součet čtverců stupně volnosti podíl FA skupiny SA fA = r - 1 SA/fA EE AA fS fS reziduální SE fE = n - r SE/fE celkový ST fT = n - 1 - Sílu závislosti náhodné veličiny X na faktoru A můžeme měřit pomocí poměru determinace: T A2 S S P  . Nabývá hodnot z intervalu 1,0 . Testování hypotézy o shodě rozptylů Před provedením analýzy rozptylu je zapotřebí ověřit předpoklad o shodě rozptylů v daných r výběrech. a) Levenův test: Položme .iijij MXZ  . Označíme                  r 1i 2 ZZiiZA r 1i n 1j 2 ZiijZE r 1i n 1j ijZ n 1j ij i Zi MMnS ,MZS ,Z n 1 M ,Z n 1 M i i i Platí-li hypotéza o shodě rozptylů, pak statistika    rnS 1rS F ZE ZA ZA    ≈ F(r-1, n-r). Hypotézu o shodě rozptylů tedy zamítáme na asymptotické hladině významnosti α, když FZA ≥ F1-α(r-1, n-r). (Levenův test je vlastně založen na analýze rozptylu absolutních hodnot centrovaných pozorování. Vzhledem k tomu, že náhodné veličiny Xij – Mi nejsou stochasticky nezávislé a absolutní hodnoty těchto veličin nemají normální rozložení, je Levenův test pouze aproximativní.) b) Brownův – Forsytheův test je modifikací Levenova testu. Modifikace spočívá v tom, že místo výběrového průměru i-tého výběru se při výpočtu veličiny ijZ používá medián i-tého výběru. c) Bartlettův test: Platí-li hypotéza o shodě rozptylů a rozsahy všech výběrů jsou větší než 6, pak statistika             r 1i 2 ii 2 * Sln1nSlnrn C 1 B se asymptoticky řídí rozložením  1r2  . Přitom konstanta              r 1i i rn 1 1n 1 1r3 1 1C a S* 2 je vážený průměr výběrových rozptylů. H0 zamítáme na asymptotické hladině významnosti α, když B se realizuje v kritickém oboru     ,1rW 1 2 . Post – hoc metody mnohonásobného porovnávání Zamítneme-li na hladině významnosti α hypotézu o shodě středních hodnot, chceme zjistit, které dvojice středních hodnot se liší na dané hladině významnosti α, tj. na hladině významnosti α testujeme H0: μl = μk proti H1: μl ≠ μk pro všechna l, k = 1, .., r, l ≠ k. a) Mají-li všechny výběry týž rozsah p (říkáme, že třídění je vyvážené), použijeme Tukeyovu metodu. Testová statistika má tvar p S MM * .l.k  . Rovnost středních hodnot μk a μl zamítneme na hladině významnosti α, když  rn,rq p S MM 1 * .l.k    , kde hodnoty q1-α(r, n-r) jsou kvantily studentizovaného rozpětí a najdeme je ve statistických tabulkách. (Studentizované rozpětí je náhodná veličina     s XX Q 1n   .) Existuje modifikace Tukeyovy metody pro nestejné rozsahy výběrů, nazývá se Tukeyova HSD metoda. V tomto případě má testová statistika tvar         lk * .l.k n 1 n 1 2 1 S MM . Rovnost středních hodnot μk a μl zamítneme na hladině významnosti α, když  rn,rq n 1 n 1 2 1 S MM 1 lk * .l.k           . b) Nemají-li všechny výběry stejný rozsah, použijeme Scheffého metodu: rovnost středních hodnot μk a μl zamítneme na hladině významnosti α, když    rn,1rF n 1 n 1 1rSMM 1 lk *.l.k         . Výhodou Scheffého testu je, že k jeho provedení nepotřebujeme speciální statistické tabulky s hodnotami kvantilů studentizovaného rozpětí, ale stačí běžné statistické tabulky s kvantily Fisherova – Snedecorova rozložení. V případě vyváženého třídění, kdy lze aplikovat Tukeyovu i Scheffého metodu, použijeme tu, která je citlivější. Tukeyova metoda tedy bude výhodnější, když q1-α 2 (r, n-r) < 2(r-1)F1-α(r-1, n-r). Metody mnohonásobného porovnávání mají obecně menší sílu než ANOVA. Může nastat situace, kdy při zamítnutí H0 nenajdeme metodami mnohonásobného porovnávání významný rozdíl u žádné dvojice středních hodnot. K tomu dochází zvláště tehdy, když p-hodnota pro ANOVU je jen o málo nižší než zvolená hladina významnosti. Pak slabší test patřící do skupiny metod mnohonásobného porovnávání nemusí odhalit žádný rozdíl. Doporučený postup při provádění analýzy rozptylu: a) Ověření normality daných r náhodných výběrů (grafické metody - NP plot, Q-Q plot, histogram, testy hypotéz o normálním rozložení - Lilieforsova varianta Kolmogorovova – Smirnovova testu nebo Shapirův – Wilkův test). Doporučuje se kombinace obou způsobů. Závěry učiníme až na základě posouzení obou výsledků. Obecně lze říci, že analýza rozptylu není příliš citlivá na porušení předpokladu normality, zvláště při větších rozsazích výběrů (nad 20), což je důsledek působení centrální limitní věty. Mírné porušení normality tedy není na závadu, při větším porušení použijeme např. Kruskalův – Wallisův test jako neparametrickou obdobu analýzy rozptylu jednoduchého třídění. b) Po ověření normality se testuje homogenitu rozptylů, tj. předpoklad, že všechny náhodné výběry pocházejí z normálních rozložení s týmž rozpylem. Graficky ověřujeme shodu rozptylů pomocí krabicových diagramů, kdy sledujeme, zda je šířka krabic stejná. Numericky testujeme homogenitu rozptylů pomocí Levenova testu, Brownova – Forsytheova testu (oba jsou implementovány ve STATISTICE, Brownův – Forsytheův test v MINITABu) či Bartlettova testu (je k dispozici v MINITABu). Slabé porušení homogenity rozptylů nevadí, při větším se doporučuje mediánový test. c) Pokud jsou splněny předpoklady normality a homogenity rozptylů, můžeme přistoupit k testování shody středních hodnot. Předtím je samozřejmě vhodné vypočítat průměry a směrodatné odchylky či rozptyly v jednotlivých skupinách. d) Dojde-li na zvolené hladině významnosti k zamítnutí hypotézy o shodě středních hodnot, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží post-hoc metody mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. Příklad: U čtyř odrůd brambor (označených symboly A, B, C, D) se zjišťovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky (v kg): odrůda hmotnost A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Řešení: Data považujeme za realizace čtyř nezávislých náhodných výběrů ze čtyř normálních rozložení se stejným rozptylem. Testujeme hypotézu, že všechny čtyři střední hodnoty jsou stejné. Vypočítáme výběrové průměry v jednotlivých výběrech: M1. = 0,8, M2. = 1,2, M3. = 1,4, M4. = 1,1, celkový průměr: M.. = 1,14, výběrové rozptyly: S1 2 = 0,02, S2 2 = 0,03, S3 2 = 0,04, S4 2 = 0,01, vážený průměr výběrových rozptylů:   720,0 110 3 11 01,0204,0403,0202,03 rn S1n S r 1i 2 ii 2 *        , reziduální součet čtverců:   3,0 110 3 11SrnS 2 *E  , skupinový součet čtverců:           816,014,11,1314,14,1514,12.1314,18,04MMnS 2222 r 1i 2 ...iiA   celkový součet čtverců: ST = SA + SE = 0,816 + 0,3 = 1,116, testová statistika 11/3,0 3/816,0 f/S f/S F EE AA A  = 9,97, Kritický obor W =     ,59,3,11,3F 95,0 . Protože testová statistika se realizuje v kritickém oboru, H0 zamítáme na hladině významnosti 0,05. Vypočteme poměr determinace: 7312,0 116,1 816,0 S S P T A2  Výsledky zapíšeme do tabulky ANOVA: Zdroj variability Součet čtverců Stupně volnosti podíl FA skupiny SA = 0,816 3 SA/3 = 0,272    rnS 1rS E A   = 9,97 reziduální SE = 0,3 11 SE/11 = 0,02727 celkový ST = 1,116 14 - Nyní pomocí Scheffého metody zjistíme, které dvojice odrůd se liší na hladině významnosti 0,05. Srovnávané odrůdy Rozdíly .l.k MM  Pravá strana vzorce A, B 0,4 0,41 A, C 0,67 0,36 A, D 0,3 0,41 B, C 0,2 0,40 B, D 0,1 0,44 C, D 0,3 0,40 Na hladině významnosti 0,05 se liší odrůdy A a C. Řešení pomocí systému STATISTICA Otevřeme nový datový soubor o dvou proměnných X a odrůda a 15 případech. Do proměnné X zapíšeme zjištěné hmotnosti, do proměnné odrůda kódy pro dané odrůdy (1 pro A, 2 pro B, 3 pro C a 4 pro D). 1 X 2 odruda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0,9 A 0,8 A 0,6 A 0,9 A 1,3 B 1 B 1,3 B 1,3 C 1,5 C 1,6 C 1,1 C 1,5 C 1,1 D 1,2 D 1 D Ověříme normalitu daných čtyř náhodných výběrů pomocí N-P plotu: odruda: A 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Očekávanánormálníhodnota odruda: B 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 odruda: C 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Očekávanánormálníhodnota odruda: D 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 Odchylky od normality jsou jen nepatrné. Vypočteme výběrové průměry a výběrové rozptyly: Statistiky – Základní statistiky a tabulky – Rozklad & jednofakt. ANOVA – OK – Proměnné – Závislé – X, Grupovací odrůda – OK – Skupiny tabulek - zaškrtneme Rozptyly - Výpočet. Rozkladová tabulka popisných statistik (priklad8301) N=15 (V seznamu záv. prom. nejsou ChD) odruda X průměr X N X Sm.odch. X Rozptyl A 0,800000 4 0,141421 0,020000 B 1,200000 3 0,173205 0,030000 C 1,400000 5 0,200000 0,040000 D 1,100000 3 0,100000 0,010000 Vš.skup. 1,140000 15 0,282337 0,079714 Nyní ověříme předpoklad shody rozptylů. Na záložce Skupiny tabulek zaškrtneme Levenův test – Výpočet. Leveneův test homogenity rozpylů (priklad8301) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 0,018667 3 0,0062220,065333 11 0,0059391,0476190,410027 Vidíme, že p-hodnota Levenova testu je 0,41, tedy větší než hladina významnosti 0,05. Hypotézu o shodě rozptylů nezamítáme na hladině významnosti 0,05. Přistoupíme k testu hypotézy o shodě středních hodnot. Na záložce Skupiny tabulek zaškrtneme Analýza rozptylu – Výpočet. Analýza rozptylu (priklad8301) Označ. efekty jsou význ. na hlad. p < ,05000 Proměnná SČ efekt SV efekt PČ efekt SČ chyba SV chyba PČ chyba F p X 0,816000 3 0,2720000,300000 11 0,0272739,9733330,001805 Jelikož p-hodnota = 0,001805 je menší než hladina významnosti 0,05, hypotézu o shodě středních hodnot zamítáme na hladině významnosti 0,05. Výpočet doplníme krabicovými diagramy: Průměr Průměr±SmCh Průměr±1,96*SmCh A B C D odruda 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 X Nyní aplikujeme Scheffého metodu mnohonásobného porovnávání, abychom zjistili, které dvojice odrůd se liší na hladině významnosti 0,05. Na záložce Post – hoc zvolíme Schefféův test. Scheffeho test; proměn.:X (priklad8301) Označ. rozdíly jsou významné na hlad. p < ,05000 odruda {1} M=,80000 {2} M=1,2000 {3} M=1,4000 {4} M=1,1000 A {1} B {2} C {3} D {4} 0,059165 0,001950 0,190463 0,059165 0,464537 0,905502 0,001950 0,464537 0,163499 0,190463 0,905502 0,163499 Tabulka obsahuje p-hodnoty pro vzájemné porovnání středních hodnot hmotnosti všech čtyř odrůd. Vidíme, že na hladině významnosti 0,05 se liší odrůdy A, C. Význam předpokladů v analýze rozptylu a) Nezávislost jednotlivých náhodných výběrů – velmi důležitý předpoklad, musí být splněn, jinak dostaneme nesmyslné výsledky. b) Normalita – ANOVA není příliš citlivá na porušení normality, zvlášť pokud mají všechny výběry rozsah nad 20 (důsledek centrální limitní věty). Při výraznějším porušení normality se doporučuje Kruskalův – Wallisův test. c) Shoda rozptylů – mírné porušení nevadí, při větším se doporučuje Kruskalův – Wallisův test. Test shody rozptylů má smysl provádět až po ověření předpokladu normality. Neparametrické testy o mediánech Motivace: Při aplikaci t-testů či analýzy rozptylu by měly být splněny určité předpoklady: - normalita dat (pro výběry větších rozsahů (n ≥ 30) nemá mírné porušení normality závažný dopad na výsledky) - homogenita rozptylů - intervalový či poměrový charakter dat Pokud nejsou tyto předpoklady splněny, použijeme tzv. neparametrické testy, které nevyžadují předpoklad o konkrétním typu rozložení (např. normálním), stačí např. předpokládat, že distribuční funkce rozložení, z něhož náhodný výběr pochází, je spojitá. Nevýhoda - ve srovnání s klasickými parametrickými testy jsou neparametrické testy slabší, tzn., že nepravdivou hypotézu zamítají s menší pravděpodobností než testy parametrické. V této kapitole se omezíme na ty neparametrické testy, které se týkají mediánů. Jednovýběrové testy (Jde o neparametrické obdoby jednovýběrového t-testu a párového t-testu.) Znaménkový test a jeho asymptotická varianta Nechť n1 X,,X  je náhodný výběr ze spojitého rozložení. Nechť 50,0x je mediánem tohoto rozložení a c je reálná konstanta. Testujeme hypotézu cx:H 50,00  proti oboustranné alternativě cx:H 50,01  (resp. proti levostranné alternativě cx:H 50,01  resp. proti pravostranné alternativě cx:H 50,01  ). Znaménkový test se nejčastěji používá jako párový test, kdy máme náhodný výběr ze spojitého dvourozměrného rozložení             n n 1 1 Y X ,, Y X  a testujeme hypotézu o rozdílu mediánů, tj. cyx:H 50,050,00  proti cyx:H 50,050,01  (resp. proti jednostranným alternativám). Přejdeme k rozdílům nnn111 YXZ,,YXZ   a testujeme hypotézu o mediánu těchto rozdílů, tj. cz:H 50,00  . a) Utvoříme rozdíly cXD ii  pro jednovýběrový test resp. cZD ii  pro párový test, n,,1i  . (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.) b) Zavedeme statistiku  ZS , která udává počet těch rozdílů Di, které jsou kladné.  ZS je součtem náhodných veličin s alternativním rozložením (i-tá veličina nabývá hodnoty 1, když i-tý rozdíl je kladný a hodnoty 0, když je záporný). Platí-li H0, pak pravděpodobnost kladného i záporného rozdílu je stejná, tedy  ZS ~  2 1 ,nBi . Z vlastností binomického rozložení plyne, že   2 n ZSE   ,   4 n ZSD   . c) Stanovíme kritický obor. Pro oboustrannou alternativu: n,kk,0W 21  , pro levostrannou alternativu: 1k,0W  , pro pravostrannou alternativu: n,kW 2 . (Nezáporná celá čísla k1, k2 pro oboustranný test i pro jednostranné testy lze najít v tabulkové příloze. Pozor – čísla k1, k2 pro oboustrannou alternativu jsou jiná než pro jednostranné alternativy! ) d) H0 zamítáme na hladině významnosti  , když WSZ  . Asymptotická varianta testu Pro velká n (prakticky 20n  ) lze využít asymptotické normality statistiky  ZS . Testová statistika     4 n 2 n Z Z ZZ 0 S SD SES U        má za platnosti H0 asymptoticky rozložení  1,0N . Kritický obor pro oboustranný test:    ,uu,W 2/12/1 . Kritický obor pro levostranný test:   1u,W . Kritický obor pro pravostranný test:   ,uW 1 . Aproximace rozložením  1,0N se zlepší, když použijeme tzv. korekci na nespojitost. Testová statistika pak má tvar 4 n 2 1 2 n Z 0 S U    , přičemž 2 1 přičteme, když 2 n ZS   a odečteme v opačném případě. Příklad U 9 náhodně vybraných manželských párů byl zjištěn průměrný roční příjem (v tisících Kč). číslo páru 1 2 3 4 5 6 7 8 9 příjem manžela 216 336 384 432 456 528 552 600 1872 příjem manželky 336 240 192 336 384 288 960 312 576 Na hladině významnosti 0,05 testujte hypotézu, že mediány příjmů manželů a manželek jsou stejné. Řešení: Jedná se o párový test. Vypočteme rozdíly mezi příjmy manželů a manželek, čímž úlohu převedeme na jednovýběrový test. Testujeme 0z:H 50,00  proti oboustranné alternativě 0z:H 50,01  , kde 50,0z je medián rozložení, z něhož pochází rozdílový náhodný výběr 999111 YXZ,,YXZ   . Vypočtené rozdíly ii yx  : -120 96 192 96 72 240 -408 288 1296 Testová statistika  ZS = 7. Ve statistických tabulkách najdeme pro 9n  a 05,0 kritické hodnoty 1k1  , 8k2  . Protože kritický obor 9,81,0W  neobsahuje hodnotu 7, nemůžeme H0 zamítnout na hladině významnosti 0,05. Neprokázaly se tedy významné rozdíly v mediánech příjmů manželů a manželek. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor se dvěma proměnnými a 9 případy. Do proměnné X napíšeme příjmy manželů, do proměnné Y příjmy manželek. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných X, 2. seznam proměnných Y – OK – Znaménkový test. Dvojice proměnných Počet různých procent v < V Z Úroveň p X & Y 9 22,222221,333333 0,182422 Vidíme, že nenulových hodnot n = 9. Z nich záporných je 2,22 %, tj. 2. Hodnota testové statistiky 729SZ   . Asymptotická testová statistika 0U (zde označená jako Z) se realizuje hodnotou 3,1 . Odpovídající asymptotická p-hodnota je 0,1824, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu, že mediány příjmů manželů a manželek jsou stejné. Upozornění: V tomto případě není splněna podmínka pro využití asymptotické normality statistiky  ZS , tj. 20n  . Je tedy vhodnější najít v tabulkách kritické hodnoty pro znaménkový test. Pro n = 9 a α = 0,05 jsou kritické hodnoty k1 = 1, k2 = 8. Protože kritický obor 9,81,0W  neobsahuje hodnotu 7, nezamítáme H0 na hladině významnosti 0,05. Dostáváme týž výsledek jako při použití asymptotického testu. Jednovýběrový Wilcoxonův test a jeho asymptotická varianta Frank Wilcoxon (1892 – 1965): Americký statistik a chemik Nechť X1, ..., Xn je náhodný výběr ze spojitého rozložení s hustotou φ(x), která je symetrická kolem mediánu x0,50, tj. φ(x0,50 + x) = φ(x0,50 - x). Nechť c je reálná konstanta. Testujeme hypotézu H0: x0,50 = c proti oboustranné alternativě H1: x0,50 ≠ c nebo proti levostranné alternativě H1: x0,50 < c nebo proti pravostranné alternativě H1: x0,50 > c. Postup provedení testu: a) Utvoříme rozdíly Di = Xi – c, i = 1, ..., n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.) b) Absolutní hodnoty │Di│uspořádáme vzestupně podle velikosti a spočteme pořadí Ri. c) Zavedeme statistiky    0D iW i RS , což je součet pořadí přes kladné hodnoty Di,    0D iW i RS , což je součet pořadí přes záporné hodnoty Di. Přitom platí, že součet SW + + SW = n(n+1)/2. Je-li H0 pravdivá, pak E(SW + ) = n(n+1)/4 a D(SW + ) = n(n+1)(2n+1)/24. d) Testová statistika = min(SW + , SW ) pro oboustrannou alternativu, = SW + pro levostrannou alternativu, = SW pro pravostrannou alternativu. e) H0 zamítáme na hladině významnosti α, když testová statistika je menší nebo rovna tabelované kritické hodnotě. Asymptotická varianta jednovýběrového Wilcoxonova testu: Pro n ≥ 30 lze využít asymptotické normality statistiky SW + . Platí-li H0, pak     24 )1n2)(1n(n 4 )1n(n W W WW 0 S SD SES U         ≈ N(0,1). Kritický obor: pro oboustrannou alternativu W =    ,uu, 2/12/1 , pro levostrannou alternativu W =   1u, , pro pravostrannou alternativu W =  ,u1 H0 zamítáme na asymptotické hladině významnosti α, když WU0  . Předpoklady použití jednovýběrového Wilcoxonova testu: - rozložení, z něhož daný náhodný výběr pochází, je spojité - hustota tohoto rozložení je symetrická kolem mediánu - sledovaná veličina X má aspoň ordinální charakter (Není-li splněn předpoklad o symetrii hustoty kolem mediánu, lze použít např. znaménkový test.) Příklad: U 12 náhodně vybraných zemí bylo zjištěno procento populace starší 60 let: 4,9 6,0 6,9 17,6 4,5 12,3 5,7 5,3 9,6 13,5 15,7 7,7. Na hladině významnosti 0,05 testujte hypotézu, že medián procenta populace starší 60 let je 12 proti oboustranné alternativě. Řešení: Testujeme hypotézu H0: x0,50 = 12 proti oboustranné alternativě H1: x0,50 ≠ 12. Vypočteme rozdíly pozorovaných hodnot od čísla 12: -7,1 -6,0 -5,1 5,6 -7,5 0,3 -6,3 -6,7 -2,4 1,5 3,7 -4,3. Absolutní hodnoty těchto rozdílů uspořádáme vzestupně podle velikosti. Kladné rozdíly přitom označíme červeně: usp. │ xi – 12│ 0,3 1,5 2,4 3,7 4,3 5,1 5,6 6 6,3 6,7 7,1 7,5 pořadí 1 2 3 4 5 6 7 8 9 10 11 12 SW + = 1 + 2 + 4 + 7 =14, SW = 3 + 5 + 6 + 8 + 9 + 10 + 11 + 12 = 64, n = 12, α = 0,05, tabelovaná kritická hodnota pro n = 12 a α = 0,05 je 13, testová statistika = min(SW + , SW ) = min(14,64) = 14. Protože 14 > 13, H0 nezamítáme na hladině významnosti 0,05. Znamená to, že na hladině významnosti 0,05 se nepodařilo prokázat, že aspoň v polovině zemí by se podíl populace nad 60 let odlišoval od 12 %. Výpočet pomocí systému STATISTICA: Utvoříme nový datový soubor se dvěma proměnnými a 12 případy. Do proměnné procento napíšeme zjištěné hodnoty a do proměnné konst uložíme číslo 12. Statistiky – Neparametrická statistika – Porovnání dvou závislých vzorků – OK – 1. seznam proměnných rozdil, Druhý seznam proměnných konst – OK – Wilcoxonův párový test. Wilcoxonův párový test (populace_nad_60) Označené testy jsou významné na hladině p <,05000 Dvojice proměnných Počet platných T Z Úroveň p procento & konst 12 14,00000 1,961161 0,049861 Výstupní tabulka poskytne hodnotu testové statistiky SW+ (zde označena T), hodnotu asymptotické testové statistiky U0 a phodnotu pro U0. V tomto případě je p-hodnota 0,049861, tedy nulová hypotéza se zamítá na asymptotické hladině významnosti 0,05. Tento výsledek je v rozporu s výsledkem, ke kterému jsme dospěli při přesném výpočtu. Je to způsobeno tím, že není splněna podmínka pro využití asymptotické normality statistiky SW+ , tj. n ≥ 30. Dvouvýběrové testy (Jedná se o neparametrickou obdobu dvouvýběrového t-testu) Dvouvýběrový Wilcoxonův test a jeho asymptotická varianta Nechť X1, ..., Xn a Y1, ..., Ym jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou lišit pouze posunutím. Označme x0,50 medián prvního rozložení a y0,50 medián druhého rozložení. Na hladině významnosti 0,05 testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné neboli mediány jsou shodné proti alternativě, že jsou rozdílné, tj. H0: x0,50 - y0,50 = 0 proti H1: x0,50 - y0,50 ≠ 0. Postup provedení testu: a) Všech n + m hodnot X1, ..., Xn a Y1, ..., Ym uspořádáme vzestupně podle velikosti. b) Zjistíme součet pořadí hodnot X1, ..., Xn a označíme ho T1. Součet pořadí hodnot Y1, ..., Ym označíme T2. c) Vypočteme statistiky U1 = mn + n(n+1)/2 – T1 , U2 = mn + m(m+1)/2 - T2. Přitom platí U1 + U2 = mn. d) Pokud min(U1,U2) ≤ tabelovaná kritická hodnota (pro dané rozsahy výběrů m, n a dané α), pak nulovou hypotézu o totožnosti obou distribučních funkcí zamítáme na hladině významnosti α. V tabulkách: n = min{m,n} a m = max{m,n}. Asymptotická varianta dvouvýběrového Wilcoxonova testu: Pro velká n, m (n, m > 30) lze využít asymptotické normality statistiky U1. Platí-li H0, pak 12 )1nm(mn 2 mn 1 0 U U    ≈ N(0,1), kde U1 = min(U1 ,U2 ). Kritický obor: pro oboustrannou alternativu W =    ,uu, 2/12/1 , pro levostrannou alternativu W =   1u, , pro pravostrannou alternativu W =  ,u1 H0 zamítáme na asymptotické hladině významnosti α, když WU0  . Předpoklady použití dvouvýběrového Wilcoxonova testu: - dané dva náhodné výběry jsou nezávislé - rozložení, z nichž dané dva náhodné výběry pocházejí, jsou spojitá - distribuční funkce těchto rozložení se mohou lišit pouze posunutím - sledovaná veličina má aspoň ordinální charakter (Není-li splněn předpoklad, že distribuční funkce se mohou lišit pouze posunutím, lze použít např. dvouvýběrový Kolmogorovův – Smirnovův test.) Příklad: Bylo vybráno 10 polí stejné kvality. Na čtyřech z nich se zkoušel nový způsob hnojení, zbylých šest bylo ošetřeno starým způsobem. Pole byla oseta pšenicí a sledoval se její hektarový výnos. Je třeba zjistit, zda nový způsob hnojení má týž vliv na průměrné hektarové výnosy pšenice jako starý způsob hnojení. hektarové výnosy při novém způsobu: 51 52 49 55 hektarové výnosy při starém způsobu: 45 54 48 44 53 50 Test proveďte na hladině významnosti 0,05. Řešení: Na hladině významnosti 0,05 testujeme H0: x0,50 - y0,50 = 0 proti oboustranné alternativě H1: x0,50 - y0,50 ≠ 0. usp. hodnoty 44 45 48 49 50 51 52 53 54 55 pořadí x-ových hodnot 4 6 7 10 pořadí y-ových hodnot 1 2 3 5 8 9 T1 = 4 + 6 + 7 + 10 = 27, T2 = 1 + 2 + 3 + 5 + 8 + 9 = 28 U1 = 4.6 + 4.5/2 - 27 = 7, U2 = 4.6 + 6.7/2 - 28 = 17 Kritická hodnota pro α = 0,05, min(4,6) = 4, max(4,6) = 6 je 2. Protože min(7,17) = 7 > 2, nemůžeme na hladině významnosti 0,05 zamítnout hypotézu, že nový způsob hnojení má na hektarové výnosy pšenice stejný vliv jako starý způsob. Výpočet pomocí systému STATISTICA: Utvoříme nový datový soubor se dvěma proměnnými a 10 případy. Do proměnné vynos napíšeme zjištěné hodnoty a do proměnné hnojeni napíšeme 4x číslo 1 pro nový způsob hnojení a 6x číslo 2 pro starý způsob hnojení. Statistiky – Neparametrická statistika – Porovnání dvou nezávislých vzorků – OK – Proměnné – Seznam závislých proměnných vynos, Nezáv. (grupov.) proměnná hnojeni – OK – M-W U test. Upozornění: Ve STATISTICE je dvouvýběrový Wilcoxonův test uveden pod názvem Mannův – Whitneyův test. Mann-Whitneyův U test (vynos) Dle proměn.hnojeni Označené testy jsou významné na hladině p <,05000 Proměnná Sčt poř. skup. 1 Sčt poř. skup. 2 U Z Úroveň p Z upravené Úroveň p N platn. skup. 1 N platn. skup. 2 2*1str. přesné p vynos 27,0000028,000007,0000001,066004 0,286423 1,066004 0,286423 4 6 0,352381 Ve výstupní tabulce jsou součty pořadí T1, T2, hodnota testové statistiky min(U1, U2) označená U, hodnota asymptotické testové statistiky U0 (označená Z), asymptotická p-hodnota pro U0 a přesná p-hodnota (ozn. 2*1str. přesné p – ta se používá pro rozsahy výběrů pod 30). V našem případě přesná p-hodnota = 0,352381, tedy H0 nezamítáme na hladině významnosti 0,05. Výpočet je vhodné doplnit krabicovým diagramem. Krabicový graf dle skupin Proměnná:vynos Medián 25%-75% Min-Max 1 2 hnojeni 42 44 46 48 50 52 54 56 vynos Je zřejmé, že výnosy při novém způsobu hnojení jsou vesměs nižší než při starém způsobu a také vykazují mnohem větší variabilitu. Dvouvýběrový Kolmogorovův - Smirnovův test Nechť n1 X,,X  a m1 Y,,Y  jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou lišit nejenom posunutím, ale také tvarem. Testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné, tj., že všech mn  veličin pochází z téhož rozložení proti alternativě, že distribuční funkce jsou rozdílné. Nechť )x(F1 je výběrová distribuční funkce 1. výběru a )y(F2 je výběrová distribuční funkce 2. výběru. Jako testová statistika slouží )x(F)x(FmaxD 21 x   . H0 zamítáme na hladině významnosti , když   m,nDD , kde  m,nD je tabelovaná kritická hodnota. Pro větší rozsahy m,n lze kritickou hodnotu aproximovat vzorcem   2 ln nm2 mn . Příklad: Výrobce určitého výrobku se má rozhodnout mezi dvěma dodavateli polotovarů vyrábějících je různými technologiemi. Rozhodující je procentní obsah určité látky. 1. technologie: 1,52 1,57 1,71 1,34 1,68 2. technologie: 1,75 1,67 1,56 1,66 1,72 1,79 1,64 1,55 Na hladině významnosti 0,05 posuďte pomocí dvouvýběrového K-S testu, zda je oprávněný předpoklad, že obě technologie poskytují stejné procento účinné látky. Výpočet pomocí systému STATISTICA: Utvoříme nový datový soubor se dvěma proměnnými a 13 případy. Do proměnné X napíšeme zjištěné hodnoty a do proměnné ID napíšeme 5x číslo 1 pro první technologii a 8x číslo 2 pro starý druhou technologii. Statistiky – Neparametrická statistika – Porovnání dvou nezávislých vzorků – OK – Proměnné – Seznam závislých proměnných X, Nezáv. (grupov.) proměnná ID – OK – Kolmogorov-Smirnovův 2-výběrový test. Proměnná Max záp rozdíl Max klad rozdíl Úroveň p Průměr skup. 1 Průměr skup. 2 Sm.odch. skup. 1 Sm.odch. skup. 2 N platn. skup. 1 N platn. skup. 2 obsah -0,400000 0,025000 p > .10 1,5640001,667500 0,147411 0,085147 5 8 Ve výstupní tabulce pro dvouvýběrový K-S test dostaneme maximální záporný a maximální kladný rozdíl mezi hodnotami obou výběrových distribučních funkcí, dolní omezení pro p-hodnotu (p > 0,1), průměry, směrodatné odchylky a rozsahy obou výběrů. Jelikož p-hodnota převyšuje hladinu významnosti 0,05, na této hladině nelze nulovou hypotézu zamítnout. Kruskalův - Wallisův test William Kruskal (1919 – 2005): Americký matematik Wilson Allen Wallis (1912 – 1988): Americký matematik Nechť je dáno r ≥ 3 nezávislých náhodných výběrů o rozsazích n1, ... , nr . Předpokládáme, že tyto výběry pocházejí ze spojitých rozložení. Označme n = n1 + ... + nr . Na asymptotické hladině významnosti α chceme testovat hypotézu, že všechny tyto výběry pocházejí z téhož rozložení. Postup testu: a) Všech n hodnot seřadíme do rostoucí posloupnosti. b) Určíme pořadí každé hodnoty v tomto sdruženém výběru. c) Označme Tj součet pořadí těch hodnot, které patří do j-tého výběru, j = 1, ..., r (kontrola: musí platit T1 + ... + Tr = n(n+1)/2). d) Testová statistika má tvar:      r 1j j 2 j )1n(3 n T )1n(n 12 Q . Platí-li H0, má statistika Q asymptoticky rozložení χ2 (r-1). e) Kritický obor:     ,1rW 1 2 . f) H0 zamítneme na asymptotické hladině významnosti α, když Q ≥ χ1-α 2 (r-1). Příklad: V roce 1980 byly získány tři nezávislé výběry obsahující údaje o průměrných ročních příjmech (v tisících dolarů) čtyř sociálních skupin ve třech různých oblastech USA. jižní oblast: 6 10 15 29 pacifická oblast: 11 13 17 131 severovýchodní oblast: 7 14 28 25 Na hladině významnosti 0,05 testujte hypotézu, že příjmy v těchto oblastech se neliší. Řešení: Výpočty uspořádáme do tabulky Usp. hodnoty 6 7 10 11 13 14 15 17 25 28 29 131 Pořadí 1.výběru 1 3 7 11 Pořadí 2.výběru 4 5 8 12 Pořadí 3.výběru 2 6 9 10 T1 = 1 + 3 + 7 + 11 = 22, T2 = 4 + 5 + 8 + 12 = 29, T3 = 2 + 6 + 9 + 10 = 27 ,      r 1j j 2 j )1n(3 n T )1n(n 12 Q 5,0133 4 27 4 29 4 22 1312 12 222          ,         ,991,5,2,1rW 95,0 2 1 2 Protože Q < 5,991, H0 nezamítáme na asymptotické hladině významnosti 0,05. Rozdíly mezi průměrnými ročními příjmy v uvedených třech oblastech se neprokázaly. Mediánový test Výchozí situace je stejná jako u K-W testu Postup testu: a) Všech n hodnot uspořádáme do rostoucí posloupnosti. b) Najdeme medián x0,50 těchto n hodnot. c) Označme Pj počet hodnot v j-tém výběru, které jsou větší nebo rovny mediánu x0,50. d) Testová statistika má tvar    r 1j j 2 j M n n P 4Q . Platí-li H0, má statistika QM asymptoticky rozložení χ2 (r-1). d) Kritický obor:     ,1rW 1 2 . e) H0 zamítneme na asymptotické hladině významnosti α, když QM ≥ χ1-α 2 (r-1). Příklad: Pro data o průměrných ročních příjmech proveďte mediánový test. Hladinu významnosti volte 0,05. Řešení: Usp. hodnoty 6 7 10 11 13 14 15 17 25 28 29 131 Medián je průměr 6. a 7. uspořádané hodnoty: 5,14 2 1514 x 50,0    . V prvním výběru existují 2 hodnoty, které jsou větší nebo rovny 14,5, stejně tak i ve druhém a třetím výběru, tedy P1 = P2 = P3 = 2. Testová statistika:    r 1j j 2 j M n n P 4Q   012222 4 1 4 222      Kritický obor:         ,991,5,2,1rW 95,0 2 1 2 Protože QM < 5,991, H0 nezamítáme na asymptotické hladině významnosti 0,05. Metody mnohonásobného porovnávání Zamítneme-li hypotézu, že všechny náhodné výběry pocházejí z téhož rozložení, zajímá nás, které dvojice náhodných výběrů se liší na zvolené hladině významnosti. Testujeme H0: k-tý a l-tý náhodný výběr pocházejí z téhož rozložení, k, l = 1, .., r, k ≠ l proti H1: aspoň jedna dvojice výběrů pochází z různých rozložení. a) Neményiho metoda (Peter Neményi 1927 – 2002: Americký matematik maďarského původu) - Všechny výběry mají týž rozsah p (třídění je vyvážené). - Vypočteme │Tl - Tk│. - V tabulkách najdeme kritickou hodnotu (pro dané p, r, α ). - Pokud│Tl - Tk│≥ tabelovaná kritická hodnota, pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení. b) Obecná metoda mnohonásobného porovnávání - Vypočteme k k l l n T n T  . - Ve speciálních statistických tabulkách najdeme kritickou hodnotu hKW(α ). Při větších rozsazích výběrů je možno ji nahradit kvantilem χ1-α 2 (r-1). - Jestliže )(h)1n(n n 1 n 1 12 1 n T n T KW klk k l l        , pak na hladině významnosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložení. Příklad: Čtyři laboranti provedli analytické stanovení procenta niklu v oceli. Každý hodnotil pět vzorků. Laborant A: 4,15 4,26 4,10 4,30 4,25 Laborant B: 4,38 4,40 4,29 4,39 4,45 Laborant C: 4,23 4,16 4,20 4,24 4,27 Laborant D: 4,41 4,31 4,42 4,37 4,43 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že všechny čtyři náhodné výběry pocházejí ze stejného rozložení. Pokud nulovou hypotézu zamítnete, zjistěte, které dvojice výběrů se liší. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o dvou proměnných a 20 případech. Do proměnné nikl napíšeme změřené hodnoty, do proměnné laborant napíšeme 5x1 pro 1. laboranta atd. až 5x4 pro 4. laboranta. Statistiky – Neparametrická statistika – Porovnání více nezávislých vzorků - OK – Seznam závislých proměnných nikl, Nezáv. (grupovací) proměnná laborant – OK – Summary: Kruskal-Wallis ANOVA & Median test. Ve dvou výstupních tabulkách se objeví výsledky K-W testu a mediánového testu. Kruskal-Wallisova ANOVA založ. na poř.;nikl (nikl v oceli) Nezávislá (grupovací) proměnná :laborant Kruskal-Wallisův test: H ( 3, N= 20) =13,77714 p =,0032 Závislá: nikl Kód Počet platných Součet pořadí 1 2 3 4 1 5 29,00000 2 5 75,00000 3 5 27,00000 4 5 79,00000 Mediánový test, celk. medián = 4,29500;nikl (nikl v oceli) Nezávislá (grupovací) proměnná :laborant Chi-Kvadr. = 13,60000 sv = 3 p = ,0035Závislá: nikl 1 2 3 4 Celkem <= Medián: pozorov. očekáv. poz.-oč. > Medián: pozorov. očekáv. poz.-oč. Celkem: oček. 4,00000 1,00000 5,00000 0,0000010,00000 2,50000 2,50000 2,50000 2,50000 1,50000 -1,50000 2,50000 -2,50000 1,00000 4,00000 0,00000 5,0000010,00000 2,50000 2,50000 2,50000 2,50000 -1,50000 1,50000 -2,50000 2,50000 5,00000 5,00000 5,00000 5,0000020,00000 Oba testy zamítají hypotézu o shodě mediánů v daných čtyřech skupinách na asymptotické hladině významnosti 0,05. Nyní provedeme mnohonásobné porovnávání, abychom zjistili, které dvojice laborantů se liší. Zvolíme Vícenás. porovnání průměrného pořadí pro vš. skupiny. Vícenásobné porovnání p hodnot (oboustr.);nikl (nikl v oceli) Nezávislá (grupovací) proměnná :laborant Kruskal-Wallisův test: H ( 3, N= 20) =13,77714 p =,0032 Závislá: nikl 1 R:5,8000 2 R:15,000 3 R:5,4000 4 R:15,800 1 2 3 4 0,0836411,0000000,045158 0,083641 0,0617791,000000 1,0000000,061779 0,032664 0,0451581,0000000,032664 Tabulka obsahuje p-hodnoty pro porovnání dvojic skupin. Vidíme, že na hladině významnosti 0,05 se liší laboranti A, D a laboranti C, D. Grafické znázornění výsledků Krabicový graf dle skupin Proměnná:nikl Medián 25%-75% Min-Max 1 2 3 4 laborant 4,05 4,10 4,15 4,20 4,25 4,30 4,35 4,40 4,45 4,50 nikl Hodnocení kontingenčních tabulek Motivace Při zpracování dat se velmi často setkáme s úkolem zjistit, zda dvě náhodné veličiny nominálního typu jsou stochasticky nezávislé. Např. nás může zajímat, zda ve sledované populaci je barva očí a barva vlasů nezávislá. Zpravidla chceme také zjistit intenzitu případné závislosti sledovaných dvou veličin. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1. Čím je takový koeficient bližší 1, tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. Kontingenční tabulky Nechť X,Y jsou dvě nominální náhodné veličiny (tj. obsahová interpretace je možná jenom u relace rovnosti). Nechť X nabývá variant x[1], ..., x[r] a Y nabývá variant y[1], ..., y[s]. Označme:     kjjk yYxXP  … simultánní pravděpodobnost dvojice variant (x[j], y[k])   j.j xXP  … marginální pravděpodobnost varianty x[j]   kk. yYP  … marginální pravděpodobnost varianty y[k] Simultánní a marginální pravděpodobnosti zapíšeme do kontingenční tabulky: y x πjk y[1] ... y[s] πj. x[1] π11 ... π1s π1. ... ... ... ... ... x[r] πr1 ... πrs πr. π.k π.1 ... π.s 1 Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X, Y). Zjištěné absolutní simultánní četnosti njk dvojice variant (x[j], y[k]) uspořádáme do kontingenční ta- bulky: y x njk y[1] ... y[s] nj. x[1] n11 ... n1s n1. ... ... ... ... ... x[r] nr1 ... nrs nr. n.k n.1 ... n.s n nj. = nj1 + ... + njs je marginální absolutní četnost varianty x[j] n.k = n1k + ... + nrk je marginální absolutní četnost varianty y[k] Simultánní pravděpodobnost πjk odhadneme pomocí simultánní relativní četnosti n n p jk jk  , marginální pravděpodobnosti πj. a π.k odhadneme pomocí marginálních relativních četností n n p .j .j  a n n p k. k.  . Testování hypotézy o nezávislosti Testujeme nulovou hypotézu H0: X, Y jsou stochasticky nezávislé náhodné veličiny proti alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny. Kdyby náhodné veličiny X, Y byly stochasticky nezávislé, pak by platil multiplikativní vztah r,,1j  , s,,1k  : πjk = πj. π.k neboli n n n n n n k..jjk  , tj. n nn n k..j jk  . Číslo n nn m k..j jk  se nazývá teoretická četnost dvojice variant (x[j], y[k]). Testová statistika:           r 1j s 1k k..j 2 k..j jk n nn n nn n K . Platí-li H0, pak K se asymptoticky řídí rozložením χ2 ((r-1)(s-1)). Kritický obor:       ,1s1rW 1 2 . Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti α, když K ≥ χ2 1-α((r-1)(s-1)). Podmínky dobré aproximace Rozložení statistiky K lze aproximovat rozložením χ2 ((r-1)(s-1)), pokud teoretické četnosti n nn k..j aspoň v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna podmínka dobré aproximace, doporučuje se slučování některých variant. Měření síly závislosti Cramérův koeficient: )1m(n K V   , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je k 1, tím je závislost mezi X a Y těsnější, čím blíže je k 0, tím je tato závislost volnější. Význam hodnot Cramérova koeficientu: mezi 0 až 0,1 … zanedbatelná závislost, mezi 0,1 až 0,3 … slabá závislost, mezi 0,3 až 0,7 … střední závislost, mezi 0,7 až 1 … silná závislost. Carl Harald Cramér (1893 – 1985): Švédský matematik Příklad V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen náhodný výběr rozsahu 360. Mimo jiné se zjišťovala sociální skupina, ze které uchazeč pochází (veličina X) a typ školy, na kterou se hlásí (veličina Y). Výsledky jsou zaznamenány v kontingenční tabulce: Typ školySociální skupina univerzitní technický ekonomický nj. I 50 30 10 90 II 30 50 20 100 III 10 20 30 60 IV 50 10 50 110 n.k 140 110 110 360 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální skupiny. Vypočtěte Cramérův koeficient. Řešení: Nejprve vypočteme všech 12 teoretických četností: Typ školySociální skupina univerzitní technický ekonomický nj. I 50 30 10 90 II 30 50 20 100 III 10 20 30 60 IV 50 10 50 110 n.k 140 110 110 360 ,5,27 360 11090 n nn ,5,27 360 11090 n nn ,35 360 14090 n nn 3..12..11..1        ,6,30 360 110100 n nn ,6,30 360 110100 n nn ,9,38 360 140100 n nn 3..22..21..2        ,3,18 360 11060 n nn ,3,18 360 11060 n nn ,3,23 360 14060 n nn 3..32..31..3        6,33 360 110110 n nn ,6,33 360 110110 n nn ,8,42 360 140110 n nn 3..42..41..4        Vidíme, že podmínky dobré aproximace jsou splněny, všechny teoretické četnosti převyšují číslo 5. Dosadíme do vzorce pro testovou statistiku K:       84,76 6,33 6,3350 5,27 5,2730 35 3550 K 222         . Dále stanovíme kritický obor:                ,6,12,6,1314,11 95,0 2 95,0 2 1 2   srW Protože K  W, hypotézu o nezávislosti typu školy a sociální skupiny zamítáme na asymptotické hladině významnosti 0,05. Vypočteme Cramérův koeficient: 3267,0 2360 4,76 V    . Hodnota Cramérova koeficientu svědčí o tom, že mezi veličinami X a Y existuje středně silná závislost. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o třech proměnných (X - sociální skupina, Y – typ školy, četnost) a 12 případech: 1 X 2 Y 3 četnost 1 2 3 4 5 6 7 8 9 10 11 12 I univerzitní 50 I technický 30 I ekonomický 10 II univerzitní 30 II technický 50 II ekonomický 20 III univerzitní 10 III technický 20 III ekonomický 30 IV univerzitní 50 IV technický 10 IV ekonomický 50 Statistiky – Základní statistiky/tabulky – OK – Specif. Tabulky – List 1 X, List 2 Y – OK, zapneme proměnnou vah četnost – OK, Výpočet – na záložce Možnosti zaškrtneme Očekávané četnosti. Dostaneme kontingenční tabulku teoretických čet- ností: Souhrnná tab.: Očekávané četnosti (typ skoly) Četnost označených buněk > 10 Pearsonův chí-kv. : 76,8359, sv=6, p=,000000 X Y univerzitní Y technický Y ekonomický Řádk. součty I 35,0000 27,5000 27,5000 90,0000 II 38,8889 30,5556 30,5556 100,0000 III 23,3333 18,3333 18,3333 60,0000 IV 42,7778 33,6111 33,6111 110,0000 Vš.skup. 140,0000 110,0000 110,0000360,0000 Všechny teoretické četnosti jsou větší než 5, podmínky dobré aproximace jsou splněny. V záhlaví tabulky je uvedena hodnota testové statistiky K = 76,8359, počet stupňů volnosti 6 a odpovídající p-hodnota. Je velmi blízká 0, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o nezávislosti typu školy a sociální skupiny. Hodnotu testové statistiky a Cramérův koeficient dostaneme také tak, že na na záložce Možnosti zaškrtneme Pearsonův & M-V chí kvadrát a Cramérovo V, na záložce Detailní výsledky vybereme Detailní 2 rozm. tabulky. Statist. Chí-kvadr. sv p Pearsonův chí-kv. M-V chí-kvadr. Fí Kontingenční koeficient Cramér. V 76,83589 df=6 p=,00000 84,53528 df=6 p=,00000 ,4619881 ,4193947 ,3266749 Čtyřpolní tabulky Nechť r = s = 2. Pak hovoříme o čtyřpolní kontingenční tabulce a používáme označení: n11 = a, n12 = b, n21 = c, n22 = d. YX y[1] y[2] nj. x[1] a b a+b x[2] c d c+d n.k a+c b+d n Test nezávislosti ve čtyřpolní tabulce Testovou statistiku pro čtyřpolní kontingenční tabulku lze zjednodušit do tvaru:       dbcadcba bcadn K 2    . Platí-li hypotéza o nezávislosti veličin X, Y, pak K se asymptoticky řídí rozložením χ2 (1). Kritický obor:     ,1W 1 2 Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když KW. Povšimněte si, že za platnosti hypotézy o nezávislosti ad = bc. Pro čtyřpolní tabulku navrhl R. A. Fisher přesný (exaktní) test nezávislosti známý jako Fisherův faktoriálový test. Sir Ronald Aylmer Fisher (1890 – 1962): Britský statistik a genetik. (Fisherův přesný test je popsán např. v knize K. Zvára: Biostatistika, Karolinum, Praha 1998. Princip spočívá v tom, že pomocí kombinatorických úvah se vypočítají pravděpodobnosti toho, že při daných marginálních četnostech dostaneme tabulky, které se od nulové hypotézy odchylují aspoň tak, jako daná tabulka.) Upozornění: STATISTICA poskytuje p-hodnotu pro Fisherův přesný test. Jestliže vyjde p ≤ α, pak hypotézu o nezávislosti zamítáme na hladině významnosti α. Příklad: V náhodném výběru 50 obézních dětí ve věku 6 – 14 let byla zjišťována obezita rodičů. Veličina X – obezita matky, veličina Y – obezita otce. Výsledky průzkumu jsou uvedeny v kontingenční tabulce: YX ano ne nj. ano 15 9 24 ne 7 19 26 n.k 22 28 50 Pomocí Fisherova exaktního testu ověřte, zda lze na hladině významnosti 0,05 zamítnout hypotézu o nezávislosti náhodných veličin X a Y. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor o třech proměnných X, Y (varianty 0 – neobézní, 1 – obézní) a četnost a čtyřech případech: 1 X 2 Y 3 četnost 1 2 3 4 obézní obézní 15 obézní neobézní 9 neobézní obézní 7 neobézní neobézní 19 Statistiky – Základní statistiky/tabulky – OK – Specif. Tabulky – List 1 X, List 2 Y – OK, zapneme proměnnou vah četnost – OK, Výpočet – na záložce Možnosti zaškrtneme Fisher exakt., Yates, McNemar (2x2). Dostaneme výstupní tabulku: Statist. : X(2) x Y(2) (obezita rodicu) Statist. Chí-kvadr. sv p Pearsonův chí-kv. M-V chí-kvadr. Yatesův chí-kv. Fisherův přesný, 1-str. 2-stranný McNemarův chí-kv. (A/D) (B/C) 6,410777df=1 p=,01134 6,548348df=1 p=,01050 5,048207df=1 p=,02465 p=,01188 p=,02163 ,2647059df=1 p=,60691 ,0625000df=1 p=,80259 Vidíme, že p-hodnota pro Fisherův exaktní oboustranný test je 0,02163, tedy na hladině významnosti 0,05 zamítáme hypotézu, že obezita matky a otce spolu nesouvisí. Podíl šancí ve čtyřpolní kontingenční tabulce Ve čtyřpolních tabulkách používáme charakteristiku bc ad OR  , která se nazývá výběrový podíl šancí (odds ratio). Považujeme ho za odhad neznámého teoretického podílu šancí 1221 2211    . Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem. okolnostiVýsledek pokusu I II nj. úspěch a b a+b neúspěch c d c+d n.k a+c b+d n Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za 1. okolností je c a , za druhých okolností je d b . Podíl šancí je tedy bc ad OR  . Jsou-li veličiny Y,X nezávislé, pak k..jjk  , tudíž teoretický podíl šancí 1 . Závislost veličin Y,X bude tím silnější, čím více se bude lišit od 1. Avšak  ,0 , tedy hodnoty  jsou kolem 1 rozmístěny nesymetricky. Z tohoto důvodu raději používáme logaritmus teoretického či výběrového podílu šancí. Testování nezávislosti ve čtyřpolních tabulkách pomocí podílu šancí Na asymptotické hladině významnosti  testujeme hypotézu H0: Y,X jsou stochasticky nezávislé náhodné veličiny (tj. 0ln  ) proti alternativě H1: Y,X nejsou stochasticky nezávislé náhodné veličiny (tj. 0ln  ). Testová statistika d 1 c 1 b 1 a 1 ORln T0   se asymptoticky řídí rozložením  1,0N , když nulová hypotéza platí. Kritický obor:    ,uu,W 2/12/1 . Nulovou hypotézu tedy zamítáme na asymtotické hladině významnosti , když se testová statistika realizuje v kritickém oboru W. Testování nezávislosti lze provést též pomocí 100(1-α)% asymptotického intervalu spolehlivosti pro logaritmus podílu šancí , který je dán vzorcem:             2/12/1 u d 1 c 1 b 1 a 1 ORln,u d 1 c 1 b 1 a 1 ORlnh,d Jestliže interval spolehlivosti neobsahuje 0, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti . Příklad (testování nezávislosti pomocí podílu šancí a pomocí statistiky K): U 135 uchazečů o studium na jistou fakultu byl hodnocen dojem, jakým zapůsobili na komisi u ústní přijímací zkoušky. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že přijetí na fakultu nezávisí na dojmu u přijímací zkoušky. dojempřijetí dobrý špatný nj. ano 17 11 28 ne 39 58 97 n.k 56 69 125 Řešení: a) Testování pomocí podílu šancí: 298,2 3911 5817 bc ad OR     . Podíl šancí nám říká, že uchazeč, který zapůsobil na komisi dobrým dojmem, má asi 2,3 x větší šanci na přijetí než uchazeč, který zapůsobil špatným dojmem. Provedeme další pomocné výpočty: 96,1u,439,0 58 1 39 1 11 1 17 1 d 1 c 1 b 1 a 1 0,832,ORln 0,975   Dosadíme do vzorců pro meze asymptotického intervalu spolehlivosti pro podíl šancí: 692,196,1439,0832,0u d 1 c 1 b 1 a 1 ORlnhln,028,096,1439,0832,0u d 1 c 1 b 1 a 1 ORlndln 2/12/1   Protože interval (-0,028; 1,692) obsahuje číslo 0, na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti dojmu u přijímací zkoušky a přijetí na fakultu. b) Testování pomocí statistiky K: dojempřijetí dobrý špatný nj. ano 17 11 28 ne 39 58 97 n.k 56 69 125 Ověříme splnění podmínek dobré aproximace: 544,12 125 5628 n nn 1..1    , 456,15 125 6928 n nn 2..1    , 456,43 125 5697 n nn 1..2    , 544,53 125 6997 n nn 2..2    Podmínky dobré aproximace jsou splněny. Dosadíme do zjednodušeného vzorce pro testovou statistiku K:          6953,3 69569728 39115817125 dbcadcba bcadn K 22        Kritický obor:     ,841,3,1W 95,0 2 . Protože testová statistika se nerealizuje k kritickém oboru, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Vypočteme ještě Cramérův koeficient: 1719,0 )12(125 6953,3 )1m(n K V      Vidíme, že mezi dojmem u přijímací zkoušky a přijetím na fakultu je pouze slabá závislost. Jednoduchá korelační analýza Motivace Uvažme náhodné veličiny X, Y, které jsou aspoň ordinálního typu. Tyto náhodné veličiny mohou mít různý vztah: - Deterministická (funkční) závislost: jedna náhodná veličina je spjata s druhou náhodnou veličinou funkční závislostí vyjádřenou předpisem Y = g(X), např. X – poloměr náhodně vybrané sériově vyráběné kuličky do kuličkových ložisek, Y = 3 X 3 4  - objem této kuličky. Každé realizaci náhodné veličiny X (vysvětlující proměnná) je přiřazena právě jedna realizace náhodné veličiny Y (vysvětlovaná proměnná). funkční závislost 0 10 20 0 2 4 6 8 10 vysvětlující proměnná výsvětlovaná proměnná - Stochastická závislost: jedna náhodná veličina ovlivňuje v různé míře druhou náhodnou veličinu, např. X – věk pracovníka v letech, Y – počet dnů absence za rok. Každé realizaci náhodné veličiny X může být přiřazeno více realizací náhodné veličiny Y. Závislost může být jednostranná i oboustranná. stochastická závislost 0 10 20 0 2 4 6 8 10 vysvětlující proměnná výsvětlovaná proměnná - Stochastická nezávislost: náhodné veličiny se navzájem neovlivňují, např. házíme-li naráz dvěma kostkami a označíme X – počet ok padlých na jedné kostce, Y – počet ok padlých na druhé kostce, pak náhodné veličiny X, Y jsou stochasticky nezávislé. nezávislost 0 2,5 5 7,5 10 0 2 4 6 8 10 vysvětlující proměnná výsvětlovaná proměnná X a Y jsou stochasticky nezávislé, když platí:        yxy,x:Ry,x 21 2  X a Y jsou nekorelované, když platí C(X, Y) = 0 (tj. mezi X a Y není žádný lineární vztah). Ze stochastické nezávislosti vyplývá nekorelovanost, avšak z nekorelovanosti nevyplývá stochastická nezávislost. Korelační analýza:  zkoumá, zda existuje závislost mezi dvěma náhodnými veličinami X, Y, které jsou buď ordinálního nebo intervalového či poměrového typu. Důležité – nelze se spokojit s formálním matematickým popisem závislosti, závislost musí být logicky zdůvodnitelná!  pomocí Pearsonova či Spearmanova koeficientu korelace měří těsnost této závislosti  pro náhodné veličiny intervalového a poměrového typu je založena na předpokladu, že dvourozměrný náhodný vektor       Y X se řídí dvourozměrným normálním rozložením N2                           2 221 21 2 1 2 1 , , kde μ1 = E(X), μ2 = E(Y), σ1 2 = D(X), σ2 2 = D(Y), ρ = R(X,Y)  při výraznějším porušení předpokladu dvourozměrné normality doporučuje použití metod, které jsou určeny pro náhodné veličiny ordinálního typu Spearmanův koeficient pořadové korelace Charles Edward Spearman (1863 – 1945): Britský psycholog a statistik, zakladatel faktorové analýzy Nechť X,Y jsou náhodné veličiny ordinálního typu (tj. obsahová interpretace je možná jenom u relace rovnosti a relace uspořádání). Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme Ri pořadí náhodné veličiny Xi a Qi pořadí náhodné veličiny Yi, i = 1, ..., n. Spearmanův koeficient pořadové korelace:         n 1i 2 ii2S QR 1nn 6 1r . Tento koeficient nabývá hodnot mezi –1 a 1. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Teoretická hodnota Spearmanova koeficientu se značí ρS. Vlastnosti Spearmanova koeficientu pořadové korelace Pro Spearmanův koeficient pořadové korelace platí 1r1 S  . Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Je-li 1rS  resp. 1rS  , pak realizace   n,,1i,y,x ii  daného náhodného výběru leží na nějaké rostoucí resp. klesající funk- ci. Hodnoty rS se nezmění, když provedeme vzestupnou transformaci původních dat. Hodnoty rS se vynásobí -1, když provedeme sestupnou transformaci původních dat. Koeficient je symetrický. Koeficient je rezistentní vůči odlehlým hodnotám. Význam absolutní hodnoty Spearmanova koeficientu: mezi 0 až 0,1 … zanedbatelná pořadová závislost, mezi 0,1 až 0,3 … slabá pořadová závislost, mezi 0,3 až 0,7 … střední pořadová závislost, mezi 0,7 až 1 … silná pořadová závislost. Spearmanův koeficient pořadové korelace se používá v situacích, kdy - zkoumaná data mají ordinální charakter - nelze předpokládat, že vztah mezi veličinami X, Y je lineární - náhodný výběr nepochází z dvourozměrného normálního rozložení Testování nezávislosti ordinálních veličin Na hladině významnosti α testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti - oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny - levostranné alternativě H1: mezi X a Y existuje nepřímá pořadová závislost - pravostranné alternativě H1: mezi X a Y existuje přímá pořadová závislost). Jako testová statistika slouží Spearmanův koeficient pořadové korelace rS. Nulovou hypotézu zamítáme na hladině významnosti α ve prospěch - oboustranné alternativy, když │rS│≥ rS,1-α/2(n) - levostranné alternativy, když rS ≤ - rS,1-α(n) - pravostranné alternativy, když rS ≥ rS,1-α(n), kde rS,1-α(n) je kritická hodnota, kterou pro α = 0,05 nebo 0,01 a n ≤ 30 najdeme v tabulkách. Asymptotické varianty testu Pro n > 20 lze použít testovou statistiku 2 S S 0 r1 2nr T    , která se v případě platnosti nulové hypotézy asymptoticky řídí rozložením t(n-2). Kritický obor pro oboustrannou alternativu:        ,2nt2nt,W 2/12/1 Kritický obor pro levostrannou alternativu:   2nt,W 1   Kritický obor pro pravostrannou alternativu:     ,2ntW 1 . Hypotézu o pořadové nezávislosti náhodných veličin X, Y zamítáme na asymptotické hladině významnosti α, když t0  W. Upozornění: Systém STATISTICA používá tuto variantu testu pořadové nezávislosti bez ohledu na rozsah náhodného výběru. Pro n > 30 lze použít testovou statistiku 1nrs  . Platí-li H0, pak 1nrs  ≈ N(0, 1). Nulovou hypotézu tedy zamítáme na asymptotické hladině významnosti α ve prospěch oboustranné alternativy, když    ,uu,1nr 2/12/1S , levostranné alternativy, když   1S u,1nr , pravostranné alternativy, když   ,u1nr 1S Příklad na testování pořadové nezávislosti (jsou známa pořadí): Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. Řešení: Na hladině významnosti 0,05 testujeme H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny. V tomto příkladě přímo známe pořadí Ri (tj. hodnocení 1. lékaře) a pořadí Qi (tj. hodnocení 2. lékaře). Vypočteme                 857,077321365562144 177 6 1r 2222222 2S    . Kritická hodnota: rS,0,95(7) = 0,745. Protože 0,857 ≥ 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X (hodnocení 1. lékaře), Y (hodnocení 2. lékaře) a sedmi případech. Do proměnných X a Y zapíšeme zjištěná hodnocení. 1 X 2 Y 1 2 3 4 5 6 7 4 4 1 2 6 5 5 6 3 1 2 3 7 7 Statistiky – Neparametrické statistiky – Korelace – OK – vybereme Vytvořit detailní report - Proměnné X, Y – OK – Spearmanův koef. R. Dostaneme tabulku Spearmanovy korelace (dva lekari.sta) ChD vynechány párově Označ. korelace jsou významné na hl. p <,05000 Dvojice proměnných Počet plat. Spearman R t(N-2) Úroveň p X & Y 7 0,8571433,721042 0,013697 Spearmanův koeficient pořadové korelace nabývá hodnoty 0,857, testová statistika se realizuje hodnotou 3,721, odpovídající p-hodnota je 0,0137, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o pořadové nezávislosti hodnocení dvou lékařů ve prospěch oboustranné alternativy. Příklad na testování pořadové nezávislosti (pořadí musíme stanovit): Jsou dány realizace náhodného výběru z dvourozměrného rozložení, kterým se řídí náhodný vektor (X,Y): (2,5 13,4), (3,4 15,2), (1,3 11,8), (5,8 13,1), (3,6 14,5). Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny jsou pořadově nezávislé proti oboustranné alternativě. Řešení: xi 2,5 3,4 1,3 5,8 3,6 yi 13,4 15,2 11,8 13,1 14,5 Ri 2 3 1 5 4 Qi 3 5 1 2 4 (Ri-Qi)2 1 4 0 9 0 Testová statistika:     3,014 245 6 1QR 1nn 6 1r n 1i 2 ii2S       Kritická hodnota: pro n = 5 a α = 0,05 je kritická hodnota 0,9. Protože testová statistika se realizuje hodnotou 0,3, hypotézu o pořadové nezávislosti veličin X a Y nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Postupujeme úplně stejně jako v předešlém případě. Výstupní tabulka má tvar: Spearmanovy korelace (poradova korelace.sta) ChD vynechány párově Označ. korelace jsou významné na hl. p <,05000 Dvojice proměnných Počet plat. Spearman R t(N-2) Úroveň p X & Y 5 0,3000000,544705 0,623838 Spearmanův koeficient pořadové korelace nabývá hodnoty 0,3, testová statistika se realizuje hodnotou 0,5447, odpovídající p-hodnota je 0,6238, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o pořadové nezávislosti veličin X, Y. Pearsonův koeficient korelace Karl Pearson (1857 – 1936): Britský statistik Číslo     jinak0 0)Y(D)X(Dpro )Y(D)X(D YX,C )Y(D )Y(EY )X(D )X(EX E Y,XR                   se nazývá Pearsonův koeficient korelace. (Pro výpočet Pearsonova koeficentu korelace musíme znát simultánní distribuční funkci Φ(x,y) v obecném případě resp. simultánní hustotu pravděpodobnosti φ(x,y) ve spojitém případě resp. simultánní pravděpodobnostní funkci π(x,y) v diskrétním případě.) Vlastnosti Pearsonova koeficientu korelace a) R(a1, Y) = R(X, a2) = R(a1, a2) = 0 b) R(a1 + b1X, a2 + b2Y) = sgn(b1b2) R(X, Y) =         0bbproY,XR 0bbproY,XR 21 21 c) R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak d) R(X, Y) = R(Y, X) e) 1)Y,X(R  a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1. Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova – Schwarzova – Buňakovského nerovnost.) Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. Ilustrace: -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 -1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 Definice nekorelovanosti Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost. Jsou-li náhodné veličiny X,Y stochasticky nezávislé, pak jsou samozřejmě i nekorelované.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) Výběrový koeficient korelace Nechť (X1, Y1), ..., (Xn, Yn) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: výběrové průměry    n 1i i1 X n 1 M ,    n 1i i2 Y n 1 M , výběrové rozptyly       n 1i 2 1i 2 1 MX 1n 1 S ,       n 1i 2 2i 2 2 MY 1n 1 S , výběrovou kovarianci        n 1i 2i1i12 MYMX 1n 1 S a s jejich pomocí zavedeme výběrový koeficient korelace            jinak0 0SSpro SS S S MY S MX 1n 1 R 21 21 12 n 1i 2 2 1 1 12 . Vlastnosti Pearsonova koeficientu korelace se přenášejí i na výběrový koeficient korelace. (Spearmanův koeficient pořadové korelace odpovídá Pearsonovu koeficientu korelace aplikovanému na pořadí.) Pearsonův koeficient korelace dvourozměrného normálního rozložení Jak bylo uvedeno v motivaci, korelační analýza předpokládá, že daný náhodný výběr pochází z dvourozměrného normálního rozložení. Proč je tento předpoklad tak důležitý? Odpověď poskytne následující věta. Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou                                      2 2 2 2 2 1 1 2 1 1 2 yyx 2 x 12 1 2 21 e 12 1 y,x , přičemž μ1 = E(X), μ2 = E(Y), σ1 2 = D(X), σ2 2 = D(Y), ρ = R(X,Y). Marginální hustoty jsou:       2 1 2 1 2 x 1 1 e 2 1 ...dyy,xx        ,       2 2 2 2 2 y 2 2 e 2 1 ...dxy,xy        . Je-li ρ = 0, pak pro        yxy,x:Ry,x 21 2  , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Pro jiná dvourozměrná rozložení to neplatí! Upozornění: nadále budeme předpokládat, že (X1, Y1), ..., (Xn, Yn) je náhodný výběr rozsahu n z dvourozměrného normálního rozložení N2                           2 221 21 2 1 2 1 , . Předpoklad dvourozměrné normality lze orientačně ověřit pomocí dvourozměrného tečkového diagramu: tečky by měly zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy: Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry μ1 = 0, μ2 = 0, σ1 2 = 1, σ2 2 = 1, ρ = -0,75: Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-α)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100α% teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti. Testování hypotézy o nezávislosti Na hladině významnosti α testujeme H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ = 0) proti - oboustranné alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0) - levostranné alternativě H1: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0) - pravostranné alternativě H1: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0). Testová statistika má tvar: 2 12 12 0 R1 2nR T    . Platí-li nulová hypotéza, pak T0 ~ t(n-2). Kritický obor pro test H0 proti - oboustranné alternativě:       ,2nt2nt,W 2/12/1 , - levostranné alternativě:   2nt,W 1   , - pravostranné alternativě:     ,2ntW 1 . H0 zamítáme na hladině významnosti α, když Wt0  . Příklad: Testování hypotézy o nezávislosti proti oboustranné alternativě V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y): X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Předpokládejte, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte hypotézu o nezávislosti X a Y proti oboustranné alternativě. Řešení: Vypočteme realizace výběrových průměrů: m1 =  n 1i ix n 1 = 18,267, m2 =  n 1i iy n 1 = 83,6, výběrových rozptylů: s1 2 =     n 1i 2 1i mx 1n 1 = 5,6381, s2 2 =     n 1i 2 2i my 1n 1 = 121,4, výběrové kovariance: s12 =      n 1i 2i1i mymx 1n 1 = 24,2571, výběrového koeficientu korelace: 21 12 12 ss s r  = 0,927. Realizace testové statistiky: 2 12 12 0 r1 2nr t    = 8,912, kritický obor        ,012,3012,3,,13t13t,W 995,0995,0 . Protože Wt0  , hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem omylu nejvýše 1% jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem zhotovených výrobků existuje závislost. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X, Y a 15 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu: Grafy – Bodové grafy – Proměnné X, Y – OK – odškrtneme Typ proložení Lineární – na záložce Detaily zaškrtneme Elipsa Normální - OK. 10 15 20 25 30 x 50 60 70 80 90 100 110 120 y Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměn. – X, Y – OK – na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků – Výpočet. Korelace (smeny a vyrobky.sta) Označ. korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Prom. X & prom. Y Průměr Sm.Odch. r(X,Y) r2 t p N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X X X X Y Y X Y Y 18,26667 2,37447 18,26667 2,37447 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000 18,26667 2,37447 83,60000 11,01817 0,927180 0,859663 8,923795 0,000001 15 5,010135 4,302365 1,562407 0,199812 83,60000 11,01817 18,26667 2,37447 0,927180 0,859663 8,923795 0,000001 15 1,562407 0,199812 5,010135 4,302365 83,60000 11,01817 83,60000 11,01817 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000 Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty 8,924, odpovídající phodnota je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o nezávislosti veličin X, Y.