Osnova přednášky Vícerozměrné analogie t-testů I. Úlohy o jednom náhodném výběru z vícerozměrného rozložení 1. Charakteristiky p-rozměrného rozložení 2. Odhady charakteristik p-rozměrného rozložení 3. Základní poznatky o p-rozměrném normálním rozložení 4. Náhodný výběr z p-rozměrného normálního rozložení 5. Test hypotézy o vektoru středních hodnot Příklad na vícerozměrný jednovýběrový t-test 6. Test hypotézy o úplné nezávislosti sledovaných proměnných Příklad na test hypotézy o úplné nezávislosti sledovaných proměnných II. Úlohy o dvou nezávislých náhodných výběrech z vícerozměrného rozložení 1. Test hypotézy o rozdílu vektorů středních hodnot 2. Test hypotézy o shodě variančních matic 3. Příklad na Hotellingův T2 test Vícerozměrné analogie t-testů I. Úlohy o jednom náhodném výběru z vícerozměrného rozložení 1. Charakteristiky p-rozměrného rozložení Náhodný vektor           = p 1 X X MX pochází z p-rozměrného rozložení s vektorem středních hodnot           µ µ = p 1 Mµ , varianční maticí ( ) ( ) ( ) ( ) ( ) ( )           σσσ σσσ =           == 2 p2p1p p112 2 1 p1p1p p1211 XDX,XCX,XC X,XCX,XCXD var K KKKK K K KKKK K ΣX , a korelační maticí ( ) ( ) ( ) ( )           ρρ ρρ =           == 1 1 1X,XRX,XR X,XRX,XR1 cor 2p1p p112 1p1p p121 K KKKK K K KKKK K ρX . (Matice var X, cor X jsou symetrické, cor X se dá vypočítat z var X: kj jk jk σσ σ =ρ .) Počet charakteristik p-rozměrného rozložení tedy je: p středních hodnot, p rozptylů, ( ) 2 1pp − kovariancí (kovariance je symetrická). Celkem: ( ) 2 p3p 2 1pp p2 2 + = − + . Vidíme, že počet charakteristik roste kvadraticky s počtem složek náhodného vektoru. Např. pro p = 2 je jich 5 2 2322 = ⋅+ , ale pro p = 10 už jich je 65 2 103102 = ⋅+ . 2. Odhady charakteristik p-rozměrného rozložení Vektor středních hodnot µ a varianční matici Σ v praxi většinou neznáme, musíme je odhadnout na základě náhodného výběru. Pořídíme náhodný výběr n,, XX1 K (kde ( )T ip1ii X,,X K=X , n,,1i K= ) z p-rozměrného rozložení s vektorem středních hodnot µ a varianční maticí Σ. Z těchto n náhodných vektorů utvoříme náhodnou matici           =           np1n p111 T n T 1 XX XX K KKK K M X X . K číselné realizaci této náhodné matice dospějeme tak, že na n objektech zjišťujeme hodnoty p proměnných. Např. náhodně vybereme n = 31 návštěvníků posilovny a zjišťujeme u nich hodnoty p = 4 proměnných: věk (v letech), hmotnost (v kg), doba cvičení (v min), maximální tep. Znamená to, že i-tý objekt je charakterizován p-rozměrným vektorem pozorování ( )T ip1ii x,,x K=x , n,,1i K= . Vektory pozorování uspořádáme do datové matice           np1n p111 xx xx K KKK K , kde řádky odpovídají jednotlivým objektům a sloupce proměnným. V našem případě máme datovou matici tvaru: Zavedeme následující označení: ∑ = = n 1i ijj X n 1 M … výběrový průměr j-té proměnné, p,,1j K= ( )T p1 MM K=M … vektor výběrových průměrů (V našem případě: ( )T 4,1776,102,797,41=m , tedy průměrný věk je 41,7 roku, průměrná hmotnost je 79,2 kg, průměrná doba cvičení je 40,6 min a průměrný maximální tep je 177,4. ) ( )∑ = − − = n 1i 2 jij 2 j MX 1n 1 S … výběrový rozptyl j-té proměnné, p,,1j K= ( )( )∑ = −− − = n 1i kikjijjk MXMX 1n 1 S … výběrová kovariance j-té a k-té proměnné, p,,1k,j K= ( )( )∑ = −− − =           = n 1i T ii 2 p2p1p p112 2 1 1n 1 SSS SSS MXMXS K KKKK K … výběrová varianční matice (Matice ( )( ) ( )SMXMXW 1n n 1i T ii −=−−= ∑ = se nazývá Wishartova matice.) (V našem případě:             −− = 31,118 40,392,1 02,1271,124,69 20,2134,116,1016,27 s .) kj jk jk SS S R = … výběrový koeficient korelace j-té a k-té proměnné, p,,1k,j K=           = 1RR RR1 2p1p p112 K KKKK K R … výběrová korelační matice (V našem případě:             −− = 1 23,01 13,015,01 37,019,023,01 r , tedy věk záporně koreluje s hmotností a tepem, ale kladně s dobou cvičení, hmotnost kladně koreluje s dobou cvičení a tepem a doba cvičení kladně koreluje s tepem. ) Lze dokázat, že - vektor výběrových průměrů M je nestranným odhadem vektoru středních hodnot µ, tj. ( ) µM =E ; - výběrová varianční matice S je nestranným odhadem varianční matice Σ, tj. ( ) ΣS =E ; - výběrová korelační matice R je vychýleným odhadem korelační matice ρ, tj. ( ) ρR ≈E . Poznámka: V některých situacích pracujeme s lineární kombinací složek náhodného vektoru X: XcT pp11 XcXc =++K . Pak střední hodnota náhodné veličiny XcT je µcT a rozptyl je ΣccT . Nestranným odhadem střední hodnoty µcT je McT a nestranným odhadem rozptylu ΣccT je SccT . 3. Základní poznatky o p-rozměrném normálním rozložení Náhodný vektor ( )T p1 X,,X K=X se řídí p-rozměrným normálním rozložením ( )Σµ,Np , kde parametr µ je vektor středních hodnot a parametr Σ je varianční matice, když jeho hustota má tvar: ( ) ( ) ( ) ( )µxΣµx Σ x −−− − π =ϕ 1T 2 1 2 1 2 p e 2 1 . Důležité vlastnosti p-rozměrného normálního rozložení: a) Všechna marginální (a podmíněná) rozložení jsou normální. b) Lineární transformací BXaY += , kde a je p-rozměrný sloupcový reálný vektor a B je reálná čtvercová matice řádu p, se normalita neporuší: Y ~ ( )T p BB,BaN Σµ+ c) Je-li varianční matice Σ diagonální, jsou náhodné veličiny p1 X,,X K stochasticky nezávislé. d) Sečteme-li n stochasticky nezávislých p-rozměrných náhodných vektorů, z nichž každý se řídí p-rozměrným normálním rozložením, pak výsledný součet má také p-rozměrné normální rozložení. 4. Náhodný výběr z p-rozměrného normálního rozložení Nechť náhodný výběr n ,, XX1 K pochází z rozložení ( )Σµ,Np . Označme M vektor výběrových průměrů a S výběrovou varianční matici. Pak platí: a) Wishartova matice ( )SW 1n −= má p-rozměrné Wishartovo rozložení s n-1 stupni volnosti a parametrem Σ, píšeme W ~ ( )Σ,1nWp − . (Wishartovo rozložení je zobecněním 2 χ - rozložení. Je-li p = 1 a ( )1=Σ , jde o rozložení ( )1n2 −χ .) b) Statistika ( ) ( )µMSµM 1 −−= −T2 nT má Hotellingovo rozložení s p a n-1 stupni volnosti, píšeme T2 ~ T2 (p, n-1). (Hotellingovo rozložení je zobecněním Studentova rozložení.) Poznámka: Mezi Hotellingovým a Fisherovým – Snedecorovým rozložením platí vztah: X ~ ( ) X 1 Y,T 21 12 21 2 νν +ν−ν =⇒νν ~ ( )1,F 121 +ν−νν . Statistiku T2 tedy můžeme transformovat na statistiku s F-S rozložením: ( ) ( ) ( ) ( ) ( )µMSµM −− − − = − − −1T2 1np pnn T 1np pn ~ ( )pn,pF − . 5. Test hypotézy o vektoru středních hodnot Tento test je p-rozměrnou analogií jednovýběrového t-testu. Pro připomenutí: Náhodný výběr n1 X,,X K pochází z rozložení ( )2 ,N σµ , kde parametry 2 ,σµ neznáme. Na hladině významnosti α testujeme hypotézu c:H0 =µ proti alternativě c:H1 ≠µ . Testová statistika: n S cM T0 − = se za platnosti H0 řídí rozložením ( )1nt − . Kritický obor: ( ) ( ) )( ∞−∪−−∞−= α−α− ,1nt1nt,W 2/12/1 . Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α. Poznámka: Vzhledem k tomu, že platí tvrzení: ( ) ( )n1,F~XYnt~X 2 =⇒ , můžeme H0 zamítnout na hladině významnosti α, když ( ) )∞−∈ α− ,1n,1Ft 1 2 0 . p-rozměrný případ: Náhodný výběr n,, XX1 K pochází z rozložení ( )Σµ,Np , kde parametry Σµ, neznáme. Na hladině významnosti α testujeme hypotézu cµ =:H0 proti alternativě cµ ≠:H1 , kde ( )T p1 c,,c K=c je vektor reálných konstant. (Alternativa vlastně tvrdí, že aspoň jedna složka vektoru středních hodnot neodpovídá ověřovanému předpokladu.) Testová statistika ( ) ( ) ( ) ( )cMScM −− − − = −1T 0 1np pnn T se za platnosti H0 řídí rozložením ( )pn,pF − . Kritický obor: ( ) )∞−= α− ,pn,pFW 1 . Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α. Poznámka: Test cµ =:H0 proti cµ ≠:H1 nelze nahradit p jednorozměrnými t-testy jjj0 c:H =µ proti jjj1 c:H ≠µ , p,,1j K= , protože při tomto postupu by pravděpodobnost chyby 1. druhu byla větší než α, dokonce až ( )p 11 α−− . Pokud na dané hladině významnosti α zamítneme vícerozměrnou hypotézu cµ =:H0 ve prospěch alternativy cµ ≠:H1 , zjistíme, vzhledem ke kterým složkám vektoru µ byla nulová hypotéza zamítnuta. K tomu lze použít p jednorozměrných t-testů jjj0 c:H =µ proti jjj1 c:H ≠µ , p,,1j K= , u nichž hladinu významnosti α upravíme pomocí Bonferroniho korekce: j0H zamítneme na hladině významnosti α, když vypočtená p-hodnota bude p α ≤ . Příklad na vícerozměrný jednovýběrový t-test Výrobce určitého typu součástek uvádí, že nejdůležitější čtyři rozměry nabývají těchto hodnot: 9,50 mm, 6,35 mm, 5,98 mm a 4,40 mm. Náhodně bylo vybráno 15 součástek, byly u nich zjištěny hodnoty těchto rozměrů a zapsány do proměnných X1, X2, X3, X4. Údaje jsou uloženy v souboru soucastky.sta. Za předpokladu, že data pocházejí ze čtyřrozměrného normálního rozložení s neznámým vektorem středních hodnot ( )T 4321 µµµµ=µ a neznámou varianční maticí               σσσσ σσσσ σσσσ σσσσ = 2 4434241 34 2 33231 2423 2 221 141312 2 1 Σ , na hladině významnosti 0,05 testujte hypotézu, že tvrzení výrobce je pravdivé. V případě zamítnutí nulové hypotézy zjistěte, které rozměry přispěly k jejímu zamítnutí. Řešení: Na hladině významnosti 0,05 testujeme hypotézu H0:               =               µ µ µ µ 40,4 98,5 35,6 50,9 4 3 2 1 proti alternativě H1:               ≠               µ µ µ µ 40,4 98,5 35,6 50,9 4 3 2 1 . Hodnotu testové statistiky ( ) ( ) ( ) ( )cMScM −− − − = −1T 0 1np pnn T a odpovídající p-hodnotu vypočteme pomocí systému STATISTICA. Statistiky – Základní statistiky a tabulky – t-test, samost. vzorek – OK – Proměnné X1, X2, X3, X4 – OK – záložka Možnosti – zvolíme Test průměrů vůči různým volitelným konstantám Specif. X1: 9,5, X2: 6,35, X3: 5,98, X4: 4,4 – OK – zaškrtneme Vícerozměrný test (Hotellingovo T2 ) – Výpočet. Dostaneme výstupní tabulku: Test průměrů vůči referenční konstantě (hodnotě) (soucastky.sta) T2(celé případy ChD)=19,2432 F(4,11)=3,7799 p<,03597 Proměnná Průměr Sm.odch. N Sm.chyba Referenční konstanta t SV p X1 X2 X3 X4 9,491833 0,010695 15 0,002761 9,500000 -2,95748 14 0,010391 6,357433 0,011481 15 0,002964 6,350000 2,50752 14 0,025099 5,981467 0,011129 15 0,002873 5,980000 0,51043 14 0,617706 4,400327 0,007024 15 0,001814 4,400000 0,18011 14 0,859646 Testová statistika vícerozměrného jednovýběrového t-testu se realizuje hodnotou 3,7799, odpovídající p-hodnota je 0,03597, tedy s rizikem omylu nejvýše 5 % považujeme za prokázané, že rozměry součástky neodpovídají deklarovaným hodnotám. Protože jsme zamítli nulovou hypotézu, v dalším kroku zjistíme, které rozměry přispěly k jejímu zamítnutí. Budeme tedy simultánně testovat hypotézy H01: µ1 = 9,5, H02: µ2 = 6,35, H03: µ3 = 5,98, H04: µ4 = 4,4 proti H11: µ1 ≠ 9,5, H12: µ2 ≠ 6,35, H13: µ3 ≠ 5,98, H14: µ4 ≠ 4,4. H0j zamítneme na hladině významnosti α = 0,05, když vypočtená p-hodnota bude menší nebo rovna 0125,0 4 05,0 čet testůpo == α . Vidíme, že vícerozměrná hypotéza byla zamítnuta kvůli X1. 6. Test hypotézy o úplné nezávislosti sledovaných proměnných Řada statistických úloh vede na zkoumání závislosti mezi p sledovanými proměnnými. Nejdříve by se mělo zjistit, zda se nejedná o systém nezávislých proměnných. V takovém případě by bylo zbytečné pokračovat v analýze závislostí. Na hladině významnosti 0,05 testujeme IX =cor:H0 proti IX ≠cor:H0 (I je jednotková matice řádu p). Testová statistika RlnnT0 −= se za platnosti H0 asymptoticky řídí rozložením ( )       − χ 2 1pp2 . Kritický obor: ( ) )∞      − χ= α− , 2 1pp W 1 2 Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α. Poznámka: Aproximaci 2 χ -rozložením můžeme zpřesnit, když testovou statistiku 0 T vynásobíme konstantou n6 11p2 1 + − . 6. Test hypotézy o úplné nezávislosti sledovaných proměnných Řada statistických úloh vede na zkoumání závislosti mezi p sledovanými proměnnými. Nejdříve by se mělo zjistit, zda se nejedná o systém nezávislých proměnných. V takovém případě by bylo zbytečné pokračovat v analýze závislostí. Na hladině významnosti 0,05 testujeme IX =cor:H0 proti IX ≠cor:H0 (I je jednotková matice řádu p). Testová statistika RlnnT0 −= se za platnosti H0 asymptoticky řídí rozložením ( )       − χ 2 1pp2 . Kritický obor: ( ) )∞      − χ= α− , 2 1pp W 1 2 Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α. Poznámka: Aproximaci 2 χ -rozložením můžeme zpřesnit, když testovou statistiku 0 T vynásobíme konstantou n6 11p2 1 + − . Příklad: Na základě dat z příkladu o rozměrech součástek testujte hypotézu, že mezi sledovanými čtyřmi rozměry není žádná závislost. Řešení: Logaritmus determinantu výběrové korelační matice získáme v systému STATISTICA takto: Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty & klasifikační analýza – Proměnné X1, X2, X3, X4 – OK – OK – Popis. statistiky – Korelační matice Inverzní. Inverzní korelační matice (soucastky.sta) Aktivní proměnné Log(Determinant) korelační matice: -,10371221 Proměnná X1 X2 X3 X4 X1 X2 X3 X4 1,051183 -0,116527 -0,221930 0,034663 -0,116527 1,065407 0,229398 0,101462 -0,221930 0,229398 1,089346 -0,038291 0,034663 0,101462 -0,038291 1,014320 V záhlaví výstupní tabulky je číslo Rln = -0,10371221. K dalším výpočtům použijeme STATISTIKU jako inteligentní kalkulačku. Otevřeme nový datový soubor o 3 proměnných a 1 případu. Do Dlouhého jména 1. proměnné napíšeme =-0,103712221 (tj. Rln ), do Dlouhého jména druhé proměnné napíšeme =-15*v1 (tj. RlnnT0 −= ) a Dlouhého jména třetí proměnné napíšeme =VCHi2(0,95;6) (tj. kvantil ( )695,0 2 χ ). 1 Prom1 2 Prom2 3 Prom3 1 -0,1037122 1,55568315 12,5915872 Protože testová statistika 1,5557 nepatří do kritického oboru )∞;5916,12 , hypotézu o úplné nezávislosti čtyř rozměrů součástek nezamítáme na hladině významnosti 0,05. II. Úlohy o dvou nezávislých náhodných výběrech z vícerozměrného rozložení 1. Test hypotézy o rozdílu vektorů středních hodnot Tento test je p-rozměrnou analogií dvouvýběrového t-testu. Pro připomenutí: Náhodný výběr 1n111 X,,X K pochází z rozložení ( )2 1 ,N σµ , na něm nezávislý náhodný výběr 2n221 X,,X K pochází z rozložení ( )2 2 ,N σµ , přičemž parametry 2 21 ,, σµµ neznáme. Označíme 21 M,M výběrové průměry, 2 2 2 1 S,S výběrové rozptyly, ( ) ( ) 2nn S1nS1n S 21 2 22 2 112 * −+ −+− = vážený průměr výběrových rozptylů. Na hladině významnosti α testujeme hypotézu 210 :H µ=µ proti alternativě 211 :H µ≠µ . Testová statistika: 21 * 21 0 n 1 n 1 S MM T + − = se za platnosti H0 řídí rozložením ( )2nnt 21 −+ . Kritický obor: ( ) ( ) )( ∞−+∪−+−∞−= α−α− ,2nnt2nnt,W 212/1212/1 . Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α. Upozornění: Předpoklad, že rozptyly obou rozložení jsou shodné (tj. test nulové hypotézy 1:H 2 2 2 1 0 = σ σ proti alternativě 1:H 2 2 2 1 1 ≠ σ σ ) ověřujeme F-testem. Testová statistika 2 2 2 1 0 S S :T se v případě platnosti H0 řídí rozložením ( )1n,1nF 21 −− . Kritický obor: ( ) ( ) )∞−−∪−−= α−α ,1n,1nF1n,1nF,0W 212/1212/ . Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α. p- rozměrný případ (Hotellingův T2 test) Máme náhodný výběr 1n111 ,, XX K (kde ( )T ip11i1i1 X,,X K=X , 1n,,1i K= ) z ( )Σµ ,N 1p a dále na něm nezávislý náhodný výběr 2n221 ,, XX K (kde ( )T ip21i2i2 X,,X K=X , 2n,,1i K= ) z ( )Σµ ,N 2p , přičemž parametry Σµµ ,, 21 neznáme. Zavedeme označení: 21 nnn += … celkový rozsah obou výběrů ∑ = = hn 1i hij h hj X n 1 M … výběrový průměr j-té proměnné v h-tém výběru, 2,1h = , p,,1j K= ( )T hp1hh MM K=M … vektor výběrových průměrů v h-tém výběru, 2,1h = ( )( )∑ = −− − = hn 1i T hhihhi h h 1n 1 MXMXS … výběrová varianční matice v h-tém výběru, 2,1h = ( ) ( ) 2n 1n1n 2211 − −+− = SS S … společná výběrová varianční matice Na hladině významnosti α testujeme hypotézu 210 :H µµ = proti alternativě 211 :H µµ ≠ . Statistika ( ) ( )21 1T 21 21 n nn MMSMM −− − se řídí Hotellingovým rozložením ( )2n,pT2 − , když H0 platí. Vzhledem ke vztahu mezi Hotellingovým a F-S rozložením vynásobíme tuto statistiku konstantou ( )2np 1pn − −− a získáme testovou statistiku: ( ) ( ) ( )21 1T 21 21 0 n nn 2np 1pn T MMSMM −−⋅ − −− = − , která se za platnosti H0 řídí rozložením ( )1pn,pF −− . Kritický obor: ( ) )∞−−= α− ,1pn,pFW 1 . Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α. 2. Test hypotézy o shodě variančních matic Předpoklad o shodě variančních matic můžeme ověřit pomocí Boxova M-testu. Na hladině významnosti α testujeme hypotézu 210 :H ΣΣ = proti alternativě 211 :H ΣΣ ≠ . Testová statistika má tvar: ( ) ( ) ( )[ ]2211 p 0 ln1nln1nln2n C 1 T SSS −−−−−= , kde ( )       − − − + −+ −+ += 2n 1 1n 1 1n 1 1p6 1p3p2 1C 21 2 p je konstanta zlepšující aproximaci. V případě platnosti H0 se statistika 0T asymptoticky řídí rozložením ( )       + χ 2 1pp2 . Pokud ( ) )∞      + χ∈ α− , 2 1pp t 1 2 0 , hypotézu o shodě variančních matic zamítneme na asymptotické hladině významnosti α. Aproximace je vyhovující, když rozsahy výběrů jsou aspoň 20 a počet proměnných je nejvýše 5. V případě, že rozsahy výběrů jsou shodné, nemusíme Boxův test provádět. Simultánní t-testy: Pokud na dané hladině významnosti α zamítneme hypotézu 210 :H µµ = ve prospěch alternativy 211 :H µµ ≠ , zjistíme, které proměnné jsou příčinou jejího zamítnutí. V této situaci provedeme p simultánních testů j2j1j0 :H µ=µ proti j2j1j1 :H µ≠µ , p,,1j K= pomocí testové statistiky ( ) ( ) 2 j* 2 j2j121 j0 S MM n nn 2np 1pn T − ⋅⋅ − −− = , která se za platnosti H0j řídí rozložením ( )1pn,pF −− . Kritický obor: ( ) )∞−−= α− ,1pn,pFW 1 . Jestliže Wt j0 ∈ , H0j zamítáme na hladině významnosti α. Příklad na Hotellingův T2 test 23 náhodně vybraných mužů a 22 náhodně vybraných žen mělo posoudit podobné výrobky od tří firem – označme je A, B, C – na škále 0 bodů (naprosto nevyhovující) až 10 bodů (zcela vyhovující). Výsledky jsou uloženy v souboru hodnoceni_vyrobku.sta. Za předpokladu, že data tvoří realizace dvou nezávislých náhodných výběrů ze dvou třírozměrných normálních rozložení se stejnými variančními maticemi, Hotellingovým T2 testem ověřte na hladině významnosti 0,05 hypotézu, že hodnocení mužů a žen se neliší. Pokud dojde k zamítnutí nulové hypotézy, zjistěte, které firmy se v hodnocení mužů a žen liší. Řešení: Na hladině významnosti 0,05 testujeme hypotézu H0:               µ µ µ =               µ µ µ 23 22 21 13 12 11 proti alternativě H1:               µ µ µ ≠               µ µ µ 23 22 21 13 12 11 . Hodnotu testové statistiky ( ) ( ) ( )21 1T 21 21 0 n nn 2np 1pn T MMSMM −−⋅ − −− = − a odpovídající phodnotu vypočteme pomocí systému STATISTICA. Statistiky – Základní statistiky a tabulky – t-test, nezávislé, dle skupin – OK – Proměnné – Závisle proměnné X1, X2, X3, Grupovací proměnná ID – OK – na záložce Možnosti zaškrtneme Vícerozměrný test (Hotellingovo T2 ) – Výpočet t-testy; grupováno: ID: pohlaví respondenta (hodnoceni_vyrobku.sta) Skup. 1: muž; Skup. 2: žena Hotellingovo 15,5599 F(3,41)=4,9454 p<,00506 Proměnná Průměr muž Průměr žena t sv p Poč.plat muž Poč.plat. žena Sm.odch. muž Sm.odch. žena F-poměr Rozptyly p Rozptyly X1 X2 X3 5,086957 4,545455 0,697666 43 0,489142 23 22 2,574579 2,631807 1,044950 0,917081 5,434783 3,818182 2,098562 43 0,041766 23 22 2,642762 2,519190 1,100510 0,829044 5,304348 3,045455 3,117687 43 0,003246 23 22 2,770540 2,011332 1,897411 0,147512 Testová statistika Hotellingova testu nabývá hodnoty 4,9454, odpovídající p-hodnota je menší než 0,00506, tedy na hladině významnosti 0,05 zamítáme hypotézu, že vektory středních hodnot proměnných X1, X2, X3 jsou v obou skupinách shodné. S rizikem omylu nejvýše 5 % jsme tedy prokázali, že mezi muži a ženami existuje rozdíl v hodnocení výrobků tří firem. (Vidíme, že hodnocení mužů je příznivější než hodnocení žen.) Nyní pomocí simultánních testů zjistíme, které firmy jsou rozdílně hodnoceny muži a ženami. Simultánní testy založené na statistice ( ) ( ) 2 j* 2 j2j121 j0 S MM n nn 2np 1pn T − ⋅⋅ − −− = STATISTICA neposkytuje. (V našem případě n = 45, p = 3, n1 = 23, n2 = 22, tedy ( ) 5805 20746 n nn 2np 1pn 21 =⋅ − −− .) S pomocí STATISTIKY však můžeme vypočítat vektory výběrových průměrů a směrodatných odchylek. V této tabulce ponecháme pouze proměnné obsahující průměry a směrodatné odchylky. Dále za poslední proměnnou vložíme dvě nové proměnné T0j a kvantil. Do Dlouhého jména proměnné T0j napíšeme: =(20746/5805)*(v1-v2)^2/((22*v3^2+21*v4^2)/45) Do Dlouhého jména proměnné kvantil napíšeme: =VF(0,95;3;41) t-testy; grupováno: ID: pohlaví respondenta (hodnoceni_vyrobku.sta) Skup. 1: muž; Skup. 2: žena Hotellingovo 15,5599 F(3,41)=4,9454 p<,00506 Proměnná Průměr muž Průměr žena Sm.odch. muž Sm.odch. žena T0j =(20746/58 kvantil =VF(0,95;3; X1 X2 X3 5,086957 4,545455 2,574579 2,631807 0,161895 2,832747 5,434783 3,818182 2,642762 2,519190 1,464812 2,832747 5,304348 3,045455 2,770540 2,011332 3,232981 2,832747 Vidíme, že statistika T03 se realizuje v kritickém oboru )∞= ;8327,2W . S rizikem omylu nejvýše 5 % jsme tedy prokázali, že výrobky firmy C jsou odlišně hodnoceny muži a ženami.