Osnova přednášky „Jednofaktorová MANOVA“ 1. Popis problému 2. Test hypotézy o shodě vektorů středních hodnot 3. Simultánní testy o složkách vektorů středních hodnot 4. Vícerozměrná obdoba mnohonásobného porovnávání 5. Simultánní testy v mnohonásobném porovnávání 6. Předpoklady v MANOVĚ a jejich ověřování 7. Aplikace MANOVY v psychologickém výzkumu Vícerozměrná analogie analýzy rozptylu jednoduchého třídění (jednofaktorová MANOVA) 1. Popis problému Předpokládáme, že faktor A má 3r ≥ úrovní a přitom na h-té úrovni bylo provedeno hn p-rozměrných pozorování phn1hnp1h11h hh x,,x,,x,,x KKK , která považujeme za realizaci p-rozměrného náhodného výběru rozsahu hn , r,,1h K= . Na každé úrovni faktoru musí být provedeno více pozorování než je závisle proměnných veličin, tj. pnh > , r,,1h K= . Výsledky lze zapsat do tabulky: faktor A výsledky úroveň 1 p11111 x,,x K …………… pn11n1 11 x,,x K ………... …………… úroveň r p1r11r x,,x K …………… prn1rn rr x,,x K Zavedeme následující označení: h … index skupiny, i … index objektu, j … index proměnné ∑ = = h 1r r nn … celkový rozsah všech r výběrů ∑ = = hn 1i hij h hj X n 1 M … výběrový průměr j-té proměnné v h-té skupině, p,,1j K= , r,,1h K=           = hp 1h h M M MM … vektor výběrových průměrů v h-té skupině, r,,1h K= ∑ = = r 1h hh n n 1 MM … vektor celkových průměrů ( )( )∑ = −− − = hn 1i T hhhh h 1n 1 MXMXSh … výběrová varianční matice v h-té skupině, r,,1h K= ( )∑ = − − = r 1h hh 1n rn 1 SS … vážený průměr výběrových variančních matic Celková variabilita obsažená v datech je vyjádřena maticí T: ( )( )∑∑ = = −−= r 1h n 1i T hihi h MXMXT . Matici T lze rozložit na součet dvou matic: BET += , kde E je matice reziduální variability ( )( ) ( )∑∑∑ == = −=−−= r 1h h r 1h n 1i T hhihhi 1n h h SMXMXE a B je matice meziskupinové variability ( )( )∑ = −−= r 1h T hhh n MMMMB . Vliv faktoru, který způsobuje rozpad datové matice na skupiny, se může projevit jen v matici B. Variabilitu projevující se v matici E tedy považujeme za reziduální, způsobenou buď náhodnými vlivy nebo faktory, kterou nejsou z našeho hlediska podstatné. 2. Test hypotézy o shodě vektorů středních hodnot Nadále budeme předpokládat, že náhodný výběr příslušející h-té úrovni faktoru A, tedy posloupnost stochasticky nezávislých p-rozměrných náhodných vektorů hhn1h ,, XX K , pochází z p-rozměrného normálního rozložení ( )Σµ ,N hp , r,,1h K= a jednotlivé náhodné výběry jsou stochasticky nezávislé. Na hladině významnosti α testujeme nulovou hypotézu r10 :H µµ ==K proti alternativní hypotéze :H1 aspoň jedna dvojice vektorů středních hodnot se liší. Při testování této hypotézy můžeme použít až čtyři různé testy založené na - Wilksově kritériu, - Lawleyově – Hotellingově kritériu, - Pillaiově kritériu, - Royově kritériu. Každé z těchto kritérií je určitým způsobem založeno na vlastních číslech matice EB 1− . Označme gλ g-té vlastní číslo této matice a s počet nenulových vlastních čísel, přičemž ( )1r,pmins −= . Uvedeme vzorce pro vyjádření jednotlivých kritérií: Wilksovo kritérium: ( ) ( ) ∏ = λ+ = + =Λ s 1g g1 1 det det BE E , Lawleyovo – Hotellingovo kritérium: ( ) ∑ = − λ== s 1g g 2 trT EB 1 , Pillaiovo kritérium: ( )( ) ∑ = − + =+= s 1g g g1 λ1 λ trP EBB , Royovo kritérium: ( )1V λ= , kde ( )1λ je největší vlastní číslo matice EB 1− . V praxi je nejpoužívanější Wilksovo kritérium. Nabývá hodnot mezi 0 a 1, přičemž vyšší hodnoty znamenají, že střední hodnoty se liší méně. Testová statistika W F pro test shody vektorů středních hodnot vznikne transformací Λ: Λ      − + −−= ln1 2 rp nFW . V případě platnosti nulové hypotézy se statistika W F asymptoticky řídí rozložením ( )( )1rp2 −χ . 0 H tedy zamítáme na asymptotické hladině významnosti α, když tato statistika nabude hodnoty větší nebo rovné α−1 kvantilu uvedeného rozložení, tj. ( )( )1rpF 1 2 W −χ≥ α− . Znamená to, že jsme s rizikem omylu nejvýše %100α prokázali, že alespoň dvě skupiny nemají stejné vektory středních hodnot. 3. Simultánní testy o složkách vektorů středních hodnot Prokážeme-li na zvolené hladině významnosti α rozdíl mezi vektory středních hodnot, budeme dále zjišťovat, které ze sledovaných p kvantitativních proměnných p1 X,,X K způsobují rozdíl mezi skupinami. Provedeme tedy tzv. simultánní testy. Ty odhalí, které jednotlivé proměnné jsou závislé na faktoru A. Současně tedy testujeme p hypotéz r11101 :H µ==µ K , …, pr1pp0 :H µ==µ K . Použijeme testovou statistiku založenou na Wilksově kritériu: jj jj j t e ln1 2 rp nK       − + −−= , kde jj e resp. jj t je j-tý diagonální prvek matice E resp. T, p,,1j K= . V případě platnosti nulové hypotézy se statistika jK asymptoticky řídí rozložením ( )( )1rp2 −χ . j0H tedy zamítáme na asymptotické hladině významnosti α, když ( )( )1rpK 1 2 j −χ≥ α− . Upozornění: Může však nastat situace, kdy hypotéza o shodě vektorů středních hodnot byla na hladině významnosti α zamítnuta, avšak simultánní testy neprokáží žádný rozdíl mezi složkami vektorů středních hodnot. V takovém případě jsou rozdíly mezi skupinami způsobeny nějakou kombinací sledovaných p proměnných. 4. Vícerozměrná obdoba mnohonásobného porovnávání Dalším krokem, který následuje po zamítnutí hypotézy o shodě vektorů středních hodnot, je provedení vícerozměrné obdoby mnohonásobného porovnávání. Chceme totiž zjistit, které dvojice vektorů středních hodnot se liší na zvolené hladině významnosti α. Budeme tedy pro všechny indexy ** hh,r,,1h,h ≠= K testovat hypotézu * hh0 :H µµ = proti * hh1 :H µµ ≠ . Těchto testů je       2 r . Nulovou hypotézu zamítneme na hladině významnosti α, když testová statistika (založená na Lawleyově – Hotellingově kritériu) ( ) ( ) ( )** * * hh 1T hh hh hh nn nn p1r 1prn MMEMM −− + ⋅ − +−− − nabude hodnoty aspoň ( )211 ,F ννα− , kde ( ) ( ) ( )p1r2n prnp1r 1 −−− −−− =ν , 1prn2 +−−=ν . Pak jsme s rizikem omylu nejvýše %100α prokázali, že h-tá a * h -tá skupina nemají stejné vektory středních hodnot. 5. Simultánní testy v mnohonásobném porovnávání Provedení MANOVY uzavřeme tím, že odhalíme případné rozdíly mezi jednotlivými proměnnými v rámci dvojic skupin. Pro všechny indexy * h,h , * hh ≠ a všechny indexy p,,1j K= testujeme na hladině významnosti α hypotézu jhhj0 *µµ:H = proti jhhj1 *µµ:H ≠ . Zajímá nás tedy rozdíl mezi středními hodnotami j-té proměnné v h-té a * h -té skupině. Těchto testů je ( ) 2 1rpr − . Testová statistika má tvar: ( ) 2 j 2 jhhj hh hh S MM nn nn )rn(p)1r( 1prn * * * − ⋅ + ⋅ −− +−− ( 2 j S je j-tý diagonální prvek matice S) . V případě platnosti nulové hypotézy se tato statistika asymptoticky řídí rozložením ( )21 ,F νν , kde ( ) ( ) ( )p1r2n prnp1r 1 −−− −−− =ν , 1prn2 +−−=ν . Hypotézu o shodě j-tých složek vektorů středních hodnot v h-té a * h -té skupině zamítneme na hladině významnosti α, když tato testová statistika nabude hodnoty větší nebo rovné kvantilu ( )211 ,F ννα− . Upozornění: Vícerozměrnou obdobu mnohonásobného porovnávání ani simultánní testy v mnohonásobném porovnávání systém STATISTICA neposkytuje. Problém lze vyřešit tím, že na zvolenou hladinu významnosti α aplikujeme Bonferroniho korekci. V prvém případě (tj. pro vícerozměrnou obdobu mnohonásobného porovnávání) provedeme pro každou dvojici skupin vícerozměrný dvouvýběrový t-test (tj. Hotellingův T2 test) a jeho vypočtenou p-hodnotu porovnáme s číslem       α 2 r . Je-li       α ≤ 2 r p , považujeme rozdíl ve vektorech středních hodnot příslušných dvojic skupin za prokázaný. Ve druhém případě (tj. pro simultánní testy v mnohonásobném porovnávání) provedeme pro každou proměnnou a každou dvojici skupin dvouvýběrový t-test a jeho vypočtenou p-hodnotu porovnáme s číslem ( ) 2 1rpr − α . Je-li ( ) 2 1rpr p − α ≤ , zamítáme hypotézu o shodě středních hodnot příslušné proměnné v daných dvou skupinách. 6. Předpoklady v MANOVĚ a jejich ověřování Vícerozměrná normalita: V každé z r skupin bychom měli testovat hypotézu, že vektor proměnných ( p1 X,,X K )T se řídí p-rozměrným normálním rozložením. Testy na vícerozměrnou normalitu však nejsou běžnou součástí statistických programových systémů. V praxi se spokojíme s tím, že otestujeme normalitu pro každou jednotlivou proměnnou zvlášť. Výsledky těchto testů však posuzujeme jen orientačně. Menší odchylky od normality nebrání provedení MANOVY, při větším porušení používáme vhodné transformace. Shoda variančních matic: Je-li třídění vyvážené, tj. ve všech skupinách je stejný počet pozorování, je MANOVA odolná vůči porušení předpokladu shody variančních matic. V případě nevyváženého třídění je nutné provést Boxův test shody variančních matic. Na hladině významnosti α testujeme hypotézu r10 :H ΣΣ ==K proti alternativní hypotéze :H1 aspoň jedna dvojice variančních matic se liší. Testová statistika má tvar: ( ) ( )     −−−= ∑ = r 1h hh p 0 ln1nlnrn C 1 T SS , kde ( )( )       − − −+− −+ += ∑ = rn 1 1n 1 1p1r6 1p3p2 1C r 1h h 2 p je konstanta zlepšující aproximaci. V případě platnosti nulové hypotézy se statistika 0T asymptoticky řídí rozložením ( ) ( )       +− χ 2 1pp1r2 . Pokud testová statistika nabude hodnoty aspoň ( ) ( )       +− χ α− 2 1pp1r 1 2 , hypotézu o shodě variančních matice zamítneme na asymptotické hladině významnosti α. Linearita vztahů: Vzhledem k tomu, že MANOVA patří do skupiny obecných lineárních modelů, předpokládá se, že v každé skupině existuje mezi závisle proměnnými veličinami přibližně lineární vztah. Tento předpoklad lze orientačně ověřit pomocí dvourozměrných tečkových diagramů. Výskyt nelineárních vztahů snižuje sílu testů v MANOVĚ. 7. Aplikace MANOVY v psychologickém výzkumu Informace o projektu „Výkonová motivace rozumově nadaných studentů s dyslexií“ Institut výzkumu dětí, mládeže a rodiny je součástí Fakulty sociálních studií Masarykovy univerzity. Vědecká činnost tohoto institutu je zaměřena na sledování psychických a sociálních charakteristik dětí, adolescentů a jejich rodin. V současné době je zde mj. řešen projekt Výkonová motivace rozumově nadaných studentů s dyslexií – základní determinanty v období adolescence a časné dospělosti. Tento projekt se zaměřuje na problematiku mimořádně nadaných adolescentů a mladých dospělých se souběžnou vývojovou poruchou učení – s dyslexií. Podle současných poznatků je právě tato skupina nadaných studentů ve značně znevýhodňující vzdělávací pozici, která jí často znemožňuje dosahovat úspěchů ve škole i v životě. Hlavním cílem projektu je sledování klíčových proměnných, které mohou být zodpovědné za tento stav. V rámci projektu byly vyšetřeny řádově stovky studentů. Zaměříme se na data o 166 studentech bez dyslexie a s diagnostikovanou dyslexií, u nichž byla změřena inteligence Ravenovým testem (maximální skóre je 60 bodů, za nadané jsou považováni studenti se skóre aspoň 56 bodů) a kteří vyplnili dotazník zaměřený na tyto aspekty: - vědomí vlastní účinnosti (přesvědčení jedince, že dokáže úspěšně realizovat chování, které je potřebné k dosažení specifických cílů), výsledky jsou zaznamenány v proměnné skóre H, která může nabývat hodnot od 10 do 40; - osobní standardy (tendence dávat si vysoké cíle a hodnotit se v závislosti na jejich dosažení), výsledky jsou obsaženy v proměnné skóre PS, minimální hodnota může být 7, maximální 35; - organizovanost (ukazuje na schopnost udržovat pořádek a řád ve vlastních věcech), výsledky jsou shrnuty v proměnné skóre O, může nabývat hodnot mezi 6 až 30; - potřeba poznávat, výsledky jsou zaznamenány v proměnné skóre G, která se může pohybovat v mezích -64 až 64. Poznámka k Ravenovu testu: Základem testu jsou matice diagramů 3 x 3, do které se doplňuje chybějící diagram ve třetí řadě na základě logických souvislostí. Podstatou tohoto testu je měření obecné intelektuální schopnosti pracovat s abstraktními pojmy. Ukázka Ravenovy matice: Celý výzkumný soubor 166 studentů je rozčleněn na čtyři skupiny: - nadaní studenti s dyslexií (n1 = 16, označení ND), - nadaní studenti bez dyslexie (n2 = 40, označení NnD), - průměrní studenti s dyslexií (n3 = 22, označení PD), - průměrní studenti bez dyslexie (n4 = 88, označení PnD). Metodami MANOVY zjistíme, zda na hladině významnosti 0,05 existují významné rozdíly mezi uvedenými čtyřmi skupinami studentů a identifikujeme proměnné, které tyto rozdíly způsobují. Ukázka části datového souboru: Posouzení úrovně a variability sledovaných proměnných v daných čtyřech skupinách: Statistiky – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné skoreH, skorePS, skoreO, skoreG – OK – Anal. skupin – zaškrtneme Zapnuto a Sloučit tabulkové výsledky v jedné tabulce a zrušíme Výsledky za všech. skupiny – zadáme Skupin. proměnná ID – OK – Detailní výsledky – zrušíme Minimum a maximum – Výpočet Souhrnné výsledky Popisné statistiky (psychologie.sta) Proměnná ID N platných Průměr Sm.odch. skoreH skorePS skoreO skoreG skoreH skorePS skoreO skoreG skoreH skorePS skoreO skoreG skoreH skorePS skoreO skoreG nadany dyslektik 16 28,62500 3,61248 nadany dyslektik 16 22,43750 5,15065 nadany dyslektik 16 17,25000 3,17280 nadany dyslektik 16 18,06250 14,17260 nadany nedyslektik 40 27,25000 4,85561 nadany nedyslektik 40 20,00000 4,53477 nadany nedyslektik 40 17,65000 3,00043 nadany nedyslektik 40 3,07500 20,38525 prumerny dyslektik 22 27,63636 2,78680 prumerny dyslektik 22 20,86364 5,00757 prumerny dyslektik 22 15,86364 4,31272 prumerny dyslektik 22 7,31818 18,00102 prumerny nedyslektik 88 28,28409 4,16595 prumerny nedyslektik 88 20,88636 4,42935 prumerny nedyslektik 88 18,53409 2,84443 prumerny nedyslektik 88 0,15909 19,10581 Průměry proměnných skóre H a skóre PS se u různých skupin příliš neliší. Průměr skóre O je poněkud nižší ve skupině průměrných dyslektiků. Největší rozdíly mezi průměry jsou pozorovatelné u skóre G, kde se velmi výrazně odlišují nadaní dyslektici a průměrní studenti bez dyslexie. Z hlediska variability se nejvyrovnanější jeví průměrní dyslektici ve vědomí vlastní účinnosti (skóre H), naopak největší proměnlivost pozorujeme u nadaných nedyslektiků v potřebě poznání (skóre G). Výpočty doplníme krabicovými grafy: Grafy – 2D grafy – Krabicové grafy – Typ grafu: Vícenásobný – Proměnné – Závislé prom.: skoreH, skorePS, skoreO, skoreG, Grupovací prom.: ID – OK – Detaily – Střední bod – Hodn.:Průměr, Krabicový – Hodn.: SmOdch, Koeficient 1 – Svorka – Hodn.: Min-Max – Odlehlé hodnoty &extrémy – Vyp. Krabicový graf z více proměnných seskupený ID psychologie.sta 7v*166c Průměr; Krabice: Průměr±SmOdch; Svorka: Min-Max skoreH skorePS skoreO skoreG nadany dyslektik nadany nedyslektik prumerny dyslektik prumerny nedyslektik ID -60 -40 -20 0 20 40 60 Ověření předpokladů MANOVY Normalita: Nejprve pomocí S-W testu ověříme předpoklad o normalitě rozložení proměnných skóre H, skóre PS, skóre O, skóre G ve všech čtyřech skupinách: Statistiky – Základní statistiky a tabulky – Tabulky četností – OK – Proměnné skoreH, skorePS, skoreO, skoreG – OK - Anal. skupin – zaškrtneme Zapnuto a Sloučit tabulkové výsledky v jedné tabulce a zrušíme Výsledky za všech. skupiny – zadáme Skupin. proměnná ID – OK – OK – záložka Normalita – zaškrtneme S-W test a zrušíme K-S test a Lilieforsův test – Testy normality Souhrnné výsledky Testy normality (psychologie.sta) Proměnná ID N W p skoreH skorePS skoreO skoreG skoreH skorePS skoreO skoreG skoreH skorePS skoreO skoreG skoreH skorePS skoreO skoreG nadany dyslektik 16 0,943706 0,396906 nadany dyslektik 16 0,920708 0,173164 nadany dyslektik 16 0,974538 0,905670 nadany dyslektik 16 0,984604 0,989658 nadany nedyslektik 40 0,981282 0,736977 nadany nedyslektik 40 0,947461 0,062032 nadany nedyslektik 40 0,950792 0,080743 nadany nedyslektik 40 0,927833 0,013694 prumerny dyslektik 22 0,981058 0,931731 prumerny dyslektik 22 0,979518 0,908287 prumerny dyslektik 22 0,979293 0,904593 prumerny dyslektik 22 0,960403 0,497479 prumerny nedyslektik 88 0,983965 0,350405 prumerny nedyslektik 88 0,971554 0,049792 prumerny nedyslektik 88 0,968818 0,032215 prumerny nedyslektik 88 0,989775 0,728066 S-W test zamítá na hladině významnosti 0,05 hypotézu o normalitě skóre G u nadaných nedyslektiků a dále zamítá hypotézu o normalitě skóre PS a skóre O u průměrných nedyslektiků. Normalita je však porušena jen mírně. Nedopustíme se závažné chyby, budeme-li předpokládat, že každá ze čtyř částí datové matice je realizací výběru ze čtyřrozměrného normálního rozložení. Shoda variančních matic Hypotézu o shodě variančních matic otestujeme Boxovým testem: Statistiky – ANOVA – Jednofaktorová ANOVA – OK – Proměnné – Seznam závislých proměnných skoreH, skorePS, skoreO, skoreG - Kategor. nezávislá proměnná (faktor) ID – OK – OK – Více výsledků – záložka Předpoklady – Boxův M test Boxův M test (psychologie.sta) Efekt: ID (Vypočteno pro všechny proměnné) Boxovo M Chí-kv. sv p Boxovo M 39,90594 37,13662 30 0,173196 Test shody čtyř variančních matic poskytl p-hodnotu 0,1732, tedy nadále budeme varianční matice považovat za shodné. Linearita vztahů Linearitu vztahů mezi sledovanými proměnnými v daných čtyřech skupinách orientačně posoudíme pomocí tečkových diagramů. Uvedeme zde výsledky jen pro skupinu průměrných dyslektiků, neboť vzhled tečkových diagramů v ostatních skupinách je podobný: Grafy – Maticové grafy - Proměnné skoreH, skorePS, skoreO, skoreG – OK – Filtr případů – Zapnout filtr ID=3 – OK – OK Maticový graf psychologie.sta 7v*166c Zahrnout jestliže: ID=3 skoreH skoreH skoreH skorePS skorePS skoreO skoreO skoreG skoreG skoreH skorePS skoreO skoreG Výrazné nelinearity se zde neprojevují. Důležité předpoklady MANOVY jsou splněny. Testování hypotézy o shodě vektorů středních hodnot Nyní provedeme Wilksův, Pillaiův, Hotellingův a Royův test hypotézy o shodě vektorů středních hodnot. Návrat do ANOVA – záložka Detaily – zaškrtneme vš. Vícerozměrné testy – Test všech efektů Vícerozměrné testy významnosti (psychologie.sta) Sigma-omezená parametrizace Dekompozice efektivní hypotézy Efekt Test hodnota F Efekt sv Chyba sv p Abs. člen ID Wilksův 0,01865 2091,936 4 159,0000 0,000000 Pillaiův 0,98135 2091,936 4 159,0000 0,000000 Hotellng 52,62732 2091,936 4 159,0000 0,000000 Royův 52,62732 2091,936 4 159,0000 0,000000 Wilksův 0,82122 2,711 12 420,9660 0,001535 Pillaiův 0,18498 2,645 12 483,0000 0,001932 Hotellng 0,21022 2,762 12 473,0000 0,001213 Royův 0,16843 6,779 4 161,0000 0,000046 Všechny čtyři testy zamítají na hladině významnosti 0,05 hypotézu, že střední hodnoty proměnných skóre H, skóre PS, skóre O, skóre G jsou ve všech čtyřech skupinách shodné. S rizikem omylu nejvýše 5 % jsme tedy prokázali, že aspoň mezi dvěma skupinami studentů existuje rozdíl z hlediska sledovaných psychologických skóre. Simultánní testy o složkách vektorů středních hodnot Dále se pomocí simultánních testů pokusíme odhalit, které proměnné způsobují rozdíly mezi skupinami studentů. Simultánní testy STATISTICA neposkytuje. Můžeme však s její pomocí vypočítat matici E reziduální variability a matici T celkové variability . Z těchto matic použijeme diagonální prvky pro výpočet všech čtyř testových statistik založených na Wilksově kritériu. Výpočet matice E reziduální variability: Návrat do ANOVA – záložka Matice – v části ozn. Meziskupinové efekty vybereme SČ chyb. Matice SSCP (Z' Z) reziduí (psychologie.sta) Sigma-omezená parametrizace Dekompozice efektivní hypotézy Efekt Proměnná skoreH skorePS skoreO skoreG Chyba skoreH 2788,239 1271,375 265,557 4037,19 skorePS 1271,375 3433,392 702,182 6882,11 skoreO 265,557 702,182 1596,589 1464,28 skoreG 4037,193 6882,108 1464,277 57782,26 Výpočet matice T celkové variability (je to matice v pravém dolním rohu): Návrat do ANOVA – záložka Matice – v části ozn. Meziskupinové schéma vybereme Z’Z odchylek. Matice SSCP (Z' Z) odchylek (psychologie.sta) Matice SSCP (Z' Z) odchylek vektorů matice v matici schématu X Efekt Úroveň Sloupec Efekt (P/N) Sloup.1 Abs.člen Sloup.2 ID Sloup.3 ID Sloup.4 ID Sloup.5 skoreH Sloup.6 skorePS Sloup.7 skoreO Sloup.8 skoreG Abs. člen ID ID ID skoreH skorePS skoreO skoreG 1 Pevný nadany dyslektik 2 Pevný 72,7711 67,1807 59,373 -16,301 19,988 -70,277 529,60 nadany nedyslektik 3 Pevný 67,1807 114,1205 68,916 -55,867 -38,675 -68,518 278,73 prumerny dyslektik 4 Pevný 59,3735 68,9157 83,759 -34,193 -4,928 -104,337 380,39 5 -16,3012 -55,8675 -34,193 2826,946 1313,458 298,530 4081,61 6 19,9880 -38,6747 -4,928 1313,458 3502,578 695,301 7257,08 7 -70,2771 -68,5181 -104,337 298,530 695,301 1731,928 959,94 8 529,6024 278,7349 380,386 4081,608 7257,084 959,940 62485,28 Vidíme, že e11 = 2788,239, e22 = 3433,392, e33 = 1596,589, e44 = 57782,26, t11 = 2826,946, t22 = 3502,578, t33 = 1731,928, t44 = 62485,28. Testové statistiky K1, K2, K3, K4 vypočteme podle vzorce jj jj j t e ln1 2 rp nK       − + −−= , j = 1, 2, 3, 4. Kritický obor je ( )( ) )∞−χ= α− ,1rpW 1 2 . V našem případě n = 166, p = 4, r = 4, tedy 1611 2 44 1661 2 rp n =− + −=− + − K dalším výpočtům použijeme STATISTIKU jako inteligentní kalkulačku. Otevřeme nový datový soubor o jednom případu a s pěti proměnnými K1, K2, K3, K4 a kvantil. Do Dlouhého jména proměnné K1 napíšeme: =-161*log(2788,239/2826,946) Do Dlouhého jména proměnné K2 napíšeme: =-161*log(3433,392/3502,578) Do Dlouhého jména proměnné K3 napíšeme: =-161*log(1596,589/1731,928) Do Dlouhého jména proměnné K4 napíšeme: =-161*log(57782,26/62485,28) Proměnná kvantil obsahuje kvantil ( )1295,0 2 χ , tedy do jejího Dlouhého jména napíšeme: =VChi2(0,95;12) Dostaneme tuto tabulku: 1 K1 2 K2 3 K3 4 K4 5 kvantil 1 2,21966888 3,21204257 13,0998874 12,5981213 21,0260698 Vidíme, že ani jedna ze čtyř statistik se nerealizuje v kritickém oboru. Vzhledem k tomu, že hypotéza o shodě vektorů středních hodnot byla na hladině významnosti 0,05 zamítnuta, ale simultánní testy jsou nevýznamné, musí být rozdíly mezi skupinami zapříčiněny nějakou lineární kombinací sledovaných čtyř proměnných. Vícerozměrná obdoba mnohonásobného porovnávání Nyní zjistíme, mezi kterými dvojicemi skupin existuje onen významný rozdíl, který byl odhalen při testování hypotézy o shodě vektorů středních hodnot. Vícerozměrnou obdobu mnohonásobného porovnávání STATISTICA neposkytuje. Problém vyřešíme tak, že provedeme všech šest porovnání (1-2, 1-3, 1-4, 2-3, 2-4, 3-4) pomocí Hotellingova T2 testu a získané p-hodnoty porovnáme s hladinou významnosti korigovanou podle Bonferroniho, tj. s číslem 3008,0 6 05,0 2 4 2 r ==      α=      α . Statistiky – Základní statistiky a tabulky – t-test, nezávislé, dle skupin – OK – Proměnné – Závisle proměnné skoreH, skorePS, skoreO, skoreG – Grupovací proměnná ID – OK – Kód pro skup. 1: 1, Kód pro skup. 2: 2 – na záložce Možnosti zaškrtneme Vícerozměrný test (Hotellingovo T2 ) - Výpočet (Podobně získáme výsledky pro další dvojice skupin.) Výsledek pro 1. a 2. skupinu: t-testy; grupováno: ID (psychologie.sta) Skup. 1: nadany dyslektik; Skup. 2: nadany nedyslektik Hotellingovo 8,38772 F(4,51)=1,9804 p<,11150 Vypočtenou p-hodnotu (tj. 0,11150) porovnáme s 3008,0 . Vidíme, že nadaní dyslektici a nadaní nedyslektici se neliší. -------------------------------------------------------------------------------------------------------------------- Výsledek pro 1. a 3. skupinu: t-testy; grupováno: ID (psychologie.sta) Skup. 1: nadany dyslektik; Skup. 2: prumerny dyslektik Hotellingovo 5,78503 F(4,33)=1,3257 p<,28093 Protože p-hodnota 0,28093 je větší než 3008,0 , můžeme konstatovat, že nadaní dyslektici a průměrní dyslektici se neliší. -------------------------------------------------------------------------------------------------------------------- Výsledek pro 1. a 4. skupinu: t-testy; grupováno: ID (psychologie.sta) Skup. 1: nadany dyslektik; Skup. 2: prumerny nedyslektik Hotellingovo 21,4183 F(4,99)=5,1971 p<,00077 V tomto případě vidíme, že nadaní dyslektici a průměrní nedyslektici se liší: 3008,000077,0 ≤ -------------------------------------------------------------------------------------------------------------------- Výsledek pro 2. a 3. skupinu: t-testy; grupováno: ID (psychologie.sta) Skup. 1: nadany nedyslektik; Skup. 2: prumerny dyslektik Hotellingovo 5,35556 F(4,57)=1,2719 p<,29168 Při srovnání nadaných nedyslektiků a průměrných dyslektiků nebyly odlišnosti zjištěny, protože příslušná p-hodnota (0,28168) je větší než 3008,0 . -------------------------------------------------------------------------------------------------------------------- Výsledek pro 2. a 4. skupinu: t-testy; grupováno: ID (psychologie.sta) Skup. 1: nadany nedyslektik; Skup. 2: prumerny nedyslektik Hotellingovo 7,10202 F(4,123)=1,7332 p<,14690 Nadaní a průměrní nedyslektici se neliší na hladině významnosti 0,05. Výsledek pro 3. a 4. skupinu: -------------------------------------------------------------------------------------------------------------------- t-testy; grupováno: ID (psychologie.sta) Skup. 1: prumerny dyslektik; Skup. 2: prumerny nedyslektik Hotellingovo 18,2551 F(4,105)=4,4370 p<,00236 Zde jsme prokázali, že s rizikem omylu nejvýše 5 % se liší průměrní dyslektici a nedyslektici. -------------------------------------------------------------------------------------------------------------------- Simultánní testy v mnohonásobném porovnávání Posouzení rozdílů mezi jednotlivými proměnnými v rámci skupin STATISTICA neposkytuje. Pro každou proměnnou tedy provedeme dvouvýběrový t-test, abychom ji porovnali ve dvojicích skupin 1-2, 1-3, 2-3, 2-4, 3-4 a zjistíme, zda vypočtené p-hodnoty jsou menší nebo rovny korigované hladině významnosti ( ) 0021,02405,0 2 1rpr == − α . Vypočtené p-hodnoty máme v tabulce: skóre H skóre PS skóre O skóre G ND x NnD 0,3109 0,0861 0,6592 0,0096 ND x PD 0,3469 0,3508 0,2839 0,0554 ND x PnD 0,7597 0,2118 0,1058 0,0006 NnD x PD 0,7330 0,4920 0,0604 0,4176 NnD x PnD 0,2191 0,2996 0,1116 0,4347 PD x PnD 0,4914 0,9833 0,0006 0,1149 Na základě této tabulky můžeme konstatovat, že: - nadaní dyslektici a průměrní nedyslektici se liší ve skóre G (nadaní dyslektici vykazují vyšší potřebu poznání než průměrní studenti bez dyslexie) - průměrní dyslektici a průměrní nedyslektici se liší ve skóre O (průměrní dyslektici mají nižší schopnost udržovat pořádek a řád ve vlastních věcech než průměrní studenti bez dyslexie). Grafické znázornění rozdílů mezi sledovanými proměnnými v rámci čtyř skupin studentů: Grafy – 2D grafy – Grafy průměrů s odchylkami – Typ grafu Vícenásobný – Proměnné – Závislé prom.: skoreH, skorePS, skoreO, skorec – Grupovací prom.: ID – OK Graf průměru z více proměnných seskupený ID psychologie.sta 7v*166c Průměr; Svorka: Průměr±0,95 Int. spolehl. skoreH skorePS skoreO skoreG nadany dyslektik nadany nedyslektik prumerny dyslektik prumerny nedyslektik ID -10 -5 0 5 10 15 20 25 30 35 Závěr: Test hypotézy o shodě vektorů středních hodnot prokázal, že s rizikem omylu nejvýše 5 % existují odlišnosti mezi čtyřmi skupinami studentů z hlediska vědomí vlastní účinnosti, osobních standardů, organizovanosti a potřeby poznávání. Simultánní testy o složkách vektorů středních hodnot ukázaly, že rozdíly mezi skupinami jsou zapříčiněny nějakou lineární kombinací sledovaných čtyř proměnných. Pomocí vícerozměrné analogie mnohonásobného porovnávání jsme zjistili, že se odlišují nadaní dyslektici a průměrní studenti bez dyslexie a také průměrní studenti bez dyslexie a s dyslexií. Simultánní testy v mnohonásobném porovnávání odhalily, že nadaní dyslektici vykazují vyšší potřebu poznání než průměrní studenti bez dyslexie a průměrní dyslektici mají nižší schopnost udržovat pořádek a řád ve vlastních věcech než průměrní studenti bez dyslexie.