Cvičení 2: Vícerozměrná jednofaktorová analýza rozptylu (MANOVA) Na 45 vzorcích rudy pocházejících ze tří ložisek byly zjištěny hodnoty těchto čtyř proměnných: X1 … obsah vanadu v popelu (v promile) X2 … obsah železa v popelu (v promile) X3 … obsah nasycených uhlovodíků (v setinách procenta) X4 … obsah aromatických uhlovodíků (v setinách procenta) Data jsou uložena v souboru ropa. sta. Úkol 1.: Ve všech třech skupinách vypočtěte průměry a směrodatné odchylky proměnných X1, X2, X3, X4. Zjistěte rovněž rozsahy skupin. Vytvořte krabicové grafy proměnné Xi ve všech třech skupinách, i = 1, 2, 3, 4. Řešení: Statistiky – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X1, X2, X3, X4 – OK – Anal. skupin – zaškrtneme Zapnuto a Sloučit tabulkové výsledky v jedné tabulce a zrušíme Výsledky za všech. skupiny – zadáme Skupin. proměnná ID – OK – Detailní výsledky – zrušíme Minimum a maximum – Výpočet Souhrnné výsledky Popisné statistiky (ropa.sta) Proměnná ID N platných Průměr Sm.odch. X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 1 7 36,571 15,6403 1 7 38,714 7,6966 1 7 679,571 141,4318 1 7 1082,571 226,1260 2 8 50,6250 18,0471 2 8 35,7500 9,5581 2 8 653,2500 90,2754 2 8 518,1250 346,3580 3 30 76,5333 14,9406 3 30 21,4667 5,8882 3 30 457,4667 95,2430 3 30 614,8667 230,5085 Komentář: Počty vzorků z jednotlivých nalezišť se liší. Zatímco z 1. a 2. naleziště bylo odebráno 7 a 8 vzorků, ze třetího pak 30 vzorků. Obsah vanadu je nejmenší na 1. nalezišti a největší na 3. nalezišti. U obsahu železa je tomu naopak – nejvíce železa je ve vzorcích z 1. naleziště, naopak nejméně je ho na 3. nalezišti. Obsah nasycených uhlovodíků se u 1. a 2. naleziště liší jen málo, na 3. nalezišti je nejnižší. Obsah aromatických uhlovodíků je největší na 1. nalezišti, nejmenší na 2. nalezišti. Nejvariabilnější obsah vanadu je ve vzorcích z 2. naleziště, naopak nejstabilnější je ve vzorcích z 3. naleziště. Obsah železa nejvíce kolísá u vzorků 2. naleziště, největší stabilitu obsahu železa vykazují vzorky ze 3. naleziště. U nasycených uhlovodíků pozorujeme největší variabilitu u vzorků z 1. naleziště, nejmenší u vzorků z 2. naleziště. Variabilita obsahu aromatických uhlovodíků je u vzorků z 1. a 3. naleziště podobná, největší je u vzorků z 2. naleziště. Grafy – 2D grafy – Krabicové grafy – Typ grafu: Vícenásobný – Proměnné – Závisle proměnné X1 – Grupovací proměnná ID – Detaily – Střední bod – Průměr – Odlehlé hodnoty – Vypnuto – OK Tentýž postup zopakujeme pro proměnné X2, X3, X4. Krabicový graf z X1 seskupený ID ropa.sta 5v*45c Průměr Průměr±SmCh Průměr±2*SmOdch 1 2 3 ID 0 20 40 60 80 100 120 X1 Krabicový graf z X2 seskupený ID ropa.sta 5v*45c Průměr Průměr±SmCh Průměr±2*SmOdch 1 2 3 ID 0 10 20 30 40 50 60 X2 Krabicový graf z X3 seskupený ID ropa.sta 5v*45c Průměr Průměr±SmCh Průměr±2*SmOdch 1 2 3 ID 200 300 400 500 600 700 800 900 1000 X3 Krabicový graf z X4 seskupený ID ropa.sta 5v*45c Průměr Průměr±SmCh Průměr±2*SmOdch 1 2 3 ID -400 -200 0 200 400 600 800 1000 1200 1400 1600 1800 X4 Úkol 2.: Na hladině významnosti 0,05 testujte hypotézu, že proměnné X1, X2, X3, X4 se ve všech třech skupinách řídí normálním rozložením. Řešení: Statistiky – Základní statistiky a tabulky – Tabulky četností – OK – Proměnné X1, X2, X3, X4 – OK - Anal. skupin – zaškrtneme Zapnuto a Sloučit tabulkové výsledky v jedné tabulce a zrušíme Výsledky za všech. skupiny – zadáme Skupin. proměnná ID – OK – OK – záložka Normalita – zaškrtneme S-W test a zrušíme K-S test – Testy normality Souhrnné výsledky Testy normality (ropa.sta) Proměnná ID N max D Lilliefors p W p X1: vanad (v promile) X2: zelezo (v promile) X3: nasyc. uhlovodiky (v des. promile) X4: arom uhlovodiky (v des. promile) X1: vanad (v promile) X2: zelezo (v promile) X3: nasyc. uhlovodiky (v des. promile) X4: arom uhlovodiky (v des. promile) X1: vanad (v promile) X2: zelezo (v promile) X3: nasyc. uhlovodiky (v des. promile) X4: arom uhlovodiky (v des. promile) 1 7 0,279595 p < ,10 0,837889 0,094950 1 7 0,256734 p < ,20 0,894783 0,300555 1 7 0,164851 p > .20 0,944596 0,680404 1 7 0,218850 p > .20 0,886488 0,256840 2 8 0,268226 p < ,10 0,812765 0,039143 2 8 0,222404 p > .20 0,916727 0,403873 2 8 0,222340 p > .20 0,891501 0,241660 2 8 0,270404 p < ,10 0,798241 0,027410 3 30 0,114117 p > .20 0,955701 0,239602 3 30 0,165019 p < ,05 0,939091 0,085977 3 30 0,189553 p < ,01 0,884710 0,003623 3 30 0,115612 p > .20 0,954858 0,227664 Komentář: Lilieforsův test zamítá na hladině významnosti 0,05 hypotézu o normalitě obsahu železa a obsahu nasycených uhlovodíků u vzorků ze 3. naleziště. S-W test zamítá na hladině významnosti 0,05 hypotézu o normalitě obsahu vanadu a aromatických uhlovodíků u vzorků z 2. naleziště a také obsahu nasycených uhlovodíků u vzorků ze 3. naleziště. Normalita je však porušena jen mírně. Nedopustíme s závažné chyby, budeme-li předpokládat, že datová matice je realizací výběru ze čtyřrozměrného normálního rozložení. Úkol 3.: Na hladině významnosti 0,05 testujte hypotézu, že varianční matice proměnných X1, X2, X3, X4 jsou ve všech třech skupinách shodné. Řešení: Statistiky – ANOVA – Jednofaktorová ANOVA – OK – Proměnné – Seznam, závislých proměnných X1, X2, X3, X4 - Kategor. nezávislá proměnná (faktor) ID – OK – OK – Více výsledků – záložka Předpoklady – Boxův M test Boxův M test (ropa.sta) Efekt: ID (Vypočteno pro všechny proměnné) Boxovo M Chí-kv. SV p Boxovo M 35,34766 27,23627 20 0,128747 Komentář: Test shody tří variančních matic poskytl p-hodnotu 0,1287, což je větší než 0,05, tedy dále budeme varianční matice považovat za shodné. Lze konstatovat, že důležité předpoklady vícerozměrné analýzy rozptylu jsou splněny. Úkol 4.: Pomocí maticových grafů prověřte, že vztahy mezi proměnnými X1, X2, X3, X4 jsou ve všech třech skupinách přibližně lineární. Řešení: Grafy – Maticové grafy - Proměnné X1, X2, X3, X4 – OK – Filtr případů – Zapnout filtr ID=1 – OK – OK (Analogicky pro 2. a 3. naleziště, zadáme ID=2 resp. ID=3) Maticový graf ropa.sta 5v*45c Zahrnout jestliže: ID=1 X1X3X4 X1 X2 X3 X4 Vidíme, že pro vzorky ropy z 1. naleziště je v některých případech linearita porušená. Podobně to dopadne i pro data z 2. a 3. naleziště. Musíme si být vědomi toho, že výskyt nelinearit snižuje sílu testů v MANOVĚ. Úkol 5.: Na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty proměnných X1, X2, X3, X4 jsou ve všech třech skupinách shodné. Použijte Wilksův, Pillaiův, Hotellingův – Lawleův a Royův test. Řešení: Návrat do ANOVA – záložka Detaily – zaškrtneme vš. Vícerozměrné testy – Test všech efektů Vícerozměrné testy významnosti. (ropa.sta) Sigma-omezená parametrizace Dekompozice efektivní hypotézy Efekt Test Hodnota F Efekt SV Chyba SV p Abs. člen ID Wilksův 0,01616 593,4657 4 39 0,000000 Pillaiův 0,98384 593,4657 4 39 0,000000 Hotellng 60,86828 593,4657 4 39 0,000000 Royův 60,86828 593,4657 4 39 0,000000 Wilksův 0,17959 13,2570 8 78 0,000000 Pillaiův 1,08176 11,7808 8 80 0,000000 Hotellng 3,11290 14,7863 8 76 0,000000 Royův 2,53997 25,3997 4 40 0,000000 Komentář: Všechny čtyři testy zamítají na hladině významnosti 0,05 hypotézu, že střední hodnoty proměnných X1, X2, X3, X4 jsou ve všech třech skupinách shodné. S rizikem omylu nejvýše 5 % jsme tedy prokázali, že aspoň mezi dvěma nalezišti existuje rozdíl z hlediska obsahu sledovaných látek. Úkol 6.: Pomocí simultánního testu založeného na Wilksově statistice testujte na hladině významnosti 0,05 hypotézu, že proměnné X1, X2, X3, X4 nezpůsobují rozdíly mezi skupinami. Řešení: Simultánní testy STATISTICA neposkytuje. Můžeme však s její pomocí vypočítat matici E reziduální variability a matici T celkové variability. Z těchto matic použijeme diagonální prvky pro výpočet všech čtyř testových statistik jj jj j t e ln1 2 rp nK       − + −−= , j = 1, 2, 3, 4. Platí-li nulová hypotéza, Kj se asymptoticky řídí rozložením ( )( )1rp2 −χ . Nulovou hypotézu o proměnné Xj tedy zamítneme na asymptotické hladině významnosti α, když ( )( ) )∞−χ∈ α− ,1rpK 1 2 j . V našem případě n = 45, p = 4, r = 3. Výpočet matice E reziduální variability: Návrat do ANOVA – záložka Matice – v části ozn. Meziskupinové efekty vybereme SČ chyb. Matice SSCP (Z' Z) reziduí (ropa.sta) Sigma-omezená parametrizace Dekompozice efektivní hypotézy Efekt proměnné X1 X2 X3 X4 Chyba X1 10221,1 -1826,1 -16205,0 47988 X2 -1826,1 2000,4 9266,1 -15263 X3 -16205,0 9266,1 440130,7 403609 X4 47988,2 -15262,7 403609,3 2687436 Výpočet matice T celkové variability (je to matice v pravém dolním rohu): Návrat do ANOVA – záložka Matice – v části ozn. Meziskupinové schéma vybereme Z’Z odchylek. Matice SSCP (Z' Z) odchylek (ropa.sta) Matice SSCP (Z' Z) odchylek vektorů matice v matici schématu X Efekt Úroveň Sloupec Efekt (P/N) Sloup.1 Abs.člen Sloup.2 ID Sloup.3 ID Sloup.4 X1 Sloup.5 X2 Sloup.6 X3 Sloup.7 X4 Abs. člen ID ID X1 X2 X3 X4 1 Pevný 1 2 Pevný 25,244 18,756 -528,6 240,84 3149,9 4552 2 3 Pevný 18,756 27,244 -445,4 229,16 3092,1 448 4 -528,644 -445,356 21499,2 -7068,04 -85138,3 -35738 5 240,844 229,156 -7068,0 4487,64 42154,5 17095 6 3149,911 3092,089 -85138,3 42154,51 875634,6 805853 7 4551,711 448,289 -35737,5 17094,91 805853,4 4154653 K dalším výpočtům použijeme STATISTIKU jako inteligentní kalkulačku. Otevřeme nový datový soubor o jednom případu a s pěti proměnnými K1, K2, K3, K4 a kvantil. Do Dlouhého jména proměnné K1 napíšeme: =-40,5*log(10221,1/21499,2) Do Dlouhého jména proměnné K2 napíšeme: =-40,5*log(2000,4/4487,64) Do Dlouhého jména proměnné K3 napíšeme: =-40,5*log(440130,7/875634,6) Do Dlouhého jména proměnné K4 napíšeme: =-40,5*log(2687436/4154653) Proměnná kvantil obsahuje kvantil ( )895,0 2 χ , tedy do jejího Dlouhého jména napíšeme: =VChi2(0,95;8) Vypočtené testové statistiky pro simultánní testy a kritická hodnota: 1 K1 2 K2 3 K3 4 K4 5 kvantil 1 30,114241 32,723182 27,859025 17,643474 15,507313 Komentář: Vidíme, že všechny čtyři statistiky se realizují v kritickém oboru )∞= ,5073,15W . S rizikem omylu nejvýše 5 % jsme tedy prokázali, že všechna tři naleziště se liší v obsahu všech čtyř zkoumaných látek. Úkol 7.: Na hladině významnosti 0,05 proveďte vícerozměrnou obdobu mnohonásobného porovnávání, tj. zjistěte, které dvojice skupin se liší. Řešení: Vícenásobnou obdobu mnohonásobného porovnávání STATISTICA neposkytuje. Problém vyřešíme tak, že provedeme všechna tři porovnání (1-2, 1-3, 2-3) pomocí vícerozměrného dvouvýběrového t-testu založeného na Hotellingově statistice T2 a získané phodnoty porovnáme s hladinou významnosti korigovanou podle Bonferroniho, tj. s číslem 601,0 3 05,0 2 3 ==       α . Statistiky – Základní statistiky a tabulky – t-test, nezávislé, dle skupin – OK – Proměnné – Závisle proměnné X1, X2, X3, X4 – Grupovací proměnná ID – OK – Kód pro skup. 1: 1, Kód pro skup. 2: 2 – na záložce Možnosti zaškrtneme Vícerozměrný test (Hotellingovo T2 ) - Výpočet Výsledek pro 1. a 2. skupinu: t-testy; grupováno: ID: naleziste (ropa.sta) Skup. 1: 1; Skup. 2: 2 Hotellingovo 45,6734 F(4,10)=8,7833 p<,00261 Proměnná Průměr 1 Průměr 2 t sv p Poč.plat 1 Poč.plat. 2 Sm.odch. 1 Sm.odch. 2 F-poměr Rozptyly p Rozptyly X1 X2 X3 X4 36,571 50,6250 -1,59930 13 0,133764 7 8 15,6403 18,0471 1,331443 0,743087 38,714 35,7500 0,65470 13 0,524074 7 8 7,6966 9,5581 1,542203 0,613888 679,571 653,2500 0,43578 13 0,670148 7 8 141,4318 90,2754 2,454458 0,265396 1082,571 518,1250 3,67238 13 0,002814 7 8 226,1260 346,3580 2,346116 0,318519 Vypočtenou p-hodnotu (tj. 0,00261) porovnáme s 601,0 . Vidíme, že 1. a 2. skupina se liší. Výsledek pro 1. a 3. skupinu t-testy; grupováno: ID: naleziste (ropa.sta) Skup. 1: 1; Skup. 2: 3 Hotellingovo 125,397 F(4,32)=28,662 p<,00000 Proměnná Průměr 1 Průměr 3 t sv p Poč.plat 1 Poč.plat. 3 Sm.odch. 1 Sm.odch. 3 F-poměr Rozptyly p Rozptyly X1 X2 X3 X4 36,571 76,5333 -6,32043 35 0,000000 7 30 15,6403 14,9406 1,095851 0,776819 38,714 21,4667 6,58961 35 0,000000 7 30 7,6966 5,8882 1,708565 0,309137 679,571 457,4667 5,05771 35 0,000013 7 30 141,4318 95,2430 2,205100 0,142430 1082,571 614,8667 4,84954 35 0,000025 7 30 226,1260 230,5085 1,039138 1,000000 I v tomto případě nulovou hypotézu zamítáme na hladině významnosti 0,05. Výsledek pro 2. a 3. skupinu: t-testy; grupováno: ID: naleziste (ropa.sta) Skup. 1: 2; Skup. 2: 3 Hotellingovo 44,5444 F(4,33)=10,208 p<,00002 Proměnná Průměr 2 Průměr 3 t sv p Poč.plat 2 Poč.plat. 3 Sm.odch. 2 Sm.odch. 3 F-poměr Rozptyly p Rozptyly X1 X2 X3 X4 50,6250 76,5333 -4,17559 36 0,000180 8 30 18,0471 14,9406 1,459063 0,441637 35,7500 21,4667 5,31026 36 0,000006 8 30 9,5581 5,8882 2,634953 0,061803 653,2500 457,4667 5,21782 36 0,000008 8 30 90,2754 95,2430 1,113082 0,958255 518,1250 614,8667 -0,94544 36 0,350739 8 30 346,3580 230,5085 2,257752 0,116036 Vidíme, že i 2. a 3. skupina se liší na hladině významnosti 0,05. Úkol 8.: Na hladině významnosti 0,05 zjistěte, které proměnné způsobují rozdíly mezi jednotlivými dvojicemi skupin. (Těchto testů je nutno provést ( ) 2 1rpr − , v našem případě tedy ( ) 12 2 1334 = −⋅ .) Řešení: Posouzení rozdílů mezi jednotlivými proměnnými v rámci skupin STATISTICA neposkytuje. Pro každou proměnnou tedy provedeme dvouvýběrový t-test, abychom ji porovnali ve dvojicích skupin 1-2, 1-3, 2-3 a zjistíme, zda vypočtené p-hodnoty jsou menší nebo rovny korigované hladině významnosti 0042,0 12 05,0 = . Podíváme-li se na tabulky v úkolu 7, můžeme konstatovat, že: - naleziště 1 a 2 se liší pouze v obsahu aromatických uhlovodíků - naleziště 1 a 3 se liší v obsahu všech čtyř látek - naleziště 2 a 3 se neliší pouze v obsahu aromatických uhlovodíků.