Cvičení 1: Vícerozměrné t-testy
Příklad na vícerozměrný jednovýběrový t-test
Podle údajů na obalu má rybí konzerva obsahovat 55 g masa, 30 g zeleniny a 15 g oleje.
Náhodně bylo vybráno 10 konzerv a v každé z nich byla zjištěna hmotnost masa (proměnná
X1), hmotnost zeleniny (proměnná X2) a hmotnost oleje (proměnná X3). Získané údaje jsou
uloženy v souboru rybi_konzervy.sta.
Úkol 1.: Vypočtěte vektor výběrových průměrů M a výběrovou varianční matici S.
Řešení:
Výpočet vektoru M: Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty &
klasifikační analýza - Proměnné X1, X2, X3 – OK – OK – záložka Popisné statistiky Shrnutí
popisných statistik
Souhrn. statistiky (rybi_konzervy.sta)
Proměnná Průměr Sm. Odch.
X1
X2
X3
53,18000 0,576965
31,40000 1,675974
14,95000 0,447834
Výpočet matice S: Návrat do výsledky hlavních komponent – Kovarianční matice
Kovariance (rybi_konzervy.sta)
Proměnná X1 X2 X3
X1
X2
X3
0,332889 -0,408889 -0,032222
-0,408889 2,808889 0,307778
-0,032222 0,307778 0,200556
Komentář: Ve zkoumaných 10 konzervách je v průměru o něco méně masa a oleje než jsou
deklarované hodnoty, zato více zeleniny. Dále vidíme, že s klesajícím podílem masa roste
podíl zeleniny a podíl oleje. S rostoucím podílem zeleniny roste i podíl oleje. Největší
variabilitu vykazuje zelenina, menší maso a nejmenší olej.
Úkol 2.: Na hladině významnosti 0,05 testujte hypotézu, že proměnné X1, X2, X3 se řídí
normálním rozložením. Vytvořte normální pravděpodobnostní grafy.
Řešení:
Grafy – 2D grafy – Normální pravděpodobnostní grafy – Proměnné X1, X2, X3 – OK zaškrtneme
S-W test a Více grafů v jednom obrázku – OK
Normální p-graf z X1
rybi_konzervy.sta 6v*10c
X1
X2
X3
10 15 20 25 30 35 40 45 50 55 60
Pozorovaný kvantil
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
Oček.normál.hodnoty
X1: SW-W = 0,9033; p = 0,2380
X2: SW-W = 0,9138; p = 0,3079
X3: SW-W = 0,9165; p = 0,3283
Komentář: S-W test ani v jednom případě nezamítá hypotézu o normalitě dat na hladině
významnosti 0,05. Rovněž tečky v N-P grafech leží v těsné blízkosti ideální přímky. Data
budeme tedy považovat z realizace výběru z třírozměrného normálního rozložení.
Úkol 3.: Na hladině významnosti 0,05 testujte hypotézu H0:










=










µ
µ
µ
15
30
55
3
2
1
proti alternativě H1:










≠










µ
µ
µ
15
30
55
3
2
1
.
Řešení:
Statistiky – Základní statistiky a tabulky – t-test. samost. Vzorek – OK – Proměnné X1, X2,
X3 – OK – záložka Možnosti – zvolíme Test průměrů vůči různým volitelným konstantám
Specif. X1: 55, X2: 30, X3: 15 – OK – zaškrtneme Vícerozměrný test (Hotellingovo T2
) –
Výpočet
Test průměrů vůči referenční konstantě (hodnotě) (rybi_konzervy.sta)
T2(celé případy ChD)=103,532 F(3,7)=26,842 p<,00033
Proměnná
Průměr Sm.odch. N Sm.chyba Referenční
konstanta
t SV p
X1
X2
X3
53,18000 0,576965 10 0,182452 55,00000 -9,97520 9 0,000004
31,40000 1,675974 10 0,529990 30,00000 2,64156 9 0,026845
14,95000 0,447834 10 0,141618 15,00000 -0,35306 9 0,732169
Komentář: Testová statistika vícerozměrného jednovýběrového t-testu se realizuje hodnotou
103,532, odpovídající p-hodnota je 0,00033, tedy na hladině významnosti 0,05 považujeme za
prokázané, že složení konzerv neodpovídá údajům na obalu.
Úkol 4.: Zjistěte, vzhledem ke kterým složkám vektoru μ byla nulová hypotéza zamítnuta, tj.
simultánně testujte H01: μ1 = 55, H02: μ2 = 30, H03: μ3 = 15 proti H11: μ1 ≠ 55, H12: μ2 ≠ 30,
H13: μ3 ≠ 15.
Řešení:
Použijeme 3 jednovýběrové t-testy, kde hladinu významnosti α = 0,05 upravíme pomocí
Bonferroniho korekce. H0j zamítneme na hladině významnosti α = 0,05, když vypočtená phodnota
bude menší nebo rovna 017,0
3
05,0
čet testůpo
==
α
.
Podíváme-li se na tabulku uvedenou u úkolu 3, vidíme, že vícerozměrná hypotéza byla
zamítnuta kvůli první složce, tj. kvůli podílu masa. U zeleniny a oleje se neprokázala
odlišnost od deklarovaných hodnot.
Příklad na vícerozměrný dvouvýběrový t-test
V rámci předběžných úvah o způsobu zpracování tuhého komunálního odpadu byl analyzován
obsah 24 náhodně vybraných kontejnerů umístěných v centrální zástavbě, která je vytápěna
převážně dálkovým topením a obsah 28 náhodně vybraných kontejnerů ve smíšené zástavbě,
kde se vedle dálkového topení hojně vyskytují i lokální topeniště. Byly zjišťovány hodnoty
pěti proměnných:
X1 … měrná hmotnost
X2 … podíl hrubé frakce (zůstává v sítu s oky 40 mm)
X3 … podíl jemné frakce (propadá sítem s oky 8 mm)
X4 … vlhkost (v promile)
X5 … výhřevnost (v kJ/kg)
Výsledky analýz jsou uloženy v datovém souboru slozeni_komunalni_odpad.sta.
Úkol 1.: V obou skupinách vypočtěte průměry a směrodatné odchylky proměnných X1, X2,
X3, X4, X5. Vytvořte krabicové grafy proměnné Xi obou skupinách, i = 1, 2, 3, 4, 5.
Řešení: Statistiky – Základní statistiky a tabulky – Popisné statistiky – OK – Proměnné X1,
X2, X3, X4, X5 – OK – Anal. skupin – zaškrtneme Zapnuto a Sloučit tabulkové výsledky
v jedné tabulce a zrušíme Výsledky za všech. skupiny – zadáme Skupin. proměnná ID – OK –
Detailní výsledky – zrušíme Minimum a maximum – Výpočet
Souhrnné výsledky
Popisné statistiky (slozeni_komunalni_odpad.sta)
Proměnná ID N platných Průměr Sm.odch.
X1
X2
X3
X4
X5
X1
X2
X3
X4
X5
centralni zastavba 24 298,7500 53,0228
centralni zastavba 24 671,3750 102,0672
centralni zastavba 24 90,5000 58,8565
centralni zastavba 24 269,2083 59,3816
centralni zastavba 24 934,3333 206,9185
smisena zastavba 28 384,2857 68,8223
smisena zastavba 28 572,5714 110,6250
smisena zastavba 28 192,8571 83,7747
smisena zastavba 28 187,6429 59,6733
smisena zastavba 28 766,0357 148,0639
Komentář: Ve smíšené zástavbě je v průměru vyšší měrná hmotnost odpadu a vyšší podíl
jemné frakce, u podílu hrubé frakce, výhřevnosti a vlhkosti je tomu naopak.
Grafy – 2D grafy – Krabicové grafy – Typ grafu: Vícenásobný – Proměnné – Závisle
proměnné X1 – Grupovací proměnná ID – Detaily – Střední bod – Průměr – v části
Krabicový zvolíme Hodn.: SmCh, v části Svorka zvolíme Hodn.: SmCh, koeficient 1,96 Odlehlé
hodnoty – Vypnuto – OK
Tentýž postup zopakujeme pro proměnné X2, X3, X4, X5.
Krabicový graf z X1 seskupený ID
slozeni_komunalni_odpad.sta 6v*52c
Průměr
Průměr±SmCh
Průměr±1,96*SmCh
centralni zastavba smisena zastavba
ID
260
280
300
320
340
360
380
400
420
X1
Krabicový graf z X2 seskupený ID
slozeni_komunalni_odpad.sta 6v*52c
Průměr
Průměr±SmCh
Průměr±1,96*SmCh
centralni zastavba smisena zastavba
ID
520
540
560
580
600
620
640
660
680
700
720
X2
Krabicový graf z X3 seskupený ID
slozeni_komunalni_odpad.sta 6v*52c
Průměr
Průměr±SmCh
Průměr±1,96*SmCh
centralni zastavba smisena zastavba
ID
60
80
100
120
140
160
180
200
220
240
X3
Krabicový graf z X4 seskupený ID
slozeni_komunalni_odpad.sta 6v*52c
Průměr
Průměr±SmCh
Průměr±1,96*SmCh
centralni zastavba smisena zastavba
ID
160
180
200
220
240
260
280
300
X4
Krabicový graf z X5 seskupený ID
slozeni_komunalni_odpad.sta 6v*52c
Průměr
Průměr±SmCh
Průměr±1,96*SmCh
centralni zastavba smisena zastavba
ID
650
700
750
800
850
900
950
1000
1050
X5
Úkol 2.: Na hladině významnosti 0,05 testujte hypotézu, že proměnné X1, X2, X3, X4, X5 se
v obou skupinách řídí normálním rozložením.
Řešení: Statistiky – Základní statistiky a tabulky – Tabulky četností – OK - X1, X2, X3, X4 –
OK - Anal. skupin – zaškrtneme Zapnuto a Sloučit tabulkové výsledky v jedné tabulce a
zrušíme Výsledky za všech. skupiny – zadáme Skupin. proměnná ID – OK – OK – záložka
Normalita – zaškrtneme S-W test a zrušíme K-S test – Testy normality
Souhrnné výsledky
Testy normality (slozeni_komunalni_odpad.sta)
Proměnná
ID N max D Lilliefors
p
W p
X1: merna hmotnost
X2: podil hrube frakce
X3: podil jemne frakce
X4: vlhkost (v promile)
X5: vyhrevnost (v kJ/kg)
X1: merna hmotnost
X2: podil hrube frakce
X3: podil jemne frakce
X4: vlhkost (v promile)
X5: vyhrevnost (v kJ/kg)
centralni zastavba 24 0,096522 p > .20 0,974771 0,783707
centralni zastavba 24 0,174723 p < ,10 0,924437 0,073260
centralni zastavba 24 0,136194 p > .20 0,927926 0,087624
centralni zastavba 24 0,149222 p < ,20 0,945015 0,210778
centralni zastavba 24 0,134568 p > .20 0,957839 0,396561
smisena zastavba 28 0,140229 p < ,15 0,945321 0,150917
smisena zastavba 28 0,130313 p > .20 0,954143 0,251352
smisena zastavba 28 0,149243 p < ,10 0,954354 0,254385
smisena zastavba 28 0,151968 p < ,10 0,937937 0,097953
smisena zastavba 28 0,160347 p < ,10 0,930071 0,061903
Komentář: Ani v jednom případě nebyla hypotéza o normalitě zamítnuta na hladině
významnosti 0,05.
Úkol 3.: Na hladině významnosti 0,05 testujte hypotézu, že varianční matice proměnných X1,
X2, X3, X4, X5 jsou v obou skupinách shodné.
Řešení: Statistiky – ANOVA – Jednofaktorová ANOVA – OK – Proměnné – Seznam
závislých proměnných X1, X2, X3, X4, X5 - Kategor. nezávislá proměnná (faktor) ID – OK –
OK – Více výsledků – záložka Předpoklady – Boxův M test
Boxův M test (slozeni_komunalni_odpad.sta)
Efekt: "ID"
(Vypočteno pro všechny proměnné)
Boxovo M Chí-kv. SV p
Boxovo M 19,96967 17,82128 15 0,272178
Komentář: p-hodnota je 0,2722, což je větší než 0,05, tedy dále budeme varianční matice pro
centrální zástavbu a pro smíšenou zástavbu považovat za shodné.
Lze konstatovat, že důležité předpoklady vícerozměrného dvouvýběrového t-testu jsou
splněny.
Úkol 4.: Na hladině významnosti 0,05 testujte hypotézu, že vektory středních hodnoty
proměnných X1, X2, X3, X4, X5 jsou v obou skupinách shodné.
Řešení: Statistiky – Základní statistiky a tabulky – t-test, nezávislé, dle skupin – OK –
Proměnné – Závisle proměnné X1, X2, X3, X4, X5, Grupovací proměnná ID – OK – na
záložce Možnosti zaškrtneme Vícerozměrný test (Hotellingovo T2
) – Výpočet
t-testy; grupováno:ID (slozeni_komunalni_odpad.sta)
Skup. 1: centralni zastavba; Skup. 2: smisena zastavba
Hotellingovo 79,1167 F(5,46)=14,557 p<,00000
Proměnná
Průměr
centralni
zastavba
Průměr
smisena
zastavba
t sv p Poč.plat
centralni
zastavba
Poč.plat.
smisena
zastavba
Sm.odch.
centralni
zastavba
Sm.odch.
smisena
zastavba
F-poměr
Rozptyly
p
Rozptyly
X1
X2
X3
X4
X5
298,7500 384,2857 -4,95502 50 0,000009 24 28 53,0228 68,8223 1,684743 0,207528
671,3750 572,5714 3,32653 50 0,001654 24 28 102,0672 110,6250 1,174718 0,699898
90,5000 192,8571 -5,01506 50 0,000007 24 28 58,8565 83,7747 2,025989 0,089454
269,2083 187,6429 4,92477 50 0,000010 24 28 59,3816 59,6733 1,009850 0,989295
934,3333 766,0357 3,40703 50 0,001304 24 28 206,9185 148,0639 1,952991 0,096578
Komentář: Testová statistika vícerozměrného dvouvýběrového t-testu nabývá hodnoty
79,1167, odpovídající p-hodnota je velmi blízká 0, tedy na hladině významnosti 0,05
zamítáme hypotézu, že vektory středních hodnot proměnných X1, X2, X3, X4, X5 jsou v
obou skupinách shodné. S rizikem omylu nejvýše 5 % jsme tedy prokázali, že mezi centrální
zástavbou a smíšenou zástavbou existuje rozdíl z hlediska složení komunálního odpadu.
Úkol 5.: Pomocí simultánních testů zjistěte, které složky vektorů středních hodnot
proměnných X1, X2, X3, X4, X5 v centrální a smíšené zástavbě se liší na hladině
významnosti 0,05.
Řešení: Simultánní testy založené na statistice
( )
( )
2
j*
2
j2j121
j0
S
MM
n
nn
2np
1pn
T
−
⋅⋅
−
−−
=
STATISTICA neposkytuje. (V našem případě n = 52, p = 5, n1 = 24, n2 = 28, tedy
( ) 1300
30912
n
nn
2np
1pn 21
=⋅
−
−−
.) S pomocí STATISTIKY však můžeme vypočítat vektory
výběrových průměrů a směrodatných odchylek – viz tabulku v úkolu 4. V této tabulce
ponecháme pouze proměnné obsahující průměry a směrodatné odchylky. Dále za poslední
proměnnou vložíme dvě nové proměnné T0j a kvantil. Do Dlouhého jména proměnné T0j
napíšeme:
=(30912/13000)*(v1-v2)^2/((23*v3^2+27*v4^2)/50)
Do Dlouhého jména proměnné kvantil napíšeme:
=VF(0,95;5;46)
t-testy; grupováno:ID (slozeni_komunalni_odpad.sta)
Skup. 1: centralni zastavba; Skup. 2: smisena zastavba
Hotellingovo 79,1167 F(5,46)=14,557 p<,00000
Proměnná
Průměr
centralni zastavba
Průměr
smisena zastavba
Sm.odch.
centralni zastavba
Sm.odch.
smisena zastavba
T0j
=(30912/13
kvantil
=VF(0,95;5
X1
X2
X3
X4
X5
298,7500 384,2857 53,0228 68,8223 4,51761518 2,41735604
671,3750 572,5714 102,0672 110,6250 2,03610872 2,41735604
90,5000 192,8571 58,8565 83,7747 4,62775957 2,41735604
269,2083 187,6429 59,3816 59,6733 4,46261189 2,41735604
934,3333 766,0357 206,9185 148,0639 2,13584049 2,41735604
Komentář: Vidíme, že statistiky T01, T03 a T04 se realizují v kritickém oboru
)∞= ;4174,2W . S rizikem omylu nejvýše 5 % jsme tedy prokázali, že centrální a smíšená
zástavba se liší v měrné hmotnosti, podílu jemné frakce a vlhkosti komunálního odpadu.