Osnova přednášky Vícerozměrné analogie t-testů
I. Úlohy o jednom náhodném výběru z vícerozměrného rozložení
1. Charakteristiky p-rozměrného rozložení
2. Odhady charakteristik p-rozměrného rozložení
3. Základní poznatky o p-rozměrném normálním rozložení
4. Náhodný výběr z p-rozměrného normálního rozložení
5. Test hypotézy o vektoru středních hodnot
Příklad na vícerozměrný jednovýběrový t-test
6. Test hypotézy o úplné nezávislosti sledovaných proměnných
Příklad na test hypotézy o úplné nezávislosti sledovaných proměnných
II. Úlohy o dvou nezávislých náhodných výběrech z vícerozměrného
rozložení
1. Test hypotézy o rozdílu vektorů středních hodnot
2. Test hypotézy o shodě variančních matic
3. Příklad na Hotellingův T2
test
Vícerozměrné analogie t-testů
I. Úlohy o jednom náhodném výběru z vícerozměrného rozložení
1. Charakteristiky p-rozměrného rozložení
Náhodný vektor










=
p
1
X
X
MX pochází z p-rozměrného rozložení s vektorem středních hodnot










µ
µ
=
p
1
Mµ , varianční maticí
( ) ( ) ( )
( ) ( ) ( ) 









σσσ
σσσ
=










==
2
p2p1p
p112
2
1
p1p1p
p1211
XDX,XCX,XC
X,XCX,XCXD
var
K
KKKK
K
K
KKKK
K
ΣX ,
a korelační maticí
( ) ( )
( ) ( ) 









ρρ
ρρ
=










==
1
1
1X,XRX,XR
X,XRX,XR1
cor
2p1p
p112
1p1p
p121
K
KKKK
K
K
KKKK
K
ρX .
(Matice var X, cor X jsou symetrické, cor X se dá vypočítat z var X:
kj
jk
jk
σσ
σ
=ρ .)
Počet charakteristik p-rozměrného rozložení tedy je:
p středních hodnot,
p rozptylů,
( )
2
1pp −
kovariancí (kovariance je symetrická).
Celkem:
( )
2
p3p
2
1pp
p2
2
+
=
−
+ .
Vidíme, že počet charakteristik roste kvadraticky s počtem složek náhodného vektoru. Např. pro
p = 2 je jich 5
2
2322
=
⋅+
, ale pro p = 10 už jich je 65
2
103102
=
⋅+
.
2. Odhady charakteristik p-rozměrného rozložení
Vektor středních hodnot µ a varianční matici Σ v praxi většinou neznáme, musíme je
odhadnout na základě náhodného výběru. Pořídíme náhodný výběr n,, XX1 K (kde
( )T
ip1ii
X,,X K=X , n,,1i K= ) z p-rozměrného rozložení s vektorem středních hodnot µ a
varianční maticí Σ. Z těchto n náhodných vektorů utvoříme náhodnou matici










=










np1n
p111
T
n
T
1
XX
XX
K
KKK
K
M
X
X
.
K číselné realizaci této náhodné matice dospějeme tak, že na n objektech zjišťujeme hodnoty p
proměnných. Např. náhodně vybereme n = 31 návštěvníků posilovny a zjišťujeme u nich
hodnoty p = 4 proměnných: věk (v letech), hmotnost (v kg), doba cvičení (v min), maximální
tep.
Znamená to, že i-tý objekt je charakterizován p-rozměrným vektorem pozorování
( )T
ip1ii x,,x K=x , n,,1i K= . Vektory pozorování uspořádáme do datové matice










np1n
p111
xx
xx
K
KKK
K
, kde řádky odpovídají jednotlivým objektům a sloupce proměnným.
V našem případě máme datovou matici tvaru:
Zavedeme následující označení:
∑
=
=
n
1i
ijj
X
n
1
M … výběrový průměr j-té proměnné, p,,1j K=
( )T
p1
MM K=M … vektor výběrových průměrů
(V našem případě: ( )T
4,1776,102,797,41=m , tedy průměrný věk je 41,7 roku,
průměrná hmotnost je 79,2 kg, průměrná doba cvičení je 40,6 min a průměrný maximální tep je
177,4. )
( )∑
=
−
−
=
n
1i
2
jij
2
j
MX
1n
1
S … výběrový rozptyl j-té proměnné, p,,1j K=
( )( )∑
=
−−
−
=
n
1i
kikjijjk
MXMX
1n
1
S … výběrová kovariance j-té a k-té proměnné, p,,1k,j K=
( )( )∑
=
−−
−
=










=
n
1i
T
ii
2
p2p1p
p112
2
1
1n
1
SSS
SSS
MXMXS
K
KKKK
K
… výběrová varianční matice
(Matice ( )( ) ( )SMXMXW 1n
n
1i
T
ii
−=−−= ∑
=
se nazývá Wishartova matice.)
(V našem případě:











 −−
=
31,118
40,392,1
02,1271,124,69
20,2134,116,1016,27
s .)
kj
jk
jk
SS
S
R = … výběrový koeficient korelace j-té a k-té proměnné, p,,1k,j K=










=
1RR
RR1
2p1p
p112
K
KKKK
K
R … výběrová korelační matice
(V našem případě:











 −−
=
1
23,01
13,015,01
37,019,023,01
r , tedy věk záporně koreluje s hmotností a
tepem, ale kladně s dobou cvičení, hmotnost kladně koreluje s dobou cvičení a tepem a doba
cvičení kladně koreluje s tepem. )
Lze dokázat, že
- vektor výběrových průměrů M je nestranným odhadem vektoru středních hodnot µ, tj.
( ) µM =E ;
- výběrová varianční matice S je nestranným odhadem varianční matice Σ, tj. ( ) ΣS =E ;
- výběrová korelační matice R je vychýleným odhadem korelační matice ρ, tj. ( ) ρR ≈E .
Poznámka: V některých situacích pracujeme s lineární kombinací složek náhodného vektoru X:
XcT
pp11 XcXc =++K . Pak střední hodnota náhodné veličiny XcT
je µcT
a rozptyl je ΣccT
.
Nestranným odhadem střední hodnoty µcT
je McT
a nestranným odhadem rozptylu ΣccT
je
SccT
.
3. Základní poznatky o p-rozměrném normálním rozložení
Náhodný vektor ( )T
p1 X,,X K=X se řídí p-rozměrným normálním rozložením ( )Σµ,Np
, kde
parametr µ je vektor středních hodnot a parametr Σ je varianční matice, když jeho hustota má
tvar:
( )
( )
( ) ( )µxΣµx
Σ
x
−−− −
π
=ϕ
1T
2
1
2
1
2
p
e
2
1
.
Ilustrace pro dvourozměrné normální rozložení
Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry µ1 = 0, µ2 = 0,
σ1
2
= 1, σ2
2
= 1, ρ = -0,75:
Důležité vlastnosti p-rozměrného normálního rozložení:
a) Všechna marginální (a podmíněná) rozložení jsou normální.
b) Lineární transformací BXaY += , kde a je p-rozměrný sloupcový reálný vektor a B je
reálná čtvercová matice řádu p, se normalita neporuší: Y ~ ( )T
p
BB,BaN Σµ+
c) Je-li varianční matice Σ diagonální, jsou náhodné veličiny p1 X,,X K stochasticky
nezávislé.
d) Sečteme-li n stochasticky nezávislých p-rozměrných náhodných vektorů, z nichž každý se
řídí p-rozměrným normálním rozložením, pak výsledný součet má také p-rozměrné
normální rozložení.
4. Náhodný výběr z p-rozměrného normálního rozložení
Nechť náhodný výběr n
,, XX1
K pochází z rozložení ( )Σµ,Np
. Označme M vektor
výběrových průměrů a S výběrovou varianční matici. Pak platí:
a) Wishartova matice ( )SW 1n −= má p-rozměrné Wishartovo rozložení s n-1 stupni
volnosti a parametrem Σ, píšeme W ~ ( )Σ,1nWp
− . (Wishartovo rozložení je zobecněním
2
χ - rozložení. Je-li p = 1 a ( )1=Σ , jde o rozložení ( )1n2
−χ .)
b) Statistika ( ) ( )µMSµM 1
−−= −T2
nT má Hotellingovo rozložení s p a n-1 stupni
volnosti, píšeme T2
~ T2
(p, n-1). (Hotellingovo rozložení je zobecněním Studentova
rozložení.)
Poznámka: Mezi Hotellingovým a Fisherovým – Snedecorovým rozložením platí vztah:
X ~ ( ) X
1
Y,T
21
12
21
2
νν
+ν−ν
=⇒νν ~ ( )1,F 121
+ν−νν . Statistiku T2
tedy můžeme
transformovat na statistiku s F-S rozložením:
( )
( )
( )
( ) ( )µMSµM −−
−
−
=
−
− −1T2
1np
pnn
T
1np
pn
~ ( )pn,pF − .
5. Test hypotézy o vektoru středních hodnot
Tento test je p-rozměrnou analogií jednovýběrového t-testu. Pro připomenutí:
Náhodný výběr n1 X,,X K pochází z rozložení ( )2
,N σµ , kde parametry
2
,σµ neznáme. Na
hladině významnosti α testujeme hypotézu c:H0 =µ proti alternativě c:H1
≠µ .
Testová statistika:
n
S
cM
T0
−
= se za platnosti H0 řídí rozložením ( )1nt − .
Kritický obor: ( ) ( ) )( ∞−∪−−∞−= α−α−
,1nt1nt,W 2/12/1
.
Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α.
Poznámka: Vzhledem k tomu, že platí tvrzení: ( ) ( )n1,F~XYnt~X 2
=⇒ , můžeme H0
zamítnout na hladině významnosti α, když ( ) )∞−∈ α−
,1n,1Ft 1
2
0
.
p-rozměrný případ:
Náhodný výběr n,, XX1 K pochází z rozložení ( )Σµ,Np
, kde parametry Σµ, neznáme. Na
hladině významnosti α testujeme hypotézu cµ =:H0
proti alternativě cµ ≠:H1
, kde
( )T
p1
c,,c K=c je vektor reálných konstant. (Alternativa vlastně tvrdí, že aspoň jedna složka
vektoru středních hodnot neodpovídá ověřovanému předpokladu.)
Testová statistika
( )
( )
( ) ( )cMScM −−
−
−
= −1T
0
1np
pnn
T se za platnosti H0 řídí rozložením
( )pn,pF − .
Kritický obor: ( ) )∞−= α− ,pn,pFW 1
.
Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α.
Poznámka: Test cµ =:H0
proti cµ ≠:H1
nelze nahradit p jednorozměrnými t-testy
jjj0 c:H =µ proti jjj1 c:H ≠µ , p,,1j K= , protože při tomto postupu by pravděpodobnost chyby
1. druhu byla větší než α, dokonce až ( )p
11 α−− .
Pokud na dané hladině významnosti α zamítneme vícerozměrnou hypotézu cµ =:H0
ve
prospěch alternativy cµ ≠:H1 , zjistíme, vzhledem ke kterým složkám vektoru µ byla nulová
hypotéza zamítnuta.
K tomu lze použít p jednorozměrných t-testů jjj0 c:H =µ proti jjj1 c:H ≠µ , p,,1j K= , u nichž
hladinu významnosti α upravíme pomocí Bonferroniho korekce:
j0H zamítneme na hladině významnosti α, když vypočtená p-hodnota bude
p
α
≤ .
Příklad na vícerozměrný jednovýběrový t-test
Výrobce určitého typu součástek uvádí, že nejdůležitější čtyři rozměry nabývají těchto hodnot:
9,50 mm, 6,35 mm, 5,98 mm a 4,40 mm. Náhodně bylo vybráno 15 součástek, byly u nich
zjištěny hodnoty těchto rozměrů a zapsány do proměnných X1, X2, X3, X4. Údaje jsou uloženy
v souboru soucastky.sta.
Za předpokladu, že data pocházejí ze čtyřrozměrného normálního rozložení s neznámým
vektorem středních hodnot ( )T
4321 µµµµ=µ a neznámou varianční maticí














σσσσ
σσσσ
σσσσ
σσσσ
=
2
4434241
34
2
33231
2423
2
221
141312
2
1
Σ , na hladině významnosti 0,05 testujte hypotézu, že tvrzení
výrobce je pravdivé. V případě zamítnutí nulové hypotézy zjistěte, které rozměry přispěly
k jejímu zamítnutí.
Řešení:
Na hladině významnosti 0,05 testujeme hypotézu H0:














=














µ
µ
µ
µ
40,4
98,5
35,6
50,9
4
3
2
1
proti alternativě H1:














≠














µ
µ
µ
µ
40,4
98,5
35,6
50,9
4
3
2
1
.
Hodnotu testové statistiky
( )
( )
( ) ( )cMScM −−
−
−
= −1T
0
1np
pnn
T a odpovídající p-hodnotu
vypočteme pomocí systému STATISTICA.
Statistiky – Základní statistiky a tabulky – t-test, samost. vzorek – OK – Proměnné X1, X2, X3,
X4 – OK – záložka Možnosti – zvolíme Test průměrů vůči různým volitelným konstantám
Specif. X1: 9,5, X2: 6,35, X3: 5,98, X4: 4,4 – OK – zaškrtneme Vícerozměrný test
(Hotellingovo T2
) – Výpočet. Dostaneme výstupní tabulku:
Test průměrů vůči referenční konstantě (hodnotě) (soucastky.sta)
T2(celé případy ChD)=19,2432 F(4,11)=3,7799 p<,03597
Proměnná
Průměr Sm.odch. N Sm.chyba Referenční
konstanta
t SV p
X1
X2
X3
X4
9,491833 0,010695 15 0,002761 9,500000 -2,95748 14 0,010391
6,357433 0,011481 15 0,002964 6,350000 2,50752 14 0,025099
5,981467 0,011129 15 0,002873 5,980000 0,51043 14 0,617706
4,400327 0,007024 15 0,001814 4,400000 0,18011 14 0,859646
Testová statistika vícerozměrného jednovýběrového t-testu se realizuje hodnotou 3,7799,
odpovídající p-hodnota je 0,03597, tedy s rizikem omylu nejvýše 5 % považujeme za prokázané,
že rozměry součástky neodpovídají deklarovaným hodnotám.
Protože jsme zamítli nulovou hypotézu, v dalším kroku zjistíme, které rozměry přispěly k jejímu
zamítnutí. Budeme tedy simultánně testovat hypotézy H01: µ1 = 9,5, H02: µ2 = 6,35, H03: µ3 =
5,98, H04: µ4 = 4,4 proti H11: µ1 ≠ 9,5, H12: µ2 ≠ 6,35, H13: µ3 ≠ 5,98, H14: µ4 ≠ 4,4. H0j
zamítneme na hladině významnosti α = 0,05, když vypočtená p-hodnota bude menší nebo rovna
0125,0
4
05,0
čet testůpo
==
α
. Vidíme, že vícerozměrná hypotéza byla zamítnuta kvůli X1.
6. Test hypotézy o úplné nezávislosti sledovaných proměnných
Řada statistických úloh vede na zkoumání závislosti mezi p sledovanými proměnnými. Nejdříve
by se mělo zjistit, zda se nejedná o systém nezávislých proměnných. V takovém případě by bylo
zbytečné pokračovat v analýze závislostí.
Na hladině významnosti 0,05 testujeme IX =cor:H0
proti IX ≠cor:H0
(I je jednotková
matice řádu p).
Testová statistika RlnnT0
−= se za platnosti H0 asymptoticky řídí rozložením
( )





 −
χ
2
1pp2
.
Kritický obor:
( ) )∞




 −
χ= α− ,
2
1pp
W 1
2
Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α.
Poznámka: Aproximaci 2
χ -rozložením můžeme zpřesnit, když testovou statistiku 0
T
vynásobíme konstantou
n6
11p2
1
+
− .
6. Test hypotézy o úplné nezávislosti sledovaných proměnných
Řada statistických úloh vede na zkoumání závislosti mezi p sledovanými proměnnými. Nejdříve
by se mělo zjistit, zda se nejedná o systém nezávislých proměnných. V takovém případě by bylo
zbytečné pokračovat v analýze závislostí.
Na hladině významnosti 0,05 testujeme IX =cor:H0
proti IX ≠cor:H0
(I je jednotková
matice řádu p).
Testová statistika RlnnT0
−= se za platnosti H0 asymptoticky řídí rozložením
( )





 −
χ
2
1pp2
.
Kritický obor:
( ) )∞




 −
χ= α− ,
2
1pp
W 1
2
Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α.
Poznámka: Aproximaci 2
χ -rozložením můžeme zpřesnit, když testovou statistiku 0
T
vynásobíme konstantou
n6
11p2
1
+
− .
Příklad: Na základě dat z příkladu o rozměrech součástek testujte hypotézu, že mezi
sledovanými čtyřmi rozměry není žádná závislost.
Řešení:
Logaritmus determinantu výběrové korelační matice získáme v systému STATISTICA takto:
Statistiky – Vícerozměrné průzkumné techniky – Hlavní komponenty & klasifikační analýza –
Proměnné X1, X2, X3, X4 – OK – OK – Popis. statistiky – Korelační matice Inverzní.
Inverzní korelační matice (soucastky.sta)
Aktivní proměnné
Log(Determinant) korelační matice: -,10371221
Proměnná X1 X2 X3 X4
X1
X2
X3
X4
1,051183 -0,116527 -0,221930 0,034663
-0,116527 1,065407 0,229398 0,101462
-0,221930 0,229398 1,089346 -0,038291
0,034663 0,101462 -0,038291 1,014320
V záhlaví výstupní tabulky je číslo Rln = -0,10371221.
K dalším výpočtům použijeme STATISTIKU jako inteligentní kalkulačku.
Otevřeme nový datový soubor o 3 proměnných a 1 případu. Do Dlouhého jména 1. proměnné
napíšeme =-0,103712221 (tj. Rln ), do Dlouhého jména druhé proměnné napíšeme =-15*v1 (tj.
RlnnT0
−= ) a Dlouhého jména třetí proměnné napíšeme =VCHi2(0,95;6) (tj. kvantil
( )695,0
2
χ ).
1
Prom1
2
Prom2
3
Prom3
1 -0,1037122 1,55568315 12,5915872
Protože testová statistika 1,5557 nepatří do kritického oboru )∞;5916,12 , hypotézu o úplné
nezávislosti čtyř rozměrů součástek nezamítáme na hladině významnosti 0,05.
II. Úlohy o dvou nezávislých náhodných výběrech z vícerozměrného
rozložení
1. Test hypotézy o rozdílu vektorů středních hodnot
Tento test je p-rozměrnou analogií dvouvýběrového t-testu. Pro připomenutí:
Náhodný výběr 1n111
X,,X K pochází z rozložení ( )2
1 ,N σµ , na něm nezávislý náhodný výběr
2n221
X,,X K pochází z rozložení ( )2
2 ,N σµ , přičemž parametry
2
21 ,, σµµ neznáme. Označíme
21 M,M výběrové průměry,
2
2
2
1 S,S výběrové rozptyly,
( ) ( )
2nn
S1nS1n
S
21
2
22
2
112
*
−+
−+−
= vážený
průměr výběrových rozptylů. Na hladině významnosti α testujeme hypotézu 210 :H µ=µ proti
alternativě 211 :H µ≠µ .
Testová statistika:
21
*
21
0
n
1
n
1
S
MM
T
+
−
= se za platnosti H0 řídí rozložením ( )2nnt 21 −+ .
Kritický obor: ( ) ( ) )( ∞−+∪−+−∞−= α−α− ,2nnt2nnt,W 212/1212/1
.
Jestliže Wt0 ∈ , H0 zamítáme na hladině významnosti α.
Upozornění: Předpoklad, že rozptyly obou rozložení jsou shodné (tj. test nulové hypotézy
1:H 2
2
2
1
0
=
σ
σ
proti alternativě 1:H 2
2
2
1
1
≠
σ
σ
) ověřujeme F-testem.
Testová statistika 2
2
2
1
0
S
S
:T se v případě platnosti H0 řídí rozložením ( )1n,1nF 21 −− .
Kritický obor: ( ) ( ) )∞−−∪−−= α−α
,1n,1nF1n,1nF,0W 212/1212/
.
Jestliže Wt0
∈ , H0 zamítáme na hladině významnosti α.
p- rozměrný případ (Hotellingův T2
test)
Máme náhodný výběr 1n111 ,, XX K (kde ( )T
ip11i1i1 X,,X K=X , 1n,,1i K= ) z ( )Σµ ,N 1p a
dále na něm nezávislý náhodný výběr 2n221 ,, XX K (kde ( )T
ip21i2i2 X,,X K=X , 2n,,1i K= )
z ( )Σµ ,N 2p
, přičemž parametry Σµµ ,, 21
neznáme.
Zavedeme označení:
21 nnn += … celkový rozsah obou výběrů
∑
=
=
hn
1i
hij
h
hj
X
n
1
M … výběrový průměr j-té proměnné v h-tém výběru, 2,1h = , p,,1j K=
( )T
hp1hh MM K=M … vektor výběrových průměrů v h-tém výběru, 2,1h =
( )( )∑
=
−−
−
=
hn
1i
T
hhihhi
h
h
1n
1
MXMXS … výběrová varianční matice v h-tém výběru, 2,1h =
( ) ( )
2n
1n1n 2211
−
−+−
=
SS
S … společná výběrová varianční matice
Na hladině významnosti α testujeme hypotézu 210 :H µµ = proti alternativě 211 :H µµ ≠ .
Statistika ( ) ( )21
1T
21
21
n
nn
MMSMM −− −
se řídí Hotellingovým rozložením ( )2n,pT2
− ,
když H0 platí.
Vzhledem ke vztahu mezi Hotellingovým a F-S rozložením vynásobíme tuto statistiku
konstantou
( )2np
1pn
−
−−
a získáme testovou statistiku:
( )
( ) ( )21
1T
21
21
0
n
nn
2np
1pn
T MMSMM −−⋅
−
−−
= −
, která se za platnosti H0 řídí rozložením
( )1pn,pF −− .
Kritický obor: ( ) )∞−−= α−
,1pn,pFW 1
.
Jestliže Wt0
∈ , H0 zamítáme na hladině významnosti α.
2. Test hypotézy o shodě variančních matic
Předpoklad o shodě variančních matic můžeme ověřit pomocí Boxova M-testu.
Na hladině významnosti α testujeme hypotézu 210 :H ΣΣ = proti alternativě 211 :H ΣΣ ≠ .
Testová statistika má tvar: ( ) ( ) ( )[ ]2211
p
0
ln1nln1nln2n
C
1
T SSS −−−−−= , kde
( ) 





−
−
−
+
−+
−+
+=
2n
1
1n
1
1n
1
1p6
1p3p2
1C
21
2
p
je konstanta zlepšující aproximaci.
V případě platnosti H0 se statistika 0T asymptoticky řídí rozložením
( )





 +
χ
2
1pp2
. Pokud
( ) )∞




 +
χ∈ α− ,
2
1pp
t 1
2
0 , hypotézu o shodě variančních matic zamítneme na asymptotické
hladině významnosti α. Aproximace je vyhovující, když rozsahy výběrů jsou aspoň 20 a počet
proměnných je nejvýše 5.
V případě, že rozsahy výběrů jsou shodné, nemusíme Boxův test provádět.
Simultánní t-testy:
Pokud na dané hladině významnosti α zamítneme hypotézu 210 :H µµ = ve prospěch
alternativy 211 :H µµ ≠ , zjistíme, které proměnné jsou příčinou jejího zamítnutí.
V této situaci provedeme p simultánních testů j2j1j0 :H µ=µ proti j2j1j1 :H µ≠µ , p,,1j K=
pomocí testové statistiky
( )
( )
2
j*
2
j2j121
j0
S
MM
n
nn
2np
1pn
T
−
⋅⋅
−
−−
= , která se za platnosti H0j řídí
rozložením ( )1pn,pF −− .
Kritický obor: ( ) )∞−−= α−
,1pn,pFW 1
.
Jestliže Wt j0 ∈ , H0j zamítáme na hladině významnosti α.
Příklad na Hotellingův T2
test
23 náhodně vybraných mužů a 22 náhodně vybraných žen mělo posoudit podobné výrobky od tří
firem – označme je A, B, C – na škále 0 bodů (naprosto nevyhovující) až 10 bodů (zcela
vyhovující). Výsledky jsou uloženy v souboru hodnoceni_vyrobku.sta.
Za předpokladu, že data tvoří realizace dvou nezávislých náhodných výběrů ze dvou
třírozměrných normálních rozložení se stejnými variančními maticemi, Hotellingovým T2
testem
ověřte na hladině významnosti 0,05 hypotézu, že hodnocení mužů a žen se neliší. Pokud dojde
k zamítnutí nulové hypotézy, zjistěte, které firmy se v hodnocení mužů a žen liší.
Řešení:
Na hladině významnosti 0,05 testujeme hypotézu
H0:














µ
µ
µ
=














µ
µ
µ
23
22
21
13
12
11
proti alternativě H1:














µ
µ
µ
≠














µ
µ
µ
23
22
21
13
12
11
.
Hodnotu testové statistiky
( )
( ) ( )21
1T
21
21
0
n
nn
2np
1pn
T MMSMM −−⋅
−
−−
= −
a odpovídající phodnotu
vypočteme pomocí systému STATISTICA.
Statistiky – Základní statistiky a tabulky – t-test, nezávislé, dle skupin – OK – Proměnné –
Závisle proměnné X1, X2, X3, Grupovací proměnná ID – OK – na záložce Možnosti zaškrtneme
Vícerozměrný test (Hotellingovo T2
) – Výpočet
t-testy; grupováno: ID: pohlaví respondenta (hodnoceni_vyrobku.sta)
Skup. 1: muž; Skup. 2: žena
Hotellingovo 15,5599 F(3,41)=4,9454 p<,00506
Proměnná
Průměr
muž
Průměr
žena
t sv p Poč.plat
muž
Poč.plat.
žena
Sm.odch.
muž
Sm.odch.
žena
F-poměr
Rozptyly
p
Rozptyly
X1
X2
X3
5,086957 4,545455 0,697666 43 0,489142 23 22 2,574579 2,631807 1,044950 0,917081
5,434783 3,818182 2,098562 43 0,041766 23 22 2,642762 2,519190 1,100510 0,829044
5,304348 3,045455 3,117687 43 0,003246 23 22 2,770540 2,011332 1,897411 0,147512
Testová statistika Hotellingova testu nabývá hodnoty 4,9454, odpovídající p-hodnota je menší
než 0,00506, tedy na hladině významnosti 0,05 zamítáme hypotézu, že vektory středních hodnot
proměnných X1, X2, X3 jsou v obou skupinách shodné. S rizikem omylu nejvýše 5 % jsme tedy
prokázali, že mezi muži a ženami existuje rozdíl v hodnocení výrobků tří firem. (Vidíme, že
hodnocení mužů je příznivější než hodnocení žen.)
Nyní pomocí simultánních testů zjistíme, které firmy jsou rozdílně hodnoceny muži a ženami.
Simultánní testy založené na statistice
( )
( )
2
j*
2
j2j121
j0
S
MM
n
nn
2np
1pn
T
−
⋅⋅
−
−−
= STATISTICA
neposkytuje. (V našem případě n = 45, p = 3, n1 = 23, n2 = 22, tedy
( ) 5805
20746
n
nn
2np
1pn 21
=⋅
−
−−
.)
S pomocí STATISTIKY však můžeme vypočítat vektory výběrových průměrů a směrodatných
odchylek. V této tabulce ponecháme pouze proměnné obsahující průměry a směrodatné
odchylky. Dále za poslední proměnnou vložíme dvě nové proměnné T0j a kvantil. Do Dlouhého
jména proměnné T0j napíšeme:
=(20746/5805)*(v1-v2)^2/((22*v3^2+21*v4^2)/45)
Do Dlouhého jména proměnné kvantil napíšeme:
=VF(0,95;3;41)
t-testy; grupováno: ID: pohlaví respondenta (hodnoceni_vyrobku.sta)
Skup. 1: muž; Skup. 2: žena
Hotellingovo 15,5599 F(3,41)=4,9454 p<,00506
Proměnná
Průměr
muž
Průměr
žena
Sm.odch.
muž
Sm.odch.
žena
T0j
=(20746/58
kvantil
=VF(0,95;3;
X1
X2
X3
5,086957 4,545455 2,574579 2,631807 0,161895 2,832747
5,434783 3,818182 2,642762 2,519190 1,464812 2,832747
5,304348 3,045455 2,770540 2,011332 3,232981 2,832747
Vidíme, že statistika T03 se realizuje v kritickém oboru )∞= ;8327,2W . S rizikem omylu
nejvýše 5 % jsme tedy prokázali, že výrobky firmy C jsou odlišně hodnoceny muži a ženami.