1
Statistické metody a zpracování dat
VII. Korelační a regresní počet
K čemu to je dobré?
* V řadě geografických disciplín studujeme jevy, u
kterých vyšetřujeme ne jednu jejich vlastnost (znak),
ale znaků několik.
* Tyto znaky mohu být navzájem závislé.
* Cílem této části statistiky je vyšetřovat, do jaké míry
spolu dva či více statistických znaků souvisí.
* Do jaké míry změna hodnoty jednoho znaku
podmiňuje změnu hodnot znaku jiného.
Analýza závislostí
Př. Vztah mezi teplotou vzduchu a nadmořskou výškou,
mezi množstvím srážek a velikostí odtoku, mezi výnosy a
hodnotami několika meteorologických prvků, mezi počtem
dojíždějících a vzdáleností od centra dojížďky, ...
Příklady použití
* Budeme tedy pracovat s dvourozměrnými soubory
* Korelační i regresní počet však lze využít i pro
studium vícerozměrných souborů, pro studium znaků
kvantitativních i kvalitativních.
* Předmětem statistické analýzy v tomto případě bude
stanovení síly závislosti a druhu závislosti
* Analýzou síly závislosti statistických znaků se zabývá
korelační počet
* Analýzou druhu závislosti statistických znaků se zabývá
regresní počet
Analýza závislostí
Druhy závislostí
* Vztahy jednostranné: Změna statistického znaku jednoho souboru
náhodné veličiny - tzv. nezávisle proměnné (x) podmiňuje změnu
statistického znaku souboru druhé náhodné veličiny - tzv. závisle
proměnné (y).
* V tomto případě jde o vztahy příčiny a následku
* Vztahy vzájemné: Nelze rozlišit mezi souborem závisle a nezávisle
proměnné (např. vztah hodnot teploty vzduchu na dvou sousedních
stanicích)
* V geografii ­ tzv. prostorová autokorelace
* Závislost funkční
* Závislost statistická
* Závislost korelační
Druhy závislostí:
Závislost funkční
Každé hodnotě znaku nezávisle proměnné náhodné veličiny x odpovídá
vždy pouze jediná určitá hodnota závisle proměnné veličiny y
dráha
v
metre
ch
čas v sekundách
1000
2000
3000
4000
0 10 20 30
2
2
1
gts ====
2
Závislost statistická
* Každé hodnotě znaku nezávisle proměnné náhodné veličiny x
odpovídá více hodnot závisle proměnné veličiny y,
* Hodnoty y mají své rozdělení
* Při změně znaku nezávisle proměnné x mění podmíněná rozdělení
relativních četností závisle proměnné y
Se změnou hodnoty znaku nezávisle proměnné x se mění podmíněná
rozdělení relativních četností hodnoty znaku závisle proměnné y tak, že
změna x podmiňuje změnu průměru souborů hodnot y,
odpovídajících daným hodnotám x.
Závislost korelační
y
Určení těsnosti korelační závislosti
* Úkolem korelačního počtu je vyjádřit tendenci změn hodnoty znaku
závisle proměnné při změně hodnoty znaku nezávisle proměnné
matematickou funkcí
* Tato funkce představuje tzv. regresní čáru a vyjadřuje, jaká
hodnota znaku závisle proměnné odpovídá s největší
pravděpodobností určité hodnotě znaku nezávisle proměnné.
* Odhad regresní závislosti je tím přesnější, čím větší je těsnost
korelační závislosti.
* Určení těsnosti korelační závislosti je prvním krokem analýzy.
Charakteristiky korelační závislosti
Máme dva výběrové soubory náhodných veličin X, Y. Proměnlivost
hodnot znaku obou výběrů můžeme vyjádřit odchylkami dxi a dyi prvků
od jejich průměrů:
xxd ixi -= yyd iyi -=
Vzájemnou proměnlivost obou výběrových souborů
charakterizuje součin odchylek :
)()( yyxx ii --
Suma součinů odchylek vydělaná rozsahem výběrů n určuje tzv.
kovarianci výběrových souborů sxy ­ tedy první společnou
charakteristiku proměnlivosti obou souborů:
1
)()(
-
--
=

n
yyxx
s
ii
xy
Charakteristiky korelační závislosti
* Kovariance je obdobou rozptylu
* Omezenost - je mírou absolutní ­ nelze jí použít k porovnání těsnosti
vztahu dvou či více dvojic výběrových souborů.
Relativní míra ­ kovariance dělená součinem směrodatných odchylek
sx a sy obou výběrů - korelační koeficient rxy:
 

-
-
-
-
--
-=

=
22
)(
1
1
)(
1
1
)()(
1
1
yy
n
xx
n
yyxx
n
ss
s
r
ii
ii
yx
xy
xy
Charakteristiky korelační závislosti
Úpravou výše uvedeného vztahu lze korelační koeficient rxy vypočítat
také podle následujícího vzorce:
( ) ( ) ][][
2222

 
--
-
=
yynxxn
yxxyn
rxy
(vzorec je uveden pouze pro názornost
výpočtu v následujícím příkladě)
3
Příklad
Jaká je závislost mezi pH půdy na výsypkách a
počtem rostlinných druhů?
( ) ( ) ][][
2222

 
--
-
=
yynxxn
yxxyn
rxy
136.836151.8197.2
270.9184939.7436.3
28.83623.064.8
28.04916.074.0
114.448427.0225.2
23.52522.154.7
15.0259.053.0
162.562542.3256.5
284.0160050.4407.1
99.048420.3224.5
38.010014.4103.8
20.3498.472.9
47.62897.8172.8
xyy2x2yx
pH počet druhů
8,62=x
( ) 84,3943
2
=x
228=y
( ) 51984
2
=y
3,3322
=x 596762
=y
8,1268=xy ]519845976*13[]84,39433,332*13[
228*8,628,1268*13
--
-
=xyr
700,0=xyr
Příklad - pokračování
700,0=xyr
Interpretace: ze statistických tabulek zjistíme:
Hodnotě přísluší pro  = n ­ 2 = 11
na hladině významnosti  = 0,05 kritická hodnota rkrit = 0,553
Závěr: prokázali jsme statisticky významný vztah mezi pH a
množstvím rostlinných druhů rostoucích na výsypkách.
Příklad
Řešení v programu Statistica:
Statistika ­ Základní statistiky/tabulky ­ Korelační matice
korelační matice
Graf korelačního pole
doplněný regresní
přímkou a intervaly
spolehlivosti (viz. dále)
Příklad
Statistika ­ Základní statistiky/tabulky ­ Korelační matice
Korelační matice ­ rxy mezi dvojicemi více proměnných
Příklad
Statistika ­ Základní statistiky/tabulky ­ Korelační matice ­ Matice bodových grafů
Koeficient determinace
* Koeficient korelace se často ve výpočtech doplňuje hodnotou
koeficientu determinace (r2
xy).
* Jeho hodnota kolísá v intervalu 0 až 1
* Vynásoben 100 udává v procentech tu část rozptylu závisle
proměnné y, která je vysvětlena (podmíněna) změnami hodnot
nezávisle proměnné x.
V našem případě:
%4949,02
==xyr700,0=xyr
Interpretace: Změna počtu druhů rostlin na výsypkách je z 49 %
podmíněna změnami pH půdy na kterých tyto rostliny rostou.
4
Podmínky použitelnosti rxy
Výpočet rxy se opírá o rozptyl a směrodatnou odchylku
Jeho použití tedy předpokládá splnění tří následujících podmínek:
* normální rozdělení použitých výběrů
* dvojrozměrnost normálního rozdělení (každé hodnotě znaku
veličiny x odpovídá soubor hodnot znaku y, který má normální
rozdělení a naopak
* linearita vztahu hodnot x a y (regresní čára je přímka)
Dokonalá korelační závislost přímá rxy = 1
Dokonalá korelační závislost nepřímá rxy = -1
Hodnota rxy nás informuje o druhu a těsnosti závislosti
Graf korelačního pole pro různá rxy
Graf korelačního pole pro různá rxy ??? Hodnocení významnosti koeficientu korelace
větší rxy
větší n
menší p hodnota
větší pravděpodobnost
zamítnutí nulové hypotézy
Hodnocení významnosti koeficientu korelace
* Významnost rxy závisí na povaze řešeného problému
* Jeho hodnota je mírou relativní a posouzení těsnosti
je do značné míry subjektivní.
Významnost rxy lze též zjistit objektivně ­ testováním
Při testování rxy vycházíme z nulové hypotézy, která je  = 0 (tedy
mezi dvěma základními soubory nepředpokládáme žádný korelační
vztah).
Testovací kritérium se vypočte podle vztahu:
Hodnocení významnosti koeficientu korelace
2
1
2
-
=
n
r
r
t
xy
xy
Přísluší mu t-rozdělení s  = n - 2 stupni volnosti.
S určitou pravděpodobností - tedy na určité hladině významnosti
předpokládáme, že hodnota t nepřekročí kritickou hodnotu tp (při
správnosti nulové hypotézy).
V opačném případě zamítáme nulovou hypotézu ­ mezi výběry
náhodných veličin vztah existuje.
5
Hodnocení významnosti koeficientu korelace - tabulky Koeficient pořadové korelace (Spearmanův) (rs)
Používá se k určení závislosti kvalitativních znaků.
)1(
6
1 2
2
-=

nn
D
r i
s
Každé hodnotě xi a yi přiřadíme pořadové číslo pxi a pyi podle
velikosti hodnot xi a yi.
Určíme rozdíly Di dvojic pořadových čísel odpovídajících si hodnot.
Koeficient pořadové korelace - příklad
Příklad: Kvantifikujte vztah mezi dobou, po kterou
jsou pole ponechána ladem a počtem rostlinných
druhů (na m2).
902,0
)149(7
5,56
1
)1(
6
1 2
2
=
-×
×
-=
-
-=

nn
D
r
i
s
V tabulkách vyhledáme pro n=7 a =0,05 kritickou hodnotu:
rkrit=0,786
Závěr: Existuje statisticky významný vztah mezi dobou, po kterou jsou pole
ponechána ladem a počtem rostlinných druhů, které se na nich vyskytují.
Koeficient pořadové korelace
Řešení v programu Statistica:
Statistika ­ Neparametrická statistika ­ Korelace (Spearman, Kendallovo Tau, Gama)
Nelineární závislost
Prvky výběru závisle proměnné yi rozdělíme podle hodnot nezávisle
proměnné xi do skupin označených yj a pro každou skupinu vypočteme
průměr . Korelační poměr se vypočte podle vztahu:
V uvedeném vzorci je nj četnost v yj. Při výpočtu záleží na tom, kterou
proměnou zvolíme za závislou a kterou za nezávislou.
Porovnání hodnot korelačního koeficientu a korelačního poměru lze
použít jako kritéria linearity vztahu.
Pokud se hodnoty přibližně rovnají, jedná se o závislost lineární, pokud
je rxy výrazně větší, jde o závislost nelineární.
jy
V případě, kdy regresní čára není přímka, ale je
vyjádřena složitější matematickou funkcí, se jako
míry korelační závislosti používá tzv. korelační
poměr (yx).


-
-
=
-
=
22
2
2
)(
)(
)(
yny
ynny
yy
nyy
i
jj
i
jj
yx
Koeficient mnohonásobné korelace (rxyz)
Používá se pro hodnocení korelační závislosti tří nebo více výběrů
náhodných veličin.
Při jeho určení se vychází z jednotlivých korelačních koeficientů pro dva
výběry (rxy, rxz, ryz) a jejich hodnoty se dosazují do vzorce pro rxyz:
2
22
1
2
xy
yzxzxyyzxz
xyz
r
rrrrr
r
-
-+
=
Příklad ­ viz. vícerozměrná regrese
Vztah dvou proměnných je často ovlivněn dalšími proměnnými.
6
Dílčí (parciální) korelace:
Řeší otázku vlivu jedné nebo více nezávisle proměnných na závisle
proměnnou při vyloučení vlivu zbývajících nezávisle proměnných, u
nichž předpokládáme konstantní hodnotu.
Jedná se o zvláštní případ mnohonásobné korelace, kdy další
proměnné považujeme za ,,rušivé" (např. věk, počet obyvatel sídla, ...).
Hodnota koeficientu dílčí korelace rxy.z se vypočte podle vztahu:
Tečkou v indexu se označuje nezávisle proměnná, jejíž hodnotu
považujeme za konstantní.
22
)1()1( yzxz
yzxzxy
zxy
rr
rrr
r
--
-
=
Parciální korelace
Příklad (viz. Brázdil a kol., 1995,
str. 129, cvič. 8.3)
Způsob zadání proměnných (korelace
mezi y a z při vyloučení vlivu x)
Poznámky k aplikaci korelačního počtu:
Použití korelačního počtu je nevhodné např. v těchto případech:
* Korelace je způsobena formálními vztahy mezi veličinami
(hodnoty x a y se doplňují do 100%)
* Korelace je způsobena nehomogenitou studovaného materiálu
(obsahuje tzv. subpopulace ­ viz. obr. bodového grafu)
* Korelace je výsledkem působení třetí veličiny (korelace mezi
počtem lékařů a počtem nemocných, ...)
Regresní analýza
Úkolem regresní analýzy je sestavit vztah (model) závislosti mezi
závisle a nezávisle proměnnou.
Regresní analýza řeší :
* odhady neznámých parametrů regresní funkce
* testování hypotéz o těchto parametrech
* ověřování předpokladů regresního modelu
Určení lineární regresní závislosti
Nejjednodušším případem regresní závislosti je případ, kdy regresní
funkce je přímkou. Rovnice regresní přímky má tvar:
Symbol y' se používá pro označení nejpravděpodobnější teoretické
hodnoty y odpovídající danému x, která leží na regresní přímce a
která se odlišuje od konkrétních hodnot yi, které se nacházejí mimo ni.
y' = a + bx
MNČ
Průběh regresní přímky je určen tzv.
metodou nejmenších čtverců, kdy
musí být splněna podmínka takového
průběhu přímky, při kterém je součet
čtverců vzdálenosti všech bodů pole
od přímky minimální, tedy platí:
Výpočet vertikální vzdálenosti bodů korelačního pole od regresní přímky
se provádí podle uvedeného obrázku. Z něho je zřejmé, že pro vzdálenost
konkrétní hodnoty závisle proměnné yi od bodu regresní přímky yi' musí
platit:
iiiiii bxaybxayyy --=+-=- )(
'
Součet čtverců svislých vzdáleností yi od regresní přímky je potom:
  =--=- Abxayyy iiii
22'
)()(
min)( 2'
=- ii yy
 =--= min)( 2
ii bxayA
Pro MNČ musí platit
7
Z výše uvedených vztahů lze následnými úpravami obdržet výrazy pro
výpočet koeficientů regresní přímky a,b


-
=
22
xnx
yxnyx
b
i
ii
xbya -=
Koeficient b (angl. slope) se označuje jako koeficient regrese a je
směrnicí regresní přímky (tangentou úhlu, který přímka a svírá s osou
x). Je-li b>0, mluvíme o regresi pozitivní, je-li b<0 o regresi negativní.
Výpočet koeficientů regresní přímky Výpočet koeficientů regresní přímky
Vzorec pro výpočet koeficientu b lze zjednodušit pomocí vztahů pro
kovarianci sxya směrodatnou odchylku sx, tedy:
2
x
xy
s
s
b =
Hodnota koeficientu a (angl. intercept) představuje y-ovou
souřadnici průsečíku regresní přímky s osou y (tedy při x=0).
Koeficienty lineární regresní závislosti
Koeficient a
Hranice (EXCEL)
Abs. člen (Statistica)
Koeficient b (tg úhlu) - směrnice
Koeficienty (parametry) jsou bodovými odhady !
y' = a + bx
Intervaly a pásy spolehlivosti lineární
regresní závislosti
* Konstrukci regresní přímky provádíme na základě výběrových
souborů.
* Proto se její rovnice může u různých výběrů ze stejných
základních souborů lišit.
* Z tohoto důvodu je potřebné doplnit průběh regresní přímky také
tzv. intervaly spolehlivosti.
* Výpočtem intervalů spolehlivosti určujeme pro vybraná x interval,
v němž se mohou s určitou pravděpodobností vyskytovat hodnoty y
s tím, že jejich nejreprezentativnější hodnota je y'.
Intervaly a pásy spolehlivosti
Nejprve je zapotřebí zvolit hladinu spolehlivosti ­ tedy pravděpodobnost,
s níž očekáváme výskyt hodnot y v určených mezích 1-p (p=0,05 či 0,01).
Poloviční šířka intervalu spolehlivosti l je dána výrazem:
2
1
=
-
n
Ah
tl p 2
2
)1(
)(1
xsn
xx
n
h
-
-
+=
Hodnota tp je kritická hodnota rozdělení pro n-2 stupňů volnosti a hladinu
významnosti p. Meze intervalů spolehlivosti určíme pomocí hodnot y' z
rovnice
horní mez: y' + l
dolní mez: y' - l
)('
xxbyy -=Pásy
spolehlivosti vzniknou spojením
krajních bodů intervalů spolehlivosti.
Testování významnosti regresní závislosti
* K testování významnosti zjištěné regresní závislosti lze využít t-testu,
kterým lze zjistit, zda se směrnice významně liší od nuly
* Nejčastěji se k testování používá analýzy rozptylu (ANOVA).
* Princip: Zjistíme celkovou proměnlivost hodnot y a následně
vypočteme, z jaké části je tato celková variabilita objasněna proměnlivostí
v hodnotách x.
SStotal - celková variabilita: celková suma čtverců: od každé hodnoty y
odečteme průměr, výsledek povýšíme na druhou a sečteme pro všechna y.
8
Testování významnosti regresní závislosti
regresetotalíreziduá SSSSSS -=ln
Celkovou variabilitu SStotal lze rozdělit na dvě části:
SSregrese - variabilitu vysvětlenou regresní čarou
SSreziduální ­ zbytková variabilita nevysvětlená regresním modelem
Testování významnosti regresní závislosti
Tabulka ANOVA
total
regres
SS
SS
r =2
Koeficient determinace regresní závislosti:
Příklad regresní analýzy v EXCELu
Existuje signifikantní pokles hladiny hluku se
vzdáleností od komunikace. Lineární regresní model
vysvětluje 93,9 % variability hodnot hladiny hluku.
Zjistěte, jak souvisí hladina hluku se
vzdáleností od komunikace.
y' = 94,2857 - 0,1464x
95% int. odhad
hladiny hluku ve
vzdálenosti 0 metrů
pokles hl. hluku na každý metr
95% int. odhad
poklesu hl. hluku
na každý metr
Nástroje ­ Analýza dat - Regrese
model je vhodný
Řešení v programu Statistica
1) Statistika ­ Vícerozměrná regrese
(zvolení závisle a nezávisle proměnné)
model je vhodný
pokles je statisticky
významný
Řešení v programu Statistica
2) OK ­ Bodové grafy ­ Korelace 2 proměnných
Výpočet neznámé hodnoty - předpovědi
3) Statistika ­ Vícerozměrná regrese
Odhady
* bodové
* intervalové
9
Další typy regresních funkcí
Regresní vztah dvou proměnných často nelze vhodně vyjádřit přímkou jiné
typy funkcí.
Může mít tvar např. logaritmických či exponenciálních funkcí a nebo je
vztah vyjádřen rovnicí polynomu m-tého stupně.
Regresní závislost není přímka Příklad (viz. Brázdil a kol., 1995,
str. 139, cvič. 8.5)
nevhodný model vhodný model
směrodatná
chyba odhadu
koeficient determinace
EXCEL:
pravým tlačítkem myši
na graf přidat
spojnici trendu
Hledání vhodného regresního modelu
Lze postupovat dvěma způsoby:
1. Volba vhodného modelu na základě praktické zkušenosti či
teoretických předpokladů
2. Posouzením bodového grafu a interpretací nástrojů regresní
analýzy
* analýza reziduálních hodnot
* výpočet směrodatné chyby odhadu (se)
* výpočet koeficientu determinace (r2
xy).
Způsoby hodnocení vhodnosti regresního modelu
Hledání vhodného regresního modelu
Analýza reziduálních hodnot
Rezidua jsou vzdálenosti skutečných hodnot yi od modelem odhadnutých
hodnot yj`
Zvolený regresní model považujeme za vhodný, pokud reziduální
hodnoty splňují všechny následující podmínky:
* rezidua jsou náhodná a nezávislá
* mají normální rozdělení s nulovým
průměrem a konstantním rozptylem
* rozptyl reziduí je konstantní.
Hledání vhodného regresního modelu
Směrodatná chyba odhadu ­ je vyjádřením směrodatné odchylky resp.
rozptylu reziduálních hodnot a vhodnou mírou pro posouzení vhodnosti
použité regresní závislosti
2
)(
1
2'
-
-
=
=
n
yy
s
n
i
ii
e
Čím je hodnota reziduálního rozptylu nižší, tím je model vhodnější.
Koeficient determinace (r2
xy) ­ viz. Korelační počet
Čím je hodnota koeficientu determinace větší, tím je model vhodnější.
total
regres
SS
SS
r =2
Hledání vhodného regresního modelu
Grafy ­ Bodové grafy
volba modelu
10
Vícerozměrná regrese
Popisuje závislost více
proměnných z nichž více je
příčinami (vysvětlující proměnné)
a jen jedna je důsledek
(vysvětlovaná proměnná).
y' = a + b1x1 + b2x2 + ...
Jsou­li dvě vysvětlující
proměnné regresní model
je rovina
Odhad parametrů se provádí
MNČ
Výstupy a interpretace jsou
,,obdobné" jako u modelů
jednorozměrné regrese
Např:
Úhrn_srážek = 345,6 + 0,45*zem_délka + 1,23*nadm_výška
Vícerozměrná regrese
Statistika ­ vícerozměrná regrese
(data viz. Brázdil a kol., 1995, str.
129, cvič. 8.3)
Punkva ­ pod Sk. Mlýnem (y)
model odtoku:
y = 11,0289 + 0,165x1 + 0,874x2
Měření závislosti kvalitativních znaků
* Kvalitativní znaky mají slovní charakter a získáváme je
v sociologických průzkumech, při terénním šetření apod.
* K charakterizování závislostí kvalitativních znaků slouží tzv.
kontingenční tabulky
* Z kontingenční tabulky lze určit intenzitu závislosti ve dvojici slovních
znaků.
* Máme-li dva alternativní znaky dostaneme tzv. čtyřpolní tabulku.
Měření závislosti kvalitativních znaků
Obecně může mít každý kvalitativní znak A r tříd a znak B s tříd.
Výsledky šetření potom sestavujeme do kontingenční tabulky r x s.
Pozorované četnosti v jednotlivých buňkách označujeme dvěma
indexy ­ obecně nij.
Také marginální četnosti mají dva indexy.
Ten, přes který je sčítáno je označen hvězdičkou ­ tedy n2* značí
součet četností v druhé řádce, n*1 značí součet četností v prvním
sloupci.
Tabulka bývá doplněna hodnotami procentuálních (relativních)
četností. Častým požadavkem je konstantní délka intervalů tvořících
třídy.
Stejně jako v případě kvantitativních znaků ověřujeme i zde existenci
vztahu testy významnosti a hodnotíme ho vhodnou mírou závislosti.
Kontingenční tabulka typu r x s
Podmíněné četnosti uvnitř kontingenční tabulky mají podobný význam
jako body korelačního diagramu -- jejich rozmístění umožňuje usuzovat
na charakter závislosti tříděných znaků.
Pro posouzení nezávislosti obou znaků můžeme vedle pozorovaných
četností stanovit pro jednotlivá pole také očekávané (teoretické) četnosti :
Posuzování závislosti v kontingenčních tabulkách
tedy jako součin okrajových četností příslušného řádku a sloupce dělený
rozsahem souboru.
Pro každé pole kontingenční tabulky existuje dvojice četností - četnost
pozorovaná a četnost vypočtená.
n
nn
n ji
ij
**'
=
11
Ukazatel, který pro tabulku jako celek měří rozdílnost pozorovaných a
vypočtených četností v jednotlivých polích tabulky se nazývá čtvercová
kontingence 2

ij
ijij
r
i
s
j n
nn

----
====  
==== ====
2
1 1
2 )(

Je to bezrozměrná hodnota a platí:
Hodnoty nula nabývá pouze v případě, že znaky v kontingenční tabulce
jsou nezávislé.
Hypotéza nezávislosti
02

Vypočtená hodnota se porovnává na zvolené hladině významnosti
 s kritickou hodnotou rozdělení pro (r-1)(s-1) stupňů volnosti.2

2

Hypotézu zamítáme, jestliže vypočtená hodnota je větší než tabulková,
případně, když jí příslušející p-hodnota je menší než zvolená hladina
významnosti.
Příklad analýzy závislosti v tabulce r x s
Pro výběr 234 studentů zjišťujeme, zda existuje vztah mezi sportem, který
provozují a sportovními pořady, které sledují v televizi.
Sestavíme tabulku typu 4 x 4:
Hypotéza nezávislosti H0: Neexistuje vztah mezi provozovaným sportem a
sportem sledovaným v TV.
Vypočtená hodnota testovacího kritéria
Kritická hodnota z tabulek pro p=0,05 a (4-1)x(4-1)=9 stupňů volnosti:
Závěr: H0 zamítáme, existuje významný vztah.
3,2732
=
9,162
=
Testování nezávislosti v tabulce 2 x 2
Pro výpočet testovacího kritéria v tabulce 2 x 2 můžeme využít
zjednodušený vzorec:
2

))()()((
)( 2
2
dbcadcba
bcadn
++++
-
=
Protože v 2x2 tabulce můžeme uvažovat i směr poruchy nulové hypotézy
­ proto musíme rozhodnout, zda použijeme test jednostranný či
dvoustranný.
Kritické hodnoty jsou uvedeny v tabulce - rozdělení o jednom stupni
volnosti.
2

Příklad analýzy závislosti v tabulce 2 x 2
Hypotéza nezávislosti H0: Relativní četnost studentů se zájmem o
statistiku je nezávislá na pohlaví.
Vypočtená hodnota testovacího kritéria:
Kritická hodnota -rozdělení z tabulek pro =0,05: 3,84
Závěr: H0 zamítáme, existuje významný rozdíl.
Zájem u chlapců: 30/66 = 0,45
Zájem u dívek: 11/74 = 0,14
Chlapci mají zhruba 3x větší zájem o statistiku než dívky.
8,15
74669941
)36116330(140 2
2
=
×××
×-×
=
2

... to byl jen smyšlený příklad