1
Statistické metody a zpracování dat
VI. Korelační a regresní počet
Petr Dobrovolný
K čemu to je dobré?
ˇ V řadě geografických disciplín studujeme jevy, u
kterých vyšetřujeme ne jednu jejich vlastnost (znak),
ale znaků několik.
ˇ Tyto znaky mohu být navzájem závislé.
ˇ Cílem této části statistiky je vyšetřovat, do jaké míry
spolu dva či více statistických znaků souvisí.
ˇ Do jaké míry změna hodnoty jednoho znaku
podmiňuje změnu hodnot znaku jiného.
Analýza závislostí
Př. Vztah mezi teplotou vzduchu a nadmořskou výškou,
mezi množstvím srážek a velikostí odtoku, mezi výnosy a
hodnotami několika meteorologických prvků, mezi počtem
dojíždějících a vzdáleností od centra dojížďky, ...
Příklady použití
ˇ Budeme tedy pracovat s dvourozměrnými soubory
ˇ Korelační i regresní počet však lze využít i pro
studium vícerozměrných souborů, pro studium znaků
kvantitativních i kvalitativních.
ˇ Předmětem statistické analýzy v tomto případě bude
stanovení síly závislosti a druhu závislosti
ˇ Analýzou síly závislosti statistických znaků se zabývá
korelační počet
ˇ Analýzou druhu závislosti statistických znaků se zabývá
regresní počet
Analýza závislostí
Druhy závislostí
ˇ Vztahy jednostranné: Změna statistického znaku jednoho souboru
náhodné veličiny - tzv. nezávisle proměnné (x) podmiňuje změnu
statistického znaku souboru druhé náhodné veličiny - tzv. závisle
proměnné (y).
ˇ V tomto případě jde o vztahy příčiny a následku
ˇ Vztahy vzájemné: Nelze rozlišit mezi souborem závisle a nezávisle
proměnné (např. vztah hodnot teploty vzduchu na dvou sousedních
stanicích)
Vztahy závislosti podle stupně závislosti
statistických znaků
ˇ Závislost funkční
ˇ Závislost statistická
ˇ Závislost korelační
pozorované
hodnoty
30
40
50
10 20 30 40
cena zboží v Kč
pop
táv
ka
po
zbo
ží v
ks
2
Závislost funkční
Každé hodnotě znaku nezávisle proměnné náhodné veličiny x odpovídá
vždy pouze jediná určitá hodnota závisle proměnné veličiny y
dráha
v
metre
ch
čas v sekundách
1000
2000
3000
4000
0 10 20 30
2
2
1
gts =
Závislost statistická
ˇ Každé hodnotě znaku nezávisle proměnné náhodné veličiny x
odpovídá více hodnot závisle proměnné veličiny y,
ˇ Hodnoty y mají své rozdělení
ˇ Při změně znaku nezávisle proměnné x mění podmíněná rozdělení
relativních četností závisle proměnné y
Se změnou hodnoty znaku nezávisle proměnné x se mění podmíněná
rozdělení relativních četností hodnoty znaku závisle proměnné y tak, že
změna x podmiňuje změnu průměru souborů hodnot y,
odpovídajících daným hodnotám x.
Závislost korelační
y
Určení těsnosti korelační závislosti
ˇ Úkolem korelačního počtu je vyjádřit tendenci změn hodnoty znaku
závisle proměnné při změně hodnoty znaku nezávisle proměnné
matematickou funkcí
ˇ Tato funkce představuje tzv. regresní čáru a vyjadřuje, jaká
hodnota znaku závisle proměnné odpovídá s největší
pravděpodobností určité hodnotě znaku nezávisle proměnné.
ˇ Odhad regresní závislosti je tím přesnější, čím větší je těsnost
korelační závislosti.
ˇ Určení těsnosti korelační závislosti je prvním krokem analýzy.
Charakteristiky korelační závislosti
Máme dva výběrové soubory náhodných veličin X, Y. Proměnlivost
hodnot znaku obou výběrů můžeme vyjádřit odchylkami dxi a dyi prvků
od jejich průměrů:
xxd ixi -= yyd iyi -=
Vzájemnou proměnlivost obou výběrových souborů
charakterizuje součin odchylek :
)()( yyxx ii --
Suma součinů odchylek vydělaná rozsahem výběrů n určuje tzv.
kovarianci výběrových souborů sxy ­ tedy první společnou
charakteristiku proměnlivosti obou souborů:
n
yyxx
s ii
xy
 --
=
)()(
Charakteristiky korelační závislosti
ˇ Kovariance je obdobou rozptylu
ˇ Omezenost - je mírou absolutní ­ nelze jí použít k porovnání těsnosti
vztahu dvou či více dvojic výběrových souborů.
Relativní míra ­ kovariance dělená součinem směrodatných odchylek sx
a sy obou výběrů - korelační koeficient rxy:
 

--
--
=

=
)(
1
)(
1
)()(
1
yy
n
xx
n
yyxx
n
ss
s
r
ii
ii
yx
xy
xy
3
Podmínky použitelnosti rxy
Výpočet rxy se opírá o rozptyl a směrodatnou odchylku
Jeho použití tedy předpokládá splnění tří následujících podmínek:
ˇ normální rozdělení použitých výběrů
ˇ dvojrozměrnost normálního rozdělení (každé hodnotě znaku
veličiny x odpovídá soubor hodnot znaku y, který má normální
rozdělení a naopak
ˇ linearita vztahu hodnot x a y (regresní čára je přímka)
Dokonalá korelační závislost přímá rxy = 1
Dokonalá korelační závislost nepřímá rxy = -1
Hodnota rxy nás informuje o druhu a těsnosti závislosti
Graf korelačního pole pro různá rxy
Graf korelačního pole pro různá rxy ??? Koeficient pořadové korelace (Spearmanův) (rs)
Používá se k určení závislosti kvalitativních znaků.
)1(
6
1 2
2
-
-= 
nn
D
r i
s
Každé hodnotě xi a yi přiřadíme pořadové číslo pxi a pyi podle
velikosti hodnot xi a yi.
Určíme rozdíly Di dvojic pořadových čísel odpovídajících si hodnot.
Koeficient pořadové korelace - příklad
Příklad: Kvantifikujte vztah mezi dobou, po kterou jsou pole
ponechána ladem a počtem rostlinných druhů (na m2).
902,0
)149(7
5,56
1
)1(
6
1 2
2
=
-×
×
-=
-
-=

nn
D
r
i
s
V tabulkách vyhledáme pro n=7 a p=0,05 kritickou hodnotu:
rkrit=0,786
Závěr: Existuje statisticky významný vztah mezi dobou, po kterou jsou pole
ponechána ladem a počtem rostlinných druhů, které se na nich vyskytují.
Koeficient determinace
ˇ Koeficient korelace se často ve výpočtech doplňuje hodnotou
koeficientu determinace (r2
xy).
ˇ Jeho hodnota kolísá v intervalu 0 až 1
ˇ Vynásoben 100 udává v procentech tu část rozptylu závisle
proměnné y, která je vysvětlena (podmíněna) změnami hodnot
nezávisle proměnné x.
4
Hodnocení významnosti koeficientu korelace
Významnost rxy závisí na povaze řešeného problému
Jeho hodnota je mírou relativní a posouzení těsnosti je do značné
míry subjektivní.
Významnost rxy lze též zjistit objektivně ­ testováním:
Ze dvou základních jednorozměrných souborů lze provést sérii dvojic
výběrů, které mají koeficienty korelace rxy.
Soubor těchto výběrových koeficientů korelace má při velkých
výběrech a při hodnotě korelačního koeficientu základního souboru ()
blízké nule tzv. normální rozdělení.
Jeho průměr je =  a směrodatná odchylka sr se vypočte podle
vztahu:
xyr
1
1 2
-
-
=
n
sr

Při testování rxy vycházíme z nulové hypotézy, která je  = 0 (tedy
mezi dvěma základními soubory nepředpokládáme žádný korelační
vztah). Testovací kritérium se vypočte podle vztahu:
Hodnocení významnosti koeficientu korelace
2
1
2
-
-
= n
r
r
t
xy
xy
Přísluší mu t-rozdělení s  = n - 2 stupni volnosti.
S určitou pravděpodobností - tedy na určité hladině významnosti
předpokládáme, že hodnota t nepřekročí kritickou hodnotu tp (při
správnosti nulové hypotézy).
V opačném případě zamítáme nulovou hypotézu ­ mezi výběry
náhodných veličin vztah existuje.
Nelineární závislost dvou výběrových souborů
V případě, kdy regresní čára není přímka, ale je vyjádřena složitější
matematickou funkcí, se jako míry korelační závislosti používá tzv.
korelační poměr (yx).
Prvky výběru závisle proměnné yi rozdělíme podle hodnot nezávisle
proměnné xi do skupin označených yj a pro každou skupinu vypočteme
průměr . Korelační poměr se vypočte podle vztahu:


-
-
=
-
-
= 22
2
2
(
)(
)(
yny
ynny
yy
nyy
i
jj
i
jj
yx
V uvedeném vzorci je nj četnost v yj. Při výpočtu záleží na tom, kterou
proměnou zvolíme za závislou a kterou za nezávislou.
Porovnání hodnot korelačního koeficientu a korelačního poměru lze
použít jako kritéria linearity vztahu.
Pokud se hodnoty přibližně rovnají, jedná se o závislost lineární, pokud
je rxy výrazně větší, jde o závislost nelineární.
jy
Koeficient mnohonásobné korelace (rxyz)
Používá se pro hodnocení korelační závislosti tří nebo více výběrů
náhodných veličin.
Při jeho určení se vychází z jednotlivých korelačních koeficientů pro dva
výběry (rxy, rxz, ryz) a jejich hodnoty se dosazují do vzorce pro rxyz:
2
22
1
2
xy
yzxzxyyzxz
xyz
r
rrrrr
r
-
-+
=
Dílčí (parciální) korelace:
Řeší otázku vlivu jedné nebo více nezávisle proměnných na
závisle proměnnou při vyloučení vlivu zbývajících nezávisle
proměnných, u nichž předpokládáme konstantní hodnotu.
Jedná se o zvláštní případ mnohonásobné korelace.
Hodnota koeficientu dílčí korelace rxy.z se vypočte podle vztahu:
Tečkou v indexu se označuje nezávisle proměnná, jejíž hodnotu
považujeme za konstantní.
)1()1(
22
yzxz
yzxzxy
zxy
rr
rrr
r
--
-
=
Poznámky k aplikaci korelačního počtu:
Použití korelačního počtu je nevhodné např. v těchto případech:
ˇ Korelace je způsobena formálními vztahy mezi veličinami
(hodnoty x a y se doplňují do 100%)
ˇ Korelace je způsobena nehomogenitou studovaného materiálu
(obsahuje tzv. subpopulace ­ viz. obr. bodového grafu)
ˇ Korelace je výsledkem působení třetí veličiny (korelace mezi
počtem čapích hnízd a počtem novorozenců)
5
Měření závislosti kvalitativních znaků
ˇ Kvalitativní znaky mají slovní charakter a získáváme je
v sociologických průzkumech, při terénním šetření apod.
ˇ Slovní charakter mají odpovědi na otázky týkající se
např. pohlaví, vzdělání nebo povolání respondenta atd.
ˇ K popsání vztahu závislosti spojitých kvantitativních
veličin slouží korelační koeficient.
ˇ K charakterizování závislostí kvalitativních znaků slouží
tzv. kontingenční tabulky
Klasifikace kvalitativních znaků:
ˇ Podle počtu možných obměn dělíme znaky na alternativní (také
dvojné) nabývající pouze dvou obměn a znaky množné, nabývající
více než dvou obměn,
ˇ Podle možnosti určit objektivní pořadí obměn na znaky, které mají
pořadový charakter (např. vzdělání, stupeň souhlasu či
nesouhlasu apod.) a znaky, které tento charakter nemají (např.
povolání, typ absolvovaného vzdělání, značka výrobku) a u nichž
tedy objektivní uspořádání není možné,
ˇ Podle toho zda lze jednoznačně vymezit kde ,,začíná" a ,,končí"
každá obměna znaku nebo nelze (např. u barevných odstínů)
dělíme znaky na nespojité a spojité.
Statistická analýza kvalitativních znaků:
ˇ Statistické zpracování jednoho slovního znaku spočívá jednak v jeho
třídění
ˇ Nejčastěji se jedná o prosté třídění podle jednotlivých obměn
slovního znaku a o stanovení absolutních nebo relativních četností.
ˇ V omezené míře lze určovat charakteristiky úrovně (modus, u
pořadových znaků medián, nikdy aritmetický průměr).
ˇ Existují i speciální charakteristiky proměnlivosti.
ˇ O měření závislosti má smysl uvažovat, je-li k dispozici dvojice
slovních znaků.
Měření závislosti kvalitativních znaků
Spočívá v sestavení tzv. kontingenční tabulky
Z kontingenční tabulky lze určit intenzitu závislosti ve dvojici slovních
znaků.
Nelze z ní však určit průběh závislosti. O směru závislosti má smysl se
vyslovit pouze v případě pořadových slovních znaků.
Máme-li dva alternativní znaky dostaneme tzv. čtyřpolní tabulku.
Měření závislosti kvalitativních znaků
Obecně může mít každý kvalitativní znak A r tříd a znak B s tříd.
Výsledky šetření potom sestavujeme do kontingenční tabulky r x s.
Pozorované četnosti v jednotlivých buňkách označujeme dvěma
indexy ­ obecně nij.
Také marginální četnosti mají dva indexy.
Ten, přes který je sčítáno je označen hvězdičkou ­ tedy n2* značí
součet četností v druhé řádce, n*1 značí součet četností v prvním
sloupci.
Tabulka bývá doplněna hodnotami procentuálních (relativních)
četností. Častým požadavkem je konstantní délka intervalů tvořících
třídy.
Stejně jako v případě kvantitativních znaků ověřujeme i zde existenci
vztahu testy významnosti a hodnotíme ho vhodnou mírou závislosti.
Kontingenční tabulka typu r x s
6
Podmíněné četnosti uvnitř kontingenční tabulky mají podobný význam
jako body korelačního diagramu -- jejich rozmístění umožňuje usuzovat
na charakter závislosti tříděných znaků.
Pro posouzení nezávislosti obou znaků můžeme vedle pozorovaných
četností stanovit pro jednotlivá pole také očekávané (teoretické) četnosti :
Posuzování závislosti v kontingenčních tabulkách
tedy jako součin okrajových četností příslušného řádku a sloupce dělený
rozsahem souboru.
Pro každé pole kontingenční tabulky existuje dvojice četností - četnost
pozorovaná a četnost vypočtená.
n
nn
n ji
ij
**'
=
Ukazatel, který pro tabulku jako celek měří rozdílnost pozorovaných a
vypočtených četností v jednotlivých polích tabulky se nazývá čtvercová
kontingence 2

ij
ijij
r
i
s
j n
nn

-
=  
= =
2
1 1
2 )(

Je to bezrozměrná hodnota a platí:
Hodnoty nula nabývá pouze v případě, že znaky v kontingenční tabulce
jsou nezávislé.
Hypotéza nezávislosti
02

Vypočtená hodnota se porovnává na zvolené hladině významnosti
p s kritickou hodnotou rozdělení pro (r-1)(s-1) stupňů volnosti.2

2

Hypotézu zamítáme, jestliže vypočtená hodnota je větší než tabulková,
případě, když jí příslušející p-hodnota je menší než zvolená hladina
významnosti.
Jsou konstruovány tak, aby jejich hodnota závisela pouze na intenzitě
závislosti.
Koeficienty kontingence měří intenzitu závislosti pro dvojici slovních
znaků.
Pearsonův koeficient kontingence:
Koeficienty kontingence
n
P
+
= 2
2


nabývá hodnot 10 < P
Maximální možná hodnota čtvercové kontingence závisí na rozměrech
kontingenční tabulky a rozsahu souboru - z toho důvodu není
nejvhodnějším ukazatelem intenzity závislosti.
Na bázi čtvercové kontingence jsou konstruovány vhodnější ukazatele -
koeficienty kontingence.
Příklad analýzy závislosti v tabulce r x s
Pro výběr 234 studentů zjišťujeme, zda existuje vztah mezi sportem, který
provozují a sportovními pořady, které sledují v televizi.
Sestavíme tabulku typu 4 x 4:
Hypotéza nezávislosti H0: Neexistuje vztah mezi provozovaným sportem
a sportem sledovaným v TV.
Vypočtená hodnota testovacího kritéria
Kritická hodnota z tabulek pro p=0,05 a (4-1)x(4-1)=9 stupňů volnosti:
Závěr: H0 zamítáme, existuje významný vztah.
3,2732
=
9,162
=
Sílu tohoto vztahu lze posoudit
Pearsonovým koeficientem
kontingence
n
P
+
= 2
2


71,0
2743,273
3,273
=
+
=
Testování nezávislosti v tabulce 2 x 2
Pro výpočet testovacího kritéria v tabulce 2 x 2 můžeme využít
zjednodušený vzorec:
2

))()()((
)( 2
2
dbcadcba
bcadn
++++
-
=
Protože v 2x2 tabulce můžeme uvažovat i směr poruchy nulové hypotézy
­ proto musíme rozhodnout, zda použijeme test jednostranný či
dvoustranný.
Kritické hodnoty jsou uvedeny v tabulce - rozdělení o jednom stupni
volnosti.
2

Příklad analýzy závislosti v tabulce 2 x 2
Hypotéza nezávislosti H0: Relativní četnost studentů se zájmem o
statistiku je nezávislá na pohlaví.
Vypočtená hodnota testovacího kritéria:
Kritická hodnota -rozdělení z tabulek pro p=0,05: 3,84
Závěr: H0 zamítáme, existuje významný rozdíl.
Zájem u chlapců: 30/66 = 0,45
Zájem u dívek: 11/74 = 0,14
Chlapci mají zhruba 3x větší zájem o statistiku než dívky.
8,15
74669941
)36116330(140 2
2
=
×××
×-×
=
2

7
Regresní analýza
ˇ Úkolem regresní analýzy je sestavit vztah (model) závislosti mezi
závisle a nezávisle proměnnou.
ˇ Stejně jako v případě korelačního počtu je prvním indikátorem
možného vztahu obou studovaných veličin graf pole hodnot.
ˇ Z grafu je patrný typ závislosti (tato může být lineární či nelineární, ...)
Určení lineární regresní závislosti
Nejjednodušším případem regresní závislosti je případ, kdy regresní
funkce je přímkou. Rovnice regresní přímky má tvar:
Symbol y' se používá pro označení nejpravděpodobnější teoretické
hodnoty y odpovídající danému x, která leží na regresní přímce a
která se odlišuje od konkrétních hodnot yi, které se nacházejí mimo ni.
y' = a + bx
MNČ
Průběh regresní přímky je určen tzv.
metodou nejmenších čtverců, kdy
musí být splněna podmínka takového
průběhu přímky, při kterém je součet
čtverců vzdálenosti všech bodů pole
od přímky minimální, tedy platí:
Výpočet vertikální vzdálenosti bodů korelačního pole od regresní přímky
se provádí podle uvedeného obrázku. Z něho je zřejmé, že pro vzdálenost
konkrétní hodnoty závisle proměnné yi od bodu regresní přímky yi' musí
platit:
iiiiii bxaybxayyy --=+-=- )(
'
Součet čtverců svislých vzdáleností yi od regresní přímky je potom:
  =--=- Abxayyy iiii
22'
)()(
min)( 2'
=- ii yy
MNČ
Pro MNČ musí platit
 =--= min)( 2
ii bxayA
Následnými úpravami lze obdržet vztahy pro výpočet koeficientů
regresní přímky a,b


-
-
= 22
xnx
yxnyx
b
i
ii
xbya -=
Koeficient b (angl. slope) se označuje jako koeficient regrese a je
směrnicí regresní přímky (tangentou úhlu, který přímka a svírá s osou
x). Je-li b>0, mluvíme o regresi pozitivní, je-li b<0 o regresi negativní.
Výpočet koeficientů regresní přímky
Vzorec pro výpočet koeficientu b lze zjednodušit pomocí vztahů pro
kovarianci sxya směrodatnou odchylku sx, tedy:
2
x
xy
s
s
b =
Hodnota koeficientu a (angl. intercept) představuje y-ovou souřadnici
průsečíku regresní přímky s osou y (tedy při x=0).
Dosazením výrazu pro koeficient a do rovnice přímky
y' = a + bx dostaneme:
xbya -=
xbybxy -+='
)('
xxbyy -=-
Tohoto vztahu lze využít pro konstrukci regresní přímky ­ pro dvě zvolená x1,
x2 vypočteme y1 a y2 a souřadnice obou bodů vyneseme do korelačního
diagramu. Regresní přímka vznikne proložením oběma body.
Intervaly a pásy spolehlivosti lineární
regresní závislosti
ˇ Konstrukci regresní přímky provádíme na základě výběrových
souborů.
ˇ Proto se její rovnice může u různých výběrů ze stejných
základních souborů lišit.
ˇ Z tohoto důvodu je potřebné doplnit průběh regresní přímky také
tzv. intervaly spolehlivosti.
ˇ Výpočtem intervalů spolehlivosti určujeme pro vybraná x interval,
v němž se mohou s určitou pravděpodobností vyskytovat hodnoty y
s tím, že jejich nejreprezentativnější hodnota je y'.
8
Intervaly a pásy spolehlivosti
Nejprve je zapotřebí zvolit interval spolehlivosti ­ tedy pravděpodobnost,
s níž očekáváme výskyt hodnot y v určených mezích 1-p (p=0,05 či 0,01).
Poloviční šířka intervalu spolehlivosti l je dána výrazem:
2
1
-
= -
n
Ah
tl p 2
2
)1(
)(1
xsn
xx
n
h
-
-
+=
Hodnota tp je kritická hodnota rozdělení pro n-2 stupňů volnosti a hladinu
významnosti p. Meze intervalů spolehlivosti určíme pomocí hodnot y' z
rovnice
horní mez: y' + l
dolní mez: y' - l
)('
xxbyy -=-
Pásy spolehlivosti vzniknou spojením
krajních bodů intervalů spolehlivosti.
Nelineární regrese
Popisuje regresní vztah dvou proměnných, který nelze vyjádřit přímkou.
Může mít tvar např. logaritmických či exponenciálních funkcí a nebo je
vztah vyjádřen rovnicí polynomu m-tého stupně.
Nelineární regrese
Volbu vhodné funkce, která by nejlépe vystihovala povahu studované
závislosti provádíme na základě výpočtu směrodatné chyby aritmetického
průměru (viz. ­ Odhady parametrů a intervaly spolehlivosti).
Určení hodnoty směrodatné chyby aritmetického průměru spočívá
v určení sumy čtverců odchylek A konkrétních hodnot yi závisle
proměnné od teoretických hodnot y'i tedy:
n
yy
n
A
c ii
y
2'
)( -
==
yc
  =--=- Abxayyy iiii
22'
)()(
Povaze studované závislosti vyhovuje nejlépe ta z uvažovaných funkcí,
která má hodnotu směrodatné chyby minimální.
Konkrétní balíky statistických programů obsahují obvykle řadu nástrojů
pro zvolení vhodné regresní závislosti.
Testování významnosti regresní čáry
ˇ K testování významnosti zjištěné regresní závislosti lze využít t-testu,
kterým lze zjistit, zda se gradient (směrnice) významně liší od nuly
ˇ Nejčastěji se však používá techniky označované jako analýza rozptylu
(ANOVA).
ˇ Princip: Zjistíme celkovou proměnlivost hodnot y a následně
vypočteme, z jaké části je tato celková variabilita objasněna proměnlivostí
v hodnotách x.
SStotal - celková variabilita: celková suma čtverců: od každé hodnoty y
odečteme průměr, výsledek povýšíme na druhou a sečteme pro všechna y.
Testování významnosti regresní čáry
( )

-=
n
y
ySStotal
2
2
( )
n
x
x
n
yx
xy
SSregrese 2
2
2


-


-
=
regresetotalíreziduá SSSSSS -=ln
Celkovou variabilitu SStotal lze rozdělit na dvě části:
SSregrese - variabilitu vysvětlenou regresní čarou
SSreziduální ­ zbytková variabilita nevysvětlená regresním modelem
Testování významnosti regresní čáry
Tabulka ANOVA
total
regres
SS
SS
r =2
Koeficient determinace regresní závislosti:
9
Příklad regresní analýzy v EXCELu
Existuje signifikantní pokles hladiny hluku se vzdáleností od komunikace.
Lineární regresní model vysvětluje 93,9 % variability hodnot hladiny hluku