1 Z1069 Statistické metody a zpracování dat VI. Korelační a regresní počet K čemu to je dobré? • V řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme ne jednu jejich vlastnost (znak), ale znaků několik. • Tyto znaky mohu být navzájem závislé. • Cílem této části statistiky je vyšetřovat, do jaké míry spolu dva či více statistických znaků souvisí. • Do jaké míry změna hodnoty jednoho znaku podmiňuje změnu hodnot znaku jiného. Analýza závislostí Př. Vztah mezi teplotou vzduchu a nadmořskou výškou, mezi množstvím srážek a velikostí odtoku, mezi výnosy a hodnotami několika meteorologických prvků, mezi počtem dojíždějících a vzdáleností od centra dojížďky, … Příklady použití • Budeme tedy pracovat s dvourozměrnými soubory • Korelační i regresní počet však lze využít i pro studium vícerozměrných souborů, pro studium znaků kvantitativních i kvalitativních. • Předmětem statistické analýzy v tomto případě bude stanovení síly závislosti a druhu závislosti • Analýzou síly závislosti statistických znaků se zabývá korelační počet • Analýzou druhu závislosti statistických znaků se zabývá regresní počet Analýza závislostí Druhy závislostí • Vztahy jednostranné: Změna statistického znaku jednoho souboru náhodné veličiny - tzv. nezávisle proměnné (x) podmiňuje změnu statistického znaku souboru druhé náhodné veličiny - tzv. závisle proměnné (y). • V tomto případě jde o vztahy příčiny a následku • Vztahy vzájemné: Nelze rozlišit mezi souborem závisle a nezávisle proměnné (např. vztah hodnot teploty vzduchu na dvou sousedních stanicích) • závislost funkční • závislost korelační Druhy závislostí: Závislost funkční Každé hodnotě znaku nezávisle proměnné náhodné veličiny x odpovídá vždy pouze jediná určitá hodnota závisle proměnné veličiny y dráha v metre ch čas v sekundách 1000 2000 3000 4000 0 10 20 30 2 2 1 gts = 2 Se změnou hodnoty znaku nezávisle proměnné x se mění podmíněná rozdělení relativních četností hodnoty znaku závisle proměnné y tak, že změna x podmiňuje změnu průměru souborů hodnot y, odpovídajících daným hodnotám x. Závislost korelační y Charakteristiky korelační závislosti Máme dva výběrové soubory náhodných veličin X, Y. Proměnlivost hodnot znaku obou výběrů můžeme vyjádřit odchylkami dxi a dyi prvků od jejich průměrů: xxd ixi −= yyd iyi −= Vzájemnou proměnlivost obou výběrových souborů charakterizuje součin odchylek : )()( yyxx ii −⋅− Suma součinů odchylek vydělaná rozsahem výběrů n určuje tzv. kovarianci výběrových souborů sxy – tedy první společnou charakteristiku proměnlivosti obou souborů: 1 )()( − −⋅− = ∑ n yyxx s ii xy Charakteristiky korelační závislosti • Kovariance je obdobou rozptylu • Omezenost - je mírou absolutní – nelze jí použít k porovnání těsnosti vztahu dvou či více dvojic výběrových souborů. Relativní míra – kovariance dělená součinem směrodatných odchylek sx a sy obou výběrů - korelační koeficient rxy: ∑ ∑ ∑ − − ⋅− − −⋅− −= ⋅ = 22 )( 1 1 )( 1 1 )()( 1 1 yy n xx n yyxx n ss s r ii ii yx xy xy Charakteristiky korelační závislosti Úpravou výše uvedeného vztahu lze korelační koeficient rxy vypočítat také podle následujícího vzorce: ( ) ( ) ][][ 2222 ∑∑∑∑ ∑ ∑∑ −⋅− − = yynxxn yxxyn rxy (vzorec je uveden pouze pro názornost výpočtu v následujícím příkladu) Hodnota korelačního koeficientu kolísá v intervalu od -1 do 1 • rxy -> 0 nezávislost • rxy -> -1 nepřímá závislost • rxy -> 1 přímá závislost Interpretace rxy Příklad Ze 13 různých lokalit na výsypkách máme k dispozici měření pH půdy a údaje o počtu rostlinných druhů. Máme zjistit, zda existuje závislost mezi pH a počtem rostlinných druhů? ( ) ( ) ][][ 2222 ∑∑∑∑ ∑ ∑∑ −⋅− − = yynxxn yxxyn rxy x y x2 y2 xy 2.8 17 7.8 289 47.6 2.9 7 8.4 49 20.3 3.8 10 14.4 100 38.0 4.5 22 20.3 484 99.0 7.1 40 50.4 1600 284.0 6.5 25 42.3 625 162.5 3.0 5 9.0 25 15.0 4.7 5 22.1 25 23.5 5.2 22 27.0 484 114.4 4.0 7 16.0 49 28.0 4.8 6 23.0 36 28.8 6.3 43 39.7 1849 270.9 7.2 19 51.8 361 136.8 pH počet druhů 8,62=∑x ( ) 84,3943 2 =∑x 228=∑y ( ) 51984 2 =∑y 3,3322 =∑x 596762 =∑y 8,1268=∑xy ]519845976*13[]84,39433,332*13[ 228*8,628,1268*13 −⋅− − =xyr 700,0=xyr Příklad - pokračování 700,0=xyr • Je zjištěný vztah statisticky významný? • (H0: rxy se významně neliší od nuly – viz. dále) Ze statistických tabulek zjistíme: Hodnotě přísluší pro ν = n – 2 = 11 na hladině významnosti α = 0,05 kritická hodnota rkrit = 0,553 Závěr: prokázali jsme statisticky významný vztah mezi pH a množstvím rostlinných druhů rostoucích na výsypkách. 3 Příklad Řešení v programu Statistica: Statistika – Základní statistiky/tabulky – Korelační matice korelační matice Graf korelačního pole doplněný regresní přímkou a intervaly spolehlivosti (viz. dále) Příklad Statistika – Základní statistiky/tabulky – Korelační matice Korelační matice – rxy mezi dvojicemi více proměnných Příklad Statistika – Základní statistiky/tabulky – Korelační matice – Matice bodových grafů Koeficient determinace • Koeficient korelace se často ve výpočtech doplňuje hodnotou koeficientu determinace (r2 xy). • Jeho hodnota kolísá v intervalu 0 až 1 • Vynásoben 100 udává v procentech tu část rozptylu závisle proměnné y, která je vysvětlena (podmíněna) změnami hodnot nezávisle proměnné x. V našem případě: %4949,02 ==xyr700,0=xyr Interpretace: Změna počtu druhů rostlin na výsypkách je z 49 % podmíněna změnami pH půdy na kterých tyto rostliny rostou. Podmínky použitelnosti rxy Výpočet rxy se opírá o rozptyl a směrodatnou odchylku Jeho použití tedy předpokládá splnění tří následujících podmínek: • normální rozdělení použitých výběrů • dvojrozměrnost normálního rozdělení (každé hodnotě znaku veličiny x odpovídá soubor hodnot znaku y, který má normální rozdělení a naopak • linearita vztahu hodnot x a y (regresní čára je přímka) Dokonalá korelační závislost přímá rxy = 1 Dokonalá korelační závislost nepřímá rxy = -1 Hodnota rxy nás informuje o druhu a těsnosti závislosti Graf korelačního pole pro různá rxy 4 Graf korelačního pole pro různá rxy ??? Důležitá role explorační (průzkumové) analýzy dat Hodnocení významnosti koeficientu korelace • Při velkém rozsahu souboru (n) roste pravděpodobnost, že i relativně malá hodnota korelačního koeficientu (rxy) nám vyjde jako statisticky významná – tedy zamítneme nulovou hypotézu, že se rxy neliší od nuly. • K vyhodnocení míry závislosti nelze přistupovat formálně • malý rozsah souboru (n = 4) • rxy = 0.95 • p = 0.0613 • velký rozsah souboru (n = 33) • rxy = 0.52 • p = 0.0018 Hodnocení významnosti koeficientu korelace • Významnost rxy závisí na povaze řešeného problému • Jeho hodnota je mírou relativní a posouzení těsnosti je do značné míry subjektivní. Významnost rxy lze též zjistit objektivně – testováním rxy – korelační koeficient mezi dvěma výběrovými soubory hodnot x a y ρ – korelační koeficient mezi dvěma základními soubory hodnot x a y Hodnota rxy je odhadem hodnoty ρ Při testování rxy vycházíme z nulové hypotézy, která je ρ = 0 (tedy mezi dvěma základními soubory nepředpokládáme žádný korelační vztah). Testovací kritérium se vypočte podle vztahu: Hodnocení významnosti koeficientu korelace 2 1 2 −⋅ − = n r r t xy xy Přísluší mu t-rozdělení s ν = n - 2 stupni volnosti. S určitou pravděpodobností - tedy na určité hladině významnosti předpokládáme, že hodnota t nepřekročí kritickou hodnotu tp (při správnosti nulové hypotézy). V opačném případě zamítáme nulovou hypotézu – mezi výběry náhodných veličin vztah existuje. Hodnocení významnosti koeficientu korelace - tabulky Koeficient pořadové korelace (Spearmanův) (rs) Používá se k určení závislosti kvalitativních znaků. )1( 6 1 2 2 −⋅ −= ∑ nn D r i s Každé hodnotě xi a yi přiřadíme pořadové číslo pxi a pyi podle velikosti hodnot xi a yi. Určíme rozdíly Di dvojic pořadových čísel odpovídajících si hodnot. 5 Koeficient pořadové korelace - příklad Příklad: Kvantifikujte vztah mezi dobou, po kterou jsou pole ponechána ladem a počtem rostlinných druhů (na m2). 902,0 )149(7 5,56 1 )1( 6 1 2 2 = −× × −= −⋅ −= ∑ nn D r i s V tabulkách vyhledáme pro n=7 a α=0,05 kritickou hodnotu: rkrit=0,786 Závěr: Existuje statisticky významný vztah mezi dobou, po kterou jsou pole ponechána ladem a počtem rostlinných druhů, které se na nich vyskytují. Koeficient pořadové korelace Řešení v programu Statistica: Statistika – Neparametrická statistika – Korelace (Spearman, Kendallovo Tau, Gama) Nelineární závislost Prvky výběru závisle proměnné yi rozdělíme podle hodnot nezávisle proměnné xi do skupin označených yj a pro každou skupinu vypočteme průměr . Korelační poměr se vypočte podle vztahu: V uvedeném vzorci je nj četnost v yj. Při výpočtu záleží na tom, kterou proměnou zvolíme za závislou a kterou za nezávislou. Porovnání hodnot korelačního koeficientu a korelačního poměru lze použít jako kritéria linearity vztahu. Pokud se hodnoty přibližně rovnají, jedná se o závislost lineární, pokud je rxy výrazně větší, jde o závislost nelineární. jy V případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí, se jako míry korelační závislosti používá tzv. korelační poměr (ηyx). ∑ ∑ ∑ ∑ − − = − ⋅− = 22 2 2 )( )( )( yny ynny yy nyy i jj i jj yxη Koeficient mnohonásobné korelace (rxyz) Používá se pro hodnocení korelační závislosti tří nebo více výběrů náhodných veličin. Při jeho určení se vychází z jednotlivých korelačních koeficientů pro dva výběry (rxy, rxz, ryz) a jejich hodnoty se dosazují do vzorce pro rxyz: 2 22 1 2 xy yzxzxyyzxz xyz r rrrrr r − ⋅⋅−+ = Příklad – viz. vícerozměrná regrese Vztah dvou proměnných je často ovlivněn dalšími proměnnými. Dílčí (parciální) korelace: Řeší otázku vlivu jedné nebo více nezávisle proměnných na závisle proměnnou při vyloučení vlivu zbývajících nezávisle proměnných, u nichž předpokládáme konstantní hodnotu. Jedná se o zvláštní případ mnohonásobné korelace, kdy další proměnné považujeme za „rušivé“ (např. věk, počet obyvatel sídla, …). Hodnota koeficientu dílčí korelace rxy.z se vypočte podle vztahu: Tečkou v indexu se označuje nezávisle proměnná, jejíž hodnotu považujeme za konstantní. 22 )1()1( yzxz yzxzxy zxy rr rrr r −⋅− ⋅− =⋅ Parciální korelace Příklad (viz. Brázdil a kol., 1995, str. 129, cvič. 8.3) Způsob zadání proměnných (korelace mezi y a z při vyloučení vlivu x) 6 Poznámky k aplikaci korelačního počtu: Použití korelačního počtu je nevhodné např. v těchto případech: • Korelace je způsobena formálními vztahy mezi veličinami (hodnoty x a y se doplňují do 100%) • Korelace je způsobena nehomogenitou studovaného materiálu (obsahuje tzv. subpopulace – viz. obr. bodového grafu) • Korelace je výsledkem působení třetí veličiny (korelace mezi počtem lékařů a počtem nemocných, …)