Statistické metody a zpracování dat VII. Korelační a regresní počet Petr Dobrovolný K čemu to je dobré? ˇ V řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme ne jednu jejich vlastnost (znak), ale znaků několik. ˇ Tyto znaky mohu být navzájem závislé. ˇ Cílem této části statistiky je vyšetřovat, do jaké míry spolu dva či více statistických znaků souvisí. ˇ Do jaké míry změna hodnoty jednoho znaku podmiňuje změnu hodnot znaku jiného. Analýza závislostí Př. Vztah mezi teplotou vzduchu a nadmořskou výškou, mezi množstvím srážek a velikostí odtoku, mezi výnosy a hodnotami několika meteorologických prvků, mezi počtem dojíždějících a vzdáleností od centra dojížďky, ... Příklady použití ˇ Budeme tedy pracovat s dvourozměrnými soubory ˇ Korelační i regresní počet však lze využít i pro studium vícerozměrných souborů, pro studium znaků kvantitativních i kvalitativních. ˇ Předmětem statistické analýzy v tomto případě bude stanovení síly závislosti a druhu závislosti ˇ Analýzou síly závislosti statistických znaků se zabývá korelační počet ˇ Analýzou druhu závislosti statistických znaků se zabývá regresní počet Analýza závislostí Druhy závislostí ˇ Vztahy jednostranné: Změna statistického znaku jednoho souboru náhodné veličiny - tzv. nezávisle proměnné (x) podmiňuje změnu statistického znaku souboru druhé náhodné veličiny - tzv. závisle proměnné (y). ˇ V tomto případě jde o vztahy příčiny a následku ˇ Vztahy vzájemné: Nelze rozlišit mezi souborem závisle a nezávisle proměnné (např. vztah hodnot teploty vzduchu na dvou sousedních stanicích) ˇ V geografii ­ tzv. prostorová autokorelace ˇ Závislost funkční ˇ Závislost statistická ˇ Závislost korelační Druhy závislostí: Závislost funkční Každé hodnotě znaku nezávisle proměnné náhodné veličiny x odpovídá vždy pouze jediná určitá hodnota závisle proměnné veličiny y dráha v metre ch čas v sekundách 1000 2000 3000 4000 0 10 20 30 2 2 1 gts = Závislost statistická ˇ Každé hodnotě znaku nezávisle proměnné náhodné veličiny x odpovídá více hodnot závisle proměnné veličiny y, ˇ Hodnoty y mají své rozdělení ˇ Při změně znaku nezávisle proměnné x mění podmíněná rozdělení relativních četností závisle proměnné y Se změnou hodnoty znaku nezávisle proměnné x se mění podmíněná rozdělení relativních četností hodnoty znaku závisle proměnné y tak, že změna x podmiňuje změnu průměru souborů hodnot y, odpovídajících daným hodnotám x. Závislost korelační y Určení těsnosti korelační závislosti ˇ Úkolem korelačního počtu je vyjádřit tendenci změn hodnoty znaku závisle proměnné při změně hodnoty znaku nezávisle proměnné matematickou funkcí ˇ Tato funkce představuje tzv. regresní čáru a vyjadřuje, jaká hodnota znaku závisle proměnné odpovídá s největší pravděpodobností určité hodnotě znaku nezávisle proměnné. ˇ Odhad regresní závislosti je tím přesnější, čím větší je těsnost korelační závislosti. ˇ Určení těsnosti korelační závislosti je prvním krokem analýzy. Charakteristiky korelační závislosti Máme dva výběrové soubory náhodných veličin X, Y. Proměnlivost hodnot znaku obou výběrů můžeme vyjádřit odchylkami dxi a dyi prvků od jejich průměrů: xxd ixi -= yyd iyi -= Vzájemnou proměnlivost obou výběrových souborů charakterizuje součin odchylek : )()( yyxx ii -- Suma součinů odchylek vydělaná rozsahem výběrů n určuje tzv. kovarianci výběrových souborů sxy ­ tedy první společnou charakteristiku proměnlivosti obou souborů: 1 )()( - -- = n yyxx s ii xy Charakteristiky korelační závislosti ˇ Kovariance je obdobou rozptylu ˇ Omezenost - je mírou absolutní ­ nelze jí použít k porovnání těsnosti vztahu dvou či více dvojic výběrových souborů. Relativní míra ­ kovariance dělená součinem směrodatných odchylek sx a sy obou výběrů - korelační koeficient rxy: - - - - -- -= = 22 )( 1 1 )( 1 1 )()( 1 1 yy n xx n yyxx n ss s r ii ii yx xy xy Charakteristiky korelační závislosti Úpravou výše uvedeného vztahu lze korelační koeficient rxy vypočítat také podle následujícího vzorce: ( ) ( ) ][][ 2222 -- - = yynxxn yxxyn rxy (vzorec je uveden pouze pro názornost výpočtu v následujícím příkladě) Příklad Jaká je závislost mezi pH půdy na výsypkách a počtem rostlinných druhů? ( ) ( ) ][][ 2222 -- - = yynxxn yxxyn rxy 136.836151.8197.2 270.9184939.7436.3 28.83623.064.8 28.04916.074.0 114.448427.0225.2 23.52522.154.7 15.0259.053.0 162.562542.3256.5 284.0160050.4407.1 99.048420.3224.5 38.010014.4103.8 20.3498.472.9 47.62897.8172.8 xyy2x2yx pH počet druhů 8,62=x ( ) 84,3943 2 =x 228=y ( ) 51984 2 =y 3,3322 =x 596762 =y 8,1268=xy ]519845976*13[]84,39433,332*13[ 228*8,628,1268*13 -- - =xyr 700,0=xyr Příklad - pokračování 700,0=xyr Interpretace: ze statistických tabulek zjistíme: Hodnotě přísluší pro = n ­ 2 = 11 na hladině významnosti = 0,05 kritická hodnota rkrit = 0,553 Závěr: prokázali jsme statisticky významný vztah mezi pH a množstvím rostlinných druhů rostoucích na výsypkách. Příklad Řešení v programu Statistica: Statistika ­ Základní statistiky/tabulky ­ Korelační matice korelační matice Graf korelačního pole doplněný regresní přímkou a intervaly spolehlivosti (viz. dále) Příklad Statistika ­ Základní statistiky/tabulky ­ Korelační matice Korelační matice ­ rxy mezi dvojicemi více proměnných Příklad Statistika ­ Základní statistiky/tabulky ­ Korelační matice ­ Matice bodových grafů Koeficient determinace ˇ Koeficient korelace se často ve výpočtech doplňuje hodnotou koeficientu determinace (r2 xy). ˇ Jeho hodnota kolísá v intervalu 0 až 1 ˇ Vynásoben 100 udává v procentech tu část rozptylu závisle proměnné y, která je vysvětlena (podmíněna) změnami hodnot nezávisle proměnné x. V našem případě: %4949,02 ==xyr700,0=xyr Interpretace: Změna počtu druhů rostlin na výsypkách je z 49 % podmíněna změnami pH půdy na kterých tyto rostliny rostou. Podmínky použitelnosti rxy Výpočet rxy se opírá o rozptyl a směrodatnou odchylku Jeho použití tedy předpokládá splnění tří následujících podmínek: ˇ normální rozdělení použitých výběrů ˇ dvojrozměrnost normálního rozdělení (každé hodnotě znaku veličiny x odpovídá soubor hodnot znaku y, který má normální rozdělení a naopak ˇ linearita vztahu hodnot x a y (regresní čára je přímka) Dokonalá korelační závislost přímá rxy = 1 Dokonalá korelační závislost nepřímá rxy = -1 Hodnota rxy nás informuje o druhu a těsnosti závislosti Graf korelačního pole pro různá rxy Graf korelačního pole pro různá rxy ??? Hodnocení významnosti koeficientu korelace větší rxy větší n menší p hodnota větší pravděpodobnost zamítnutí nulové hypotézy Hodnocení významnosti koeficientu korelace ˇ Významnost rxy závisí na povaze řešeného problému ˇ Jeho hodnota je mírou relativní a posouzení těsnosti je do značné míry subjektivní. Významnost rxy lze též zjistit objektivně ­ testováním: Ze dvou základních jednorozměrných souborů lze provést sérii dvojic výběrů, které mají koeficienty korelace rxy. Soubor těchto výběrových koeficientů korelace má při velkých výběrech a při hodnotě korelačního koeficientu základního souboru () blízké nule tzv. normální rozdělení. Jeho průměr je = a směrodatná odchylka sr se vypočte podle vztahu: xyr 1 1 2 - - = n sr Při testování rxy vycházíme z nulové hypotézy, která je = 0 (tedy mezi dvěma základními soubory nepředpokládáme žádný korelační vztah). Testovací kritérium se vypočte podle vztahu: Hodnocení významnosti koeficientu korelace 2 1 2 - - = n r r t xy xy Přísluší mu t-rozdělení s = n - 2 stupni volnosti. S určitou pravděpodobností - tedy na určité hladině významnosti předpokládáme, že hodnota t nepřekročí kritickou hodnotu tp (při správnosti nulové hypotézy). V opačném případě zamítáme nulovou hypotézu ­ mezi výběry náhodných veličin vztah existuje. Koeficient pořadové korelace (Spearmanův) (rs) Používá se k určení závislosti kvalitativních znaků. )1( 6 1 2 2 - -= nn D r i s Každé hodnotě xi a yi přiřadíme pořadové číslo pxi a pyi podle velikosti hodnot xi a yi. Určíme rozdíly Di dvojic pořadových čísel odpovídajících si hodnot. Koeficient pořadové korelace - příklad Příklad: Kvantifikujte vztah mezi dobou, po kterou jsou pole ponechána ladem a počtem rostlinných druhů (na m2). 902,0 )149(7 5,56 1 )1( 6 1 2 2 = -× × -= - -= nn D r i s V tabulkách vyhledáme pro n=7 a =0,05 kritickou hodnotu: rkrit=0,786 Závěr: Existuje statisticky významný vztah mezi dobou, po kterou jsou pole ponechána ladem a počtem rostlinných druhů, které se na nich vyskytují. Koeficient pořadové korelace Řešení v programu Statistica: Statistika ­ Neparametrická statistika ­ Korelace (Spearman, Kendallovo Tau, Gama) Nelineární závislost Prvky výběru závisle proměnné yi rozdělíme podle hodnot nezávisle proměnné xi do skupin označených yj a pro každou skupinu vypočteme průměr . Korelační poměr se vypočte podle vztahu: - - = - - = 22 2 2 ( )( )( yny ynny yy nyy i jj i jj yx V uvedeném vzorci je nj četnost v yj. Při výpočtu záleží na tom, kterou proměnou zvolíme za závislou a kterou za nezávislou. Porovnání hodnot korelačního koeficientu a korelačního poměru lze použít jako kritéria linearity vztahu. Pokud se hodnoty přibližně rovnají, jedná se o závislost lineární, pokud je rxy výrazně větší, jde o závislost nelineární. jy V případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí, se jako míry korelační závislosti používá tzv. korelační poměr (yx). Koeficient mnohonásobné korelace (rxyz) Používá se pro hodnocení korelační závislosti tří nebo více výběrů náhodných veličin. Při jeho určení se vychází z jednotlivých korelačních koeficientů pro dva výběry (rxy, rxz, ryz) a jejich hodnoty se dosazují do vzorce pro rxyz: 2 22 1 2 xy yzxzxyyzxz xyz r rrrrr r - -+ = Příklad ­ viz. vícerozměrná regrese Vztah dvou proměnných je často ovlivněn dalšími proměnnými. Dílčí (parciální) korelace: Řeší otázku vlivu jedné nebo více nezávisle proměnných na závisle proměnnou při vyloučení vlivu zbývajících nezávisle proměnných, u nichž předpokládáme konstantní hodnotu. Jedná se o zvláštní případ mnohonásobné korelace, kdy další proměnné považujeme za ,,rušivé" (např. věk, počet obyvatel sídla, ...). Hodnota koeficientu dílčí korelace rxy.z se vypočte podle vztahu: Tečkou v indexu se označuje nezávisle proměnná, jejíž hodnotu považujeme za konstantní. )1()1( 22 yzxz yzxzxy zxy rr rrr r -- - = Parciální korelace Příklad (viz. Brázdil a kol., 1995, str. 129, cvič. 8.3) Způsob zadání proměnných (korelace mezi y a z při vyloučení vlivu x) Poznámky k aplikaci korelačního počtu: Použití korelačního počtu je nevhodné např. v těchto případech: ˇ Korelace je způsobena formálními vztahy mezi veličinami (hodnoty x a y se doplňují do 100%) ˇ Korelace je způsobena nehomogenitou studovaného materiálu (obsahuje tzv. subpopulace ­ viz. obr. bodového grafu) ˇ Korelace je výsledkem působení třetí veličiny (korelace mezi počtem lékařů a počtem nemocných, ...) Regresní analýza Úkolem regresní analýzy je sestavit vztah (model) závislosti mezi závisle a nezávisle proměnnou. Regresní analýza řeší : ˇ odhady neznámých parametrů regresní funkce ˇ testování hypotéz o těchto parametrech ˇ ověřování předpokladů regresního modelu Určení lineární regresní závislosti Nejjednodušším případem regresní závislosti je případ, kdy regresní funkce je přímkou. Rovnice regresní přímky má tvar: Symbol y' se používá pro označení nejpravděpodobnější teoretické hodnoty y odpovídající danému x, která leží na regresní přímce a která se odlišuje od konkrétních hodnot yi, které se nacházejí mimo ni. y' = a + bx MNČ Průběh regresní přímky je určen tzv. metodou nejmenších čtverců, kdy musí být splněna podmínka takového průběhu přímky, při kterém je součet čtverců vzdálenosti všech bodů pole od přímky minimální, tedy platí: Výpočet vertikální vzdálenosti bodů korelačního pole od regresní přímky se provádí podle uvedeného obrázku. Z něho je zřejmé, že pro vzdálenost konkrétní hodnoty závisle proměnné yi od bodu regresní přímky yi' musí platit: iiiiii bxaybxayyy --=+-=- )( ' Součet čtverců svislých vzdáleností yi od regresní přímky je potom: =--=- Abxayyy iiii 22' )()( min)( 2' =- ii yy MNČ Pro MNČ musí platit =--= min)( 2 ii bxayA Následnými úpravami lze obdržet vztahy pro výpočet koeficientů regresní přímky a,b - - = 22 xnx yxnyx b i ii xbya -= Koeficient b (angl. slope) se označuje jako koeficient regrese a je směrnicí regresní přímky (tangentou úhlu, který přímka a svírá s osou x). Je-li b>0, mluvíme o regresi pozitivní, je-li b<0 o regresi negativní. Výpočet koeficientů regresní přímky Vzorec pro výpočet koeficientu b lze zjednodušit pomocí vztahů pro kovarianci sxya směrodatnou odchylku sx, tedy: 2 x xy s s b = Hodnota koeficientu a (angl. intercept) představuje y-ovou souřadnici průsečíku regresní přímky s osou y (tedy při x=0). Dosazením výrazu pro koeficient a do rovnice přímky y' = a + bx dostaneme: xbya -= xbybxy -+=' )(' xxbyy -=- Tohoto vztahu lze využít pro konstrukci regresní přímky ­ pro dvě zvolená x1, x2 vypočteme y1 a y2 a souřadnice obou bodů vyneseme do korelačního diagramu. Regresní přímka vznikne proložením oběma body. Koeficienty lineární regresní závislosti Koeficient a Hranice (EXCEL) Abs. člen (Statistica) Koeficient b (tg úhlu) - směrnice Koeficienty (parametry) jsou bodovými odhady ! Intervaly a pásy spolehlivosti lineární regresní závislosti ˇ Konstrukci regresní přímky provádíme na základě výběrových souborů. ˇ Proto se její rovnice může u různých výběrů ze stejných základních souborů lišit. ˇ Z tohoto důvodu je potřebné doplnit průběh regresní přímky také tzv. intervaly spolehlivosti. ˇ Výpočtem intervalů spolehlivosti určujeme pro vybraná x interval, v němž se mohou s určitou pravděpodobností vyskytovat hodnoty y s tím, že jejich nejreprezentativnější hodnota je y'. Intervaly a pásy spolehlivosti Nejprve je zapotřebí zvolit interval spolehlivosti ­ tedy pravděpodobnost, s níž očekáváme výskyt hodnot y v určených mezích 1-p (p=0,05 či 0,01). Poloviční šířka intervalu spolehlivosti l je dána výrazem: 2 1 - = - n Ah tl p 2 2 )1( )(1 xsn xx n h - - += Hodnota tp je kritická hodnota rozdělení pro n-2 stupňů volnosti a hladinu významnosti p. Meze intervalů spolehlivosti určíme pomocí hodnot y' z rovnice horní mez: y' + l dolní mez: y' - l )(' xxbyy -=- Pásy spolehlivosti vzniknou spojením krajních bodů intervalů spolehlivosti. Testování významnosti regresní závislosti ˇ K testování významnosti zjištěné regresní závislosti lze využít t-testu, kterým lze zjistit, zda se směrnice významně liší od nuly ˇ Nejčastěji se k testování používá analýzy rozptylu (ANOVA). ˇ Princip: Zjistíme celkovou proměnlivost hodnot y a následně vypočteme, z jaké části je tato celková variabilita objasněna proměnlivostí v hodnotách x. SStotal - celková variabilita: celková suma čtverců: od každé hodnoty y odečteme průměr, výsledek povýšíme na druhou a sečteme pro všechna y. Testování významnosti regresní závislosti ( ) -= n y ySStotal 2 2 ( ) n x x n yx xy SSregrese 2 2 2 - - = regresetotalíreziduá SSSSSS -=ln Celkovou variabilitu SStotal lze rozdělit na dvě části: SSregrese - variabilitu vysvětlenou regresní čarou SSreziduální ­ zbytková variabilita nevysvětlená regresním modelem Testování významnosti regresní závislosti Tabulka ANOVA total regres SS SS r =2 Koeficient determinace regresní závislosti: Příklad regresní analýzy v EXCELu Existuje signifikantní pokles hladiny hluku se vzdáleností od komunikace. Lineární regresní model vysvětluje 93,9 % variability hodnot hladiny hluku. Zjistěte, jak souvisí hladina hluku se vzdáleností od komunikace. y' = 94,2857 - 0,1464x 95% int. odhad hladiny hluku ve vzdálenosti 0 metrů pokles hl. hluku na každý metr 95% int. odhad poklesu hl. hluku na každý metr Řešení v programu Statistica 1) Statistika ­ Vícerozměrná regrese (zvolení závisle a nezávisle proměnné) Řešení v programu Statistica 2) OK ­ Bodové grafy ­ Korelace 2 proměnných Další typy regresních funkcí Regresní vztah dvou proměnných často nelze vhodně vyjádřit přímkou ­ jiné typy funkcí. Může mít tvar např. logaritmických či exponenciálních funkcí a nebo je vztah vyjádřen rovnicí polynomu m-tého stupně. Další typy regresních funkcí Volbu vhodné funkce, která by nejlépe vystihovala povahu studované závislosti provádíme na základě výpočtu směrodatné chyby aritmetického průměru (viz. ­ Odhady parametrů a intervaly spolehlivosti). Určení hodnoty směrodatné chyby aritmetického průměru spočívá v určení sumy čtverců odchylek A konkrétních hodnot yi závisle proměnné od teoretických hodnot y'i tedy: =--=- Abxayyy iiii 22' )()( Povaze studované závislosti vyhovuje nejlépe ta z uvažovaných funkcí, která má hodnotu směrodatné chyby minimální. Konkrétní balíky statistických programů obsahují obvykle řadu nástrojů pro zvolení vhodné regresní závislosti. pn yy pn A s ii y - - = - = 2' )( kde p je počet parametrů použitého modelu. ys Regresní závislost není přímka Příklad (viz. Brázdil a kol., 1995, str. 139, cvič. 8.5) nevhodný model vhodný model směrodatná chyba odhadu koeficient determinace Hledání vhodného regresního modelu Lze postupovat dvěma způsoby: 1. Volba vhodného modelu na základě praktické zkušenosti či teoretických předpokladů 2. Posouzením bodového grafu a interpretací nástrojů regresní analýzy ˇ Podle ad 2) je nejvhodnější model takový, který prochází všem vyšetřovaným bodům nejblíže. ˇ Protože však vycházíme z výběrového souboru bodů, je třeba brát ohled na ad 1) !!! ˇ analýza reziduálních hodnot ˇ výpočet směrodatné chyby odhadu (se) ˇ výpočet koeficientu determinace (r2 xy). Způsoby hodnocení vhodnosti regresního modelu Hledání vhodného regresního modelu Analýza reziduálních hodnot Rezidua jsou vzdálenosti skutečných hodnot yi od modelem odhadnutých hodnot yj` Zvolený regresní model považujeme za vhodný, pokud reziduální hodnoty splňují všechny následující podmínky: ˇ rezidua jsou náhodná a nezávislá ˇ mají normální rozdělení s nulovým průměrem a konstantním rozptylem ˇ rozptyl reziduí je konstantní. Hledání vhodného regresního modelu Směrodatná chyba odhadu ­ je vyjádřením směrodatné odchylky resp. rozptylu reziduálních hodnot a vhodnou mírou pro posouzení vhodnosti použité regresní závislosti 2 )( 1 2' - - = = n yy s n i ii e Čím je hodnota reziduálního rozptylu nižší, tím je model vhodnější. Koeficient determinace (r2 xy) ­ viz. Korelační počet Čím je hodnota koeficientu determinace větší, tím je model vhodnější. total regres SS SS r =2 Hledání vhodného regresního modelu Grafy ­ Bodové grafy volba modelu Vícerozměrná regrese Popisuje závislost více proměnných z nichž více je příčinami (vysvětlující proměnné) a jen jedna je důsledek (vysvětlovaná proměnná). y' = a + b1x1 + b2x2 + ... Jsou­li dvě vysvětlující proměnné regresní model je rovina Odhad parametrů se provádí MNČ Výstupy a interpretace jsou ,,obdobné" jako u modelů jednorozměrné regrese Např: Úhrn_srážek = 345,6 + 0,45*zem_délka + 1,23*nadm_výška Vícerozměrná regrese Statistika ­ vícerozměrná regrese (data viz. Brázdil a kol., 1995, str. 129, cvič. 8.3) Punkva ­ pod Sk. Mlýnem (y) model odtoku: y = 11,0289 + 0,165x1 + 0,874x2