1 Statistické metody a zpracování dat VI. Korelační a regresní počet Petr Dobrovolný K čemu to je dobré? ˇ V řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme ne jednu jejich vlastnost (znak), ale znaků několik. ˇ Tyto znaky mohu být navzájem závislé. ˇ Cílem této části statistiky je vyšetřovat, do jaké míry spolu dva či více statistických znaků souvisí. ˇ Do jaké míry změna hodnoty jednoho znaku podmiňuje změnu hodnot znaku jiného. Analýza závislostí Př. Vztah mezi teplotou vzduchu a nadmořskou výškou, mezi množstvím srážek a velikostí odtoku, mezi výnosy a hodnotami několika meteorologických prvků, mezi počtem dojíždějících a vzdáleností od centra dojížďky, ... Příklady použití ˇ Budeme tedy pracovat s dvourozměrnými soubory ˇ Korelační i regresní počet však lze využít i pro studium vícerozměrných souborů, pro studium znaků kvantitativních i kvalitativních. ˇ Předmětem statistické analýzy v tomto případě bude stanovení síly závislosti a druhu závislosti ˇ Analýzou síly závislosti statistických znaků se zabývá korelační počet ˇ Analýzou druhu závislosti statistických znaků se zabývá regresní počet Analýza závislostí Druhy závislostí ˇ Vztahy jednostranné: Změna statistického znaku jednoho souboru náhodné veličiny - tzv. nezávisle proměnné (x) podmiňuje změnu statistického znaku souboru druhé náhodné veličiny - tzv. závisle proměnné (y). ˇ V tomto případě jde o vztahy příčiny a následku ˇ Vztahy vzájemné: Nelze rozlišit mezi souborem závisle a nezávisle proměnné (např. vztah hodnot teploty vzduchu na dvou sousedních stanicích) Vztahy závislosti podle stupně závislosti statistických znaků ˇ Závislost funkční ˇ Závislost statistická ˇ Závislost korelační pozorované hodnoty 30 40 50 10 20 30 40 cena zboží v Kč pop táv ka po zbo ží v ks 2 Závislost funkční Každé hodnotě znaku nezávisle proměnné náhodné veličiny x odpovídá vždy pouze jediná určitá hodnota závisle proměnné veličiny y dráha v metre ch čas v sekundách 1000 2000 3000 4000 0 10 20 30 2 2 1 gts = Závislost statistická ˇ Každé hodnotě znaku nezávisle proměnné náhodné veličiny x odpovídá více hodnot závisle proměnné veličiny y, ˇ Hodnoty y mají své rozdělení ˇ Při změně znaku nezávisle proměnné x mění podmíněná rozdělení relativních četností závisle proměnné y Se změnou hodnoty znaku nezávisle proměnné x se mění podmíněná rozdělení relativních četností hodnoty znaku závisle proměnné y tak, že změna x podmiňuje změnu průměru souborů hodnot y, odpovídajících daným hodnotám x. Závislost korelační y Určení těsnosti korelační závislosti ˇ Úkolem korelačního počtu je vyjádřit tendenci změn hodnoty znaku závisle proměnné při změně hodnoty znaku nezávisle proměnné matematickou funkcí ˇ Tato funkce představuje tzv. regresní čáru a vyjadřuje, jaká hodnota znaku závisle proměnné odpovídá s největší pravděpodobností určité hodnotě znaku nezávisle proměnné. ˇ Odhad regresní závislosti je tím přesnější, čím větší je těsnost korelační závislosti. ˇ Určení těsnosti korelační závislosti je prvním krokem analýzy. Charakteristiky korelační závislosti Máme dva výběrové soubory náhodných veličin X, Y. Proměnlivost hodnot znaku obou výběrů můžeme vyjádřit odchylkami dxi a dyi prvků od jejich průměrů: xxd ixi -= yyd iyi -= Vzájemnou proměnlivost obou výběrových souborů charakterizuje součin odchylek : )()( yyxx ii -- Suma součinů odchylek vydělaná rozsahem výběrů n určuje tzv. kovarianci výběrových souborů sxy ­ tedy první společnou charakteristiku proměnlivosti obou souborů: n yyxx s ii xy -- = )()( Charakteristiky korelační závislosti ˇ Kovariance je obdobou rozptylu ˇ Omezenost - je mírou absolutní ­ nelze jí použít k porovnání těsnosti vztahu dvou či více dvojic výběrových souborů. Relativní míra ­ kovariance dělená součinem směrodatných odchylek sx a sy obou výběrů - korelační koeficient rxy: -- -- = = )( 1 )( 1 )()( 1 yy n xx n yyxx n ss s r ii ii yx xy xy 3 Podmínky použitelnosti rxy Výpočet rxy se opírá o rozptyl a směrodatnou odchylku Jeho použití tedy předpokládá splnění tří následujících podmínek: ˇ normální rozdělení použitých výběrů ˇ dvojrozměrnost normálního rozdělení (každé hodnotě znaku veličiny x odpovídá soubor hodnot znaku y, který má normální rozdělení a naopak ˇ linearita vztahu hodnot x a y (regresní čára je přímka) Dokonalá korelační závislost přímá rxy = 1 Dokonalá korelační závislost nepřímá rxy = -1 Hodnota rxy nás informuje o druhu a těsnosti závislosti Graf korelačního pole pro různá rxy Graf korelačního pole pro různá rxy ??? Koeficient pořadové korelace (Spearmanův) (rs) Používá se k určení závislosti kvalitativních znaků. )1( 6 1 2 2 - -= nn D r i s Každé hodnotě xi a yi přiřadíme pořadové číslo pxi a pyi podle velikosti hodnot xi a yi. Určíme rozdíly Di dvojic pořadových čísel odpovídajících si hodnot. Koeficient pořadové korelace - příklad Příklad: Kvantifikujte vztah mezi dobou, po kterou jsou pole ponechána ladem a počtem rostlinných druhů (na m2). 902,0 )149(7 5,56 1 )1( 6 1 2 2 = -× × -= - -= nn D r i s V tabulkách vyhledáme pro n=7 a p=0,05 kritickou hodnotu: rkrit=0,786 Závěr: Existuje statisticky významný vztah mezi dobou, po kterou jsou pole ponechána ladem a počtem rostlinných druhů, které se na nich vyskytují. Koeficient determinace ˇ Koeficient korelace se často ve výpočtech doplňuje hodnotou koeficientu determinace (r2 xy). ˇ Jeho hodnota kolísá v intervalu 0 až 1 ˇ Vynásoben 100 udává v procentech tu část rozptylu závisle proměnné y, která je vysvětlena (podmíněna) změnami hodnot nezávisle proměnné x. 4 Hodnocení významnosti koeficientu korelace Významnost rxy závisí na povaze řešeného problému Jeho hodnota je mírou relativní a posouzení těsnosti je do značné míry subjektivní. Významnost rxy lze též zjistit objektivně ­ testováním: Ze dvou základních jednorozměrných souborů lze provést sérii dvojic výběrů, které mají koeficienty korelace rxy. Soubor těchto výběrových koeficientů korelace má při velkých výběrech a při hodnotě korelačního koeficientu základního souboru () blízké nule tzv. normální rozdělení. Jeho průměr je = a směrodatná odchylka sr se vypočte podle vztahu: xyr 1 1 2 - - = n sr Při testování rxy vycházíme z nulové hypotézy, která je = 0 (tedy mezi dvěma základními soubory nepředpokládáme žádný korelační vztah). Testovací kritérium se vypočte podle vztahu: Hodnocení významnosti koeficientu korelace 2 1 2 - - = n r r t xy xy Přísluší mu t-rozdělení s = n - 2 stupni volnosti. S určitou pravděpodobností - tedy na určité hladině významnosti předpokládáme, že hodnota t nepřekročí kritickou hodnotu tp (při správnosti nulové hypotézy). V opačném případě zamítáme nulovou hypotézu ­ mezi výběry náhodných veličin vztah existuje. Nelineární závislost dvou výběrových souborů V případě, kdy regresní čára není přímka, ale je vyjádřena složitější matematickou funkcí, se jako míry korelační závislosti používá tzv. korelační poměr (yx). Prvky výběru závisle proměnné yi rozdělíme podle hodnot nezávisle proměnné xi do skupin označených yj a pro každou skupinu vypočteme průměr . Korelační poměr se vypočte podle vztahu: - - = - - = 22 2 2 ( )( )( yny ynny yy nyy i jj i jj yx V uvedeném vzorci je nj četnost v yj. Při výpočtu záleží na tom, kterou proměnou zvolíme za závislou a kterou za nezávislou. Porovnání hodnot korelačního koeficientu a korelačního poměru lze použít jako kritéria linearity vztahu. Pokud se hodnoty přibližně rovnají, jedná se o závislost lineární, pokud je rxy výrazně větší, jde o závislost nelineární. jy Koeficient mnohonásobné korelace (rxyz) Používá se pro hodnocení korelační závislosti tří nebo více výběrů náhodných veličin. Při jeho určení se vychází z jednotlivých korelačních koeficientů pro dva výběry (rxy, rxz, ryz) a jejich hodnoty se dosazují do vzorce pro rxyz: 2 22 1 2 xy yzxzxyyzxz xyz r rrrrr r - -+ = Dílčí (parciální) korelace: Řeší otázku vlivu jedné nebo více nezávisle proměnných na závisle proměnnou při vyloučení vlivu zbývajících nezávisle proměnných, u nichž předpokládáme konstantní hodnotu. Jedná se o zvláštní případ mnohonásobné korelace. Hodnota koeficientu dílčí korelace rxy.z se vypočte podle vztahu: Tečkou v indexu se označuje nezávisle proměnná, jejíž hodnotu považujeme za konstantní. )1()1( 22 yzxz yzxzxy zxy rr rrr r -- - = Poznámky k aplikaci korelačního počtu: Použití korelačního počtu je nevhodné např. v těchto případech: ˇ Korelace je způsobena formálními vztahy mezi veličinami (hodnoty x a y se doplňují do 100%) ˇ Korelace je způsobena nehomogenitou studovaného materiálu (obsahuje tzv. subpopulace ­ viz. obr. bodového grafu) ˇ Korelace je výsledkem působení třetí veličiny (korelace mezi počtem čapích hnízd a počtem novorozenců) 5 Měření závislosti kvalitativních znaků ˇ Kvalitativní znaky mají slovní charakter a získáváme je v sociologických průzkumech, při terénním šetření apod. ˇ Slovní charakter mají odpovědi na otázky týkající se např. pohlaví, vzdělání nebo povolání respondenta atd. ˇ K popsání vztahu závislosti spojitých kvantitativních veličin slouží korelační koeficient. ˇ K charakterizování závislostí kvalitativních znaků slouží tzv. kontingenční tabulky Klasifikace kvalitativních znaků: ˇ Podle počtu možných obměn dělíme znaky na alternativní (také dvojné) nabývající pouze dvou obměn a znaky množné, nabývající více než dvou obměn, ˇ Podle možnosti určit objektivní pořadí obměn na znaky, které mají pořadový charakter (např. vzdělání, stupeň souhlasu či nesouhlasu apod.) a znaky, které tento charakter nemají (např. povolání, typ absolvovaného vzdělání, značka výrobku) a u nichž tedy objektivní uspořádání není možné, ˇ Podle toho zda lze jednoznačně vymezit kde ,,začíná" a ,,končí" každá obměna znaku nebo nelze (např. u barevných odstínů) dělíme znaky na nespojité a spojité. Statistická analýza kvalitativních znaků: ˇ Statistické zpracování jednoho slovního znaku spočívá jednak v jeho třídění ˇ Nejčastěji se jedná o prosté třídění podle jednotlivých obměn slovního znaku a o stanovení absolutních nebo relativních četností. ˇ V omezené míře lze určovat charakteristiky úrovně (modus, u pořadových znaků medián, nikdy aritmetický průměr). ˇ Existují i speciální charakteristiky proměnlivosti. ˇ O měření závislosti má smysl uvažovat, je-li k dispozici dvojice slovních znaků. Měření závislosti kvalitativních znaků Spočívá v sestavení tzv. kontingenční tabulky Z kontingenční tabulky lze určit intenzitu závislosti ve dvojici slovních znaků. Nelze z ní však určit průběh závislosti. O směru závislosti má smysl se vyslovit pouze v případě pořadových slovních znaků. Máme-li dva alternativní znaky dostaneme tzv. čtyřpolní tabulku. Měření závislosti kvalitativních znaků Obecně může mít každý kvalitativní znak A r tříd a znak B s tříd. Výsledky šetření potom sestavujeme do kontingenční tabulky r x s. Pozorované četnosti v jednotlivých buňkách označujeme dvěma indexy ­ obecně nij. Také marginální četnosti mají dva indexy. Ten, přes který je sčítáno je označen hvězdičkou ­ tedy n2* značí součet četností v druhé řádce, n*1 značí součet četností v prvním sloupci. Tabulka bývá doplněna hodnotami procentuálních (relativních) četností. Častým požadavkem je konstantní délka intervalů tvořících třídy. Stejně jako v případě kvantitativních znaků ověřujeme i zde existenci vztahu testy významnosti a hodnotíme ho vhodnou mírou závislosti. Kontingenční tabulka typu r x s 6 Podmíněné četnosti uvnitř kontingenční tabulky mají podobný význam jako body korelačního diagramu -- jejich rozmístění umožňuje usuzovat na charakter závislosti tříděných znaků. Pro posouzení nezávislosti obou znaků můžeme vedle pozorovaných četností stanovit pro jednotlivá pole také očekávané (teoretické) četnosti : Posuzování závislosti v kontingenčních tabulkách tedy jako součin okrajových četností příslušného řádku a sloupce dělený rozsahem souboru. Pro každé pole kontingenční tabulky existuje dvojice četností - četnost pozorovaná a četnost vypočtená. n nn n ji ij **' = Ukazatel, který pro tabulku jako celek měří rozdílnost pozorovaných a vypočtených četností v jednotlivých polích tabulky se nazývá čtvercová kontingence 2 ij ijij r i s j n nn - = = = 2 1 1 2 )( Je to bezrozměrná hodnota a platí: Hodnoty nula nabývá pouze v případě, že znaky v kontingenční tabulce jsou nezávislé. Hypotéza nezávislosti 02 Vypočtená hodnota se porovnává na zvolené hladině významnosti p s kritickou hodnotou rozdělení pro (r-1)(s-1) stupňů volnosti.2 2 Hypotézu zamítáme, jestliže vypočtená hodnota je větší než tabulková, případě, když jí příslušející p-hodnota je menší než zvolená hladina významnosti. Jsou konstruovány tak, aby jejich hodnota závisela pouze na intenzitě závislosti. Koeficienty kontingence měří intenzitu závislosti pro dvojici slovních znaků. Pearsonův koeficient kontingence: Koeficienty kontingence n P + = 2 2 nabývá hodnot 10 < P Maximální možná hodnota čtvercové kontingence závisí na rozměrech kontingenční tabulky a rozsahu souboru - z toho důvodu není nejvhodnějším ukazatelem intenzity závislosti. Na bázi čtvercové kontingence jsou konstruovány vhodnější ukazatele - koeficienty kontingence. Příklad analýzy závislosti v tabulce r x s Pro výběr 234 studentů zjišťujeme, zda existuje vztah mezi sportem, který provozují a sportovními pořady, které sledují v televizi. Sestavíme tabulku typu 4 x 4: Hypotéza nezávislosti H0: Neexistuje vztah mezi provozovaným sportem a sportem sledovaným v TV. Vypočtená hodnota testovacího kritéria Kritická hodnota z tabulek pro p=0,05 a (4-1)x(4-1)=9 stupňů volnosti: Závěr: H0 zamítáme, existuje významný vztah. 3,2732 = 9,162 = Sílu tohoto vztahu lze posoudit Pearsonovým koeficientem kontingence n P + = 2 2 71,0 2743,273 3,273 = + = Testování nezávislosti v tabulce 2 x 2 Pro výpočet testovacího kritéria v tabulce 2 x 2 můžeme využít zjednodušený vzorec: 2 ))()()(( )( 2 2 dbcadcba bcadn ++++ - = Protože v 2x2 tabulce můžeme uvažovat i směr poruchy nulové hypotézy ­ proto musíme rozhodnout, zda použijeme test jednostranný či dvoustranný. Kritické hodnoty jsou uvedeny v tabulce - rozdělení o jednom stupni volnosti. 2 Příklad analýzy závislosti v tabulce 2 x 2 Hypotéza nezávislosti H0: Relativní četnost studentů se zájmem o statistiku je nezávislá na pohlaví. Vypočtená hodnota testovacího kritéria: Kritická hodnota -rozdělení z tabulek pro p=0,05: 3,84 Závěr: H0 zamítáme, existuje významný rozdíl. Zájem u chlapců: 30/66 = 0,45 Zájem u dívek: 11/74 = 0,14 Chlapci mají zhruba 3x větší zájem o statistiku než dívky. 8,15 74669941 )36116330(140 2 2 = ××× ×-× = 2 7 Regresní analýza ˇ Úkolem regresní analýzy je sestavit vztah (model) závislosti mezi závisle a nezávisle proměnnou. ˇ Stejně jako v případě korelačního počtu je prvním indikátorem možného vztahu obou studovaných veličin graf pole hodnot. ˇ Z grafu je patrný typ závislosti (tato může být lineární či nelineární, ...) Určení lineární regresní závislosti Nejjednodušším případem regresní závislosti je případ, kdy regresní funkce je přímkou. Rovnice regresní přímky má tvar: Symbol y' se používá pro označení nejpravděpodobnější teoretické hodnoty y odpovídající danému x, která leží na regresní přímce a která se odlišuje od konkrétních hodnot yi, které se nacházejí mimo ni. y' = a + bx MNČ Průběh regresní přímky je určen tzv. metodou nejmenších čtverců, kdy musí být splněna podmínka takového průběhu přímky, při kterém je součet čtverců vzdálenosti všech bodů pole od přímky minimální, tedy platí: Výpočet vertikální vzdálenosti bodů korelačního pole od regresní přímky se provádí podle uvedeného obrázku. Z něho je zřejmé, že pro vzdálenost konkrétní hodnoty závisle proměnné yi od bodu regresní přímky yi' musí platit: iiiiii bxaybxayyy --=+-=- )( ' Součet čtverců svislých vzdáleností yi od regresní přímky je potom: =--=- Abxayyy iiii 22' )()( min)( 2' =- ii yy MNČ Pro MNČ musí platit =--= min)( 2 ii bxayA Následnými úpravami lze obdržet vztahy pro výpočet koeficientů regresní přímky a,b - - = 22 xnx yxnyx b i ii xbya -= Koeficient b (angl. slope) se označuje jako koeficient regrese a je směrnicí regresní přímky (tangentou úhlu, který přímka a svírá s osou x). Je-li b>0, mluvíme o regresi pozitivní, je-li b<0 o regresi negativní. Výpočet koeficientů regresní přímky Vzorec pro výpočet koeficientu b lze zjednodušit pomocí vztahů pro kovarianci sxya směrodatnou odchylku sx, tedy: 2 x xy s s b = Hodnota koeficientu a (angl. intercept) představuje y-ovou souřadnici průsečíku regresní přímky s osou y (tedy při x=0). Dosazením výrazu pro koeficient a do rovnice přímky y' = a + bx dostaneme: xbya -= xbybxy -+=' )(' xxbyy -=- Tohoto vztahu lze využít pro konstrukci regresní přímky ­ pro dvě zvolená x1, x2 vypočteme y1 a y2 a souřadnice obou bodů vyneseme do korelačního diagramu. Regresní přímka vznikne proložením oběma body. Intervaly a pásy spolehlivosti lineární regresní závislosti ˇ Konstrukci regresní přímky provádíme na základě výběrových souborů. ˇ Proto se její rovnice může u různých výběrů ze stejných základních souborů lišit. ˇ Z tohoto důvodu je potřebné doplnit průběh regresní přímky také tzv. intervaly spolehlivosti. ˇ Výpočtem intervalů spolehlivosti určujeme pro vybraná x interval, v němž se mohou s určitou pravděpodobností vyskytovat hodnoty y s tím, že jejich nejreprezentativnější hodnota je y'. 8 Intervaly a pásy spolehlivosti Nejprve je zapotřebí zvolit interval spolehlivosti ­ tedy pravděpodobnost, s níž očekáváme výskyt hodnot y v určených mezích 1-p (p=0,05 či 0,01). Poloviční šířka intervalu spolehlivosti l je dána výrazem: 2 1 - = - n Ah tl p 2 2 )1( )(1 xsn xx n h - - += Hodnota tp je kritická hodnota rozdělení pro n-2 stupňů volnosti a hladinu významnosti p. Meze intervalů spolehlivosti určíme pomocí hodnot y' z rovnice horní mez: y' + l dolní mez: y' - l )(' xxbyy -=- Pásy spolehlivosti vzniknou spojením krajních bodů intervalů spolehlivosti. Nelineární regrese Popisuje regresní vztah dvou proměnných, který nelze vyjádřit přímkou. Může mít tvar např. logaritmických či exponenciálních funkcí a nebo je vztah vyjádřen rovnicí polynomu m-tého stupně. Nelineární regrese Volbu vhodné funkce, která by nejlépe vystihovala povahu studované závislosti provádíme na základě výpočtu směrodatné chyby aritmetického průměru (viz. ­ Odhady parametrů a intervaly spolehlivosti). Určení hodnoty směrodatné chyby aritmetického průměru spočívá v určení sumy čtverců odchylek A konkrétních hodnot yi závisle proměnné od teoretických hodnot y'i tedy: n yy n A c ii y 2' )( - == yc =--=- Abxayyy iiii 22' )()( Povaze studované závislosti vyhovuje nejlépe ta z uvažovaných funkcí, která má hodnotu směrodatné chyby minimální. Konkrétní balíky statistických programů obsahují obvykle řadu nástrojů pro zvolení vhodné regresní závislosti. Testování významnosti regresní čáry ˇ K testování významnosti zjištěné regresní závislosti lze využít t-testu, kterým lze zjistit, zda se gradient (směrnice) významně liší od nuly ˇ Nejčastěji se však používá techniky označované jako analýza rozptylu (ANOVA). ˇ Princip: Zjistíme celkovou proměnlivost hodnot y a následně vypočteme, z jaké části je tato celková variabilita objasněna proměnlivostí v hodnotách x. SStotal - celková variabilita: celková suma čtverců: od každé hodnoty y odečteme průměr, výsledek povýšíme na druhou a sečteme pro všechna y. Testování významnosti regresní čáry ( ) -= n y ySStotal 2 2 ( ) n x x n yx xy SSregrese 2 2 2 - - = regresetotalíreziduá SSSSSS -=ln Celkovou variabilitu SStotal lze rozdělit na dvě části: SSregrese - variabilitu vysvětlenou regresní čarou SSreziduální ­ zbytková variabilita nevysvětlená regresním modelem Testování významnosti regresní čáry Tabulka ANOVA total regres SS SS r =2 Koeficient determinace regresní závislosti: 9 Příklad regresní analýzy v EXCELu Existuje signifikantní pokles hladiny hluku se vzdáleností od komunikace. Lineární regresní model vysvětluje 93,9 % variability hodnot hladiny hluku