1 Z1069 Statistické metody a zpracování dat VII. Regresní počet Regresní analýza Úkolem regresní analýzy je sestavit vztah (model) závislosti mezi závisle a nezávisle proměnnou. Regresní analýza řeší : • odhady neznámých parametrů regresní funkce • testování hypotéz o těchto parametrech • ověřování předpokladů regresního modelu Určení lineární regresní závislosti Nejjednodušším případem regresní závislosti je případ, kdy regresní funkce je přímkou. Rovnice regresní přímky má tvar: Symbol y’ se používá pro označení nejpravděpodobnější teoretické hodnoty y odpovídající danému x, která leží na regresní přímce a která se odlišuje od konkrétních hodnot yi, které se nacházejí mimo ni. y’ = a + bx Metoda nejmenších čtverců Průběh regresní přímky je určen tzv. metodou nejmenších čtverců, kdy musí být splněna podmínka takového průběhu přímky, při kterém je součet čtverců vzdálenosti všech bodů pole od přímky minimální, tedy platí: Výpočet vertikální vzdálenosti bodů korelačního pole od regresní přímky se provádí podle uvedeného obrázku. Z něho je zřejmé, že pro vzdálenost konkrétní hodnoty závisle proměnné yi od bodu regresní přímky yi’ musí platit: iiiiii bxaybxayyy −−=+−=− )( ' Součet čtverců svislých vzdáleností yi od regresní přímky je potom: ∑ ∑ =−−=− Abxayyy iiii 22' )()( min)( 2' =−∑ ii yy ∑ =−−= min)( 2 ii bxayA Pro MNČ musí platit Z výše uvedených vztahů lze následnými úpravami obdržet výrazy pro výpočet koeficientů regresní přímky a,b ∑ ∑ − − = 22 xnx yxnyx b i ii xbya −= Koeficient b (angl. slope) se označuje jako koeficient regrese a je směrnicí regresní přímky (tangentou úhlu, který přímka a svírá s osou x). Je-li b>0, mluvíme o regresi pozitivní, je-li b<0 o regresi negativní. Výpočet koeficientů regresní přímky 2 x xy s s b =případně kovariance sxy lomeno druhá mocnina směrodatné odchylky sx Koeficient a (angl. intercept) představuje y-ovou souřadnici průsečíku regresní přímky s osou y (tedy při x=0). koeficient a Hranice (EXCEL) abs. člen (Statistica) koeficient b (tg úhlu) směrnice přímky y’ = a + bx Intervaly a pásy spolehlivosti lineární regresní závislosti • Konstrukci regresní přímky provádíme na základě výběrových souborů. • Proto se její rovnice může u různých výběrů ze stejných základních souborů lišit. • Z tohoto důvodu je vhodné doplnit průběh regresní přímky také tzv. intervaly spolehlivosti. • Výpočtem intervalů spolehlivosti určujeme pro vybraná x interval, v němž se mohou s určitou pravděpodobností vyskytovat hodnoty y s tím, že jejich nejreprezentativnější hodnota je y’. Koeficienty (parametry) regresní přímky jsou bodovými odhady ! 2 Intervaly a pásy spolehlivosti Nejprve je zapotřebí zvolit hladinu spolehlivosti – tedy pravděpodobnost, s níž očekáváme výskyt hodnot y v určených mezích 1-p (p=0,05 či 0,01). Poloviční šířka intervalu spolehlivosti l je dána výrazem: 2 1 − ⋅= − n Ah tl p 2 2 )1( )(1 xsn xx n h − − += Hodnota tp je kritická hodnota rozdělení pro n-2 stupňů volnosti a hladinu významnosti p. Meze intervalů spolehlivosti určíme pomocí hodnot y’ z rovnice horní mez: y’ + l dolní mez: y’ - l )(' xxbyy −=− Pásy spolehlivosti vzniknou spojením krajních bodů intervalů spolehlivosti. Testování vhodnosti regresní závislosti • Nejčastěji se k testování používá analýzy rozptylu (ANOVA). • Princip: Zjistíme celkovou proměnlivost hodnot y a následně vypočteme, z jaké části je tato celková variabilita objasněna proměnlivostí v hodnotách x. Celková variabilita: celková suma čtverců: od každé hodnoty y odečteme průměr, výsledek povýšíme na druhou a sečteme pro všechna y. Testování významnosti regresní závislosti Celkovou variabilitu lze rozdělit na dvě části: • variabilitu vysvětlenou regresní čarou • variabilita nevysvětlená regresním modelem (zbytkovou, reziduální) variabilita vysvětlená regresním modelem variabilita nevysvětlená (reziduální) celková variabilita • testování je založeno na porovnání množství vysvětlené a nevysvětlené variability • je tedy obdobou F-testu: testujeme, zda variabilita vysvětlená modelem se významně liší od variability reziduální, tedy: H0: neliší se • Vypočte se testovací kritérium (F) a pokud jemu příslušející p-hodnota je menší než alfa (0,05) potom zamítáme nulovou hypotézu a konstatujeme, že regresní model je vhodný Příklad regresní analýzy v EXCELu Existuje signifikantní pokles hladiny hluku se vzdáleností od komunikace. Lineární regresní model vysvětluje 93,9 % variability hodnot hladiny hluku. Zjistěte, jak souvisí hladina hluku se vzdáleností od komunikace. y’ = 94,2857 - 0,1464x 95% int. odhad hladiny hluku ve vzdálenosti 0 metrů pokles hl. hluku na každý metr 95% int. odhad poklesu hl. hluku na každý metr Nástroje – Analýza dat - Regrese model je vhodný Řešení v programu Statistica 1) Statistika – Vícerozměrná regrese (zvolení závisle a nezávisle proměnné) model je vhodný Pokles hladiny hluku s rostoucí vzdáleností je statisticky významný Parametry regresní přímky (změna vzdálenosti vysvětluje téměř 94 % variability hladiny hluku) U regresního modelu se často testuje, zda se směrnice přímky významně liší od nuly. Používá se t-testu, kterým lze prokázat statisticky významný růst či pokles hodnot závisle proměnné při změně hodnot nezávisle proměnné. Řešení v programu Statistica 2) OK – Bodové grafy – Korelace 2 proměnných 3 Výpočet neznámé hodnoty - předpovědi 3) Statistika – Vícerozměrná regrese Odhady • bodové • intervalové Další typy regresních funkcí Regresní vztah dvou proměnných často nelze vhodně vyjádřit přímkou – jiné typy funkcí. Může mít tvar např. logaritmických či exponenciálních funkcí a nebo je vztah vyjádřen rovnicí polynomu m-tého stupně. Regresní závislost není přímka Příklad (viz. Brázdil a kol., 1995, str. 139, cvič. 8.5) nevhodný model vhodný model směrodatná chyba odhadu koeficient determinace EXCEL: pravým tlačítkem myši na graf – přidat spojnici trendu Hledání vhodného regresního modelu Lze postupovat dvěma způsoby: 1. Volba vhodného modelu na základě praktické zkušenosti či teoretických předpokladů 2. Posouzením bodového grafu a interpretací nástrojů regresní analýzy • analýza reziduálních hodnot • výpočet směrodatné chyby odhadu (se) • výpočet koeficientu determinace (r2 xy). Způsoby hodnocení vhodnosti regresního modelu Hledání vhodného regresního modelu Analýza reziduálních hodnot Rezidua jsou vzdálenosti skutečných hodnot yi od modelem odhadnutých hodnot yj` Zvolený regresní model považujeme za vhodný, pokud reziduální hodnoty splňují všechny následující podmínky: • rezidua jsou náhodná a nezávislá • mají normální rozdělení s nulovým průměrem a konstantním rozptylem • rozptyl reziduí je konstantní. Hledání vhodného regresního modelu Směrodatná chyba odhadu – je vyjádřením směrodatné odchylky resp. rozptylu reziduálních hodnot a vhodnou mírou pro posouzení vhodnosti použité regresní závislosti 2 )( 1 2' − − = ∑= n yy s n i ii e Čím je hodnota reziduálního rozptylu nižší, tím je model vhodnější. Koeficient determinace (r2 xy) – viz. Korelační počet Čím je hodnota koeficientu determinace větší, tím je model vhodnější. total regres SS SS r =2 4 Hledání vhodného regresního modelu Grafy – Bodové grafy volba modelu Vícerozměrná regrese Popisuje závislost více proměnných z nichž více je příčinami (vysvětlující proměnné) a jen jedna je důsledek (vysvětlovaná proměnná). y’ = a + b1x1 + b2x2 + … Jsou–li dvě vysvětlující proměnné regresní model je rovina Odhad parametrů se provádí MNČ Výstupy a interpretace jsou „obdobné“ jako u modelů jednorozměrné regrese Např: Úhrn_srážek = 345,6 + 0,45*zem_délka + 1,23*nadm_výška Vícerozměrná regrese Statistika – vícerozměrná regrese (data viz. Brázdil a kol., 1995, str. 129, cvič. 8.3) Punkva – pod Sk. Mlýnem (y) model odtoku: y = 11,0289 + 1,2487x1 + 1,0497x2 regresní koeficienty standardizované regresní koeficienty Měření závislosti kvalitativních znaků • Kvalitativní znaky mají slovní charakter a získáváme je v sociologických průzkumech, při terénním šetření apod. • K charakterizování závislostí kvalitativních znaků slouží tzv. kontingenční tabulky • Z kontingenční tabulky lze určit intenzitu závislosti ve dvojici slovních znaků. • Máme-li dva alternativní znaky dostaneme tzv. čtyřpolní tabulku. Měření závislosti kvalitativních znaků Obecně může mít každý kvalitativní znak A r tříd a znak B s tříd. Výsledky šetření potom sestavujeme do kontingenční tabulky r x s. Pozorované četnosti v jednotlivých buňkách označujeme dvěma indexy – obecně nij. Také marginální četnosti mají dva indexy. Ten, přes který je sčítáno je označen hvězdičkou – tedy n2* značí součet četností v druhé řádce, n*1 značí součet četností v prvním sloupci. Tabulka bývá doplněna hodnotami procentuálních (relativních) četností. Častým požadavkem je konstantní délka intervalů tvořících třídy. Stejně jako v případě kvantitativních znaků ověřujeme i zde existenci vztahu testy významnosti a hodnotíme ho vhodnou mírou závislosti. Kontingenční tabulka typu r x s 5 Podmíněné četnosti uvnitř kontingenční tabulky mají podobný význam jako body korelačního diagramu — jejich rozmístění umožňuje usuzovat na charakter závislosti tříděných znaků. Pro posouzení nezávislosti obou znaků můžeme vedle pozorovaných četností stanovit pro jednotlivá pole také očekávané (teoretické) četnosti : Posuzování závislosti v kontingenčních tabulkách tedy jako součin okrajových četností příslušného řádku a sloupce dělený rozsahem souboru. Pro každé pole kontingenční tabulky existuje dvojice četností - četnost pozorovaná a četnost vypočtená. n nn n ji ij **' = Ukazatel, který pro tabulku jako celek měří rozdílnost pozorovaných a vypočtených četností v jednotlivých polích tabulky se nazývá čtvercová kontingence 2 χ ij ijij r i s j n nn ′ ′− = ∑ ∑ = = 2 1 1 2 )( χ Je to bezrozměrná hodnota a platí: Hodnoty nula nabývá pouze v případě, že znaky v kontingenční tabulce jsou nezávislé. Hypotéza nezávislosti 02 ≥χ Vypočtená hodnota se porovnává na zvolené hladině významnosti α s kritickou hodnotou rozdělení pro (r-1)(s-1) stupňů volnosti.2 χ 2 χ Hypotézu (H0) o nezávislosti dvou studovaných znaků zamítáme, jestliže vypočtená hodnota je větší než tabulková; případně, když jí příslušející p-hodnota je menší než zvolená hladina významnosti. 2 χ Příklad analýzy závislosti v tabulce r x s Pro výběr 234 studentů zjišťujeme, zda existuje vztah mezi sportem, který provozují a sportovními pořady, které sledují v televizi. Sestavíme tabulku typu 4 x 4: Hypotéza nezávislosti H0: Neexistuje vztah mezi provozovaným sportem a sportem sledovaným v TV. Vypočtená hodnota testovacího kritéria Kritická hodnota z tabulek pro p=0,05 a (4-1)x(4-1)=9 stupňů volnosti: Závěr: H0 zamítáme, existuje významný vztah. 3,2732 =χ 9,162 =χ Testování nezávislosti v tabulce 2 x 2 Pro výpočet testovacího kritéria v tabulce 2 x 2 můžeme využít zjednodušený vzorec: 2 χ ))()()(( )( 2 2 dbcadcba bcadn ++++ − =χ Protože v 2x2 tabulce můžeme uvažovat i směr poruchy nulové hypotézy – proto musíme rozhodnout, zda použijeme test jednostranný či dvoustranný. Kritické hodnoty jsou uvedeny v tabulce - rozdělení o jednom stupni volnosti. 2 χ Příklad analýzy závislosti v tabulce 2 x 2 Hypotéza nezávislosti H0: Relativní četnost studentů se zájmem o statistiku je nezávislá na pohlaví. Vypočtená hodnota testovacího kritéria: Kritická hodnota -rozdělení z tabulek pro α=0,05: 3,84 Závěr: H0 zamítáme, existuje významný rozdíl. Zájem u chlapců: 30/66 = 0,45 Zájem u dívek: 11/74 = 0,14 Chlapci mají zhruba 3x větší zájem o statistiku než dívky. 8,15 74669941 )36116330(140 2 2 = ××× ×−× =χ 2 χ Čyřpolní tabulka - řešení v programu Statistica Statistiky – Neparametrická statistika – Tabulka 2 x 2