Doplňkový materiál k přednášce z Biostatistiky 21.11.2007 Regrese a korelace Korelační koeficient Jedna a více nezávisle proměnných Základy korelační analýzy - I. Základy korelační analýzy - II. n Pearsonův korelační koeficient postižení lineárního vztahu mezi veličinami n R=1 … přímá úměra, kladná korelace n R=-1… záporná korelace n R=0… mezi veličinami není žádná spojitost, žádná korelace, není lineární vztah mezi proměnnými n Předpoklady: dvourozměrné normální rozdělení n http://www.causeweb.org/repository/statjava/ (statistical application -> correlation) Jednovýběrový test I. Jednovýběrový test II. Dvouvýběrový test Spearmanův pořadový koeficient korelace Spearmanův korelační koeficient Pasti a pastičky (Pearsonův k.k.) Regrese Lineární regresní model Jedna a více nezávisle proměnných n n objektů n Pro každý objekt: pozorované veličiny X a Y - spojité n Pozorování, objekty – navzájem nezávislá n Zajímá nás závislost veličiny Y na X – POZOR! – nutná podmínka je, že závislost je stejná pro všechny zkoumané objekty. n Příklad: V egyptské vesnici Kalama se studoval vliv výživy na zdravotní stav dětí. Při této příležitosti se měřily průměrné výšky dětí (v cm) ve věku od 18 měsíců do 29 měsíců. n ? Jaká je závislost výšky dítěte na jeho věku? n X,Y – náhodné veličiny (střední hodnota, rozptyl) n Existuje souvislost mezi středními hodnotami N.V.? Opakování z gymnázia – analytická geometrie n Analytické vyjádření přímky, rovnice n Analytické vyjádření roviny, rovnice Nejjednodušší typ závislosti - lineární Regresní rovnice - proměnné Regresní rovnice, přímka? - parametry Příklad: Kalama n Lineární závislost – přímka n Height=64.9+0.635Age n Průsečík: 64,9 n Interpretace ad absurdum: výška dítěte ve věku 0 měsíců (tj. při porodu). Ale to by byla extrapolace, tedy rozšíření modelu na oblast, kde jsme data neměřili. n Směrnice: 0,635 n Dítě starší o jeden měsíc je v průměru větší o 0,635 cm. Tvorba lineárního regresního modelu n Je-li závisle proměnná spojitá a nezávisle proměnné jsou spojité nebo diskrétní (podmínkou je, že alespoň jedna nezávisle proměnná je spojitá) a jsou-li splněny jisté předpoklady, o kterých budeme hovořit později, můžeme přistoupit k budování lineárního regresního modelu. n Při tvorbě modelu (obecně, nejen lineárního) postupujeme následujícím způsobem: n Odhadneme parametry modelu n Hledáme významné (signifikantní) prediktory n Na závěr hodnotíme vhodnost námi vytvořeného modelu, jak dobře popisuje funkcionální závislost mezi závisle proměnnou a nezávisle proměnnými. Residua n Svislé odchylky naměřených hodnot od regresní přímky nazýváme residua. n i-té residuum vypočteme jako rozdíl skutečně naměřené hodnoty Y a hodnoty predikované regresním modelem Pozn.: Residuální součet čtverců n Výsledný minimální součet čtverců residuí (pro b0 a b1) nazýváme residuální součet čtverců (residual sum of squares), . Metoda nejmenších čtverců Metoda nejmenších čtverců (least squares method) - odhad parametrů modelu n Metoda nejmenších čtverců spočívá v minimalizaci přes a součtu čtverců reziduí. n Výsledné hodnoty a , pro které je součet čtverců minimální označujeme a n Odhadnutá regresní rovnice má tvar Vzorce pro odhad parametrů regresní přímky – metoda nejmenších čtverců Příklad: Spalování odpadu Odlehlá pozorování - Nebezpečí (outliers) n Závislost velikosti mozku(g) na váze těla (kg) (pro různé živočichy),log.transformace n Modrá - model pro všechna zvířata. n Červená - model bez dinosauru. n Dinosauři zkreslili výsledný model. Outliers (http://botany.upol.cz/prezentace/duch (soubor statistika4.pdf)) Hledáme významné (signifikantní) prediktory Při konstrukci regresního modelu bychom chtěli prokázat, že závislá veličina skutečně závisí na nezávisle proměnné.Tuto závislost na X prokazujeme testováním nulové hypotézy proti alternativní hypotéze T-test n Nezamítneme-li nulovou hypotézu, pak střední hodnota nezávisí na X, tj. střední hodnota je pro všechny hodnoty X stejná a má hodnotu . n Nulovou hypotézu testujeme pomocí testové statistiky n a zamítáme ji v případě, že kde je kvantil t-rozdělení s n-2 stupni volnosti; n je počet pozorování, pro které konstruujeme regresní model. Příklad Předpoklady n Nutný předpoklad potřebný ke všem testům spojeným s regresním modelem je normalita residuí. n Residua mají mít normální rozdělení s nulovou střední hodnotou a konstantním rozptylem . n Dále předpokládáme, že všechna pozorování jsou navzájem nezávislá. Normalita residuí – graficky Q-Q plot (Quantile-Quantile plot) n Grafická metoda pro srovnání rozdělení dvou výběrů. n Vodorovná osa – empirické kvantily rozdělení 1. výběru. (jestliže vynášíme teoretické kvantily normovaného normálního rozdělení – normal probability plot) n Svislá osa – empirické kvantily rozdělení 2. výběru (např. reziduí). n Jsou-li obě rozdělení totožná, leží body (odpovídající si kvantily) na diagonální přímce Q-Q plot další vlastnosti n http://www.itl.nist.gov/div898/handbook/eda/section3/normprpl.htm Normalita residuí - testy n Testy normality: n Kolmogorov-Smirnov n Shapiro-Wilks Není-li splněn předpoklad normality – mohou pomoci transformace (později, dříve). n Autokorelace residuí n Durbin-Watsonův test Diagnostika residuí n Je námi zvolená závislost (lineární) vhodná? n Pomoc grafické znázornění – grafy závislosti hodnot residuí na hodnotách nebo . n V případě, že zvolený tvar závislosti byl vhodný, jsou residua n umístěna náhodně kolem nulové střední hodnoty n nevykazují žádný systematický trend n jejich rozptyl je homogenní Diagnostika residuí Diagnostika residuí - obrázky Příklad: Index uzdravení n Existuje závislost mezi délkou hospitalizace pacienta v nemocnici (X, uvedeno ve dnech) a tzv. Indexem uzdravení (Y)? n Y = 46,5 – 0.75X. n Koeficient determinace tohoto lineárního modelu je poměrně vysoký, n Residua vs. Hodnoty predikované modelem , vidíme, že residua jsou seřazena do tvaru písmene U. Transformace závisle a nezávisle proměnné n Cíle n Odstranění nelineární závislosti mezi závisle a nezávisle proměnnou n Stabilizace rozptylu n „Žebřík transformací“: . . . ,.1/x2,.1/x,.1/√x, log x,√x, x, x2, . . . . n Po tomto žebříku transformací se můžeme pohybovat buď nahoru (k vyšším mocninám) nebo dolů. Cílem je především linearizace závislosti. n Když dosáhneme pohybem po zvoleném žebříku (na ose x nebo ose y) přibližně lineární závislosti, potom současným pohybem po obou žebřících se pokusíme také o stabilizaci rozptylu. Koeficient determinace Jak úspěšná byla regrese? n Koeficient determinace je definován jako podíl celkové variability závislé veličiny, která je vysvětlena závislostí. n Jedná se o podíl vysvětlené a celkové variability náhodné veličiny Y. Koeficient determinace - vlastnosti n Koeficient determinace udává relativní velikost variability závisle proměnné, kterou se uvažovanou závislostí podařilo vysvětlit. n Koeficient determinace nabývá hodnot od 0 do 1. n Čím vyšší je hodnota koeficientu determinace, tím je náš regresní model lepší. n V případě regrese s jedinou nezávisle proměnnou je hodnota koeficientu determinace rovna kvadrátu Pearsonova korelačního koeficientu mezi veličinami X a Y. Nelineární regresní model Exponenciální závislost n Obecný tvar exponenciální závislosti je n Je-li parametr kladný, pak s rostoucími hodnotami X rostou i hodnoty Y. Je-li parametr záporný, pak s rostoucími hodnotami X klesají hodnoty Y. Parametr charakterizuje strmost nárustu resp. poklesu, parametry a „mají na starost“ umístění křivky. Bude-li například hodnota a =-2, pak při nárustu hodnoty X o jednu jednotku, dojde ke snížení hodnoty závisle proměnné krát. Křivka bude klesající a její hodnota se bude se vyrůstající hodnotou X blíží nule. Příklad: Index uzdravení Exponenciální závislost n Existuje závislost mezi délkou hospitalizace pacienta v nemocnici (X, uvedeno ve dnech) a tzv. Indexem uzdravení (Y)? n Y = 0 + 56,6*exp(-0,038X) = 0 + exp( 4.036-0,038X) Exponenciální závislost v přírodě n Počet buněk se zvyšuje exponenciálně. Z každé buňky vzniknou dělením dvě nové buňky. V každé nové generaci je dvojnásobně více buněk než v té předchozí. Podíl počtu buněk v po sobě následujících generacích je konstantní. (V případě lineární závislosti by byl rozdíl počtu buněk mezi po sobě následujícími generacemi konstantní). Exponenciální závislost n Arabský matematik Ibn Kallikan v roce 1256 popsal jeden z prvních šachovnicových hlavolamů. Na první pole šachovnice je umístěno zrnko rýže a na každé následující pole je umístěn dvojnásobek zrnek z pole předchozího. Kolik bude celkem zrnek rýže na šachovnici? Nelineární regresní model Polynomiální závislost n Závislost brzdné dráhy automobilu na jeho rychlosti. n Regresní rovnice obsahuje polynom druhého stupně (má kvadratický člen). n Grafem závislosti brzdné dráhy na rychlosti je část paraboly. Více nezávisle proměnných (Multiple regression model) n Dvě nezávisle proměnné: n Model: n Koeficient beta1 lze interpretovat jako střední změnu Y při jednotkové změně X1 a nezměněné hodnotě X2. n Nulová hypotéza znamená, že populační průměr Y závisí nejvýše na X2. n Tj. platí, že n Další interpretace je, že proměnná X1 nepřináší žádnou informaci o střední hodnotě Y nad tu, která je již obsažena v X2. n Snaha o co nejjednodušší model, obsahující jenom významné prediktory (nezávisle proměnné) Regresní plocha (Response surface, regression surface) n Model s interakcemi n Model bez interakcí – regresní rovina (plane) T-test, F-test n t-test: nebo n F test: n Upozornění: opakovaný t-test a F-test mohou dávat nekonzistentní výsledky n Podmodel = jednodušší model obsahující pouze některé nezávisle proměnné (signifikantní) původního regresního modelu. n S každou mocninou veličiny musí být v modelu všechny mocniny nižšího stupně, se součinem veličin musí být v modelu také všechny složky tohoto součinu. Opakování ANOVA ANOVA jako nástroj analýzy regresních modelů - příklad na modelu přímky Příklad Strategie hledání vhodného podmodelu Sekvenční postupy n Sestupný výběr - Nejprve se spočítá nejbohatší model, pak se jednotlivé regresory postupně z modelu vylučují. V každém kroku se vylučuje takový regresor, který v daném modelu nejméně přispívá k vysvětlení. n Vzestupný výběr – opak sestupného výběru. Vyjde se z prázdné množiny regresorů, do níž se pak v každém kroku přidá vždy ten z ještě nezařazených regresorů, který v daném kroku co možná nejlépe zlepší vysvětlení závisle proměnné. n Kroková (stepwise) regrese - kombinuje oba předešlé postupy. Vzestupný výběr je v každém kroku kombinován s pokusem o zjednodušení pomoci sestupného výběru. n Každá z popsaných metod může dát jiný výsledný model, kromě jiného závisí také na volbě hladin testů. n Zejména u krokové regrese se doporučuje najít několik téměř optimálních modelů a pokusit se najit mezi nimi ten,který má nejlepší interpretaci. Umělé proměnné (Dummy variables, dummies) n Vyjádření nominální veličiny s více než 2 hodnotami n j úrovní faktoru -> j-1 umělých proměnných (v modelu buďto všech j-1 umělých proměnných nebo žádná)