Lineární regresní model I Definice a zadání Bi7491 Regresní modelování Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Co byste po dnešní hodině měli vědět a umět? Vědět, jak se definuje lineární regresní model Vysvětlit předpoklady regresních modelů Umět použít v lineárním regresním modelu různé typy prediktorů Vědět, co je multikolinearita, jak ji zjistit a jak se s ní vypořádat Lineární regresní model I Definice lineárního regresního modelu Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Jak popsat vztah mezi dvěma kvantitativními proměnnými? 20 25 30 35 20406080100 BMI VitaminD intuitivně jsme schopni nakreslit přímku vedoucí mezi pozorováními... Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Metoda nejmenších čtverců – minimalizuje vzdálenosti přímky od bodů koncentrace vitaminu D = 111,1 – 2,4BMI Jak popsat vztah mezi dvěma kvantitativními proměnnými? 0 10 20 30 40 50 60 020406080100120140 BMI VitaminD 111,1 Intercept (posun, absolutní člen) 24 (na 10 jednotek) Slope (směrnice přímky) Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Model s jednou spojitou proměnnou ni xY ii ,...,1 10    absolutní člen, posun směrnice (sklon) regresní přímky počet pozorování proč tady není = ?? Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Lineární regresní model Stochastická složka ni xY iii ,...,1 10    Pro rezidua musí platit: 1. jsou nesystematické 2. jsou homogenní v rozptylu 3. jsou nekorelované Rezidua 0iE 02 iD jiC ji  ,0),(  Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Vícenásobná (víceprediktorová) regrese ni xxY iippii ,...,1 ...110    ni xxEY ippii ,...,1 ...110    lze zapojit více vysvětlujících proměnných lze zapsat jako vztah pro střední hodnotu (a vynechat rezidua) kde ßj jsou neznámé parametry (j = 0,...,p) počet prediktorů je p počet parametrů je p+1=k počet pozorování je n. Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Víceprediktorová regrese Model pro predikci porodní hmotnosti dle UZ markerů Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Rozepsané... nppnn pp pp xxEY xxEY xxEY       ... ... ... 110 221102 111101  jednotlivá pozorování Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Maticový zápis                                           npnpn p n xx xx Y Y          10 1 1111 1 1 systematická složka náhodná složka závisle proměnná εXβY  matice plánu regresní koeficienty Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Normální lineární regresní model • Náhodná složka modelu je reprezentována náhodnými chybami εi Rozdělení těchto náhodných veličin εi je normální • Rozptyl je všude stejný, pozorování jsou nezávislá • předpokladem sestrojení statistik pro testy v tomto modelu niXY iij p j ji ,...,1, 1 0    ),0(~ 2  Ni Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Odhad neznámých parametrů Parametry β • Odhad metodou nejmenších čtverců • nejlepší, nestranný, lineární odhad β • lze ukázat, že rozptyl tohoto odhadu je YXXXβOLS  1 )(ˆ 12 )(ˆ   XXβOLS D Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Odhad neznámých parametrů Reziduální součet čtverců YXβYY  OLSeS 22 11 )ˆ(...)ˆ( )ˆ()ˆ( )ˆ()ˆ( nn OLSOLSe YYYY S    YYYY βXYβXY lze ukázat Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Odhad neznámých parametrů Rozptyl 2 kn S s e  2 reziduální součet čtverců stupně volnosti modelu Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Statistické testy v lineárním regresním modelu • Testování lineární kombinace parametrů • Hypotéza: • Testová statistika: • Důkaz viz předmět Lineární statistické modely • Speciálním případem je klasický t-test )(~ ˆ knt s T      cX)X(c βcβc 1 OLS H0: c´ = x H1: c´ ≠ x x ... konstanta Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I • Testování více parametrů zároveň • Předpokládá blokové označení parametrů: • Obdobně i pro odhad )',...,,,...,( 11 kmm  β Statistické testy v lineárním regresním modelu 1β 2β        2 1 β β β          2 1 ˆ ˆ ˆ OLS, OLS, OLS β β β        2221 1211 VV VV XX Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I • Hypotéza • Statistikou je • Důkaz viz předmět Lineární statistické modely • Speciálním případem je klasická analýza rozptylu Statistické testy v lineárním regresním modelu ),(~)ˆˆ()'ˆˆ( )( 1 222 knmkF mks F     ββVββ OLS,2 1 22OLS,2        2 1 β β β          2 1 ˆ ˆ ˆ OLS, OLS, OLS β β β         2221 12111 )( VV VV XX H0: 2 = x H1: 2 ≠ x x ... konstantní vektor Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I • V lineárním modelu jsou rezidua rozdíly mezi pozorovanými a odhadnutými (očekávanými) hodnotami závisle proměnné: • Hodnocení reziduí je nesmírně důležité pro posouzení splnění předpokladů modelu Analýza reziduí 20 25 30 35 20406080100 BMI VitaminD YYεr ˆˆ  20 25 30 35 -2002040 BMI Rezidua Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Koeficient determinace T e S S R 12   n i iie YYS 1 2 )ˆ(  n i iT YYS 1 2 )( Reziduální součet čtverců:Celková variabilita výsledku: Koeficient determinace = vyčerpaná variabilita výsledku modelem Nevyčerpaná variabilita Lineární regresní model I Prediktory různých datových typů Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I • představuje matici nezávislých proměnných - prediktorů Matice plánu                                           npnpn p n xx xx Y Y          10 1 1111 1 1 systematická složka náhodná složka závisle proměnná matice plánu nppnn pp pp xxEY xxEY xxEY       ... ... ... 110 221102 111101  Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I • představuje matici nezávislých proměnných – prediktorů • promítají se do ní – konstanta – absolutní člen – spojité proměnné – kategoriální proměnné Matice plánu Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Konstanta – absolutní člen                                 nnY Y     1 0 1 1 1 0 02 01       nEY EY EY  • Předpokládáme stejnou střední hodnotu pro celý soubor – odhadli jsme výběrový průměr • Sloupec jedniček budeme v matici plánu uvažovat téměř vždy Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Konstanta – absolutní člen 0 100 200 300 400 15202530354045 Index BMI Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Spojité prediktory                                      nnn x x Y Y      1 1 0 11 1 1 nn xEY xEY xEY 10 2102 1101        • Střední hodnota se lineárně mění v závislosti na prediktoru Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Spojité prediktory 10 15 20 25 30 35 40 15202530354045 Tukova tkan BMI Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Spojité prediktory – jak na polynom? 2 210 2 222102 2 121101 nnn xxEY xxEY xxEY        • Předpokládáme, že očekávaná hodnota opisuje parabolu • Lze přidat flexibilitu přidáním další mocniny • Pozor na multikolineritu a „znesmyslnění“ koeficientů • NAJEDNOU UŽ LINEÁRNÍ MODELY NEJSOU TAK DOCELA LINEÁRNÍ • Stále však musí platit, že lineární prediktor je lineární kombinací parametrů modelu                                           nnn xx xx Y Y       1 2 1 0 2 1 2 111 1 1 Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Spojité prediktory – jak na polynom? 10 15 20 25 30 35 40 15202530354045 Tukova tkan BMI Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I • Většinou nelze uvažovat jako kvantitativní – to by předpokládalo linearitu a stejné rozdíly mezi následujícími skupinami • Je potřeba vytvořit tzv. dummy proměnné • Vždy vytváříme o jednu proměnnou méně, než je hodnot kategoriálního prediktoru Kategoriální prediktory Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Kategoriální prediktory Nominální kódování Původní Nové proměnné BMI kateg. Normální váha Nadváha Obezita Podváha 0 0 0 Normální váha 1 0 0 Nadváha 0 1 0 Obezita 0 0 1                                               nnnnn xxx xxx Y Y        1 3 2 1 0 321 1312111 1 1 0iEY 10  iEY 20  iEY 30  iEY Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Podvaha Normalni Nadvaha Obezita 01020304050 Tukovatkan[%] Kategoriální prediktory Nominální kódování 0 1 2 3 Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Kategoriální prediktory Ordinální kódování Původní Nové proměnné BMI kateg. Normální váha Nadváha Obezita Podváha 0 0 0 Normální váha 1 0 0 Nadváha 1 1 0 Obezita 1 1 1                                               nnnnn xxx xxx Y Y        1 3 2 1 0 321 1312111 1 1 0iEY 10  iEY 210  iEY 3210  iEY Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Podvaha Normalni Nadvaha Obezita 01020304050 Tukovatkan[%] Kategoriální prediktory Ordinální kódování 0 1 2 3 Lineární regresní model I Klasické modely novým pohledem Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Co už známe, ale jinak... t-test • jedná se o lineární model s jedním kategoriálním prediktorem se dvěma hodnotami                      11 11 01 01   X iEY  iEY H0:  = 0 H1:  ≠ 0 Použijeme výše zmíněný t-test pro lineární modely... Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Co už známe, ale jinak... analýza rozptylu • jedná se o lineární model s jedním kategoriálním prediktorem s m hodnotami                                  101 101 011 011 001 001           X iEY 1 iEY H0: H1: 1 miEY                        0 0 1 1  m                        0 0 1 1  m  Použijeme výše zmíněný F-test pro lineární modely... Lineární regresní model I Předpoklady lineárního regresního modelu Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Předpoklady lineární regrese nixxY iipii ,...,1,... 1110   ),0(~ 2  Ni LINEARITA ADITIVITA ROZLOŽENÍ REZIDUÍ NEZÁVISLOST POZOROVÁNÍjiC ji  ,0),(  Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Naučíme se s nimi vypořádat... nixxY iipii ,...,1,... 1110   ),0(~ 2  Ni LINEARITA ADITIVITA ROZLOŽENÍ REZIDUÍ NEZÁVISLOST POZOROVÁNÍjiC ji  ,0),(  V prediktorech ... polynomiální zadání V parametrech ... linkovací funkce Korelační struktura – smíšený model Interakce Logistická/Poissonova regrese Lineární regresní model I Multikolinearita Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Co je multikolinearita? • Kdyby spolu proměnné nesouvisely, tak by víceprediktorová regrese pozbývala smyslu... • Problém však představuje vysoká korelace mezi prediktory, neboť znemožňuje odhadnutí účinku jednotlivých prediktorů Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Příklad 40 60 80 100 120 140 160 180 140150160170180190200 Hmotnost [kg] Vyska[cm] Výška = 147 + HmotnostKg x 0,3 Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Příklad Výška = 147 + HmotnostLb x 0,14 100 150 200 250 300 350 400 140150160170180190200 Hmotnost [libry] Vyska[cm] Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Příklad • Co kdybychom dali do modelu obě proměnné? • Výška = β0+ HmotnostKg ∙ β1 + HmotnostLb ∙ β2 • Výška = 147 + HmotnostKg ∙ 0,3+ HmotnostLb ∙ 0 • Výška = 147 + HmotnostKg ∙ 0 + HmotnostLb ∙ 0,14 • Výška = β0+ (HmotnostLb ∙ 0,45) ∙ β1+ HmotnostLb ∙ β2 • Výška = β0+ HmotnostLb ∙ ( 0,45 ∙ β1+ β2 ) • tedy kterékoliv koeficienty, které řeší 0,45 ∙ β1+ β2 = 0,14 • a těch je nekonečně mnoho... Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Problémy s multikolinearitou • může se objevit divné chování – velké změny parametrů při odebrání/přidání prediktoru – obrovské směrodatné odchylky – extrémní odlehlé hodnoty • software může upozornit na numerickou nestabilitu • prediktory v automatických metodách jsou vybírány náhodně • je obtížné skutečně odhadnout efekt • může být i dobrý model na predikci, ale nepoužitelný na odhad efektu kovariát Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Jak najít dva korelované prediktory? • Jak najít korelované proměnné? – Dvě proměnné – xy-graf, korelační matice – Korelační matice odhadnutých koeficientů Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Jak najít více korelovaných prediktorů? • Ze dvou a více prediktorů lze spočítat jiný Tolerance Variance inflation factor (nafouknutí rozptylu) – převrácená hodnota tolerance – nad 4 znepokojivé, nad 10 závažné – výpočet pro i-tý parametr – kde Ri 2 je čtverec vícenásobné korelace mezi i-tým sloupcem matice plánu a ostatními sloupci (koeficient determinace modelu vysvětlující daný prediktor ostatními prediktory) 2 1 1 i i R VIF   Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Řešení • Vypustit část korelovaných proměnných – ty, které obsahují chybějící data, hůře se měří, nebo jsou z jiných důvodů nedůvěryhodné • Vytvoření a/nebo proměnné • Zkobinovat prediktory do jednoho skóre – např. věk + výška + váha -> věk + BMI Lineární regresní model I Závěr Institut biostatistiky a analýz Masarykova univerzita Ondřej Májek, 2015 Bi7491 Regresní modelování – Lineární regresní model I Co byste po dnešní hodině měli vědět a umět? Vědět, jak se definuje lineární regresní model Vysvětlit předpoklady regresních modelů Umět použít v lineárním regresním modelu různé typy prediktorů Vědět, co je multikolinearita, jak ji zjistit a jak se s ní vypořádat