Lineární regresní model I Definice a zadání Bi7491 Regresní modelování Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste po dnešní hodině měli vědět a umět? Vědět, jak se definuje lineární regresní model Vysvětlit předpoklady regresních modelů Umět použít v lineárním regresním modelu různé typy prediktorů Vědět, co je multikolinearita, jak ji zjistit a jak se s ní vypořádat Lineární regresní model I Definice lineárního regresního modelu Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Jak popsat vztah mezi dvěma kvantitativními proměnnými? 20 25 30 35 20406080100 BMI VitaminD intuitivně jsme schopni nakreslit přímku vedoucí mezi pozorováními... Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Metoda nejmenších čtverců – minimalizuje vzdálenosti přímky od bodů koncentrace vitaminu D = 111,1 – 2,4BMI Jak popsat vztah mezi dvěma kvantitativními proměnnými? 0 10 20 30 40 50 60 020406080100120140 BMI VitaminD 111,1 Intercept (posun, absolutní člen) 24 (na 10 jednotek) Slope (směrnice přímky) Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Model s jednou spojitou proměnnou ni xY ii ,...,1 10    absolutní člen, posun směrnice (sklon) regresní přímky počet pozorování proč tady není = ?? Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Lineární regresní model Stochastická složka ni xY iii ,...,1 10    Pro rezidua musí platit: 1. jsou nesystematické 2. jsou homogenní v rozptylu 3. jsou nekorelované Rezidua 0iE 02 iD jiC ji  ,0),(  Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Vícenásobná (víceprediktorová) regrese ni xxY iippii ,...,1 ...110    ni xxEY ippii ,...,1 ...110    lze zapojit více vysvětlujících proměnných lze zapsat jako vztah pro střední hodnotu (a vynechat rezidua) kde ßj jsou neznámé parametry (j = 0,...,p) počet prediktorů je p počet parametrů je p+1=k počet pozorování je n. Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Víceprediktorová regrese Model pro predikci porodní hmotnosti dle UZ markerů Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Rozepsané... jednotlivá pozorování nppnn pp pp xxEY xxEY xxEY       ... ... ... 110 221102 111101  Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Maticový zápis systematická složka náhodná složka závisle proměnná εXβY  matice plánu regresní koeficienty                                           npnpn p n xx xx Y Y          10 1 1111 1 1 Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Normální lineární regresní model • Náhodná složka modelu je reprezentována náhodnými chybami εi Rozdělení těchto náhodných veličin εi je normální • Rozptyl je všude stejný, pozorování jsou nezávislá • předpokladem sestrojení statistik pro testy v tomto modelu niXY iij p j ji ,...,1, 1 0    ),0(~ 2  Ni Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Odhad neznámých parametrů Parametry β • Odhad metodou nejmenších čtverců • nejlepší, nestranný, lineární odhad β (BLUE) • lze ukázat, že rozptyl tohoto odhadu je YXXXβOLS  1 )(ˆ 12 )(ˆ   XXβOLS D Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Odhad neznámých parametrů Reziduální součet čtverců YXβYY  OLSeS 22 11 )ˆ(...)ˆ( )ˆ()ˆ( )ˆ()ˆ( nn OLSOLSe YYYY S    YYYY βXYβXY lze ukázat Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Odhad neznámých parametrů Rozptyl 2 kn S s e  2 reziduální součet čtverců stupně volnosti modelu Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Statistické testy v lineárním regresním modelu • Testování lineární kombinace parametrů • Hypotéza: • Testová statistika: • Speciálním případem je klasický t-test )(~ ˆ knt s T      cX)X(c βcβc 1 OLS H0: c´ = x H1: c´ ≠ x x ... konstanta Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • Testování více parametrů zároveň • Předpokládá blokové označení parametrů: • Obdobně i pro odhad )',...,,,...,( 11 kmm  β Statistické testy v lineárním regresním modelu 1β 2β        2 1 β β β          2 1 ˆ ˆ ˆ OLS, OLS, OLS β β β         2221 12111 )( VV VV XX Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • Hypotéza • Statistikou je • Speciálním případem je klasická analýza rozptylu Statistické testy v lineárním regresním modelu ),(~)ˆ()'ˆ( )( 1 222 knmkF mks F     ββVββ OLS,2 1 22OLS,2        2 1 β β β          2 1 ˆ ˆ ˆ OLS, OLS, OLS β β β         2221 12111 )( VV VV XX H0: 2 = x H1: 2 ≠ x x ... konstantní vektor Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • V lineárním modelu jsou rezidua rozdíly mezi pozorovanými a odhadnutými (očekávanými) hodnotami závisle proměnné: • Hodnocení reziduí je nesmírně důležité pro posouzení splnění předpokladů modelu Analýza reziduí 20 25 30 35 20406080100 BMI VitaminD YYεr ˆˆ  20 25 30 35 -2002040 BMI Rezidua Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Koeficient determinace T e S S R 12   n i iie YYS 1 2 )ˆ(  n i iT YYS 1 2 )( Reziduální součet čtverců:Celková variabilita výsledku: Koeficient determinace = vyčerpaná variabilita výsledku modelem Nevyčerpaná variabilita Lineární regresní model I Prediktory různých datových typů Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • představuje matici nezávislých proměnných - prediktorů Matice plánu                                           npnpn p n xx xx Y Y          10 1 1111 1 1 systematická složka náhodná složka závisle proměnná matice plánu nppnn pp pp xxEY xxEY xxEY       ... ... ... 110 221102 111101  Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • představuje matici nezávislých proměnných – prediktorů • promítají se do ní – konstanta – absolutní člen – spojité proměnné – kategoriální proměnné Matice plánu Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Konstanta – absolutní člen                                 nnY Y     1 0 1 1 1 0 02 01       nEY EY EY  • Předpokládáme stejnou střední hodnotu pro celý soubor – odhadli jsme výběrový průměr • Sloupec jedniček budeme v matici plánu uvažovat téměř vždy Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Konstanta – absolutní člen 0 100 200 300 400 15202530354045 Index BMI Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Spojité prediktory                                      nnn x x Y Y      1 1 0 11 1 1 nn xEY xEY xEY 10 2102 1101        • Střední hodnota se lineárně mění v závislosti na prediktoru Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Spojité prediktory 10 15 20 25 30 35 40 15202530354045 Tukova tkan BMI Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Spojité prediktory – jak na polynom? 2 210 2 222102 2 121101 nnn xxEY xxEY xxEY        • Předpokládáme, že očekávaná hodnota opisuje parabolu • Lze přidat flexibilitu přidáním další mocniny • Pozor na multikolineritu a „znesmyslnění“ koeficientů • NAJEDNOU UŽ LINEÁRNÍ MODELY NEJSOU TAK DOCELA LINEÁRNÍ • Stále však musí platit, že lineární prediktor je lineární kombinací parametrů modelu                                           nnn xx xx Y Y       1 2 1 0 2 1 2 111 1 1 Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Spojité prediktory – jak na polynom? 10 15 20 25 30 35 40 15202530354045 Tukova tkan BMI Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • Většinou nelze uvažovat jako kvantitativní – to by předpokládalo linearitu a stejné rozdíly mezi následujícími skupinami • Je potřeba vytvořit tzv. dummy proměnné • Vždy vytváříme o jednu proměnnou méně, než je hodnot kategoriálního prediktoru Kategoriální prediktory Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kategoriální prediktory Nominální kódování Původní Nové proměnné BMI kateg. Normální váha Nadváha Obezita Podváha 0 0 0 Normální váha 1 0 0 Nadváha 0 1 0 Obezita 0 0 1                                               nnnnn xxx xxx Y Y        1 3 2 1 0 321 1312111 1 1 0iEY 10  iEY 20  iEY 30  iEY Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Podvaha Normalni Nadvaha Obezita 01020304050 Tukovatkan[%] Kategoriální prediktory Nominální kódování 0 1 2 3 Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Kategoriální prediktory Ordinální kódování Původní Nové proměnné BMI kateg. Normální váha Nadváha Obezita Podváha 0 0 0 Normální váha 1 0 0 Nadváha 1 1 0 Obezita 1 1 1                                               nnnnn xxx xxx Y Y        1 3 2 1 0 321 1312111 1 1 0iEY 10  iEY 210  iEY 3210  iEY Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Podvaha Normalni Nadvaha Obezita 01020304050 Tukovatkan[%] Kategoriální prediktory Ordinální kódování 0 1 2 3 Lineární regresní model I Klasické modely novým pohledem Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co už známe, ale jinak... t-test • jedná se o lineární model s jedním kategoriálním prediktorem se dvěma hodnotami                      11 11 01 01   X iEY  iEY H0:  = 0 H1:  ≠ 0 Použijeme výše zmíněný t-test pro lineární modely... Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co už známe, ale jinak... analýza rozptylu • jedná se o lineární model s jedním kategoriálním prediktorem s m hodnotami                                  101 101 011 011 001 001           X iEY 1 iEY H0: H1: 1 miEY                        0 0 1 1  m                        0 0 1 1  m  Použijeme výše zmíněný F-test pro lineární modely... Lineární regresní model I Předpoklady lineárního regresního modelu Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Předpoklady lineární regrese nixxY iipii ,...,1,... 1110   ),0(~ 2  Ni LINEARITA ADITIVITA ROZLOŽENÍ REZIDUÍ NEZÁVISLOST POZOROVÁNÍjiC ji  ,0),(  Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Naučíme se s nimi vypořádat... nixxY iipii ,...,1,... 1110   ),0(~ 2  Ni LINEARITA ADITIVITA ROZLOŽENÍ REZIDUÍ NEZÁVISLOST POZOROVÁNÍjiC ji  ,0),(  V prediktorech ... polynomiální zadání V parametrech ... linkovací funkce Korelační struktura – smíšený model Interakce Logistická/Poissonova regrese Lineární regresní model I Multikolinearita Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co je multikolinearita? • Kdyby spolu proměnné nesouvisely, tak by víceprediktorová regrese pozbývala smyslu... • Problém však představuje vysoká korelace mezi prediktory, neboť znemožňuje odhadnutí účinku jednotlivých prediktorů Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad 40 60 80 100 120 140 160 180 140150160170180190200 Hmotnost [kg] Vyska[cm] Výška = 147 + HmotnostKg x 0,3 Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad Výška = 147 + HmotnostLb x 0,14 100 150 200 250 300 350 400 140150160170180190200 Hmotnost [libry] Vyska[cm] Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad • Co kdybychom dali do modelu obě proměnné? • Výška = β0+ HmotnostKg ∙ β1 + HmotnostLb ∙ β2 • Výška = 147 + HmotnostKg ∙ 0,3+ HmotnostLb ∙ 0 • Výška = 147 + HmotnostKg ∙ 0 + HmotnostLb ∙ 0,14 • Výška = β0+ (HmotnostLb ∙ 0,45) ∙ β1+ HmotnostLb ∙ β2 • Výška = β0+ HmotnostLb ∙ ( 0,45 ∙ β1+ β2 ) • tedy kterékoliv koeficienty, které řeší 0,45 ∙ β1+ β2 = 0,14 • a těch je nekonečně mnoho... Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Problémy s multikolinearitou • může se objevit divné chování – velké změny parametrů při odebrání/přidání prediktoru – obrovské směrodatné odchylky – extrémní odlehlé hodnoty • software může upozornit na numerickou nestabilitu • prediktory v automatických metodách jsou vybírány náhodně • je obtížné skutečně odhadnout efekt • může být i dobrý model na predikci, ale nepoužitelný na odhad efektu kovariát Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Jak najít dva korelované prediktory? • Jak najít korelované proměnné? – Dvě proměnné – xy-graf, korelační matice – Korelační matice odhadnutých koeficientů Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Jak najít více korelovaných prediktorů? • Ze dvou a více prediktorů lze spočítat jiný Tolerance Variance inflation factor (nafouknutí rozptylu) – převrácená hodnota tolerance – nad 4 znepokojivé, nad 10 závažné – výpočet pro i-tý parametr – kde Ri 2 je čtverec vícenásobné korelace mezi i-tým sloupcem matice plánu a ostatními sloupci (koeficient determinace modelu vysvětlující daný prediktor ostatními prediktory) 2 1 1 i i R VIF   Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Řešení • Vypustit část korelovaných proměnných – ty, které obsahují chybějící data, hůře se měří, nebo jsou z jiných důvodů nedůvěryhodné • Vytvoření a/nebo proměnné • Zkobinovat prediktory do jednoho skóre – např. věk + výška + váha -> věk + BMI Lineární regresní model I Závěr Ondřej Májek, 2019 Bi7491 Regresní modelování – Lineární regresní model I Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste po dnešní hodině měli vědět a umět? Vědět, jak se definuje lineární regresní model Vysvětlit předpoklady regresních modelů Umět použít v lineárním regresním modelu různé typy prediktorů Vědět, co je multikolinearita, jak ji zjistit a jak se s ní vypořádat