Lineární regresní model II Bi7491 Regresní modelování Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste vědět a umět z minula? Vědět, jak se definuje lineární regresní model Vysvětlit předpoklady regresních modelů Umět použít v lineárním regresním modelu různé typy prediktorů Vědět, co je multikolinearita, jak ji zjistit a jak se s ní vypořádat Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste měli vědět a umět po dnešní hodině ? Umět se vypořádat s chybějícími daty Vědět, co je interakce, jak ji poznat, a jak ji zohlednit v konstruovaném modelu Znát možnosti kauzálního působení různých faktorů, umět popsat rozdíl mezi zkreslující proměnnou a mediátorem, popisovat jednoduché vztahy pomocí modelových diagramů Znát základní pravidla pro zařazování proměnných do modelu Umět posoudit splnění modelových předpokladů pomocí grafických nástrojů Lineární regresní model II Chybějící data Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Chybějící měření prediktorů • Chybějící měření z různých důvodů je velmi časté • U víceprediktorové regrese se problém zvýrazňuje • Snižuje se síla analýzy • Může dojít ke zkreslení Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co s tím? • smazat řádky s chybějícími daty – ztráta síly testu – riziko zavedení zkreslení • ne, pokud chybí měření zcela náhodně – vhodné srovnat subjekty • vytvořit dummy proměnnou pro chybějící údaj • snažit se získat data • vypustit proměnnou s chybějícími daty – můžeme ztratit klíčové informace – ale taky nemusíme - vzpomeňte na kapitolu o multikolinearitě • odhadnout chybějící hodnoty Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Typy chybějících dat • Data chybějící zcela náhodně (Missing completely at random, MCAR) – Žádný systematický rozdíl mezi chybějícími a pozorovanými hodnotami. Například výpadek pozorování z důvodu poruchy tlakoměru. • Data chybějící náhodně (Missing at random, MAR) – Systematický rozdíl mezi chybějícími a pozorovanými hodnotami je vysvětlitelný pozorovanými hodnotami jiné proměnné. Například chybějící hodnoty krevního tlaku budou nižší než pozorované, pokud mladí lidé spíše propásnou měření. • Data chybějící nenáhodně (Missing not at random, MNAR) – Systematický rozdíl mezi chybějícími a pozorovanými hodnotami není vysvětlitelný ani pozorovanými hodnotami jiné proměnné. Například pokud lidé s vyšším krevním tlakem propásnou návštěvu ambulance z důvodů bolesti hlavy (což nenaměříme). Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Odhad chybějících hodnot • velmi lákavé – neztratíme žádné subjekty – smysluplné jen pokud u subjektů chybí málo proměnných • riskantní – každý odhad je nevyhnutelně špatně • přiřadit průměr/medián • totéž po skupinách subjektů • regrese na ostatních prediktorech – imputace – to ale určitě podhodnotí rozptyl proměnné – přidáváme jen očekávané hodnoty • vícenásobná imputace – složitější metoda, která pomocí simulace nepodhodnotí chyby Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Rekapitulace a doporučení • snažit se dosbírat data • prohlédnout charakter chybějících dat • zvážit vyhození proměnných s velkým podílem chybějících dat • pokud zbývá jen několik subjektů s velkým podílem chybějících dat, zvážit jejich vyloučení • prohlédnout, zda se subjekty s chybějícími daty liší od ostatních (chybí data náhodně???) • pokud chybí náhodně, snažit se odhadnout • pokud ne, máme problém... Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Chybějící měření výsledků • z výše uvedeného má smysl pouze – smazat subjekty – snažit se získat data Lineární regresní model II Interakce proměnných Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Aditivita • Předpokladem regresního modelu je aditivita • to znamená, že účinky prediktorů se nezávisle na sobě sčítají – za každou jednotku BMI ubydou dvě jednotky koncentrace vitaminu D – každá libra hmotnosti auta přidá 0,004 l na spotřebě – americká auta spotřebují o 1,3 litru méně... Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Bez interakcí 2000 2500 3000 3500 4000 4500 68101214161820 Hmotnost [lbs] Spotreba[l/100km] Americká auta pozorování očekávání pozorování očekávání Zahraniční auta Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Bez interakcí           +                     =           nnnn xx xx Y Y       1 2 1 0 21 12111 1 1 Americká auta Zahraniční auta 110 ii xEY  += 2110  ++= ii xEY na 1 libru hmotnosti poroste o β1 na 1 libru hmotnosti poroste o β1 Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita S interakcí Americká auta pozorování očekávání pozorování očekávání Zahraniční auta 2000 2500 3000 3500 4000 4500 68101214161820 Hmotnost [lbs] Spotreba[l/100km] Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita S interakcí           +                         =           nnnnn xxx xxx Y Y        1 3 2 1 0 321 1312111 1 1 Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita S interakcí           +                             =           n ii n xx x Y Y           1 3 2 1 0 11 11 1 11 001 americká zahraniční Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita S interakcí           +                             =           n ii n xx x Y Y           1 3 2 1 0 11 11 1 11 001 americká zahraniční Americká auta Zahraniční auta 110 ii xEY  += 21310 132110 )(   +++= +++= ii iii xEY xxEY na 1 libru hmotnosti poroste o β1 na 1 libru hmotnosti poroste o β1+β3 Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Shrnutí • Interakce umožňují v prostředí klasického regresního modelu situaci, kdy vliv některého prediktoru se mění v závislosti na jiném prediktoru • spojitá a kategoriální proměnná – zahraniční auta mají vyšší spotřebu na jednotku hmotnosti • 2 kategoriální proměnné – mutace genu pro fenylalaninhydroxylasu – OK – konzumace mateřského mléka – OK – konzumace mateřského mléka postiženým kojencem – POSTIŽENÍ • 2 spojité proměnné – model porodní váhy – závislost na BPD, AC – přírůstek váhy [g/cm] pro BPD se liší na každé úrovni AC Lineární regresní model II Kauzalita Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Korelace neznamená kauzalitu... http://xkcd.com/552/ • regrese je statistický nástroj a jako takový zkoumá pouze asociaci proměnných • reálně nás ale zajímá právě ta kauzalita • je nezbytné zapojit své vědomosti a zkušenosti o zkoumaném problému Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Není proměnná jako proměnná... • Závisle proměnná – výsledková proměnná (outcome) • Nezávisle proměnné (kovariáty) – zájmové proměnné • ošetření (treatment) • expozice (exposure) – „rušivé“ proměnné • zavádějící faktory (confounder) Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Zavádějící faktor (confounder) • Proměnná asociovaná s rizikovým faktorem a kauzálně spojená s výsledkem Nošení zápalek Rakovina plic RIZIKOVÝ FAKTOR? VÝSLEDEK Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Zavádějící faktor (confounder) • Proměnná asociovaná s rizikovým faktorem a kauzálně spojená s výsledkem • může zcela zatemnit skutečný vztah mezi rizikovým faktorem a výsledkem Nošení zápalek Rakovina plic Kouření RIZIKOVÝ FAKTOR? VÝSLEDEK ZAVÁDĚJÍCÍ FAKTOR Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Supresor • Zvláštní případ zavádějícího faktoru, který zabrání detekci účinku... • Uvažujme studii, která zkoumá, zda zdravotníci, kteří si vzali preventivně antivirotikum Zidovudine, měli nižší riziko nákazy • Observační studie neukázala významný účinek ??? lék Zidovudine HIV PROTEKTIVNÍ FAKTOR? VÝSLEDEK Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Supresor • Zvláštní případ zavádejícího faktoru, který zabrání detekci účinku... • Uvažujme studii, která zkoumá, zda zdravotníci, kteří si vzali preventivně antivirotikum Zidovudine, měli nižší riziko nákazy • Observační studie neukázala významný účinek, ukázalo se však, že lék si brali spíše vážněji zranění zdravotníci lék Zidovudine HIV Závažnost zranění PROTEKTIVNÍ FAKTOR? VÝSLEDEK SUPRESOR Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Supresor • Zvláštní případ zavádejícího faktoru, který zabrání detekci účinku... • Uvažujme studii, která zkoumá, zda zdravotníci, kteří si vzali preventivně antivirotikum Zidovudine, měli nižší riziko nákazy • Model doplněný o supresor (závažnost zranění) ukázal významný protektivní efekt Zidovudinu Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Mediátor • stejně jako zavádějící faktor je asociován s výsledkem • na rozdíl od něj ale víme, že je kauzálně ovlivněn zájmovým prediktorem (zprostředkovává účinek nějakého prediktoru) • můžeme ji zařadit do regresního modelu – vysvětluje účinek zájmového prediktoru na výsledek Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Modelové diagramy Příklad Pohlaví Věk PREDIKTOR Vitální kapacita plic (1s)Výška VÝSLEDEK MEDIÁTOR ZAVÁDĚJÍCÍ FAKTOR Lineární regresní model II Které proměnné zařadíme do modelu? Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Mimochodem... Pro tyto hodiny budeme uvažovat: • Cílem modelování je pochopení vztahů mezi proměnnými, spíše než samotná predikce • Prediktivní modelování s sebou nese drobné posuny ve filosofii a metodice Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Základní pravidla • pečlivě zformulujeme vědeckou otázku • studium literatury – prediktory a závisle proměnné • pečlivé plánování před sběrem dat, aby mohlo zodpovědět danou otázku • začínáme popisnou analýzou (bivariátní) • přemýšlení o mechanismu účinku – modelový diagram • model nesmí obsahovat ani málo, ani moc proměnných • dostatečná variabilita subjektů ve zkoumaném faktoru (hubení i tlustí) • spíše nepoužívat automatický výběr prediktorů Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Není proměnná jako proměnná... 1. Zájmové proměnné studie (léčba, rizikový faktor) – teoretické opodstatnění, neznámý skutečný účinek a jeho forma 2. Proměnné ovlivňující výsledek – měly by být v iniciálním modelu a měly by tam zůstat, pokud nenajdeme nějakou velmi korelovanou vysvětlující lépe 3. „Nepostradatelné“ proměnné (pohlaví, věk) 4. Další možné vysvětlující proměnné – fishing expedition – jen screening proměnných (hledání hypotéz), nutno ověřit novou studií Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Bias x Variance tradeoff • Pokud do modelu zařadíme příliš mnoho prediktorů – nepřesné výsledky (VARIANCE, overfitting) • Pokud do modelu zařadíme příliš málo prediktorů, můžeme například opomenout zavádějící faktor – zkreslení (BIAS, underfitting) • Jednoduché pravidlo říká, že na každou proměnnou zařazenou do modelu, bychom měli mít k dispozici deset pozorování (Events Per Variable) – jednoduše brání overfittingu • V praxi zřejmě může být „beztrestně“ nižší – ale v takovém případě je na místě opatrná interpretace výsledků Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Stavba lineárního prediktoru • Binární proměnné – jediná možnost Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Stavba lineárního prediktoru • Kategoriální proměnné (více než dvě hodnoty) – dummy proměnné (ale zvážit shluknutí málo zastoupených – jen smysluplně) Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Stavba lineárního prediktoru • Spojité proměnné (záleží na důvod zájmu o prediktor) – neměnit tvar užívaný v předchozích studiích, pokud se neví, že to je špatně – u těch důležitých většinou známe znaménko a hrubě velikost, ale ne přesný tvar toho vztahu – namalovat graf (scatter, nebo popis v kategoriích) – to je marginální vztah, pro podmíněný zkoumáme rezidua – transformace kovariáty • dle znalosti nás něco smyslupného napadne • kategorizace – podle počtu pozorování, můžeme nějaké běžně užívané (podváha, norm, nadváha, obezita) • teď nás třeba napadne něco lepšího • logaritmus, odmocnina, reciproční, exponenciální • užitečné jsou vyhlazovací metody – ale pro zájmové proměnné se příliš nehodí, neboť nám neumožní kvantifikovat účinek Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Strategie analýzy • dát do modelu s důležitými proměnnými ty diskutabilní jednu po druhé – zjistíme vliv na závisle proměnnou – prozkoumáme změny vlivu ošetření, odhalíme zavádějící faktor – nechat zájmové proměnné, známé faktory a nalezené významné • zjednodušovat model??? – na základě významnosti – opatrně, možná vůbec ne (to ale zvýší rozptyl odhadů) • kompromis – vyhodit nevýznamné proměnné neovlivňující ty ostatní (hlavně efekt zájmových proměnných) • průběžně kontrolovat model – viz dále Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita „Významnost“ proměnných • diskutována v minulé lekci • t-test – testování významnosti jediné proměnné (resp. sloupce v matici plánu) • F-test – pro jedinou proměnnou totožné výsledky jako t-test – možné testovat více proměnných (resp. sloupců v matici plánu) – potřeba, pokud jednomu prediktoru odpovídá např. více dummy proměnných Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Automatický výběr proměnných • pokud už použijeme automatický výběr modelu, nechat si část dat na ověření – krosvalidace • hlavním problémem je, že nerozlišuje různé typy proměnných – tj. zájmovou proměnnou (ošetření, expozici), známé zkreslující faktory, potenciální zkreslující faktory, balast... Lineární regresní model II Ověření správné volby modelu Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Analýza reziduí • analýza reziduí je důležitou součástí ověřování vhodnosti modelu. Můžeme tak zjistit, zda výchozí předpoklady o rozdělení náhodných chyb a konstrukce lineárního prediktoru byly správné • pomocí reziduí zjistíme body, jejichž reziduum je velmi odlišné od ostatních pozorování. Pokud se v grafu objeví závislost reziduí na prediktorech nebo variabilita reziduí roste v závislosti na veličinách modelu, musíme celý model znovu přehodnotit, popř. jej vytvořit od začátku Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita • V lineárním modelu jsou rezidua rozdíly mezi pozorovanými a odhadnutými (očekávanými) hodnotami závisle proměnné: • Hodnocení reziduí je nesmírně důležité pro posouzení splnění předpokladů modelu Analýza reziduí 20 25 30 35 20406080100 BMI VitaminD YYεr ˆˆ −== 20 25 30 35 -2002040 BMI Rezidua Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Předpoklady • linearita • normální rozložení chyb • homogenní rozptyl Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Předpoklady • linearita – graf rezidua vs. jednotlivé nezávisle proměnné – body musí být symetrické podle nulové hodnoty • normální rozložení chyb – NP plot reziduí – měla by vycházet přímka • homogenní rozptyl – graf rezidua vs. jednotlivé nezávisle proměnné – graf rezidua vs. predikovaný výsledek – rezidua blízko nulové hodnoty – rozptýlení hodnot okolo nuly konstantní Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad spotřeba ~ hmotnost 2000 2500 3000 3500 4000 4500 68101214161820 Model Weight Spotreba Cad. SevilleOlds 98 Plym. Arrow Toyota Celica Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad spotřeba ~ hmotnost 2000 2500 3000 3500 4000 4500 -4-202 Nezávisle proměnné Weight Rezidua Cad. Seville Olds 98 Plym. Arrow Toyota Celica Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad spotřeba ~ hmotnost -2 -1 0 1 2 -3-2-1012 Theoretical Quantiles Standardizedresiduals lm(spotreba ~ weight) Normal Q-Q Cad. Seville Plym. Arrow Olds 98 Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad spotřeba ~ hmotnost 8 10 12 14 16 18 -4-2024 Fitted values Residuals lm(spotreba ~ weight) Residuals vs Fitted Cad. Seville Plym. Arrow Olds 98 Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Řešení • transformace dat – přirozený logaritmus – odmocnina – převrácená hodnota – mocnina – arcsin • prohlídka zvláštních pozorování Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Hledání zvláštních bodů • odlehlé pozorování (outlier) – velké reziduum, vzdálené pozorování od očekávané hodnoty – extrémní hodnoty závisle proměnné • vlivné pozorování – dokáže změnit výsledný model – záleží na velikosti vzorku a umístění v prostoru prediktorů • veličina LEVERAGE (pákový efekt) – extrémní hodnoty nezávisle proměnné + atypické hodnoty závisle proměnné Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Příklad 20 25 30 35 40 45 50020406080120 BMI VitaminD 20 25 30 35 40 45 50 020406080120 BMI VitaminD 20 25 30 35 40 45 50 020406080120 BMI VitaminD 20 25 30 35 40 45 50020406080120 BMI VitaminD Jediné pozorování může znehodnotit celý model Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Pákové body - LEVERAGE • extrémnost v prostoru prediktorů • potenciál pro velký vliv na výsledný model 2000 2500 3000 3500 4000 4500 0.020.040.060.08 Weight Leverages Linc. Continental Linc. Mark V Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Hledání zvláštních bodů • hledání odlehlých pozorování – rezidua vs. jednotlivé nezávisle proměnné – NP plot reziduí – rezidua vs. predikovaný výsledek • hledání vlivných pozorování – DELEČNÍ DIAGNOSTIKY – DFFITS – změna predikovaných hodnot – DFBETAS – změna odhadu parametrů – Cookova vzdálenost – souhrnná změna odhadu parametrů Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita DFFITS 2000 2500 3000 3500 4000 4500 -0.8-0.6-0.4-0.20.00.20.4 Weight DFFITS Cad. Seville Linc. Mark V Olds 98 • jak se změní predikce pro dané pozorování ve srovnání s jeho nepřítomností Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita DFBETAS • jak se změní odhad parametrů, ve srovnání s nepřítomností daného pozorování 1 11 1 1 1 11 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 11 1 1 1 1 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 2000 2500 3000 3500 4000 4500 -0.6-0.4-0.20.00.20.4 Weight DFBETAS 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 222 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 Cad. Seville Linc. Mark V Olds 98 Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Cookova vzdálenost • kombinace DFBETAS do jediné hodnoty pro dané pozorování 2000 2500 3000 3500 4000 4500 0.000.050.100.150.200.25 Weight Cookovavzdálenost Cad. Seville Linc. Mark V Olds 98 Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Vlivná pozorování 2000 2500 3000 3500 4000 4500 68101214161820 Hmotnost [lbs] Spotreba[l/100km] Linc. Mark V Olds 98 Cad. Seville Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Vlivná pozorování Olds 98 - těžké auto, ale s nízkou spotřebou Cadillac - těžké auto, ale s nízkou spotřebou Lincoln - těžké auto s VYSOKOU spotřebou Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co s nimi? • podrobněji prozkoumat – třeba je tam důvod • chybné záznamy – vyhodit z analýzy • extrémní hodnota prediktoru – zformulovat vylučovací kritérium a odstranit rovněž další vyhovující pozorování, obdobně je ale třeba upravit interpretaci výsledného modelu (to je ale lépe dělat předem) • extrémní hodnota výsledku – podívat se, čím jsou pozorování významná, opět se pokusit zformulovat univerzální vylučovací kritérium • třeba je možné přidat další vysvětlující kovariátu a obohatit tak celkový model Lineární regresní model II Závěr Ondřej Májek, 2020 Bi7491 Regresní modelování – Lineární regresní model II Institut biostatistiky a analýz Lékařská fakulta, Masarykova univerzita Co byste měli vědět a umět po dnešní hodině ? Umět se vypořádat s chybějícími daty Vědět, co je interakce, jak ji poznat, a jak ji zohlednit v konstruovaném modelu Znát možnosti kauzálního působení různých faktorů, umět popsat rozdíl mezi zkreslující proměnnou a mediátorem, popisovat jednoduché vztahy pomocí modelových diagramů Znát základní pravidla pro zařazování proměnných do modelu Umět posoudit splnění modelových předpokladů pomocí grafických nástrojů