M5VM05 Statistické modelování 10. Konkrétní GLM modely Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno podzim 2013 Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 1/53 Motivace Na minulé přednášce jsme si uvedli obecnou definici zobecněného lineárního modelu a obecné konstrukce testů hypotéz o parametrech těchto modelů. Na této přednášce se již budeme zabývat zobecněnými lineárními modely pro konkrétní případy podle toho, jaké rozdělení má závisle proměnná Y. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 2/53 Motivace Typy veličin: Nominální Ordinální Kvalitativní Intervalová Poměrová Kvantitativní Diskrétní 2 Spojitá Kategoriální D ichot omická Poly t omická Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Modely pro alternativní a binomická data Předpokládejme, že Uj ~ A (7T(-) (z = 1, ...,N) nabývá pouze dvou hodnot 0 a Í7T; U = í l-TZi U = 0 = 0 jinak Předpokládejme, že náhodná veličina Uj závisí na A: veličinách xn,... ,x^, tzv. kovariáty. Data můžeme mít zadána různým způsobem: • jednotlivá pozorování U,\ hodnoty kovariát pozorované binární veličiny %il i ■ ■ ■ i %ik Ui j Ti" (1 — TĹi) U = 0,1 1 0 jinak. Jan KoláCek (PřF MU) M5VM05 Statistické modelování podzim 2013 Modely pro alternativní a binomická data o skupinově, kdy známe absolutní četnosti úspěchů Yj a celkový počet pokusů rij, tedy máme k dispozici binomická data Yj ~ Bi(rij,TZj) PiY1=y)={ W V-y = M"/ K 1 i" \ 0 jinak kde j = 1,..., n; N = n1-\-----h n„ a data můžeme zapsat formou tabulky hodnota kovariát počet úspěchů počet pokusů Xji, . . ., Xjfc rij Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 5 / 53 Modely pro alternativní a binomická data • skupinově, kdy známe relativní četnost úspěchů Zj = a celkový počet pokusů tij q^il-n^ y=0,i.....1 0 jinak kde j = 1,..., n; N = n1-\-----h n„ Data lze zapsat do tabulky kovariáty relativní úspěšnost počet pokusů Xji,. . .,Xjfc zř = £ 1 tij rij P(Zj = y) = Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 6/53 Cíl Hlavním úkolem statistické analýzy je nalézt vztah mezi Z,-, (tj. i Y,) a xn,.. . ,x,7t, tj. funkci 7T; = 7r(Xi) = 7T(xfl,...,Xr;t). Protože chceme použít GLM modely, modelujeme pravděpodobnosti 7i(- pomocí linkovacích funkcí Nejjednodušším modelem je lineární model Tli = Xjj8. Avšak tento model má řadu nevýhod, především je třeba zajistit, aby xj/3 nabývala hodnot mezi 0 a 1, tedy je třeba přidat nějaké dodatečné podmínky. Proto, abychom tuto podmínku dodrželi, využijeme nějakou distribuční funkci f{s)ds f(s) > 0 / f(s)ds = 1 -co J —co s odpovídající hustotou f(s), která se v tomto případě nazývá toleranční funkce (toleranční distribuce). Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 7 / 53 Modely dávka - odpověď Typickým příkladem těchto modelu je vztah mezi dávkou toxické látky a odezvy (kladná-přežití, záporná-smrt) jedince na tuto dávku. Odezvy bývají obvykle udávány jako procenta kladné odezvy (quantal responses). Symetrické modely Jestliže uvažujeme toleranční distribuci jako rovnoměrně spojitou na nějakém intervalu (a,b), tj pak pro x e (a, b) a tento model je lineárním modelem 7T0(x) X — a Po + fax tj- ft, a 1 b — a b — a b — a > 0 s identickou linkovací funkcí ^o(tt) = n. Jan KoláCek (PřF MU) M5VM05 Statistické modelovaní podzim 2013 8 / 53 Symetrické modely Obrázek : Rovnoměrné rozdělení na (a,b). Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 9/53 Probitový model Další možností je vzít normální hustotu jako toleranční funkci. V tomto případě mluvíme o tzv. probitovém modelu: nliX) = FlW = £/l(s)ds = £ ^e-H^ds = * (^), kde Oje distribuční funkce standardizovaného normálního rozdělení. Pak tzv. probitovou linkovací funkcí je kvantilová funkce normálního rozdělení gl(n) = 1(n) x— cr Čo + jM tj. 0O h = l > o. Hodnota mediánu x = \i se nazývá mediánová smrtící dávka (median lethal dose - LD50) a odpovídá dávce, při které polovina jedinců má kladnou a polovina zápornou odezvu. Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 10 / 53 Probitový model Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 11 / 53 Logistický model Jiným velmi podobným modelem je tzv. logistický model, kde toleranční funkce je hustota logistického rozdělení f (s) = I_ÍÍPÍ5lÍ)_ = i ^pQ^it) nK> -[l+exp(^)]2 - [l+exp(-^)]2' takže n2(x)=F2(x)= i ť\:'^ds /-co " [l+exp(Vi)] l+eqKS*) l+expí-V1) s tzv. logit linkovací funkcí g2(7i)=log(I^) = ^ = /30 + /31x tj. /$0 = -£ /31 = i>0. Jan KoláCek (PřF MU) M5VM05 Statistické modelování podzim 2013 12 / 53 Logistický model Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 13 / 53 CLogLog model Asymetrické (extremální) modely Pokud za toleranční funkci zvolíme Log-Weibullovo rozdělení (extreme-minimal-value distribution) ve tvaru /3(s) = i exp (^/J exp pak 7T3(x) = s tzv. komplementární log-log linkovací funkc exP \a iexpí^/lexp ■ exp ^ ds = 1 — exp exp g3(7r) = log[-log(l-7i)] = Vi = ßo + /3iX tj. ß0 = -% /31 = i>0. Jan KoláCek (PřF MU) M5VM05 Statistické modelováni podzim 2013 14 / 53 CLogLog model f(s) Obrázek : Log-Weibullovo rozděl Jan KoláCek (PřF MU) M5VM05 Statistické modeloval LogLog model Pokud jako toleranční funkci zvolíme zobecněné Gumbelovo rozdělení (extreme-miaximal-value distribution) ve tvaru /4(s) = i exp exP dostaneme s tzv. log-log linkovací funkcí g3{n) = -log[-log(7r)] = exp cr i exp cr exp s—]l cr ds = exp x— cr čo + jm tj. exp -l č1 = I>0. Jan KoláCek (PřF MU) M5VM05 Statistické modelováni podzim 2013 16 / 53 LogLog model Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 17 / 53 Logistická regrese Nejčastěji se používá logit linkovací funkce g2(7l) = log(T^). Zajímá nás vztah pravděpodobností úspěchu či neúspěchu k hodnotám regresorů (kovariát) x= {x\,... ,X;t)T, tj. P(Y-l\xi xt)-n(x)- exP^(x)> -_l_ 111*k)-nW- 1+eXp{7/(x)} ~ l+exp{-?7(x)} a P =1 - *<*> = Tr4mi= tw-,^)} Předpokládejme, že lineární prediktor je roven ?/(x) = /30 + /3Tx. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 18 / 53 Logistická regrese Všimněme se nejprve, že podíl odds(l) _ P(Y= l\xlr...,xk) 7l(x) odds(O) P(Y = 0\x1,...,xk) l-7i(x) exp(/30 + /3Tx) má bezprostřední interpretaci. Porovnává pravděpodobnost jedničky (tj. výskyt sledovaného jevu při daných hodnotách kovariát) a nuly (nevýskyt sledovaného jevu při daných hodnotách kovariát). Anglickému označení odds odpovídá české označení šance. Pro k = 1 jsou šance odds(O) = exp(^o), odds(l) = exp^o + jSi)-Poměr šancí (anglicky odds ratio) pro binární x je pak OR odds(l) exp(j6i), odds(O) takže parametr /3i je roven logaritmu poměru šancí Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Příklad 1 V souboru „beetle.RData" jsou uvedeny údaje o úmrtnosti Potemníka skladištního (Tribolium confusum) v reakci na sírouhlík cs2. Datový soubor obsahuje tyto proměnné dose množství sírouhlíku (mg/l) population počet kusů ve zkoumaném vzorku killed počet mrtvých kusů ve zkoumaném vzorku Modelujte závislost úmrtnosti na množství CSi- Řešení. Pro modelování závislosti použijeme logistický model, probitový model a model s komplementární log-log linkovací funkcí. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 20 / 53 Příklad Obrázek Jan Koláček (PřF MU) Modely pro úmrtnost Potemníka skladištního. M5VM05 Statistické modelování podzim 2013 21 / 53 Modely pro poissonovská data Předpokládejme, že náhodný výběr rozsahu n je z Poissonova rozdělení, tj Y, ... počet výskytu sledovaného jevu v určitém časovém intervalu (na ploše velikosti t apod.). Jestliže jsou splněny následující podmínky a) jev může nastat v kterémkoliv časovém okamžiku, b) počet výskytů jevu během časového intervalu závisí jen na jeho délce a ne na jeho počátku ani na tom, kolikrát jev nastoupil před jeho počátkem, c) pravděpodobnost, že jev nastoupí více než jednou v intervalu délky t, konverguje k nule rychleji než t, d) A je střední hodnota počtu výskytů jevu za časovou jednotku pak uvedená náhodná veličina má rozdělení Po(A). Y,-~Po(A,-), P{Yi = y) 0 A,- > 0; y = 0,1,2,... jinak přičemž EYi = DYi = A,-. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 22 / 53 Modely pro poissonovská data Náhodnou veličinou, která má Poissonovo rozdělení, je tedy např. • počet vadných výrobku ve velké sérii, jestliže pravděpodobnost vyrobení vadného výrobku je velmi malá • počet těžkých dopravních úrazů za den v určitém městě • počet zákazníků v prodejně během nějakého časového intervalu • počet částic v jednotce plochy nebo objemu, např. počet částic v zorném poli mikroskopu o počet telefonních volání v časovém intervalu t • počet létavic pozorovaných během intervalu délky t Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 23 / 53 Modely pro poissonovská data Předpokládejme, že Y,- závisí na k veličinách xn,... ,x,7t, a úkolem je najít vztah mezi nimi, tj. hledáme funkci A,- = A(x,-) = A(xilr...,xik). GLM modely =>■ modelujeme pravděpodobnosti A,- pomocí linkovacích funkcí Nejjednodušším je lineární model A,- = xTjg. Tento model má řadu nevýhod, především je třeba zajistit, aby nabývala pouze kladných hodnot. Nejčastěji se volí tyto dvě možnosti: log-lineárních model : EYi = fa = A{ = exp(xJ/3) (#) = rji = gx (A,) = log(A,) = odmocninový model : EY; = = A; = (x]fi)2 g2{}li) = f]i = g2{Ai) = ^Ä" = Jan KoláCek (PřF MU) M5VM05 Statistické modelování podzim 2013 24 / 53 Modelování binomických dat pomocí poissonovského modelu Pomocí Poissonova rozdělení Po(A) lze dobře aproximovat binomické rozdělení Bi(n, 7i) za podmínek n —>■ oo & 71—^0 & niž —>■ A < oo, obvykle se doporučuje n > 30 a n < 0,1. Chceme-li tedy aproximovat binomické rozdělení Bz(n,-, 7T() pomocí Poissonova rozdělení Po(A(- = n,-7T() a přitom použijeme logaritmickou linkovací funkci, platí A,- = n,-7T,- = exp(xf/S) log(A,) = log(nO + log(7rr) = xf/S. tzv. „offset" Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 25 / 53 Příklad Příklad 2 V souboru „aids.RData" jsou uvedeny údaje o počtech nových případů AIDS ve Velké Británii za období prosinec 1982 až listopad 1985. Datový soubor obsahuje tyto proměnné month měsíc year rok number počet nových případů AIDS Modelujte závislost počtu nových případů AIDS na čase. Řešení. Pro modelování závislosti použijeme lineární model, log-lineární model a odmocninový model. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 26 / 53 Příklad Obrázek : Modely pro výskyt nových onemocnění AIDS ve Velké Británii. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 27 / 53 Overdispersion, underdispersion Předpokládáme, že náhodný výběr Y„ = (Y\,... ,Yn)T z rozdělení exponenciálního typu se řídí GLM modelem, tj. f(y,Ô) = flfiVi'Qi) = exp {E yŕg;~l(g'° + d{Vi,°> kde (x>i > 0 jsou známé apriorní váhy a

0 je neznámý rušivý parametr. Škálová deviace D = 2 fQ3m„;Y)-fQ3;Y) = 7,2Ľ Wi [Yi{kmax ~ Ôi) ~ 7$,™*) + 7$)] T ( = 1 = Id* a D* nazveme neškálovou deviací (unsealed deviance). Jan KoláCek (PřF MU) M5VM05 Statistické modelováni podzim 2013 28 / 53 Overdispersion, underdispersion Protože platí 1 1 d = —d* ~ x2(n — k) ED=-ED*^n-k,

D* = D* n — k' Další často používanou mírou vhodnosti modelu je tzv. zobecněná Pearsonova statistika a proto dalším momentovým odhadem založeným na této statistice je X2 fez n—k' Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 29 / 53 Overdispersion, underdispersion Přehled rušivých parametrů Rozdělení

... Předpokládejme, že náhodný výběr Y je z Poissonova rozdělení, Yjk~Po(\jk) ; = 1.....J;k=l.....K s tzv. celkovou dodatečnou podmínkou N = E É ty* N e N+, ;=1 fc=l kde jsou realizace náhodných veličin Y^. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval Modely pro multinomická data Rozdělení náhodného vektoru Y za podmínky Z = N je multinomické py|z =n(y) = < Nin n pro yjk = 0,1.....N; ; = 1...../; k=l,...,K, j k j k Ľ Ľ Vik = N E Ľ TTft = 1 7=1 )t=l ;'=1 k=l , 0 jinak Y|Z.. = N ~ Mn(N,Tľii,...,tzik,■ ■ ■ ,7ľji,...,tzjk) , pricemz EY;7t =N7T;-fc DYjk =Nnjk(l - njk) C{Yjk,Yfk') =-N7ľjk7ľjlkl Jan Koláček (PřF MU) M5VM05 Statistické modelováni Kontingenční tabulky Realizace náhodných veličin i teoretické pravděpodobnosti lze uspořádat do tzv. kontingenční tabulky: Kontingenční tabulka četností faktor A faktor B Bi B2 Ľ Ax yn Ni. A2 3/21 y2K N2. Aj yn N/. Ľ N.i N.2 N = N. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 37 / 53 Kontingenční tabulky Kontingenční tabulka pravděpodobností faktor A faktor B Bi B2 B* Ľ Ax 7Tn 7T12 A2 7T21 7T22 7T2. A, 7TJ! 7Tj2 Ľ 7T.1 7T.2 7T.. = 1 Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 38 / 53 Kontingenční tabulky Nejčastěji se v kontingenčích tabulkách testuje hypotéza, že faktory A a B jsou nezávislé tj- faktor A faktor B Bk L Al Kj.n.k ni- L n.k l njk = Tíj.Tí.kr takže potom EY^ = Nnjn_^ , přičemž ^ 7tj_ = ^ = 1. 7=1 k=l Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 39 / 53 Log-lineární modely Pro model s celkovou dodatečnou podmínkou lze hypotézu o nezávislosti dvou faktorů definovat takto / K EYjk = NrCjTik , přičemž ^ tl^ = 1 a ^ nk = 1. 7=1 k=\ V GLM s log-lineární linkovací funkcí máme rj^ = log EY^ = x^./3, tedy Vjk = logEY;7t = log(N7r;-.7r.Jt) = ]i + ctj + fa . =logN =log7Ty =l0g7TJc Pokud bychom nepředpokládali nezávislost faktorů A a B, dostaneme maximální model =logN =lognjk Hypotéza nezávislosti dvou faktorů v kontingenčních tabulkách je ekvivalentní s hypotézou neexistence interakcí v analýze rozptylu (deviace), tj. H0: (afajk = 0 ; = 1...../; k=l.....K. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 40 / 53 Příklad Příklad 4 V následující kontingentní tabulce jsou obsaženy údaje studie 400 pacientů o počtech různých typů onemocnění rakovinou kůže (Malignant Melanoma) v závislosti na části těla, kde se vyskytují. Část těla Typ rakoviny končetiny hlava a krk trup Hutchinson 's melanotic freckle 10 22 2 neurčitý 28 11 17 Nodular 73 19 33 Superficial spreading melanoma 115 16 54 Na hladině významnosti cl = 0r 05 testujte hypotézu, zda typ rakoviny kůže závisí na části těla, kde se vyskytuje. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 41 / 53 Příklad Řešení Nejprve definujeme oba log-lineární modely, tj. model ml, který předpokládá nezávislost obou faktorů a model m2, který počítá i s interakcemi. Model ml je tedy submodelem modelu m2. K testování využijeme analýzu deviace, Pearsonův test. Jeho p-hodnota vychází 2,05 x 10~9 a proto zamítáme hypotézu o nezávislosti typu rakoviny kůže na části těla, kde se vyskytuje. Výsledky obou modelů lze také znázornit pomocí mozaikového grafu. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 42 / 53 Příklad Independent data nodul Type Obrázek : Mozaikový graf pro model, který předpokládá nezávislost. Jan Koláček (PřF MU) M5VM05 Statistické modelováni podzim 2013 43 / 53 Příklad Full model Type Obrázek : Mozaikový graf pro model s interakcemi. Jan Koláček (PřF MU) M5VM05 Statistické modelování podzim 2013 44 / 53 Úlohy k procvičení Příklad 1.1 V souboru „heart .RData" jsou uvedena data o přítomnosti infarktu myokardu v závislosti na věku pacienta. Datový soubor obsahuje tyto proměnné: age věk pacienta (roky) chd indikátor infarktu (1 - nastal, 0 - nenastal) Pro modelování závislosti použijte logistický model, probitový model a model s komplementární log-log linkovací funkcí. Výsledky vykreslete do obrázku. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 45 / 53 Úlohy k procvičení Příklad 1.2 V souboru „nemocnice.RData" jsou uvedeny údaje o zotavení pacientů v závislosti na závažnosti onemocnění a nemocnici, ve které se léčili. Datový soubor obsahuje tyto proměnné: InfectionSeverity vážnost onemocnění Treatment_Outcome indikátor uzdravení (1 - zdravý, 0 - smrt) Hospital typ nemocnice (1, 2, 3) Pro modelování závislosti nalezněte vhodný logistický model. Výsledky vykreslete do obrázku. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 46 / 53 Úlohy k procvičení Příklad 1.3 V souboru „cancer.RData" jsou uvedeny údaje o počtu onemocnění rakovinou kůže u žen v závislosti na věku a oblasti v USA, ve které pacientky žily. Datový soubor obsahuje tyto proměnné: Cases počet onemocnění Town město (0 - Minneapolis (Minnesota), 1 - Dallas (Texas)) Age věková skupina pacientky Population celkový počet žen dané věkové skupiny v příslušném městě Pro modelování závislosti nalezněte vhodný logistický model. Výsledky vykreslete do obrázku. Porovnejte pravděpodobnost vzniku onemocnění u 60-ti leté pacientky žijící v Minneapolisu s pravděpodobností pro stejně starou pacientku žijící v Dallasu. [Minneapolis: 0.00117, Dallas: 0.00276/ Jan Koláček (PřF MU) M5VM05 Statistické modelováni Úlohy k procvičení Příklad 1.4 V souboru „ car-income. RData" jsou uvedeny údaje o koupi nového auta během posledních 12-ti měsíců v závislosti na přijmu domácnosti a stáří původního auta. Datový soubor obsahuje tyto proměnné: purchase indikátor nákupu nového auta (1 - ano, 0 - ne) income roční příjem domácnosti (v tis. dolarů) age stáří původního auta (roky) Nejprve vykreslete závislosti proměnné purchase na ostatních. Pro modelování závislosti nalezněte vhodný logistický model. Jsou všechny proměnné statisticky významné? Znovu modelujte s použitím proměnné age jako factor. Opět sledujte statistickou významnost age. Vyzkoušejte tuto proměnnou zakomponovat do modelu jako factor s méně úrovněmi. Výsledky vykreslete do obrázku. Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 48 / 53 Úlohy k procvičení I Příklad 1.5 V souboru „ druhy .RData" jsou k dispozici data, která se týkají dlouhodobého zemědělského experimentu. Bylo sledováno 90 pozemků (pastvin) o rozloze 25 m x 25m, lišících se v biomase, pH půdy a druhové bohatosti (počet rostlinných druhů na celém pozemku). Je dobře známo, že s rostoucí biomasou dochází k poklesu druhové bohatosti. Ale zůstává otázka, zda rychlost poklesu nesouvisí s úrovní pH v půdě. Proto byly jednotlivé pozemky klasifikovány podle hodnoty pH v půdě do tří úrovní (nízká, střední a vysoká úroveň) a do experimentu bylo vybráno vždy po 30 pozemcích pro každou úroveň. Spojitá veličina Biomass je dlouhodobým průměrem naměřených červnových hodnot biomasy. Datový soubor obsahuje tyto proměnné: pH úroveň pH v půdě (low - nízká, mi d - střední, high - vysoká) Biomass množství biomasy species počet rostlinných druhů Jan Koláček (PřF MU) M5VM05 Statistické modelováni Úlohy k procvičení II Příklad 1.5 Nejprve vykreslete závislosti proměnné species na ostatních. Pro modelování závislosti nalezněte vhodný poissonovský model. Vyzkoušejte postupně logaritmickou, identickou a odmocninovou linkovací funkci. Jsou všechny proměnné statisticky významné? Pokud ne, zkuste modely zjednodušit a pomocí analýzy deviace rozhodněte, zda takové zjednodušení je možné. Získané výsledné modely vykreslete do obrázku. Pomocí všech modelů odhadněte počet rostlinných druhů na pozemku s hodnotou biomasy 9 a střední úrovní pH v půdě. [Odhady počtu druhů pro log link: 8,895, identity link: 4,513, sqrt link: 7,414.] Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 50 / 53 Úlohy k procvičení I Příklad 1.6 V souboru „ sharks. RData" jsou k dispozici data, která popisují počty napadení žraloky na Floridě v letech 1946 až 1999. Známe také velikost populace. Datový soubor obsahuje tyto proměnné: Year rok Population velikost populace Attacks počet napadení žraloky Fatalit i es počet úmrtí způsobených žraloky Nejprve vykreslete bodový graf počtu napadení na 1 milión obyvatel v závislosti na čase. Pro modelování použijte binomický i poissonovský model s kanonickou linkovací funkcí. Pro matici plánu uvažujte kubický polynom v proměnné Year. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Úlohy k procvičení II Příklad 1.6 Predikce obou modelů i s intervalem spolehlivosti pro regresní funkci vykreslete do obrázku. Zkoumejte také, jestli nenastal problém příliš velkého nebo příliš malého rozptylu. Pokud ano, předefinujte model a výsledky znovu vykreslete do obrázku. Pomocí výsledného modelu odhadněte, kolik útoků (na 1 milión obyvatel) způsobí žraloci na Floridě v roce 2013 a také v jakém intervalu se tato hodnota s 95% pravděpodobností bude pohybovat. [Nastal problém příliš velkého rozptylu. Odhad: 33,96 útoků na 1 milión obyvatel, interval spolehlivosti: [3,207;359,55].] Jan Koláček (PřF MU) M5VM05 Statistické modeloval podzim 2013 52 / 53 Úlohy k procvičení Příklad 1.7 V následující kontingenční tabulce jsou obsaženy údaje o počtech různých typů onemocnění horních cest dýchacích (Respiratory Tract Infections) v závislosti na čase. Diagnóza 1-3/96 Časové období 4-6/96 7-9/96 10-12/96 1-3/97 Acute bronchitis 113 58 40 108 100 Acute sinusitis 99 37 23 50 32 URI 410 228 125 366 304 Pneumonia 60 43 30 56 45 Na hladině významnosti tx = 0,05 testujte hypotézu, zda onemocnění horních cest dýchacích závisí na čase. [závisí] Jan KoláCek (PřF MU) M5VM05 Statistické modeloval podzim 2013 53 / 53