Statistické modelování Jan Koláček Obsah Úvod 1 Literatura 1 Kapitola 1. Průzkumová analýza jednorozměrných dat 3 Základní informace 3 Výstupy z výukové jednotky 3 1. Motivace 3 2. Funkcionální charakteristiky datového souboru 3 3. Číselné charakteristiky datového souboru 6 4. Diagnostické grafy 10 Úlohy k procvičení 14 Kapitola 2. Základní pojmy matematické statistiky 17 Základní informace 17 Výstupy z výukové jednotky 17 1. Motivace 17 2. Náhodný výběr a výběrové charakteristiky 17 3. Bodové odhady 19 4. Intervalové odhady 23 5. Bodové a intervalové odhady parametrů normálního rozdělení 25 6. Bodové a intervalové odhady založené na centrální limitní větě 28 7. Testování statistických hypotéz 29 Úlohy k procvičení 37 Kapitola 3. Základy regresní a korelační analýzy 39 Základní informace 39 Výstupy z výukové jednotky 39 1. Motivace 39 2. Optimální volba predikční funkce g 40 3. Analýza závislosti 44 Úlohy k procvičení 49 Kapitola 4. Lineární regresní model 53 Základní informace 53 Výstupy z výukové jednotky 53 1. Motivace 53 2. Lineární regresní model 53 3. Odhady neznámých parametrů 55 4. Testování hypotéz v lineárním regresním modelu 57 5. Speciální modely lineární regrese 58 Úlohy k procvičení 66 Kapitola 5. Ověřování předpokladů v klasickém modelu lineární regrese 69 Základní informace 69 Výstupy z výukové jednotky 69 3 4 M5VM05 Statistické modelování 1. Motivace 69 2. Ověřování normality dat 69 3. Autokorelace 75 4. Multikolinearita 79 Úlohy k procvičení 83 Kapitola 6. Analýza rozptylu 85 Základní informace 85 Výstupy z výukové jednotky 85 1. Motivace 85 2. Testování hypotézy o shodě středních hodnot 86 3. Bartlettův a Levenův test shody rozptylů 89 4. Metody mnohonásobného porovnávání 89 5. Kruskalův – Wallisův test 91 6. Více nezávislých náhodných výběrů z alternativních rozložení 91 Úlohy k procvičení 93 Kapitola 7. Zobecněné lineární modely 95 Základní informace 95 Výstupy z výukové jednotky 95 1. Motivace 95 2. Základní pojmy a definice 96 3. Definice jednorozměrného GLM 103 4. Odhady neznámých parametrů v GLM 108 5. Testování hypotéz v GLM modelech 111 6. Ověřování vhodnosti modelu 111 7. Tabulky rozdělení exponenciálního typu 116 Úlohy k procvičení 118 Kapitola 8. Konkrétní GLM modely 121 Základní informace 121 Výstupy z výukové jednotky 121 1. Motivace 121 2. Modely pro alternativní a binomická data 122 3. Modely pro poissonovská data 128 4. Problematika příliš velkého nebo příliš malého rozptylu 132 5. Modely pro multinomická data 133 Úlohy k procvičení 138 Kapitola 9. Analýza závislosti dvou veličin 143 Základní informace 143 Výstupy z výukové jednotky 143 1. Motivace 143 2. Testování nezávislosti nominálních veličin 143 3. Testování nezávislosti ordinálních veličin 146 4. Testování nezávislosti intervalových či poměrových veličin 147 Úlohy k procvičení 153 Rejstřík 155 Úvod Tento text je určen zejména pro studenty předmětu „M5VM05 Statistické modelování . Jde o nadstavbovou část základního kurzu pravděpodobnosti a matematické statistiky „Spojité modely a statistika B , který je výchozím pro další teoretické i aplikačně zaměřené stochastické předměty. Kurz nejprve obsahuje základy popisné statistiky a průzkumovou analýzu dat. Zabývá se vlastnostmi bodových odhadů, zejména nestranností a konzistencí. Zmínka je též o intervalových odhadech parametrů, především normálního rozdělení a také o odhadech založených na centrální limitní větě. V návaznosti na tuto problematiku kurz pokračuje testováním hypotéz. V další části jsou probrány obecné základy regresní a korelační analýzy. Na ty pak kurz navazuje klasickým lineárním regresním modelem, kde je kladen důraz zejména na odhad neznámých parametrů a testování hypotéz o těchto parametrech. Jako speciální příklad lineárních regresních modelů je dále podrobněji studována analýza rozptylu. V další části jsou úvahy rozšířeny na zobecněné lineární modely (tzv. „GLM modely ). Zejména se jedná o popis základních komponent modelů a aplikací GLM modelů v konkrétních případech. Závěr kurzu se ještě věnuje modelování závislosti mezi kvalitativními proměnnými. Podstatná část textu byla převzata ze zdrojů [3, 6, 7] a také z výukových materiálů dr. Forbelské k předmětům „Lineární statistické modely I, II a „Zobecněné lineární modely . Většina tvrzení je uvedena bez důkazů, ty lze nalézt ve výše uvedených zdrojích. Zkoumaná problematika je demonstrována na příkladech se snahou o lepší srozumitelnost textu. Pro více příkladů odkazujeme studenty na cvičení k tomuto kurzu. Závěrem bych rád poděkoval RNDr. Marii Budíkové, Dr. a RNDr. Marii Forbelské, Ph.D. za poskytnuté studijní materiály a za cenné rady a připomínky k tomuto textu. Jan Koláček Literatura [1] J. Anděl. Matematická statistika. SNTL, Praha, 1985. [2] J. Anděl. Statistické metody. Matfyzpress, Praha, 1993. [3] M. Budíková, T. Lerch, and Š. Mikoláš. Základní statistické metody. Masarykova univerzita, Brno, 2005. [4] V. Dupač and M. Hušková. Pravděpodobnost a matematická statistika. Karolinum, Praha, 1999. [5] M. Forbelská. M722 Zobecněné lineární modely – pracovní text. 2013. [6] M. Forbelská and J. Koláček. Pravděpodobnost a statistika I [online]. Elportál. Masarykova univerzita, 1. vyd. edition, 2013. [7] M. Forbelská and J. Koláček. Pravděpodobnost a statistika II [online]. Elportál. Masarykova univerzita, 1. vyd. edition, 2013. [8] P. Hebák and J. Hustopecký. Vícerozměrné statistické metody s aplikacemi. SNTL, Praha, 1987. [9] J. Michálek. Úvod do teorie pravděpodobnosti a matematické statistiky. Státní pedagogické nakladatelství, Praha, 1984. [10] R. C. Rao. Lineární metody statistické indukce a jejich aplikace. Academia Praha, 1978. [11] K. Zvára and J. Štěpán. Pravděpodobnost a matematická statistika. Matfyzpress, Praha, 2001. 1 KAPITOLA 1 Průzkumová analýza jednorozměrných dat Základní informace (1) V následující kapitole se budeme zabývat průzkumovou analýzou jednorozměrných dat. Popíšeme funkcionální a číselné charakteristiky datového souboru a uvedeme základní diagnostické grafy. (2) Předpokládá se znalost pouze nejzákladnějších pojmů z teorie pravděpodobnosti, např. náhodná veličina. Výstupy z výukové jednotky Studenti • umí spočítat a graficky znázornit bodové rozložení četností • umí spočítat a graficky znázornit intervalové rozložení četností • umí spočítat a interpretovat zadaný kvantil • vypočítají a interpretují průměr a rozptyl • umí popsat a vysvětlit krabicový diagram • umí vykreslit a interpretovat N–P, Q–Q a P–P plot 1. Motivace Průzkumová analýza dat je odvětví statistiky, které pomocí různých postupů odhaluje zvláštnosti v datech. Při zpracování dat se často používají metody, které jsou založeny na předpokladu, že data pocházejí z nějakého konkrétního rozložení, nejčastěji normálního. Tento předpoklad nemusí být vždy splněn, protože data • mohou pocházet z jiného rozložení • mohou být zatížena hrubými chybami • mohou pocházet ze směsi několika rozložení. Proto je důležité provést průzkumovou analýzu dat, abychom se vyvarovali neadekvátního použití statistických metod. Poznámka 1.1. Většina textu v této kapitole byla převzata z [3]. Pro podrobnější studium tohoto tématu proto odkazujeme na tento zdroj. 2. Funkcionální charakteristiky datového souboru 2.1. Označení. Na množině objektů {ε1, . . . , εn} zjišťujeme hodnoty znaku X. Hodnotu znaku X na objektu εi označíme xi, i = 1, . . . , n. V teorii pravděpodobnosti se jim také říká realizace náhodné veličiny X. Tyto hodnoty zaznamenáme do jednorozměrného datového souboru: x = (x1, . . . , xn)′ . Uspořádané hodnoty x(1) ≤ x(2) ≤ . . . ≤ x(n) tvoří uspořádaný datový soubor: x(·) = (x(1), . . . , x(n))′ . Vektor x[·] = (x[1], . . . , x[r])′ , kde x[1] < . . . < x[r], r ≤ n, jsou navzájem různé hodnoty znaku X, se nazývá vektor variant. 3 4 M5VM05 Statistické modelování 2.2. Bodové rozložení četností. Je-li počet variant malý, přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností. Zaveďme tzv. indikátor množiny předpisem: IB(x) = 1 x ∈ B, 0 x /∈ B. Definice 2.1. Pro datový soubor x = (x1, . . . , xn)′ definujeme následující pojmy • absolutní četnost varianty x[j]: nj = n i=1 I{x[j]}(xi) • relativní četnost varianty x[j]: pj = nj n • absolutní kumulativní četnost prvních j variant: Nj = n1 + . . . + nj • relativní kumulativní četnost prvních j variant: Fj = Nj n = p1 + . . . + pj • četnostní funkce: p(x) = pj pro x = x[j], j = 1, . . . , r 0 jinak • empirická distribuční funkce: F(x) = 1 n n i=1 I(−∞,x>(xi) Poznámka 2.2. Absolutní či relativní četnosti znázorňujeme graficky např. pomocí sloupkového diagramu či polygonu četností. Příklad 2.3. U 30 domácností byl zjišťován počet členů. Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Vytvořte tabulku rozložení četností. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností počtu členů domácnosti. Řešení. Tabulka rozložení četností: Mgr. Jan Koláček, Ph.D. 5 x[j] nj pj Nj Fj 1 2 2/30 2 2/30 2 6 6/30 8 8/30 3 4 4/30 12 12/30 4 10 10/30 22 22/30 5 5 5/30 27 27/30 6 3 3/30 30 1 1 2 3 4 5 6 246810 počet členů domácnosti hodnotyčetnostnífunkce 1 2 3 4 5 6 7 0.20.40.60.81.0 počet členů domácnosti hodnotyempirickédistribučnífunkce Obr. 1: Graf četnostní funkce Obr. 2: Graf empirické distribuční funkce 1 2 3 4 5 6 počet členů domácnosti početpozorování 0246810 1 2 3 4 5 6 246810 počet členů domácnosti početpozorování Obr. 3: Sloupkový diagram Obr. 4: Polygon četností Příslušné grafy jsou na Obr. 1 až Obr.4. 2.3. Intervalové rozložení četností. Je-li počet variant velký, přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům (u1, u2 , . . . , (ur, ur+1 a hovoříme o intervalovém rozložení četností. Názvy četností jsou podobné jako v bodě 2.2. Stanovení počtu třídicích intervalů je dosti subjektivní záležitost. Často se doporučuje volit r blízké √ n. 6 M5VM05 Statistické modelování Definice 2.4. Četnostní hustota j-tého třídicího intervalu je definována vztahem fj = pj dj kde pj jsou relativní četnosti v jednotlivých intervalech a dj = uj+1 −uj. Soustava obdélníků sestrojených nad třídicími intervaly, jejichž plochy jsou rovny relativním četnostem (a výšky tedy četnostním hustotám), se nazývá histogram. Definice 2.5. • hustota četnosti: f(x) = fj pro uj < x ≤ uj+1, j = 1, . . . , r 0 jinak (grafem hustoty četnosti je schodovitá čára shora omezující histogram) • Intervalová empirická distribuční funkce: F(x) = x −∞ f(t)dt. Příklad 2.6. U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Výdaje (35, 65 (65, 95 (95, 125 (125, 155 (155, 185 (185, 215 Počet domácností 7 16 27 14 4 2 Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Řešení. Tabulka rozložení četností (uj, uj+1 nj pj fj Nj Fj (35, 65 7 7/70 7/2100 7 7/70 (65, 95 16 16/70 16/2100 23 23/70 (95, 125 27 27/70 27/2100 50 50/70 (125, 155 14 14/70 14/2100 64 64/70 (155, 185 4 4/70 4/2100 68 68/70 (185, 215 2 2/70 2/2100 70 1 3. Číselné charakteristiky datového souboru 3.1. Znaky nominálního typu. Nominální škála klasifikuje objekty do určitých předem vymezených tříd či kategorií. Hodnoty v nominální škále se dají vyjádřit slovně a mezi různými hodnotami není definováno žádné uspořádání. Pokud jsou hodnoty nominální škály někdy označovány číselně, mějme na paměti, že toto číslo je pouze jakousi zkratkou (kódem) slovní hodnoty. O znacích měřených v nominální škále hovoříme jako o znacích nominálního typu. Příklad 3.1. Příklady znaků nominálního typu mohou být např.: • pohlaví (s možnými hodnotami mužské, ženské) • barva očí (modrá, hnědá, černá) • výsledek léčby (uzdraven, zemřel) Mgr. Jan Koláček, Ph.D. 7 výdaje hodnotyčetnostníhustoty 50 100 150 200 0.0000.0020.0040.0060.0080.0100.012 výdaje hodnotyintervalovéempir.distrib.funkce 5 35 65 95 125 155 185 215 235 0.00.20.40.60.81.0 Obr. 5: Histogram Obr. 6: Graf intervalové empirické distribuční funkce • národnost (česká, slovenská, polská, německá, ...) Definice 3.2. Charakteristikou polohy je modus – nejčetnější varianta či střed nejčetnějšího intervalu. (Modus je jediná charakteristika polohy vhodná pro nominální veličiny). 3.2. Znaky ordinálního typu. Znaky ordinálního typu lze podle sledované vlastnosti nejen rozlišovat, ale také uspořádat ve smyslu vztahů „je větší , „je menší nebo „předchází , „následuje , aniž bychom však byli schopni vyjádřit číselně vzdálenost mezi větším a menším či mezi předcházejícím a následujícím. Příklad 3.3. Znaky ordinálního typu mohou být např.: • dosažené vzdělání (základní, střední, vysokoškolské) • prospěch ve školním předmětu (výborně, velmi dobře, dobře, nevyhověl) • důstojnická hodnost (podporučík, poručík, nadporučík, kapitán, ...) • stav pacienta (vyléčen, remise, recidiva) • hodnocení funkce technických zařízení (stupně závažnosti poruchy jaderné elek- trárny) • ohrožení povodní (stupně povodňové aktivity) • hodnocení postojů v sociologických průzkumech (škála má hodnoty např. souhlasím, spíše souhlasím, spíše nesouhlasím, nesouhlasím) • četnost výskytu (často, občas, zřídka, nikdy) Vhodnou charakteristikou polohy je α-kvantil. Definice 3.4. Je-li α ∈ (0; 1), pak α-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl α všech dat a na horní úsek obsahující aspoň podíl 1 − α všech dat. Návod 3.5. Pro výpočet α-kvantilu slouží algoritmus: nα = celé číslo c ⇒ xα = x(c)+x(c+1) 2 necelé číslo ⇒ zaokrouhlíme nahoru na nejbližší celé číslo c ⇒ xα = x(c) 8 M5VM05 Statistické modelování Označení. Pro speciálně zvolená α užíváme názvů: • x0,50 – medián • x0,25 – dolní kvartil • x0,75 – horní kvartil • x0,1, . . . , x0,9 – decily • x0,01, . . . , x0,99 – percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0,75 − x0,25. Příklad 3.6. Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce: Počet bodů 0 1 2 3 4 5 6 7 8 9 10 Počet studentů 1 4 6 7 11 15 19 17 12 6 3 Zjistěte modus, medián, 1. decil, 9. decil a kvartilovou odchylku počtu bodů. Řešení. Modus je nejčetnější varianta znaku, v tomto případě tedy 6. Pro výpočet kvantilů musíme znát rozsah datového souboru: n = 1 + 4 + · · · + 3 = 101. Výpočty uspořádáme do tabulky. α nα c xα = x(c) 0,50 50,5 51 6 0,10 10,1 11 2 0,90 90,9 91 8 0,25 25,25 26 4 0,75 75,75 76 7 Kvartilová odchylka: q = 7 − 4 = 3. 3.3. Znaky intervalového a poměrového typu. U znaků intervalového typu lze stanovit vzdálenost mezi hodnotami měřené veličiny. Je zde definována jednotka měření, avšak nula je definována pouze relativně. To nám dovoluje proto počítat s rozdíly naměřených hodnot, nikoliv s jejich podíly. Typickým příkladem je teplota, která se dá měřit v různých stupnicích (Celsiova, Fahrenheitova). U znaků poměrového typu lze určit nejen rozdíly (intervaly) mezi hodnotami, ale i podíly hodnot, neboť tyto znaky mají nulu stanovenu absolutně a jednoznačně. Definice 3.7. Aritmetický průměr ¯x: ¯x = 1 n n i=1 xi (1) U poměrových znaků, které nabývají pouze kladných hodnot, lze použít geometrický průměr: n √ x1 · . . . · xn (2) Oba dva průměry jsou charakteristikou polohy. Mgr. Jan Koláček, Ph.D. 9 Definice 3.8. (1) rozptyl: s2 = 1 n n i=1 (xi − ¯x)2 (3) (2) směrodatná odchylka: s = √ s2 (4) (3) koeficient variace (pro poměrové znaky): s ¯x (5) Všechny uvedené charakteristiky jsou charakteristikami variability datového souboru. Poznámka 3.9. Rozptyl se zpravidla počítá podle vzorce s2 = 1 n n i=1 x2 i − ¯x2 . Definice 3.10. Známe-li absolutní či relativní četnosti variant x[1], . . . , x[r], můžeme spočítat vážený průměr: ¯x = 1 n r j=1 njx[j] (6) nebo vážený rozptyl: s2 = 1 n r j=1 nj(x[j] − ¯x)2 (7) Poznámka 3.11. Vážený rozptyl se zpravidla počítá podle vzorce s2 = 1 n r j=1 njx2 [j] − ¯x2 . Aritmetický průměr a rozptyl jsou speciální případy tzv. momentů. V následující definici obecně zavedeme k-tý počáteční a centrální moment. Definice 3.12. • k-tý počáteční moment: m′ k = 1 n n i=1 xk i , kde k = 1, 2, . . . (8) • k-tý centrální moment: mk = 1 n n i=1 (xi − m)k , kde k = 1, 2, . . . (9) Pomocí 3. a 4. centrálního momentu se definuje šikmost a špičatost: Definice 3.13. • šikmost: α3 = m3 s3 (10) Šikmost měří nesouměrnost rozložení četností kolem průměru. • špičatost: α4 = m4 s4 − 3 (11) Špičatost měří koncentraci rozložení četností kolem průměru. 10 M5VM05 Statistické modelování Příklad 3.14. Pro údaje z Příkladu 2.3 vypočtěte průměr a rozptyl počtu členů domácnosti. Řešení. ¯x = 1 30 (1 · 2 + 2 · 6 + 3 · 4 + 4 · 10 + 5 · 5 + 6 · 3) = 109 30 = 3, 6¯3 s2 = 1 30 (12 · 2 + 22 · 6 + 32 · 4 + 42 · 10 + 52 · 5 + 62 · 3) − 109 30 2 = 1769 900 = 1, 96¯5 Příklad 3.15. Nechť ¯x je průměr a s2 1 rozptyl hodnot x1, . . . , xn. Nechť a, b jsou reálné konstanty. Položme yi = a + bxi, i = 1, . . . , n. Vypočtěte průměr ¯y a rozptyl s2 2 hodnot y1, . . . , yn. Řešení. ¯y = 1 n n i=1 yi = 1 n n i=1 (a + bxi) = a + b1 n n i=1 xi = a + b¯x, s2 2 = 1 n n i=1 (yi − ¯y)2 = 1 n n i=1 (a + bxi − a − b¯x)2 = b2 1 n n i=1 (xi − ¯x)2 = b2 s2 1. 4. Diagnostické grafy 4.1. Krabicový diagram (Box plot). Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Můžete se setkat i z názvem box plot. Definice 4.1. Krabicový diagram je specifikován těmito pojmy: Dolní vnitřní hradba: x0,25 − 1, 5q Horní vnitřní hradba: x0,75 + 1, 5q Dolní vnější hradba: x0,25 − 3q Horní vnější hradba: x0,75 + 3q Odlehlá hodnota je hodnota, která leží mezi vnitřními a vnějšími hradbami. Extrémní hodnota je hodnota, která leží za vnějšími hradbami. Způsob konstrukce 4.2. Způsob konstrukce krabicového diagramu je zřejmý z následujícího obrázku. medián x0.5 dolní kvartil x0.25 q horní kvartil x0.75 odlehlá pozorování x0.75 + 1.5 q horní vnitřní hradba Příklad 4.3. Pro data z Příkladu 2.3 sestrojte krabicový diagram. Řešení. Rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky. Mgr. Jan Koláček, Ph.D. 11 α nα c xα 0,25 7,5 8 x(c) = x(8) 2 0,50 15 15 x(15)+x(16) 2 4 0,75 22,5 23 x(c) = x(23) 5 q = 5 − 2 = 3 Dolní vnitřní hradba: x0,25 − 1, 5q = 2 − 1, 5.3 = −2, 5 Horní vnitřní hradba: x0,75 + 1, 5q = 5 + 1, 5.3 = 9, 5 Krabicový graf je znázorněn na Obr. 7. 1 2 3 4 5 61 2 3 4 5 6 Obrázek 7: Krabicový diagram 4.2. Normal probability plot (N–P plot). Umožňuje graficky posoudit, zda data pocházejí z normálního rozložení. Způsob konstrukce 4.4. N–P plot konstruujeme tak, že na vodorovnou osu vynášíme uspořádané hodnoty x(1) ≤ · · · ≤ x(n) a na svislou osu kvantily normálního rozdělení uαj , kde αj = 3j − 1 3n + 1 . Poznámka 4.5. Jsou-li některé hodnoty x(1) ≤ · · · ≤ x(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. Poznámka 4.6. • Pocházejí-li data z normálního rozložení, pak budou všechny dvojice x(j), uαj ležet na přímce. • Pro data z rozložení s kladnou šikmostí se budou dvojice x(j), uαj řadit do konkávní křivky. • Pro data z rozložení se zápornou šikmostí se budou dvojice x(j), uαj řadit do konvexní křivky. Příklady N–P plotu pro jednotlivé případy jsou v části 4.6. 12 M5VM05 Statistické modelování 4.3. Quantile – quantile plot (Q–Q plot). Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení. Způsob konstrukce 4.7. Q–Q plot konstruujeme tak, že na svislou osu vynášíme uspořádané hodnoty x(1) ≤ · · · ≤ x(n) a na vodorovnou osu kvantily Kαj (X) vybraného rozložení, kde αj = j − radj n + nadj , přičemž radj a nadj jsou korigující faktory ≤ 0, 5. Implicitně se klade radj = 0, 375 a nadj = 0, 25. Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadují z dat, nebo se volí na základě teoretického modelu. Body (Kαj (X), x(j)) se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím lepší je soulad mezi empirickým a teoretickým rozložením. Poznámka 4.8. Jsou-li některé hodnoty x(1) ≤ · · · ≤ x(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. Příklad 4.9. Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1, 8 2, 1 2, 4 1, 9 2, 1 2 1, 8 2, 3 2, 2. Pomocí N–P plotu a Q–Q plotu ověřte, zda se tato data řídí normálním rozložením. Řešení. usp.hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 • N–P plot: j = (1, 5; 3; 4, 5; 6, 5; 8; 9; 10) αj = 3j−1 3n+1 = (0, 1129; 0, 2581; 0, 4032; 0, 5968; 0, 7419; 0, 8387; 0, 9355) uαj = (−1, 2112; −0, 6493; −0, 245; 0, 245; 0, 6493; 0, 9892; 1, 5179) • Q–Q plot: j = (1, 5; 3; 4, 5; 6, 5; 8; 9; 10) αj = j−0,375 n+0,25 = (0, 1098; 0, 2561; 0, 4024; 0, 5976; 0, 7439; 0, 8415; 0, 939) uαj = (−1, 2278; −0, 6554; −0, 247; 0, 247; 0, 6554; 1, 0005; 1, 566) Vzhled obou grafů nasvědčuje tomu, že data pocházejí z normálního rozložení. 4.4. Probability – probability plot (P–P plot). Používá se ke stejným účelům jako Q–Q plot, ale jinak se konstruuje. Způsob konstrukce 4.10. Spočtou se standardizované hodnoty z(j) = x(j) − ¯x s , j = 1, . . . , n. Na vodorovnou osu se vynesou hodnoty teoretické distribuční funkce Φ(z(j)) a na svislou osu hodnoty empirické distribuční funkce F(z(j)) = j/n. Pokud se body (Φ(z(j)), F(z(j))) řadí kolem hlavní diagonály čtverce 0, 1 × 0, 1 , lze usuzovat na dobrou shodu empirického a teoretického rozložení. Poznámka 4.11. Jsou-li některé hodnoty x(1) ≤ . . . ≤ x(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. Mgr. Jan Koláček, Ph.D. 13 1.8 1.9 2.0 2.1 2.2 2.3 2.4 −1.0−0.50.00.51.01.5 pozorovaná hodnota očekávanánormálníhodnota −1.0 −0.5 0.0 0.5 1.0 1.81.92.02.12.22.32.4 teoretický kvantil pozorovanýkvantil Obr. 8: N–P plot Obr. 9: Q–Q plot 4.5. Histogram. Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. Např. normálního, Pearsonova, Studentova a jiných. Příklady histogramů pro některá rozložení jsou v části 4.6. 4.6. Vzhled diagnostických grafů pro rozložení s různou šikmostí. Vlastnosti rozložení četností datového souboru se projeví ve vzhledu histogramu, N–P plotu a krabicového diagramu, jak ukazují následující obrázky na straně 14. 14 M5VM05 Statistické modelování Rozložení s kladnou šikmostí Normální rozložení Rozložení se zápornou šikmostí Obr. 10: Histogram Obr. 11: Histogram Obr. 12: Histogram Obr. 13: N–P plot Obr. 14: N–P plot Obr. 15: N–P plot Obr. 16: Box plot Obr. 17: Box plot Obr. 18: Box plot Úlohy k procvičení Cvičení 4.1. U 20 studentů 1. ročníku byla zjišťována známka z matematiky na prvním zkušebním termínu. Známka 1 2 3 4 Počet studentů 7 3 2 8 Vytvořte tabulku rozložení četností. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností známek. Cvičení 4.2. U 60 vzorků oceli byla zjišťována mez plasticity. Mez plasticity (30, 50 (50, 70 (70, 90 (90, 110 (110, 130 (130, 150 (150, 170 Počet vzorků 8 4 13 15 9 7 4 Mgr. Jan Koláček, Ph.D. 15 Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Cvičení 4.3. Pro údaje z příkladu 4.2 vypočtěte průměr a rozptyl meze plasticity. [¯x = 96, 67, s2 = 1148, 89] Cvičení 4.4. V datovém souboru, z něhož byl vypočten průměr 110 a rozptyl 800, byly zjištěny 2 chyby: místo 85 má být 95 a místo 120 má být 150. Ostatních 18 údajů je správných. Opravte průměr a rozptyl. [¯x = 112, s2 = 851] Cvičení 4.5. Pro údaje z příkladu 4.1 sestrojte krabicový diagram. [x0,50 = 2, 5, x0,25 = 1, x0,75 = 4, q = 3, dolní vnitřní hradba = −3, 5, horní vnitřní hradba = 8, 5] KAPITOLA 2 Základní pojmy matematické statistiky Základní informace (1) V následující kapitole se budeme zabývat základními pojmy matematické statistiky. Popíšeme náhodný výběr a uvedeme základní výběrové charakteristiky. Dále se budeme zabývat bodovými a intervalovými odhady parametrů rozdělení, ze kterého náhodný výběr pochází. Zaměříme se na normální rozdělení a také na některá jiná rozdělení. Nakonec se budeme zabývat testováním hypotéz. (2) Předpokládá se znalost základních pojmů z teorie pravděpodobnosti – náhodná veličina, náhodný vektor, střední hodnota, rozptyl, centrální limitní věta. Výstupy z výukové jednotky Studenti • umí určit nestrannost a konzistenci bodových odhadů • umí sestrojit a interpretovat interval spolehlivosti pro parametry normálního, alternativniho a Poissonova rozdělení • umí sestrojit a interpretovat interval spolehlivosti pro rozdíl středních hodnot a podíl rozptylů u dvou výběrů z normálního rozdělení • umí testovat hypotézy o parametrech normálního, alternativního a Poissonova roz- dělení • umí testovat hypotézy o porovnání dvou parametrů normálního rozdělení 1. Motivace V teorii pravděpodobnosti se předpokládá, že • je známý pravděpodobnostní prostor (Ω, A, P) • a že také známe rozdělení pravděpodobnosti náhodných veličin (resp. náhodných vektorů), které na tomto pravděpodobnostním prostoru uvažujeme. V matematické statistice však • máme k dispozici výsledky n nezávislých pozorování hodnot sledované náhodné veličiny X, které se ve statistice říká statistický znak, tj. máme x1 = X(ω1), . . . , xn = X(ωn), ω1, . . . , ωn ∈ Ω • a na základě těchto pozorování chceme učinit výpověď o rozdělení zkoumané náhodné veličiny. Poznámka 1.1. Většina textu v této kapitole byla převzata z [7]. Pro podrobnější studium tohoto tématu, zejména důkazy jednotlivých tvrzení, proto odkazujeme na tento zdroj. 2. Náhodný výběr a výběrové charakteristiky Definujme nejprve základní pojmy matematické statistiky. Základním pojmem matematické statistiky je pojem náhodného výběru. 17 18 M5VM05 Statistické modelování Definice 2.1. Náhodný vektor X = (X1, . . . , Xn)′ nazýváme náhodným výběrem z rozdělení pravděpodobnosti P, pokud (i) X1, . . . , Xn jsou nezávislé náhodné veličiny, (ii) X1, . . . , Xn mají stejné rozdělení pravděpodobnosti P. Číslo n nazýváme rozsah náhodného výběru. Libovolný bod x = (x1, . . . , xn)′ , kde xi je realizace náhodné veličiny Xi (i = 1, . . . , n), budeme nazývat realizací náhodného výběru X = (X1, . . . , Xn)′ . Množinu všech hodnot, kterých může náhodný výběr nabýt, nazýváme výběrový prostor a budeme jej značit X. Základní dělení matematické statistiky je dané strukturou množiny všech možných rozdělení (označme ji P) náhodného výběru X. Velmi často vybíráme do množiny P jen rozdělení, která jsou stejného typu a která závisí pouze na nějakém (skalárním či vícerozměrném) parametru. Tento parametr se většinou značí θ a pravděpodobnostní míry z množiny P symbolem Pθ. Přitom předpokládáme, že parametr θ nabývá hodnot z nějaké množiny Θ. Definice 2.2. Množinu P pravděpodobnostních měr tvaru P = {Pθ; θ ∈ Θ} nazýváme parametrickou třídou rozdělení. Vektor θ nazýváme parametrem rozdělení pravděpodobnosti Pθ a množinu Θ možných hodnot parametru θ parametrický prostor. Nechť náhodný výběr X = (X1, . . . , Xn)′ je z rozdělení, které je dáno distribuční funkcí F(x, θ), θ ∈ Θ. Zkráceně budeme značit: {X1, . . . , Xn} ≃ F(x; θ). Cílem teorie odhadu je na základě náhodného výběru odhadnout • rozdělení pravděpodobnosti, • popřípadě některé parametry tohoto rozdělení, • anebo nalézt odhad nějaké funkce parametrů θ, tj. γ(θ). Funkci γ(θ) nazýváme parametrickou funkcí. V matematické statistice se pro funkce, pomocí kterých budeme odhady provádět, nazývají statistikou. Tyto funkce jsou navíc mě- řitelné. Definice 2.3. Libovolnou náhodnou veličinu Tn, která vznikne jako funkce náhodného výběru X = (X1, . . . , Xn)′ , budeme nazývat statistikou, tj. Tn = T(X1, . . . , Xn)′ . Definice 2.4. Výběrové charakteristiky. Nechť X = (X1, . . . , Xn)′ je náhodný výběr rozsahu n z rozdělení s distribuční funkcí F(x; θ), θ ∈ Θ. Potom statistika ¯Xn = ¯X = 1 n n i=1 Xi se nazývá výběrový průměr S2 = 1 n−1 n i=1 (Xi − ¯X)2 výběrový rozptyl S = √ S2 výběrová směrodatná odchylka Fn(x) = 1 n n i=1 I(−∞,x>(Xi) výběrová (empirická) distribuční funkce Mgr. Jan Koláček, Ph.D. 19 3. Bodové odhady Bodovým odhadem parametrické funkce γ(θ) budeme rozumět nějakou statistiku Tn = T(X1, . . . , Xn)′ , která bude pro různé náhodné výběry kolísat kolem γ(θ). Statistika Tn = T(X1, . . . , Xn)′ závisí na parametru θ prostřednictvím distribuční funkce rozdělení, z něhož výběr pochází. Také rozdělení této statistiky, tj. náhodné veličiny, závisí na parametru θ. Proto střední hodnotu a rozptyl této statistiky budeme značit EθTn a DθTn. Za lepší odhad se považuje ten, jehož rozdělení je více koncentrované okolo neznámé hodnoty parametru. Tento přirozený požadavek koncentrace rozdělení Tn okolo skutečné hodnoty parametru vyjadřujeme pomocí střední hodnoty a rozptylu. Definice 3.1. Nechť X = (X1, . . . , Xn)′ je náhodný výběr z rozdělení pravděpodobnosti Pθ, kde θ je vektor neznámých parametrů. Nechť γ(θ) je daná parametrická funkce. Řekneme, že statistika Tn = T(X1, . . . , Xn)′ je nestranným (nevychýleným) odhadem parametrické pokud pro ∀θ ∈ Θ platí funkce γ(θ) EθTn = γ(θ). kladně vychýleným EθTn > γ(θ). záporně vychýleným EθTn < γ(θ). asymptoticky nestranným lim n→∞ EθTn = γ(θ). (slabě) konzistentním pokud pro ∀ε > 0 platí lim n→∞ Pθ(|Tn − γ(θ)| > ε) = 0 tj. Tn Pθ −→ γ(θ) Poznámka 3.2. Vlastnost nestrannosti (tj. nevychýlenosti) ještě neposkytuje záruku dobrého odhadu, pouze vylučuje systematickou chybu. Poznámka 3.3 (polopatě). Používání konzistentních odhadů zaručuje – malou pravděpodobnost velké chyby v odhadu parametru, pokud rozsah výběru dostatečně roste; – volbou dostatečně velkého počtu pozorování lze učinit chybu odhadu libovolně ma- lou. Příklad 3.4. Geometrické rozdělení. Nechť náhodná veličina X má geometrické rozdělení, fX(x) = P(X = x) = (1 − θ)x θ 0 < θ < 1 x = 0, 1, . . . Veličina X udává počet neúspěchů při výběru z alternativního rozdělení před výskytem prvního úspěchu. Nalezněte nestranný odhad pro θ. Řešení. Je-li T(X) takový nestranný odhad, musí pro něj platit EθT(X) = ∞ x=0 T(x)(1 − θ)x θ = θ 0 < θ < 1, 20 M5VM05 Statistické modelování Odtud dostáváme ∞ x=0 T(x)(1 − θ)x = 1 0 < θ < 1, takže musí platit T(0) = 1 T(x) = 0 pro x ≥ 1. Tento odhad však není pokládán za vhodný, protože jen minimálně přihlíží k počtu neúspěchů před prvním úspěchem. Závisí jen na tom, zda úspěch nastal hned v prvním pokusu či nikoli. Může se také stát, že nestranný odhad neexistuje, viz následující příklad. Příklad 3.5. Parametrická funkce 1 θ v případě binomického rozdělení. Nechť náhodná veličina X má binomické rozdělení, tj. X ∼ Bi(n, θ) a fX(x) = P(X = x) = n x θx (1 − θ)n−x n ≥ 1, 0 < θ < 1 x = 0, 1, . . . , n. Ukažte, že neexistuje nestranný odhad pro parametrickou funkci γ(θ) = 1 θ . Řešení. Dokážeme sporem. Nechť existuje taková funkce T, že pro každé θ ∈ (0, 1) platí EθT(X) = n x=0 T(x) n x θx (1 − θ)n−x = 1 θ 0 < θ < 1. Na levé straně je však polynom proměnné θ nejvýše stupně n, který samozřejmě nemůže být identicky roven 1 θ na intervalu (0, 1). Nyní vyšetříme případ, kdy odhadovanými parametry jsou střední hodnota a rozptyl rozdělení, ze kterého náhodný výběr pochází. Věta 3.6. Nechť X = (X1, . . . , Xn)′ je náhodný výběr z rozdělení, které má střední hodnotu µ(θ) pro ∀θ ∈ Θ. Pak výběrový průměr je nestranným odhadem střední hodnoty, tj. Eθ ¯X = µ(θ). Věta 3.7. Nechť X = (X1, . . . , Xn)′ je náhodný výběr z rozdělení, které má rozptyl σ2 (θ) pro ∀θ ∈ Θ. Pak výběrový rozptyl je nestranným odhadem rozptylu, tj. EθS2 = σ2 (θ). Následující věta udává postačující podmínku pro konzistentní odhad. Věta 3.8. Nechť statistika Tn = T(X1, . . . , Xn)′ je nestranný nebo asymptoticky nestranný odhad parametrické funkce γ(θ) a platí lim n→∞ DθTn = 0. Pak je statistika Tn = T(X1, . . . , Xn) konzistentním odhadem parametrické funkce γ(θ). Využitím této věty se dají ukázat následující vlastnosti výběrového průměru a výběrového rozptylu. Mgr. Jan Koláček, Ph.D. 21 Důsledek 3.9. Nechť X = (X1, . . . , Xn)′ je náhodný výběr z rozdělení, které má pro ∀θ ∈ Θ střední hodnotu µ(θ) a rozptyl σ2 (θ), tj. {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)). Potom je-li µ(θ) < ∞, pak výběrový průměr ¯X je slabě konzistentním odhadem µ(θ). Důsledek 3.10. Nechť X = (X1, . . . , Xn)′ je náhodný výběr z rozdělení, které má pro ∀θ ∈ Θ střední hodnotu µ(θ) a rozptyl σ2 (θ), tj. {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)). Potom je-li σ2 (θ) < ∞, pak výběrový rozptyl S2 je slabě konzistentním odhadem σ2 (θ). Poznámka 3.11. Více nestranných odhadů. Obecně může existovat více nestranných odhadů. Například nejen výběrový průměr ¯X je nestranným odhadem střední hodnoty µ(θ), ale i každé jednotlivé pozorování Xi nebo každá jeho lineární kombinace n i=1 ciXi, pro kterou platí n i=1 ci = 1. Pokud tedy existuje více nestranných odhadů je přirozenou otázkou, který z nich je nejlepší. Za nejlepší můžeme považovat ten, který má nejmenší rozptyl mezi všemi nestrannými odhady. Rozdělení každé statistiky však závisí na parametru θ, z čehož vyplývá, že i rozptyl nestranné statistiky Tn závisí na parametru θ. Může se stát, že odhad minimalizující rozptyl při určité hodnotě parametru není vhodný pro jinou hodnotu parametru – existuje jiný nestranný (nevychýlený) odhad, který má při této hodnotě parametru menší rozptyl. Pokud taková situace nenastane, mluvíme o rovnoměrně nejlepším nestranném odhadu. Definice 3.12. Nechť Tn je nestranný odhad parametrické funkce γ(θ) a pro všechna θ ∈ Θ platí DθTn ≤ DθT∗ n , kde T∗ n je libovolný nestranný odhad parametru γ(θ). Potom odhad Tn nazveme (rovnoměrně) nejlepším nestranným odhadem parametrické funkce γ(θ). Příklad 3.13. Nalezněte nejlepší nestranný lineární odhad střední hodnoty µ(θ). Řešení. Jak jsme již dříve spočítali, pro náhodný výběr {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)) platí, že střední hodnota výběrového průměru ¯X je rovna Eθ ¯X = µ(θ) a rozptyl výběrového průměru ¯X je roven Dθ ¯X = σ2 (θ) n . Tedy variabilita této statistiky je n krát menší než variabilita jednotlivých pozorování X1, . . . , Xn a tedy hodnoty statistiky ¯X jsou více koncentrovány kolem odhadované střední hodnoty µ(θ) než jednotlivá pozorování X1, . . . , Xn. Navíc je statistika ¯X je lineární funkcí náhodných veličin X1, . . . , Xn. 22 M5VM05 Statistické modelování Uvažujme všechny lineární statistiky tvaru n i=1 ciXi, kde c1, . . . , cn ∈ R, které jsou nestrannými odhady střední hodnoty µ(θ), tj. pro ∀θ ∈ Θ musí platit µ(θ) = Eθ n i=1 ciXi = n i=1 ci EθXi =µ(θ) = µ(θ) n i=1 ci ⇒ n i=1 ci = 1. Tím jsme dostali první podmínku, která se týká nestrannosti odhadu. Nyní budeme hledat taková c1, . . . , cn ∈ R, která minimalizují rozptyl Dθ n i=1 ciXi nez. = n i=1 c2 i DθXi = σ2 (θ) n i=1 c2 i a pro něž platí n i=1 ci = 1, tedy hledáme vázaný extrém, takže použijeme Lagrangeovu1 funkci s multiplikátorem λ, tj. L(c1, . . . , cn, λ) = n i=1 c2 i − λ n i=1 ci − 1 . Pak pro j = 1, . . . , n ∂L ∂cj = 2cj − λ = 0 ⇒ cj = 1 2 λ ∂L ∂λ = − n i=1 ci + 1 = 0 ⇒ n i=1 ci = 1. Prvních n rovnic implikuje, že c1 = c2 = · · · = cn. Označme společnou hodnotu symbolem c. Díky poslední rovnici dostaneme 1 = n i=1 ci = nc ⇒ c = c1 = c2 = · · · = cn = 1 n , tedy výběrový průměr ¯X je nejlepším nestranným lineárním odhadem střední hodnoty µ(θ). Zkusme provést důkaz ještě jiným způsobem. Nechť n i=1 ciXi je libovolný nestranný lineární odhad pro µ (tj. nutně musí platit n i=1 ci = 1). Položíme-li ci = 1 n + δi pro i = 1, . . . , n je minimalizace výrazu n i=1 c2 i za podmínky n i=1 ci = 1 ekvivalentní s úlohou minimalizovat n i=1 1 n + δi 2 za podmínky n i=1 δi = 0. Za této podmínky je však n i=1 1 n + δi 2 = n i=1 1 n 2 =n 1 n2 +21 n n i=1 δi =0 + n i=1 δ2 i = 1 n + n i=1 δ2 i , což je minimální pro δi = 0 pro i = 1, . . . , n. Tedy nejlepším nestranným lineárním odhadem je lineární kombinace Xi s koeficienty ci = 1 n . 1Joseph Louis Lagrange (1736-1813) – italsko–francouzský matematik a astronom Mgr. Jan Koláček, Ph.D. 23 4. Intervalové odhady Odhady, jimiž jsme se doposud zabývali, se někdy nazývají bodové odhady parametrické funkce γ(θ). Je tomu tak proto, že pro danou realizaci náhodného výběru x1, . . . , xn představuje odhad daný statistikou Tn(x1, . . . , xn) jediné číslo (bod), které je v jistém smyslu přiblížením ke skutečné hodnotě parametrické funkce γ(θ). Úlohu odhadu však lze formulovat i jiným způsobem. Jde o to, sestrojit na základě daného náhodného výběru takový interval, jehož hranice jsou statistiky, a který se s dostatečně velkou přesností pokryje skutečnou hodnotu parametrické funkce γ(θ). V tomto případě mluvíme o intervalovém odhadu parametrické funkce γ(θ). Podobná je úloha zkonstruovat na základě náhodného výběru statistiku, o níž lze s dostatečně velkou spolehlivostí prohlásit, že skutečná hodnota parametrické funkce je větší než tato statistika. V tomto případě mluvíme o dolním odhadu parametrické funkce γ(θ). Analogicky lze zavést pomocí opačné nerovnosti pojem horního odhadu γ(θ). Definice 4.1. Nechť {X1, . . . , Xn} ≃ F(x; θ) je náhodný výběr rozsahu n z rozdělení o distribuční funkci F(x; θ), θ ∈ Θ. Dále mějme parametrickou funkci γ(θ), α ∈ (0, 1) a statistiky D = D(X1, . . . , Xn) a H = H(X1, . . . , Xn). Potom intervaly D, H nazveme 100(1 − α) % intervalem spolehlivosti pro parametrickou funkci γ(θ) jestliže Pθ(D(X1, . . . , Xn) ≤ γ(θ) ≤ H(X1, . . . , Xn)) = 1 − α Jestliže Pθ(D(X1, . . . , Xn) ≤ γ(θ)) = 1 − α, pak statistiku D = D(X1, . . . , Xn) nazýváme dolním odhadem parametrické funkce γ(θ) se spolehlivostí 1 − α (nebo s rizikem α). Jestliže Pθ(γ(θ) ≤ H(X1, . . . , Xn)) = 1 − α pak statistiku H = H(X1, . . . , Xn) nazýváme horním odhadem parametrické funkce γ(θ) se spolehlivostí 1 − α (nebo s rizikem α). Poznámka 4.2. (polopatě) Vysvětleme si nyní smysl pojmu spolehlivost intervalových odhadů. Konkrétní data x1, . . . , xn (tj. realizace náhodného výběru X = (X1, . . . , Xn)′ ) nejsou náhodnými veličinami, nýbrž jsou to výsledky určitého pokusu ω, tj. x1 = X1(ω), . . . , xn = Xn(ω). Sestrojíme-li tedy na jejich základě intervalový odhad, řekněme (a, b), parametrické funkce γ(θ), pak nemá smysl mluvit o pravděpodobnosti P(a < γ(θ) < b), protože všechny tři symboly jsou reálná čísla (třebaže γ(θ) neznáme) a nerovnost a < γ(θ) < b buď platí nebo neplatí, tj. náš intervalový odhad je buď správný nebo nesprávný. Budeme-li však sestrojovat intervalové odhady vícekrát po sobě, pak poměrná četnost případů, kdy intervalový odhad bude správný, bude přibližně rovna 1 − α. Číslo α se volí poměrně malé, nejčastěji 0.05 spolehlivost je pak 0.95 tj. 95% 0.01 0.99 tj. 99% Kromě dostatečné spolehlivosti bychom chtěli, aby interval Dn(X), Tn(X) byl co možná nejkratší. Tyto požadavky jsou však (při pevném rozsahu výběru n) protichůdné. Žádáme-li větší spolehlivost, musíme se smířit s delším intervalem; žádáme-li naopak kratší interval, musíme se smířit s nižší spolehlivostí. 24 M5VM05 Statistické modelování Návod 4.3 (konstrukce intervalových odhadů). Popíšeme nyní jednu metodu konstrukce intervalových odhadů, která je použitelná ve většině případů. (1) Najdeme nějakou tzv. pivotovou statistiku , tj. funkci h náhodného výběru X = (X1, . . . , Xn)′ a parametrické funkce γ(θ), tedy náhodnou veličinu h(X, γ(θ)) , tak aby její rozdělení již nezáviselo na parametru θ. (2) Nechť qα/2 a q1−α/2 jsou kvantily rozdělení statistiky h(X, γ(θ)). Pak pro všechna θ platí Pθ(qα/2 < h(X, γ(θ)) ≤ q1−α/2) = 1 − α (3) Jestliže lze nerovnosti v závorce převést ekvivalentními úpravami na tvar, kde mezi nerovnostmi stojí jen γ(θ), pak jsme sestrojili intervalový odhad Dn(X) ≤ γ(θ) ≤ Hn(X) o spolehlivosti 1 − α. Tedy, je-li h(X, γ(θ)) ryze monotónní funkce, pak existuje inverzní funkce h−1 (h(X, γ(θ))) = γ(θ). (a) Pokud je h(X, γ(θ)) rostoucí funkce, pak platí Pθ(h−1 (qα/2) ≤ γ(θ) ≤ h−1 (q1−α/2)) = 1 − α. (b) Pokud je h(X, γ(θ)) klesající funkce, pak platí Pθ(h−1 (q1−α/2) ≤ γ(θ) ≤ h−1 (qα/2)) = 1 − α. Při konstrukci intervalových odhadů hrají důležitou roli kvantily. Tabulka 1 udává jejich značení pro některá rozdělení. Navíc je dobré si uvědomit následující vlastnost. Φ distribuční funkce standardizovaného normálního rozdělení Gn distribuční funkce rozdělení χ2 o n stupních volnosti Hn distribuční funkce Studentova rozdělení o n stupních volnosti Qn,m distribuční funkce Fisherova–Snedecorova rozdělení o n a m stupních volnosti uα kvantily standardizovaného normálního rozdělení χ2 α(ν) kvantily rozdělení χ2 o ν stupních volnosti tα(ν) kvantily Studentova rozdělení o ν stupních volnosti Fα(ν1, ν2) kvantily Fisherova–Snedecorova rozdělení o ν1 a ν2 stupních volnosti Tabulka 1: Kvantily některých důležitých rozdělení Mgr. Jan Koláček, Ph.D. 25 Je-li distribuční funkce F absolutně spojitá a ryze monotónní a je-li příslušná hustota f sudá funkce, pak platí F(x) = 1 − F(−x) x ∈ R a odtud xα = −x1−α α ∈ (0, 1), což speciálně platí pro normální a Studentovo rozdělení. 5. Bodové a intervalové odhady parametrů normálního rozdělení Nechť k, n ∈ N, ν, ν1, ν2, . . . , νk ∈ N, b0, b1, . . . , bn ∈ R, ∃ i ∈ {1, . . . , n} : bi = 0 Připomeňme, že platí: Normální rozdělení s hustotou X ∼ N(µ, σ2 ) ∼ f(x) = 1√ 2πσ e− 1 2 (x−µ σ ) 2 x ∈ R má střední hodnotu EX = µ a rozptyl DX = σ2 . Toto rozdělení má následující vlastnosti: {X1, . . . , Xn} ∧ Xi ∼ N(µi, σ2 i ) ⇒ b0 + n i=1 biXi ∼ N b0 + n i=1 biµi, n i=1 b2 i σ2 i X ∼ N(µ, σ2 ) ⇒ U = X−µ σ ∼ N(0, 1) χ2 rozdělení: {U1, . . . , Uν} ≃ N(0, 1) ⇒ K = U2 1 + · · · + U2 ν ∼ χ2 (ν) {K1 ∼ χ2 (ν1), . . . , Kk ∼ χ2 (νk)} ⇒ K = K1 + · · · + Kk ∼ χ2 (ν1 + · · · + νk) Studentovo t-rozdělení: U ∼ N(0, 1) ⊥ K ∼ χ2 (ν) ⇒ T = U√K ν ∼ t(ν) Fisherovo–Snedecorovo F-rozdělení: K1 ∼ χ2 (ν1) ⊥ K2 ∼ χ2 (ν2) ⇒ F = K1/ν1 K2/ν2 ∼ F(ν1, ν2) Věta 5.1. Mějme {X1, . . . , Xn} ≃ N(µ, σ2 ) a výběrový průměr ¯X = 1 n n i=1 Xi a výběrový rozptyl S2 = 1 n−1 n i=1 (Xi − ¯X)2 . Pak platí (1) Výběrový průměr ¯X ∼ N µ, σ2 n (2) Statistika U = ¯X−µ σ √ n ∼ N(0, 1) (3) Statistika K = n−1 σ2 S2 ∼ χ2 (n − 1) (4) Statistika T = ¯X−µ S √ n ∼ t(n − 1) Poznámka 5.2. Statistiky U , K a T se nazývají pivotové statistiky, přičemž U = ¯X−µ σ √ n je pivotovou stastistikou pro neznámý parametr µ při známém σ K = n−1 σ2 S2 - ” - σ2 T = ¯X−µ S √ n - ” - µ při neznámém σ 26 M5VM05 Statistické modelování Důsledek 5.3. Mějme {X1, . . . , Xn} ≃ N(µ, σ2 ), kde µ je neznámý parametr a σ2 ∈ R je známé reálné číslo. Pak ¯X − u1−α/2 σ√ n , ¯X + u1−α/2 σ√ n - je 100(1 − α)% interval spolehlivosti pro střední hodnotu µ při známém σ2 ¯X − u1−α σ√ n - je dolní odhad střední hodnoty µ při známém σ2 se spolehlivostí 1 − α ¯X + u1−α σ√ n - je horní odhad střední hodnoty µ při známém σ2 se spolehlivostí 1 − α Důkaz. Za pivotovou statistiku zvolíme statistiku U = U ¯X = ¯X−µ σ √ n ∼ N(0, 1). uα/2 = − u1−α/2 u1−α/2 1 − α α/2 α/2 U ∼ N(0,1) Pro lepší čitelnost místo Pθ = Pµ budeme psát pouze P. Počítejme 1 − α = P(uα 2 ≤ U ≤ u1− α 2 ) = P(uα 2 ≤ ¯X−µ σ √ n ≤ u1− α 2 ) = P( ¯X − u1−α/2 σ√ n ≤ µ ≤ ¯X + u1−α/2 σ√ n ) Důsledek 5.4. Mějme {X1, . . . , Xn} ≃ N(µ, σ2 ), kde µ a σ2 jsou neznámé parametry. Pak (1) pro střední hodnotu µ ¯X − t1−α/2(n−1) S√ n , ¯X + t1−α/2(n−1) S√ n - je 100(1 − α)% interval spolehlivosti pro střední hodnotu µ při neznámém σ2 ¯X − t1−α(n − 1) S√ n - je dolní odhad střední hodnoty µ při neznámém σ2 se spolehlivostí 1 − α ¯X + t1−α(n − 1) S√ n - je horní odhad střední hodnoty µ při neznámém σ2 se spolehlivostí 1 − α (2) pro rozptyl σ2 (n−1)S2 χ2 1− α 2 (n−1) , (n−1)S2 χ2 α 2 (n−1) - je 100(1 − α)% interval spolehlivosti pro rozptyl σ2 (n−1)S2 χ2 1−α(n−1) - je dolní odhad rozptylu σ2 se spolehlivostí 1 − α (n−1)S2 χ2 α(n−1) - je horní odhad rozptylu σ2 se spolehlivostí 1 − α V dalším si budeme všímat intervalů spolehlivosti pro dva nezávislé výběry. Mgr. Jan Koláček, Ph.D. 27 Věta 5.5. Nechť {X1, . . . , Xn1 } ∼ N(µ1, σ2 1) je náhodný výběr rozsahu n1 z normálního rozdělení N(µ1, σ2 1), ¯X je jeho výběrový průměr a S2 1 jeho výběrový rozptyl. Dále nechť {Y1, . . . , Yn2 } ∼ N(µ2, σ2 2) je náhodný výběr rozsahu n2 z normálního rozdělení N(µ2, σ2 2), ¯Y je jeho výběrový průměr a S2 2 jeho výběrový rozptyl. Předpokládejme, že oba výběry jsou stochasticky nezávislé, tj. X ⊥ Y. Pak (1) Statistika U ¯X− ¯Y = ¯X − ¯Y − (µ1 − µ2) σ2 1 n1 + σ2 2 n2 ∼ N(0, 1). (2) Pokud σ2 1 = σ2 2 = σ2 , pak statistika T ¯X− ¯Y = ¯X − ¯Y − (µ1 − µ2) S12 n1n2 n1 + n2 ∼ t(n1 + n2 − 2), kde S2 12 = (n1−1)S2 1 +(n2−1)S2 2 n1+n2−2 . (3) Statistika F = S2 1 S2 2 σ2 2 σ2 1 ∼ F(n1 − 1, n2 − 1). Důsledek 5.6. Nechť {X1, . . . , Xn1 } ∼ N(µ1, σ2 1) je náhodný výběr rozsahu n1 z normálního rozdělení N(µ1, σ2 1), ¯X je jeho výběrový průměr a S2 1 jeho výběrový rozptyl. Dále nechť {Y1, . . . , Yn2 } ∼ N(µ2, σ2 2) je náhodný výběr rozsahu n2 z normálního rozdělení N(µ2, σ2 2), ¯Y je jeho výběrový průměr a S2 2 jeho výběrový rozptyl. Předpokládejme, že oba výběry jsou stochasticky nezávislé, tj. X ⊥ Y. Pak (1) jsou-li σ2 2 a σ2 1 známé , pak 100(1−α)% interval spolehlivosti pro rozdíl středních hodnot µ1 − µ2 je tvaru ¯X − ¯Y − u1− α 2 σ2 1 n1 + σ2 2 n2 , ¯X − ¯Y + u1− α 2 σ2 1 n1 + σ2 2 n2 . (2) Jestliže σ2 2 a σ2 1 nejsou známé a platí σ2 2 = σ2 1 = σ2 , pak 100(1 − α)% interval spolehlivosti pro rozdíl středních hodnot µ1 − µ2 je tvaru ¯X − ¯Y − t1− α 2 (n1+n2−2) S12 n1+n2 n1n2 , ¯X − ¯Y + t1− α 2 (n1+n2−2) S12 n1+n2 n1n2 , kde S2 12 = (n1−1)S2 1 + (n2−1)S2 2 n1 + n2 − 2 . (3) Při neznámých µ1, µ2, σ2 1, σ2 2 je 100(1 − α)% interval spolehlivosti pro podíl rozptylů σ2 1 σ2 2 roven S2 1 S2 2 1 F1− α 2 (n1−1, n2−1) , S2 1 S2 2 1 Fα 2 (n1−1, n2−1) . Poznámka 5.7. Ve statistických tabulkách bývají uváděny kvantily F-rozdělení pouze pro hodnoty α ≥ 0.5. Ukážeme, proč není třeba uvádět hodnoty kvantilů pro α < 0.5. Uvažujme místo pivotové statistiky F statistiku F∗ = S2 2 S2 1 σ2 1 σ2 2 = 1 F ∼ F(n2 − 1, n1 − 1). 28 M5VM05 Statistické modelování Opět označme ν1 = n1−1 a ν2 = n2−1 a počítejme interval spolehlivosti pro takto navrženou pivotovou statistiku 1 − α = P(Fα 2 (ν2, ν1)) ≤ F∗ ≤ F1− α 2 (ν2, ν1)) = P Fα 2 (ν2, ν1)) ≤ S2 2 S2 1 σ2 1 σ2 2 ≤ F1− α 2 (ν2, ν1)) = P S2 1 S2 2 Fα 2 (n2−1, n1−1) ≤ σ2 1 σ2 2 ≤ S2 1 S2 2 F1− α 2 (n2−1, n1−1) Takže F1− α 2 (n2−1, n1−1) = 1 Fα 2 (n1−1, n2−1) a interval spolehlivosti pro σ2 1 σ2 2 lze vyjádřit i takto S2 1 S2 2 1 F1− α 2 (n1−1,n2−1) , S2 1 S2 2 F1− α 2 (n2−1, n1−1) . V dalším se zaměříme na interval spolehlivosti pro rozdíl středních hodnot u tzv. párových výběrů. Věta 5.8. Nechť X1 = (X1, Y1)′ , . . . , Xn = (Xn, Yn)′ je náhodný výběr z dvourozměrného normálního rozdělení N2(µ, Σ) s parametry µ = µ1 µ2 a Σ = σ2 1 ρσ1σ2 ρσ1σ2 σ2 2 , kde µ1, µ2 ∈ R, σ2 1 > 0, σ2 2 > 0 a ρ ∈ (0, 1). Pro i = 1, . . . , n označme Zi = Xi − Yi ¯Z = 1 n n i=1 Zi S2 Z = 1 n−1 n i=1(Zi − ¯Z)2 . Pak ¯Z − t1− α 2 (n − 1) SZ √ n , ¯Z + t1− α 2 (n − 1) SZ √ n je intervalový odhad parametrické funkce µ1 − µ2 o spolehlivosti 1 − α. 6. Bodové a intervalové odhady založené na centrální limitní větě Odhady parametrů normálního rozdělení, které jsme doposud zkoumali, mají díky centrální limitní větě (CLV) širší použití. Často lze najít takovou transformaci h , že náhodná veličina h(X, γ(θ)) má pro n → ∞ asymptoticky standardizované normální rozdělení N(0, 1) , tj. h(X, γ(θ)) A ∼ N(0, 1) Přitom rozdělení, z něhož výběr pochází - nemusí splňovat požadavky spojitosti a ryzí monotonie distribuční funkce, - může být i diskrétní. Bodové i intervalové odhady lze pak sestrojit stejným způsobem jako v případě normálních náhodných výběrů, jejich spolehlivost bude 1 − α jen přibližně, tj. asymptoticky. Mgr. Jan Koláček, Ph.D. 29 Věta 6.1. Mějme {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)) a výběrový průměr ¯X = 1 n n i=1 Xi. Nechť S2 ∗ = S2 ∗(X) je (slabě) konzistentním odhadem rozptylu σ2 (θ). Pak statistika U∗ = ¯X−µ(θ) S∗ √ n A ∼ N(0, 1). Důsledek 6.2. (Binární náhodné výběry). Nechť {X1, . . . , Xn} ≃ A(p) je náhodný výběr s alternativním (binárním) rozdělením. Potom intervalovým odhadem parametru p o asymptotické spolehlivosti 1 − α je interval ¯X − u1− α 2 ¯X(1− ¯X) n , ¯X + u1− α 2 ¯X(1− ¯X) n . Důsledek 6.3. (Poissonovské náhodné výběry). Nechť {X1, . . . , Xn} ≃ Po(λ) je náhodný výběr s Poisonovým rozdělením. Potom intervalovým odhadem parametru λ (0 < λ < ∞) o asymptotické spolehlivosti 1 − α je interval ¯X − u1− α 2 ¯X n , ¯X + u1− α 2 ¯X n . 7. Testování statistických hypotéz 7.1. Úvod. Mějme náhodný výběr X = (X1, . . . , Xn)′ rozsahu n z rozdělení o distribuční funkci F(x; θ), kde θ = (θ1, . . . , θm)′ ∈ Θ ⊂ Rm . Množina Θ nechť je neprázdná a ote- vřená. Předpokládejme, že o parametru θ existují dvě konkurující si hypotézy: H0: θ ∈ Θ0 ⊂ Θ H1: θ ∈ Θ1 = Θ − Θ0 Tvrzení H0 se nazývá nulovou hypotézou. H1 alternativní hypotézou. . Je-li Θ0 Θ1 jednobodová, nazývá se jednoduchou, v opačném případě složenou hypotézou. O platnosti této hypotézy se má rozhodnout na základě náhodného výběru X = (X1, . . . , Xn)′ , a to tak, že ր zamítneme nebo ց nezamítneme platnost hypotézy H0. Na testování použijeme statistiku Tn = T(X), kterou nazýváme testovací statistikou. Množinu hodnot, které může testovací statistika nabýt, rozdělíme na dvě disjunktní oblasti. Jednu označíme Wα , a nazveme ji kritickou oblastí (nebo také oblastí zamítnutí hypotézy) a druhá je doplňkovou oblastí (oblast nezamítnutí testované hypotézy). Na základě realizace náhodného výběru x = (x1, . . . , xn)′ vypočítáme hodnotu testovací statistiky tn = T(x). • Pokud hodnota testovací statistiky tn nabude hodnoty z kritické oblasti, tj. tn = T(x) ∈ Wα , pak nulovou hypotézu zamítáme. • Pokud hodnota testovací statistiky nabude hodnoty z oblasti nezamítnutí, tj. tn = T(x) /∈ Wα , tak nulovou hypotézu nezamítáme, což ovšem neznamená že přijímáme alternativu. Toto rozhodnutí nemusí však být správné. V následující tabulce jsou uvedeny možné situace 30 M5VM05 Statistické modelování H0 platí neplatí zamítáme chyba 1. druhu (α0 je hladina testu) O.K. (tzv. síla testu či silofunkce) tn = T(x) ∈ Wα α0 =supθ∈Θ0 Pθ(T(X) ∈ Wα|H0)≤α 1−β(θ)=Pθ(T(X) ∈ Wα|H1) pro θ ∈ Θ1 nezamítáme O.K. chyba 2. druhu tn = T(x) /∈ Wα β(θ) = Pθ(T(X) ∈ Wα|H1) pro θ ∈ Θ1 Volba kritického oboru Wα se řídí požadavky: (1) Chceme, aby pravděpodobnost chyby 1. druhu byla menší nebo rovna předem zvolenému malému α ∈ (0, 1) (obvykle se volí α = 0.01 nebo α = 0.05), tj. aby platilo pro ∀θ ∈ Θ0 α0 = sup θ∈Θ0 Pθ(T(X) ∈ Wα|H0) ≤ α. Pro spojitá rozdělení je vždy možné (i když ne nutné) zvolit test, jehož hladina je právě rovna α. U diskrétních rozdělení jsou možnými hladinami testu jen některé diskrétní hodnoty. Není-li zvolená hladina mezi nimi, rozhodneme se pro hladinu, která je nejbližší nižší (nebo nejbližší vyšší). (2) Mezi testy na hladině α se pak snažíme zvolit test s co nejmenší pravděpodobností chyby druhého druhu, tj. co nejsilnější test. Vidíme, že postavení obou hypotéz je nesymetrické. Za nulovou hypotézu volíme tu, jejíž neoprávněné zamítnutí (chyba 1. druhu) je závažnější. Definice 7.1. Chybu, která spočívá v nesprávném zamítnutí nulové hypotézy, i když je správná, budeme nazývat chybou prvního druhu, pravděpodobnost α0 = sup θ∈Θ0 Pθ(T(X) ∈ Wα|H0) nazveme hladinou významnosti (též hladinou testu). Chybu, která spočívá v nesprávném přijetí nulové hypotézy, i když neplatí, budeme nazývat chybou druhého druhu a její pravděpodobnost pro ∀θ ∈ Θ1 označíme β(θ) = Pθ(T(X) ∈ Wα|H1) . Pravděpodobnost 1−β(θ) nazýváme silou testu (též silou kritické oblasti Wα) a jakožto funkci θ ∈ Θ1 ji také nazveme silofunkcí testu. 7.2. Vztah mezi testy a intervalovými odhady. Mějme náhodný výběr X = (X1, . . . , Xn)′ rozsahu n z rozdělení, které závisí na parametru θ = (θ1, . . . , θm)′ ∈ Θ a parametrickou funkci γ(θ). (A) Hypotéza H0 : γ(θ) = γ(θ0) proti (tzv. oboustranné) alternativě H1 : γ(θ) = γ(θ0) : Mějme intervalový odhad (Dn(X), Hn(X)) parametrické funkce γ(θ) o spolehlivosti 1 − α. Pokud platí nulová hypotéza, pak 1 − α = Pθ (Dn(X) ≤ γ(θ0) ≤ Hn(X)), takže kritický obor tohoto testu má tvar: Wα = {X ∈ Rn : γ(θ0) /∈ (Dn(X), Hn(X))} . Mgr. Jan Koláček, Ph.D. 31 Zjistíme-li v konkrétní situaci, že γ(θ0) /∈ (dn(x), hn(x)) tj. realizace x ∈ Wα , potom • buď nastal jev, který má pravděpodobnost α (volí se blízká nule), • nebo neplatí nulová hypotéza. Protože při obvyklé volbě α = 0.05 nebo α = 0.01 je tento jev „prakticky nemožný , proto nulovou hypotézu H0 zamítáme ve prospěch alternativy H1. V opačném případě, tj. pokud γ(θ0) ∈ (dn(x), hn(x)) tj. realizace x /∈ Wα , nulovou hypotézu H0 nezamítáme. (B) Hypotéza H0 : γ(θ) = γ(θ0) proti (tzv. jednostranné) alternativě H1 : γ(θ) > γ(θ0) : V tomto případě využijeme dolní odhad Dn(X) parametrické funkce γ(θ) o spolehlivosti 1 − α. Pokud platí nulová hypotéza, pak 1 − α = Pθ (Dn(X) ≤ γ(θ0)), takže kritický obor tohoto testu má tvar: Wα = {X ∈ Rn : Dn(X) > γ(θ0)}. (C) Hypotéza H0 : γ(θ) = γ(θ0) proti (tzv. jednostranné) alternativě H1 : γ(θ) < γ(θ0) V tomto případě využijeme horní odhad Hn(X) parametrické funkce γ(θ) o spolehlivosti 1 − α. Pokud platí nulová hypotéza, pak 1 − α = Pθ (γ(θ0) ≤ Hn(X)), takže kritický obor tohoto testu má tvar: Wα = {X ∈ Rn : Hn(X) < γ(θ0)}. Předchozí úvahy shrňme do následující tabulky: Hypotézu H0 zamítáme, pomocí H0 H1 intervalu spolehlivosti kritické oblasti, tj. pokud x ∈ Wα, kde Wα = γ(θ) = γ(θ0) γ(θ) = γ(θ0) γ(θ0) /∈ (dn(x), hn(x)) {X ∈ Rn :γ(θ0) /∈ (Dn(X), Hn(X))} γ(θ) = γ(θ0) γ(θ) > γ(θ0) γ(θ0) < dn(x) {X ∈ Rn : Dn(X) > γ(θ0)} γ(θ) = γ(θ0) γ(θ) < γ(θ0) γ(θ0) > hn(x) {X ∈ Rn : Hn(X) < γ(θ0)} 32 M5VM05 Statistické modelování 7.3. Testy o parametrech normálního rozdělení, testy založené na centrální limitní větě. Pomocí intervalových (dolních, horních) odhadů, které jsme již dříve odvodili v sekci 5, dostáváme celou řadu kritických oblastí testů o parametrech normálního rozdělení. Poznamenejme, že se shodují s testy podílem věrohodností. Přehled takto získaných testů pro jeden náhodný výběr {X1, . . . , Xn} ≃ N(µ, σ2 ) podáváme v následující tabulce: H0 H1 Hypotézu H0 zamítáme, pokud X ∈ Wα, tj. Předpoklady µ = µ0 µ = µ0 | ¯X − µ0| √ n ≥ σu1− α 2 σ2 známé µ = µ0 µ > µ0 ( ¯X − µ0) √ n ≥ σu1−α σ2 známé µ = µ0 µ < µ0 ( ¯X − µ0) √ n ≤ −σu1−α σ2 známé µ = µ0 µ = µ0 | ¯X − µ0| √ n ≥ St1− α 2 (n − 1) σ2 neznámé µ = µ0 µ > µ0 ( ¯X − µ0) √ n ≥ St1−α(n − 1) σ2 neznámé µ = µ0 µ < µ0 ( ¯X − µ0) √ n ≤ −St1−α(n − 1) σ2 neznámé σ2 = σ2 0 σ2 = σ2 0 (n−1)S2 σ2 0 /∈ χ2 α 2 (n − 1), χ2 1− α 2 (n − 1) µ neznámé σ2 = σ2 0 σ2 > σ2 0 (n−1)S2 σ2 0 ≥ χ2 1−α(n − 1) µ neznámé σ2 = σ2 0 σ2 < σ2 0 (n−1)S2 σ2 0 ≤ χ2 α(n − 1) µ neznámé V případě dvou nezávislých výběrů • první náhodný výběr {X1, . . . , Xn1 } ∼ N(µ1, σ2 1) (s výběrovým průměrem ¯X a výběrový rozptylem S2 1), • druhý náhodný výběr {Y1, . . . , Yn2 } ∼ N(µ2, σ2 2) (s výběrovým průměrem ¯Y a výběrový rozptylem S2 2), • a pokud označíme S2 12 = (n1−1)S2 1 + (n2−1)S2 2 n1 + n2 − 2 , pak následující tabulka se týká testů rovnosti středních hodnot a rozptylů: H0 H1 Hypotézu H0 zamítáme, pokud (X′ , Y′ )′ ∈ Wα, tj. Předpoklady µ1 = µ2 µ1 = µ2 | ¯X − ¯Y | ≥ u1− α 2 σ2 1 n1 + σ2 2 n2 σ2 1, σ2 2 známé µ1 = µ2 µ1 = µ2 | ¯X − ¯Y | ≥ t1− α 2 (n1+n2−2) S12 n1+n2 n1n2 σ2 1 = σ2 2 neznámé σ2 1 = σ2 2 σ2 1 = σ2 2 S2 1 S2 2 /∈ Fα 2 (n1−1, n2−1), F1− α 2 (n1−1, n2−1) µ1, µ2 neznámé Následující tabulka nabízí asymptotické testy pro náhodné výběry {X1, . . . , Xn} ≃ L(µ(θ), σ2 (θ)) s konečnými druhými momenty (s výběrovým průměrem ¯X = 1 n n i=1 Xi a se S2 ∗ = S2 ∗(X), což je (slabě) konzistentní odhad rozptylu σ2 (θ)): H0 H1 Hypotézu H0 zamítáme, pokud X ∈ Wα, tj. Předpoklady µ = µ0 µ = µ0 | ¯X−µ0| S∗ √ n ≥ u1− α 2 0 < σ2 (θ) < ∞ µ = µ0 µ = µ0 | ¯X−µ0| √ ¯X √ n ≥ u1− α 2 {X1, . . . , Xn} ≃ Po(µ) p = p0 p = p0 | ¯X−p0| √ p0(1−p0) √ n ≥ u1− α 2 {X1, . . . , Xn} ≃ A(p) Mgr. Jan Koláček, Ph.D. 33 Příklad 7.2 (Výška desetiletých chlapců). V roce 1961 byla u 15 náhodně vybraných chlapců z populace všech desetiletých chlapců žijících v Československu zjištěna výška Výšky 15 desetiletých chlapců 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 130 140 136 141 139 133 149 151 139 136 138 142 127 139 147 Je známo, že každá následující generace je v průměru o něco vyšší než generace předcházející. Můžeme se tedy ptát, zda průměr ¯x = 139.133 zjištěný v náhodném výběru rozsahu 130 135 140 145 150 Values n = 15 znamená, že na 5% hladině máme zamítnout nulovou hypotézu H0 : µ = 136.1 (zjištění z roku 1951) ve prospěch alternativní hypotézy H1 : µ > 136.1. Rozptyl σ2 = 6.42 cm2 , zjištěný v roce 1951 (kdy se provádělo rozsáhlé šetření), můžeme považovat za známý, neboť variabilita výšek zůstává (na rozdíl od střední výšky) téměř nezměněná. Řešení. (I) Testování nulové hypotézy pomocí pivotové statistiky UX a kritické hodnoty. Protože kritický obor W0 lze ekvivalentně vyjádřit i takto W0 = x ∈ Rn : ¯x − σ√ n u1−α > µ0 = x ∈ Rn : u¯x = ¯x−µ0 σ √ n > u1−α , počítejme u¯x = 139.133−136.1 6.4 √ 15 = 1.835. Protože u¯x = 1.835 překračuje kritickou hodnotu u1−α = u0.95 = 1.645 (získáme pomocí R, a to příkazem „rnorm(0.95) ) nulovou hypotézu na 5% hladině zamítneme ve prospěch alternativní hypotézy, že se střední výška desetiletých hochů zvětšila. (II) Testování nulové hypotézy pomocí p-hodnoty 132 133 134 135 136 137 138 139 140 141 0 0.05 0.1 0.15 0.2 0.25 interval spolehlivosti Xprum =139.1333 p−val=0.033206 Dosažená hladina odpovídající testové statistice (tj. tzv. p-hodnota, anglicky P-value, significance value), což je nejmenší hladina testu, při které bychom ještě hypotézu H0 zamítli, je rovna 0.033 (opět získáme pomocí R příkazem „1 - pnorm(mean(x),mean=136.1,sd=6.4/sqrt(n)) ), takže například při α = 2.5% by již dosažený výsledek nebyl statisticky významný. Protože p-hodnota je menší než zvolená hladina významnosti α = 0.05, hypotézu za- mítáme. (III) Testování nulové hypotézy pomocí intervalu spolehlivosti D, +∞) Protože jde o jednostranný test, použijeme dolní odhad střední hodnoty µ d = ¯x − σ√ n u1−α = 139.133 − 6.4√ 15 1.645 = 136.415 Protože interval spolehlivosti 136.415, +∞) nepokrývá hodnotu 136.1, proto nulovou hypotézu na na hladině významnosti α = 0.05 zamítáme. 34 M5VM05 Statistické modelování Příklad 7.3. Párový test ❜ ❜ ❜ ❜❜ ❜ ❜ ❜ r ✻(¯x1, ¯x2) ❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵❵ X1 X2 H 0 : µ 1 = µ 2 Na sedmi rostlinách byl posuzován vliv fungicidního přípravku podle počtu skvrn na listech před a týden po použití přípravku. Otestujte, zdali má přípravek vliv na počet skvrn na listech. Data udávající počet skvrn na listech před a po použití přípravku: Počet skvrn na listech před použitím přípravku X1 9 17 31 7 8 20 10 po použití přípravku X2 10 11 18 6 7 17 5 Řešení. Za předpokladu, že náhodný výběr pochází z normálního rozdělení, tj. X1,1 X2,1 , . . . , X1,n X2,n ∼ N2 µ = µ1 µ2 , Σ = σ2 1 ρσ1σ2 ρσ1σ2 σ2 2 , kde ρ ∈ (0, 1) pak X1 ∼ N(µ1, σ2 1) X2 ∼ N(µ2, σ2 2) , Z = X1 − X2 ∼ N(µz = µ1 − µ2, σ2 z = σ2 1 + σ2 2 + 2ρσ1σ2) a statistika T = ¯Z SZ / √ n = ¯X1− ¯X2 SZ / √ n má za platnosti nulové hypotézy H0 : µ1 − µ2 = 0 Studentovo rozdělení o n − 1 stupních volnosti. (I) Testování nulové hypotézy pomocí intervalu spolehlivosti 0 2 4 6 8 10 12 interval spolehlivosti [ ¯X1 − ¯X2 − t1−α/2(n − 1) · S/ √ n; ¯X1 − ¯X2 + t1−α/2(n − 1) · S/ √ n] = [4 ± 2.4469 · 4.6547/2.6458] = [−0.30492; 8.3049] Protože interval spolehlivosti pokrývá hodnotu Z = 0, na dané hladině významnosti hypotézu nemůžeme zamítnout. (II) Testování nulové hypotézy pomocí statistiky T a kritické hodnoty −3 −2 −1 0 1 2 3 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 T=2.2736 p−val=0.063354 Vypočítáme-li hodnotu statistiky T = ¯X1− ¯X2 S/ √ n a porovnáme s kvantilem Studentova rozdělení, tj. t = ¯x1−¯x2 s/ √ n = 2.2736 ≯ t1−α/2(n − 1) = 2.4469, takže hypotézu H0 : µ1 − µ2 = 0 nezamítáme. (III) Testování nulové hypotézy pomocí p-hodnoty Vypočítáme-li p-hodnotu a porovnáme se zvolenou hladinou významnosti α = 0.05 p = P(|T| > t) = 2(1 − P(|T| ≤ t)) = 0.06335 > α takže hypotézu H0 : µ1 − µ2 = 0 nezamítáme. Shrneme-li předchozí výsledky slovně, pak nulovou hypotézu o tom, že přípravek nemá vliv na počet skvrn na hladině významnosti α = 0.05 nemůžeme zamítnout oproti alternativě o jeho vlivu. Mgr. Jan Koláček, Ph.D. 35 Příklad 7.4 (Dva nezávislé náhodné výběry z normálního rozdělení při neznámých ale stejných rozptylech). Bylo vybráno 13 polí stejné kvality. Na 8 z nich se zkoušel nový způsob hnojení, zbývajících 5 bylo ošetřeno běžným způsobem. Výnosy pšenice uvedené v tunách na hektar jsou označeny Xi u nového a Yi u běžného způsobu hnojení. (převzato z knihy [2], str. 82, př. 8.2). Je třeba zjistit, zda způsob hnojení má vliv na výnos pšenice. Xi 5.7 5.5 4.3 5.9 5.2 5.6 5.8 5.1 Yi 5.0 4.5 4.2 5.4 4.4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 X Y Nechť {X1, . . . , Xn1 } ∼ N(µ1, σ2 1) je náhodný výběr rozsahu n1 z normálního rozdělení N(µ1, σ2 1), ¯X je jeho výběrový průměr a S2 1 jeho výběrový rozptyl. Dále nechť {Y1, . . . , Yn2 } ∼ N(µ2, σ2 2) je náhodný výběr rozsahu n2 z normálního rozdělení N(µ2, σ2 2), ¯Y je jeho výběrový průměr a S2 2 jeho výběrový rozptyl. Předpokládejme, že oba výběry jsou stochasticky nezávislé, tj. X ⊥ Y. Řešení. Chceme-li testovat hypotézu, že rozdíl středních hodnot je nulový (při neznámém rozptylu σ2 = σ2 1 = σ2 2), za pivotovou statistiku zvolíme statistiku T ¯X− ¯Y = ¯X − ¯Y − (µ1 − µ2) S12 n1n2 n1 + n2 ∼ t(n1 + n2 − 2), kde S2 12 = (n1−1)S2 1 + (n2−1)S2 2 n1 + n2 − 2 . Chceme-li použít T ¯X− ¯Y , měli bychom být přesvědčeni o tom, že rozptyly obou výběrů se významně neliší. Budeme tedy nejprve testovat hypotézu H0 : σ2 1 σ2 2 = 1 , že podíl obou rozptylů je roven jedné proti alternativě, že se nerovná H1 : σ2 1 σ2 2 = 1 . Za pivotovou statistiku zvolíme statistiku F = S2 1 S2 2 σ2 2 σ2 1 ∼ F(n1 − 1, n2 − 1). (a) Můžeme například vypočítat statistiku F za platnosti nulové hypotézy a porovnat ji s příslušnými oboustrannými kvantily. Protože f = 1.1243 Fα 2 (n1−1, n2−1) = 0.1811 F1− α 2 (n1−1, n2−1) = 9.0741 vidíme, že f není ani větší než horní kritický bod, ani menší než dolní kritický bod, takže hypotézu o rovnosti rozptylů proti alternativě nerovnosti nezamítáme a můžeme konstatovat, že data nejsou v rozporu s testovanou hypotézou. 0 1 2 3 4 5 6 7 8 9 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 F=1.1243 p−val=0.96557 36 M5VM05 Statistické modelování (b) Další možností je spočítat dosaženou hladinu významnosti, tj. p-hodnotu (pomocí R: 2*min(1-pf(var(x)/var(y),n1-1,n2-1),pf(var(x)/var(y),n1-1,n2-1)) a srovnat se zvolenou hladinou testu α: p-value = 0.9656 ≫ 0.05 Protože p-hodnota je výrazně větší než zvolená hladina testu, hypotézu o rovnosti rozptylů proti alternativě nerovnosti nezamítáme. Můžeme také říci, že data nejsou v rozporu s testovanou hypotézou. (c) A naposledy můžeme ještě zkonstruovat 100(1 − α)% interval spolehlivosti pro podíl rozptylů σ2 1 σ2 2 S2 1 S2 2 1 F1− α 2 (n1−1, n2−1) , S2 1 S2 2 1 Fα 2 (n1−1, n2−1) . a zjistit, zda pokrývá hodnotu 1. Protože dostáváme interval 0.1239, 6.2088 , který pokrývá jedničku, hypotézu nezamítáme. Díky předchozímu zjištění již můžeme bez obav testovat hypotézu H0 : µ1 − µ2 = 0 proti alternativě H1 : µ1 − µ2 = 0 a provedeme to opět třemi způsoby: (I) Testování nulové hypotézy pomocí intervalu spolehlivosti ¯X− ¯Y −t1−α 2 (ν) S n1+n2 n1n2 ; ¯X− ¯Y +t1−α 2 (ν) S n1+n2 n1n2 = 0.6875 ± 2.201 · 0.5089/1.7541 = 0.048958; 1.326 Protože interval spolehlivosti nepokrývá nulu, na dané hladině významnosti hypotézu zamítáme ve prospěch alternativy. (II) Testování nulové hypotézy pomocí statistiky T a kritické hodnoty −3 −2 −1 0 1 2 3 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 T=2.3697 p−val=0.037169 Vypočítáme-li hodnotu statistiky T ¯X− ¯Y = ¯X − ¯Y − (µ1 − µ2) S12 n1n2 n1 + n2 a porovnáme s kvantilem Studentova rozdělení, tj. t¯x−¯y = 2.3697 > t1−α/2(11) = 2.201, takže hypotézu H0 : µ1 − µ2 = 0 zamítáme. (III) Testování nulové hypotézy pomocí p-hodnoty Vypočítáme-li p-hodnotu a porovnáme se zvolenou hladinou významnosti α = 0.05 p = P(|T ¯X− ¯Y | > t) = 2(1 − P(|T ¯X− ¯Y | ≤ t)) = 0.037169 < α takže hypotézu H0 : µ1 − µ2 = 0 zamítáme. Shrneme-li předchozí výsledky slovně, pak nulovou hypotézu o tom, že hnojení je stejně účinné na hladině významnosti α = 0.05 zamítáme ve prospěch alternativy, že má rozdílné účinky. Mgr. Jan Koláček, Ph.D. 37 Úlohy k procvičení Cvičení 7.1. Nechť T1 a T2 jsou nezávislé nestranné odhady parametru θ. Předpokládejme, že rozptyl statistiky T1 je dvakrát větší než rozptyl statistiky T2. Určete konstanty k1 a k2 tak, aby odhad T = k1T1 + k2T2 byl nestranným odhadem parametru θ s nejmenším rozptylem. [k1 = 1/3, k2 = 2/3] Cvičení 7.2. Uvažujme náhodný výběr X = (X1, . . . , Xn)′ z rozdělení s konečným rozptylem σ2 > 0. Určete konstantu c tak, aby statistika T = c n i=2 (Xi − Xi−1)2 byla nestranným odhadem rozptylu. [c = 1 2(n−1) ] Cvičení 7.3. Nechť X = (X1, . . . , Xn)′ je náhodný výběr z rovnoměrného rozdělení Ro(0, θ), θ > 0. Uvažujme statistiky T1 = max(X1, . . . , Xn) a T2 = 2 n n i=1 Xi. Rozhodněte, zda jsou statistiky T1 a T2 nestrannými odhady parametru θ, případně je upravte tak, aby byly nestrannými odhady. [T1 není, T1 = n+1 n max(X1, . . . , Xn), T2 je] Cvičení 7.4. Porovnejte rozptyly obou statistik (upravených tak, aby byly nestranné) z Cvičení 7.3. [DT1 = θ2 n(n+2) , DT2 = θ2 3n , T1 je lepší] Cvičení 7.5. Jsou statistiky T1 a T2 konzistentními odhady parametru θ? [ano] Cvičení 7.6. Rychlost letadla byla určována v 5 zkouškách a z jejich výsledků byl vypočten odhad ¯x = 870, 3 m/s. Najděte 95% interval spolehlivosti pro µ, je-li známo, že rozptýlení rychlosti letadla se řídí normálním rozdělením se směrodatnou odchylkou σ = 2, 1m/s. [(868, 46; 872, 14)] Cvičení 7.7. Deset balíčků mouky pocházejících z balícího stroje mělo hmotnosti v gramech: 987, 1 001, 993, 994, 993, 1 005, 1 007, 999, 995, 1 002. Sestrojte 95% interval spolehlivosti pro střední hodnotu a rozptyl hmotnosti (předpokládejte normální rozdělení). [µ ∈ (993, 1; 1002, 1), σ2 ∈ (18, 4; 129, 8)] Cvičení 7.8. Při zjišťování přesnosti nově zaváděné metody pro stanovení obsahu manganu v oceli bylo rozhodnuto provést 4 nezávislá měření. Stanovte dolní odhad pro σ s rizikem 0, 05, když výsledky měření byly: 0, 31%; 0, 30%; 0, 29%; 0, 32%. Údaje o obsahu manganu považujeme za náhodný výběr z normálního rozdělení. [0, 00799] Cvičení 7.9. Ze základního souboru byl proveden náhodný výběr s naměřenými intervalovými hodnotami a jejich četnostmi sledovaného znaku xi (15, 17 (17, 19 (19, 21 (21, 23 (23, 25 (25, 27 ni 10 30 50 70 60 30 Určete a) interval ve kterém se nachází střední hodnota µ s pravděpodobností 0,95 b) interval ve kterém se nachází rozptyl σ2 s pravděpodobností 0,95. [a) (21, 5094; 22, 1706), b) (5, 952; 8, 464)] 38 M5VM05 Statistické modelování Cvičení 7.10. Z 42 náhodně vybraných účastníků sportovního odpoledne bylo 16 dívek a 26 chlapců. Určete interval spolehlivosti pro podíl dívek mezi účastníky. [(0, 2331; 0, 5269)] Cvičení 7.11. Mezi 160 pracovníky (náhodně vybranými z 8 000 pracujících v závodě) 48 cestuje do práce vlakem. Napište bodový odhad a 95% interval spolehlivosti pro podíl a počet zaměstnanců dopravujících se vlakem. [podíl: 0, 3; (0, 229; 0, 371), počet: 2 400; (1 832; 2 968)] Cvičení 7.12. Spotřeba téhož auta byla testována u 11 řidičů s výsledky 8,8; 8,9; 9,0; 8,7; 9,3; 9,0; 8,7; 8,8; 9,4; 8,6; 8,9 (l/100 km). Můžeme na hladině významnosti 0,05 zamítnout hypotézu, že je pravdivá výrobcem udávaná spotřeba 8,8 l/100 km? Můžeme na stejné hladině významnosti popřít tvrzení, že rozptyl spotřeby je 0,1? [ne, ne] Cvičení 7.13. Na hladině významnosti α = 0, 05 testujte hypotézu H0 : σ0 = 300 o směrodatné odchylce normálně rozdělené náhodné veličiny, jestliže je zaznamenáno n = 25, X = 3118, s = 357. [nezamítáme] Cvičení 7.14. Denní přírůstky váhy selat (v dkg) byly při krmení směsí A : 62, 54, 55, 60, 53, 58, u směsi B : 52, 56, 50, 49, 51. Je mezi nimi statisticky významný rozdíl? [ano] Cvičení 7.15. U 6 aut bylo zjištěno ojetí předních pneumatik (v mm) L 1, 8 1, 0 2, 2 0, 9 1, 5 1, 6 P 1, 5 1, 1 2, 0 1, 1 1, 4 1, 4 Ojíždějí se levá a pravá pneumatika stejně? [ano] Cvičení 7.16. Pro bavlněnou přízi je předepsána horní mez variability pevnosti vlákna: rozptyl pevnosti (která má normální rozdělení) nemá překročit σ2 0 = 0, 36. Při zkoušce 16 vzorků byly zjištěny výsledky 2,22, 3,54, 2,37, 1,66, 4,74, 4,82, 3,21, 5,44, 3,23, 4,79, 4,85, 4,05, 3,48, 3,89, 4,90, 5,37. Je důvod k podezření na vyšší nestejnoměrnost než je stanoveno? [ano] Cvičení 7.17. Bylo provedeno měření obsahu SiO2 ve strusce dvěma metodami analyticky 20,1 19,6 20,0 19,9 20,1 fotokolorometricky 20,9 20,1 20,6 20,5 20,7 20,5 Je mezi rozptyly výsledků jednotlivých metod podstatný rozdíl? [není] Cvičení 7.18. Na základě testu máme na 5% hladině významnosti rozhodnout, zda produkce vajec plemene kornyšek černých je nižší než plemene leghornek bílých. Náhodně jsme vybrali 50 kornyšek a 40 leghornek, u nichž byla zjištěna roční produkce vajec. Byl vypočten roční průměr produkce na slepici – kornyška 275, leghornka 280. Z dřívějška jsou známy rozptyly σ2 kor = 48, σ2 leg = 41. [H0 zamítáme, kornyšky mají horší produkci vajec než leghornky] KAPITOLA 3 Základy regresní a korelační analýzy Základní informace (1) V následující kapitole se budeme zabývat statistickou analýzou vzájemných vztahů náhodných jevů. Popíšeme volbu optimální predikce těchto vztahů a uvedeme různé míry závislosti náhodných veličin. (2) Předpokládá se znalost základních pojmů z teorie pravděpodobnosti a matematické statistiky – náhodná veličina, náhodný vektor, jejich číselné charakteristiky a jejich výběrové odhady Výstupy z výukové jednotky Studenti • umí vysvětlit pojem regrese a korelace • pochopí optimální volbu predikční funkce • vypočítají a interpretují index determinace • vypočítají a interpretují koeficient mnohonásobné korelace • vypočítají a interpretují parciální korelační koeficient 1. Motivace V předcházejících kapitolách jsme zkoumali jednotlivé jevy (statistické znaky) izolovaně; zabývali jsme se tzv. jednorozměrnými soubory, tj. soubory popisujícími pouze jeden statistický znak a nezajímaly nás jeho vazby a vztahy k jiným jevům. V reálném světě (v přírodě, společnosti, ekonomice,. . . ) se ovšem jevy nacházejí ve více nebo méně složitých vzájemných vztazích – navzájem na sobě závisí a podmiňují se. Proto se statistická analýza nemůže omezit pouze na zkoumání izolovaných jevů, ale musí se také zabývat analýzou jejich vzájemných vztahů. Tato analýza se dá obecně rozdělit na dvě části: regresní a korelační. Popišme si podrobněji podstatu obou typů analýz. 1.1. Úloha regresní analýzy. Hlavní úlohou regresní analýzy je provést predikci nějaké závisle proměnné náhodné veličiny Y na základě informace, kterou poskytují měření nějakých jiných náhodných veličin, řekněme X1, . . . , Xk. Veličinám X1, . . . , Xk se potom říká nezávisle proměnné nebo též doprovodné proměnné, nebo také kovariáty. Měření nezávislých proměnných jsou pro experimentátora snáze dostupné než měření závisle proměnné Y . Predikce spočívá v nalezení nějaké funkce g(X1, . . . , Xk), která vhodně aproximuje závisle proměnnou Y . Kvalita predikce se obvykle posuzuje pomocí tzv. střední kvadratické chyby predikce E[Y − g(X1, . . . , Xk)]2 . Za optimální se považuje volba takové predikční funkce g, která uvedenou střední kvadratickou chybu minimalizuje. 1.2. Úloha korelační analýzy. Vedle průběhu sledované závislosti Y na X1, . . . , Xk dané funkcí g je také třeba se zaměřit na měření těsnosti tohoto vztahu, tedy je nutné zavést nějaké míry velikosti statistické vazby (závislosti) závisle proměnné Y na nezávisle proměnných X1, . . . , Xk s ohledem na vybranou funkci g a případně také s ohledem na závislosti mezi náhodnými veličinami X1, . . . , Xk. Tato problematika je hlavní úlohou korelační analýzy. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 39 40 M5VM05 Statistické modelování do 1 (resp. od −1 do 1). Čím je takový koeficient bližší 1 (resp. −1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. 2. Optimální volba predikční funkce g Pomocí regresní a korelační analýzy lze provádět predikce nejrůznějšího typu. Nejzávažnější otázkou je, jak volit vhodnou predikční funkci g. Věta 2.1. Nechť Y, X1, . . . , Xk jsou náhodné veličiny. Označme X = (X1, . . . , Xk)′ a nechť EY 2 < ∞. Pak pro každou měřitelnou funkci g : Rk → R platí E(Y − g(X))2 ≥ E[Y − E(Y |X)]2 a rovnost v uvedené nerovnosti nastává právě když P(g(X) = E(Y |X)) = 1. Poznámka 2.2 (Podmíněná střední hodnota). V předchozí větě se vyskytl nový výraz E(Y |X) pro tzv. podmíněnou střední hodnotu. Nebudeme uvádět přesnou definici, pro jednoduchost vysvětlíme tento pojem pro spojité náhodné veličiny X a Y : Nechť spojitý náhodný vektor Z = (Y, X)′ má sdruženou hustotu f(y, x) a dále nechť náhodné veličiny X a Y mají marginální hustoty fX(x), resp. fY (y). Označme MX = {x ∈ R : fX(x) > 0}, MY = {y ∈ R : fY (y) > 0}. Pak podmíněná distribuční funkce je v tomto případě definována vztahem F(y|x) =    y −∞ f(t,x) fX (x) dt pro x ∈ MX, 0 pro x ∈ R \ MX a podmíněná hustota je rovna f(y|x) = f(y,x) fX (x) pro x ∈ MX, 0 pro x ∈ R \ MX. Položme h(x) = E(Y |X = x) = R ydF(y|x) = R y f(y, x) fX(x) dy, pro ∀x ∈ MX. Pak náhodnou veličinu E(Y |X) = h(X) nazveme podmíněnou střední hodnotou náhodné veličiny Y při daném X. Dá se ukázat, že jsou splněny např. tyto vlastnosti: • Nechť Y1, Y2, X jsou náhodné veličiny a a0, a1, a2 jsou reálné konstanty, pak pokud střední hodnoty EY1, EY2 existují, platí E(a0 + a1Y1 + a2Y2|X) = a0 + a1E(Y1|X) + a2E(Y2|X). (12) • Nechť X, Y jsou náhodné veličiny a střední hodnota EY existuje, pak E [E(Y |X)] = EY. (13) Definujeme také podmíněný rozptyl náhodné veličiny Y při daném X vztahem D(Y |X) = E [Y − E(Y |X)]2 |X . Platí Mgr. Jan Koláček, Ph.D. 41 DY = E [D(Y |X)] + D [E(Y |X)] . (14) Poznámka 2.3 (Korelační koeficient). Připomeňme ještě tzv. Pearsonův1 koeficient korelace náhodných veličin X, Y (které jsou aspoň intervalového charakteru). Ten je definován vztahem R(X, Y ) = C(X,Y ) √ D(X) √ D(Y ) pro D(X), D(Y ) > 0, 0 jinak, kde C(X, Y ) = E[(X − EX)(Y − EY )] je kovariance náhodných veličin X a Y . Připomeneme jeho vlastnosti: • R(X, X) = 1 • R(X, Y ) = R(Y, X) • R(a + bX, c + dY ) = sgn(bd)R(X, Y ) • −1 ≤ R(X, Y ) ≤ 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a, b, kde b = 0 tak, že P(Y = a + bX) = 1, přičemž R(X, Y ) = 1 pro b > 0 a R(X, Y ) = −1 pro b < 0. Z těchto vlastností plyne, že R(X, Y ) je vhodnou mírou těsnosti lineárního vztahu náhodných veličin X, Y . Věta 2.4. Mějme náhodnou veličinu Y s konečným a nenulovým rozptylem a náhodný vektor X = (X1, . . . , Xk)′ . Potom pro libovolnou měřitelnou funkci g : Rk → R takovou, že existuje korelační koeficient R(Y, g(X)) platí |R(Y, g(X))| ≤ R(Y, E(Y |X)) = D[E(Y |X)] DY a rovnost nastává v případě, že D[E(Y |X)] = 0 právě když g(X) je lineární funkcí E(Y |X) skoro všude vzhledem k P. V případě, že D[E(Y |X)] = 0 nastává rovnost při libovolné volbě funkce g. Výsledky uvedené v předchozích dvou větách ukazují velký význam podmíněné střední hodnoty E(Y |X) v regresní a korelační analýze. (1) Z první věty plyne, že nejlepší predikci náhodné veličiny Y pomocí náhodných veličin X1, . . . , Xk, která minimalizuje střední kvadratickou chybu E(Y − g(X))2 , dostaneme, když položíme g(X) = E(Y |X). V této souvislosti potom nejlepší prediktor g(X) = E(Y |X) nazýváme regresní funkcí náhodné veličiny Y na náhodných veličinách X1, . . . , Xk. (2) Z druhé věty plyne, že regresní funkce E(Y |X) je prediktor, který má ze všech možných prediktorů g(X) největší korelační koeficient s predikovanou náhodnou veličinou Y . To znamená, že regresní funkce E(Y |X) je optimálním prediktorem v tom smyslu, že má maximální statistickou vazbu (měřenou korelačním koeficientem) s predikovanou náhodnou veličinou Y . 1Karl Pearson (1857 – 1936). Britský statistik a matematik. Studoval na Cambridge a poté působil na univerzitě v Londýně. Vychoval řadu vynikajících statistiků. 42 M5VM05 Statistické modelování Definice 2.5. Mějme náhodnou veličinu Y s konečným a nenulovým rozptylem a náhodný vektor X = (X1, . . . , Xk)′ . Potom číslo η2 Y |X = D[E(Y |X)] DY nazýváme korelačním poměrem náhodné veličiny Y na náhodném vektoru X = (X1, . . . , Xk)′ , nebo též korelačním poměrem náhodné veličiny Y na náhodných veličinách X1, . . . , Xk a pak jej též značíme η2 Y |X1,...,Xk . Poznámka 2.6. Nyní shrneme předchozí výsledky do několika důležitých poznámek: (1) Z předchozích vět plyne, že η2 Y |X = [R(Y, E(Y |X))]2 a tedy pro korelační poměr platí nerovnost 0 ≤ η2 Y |X ≤ 1. (2) Po vydělení rovnosti (14) rozptylem DY a jednoduché úpravě dostaneme 1 = E(Y − E(Y |X))2 DY + η2 Y |X. Označme symbolem σ2 Y |X střední kvadratickou chybu predikce, když prediktorem je regresní funkce E(Y |X), tj. σ2 Y |X = E(Y − E(Y |X))2 , pak díky předchozímu máme η2 Y |X = 1 − σ2 Y |X DY . Z tohoto vztahu plyne velice názorná interpretace korelačním poměru η2 Y |X. (a) Je-li střední kvadratická chyba predikce σ2 Y |X = 0, tedy v případě ideální predikce, je korelační poměr η2 Y |X = 1. (b) V druhém krajním případě, když střední kvadratická chyba predikce je rovna DY , tj. σ2 Y |X = DY , pak je η2 Y |X = 0 a využití informace, kterou o náhodné veličině Y poskytuje náhodný vektor X, nepřináší žádné zmenšení chyby predikce. Tedy korelační poměr η2 Y |X poskytuje míru přesnosti predikce a je velice užitečný při srovnávání různých vektorů doprovodných proměnných. Mgr. Jan Koláček, Ph.D. 43 Poznámka 2.7 (polopatě). Vysvětleme si předchozí pojmy pomocí následujícího obrázku. EY    D[E(Y |X)]    σ2 Y |X    DY ❙ ❙ ❙ ❙ ❙ ❙❙♦ regresní přímka Y = E(Y |X) Yi Yi X Y Na obrázku je symbolicky znázorněn případ, kdy se zkoumá závislost mezi náhodnými veličinami X a Y . I když jsou vykresleny již konkrétní realizace náhodných veličin (plné kroužky), značení je provedeno velkými písmeny, aby bylo lépe rozumět předchozím vztahům. Přímka představuje predikci v tomto modelu a prázdné kroužky příslušné predikované hodnoty. Symbol DY označuje celkovou variabilitu náhodné veličiny Y , tj. odchylku od své střední hodnoty EY (umocněnou na druhou). Symbol D[E(Y |X)] představuje variabilitu vysvětlenou modelem, tj. odchylku predikovaných hodnot od střední hodnoty EY . Podíl těchto odchylek (umocněných na druhou) definuje korelační poměr η2 Y |X. Symbol σ2 Y |X odpovídá tzv. reziduální variabilitě, tj. odchylce náhodné veličiny Y od své predikce. Návod 2.8 (praktický výpočet). Při praktických výpočtech se příslušné rozptyly odhadují výběrovými rozptyly. Odhadnutý korelační poměr η2 Y |X se pak nazývá index determinace. Nechť tedy máme realizace y1, . . . , yn a jejich predikované hodnoty ˆy1, . . . , ˆyn. Koeficient determinace má tvar ID = s2 Y s2 Y = 1 − s2 Y Y s2 Y , kde s2 Y = 1 n n i=1 (ˆyi − ¯y)2 , s2 Y Y = 1 n n i=1 (yi − ˆyi)2 , s2 Y = 1 n n i=1 (yi − ¯y)2 . Příklad 2.9. Při laboratorním pokusu bylo získáno následujících 8 výsledků měření 44 M5VM05 Statistické modelování 1 2 3 4 5 6 7 8 xi 2,2840 2,8170 2,8367 3,5288 4,1031 4,4262 4,5211 4,9446 yi 4,3046 6,3235 3,7082 7,6835 7,0239 8,7973 10,2961 8,4979 Zvolený model nám predikoval tyto hodnoty ˆy = (4, 2614; 5, 3352; 5, 3750; 6, 7694; 7, 9264; 8, 5774; 8, 7685; 9, 6217). Určete index determinace a interpretujte ho. Řešení. Ukážeme oba způsoby výpočtu. Vypočteme nejprve příslušné výběrové rozptyly: ¯y = 7, 079, s2 Y = 1 8 8 i=1 (ˆyi − 7, 079)2 = 3, 283, s2 Y Y = 1 8 8 i=1 (yi − ˆyi)2 = 1, 131, s2 Y = 1 8 8 i=1 (yi − 7, 079)2 = 4, 414. Podle definice je ID = s2 Y s2 Y = 3, 283 4, 414 = 0, 7438 nebo ID = 1 − s2 Y Y s2 Y = 1 − 1, 131 4, 414 = 0, 7438. Výsledek lze interpretovat tak, že 74,38% celkové variability je vysvětleno zvoleným mode- lem. 3. Analýza závislosti Na základě předchozích výsledků můžeme tedy říci, že úloha predikce je teoreticky vyřešena tak, že za nejlepší prediktor stačí zvolit regresní funkci E(Y |X). Ovšem výpočet podmíněné střední hodnoty E(Y |X) vyžaduje znalost sdruženého rozdělení náhodného vektoru Z = (Y, X1, . . . , Xk)′ , což činí hlavní potíž při praktickém využití předchozích výsledků. V praktických situacích nebývá sdružené rozdělení vektoru Z = (Y, X1, . . . , Xk)′ známé, proto se, pokud to praktická situace dovolí, uvažují pouze lineární modely typu g(X) = β0 + β1X1 + · · · + βkXk = β0 + β′ X, jestliže označíme β = (β1, . . . , βk). Úloha predikce se pak redukuje na nalezení neznámých koeficientů β0, . . . , βk, které minimalizují střední kvadratickou chybu této predikce, tj. (β0, . . . , βk)′ = arg min (c0,...,ck)′∈Rk+1 E(Y − c0 − c1X1 − · · · − ckXk)2 Označme Y = β0 + β′ X nejlepší lineární predikci náhodné veličiny Y . Střední kvadratickou chybu nejlepší lineární predikce označíme tentokrát σ2 Y ·X = E(Y − β0 − β′ X)2 (prosím neplést s označením z minulé kapitoly σ2 Y |X pro střední kvadratickou chybu v případě, že prediktorem je E(Y |X)). Poznamenejme, že se někdy střední kvadratická chyba predikce σ2 Y ·X také nazývá reziduální rozptyl, neboť výraz Y −Y se také nazývá reziduum. Mgr. Jan Koláček, Ph.D. 45 3.1. Koeficient mnohonásobné korelace. Dále se budeme zabývat statistickými vazbami mezi predikovanou náhodnou veličinou Y a její nejlepší lineární predikcí Y . Definice 3.1. Pearsonův korelační koeficient R(Y, Y ) označíme ρY ·X a budeme jej nazývat koeficientem mnohonásobné korelace náhodné veličiny Y na náhodném vektoru X = (X1, . . . , Xk)′ (nebo též na náhodných veličinách X1, . . . , Xk a pak budeme podrobněji psát ρY ·(X1,...,Xk)). Definice 3.2 (Korelační matice). Nechť X = (X1, . . . , Xn)′ a Y = (Y1, . . . , Ym)′ jsou náhodné vektory. Potom matici R(X, Y) =     R(X1, Y1) · · · R(X1, Ym) ... ... ... R(Xn, Y1) · · · R(Xn, Ym)     = (R(Xi, Yj)) i=1,...,n j=1,...,m nazýváme korelační maticí náhodných vektorů X a Y. Dále matici R(X, X) budeme značit R(X) a budeme ji nazývat korelační maticí náhodného vektoru X. Věta 3.3. Koeficient mnohonásobné korelace ρY ·X má následující vlastnosti (1) Koeficient mnohonásobné korelace ρY ·X je vždy nezáporný. (2) Pomocí regresních koeficientů β0, β1, . . . , βk jej lze vyjádřit ve tvaru ρ2 Y ·X = β′ DXβ DY . (3) Pomocí korelačních matic jej lze vyjádřit ve tvaru ρ2 Y ·X = R(Y, X)(R(X))−1 R(X, Y ) (4) Pomocí reziduálního rozptylu lineární predikce jej lze vyjádřit ve tvaru ρ2 Y ·X = 1 − σ2 Y ·X DY Poznámka 3.4 (polopatě). Z předcházející věty vyplývá: (1) Vzorec ρ2 Y ·X = β′ DXβ DY je vhodný pro výpočet koeficientu mnohonásobné korelace v případě, že je k dispozici vektor regresních koeficientů (β0, β1, . . . , βk)′ . (2) Vzorec ρ2 Y ·X = R(Y, X)(R(X))−1 R(X, Y ) se využívá v případě, že jsou k dispozici korelační koeficienty mezi náhodnými veličinami Y, X1, . . . , Xk. (3) Identity ρ2 Y ·X = 1 − σ2 Y ·X DY a η2 Y |X = 1 − σ2 Y |X DY ukazují, že korelační poměr η2 Y |X je roven kvadrátu koeficientu mnohonásobné korelace ρ2 Y ·X v případě, že teoretická regresní funkce g(X) = E(Y |X) je lineární funkcí proměnných X1, . . . , Xk. Dále je z tohoto vzorce patrné, že pokud se omezíme na lineární predikce, je interpretace koeficientu mnohonásobné korelace stejná jako je interpretace korelačního poměru v obecném případě. (4) Podle uváděných vzorců lze koeficient mnohonásobné korelace ρY ·X počítat i v případě, kdy podmíněná střední hodnota E(Y |X) není lineární. V tomto případě potom 46 M5VM05 Statistické modelování díky vztahu (dokázaném ve větě 2.1) E(Y − β0 − β′ X)2 =σ2 Y ·X ≥ E[Y − E(Y |X)]2 =σ2 Y |X snadno vidíme, že 0 ≤ ρ2 Y ·X ≤ η2 Y |X ≤ 1 Dá se ukázat, že ve třídě linerárních predikčních funkcí má koeficient mnohonásobné korelace analogické vlastnosti jako korelační poměr, tedy že platí analogie Věty 2.4 Věta 3.5. Pro libovolný nenulový vektor c = (c1, . . . , ck)′ ∈ Rk a c0 ∈ R platí ρ2 Y ·X ≥ R2 (Y, c0 + c′ X), tj. koeficient mnohonásobné korelace je maximální korelační koeficient mezi náhodnou veličinou Y a libovolnou lineární funkcí c0 + c′ X náhodného vektoru X. Důsledek 3.6. Pro libovolné j = 1, . . . , k platí ρ2 Y ·X ≥ R2 (Y, Xj), tj. absolutní hodnota libovolného korelačního koeficientu mezi náhodnou veličinou Y a libovolnou z náhodných veličin X1, . . . , Xk je nejvýše rovna koeficientu mnohonásobné korelace mezi náhodnou veličinou Y a náhodným vektorem X = (X1, . . . , Xk)′ . Definice 3.7. Mějme náhodný výběr rozsahu n s vektory X1 = Y1 Z1 , . . . , Xn = Yn Zn , kde pro i = 1, . . . , n jsou náhodné vektory Yi typu p×1 a Zi typu q ×1, přičemž p+q = k. Definujme výběrové kovarianční matice SY Z = 1 n−1 n i=1 (Yi − Y)(Zi − Z)′ = (Sij) (typu p × q), kde Y = 1 n n i=1 Yi =     Y 1 ... Y p     a Z = 1 n n i=1 Zi =     Z1 ... Zq     , a výběrovou korelační matici RZY = (rij) = Sij √ Sii √ Sjj Nyní definujme výběrový protějšek ke koeficientu mnohonásobné korelace. Definice 3.8. Mějme náhodné vektory Y1 X1 , · · · , Yn Xn , kde Yi jsou náhodné veličiny a Xi (i = 1, · · · , n) jsou náhodné vektory typu p × 1. Jestliže matice RXX je regulární, pak výběrový koeficient mnohonásobné korelace je definován vztahem: r2 Y ·X = RY XR−1 XXRXY . Mgr. Jan Koláček, Ph.D. 47 Návod 3.9 (praktický výpočet). V praxi se většinou výběrový koeficient mnohonásobné korelace počítá pomocí nějakého software. Hledání inverzní matice R−1 XX může být obecně složitý proces, proto ještě uvedeme alternativní výpočet. Položme Z = (Y, X) a R = RZZ. Pak r2 Y ·X = 1 − det(R) det(RXX) . Příklad 3.10. Zjišťujeme závislost koncentrace ozónu2 (proměnná Y ) ve spodních vrstvách atmosféry na meteorologických podmínkách, které jsou popsány intenzitou slunečního záření (X1), rychlosti větru (X2) a teplotě vzduchu (X3). Naměřená data udává následující tabulka. i Y X1 X2 X3 1 23 148 8,00 82 2 21 191 14,90 77 3 37 284 20,70 72 4 20 37 9,20 65 5 12 120 11,50 73 6 13 137 10,30 76 7 135 269 4,10 84 8 49 248 9,20 85 9 32 236 9,20 81 10 64 175 4,60 83 Vypočtěte výběrový koeficient mnohonásobné korelace. Řešení. RY X = (0, 55; −0, 51; 0, 54). RXX =    1, 00 0, 19 0, 60 0, 19 1, 00 −0, 52 0, 60 −0, 52 1, 00    Její inverze je tvaru R−1 XX =    3, 29 −2, 25 −3, 13 −2, 25 2, 91 2, 85 −3, 13 2, 85 4, 34    a celkově dostáváme r2 Y ·X = RY XR−1 XXRXY = 0, 8557. Pokud bychom použili druhý způsob uvedený v Návodu 3.15, je třeba vypočítat matici R, kterou lze z předešlého vyjádřit R = 1 RY X R′ Y X RXX , tj. R =       1, 00 0, 55 −0, 51 0, 54 0, 55 1, 00 0, 19 0, 60 −0, 51 0, 19 1, 00 −0, 52 0, 54 0, 60 −0, 52 1, 00       . Pak r2 Y ·X = 1 − det(R) det(RXX) = 1 − 0, 032 0, 22 = 0, 8557. 2část datového souboru airquality implementovaného v jazyce R 48 M5VM05 Statistické modelování Hodnota tohoto koeficientu poukazuje na do jisté míry velkou lineární závislost proměnné Y na ostatních proměnných. Tato hodnota je však značně ovlivněna také korelacemi proměnných X1, X2 a X3 mezi sebou. Při pohledu na prvky matice RXX vidíme, že je např. významná korelace mezi intenzitou slunečního záření (X1) a teplotou vzduchu (X3). Pro vyloučení těchto vlivů je třeba spočítat parciální korelační koeficienty – viz další odstavec. 3.2. Parciální korelační koeficient. Na závěr této kapitoly zavedeme pojem parciální korelační koeficient. Pro tento případ budeme uvažovat náhodné veličiny Y, Z, X1, . . . , Xk. Motivací k zavedení tohoto korelačního koeficientu je fakt, že korelační koeficient R(Y, Z) mezi náhodnou veličinou Y a Z může být dosti vysoký proto, že obě náhodné veličiny jsou silně závislé na náhodném vektoru X = (X1, . . . , Xk)′ . Zajímá nás proto, jaká by byla korelace mezi Y a Z při vyloučení vlivu, který je způsoben náhodným vektorem X. Toto odstranění vlivu náhodného vektoru X lze uskutečnit tak, že se sleduje korelace mezi Y a Z při pevných hodnotách náhodného vektoru X. Protože v praktických situacích není možné uspořádání experimentu takovým způsobem, aby byla provedena eliminace vlivu náhodného vektoru X, je třeba ji provést pomocí vhodného matematického modelu. Obdobně jako v případě koeficientu mnohonásobné korelace se omezíme pouze na lineární vztahy. Označme Y a Z nejlepší lineární predikce náhodných veličin Y a Z pomocí náhodného vektoru X. Korelaci očištěnou od vlivu náhodného vektoru X dostaneme, budeme-li počítat korelaci R(Y − Y , Z − Z). Definujme proto Definice 3.11. Nechť existuje korelační koeficient R(Y − Y , Z − Z). Potom jej budeme nazývat parciálním korelačním koeficientem náhodných veličin Y a Z při pevném X a budeme jej značit ρY,Z·X = R(Y − Y , Z − Z). Věta 3.12. Pro parciální korelační koeficient náhodných veličin Y a Z při pevném X platí ρY,Z·X = R(Y, Z) − R(Y, X)(R(X))−1 R(X, Z) 1 − ρ2 Y ·X 1 − ρ2 Z·X − 1 2 Poznámka 3.13. Z hodnoty korelačního koeficientu R(Y, Z) nelze usuzovat na velikost parciálního korelačního koeficientu ρY,Z·X. Tyto dva koeficienty se od sebe mohou dosti odlišovat, mohou mít i různé znaménko a v případě, že jeden z nich je roven nule, může být druhý různý od nuly a podobně. Jejich vztah je tedy odlišný od vztahu R(Y, Xj) a ρY ·X, který dává důsledek 3.12. Pro praktické účely opět definujme výběrový protějšek k parciálnímu korelačnímu koefi- cientu. Definice 3.14. Mějme náhodné vektory    Y1 Z1 X1    , · · · ,    Yn Zn Xn   , kde Yi, Zi jsou náhodné veličiny a Xi (i = 1, · · · , n) jsou náhodné vektory typu p × 1. Pak výběrový parciální korelační koeficient je definován vztahem rY,Z·X = r2 Y Z − r2 Y ·Xr2 Z·X (1 − r2 Y ·X) (1 − r2 Z·X) , kde r2 Y Z je výběrový koeficient korelace náhodných veličin Y , Z a r2 Y ·X, r2 Z·X jsou příslušné výběrové koeficienty mnohonásobné korelace. Mgr. Jan Koláček, Ph.D. 49 Návod 3.15 (praktický výpočet). V praxi se pro výpočet parciálního korelačního koeficientu používá následujícího postupu. Položme W = (Y, Z, X) a R = RWW . Pak rY,Z·X = det(R(12)) det(R(11)) det(R(22)) , kde R(ij) je submatice, která vznikne z R vynecháním i-tého řádku a j-tého sloupce. Příklad 3.16. Na datech z Příkladu 3.10 vypočtěte parciální korelační koeficient rY,X1·(X2,X3). Řešení. Připomeňme matici R, která byla tvaru R =       1, 00 0, 55 −0, 51 0, 54 0, 55 1, 00 0, 19 0, 60 −0, 51 0, 19 1, 00 −0, 52 0, 54 0, 60 −0, 52 1, 00       . Příslušné submatice jsou R(11) =    1, 00 0, 19 0, 60 0, 19 1, 00 −0, 52 0, 60 −0, 52 1, 00    , R(12) =    0, 55 0, 19 0, 60 −0, 51 1, 00 −0, 52 0, 54 −0, 52 1, 00    , R(22) =    1, 00 −0, 51 0, 54 −0, 51 1, 00 −0, 52 0, 54 −0, 52 1, 00    . Po dosazení dostáváme rY,X1·(X2,X3) = 0, 2827 √ 0, 2220 · 0, 4654 = 0, 8795. Výsledek lze interpretovat jako velikost lineární závislosti ozónu na intenzitě slunečního záření s vyloučením vlivu rychlosti větru a teploty vzduchu. Podobně by šlo zkoumat ostatní vazby mezi proměnnými. Úlohy k procvičení Cvičení 3.1. V tabulce jsou uvedeny výsledky měření (xi, yi) a predikované hodnoty ˆyi, i = 1, . . . , 10 i 1 2 3 4 5 6 7 8 9 10 xi 1,60 1,86 2,21 2,29 3,38 3,42 3,62 3,65 3,76 4,27 yi 3,24 3,12 3,81 5,12 6,28 7,15 7,33 7,81 8,08 8,43 ˆyi 2,98 3,54 4,31 4,48 6,85 6,94 7,37 7,44 7,68 8,79 Určete index determinace a interpretujte ho. [ID = 0.95532] Cvičení 3.2. Během 14-ti dní byla měřena polední teplota vzduchu. K predikci teploty byly použity dva modely – model A a model B. Naměřené hodnoty a predikované hodnoty obou modelů jsou uvedeny v následující tabulce. 50 M5VM05 Statistické modelování 1 2 3 4 5 6 7 8 9 10 11 12 13 14 yi 0,35 -1,54 0,47 -0,50 -1,99 -2,17 -1,86 -1,37 -1,88 -2,30 -2,13 -2,12 -1,76 -1,06 ˆyA i -0,62 -0,75 -0,87 -0,99 -1,11 -1,24 -1,36 -1,48 -1,60 -1,73 -1,85 -1,97 -2,09 -2,22 ˆyB i -0,17 -0,35 -0,52 -0,70 -0,87 -1,05 -1,22 -1,39 -1,57 -1,74 -1,92 -2,09 -2,27 -2,44 Na základě indexu determinace rozhodněte, který z modelů je lepší. [IDA = 0, 31; IDB = 0, 24] Cvičení 3.3. Na datech ze Cvičení 3.2 byla predikována hodnota polední teploty vzduchu v 15. den. Model A tuto hodnotu odhadl ˆyA 15 = −2, 34, predikce pomocí modelu B byla ˆyB 15 = −2, 61. Ve skutečnosti byla naměřena hodnota y15 = −1, 34. Na nových datech opět porovnejte oba modely pomocí indexu determinace. [IDA = 0, 22; IDB = 0, 09] Cvičení 3.4. Zjišťujeme závislost spotřeby paliva osobních automobilů3 (proměnná Y , počet mil/galon) na vlastnostech motoru, které jsou popsány objemem válců (X1, kubické palce), výkonem (X2, počet koní), hmotností vozidla (X3, kilolibry) a zrychlením (X4, počet sekund na 1/4 míle). Naměřená data udává následující tabulka. Model (r.v. 1974) Y X1 X2 X3 X4 Mazda RX4 Wag 21,00 160,00 110,00 2,88 17,02 Datsun 710 22,80 108,00 93,00 2,32 18,61 Hornet 4 Drive 21,40 258,00 110,00 3,21 19,44 Valiant 18,10 225,00 105,00 3,46 20,22 Merc 280C 17,80 167,60 123,00 3,44 18,90 Cadillac Fleetwood 10,40 472,00 205,00 5,25 17,98 AMC Javelin 15,20 304,00 150,00 3,44 17,30 Fiat X1-9 27,30 79,00 66,00 1,94 18,90 Porsche 914-2 26,00 120,30 91,00 2,14 16,70 Ford Pantera L 15,80 351,00 264,00 3,17 14,50 Vypočtěte závislost spotřeby paliva osobních automobilů na objemu válců, výkonu, hmotnosti a zrychlením vozidla. [r2 Y ·X = 0, 934] Cvičení 3.5. V rámci biometrického výzkumu byl na jednotlivých stromech zjišťován vztah mezi veličinami objem (Y , m3 ), výčetní tloušťka (X1, cm), výška (X2, m) a délka zelené koruny (X3, m). Naměřené hodnoty jsou uvedeny v následující tabulce. 3část datového souboru mtcars implementovaného v jazyce R Mgr. Jan Koláček, Ph.D. 51 Strom Y X1 X2 X3 1 0,013 8 9,8 3,6 2 0,021 8 10,2 3,6 3 0,012 7 9,4 3,0 4 0,009 7 7,8 1,4 5 0,065 12 11,2 4,6 6 0,071 12 12,0 5,1 7 0,102 13 13,5 6,9 8 0,048 10 12,1 4,6 9 0,049 11 10,8 4,3 10 0,011 7 8,9 3,9 11 0,017 8 9,3 3,5 12 0,059 11 12,0 4,8 Vyšetřete korelační závislost objemu na tloušťce, výšce a délce zelené koruny. [r2 Y ·X = 0, 9634] Cvičení 3.6. Na datech ze Cvičení 3.4 vypočtěte parciální korelační koeficienty rY,X1·(X2,X3,X4), rY,X2·(X1,X3,X4), rY,X3·(X1,X2,X4), rX1,X4·(X1,X2,X3). [rY,X1·(X2,X3,X4) = 0, 2319; rY,X2·(X1,X3,X4) = −0, 5219; rY,X3·(X1,X2,X4) = −0, 7405; rX1,X4·(X1,X2,X3) = −0, 0736.] Cvičení 3.7. Na datech ze Cvičení 3.5 vypočtěte všechny parciální korelační koeficienty. [rY,X1·(X2,X3) = 0, 8558; rY,X2·(X1,X3) = 0, 1938; rY,X3·(X1,X2) = 0, 2974; rX1,X2·(Y,X3) = 0, 1248; rX1,X3·(Y,X2) = −0, 22; rX2,X3·(Y,X1) = 0, 6161.] KAPITOLA 4 Lineární regresní model Základní informace (1) V následující kapitole se budeme zabývat statistickou analýzou vzájemných vztahů náhodných jevů, kde se bude předpokládat, že tyto vztahy lze popsat pomocí lineárních operací. Popíšeme obecně volbu optimálních parametrů lineárního modelu a uvedeme konkrétní příklady. (2) Předpokládá se znalost základních pojmů z teorie pravděpodobnosti a matematické statistiky – náhodná veličina, náhodný vektor, jejich číselné charakteristiky a jejich výběrové odhady, testování hypotéz Výstupy z výukové jednotky Studenti • definují lineární regresní model • vypočítají odhady neznámých parametrů a testují hypotézy o těchto parametrech • ovládají nejdůležitější aplikace: klasické regresní modely – regresní přímka, polynomická regrese 1. Motivace Často chceme prozkoumat vztah mezi dvěma veličinami, kde jedna z nich, tzv. „nezávisle proměnná X, má řídit druhou, tzv. „závisle proměnnou Y . Předpokládá se, že obě veličiny jsou spojité. Prvním krokem ve zkoumání by mělo být zakreslení dat do grafu. V řadě případů tento krok napoví mnohé o tom, co nás zajímá: Existuje vztah mezi oběma proměnnými (veličinami)? Pokud ano, pak rostou či klesají obě v jednom směru, nebo jedna klesá, když druhá roste? Je přímka vhodným modelem pro vyjádření vztahu mezi těmito dvěma veličinami? Chceme-li se dostat dále za tuto intuitivní úroveň analýzy, je lineární regrese často užitečným nástrojem. Tato metoda zahrnuje proložení přímky daty a analýzu statistických vlastností takovéto přímky. 2. Lineární regresní model Předpokládejme, že mezi nějakými nenáhodnými veličinami y, x1, . . . , xk platí lineární vztah y = β1x1 + · · · + βkxk, ve kterém β1, . . . , βk jsou neznámé parametry. Informace o neznámých parametrech budeme získávat pomocí experimentu, a to tak, že opakovaně budeme měřit hodnoty veličiny y při vybraných hodnotách proměnných x1, . . . , xk. Při měřeních však vznikají chyby, což lze modelovat takto Y = β1x1 + · · · + βkxk + ε, kde ε je náhodná chyba měření. Opakované hodnoty sledovaných veličin budeme pro i = 1, . . . , n značit Yi, xi1, . . . , xik, obdobně také náhodné chyby εi. 53 54 M5VM05 Statistické modelování Celkově jsme dostali model Y1 = β1x11 + · · · + βkx1k + ε1 ... Yn = β1xn1 + · · · + βkxnk + εn vyjádřeme maticově     Y1 ... Yn     Y =     x11 · · · x1k ... ... xn1 · · · xnk     X(matice plánu)     β1 ... βk     β +     ε1 ... εn     ε O náhodných chybách ε1, . . . , εn budeme předpokládat, že jsou • nesystematické, což lze matematicky vyjádřit požadavkem, že Eεi = 0 , i = 1, . . . , n, tj. Eε = 0 a tedy EY = Xβ • homogenní v rozptylu, tj. že Dεi = σ2 > 0 pro i = 1, . . . , n; • jednotlivé náhodné chyby jsou nekorelované, tj. že C(εi, εj) = 0 pro i = j, i, j = 1, . . . , n, tj. DY = Dε = σ2In , takže i měření jsou nekorelovaná. Používá se následující terminologie a značení • parametry β1, . . . , βk se nazývají regresní koeficienty; • matice X obsahuje nenáhodné prvky xij a nazývá se regresní maticí nebo maticí plánu (Design Matrix); • popsaný model souhrnně zapíšeme jako Y ∼ L(Xβ, σ2 In) . Takto zavedený model budeme nazývat linerární regresní model. Dále budeme předpokládat, že n > k a o hodnosti matice X budeme předpokládat, že je rovna k, tj. h(X) = k . Bude-li tento přepoklad splněn, budeme říkat, že jde linerární regresní model plné hodnosti. V tom případě jsou sloupce matice X nezávislé. V opačném případě, by bylo možné daný sloupec matice X napsat jako lineární kombinaci ostatních sloupců, což je možné interpretovat tak, že proměnná odpovídající danému sloupci je nadbytečná, protože ji lze vyjádřit jako lineární funkci ostatních proměnných. Příklad 2.1. Regresní přímka v klasickém lineárním regresním modelu −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0 −4−20246 x y Klasickým speciálním případem lineárního modelu je jednoduchá lineární regrese, kdy předpokládáme, že nezávislé náhodné veličiny Yi (i = 1, . . . , n) mají normální rozdělení Yi ∼ N(β0 + β1xi, σ2 ) , kde xi jsou dané konstanty, které nejsou všechny stejné. Rozptyly Yi jsou stejné, kdežto střední hodnoty lze vyjádřit jako lineární funkci známých konstant xi pomocí neznámých parametrů β0, β1. V tomto případě Y =     Y1 ... Yn     , matice plánu: X =     1 x1 ... ... 1 xn     , β = β0 β1 , ε =     ε1 ... εn     ∼ Nn(0, σ2 In). Mgr. Jan Koláček, Ph.D. 55 3. Odhady neznámých parametrů V dalším se budeme věnovat odhadům vektoru neznámých parametrů β = (β1, . . . , βk)′ . Definice 3.1. Řekneme, že odhad β = β(Y) je lineárním odhadem vektoru β, jestliže existuje matice reálných čísel Bk×n taková, že β = BY. Dále řekneme, že odhad β = β(Y) je nestranným odhadem vektoru β, jestliže pro každé β ∈ Rk platí Eβ = β. Jestliže β = β(Y) je takový lineární nestranný odhad vektoru parametrů β, že pro každý jiný lineární nestranný odhad β = β(Y) je rozdíl variančních matic Dβ(Y) − Dβ(Y) pozitivně semidefinitní matice, potom budeme říkat, že β = β(Y) je nejlepší nestranný lineární odhad (Best Linear Unbiased Estimator) parametrů β, zkráceně BLUE odhad. V další části budeme hledat BLUE-odhad parametru β a odvodíme jeho vlastnosti. Tento odhad budeme hledat metodou nejmenších čtverců (Ordinary Least Square Method). Definice 3.2. Řekneme, že odhad βOLS je odhadem parametru β metodou nejmenších čtverců, jestliže βOLS = arg min β∈Rk (Y − Xβ)′ (Y − Xβ) = arg min β∈Rk n i=1 Yi − k j=1 xijβj 2 Věta 3.3. Odhad parametru β v modelu Y ∼ L(Xβ, σ2 In) je tvaru βOLS = (X′ X)−1 X′ Y. Důkaz. Nejprve označme symbolem x′ i i-tý řádek matice plánu X a symbolem Xj j-tý sloupec této matice, tj. X =     x11 · · · x1k ... ... xn1 · · · xnk     =     x′ 1 ... x′ n     = X1 . . . Xk Nutnou podmínkou pro extrém je, aby parciální derivace byly nulové, tj. pro s = 1, . . . , k 0 = ∂ ∂βs S(β) = ∂ ∂βs (Y − Xβ)′ (Y − Xβ) = ∂ ∂βs n i=1 Yi − k j=1 xijβj 2 . Proto počítejme ∂ ∂βs S(β) = ∂ ∂βs n i=1  Y 2 i − 2Yi k j=1 xijβj + k j=1 xijβj 2   = −2 n i=1 Yixis + 2 n i=1 k j=1 xijβj xis = −2 n i=1 Yixis + 2 n i=1 k j=1 xijxisβj = 0 tj. n i=1 k j=1 xijxisβj = n i=1 Yixis . 56 M5VM05 Statistické modelování Nyní se budeme snažit vyjádřit předchozí rovnost maticově. Upravujme postupně levou a pravou stranu: n i=1 k j=1 xijxisβs = n i=1 xis k j=1 xijβj =x′ iβ = n i=1 xisx′ iβ = X′ s     x′ 1β ... x′ nβ     =Xβ = X′ sXβ n i=1 Yixis = X′ sY a celkově, zapíšeme-li k rovnic pod sebe a uvažujeme-li obě strany rovnosti, dostaneme     X′ 1 ... X′ k         x′ 1 ... x′ n     β =X′Xβ =     X′ 1 ... X′ k     Y =X′Y . . . tzv. normální rovnice Vzhledem k předpokladu, že jde o model plné hodnosti, tj. h(X) = h(X′ X) = k, řešení normálních rovnic má tvar βOLS = (X′ X) −1 X′ Y. Nyní zbývá dokázat, že tento extrém je také minimem, tj. že matice druhých parciálních derivací je pozitivně semidefinitní matice. Proto počítejme (sh)-tý prvek matice druhých parciálních derivací ∂2 ∂βs∂βh S(β) = ∂ ∂βh −2 n i=1 Yixis + 2 n i=1 k j=1 xijxisβj = 2 n i=1 xis ∂ ∂βh k j=1 xijβj =xih = 2 n i=1 xisxih = 2X′ sXh Takže matice druhých parciálních derivací je ∂2S(β) ∂βs∂βh k s,h=1 = n i=1 xisxih k s,h=1 = X′ X > 0, tj. jde o pozitivně definitní matici a tím je věta dokázaná. Věta 3.4. (Gaussova-Markovova věta). Odhad βOLS v modelu Y ∼ L(Xβ, σ2 In) je BLUE-odhad (tj. je nejlepší nestranný lineární odhad) a jeho variační matice je rovna DβOLS = σ2 (X′ X) −1 Věta 3.5. Pro libovolný vektor c ∈ Rk je c′ βOLS BLUE-odhad parametrické funkce c′ β a má rozptyl σ2 c′ (X′ X)−1 c. Věta 3.6. Platí Se = S(βOLS) = Y′ Y − β ′ OLSX′ Y = Y′ (I − H)Y, kde H je tzv. „hat matice H = X (X′ X) −1 X′ . Věta 3.7. Odhad s2 = Se n − k je nestranným odhadem rozptylu σ2 . Mgr. Jan Koláček, Ph.D. 57 4. Testování hypotéz v lineárním regresním modelu Díky předchozím větám dokážeme v lineárním regresním modelu plné hodnosti vypočítat nejen OLS-odhady neznámých parametrů β = (β1, . . . , βk)′ , ale také máme k dispozici odhad neznámého rozptylu σ2 a známe vlastnosti těchto odhadů. V dalším se zaměříme na stanovení jejich rozdělení v případě, že náhodný vektor Y má vícerozměrné normální rozdělení. Pak teprve budeme moci přejít k testování hypotéz o neznámých parametrech β1, . . . , βk. Jestliže náhodný vektor Y se řídí lineárním regresním modelem plné hodnosti, což zapisujeme Y ∼ L(Xβ, σ2 In), a navíc má vícerozměrné normální rozdělení, budeme psát Y ∼ Nn(Xβ, σ2 In) . Věta 4.1. Mějme lineární regresní model plné hodnosti, přičemž Y ∼ Nn(Xβ, σ2 In). Pak platí (a) OLS-odhad vektoru neznámých parametrů má normální rozdělení βOLS ∼ Nk β, σ2 (X′ X)−1 (b) náhodná veličina K = n − k σ2 s2 ∼ χ2 (n − k) (c) náhodná veličina K = n−k σ2 s2 a OLS-odhad βOLS jsou nezávislé. Díky tomuto tvrzení lze dokázat následující větu. Věta 4.2. V modelu Y ∼ Nn(Xβ, σ2 In) plné hodnosti pro každé c ∈ Rk , c = 0 platí T = c′ βOLS − c′ β s c′(X′X)−1c ∼ t(n − k). Důsledek 4.3. V modelu Y ∼ Nn(Xβ, σ2 In) plné hodnosti má 100(1 − α)% interval spolehlivosti pro parametrickou funkci c′ β (kde c = 0) tvar (DT , HT ) = c′ βOLS − s c′(X′X)−1c t1−α/2(n−k), c′ βOLS + s c′(X′X)−1c t1−α/2(n−k) . Poznámka 4.4. Prakticky lze provést test hypotézy H0 : c′ β = γ0 (γ0 je dané reálné číslo) proti alternativě H1 : c′ β = γ0 na hladině významnosti α tak, že hypotézu H0 zamítáme, pokud platí |c′βOLS−γ0| s √ c′(X′X)−1c ≥ t1−α/2(n−k) Poznámka 4.5. V praktických situacích se nejčastěji volí vektor c jako jednotkový s jedničkou na j-tém místě c = (0, . . . , 1, 0, . . . , 0)′ a v tom případě c′ β = βj , takže (a) 100(1 − α)% interval spolehlivosti má tvar (při značení (X′ X)−1 = (vij)k i,j=1) βOLS,j − s √ vjj t1−α/2(n−k) , βOLS,j + s √ vjj t1−α/2(n−k) . (b) Test hypotézy H0 : βj = γ0 (γ0 je dané reálné číslo) proti alternativě H1 : βj = γ0 na hladině významnosti α se provede tak, že hypotézu H0 zamítáme, pokud platí |βOLS,j−γ0| s √ vjj ≥ t1−α/2(n−k). 58 M5VM05 Statistické modelování Před další větou zavedeme následující bloková značení: β = (β1, . . . , βm =β′ 1 , βm+1, . . . , βk =β′ 2 )′ , obdobně βOLS = (β ′ OLS,1, β ′ OLS,2)′ a nakonec také pro matici X′ X = V11 V12 V21 V22 , kde matice V11 je typu m × m. Věta 4.6. V modelu Y ∼ Nn(Xβ, σ2 In) plné hodnosti platí, že statistika F = 1 s2(k − m) βOLS,2 − β2 ′ V−1 22 βOLS,2 − β2 ∼ F(k − m, n − k). Poznámka 4.7. Díky předcházející větě můžeme testovat nulovou hypotézu H0 : β2 = β2,0, (kde β2,0 je daný vektor reálných čísel, nejčastěji nulový vektor) proti alternativě H1 : β2 = β2,0 na hladině významnosti α tak, že hypotézu H0 zamítáme, pokud platí F0 = 1 s2(k−m) βOLS,2 − β2,0 ′ V−1 22 βOLS,2 − β2,0 ≥ F1−α(k − m, n − k). 5. Speciální modely lineární regrese Speciální volba matice X vede ke speciálním modelům lineární regrese, které popisují časté experimentální situace. Model I: Regresní přímka Yi = β0 + β1xi + εi , i = 1, . . . , n; n > 2. Matice plánu X =     1 x1 ... ... 1 xn     , X′ X =    n n i=1 xi n i=1 xi n i=1 x2 i   , X′ Y =    n i=1 Yi n i=1 xiYi    a model bude plné hodnosti, pokud všechny hodnoty x1, . . . , xn nebudou stejné. Normální rovnice jsou tvaru: β0n + β1 n i=1 xi = n i=1 Yi β0 n i=1 xi + β1 n i=1 x2 i = n i=1 xiYi Model II: Regrese procházející počátkem Yi = βxi + εi , i = 1, . . . , n; n > 1. Matice plánu X =     x1 ... xn     , X′ X = n i=1 x2 i , X′ Y = n i=1 xiYi a model bude plné hodnosti, pokud alespoň jedna z hodnot x1, . . . , xn bude různá od nuly. Mgr. Jan Koláček, Ph.D. 59 Normální rovnice: β n i=1 x2 i = n i=1 xiYi Model III: Kvadratická regrese Yi = β0 + β1xi + β2x2 i + εi , i = 1, . . . , n; n > 3. Matice plánu X =        1 x1 x2 1 ... ... ... ... ... ... 1 xn x2 n        , X′ X =        n n i=1 xi n i=1 x2 i n i=1 xi n i=1 x2 i n i=1 x3 i n i=1 x2 i n i=1 x3 i n i=1 x4 i        , X′ Y =        n i=1 Yi n i=1 xiYi n i=1 x2 i Yi        Normální rovnice jsou tvaru: β0n + β1 n i=1 xi + β2 n i=1 x2 i = n i=1 Yi β0 n i=1 xi + β1 n i=1 x2 i + β2 n i=1 x3 i = n i=1 xiYi β0 n i=1 x2 i + β1 n i=1 x3 i + β2 n i=1 x4 i = n i=1 x2 i Yi Model IV: Polynomická regrese Yi = β0+β1xi+· · ·+βmxm i +εi , i=1, . . . , n; n > m+1. X =          1 x1 · · · xm 1 ... ... · · · ... ... ... · · · ... ... ... · · · ... 1 xn · · · xm n          , X′ X =           n n i=1 xi · · · n i=1 xm i n i=1 xi n i=1 x2 i · · · n i=1 xm+1 i ... ... ... ... n i=1 xm i n i=1 xm+1 i · · · n i=1 x2m i           , X′ Y =           n i=1 Yi n i=1 xiYi ... n i=1 xm i Yi           Při polynomické regresi vyšších řádů je třeba kontrolovat, zda matice X′ X není špatně podmíněná, což nastává, pokud determinant této matice je blízký nule. Tento jev se také nazývá multikolinearitou. Pro posuzování multikolinearity existuje řada orientačních kritérií. Model V: Dva nezávislé výběry se stejnou variabilitou Yjk = µ + α + εjk , j = 1, 2, k = 1, . . . , nj; n = n1 + n2 > 2, kde µ budeme chápat jako společnou hladinu a α jako příspěvek druhého výběru. Matice plánu X =             1 0 ... ... 1 0 1 1 ... ... 1 1             , X′ X = n n2 n2 n2 , X′ Y = Y Y2 s použitím tzv. tečkové notace Y = 2 j=1 nj k=1 Yjk a Yj = nj k=1 Yjk pro j = 1, 2. Normální rovnice jsou tvaru: nµ + n2α = Y n2µ + n2α = Y2 Odečteme-li od první rovnice druhou, dostaneme µ (n − n2) =n1 = Y − Y2 =Y1 ⇒ µ = 1 n1 Y1 = ¯Y1 (výběrový průměr 1. výběru). 60 M5VM05 Statistické modelování Pokud obě strany druhé rovnice vydělíme výrazem n2, můžeme psát µ + α = 1 n2 Y2 = ¯Y2 ⇒ α = Y2 − Y1 (rozdíl mezi 1. a 2. výběrovým průměrem) Model VI: Více nezávislých výběrů s homogenním rozptylem Yjk = µ + αj + εij , j = 1, . . . , J, k = 1, . . . , nj; n = n1 + · · · + nJ > J + 1. (a) Pokud bychom jako neznámé parametry uvažovali µ, α1, . . . , αJ , pak dostaneme model, který není plné hodnosti, neboť první sloupec je součtem všech ostatních. Říkáme, že model je přeparametrizován (tzv.”overparametrized model”).                                      Y11 ... ... Y1n1 Y21 ... ... Y2n2 ... ... ... YJ1 ... ... YJnJ                                      =Y =                                        1 1 0 · · · · · · · · · · · · 0 1 ... ... ... ... ... ... ... 1 ... ... ... ... ... ... ... 1 1 0 · · · · · · · · · · · · 0 1 0 1 0 · · · · · · · · · 0 1 ... ... ... ... ... ... ... 1 ... ... ... ... ... ... ... 1 0 1 · · · · · · · · · · · · 0 1 0 0 · · · · · · 0 1 0 1 ... ... ... ... ... ... ... 1 ... ... ... ... ... ... ... 1 0 0 · · · · · · 0 1 0 1 0 0 · · · · · · · · · 0 1 1 ... ... ... ... ... ... ... 1 ... ... ... ... ... ... ... 1 0 0 · · · · · · · · · 0 1                                        =X∗       µ α1 ... αJ       =β∗ +                                      ε11 ... ... ε1n1 ε21 ... ... ε2n2 ... ... ... εJ1 ... ... εJnJ                                      =ε (b) Protože matice plánu X není plné hodnosti, proveďme proto následující reparametrizaci: aj = µj − µ. Pak Yjk = µj + εjk , j = 1, · · · , J i = 1, · · · , nj. Maticově, lze napsat tento regresní model ve tvaru Mgr. Jan Koláček, Ph.D. 61                                      Y11 ... ... Y1n1 Y21 ... ... Y2n2 ... ... ... YJ1 ... ... YJnJ                                      =Y =                                        1 0 · · · · · · · · · · · · 0 ... ... ... ... ... ... ... ... ... ... ... ... ... ... 1 0 · · · · · · · · · · · · 0 0 1 0 · · · · · · · · · 0 ... ... ... ... ... ... ... ... ... ... ... ... ... ... 0 1 · · · · · · · · · · · · 0 0 0 · · · · · · 0 1 0 ... ... ... ... ... ... ... ... ... ... ... ... ... ... 0 0 · · · · · · 0 1 0 0 0 · · · · · · · · · 0 1 ... ... ... ... ... ... ... ... ... ... ... ... ... ... 0 0 · · · · · · · · · 0 1                                        =X     µ1 ... µJ     =β +                                      ε11 ... ... ε1n1 ε21 ... ... ε2n2 ... ... ... εJ1 ... ... εJnJ                                      =ε X′ X =        n1 0 · · · 0 0 n2 ... ... ... ... ... 0 0 · · · 0 nJ        a X′ Y =       Y1 Y2 ... YJ       ⇒ β = (X′ X)−1 X′ Y =     ¯Y1 ... ¯YJ     takže dostáváme µ1 = ¯Y1 ... µJ = ¯YJ Model VI: Dvě regresní přímky (se stejným rozptylem). Mějme dva nezávislé náhodné výběry Y11, . . . , Y1n1 (resp. Y21, . . . , Y2n2 ) a k tomu odpovídající hodnoty regresorů x11, . . . , x1n1 (resp. x21, . . . , x2n2 ). Předpokládejme, že platí Y1i = a1 + b1x1i + ε1i, i = 1, . . . , n1, ε1i ∼ N(0, σ2 1) Y2i = a2 + b2x2i + ε2i, i = 1, . . . , n2, ε2i ∼ N(0, σ2 2) Vytvořme společný regresní model: 62 M5VM05 Statistické modelování             Y11 ... Y1n1 Y21 ... Y2n2             =             1 x11 0 0 ... ... ... ... 1 x1n1 0 0 0 0 1 x21 ... ... ... ... 0 0 1 x2n2                   a1 b1 a2 b2       +             ε11 ... ε1n1 ε21 ... ε2n2             . Vyjádřeno blokově: Y1 Y2 = X1 0 0 X2 β1 β2 + ε1 ε2 Počítejme postupně X′ X = X′ 1X1 0 0 X′ 2X2 , X′ Y = X′ 1Y1 X′ 2Y2 a β = β1 β2 = (X′ 1X1)−1 X′ 1Y1 (X′ 2X2)−1 X′ 2Y2 . Označme ˆε = Y − Y = Y − Xβ = ˆε1 ˆε2 = Y1 − Y1 Y2 − Y2 = Y1 − X1β1 Y2 − X2β2 Pak SSE = ε ′ ε = ε1 ′ ε1 + ε2 ′ ε2 = SSE1 + SSE2 a s2 1 = SSE1 n1−2 = ε1 ′ ε1 n1−2 s2 2 = SSE1 n2−2 = ε2 ′ ε2 n2−2 ⇒ s2 = SSE n1 + n2 − 4 = (n1 − 2)s2 1 + (n2 − 2)s2 2 n1 + n2 − 4 Testování rovnoběžnosti dvou regresních přímek. Při testování hypotézy H0 : b1 = b2 proti alternativě H1 : b1 = b2 využijeme toho, že sta- tistika T = c′ ˆβ − c′ β s2c′(X′X)−1c ∼ t(n − p − 1). Položme c = (0, 1, 0, −1) ⇒ c′ (X′ X)−1 c = v22 + v44, přičemž (X′ X)−1 =       v11 v12 v13 v14 v21 v22 v23 v24 v31 v32 v33 v34 v41 v42 v43 v44       . Za platnosti nulové hypotézy statistika T0 = ˆb1−ˆb2 s √ v22+v44 ∼ t(n1 + n2 − 4). Nulovou hypotézu zamítáme na hladině významnosti α, pokud |t0| > t1− α 2 (n1 + n2 − 4) nebo pomocí p-value Mgr. Jan Koláček, Ph.D. 63 p0 = P(T0 > |t0|) < α 2 . Testování shodnosti dvou regresních přímek. Budeme testovat hypotézu H0 : β1 = β2 proti alternativě H1 : β1 = β2 . Využijeme vlastnosti β1 − β2 ∼ N β1 − β2, σ2 (X′ 1X1)−1 + (X′ 2X2)−1 W . a K1 = 1 σ2 β1 − β2 ′ W−1 β1 − β2 ∼ χ2 (2), dále K2 = SSE σ2 = (n1 + n2 − 4)s2 σ2 ∼ χ2 (n1 + n2 − 4), takže k testování nulové hypotézy použijeme statistiku F0 = K1/2 K2/(n1+n2−4) = 1 2s2 β1 − β2 ′ W−1 β1 − β2 ∼ F(2, n1 + n2 − 4) a nulovou hypotézu zamítáme na hladině významnosti α, pokud f0 < Fα 2 (2, n1 + n2 − 4) nebo f0 > F1− α 2 (2, n1 + n2 − 4) nebo pomocí p-value, jestliže p0 = P(F > f0) < α 2 popřípadě 1 − p0 < α 2 . Ověřování shodnosti rozptylů. Při testování hypotézy H0 : σ2 1 = σ2 2 proti alternativě H1 : σ2 1 = σ2 2 využijeme toho, že sta- tistika F0 = SSE1 (n1−2)σ2 SSE2 (n2−2)σ2 = s2 1 s2 2 ∼ F(n1 − 2, n2 − 2) a nulovou hypotézu zamítáme na hladině významnosti α, pokud f0 < Fα 2 (n1 − 2, n2 − 2) nebo f0 > F1− α 2 (n1 − 2, n2 − 2) nebo pomocí p-value, jestliže p0 = P(F0 > f0) < α 2 nebo 1 − p0 < α 2 . Příklad 5.1. Analyzujte data o počtu pracovních hodin za měsíc spojených s provozováním anesteziologické služby v závislosti na velikosti spádové populace nemocnice (viz následující 64 M5VM05 Statistické modelování tabulka). Údaje byly získány ve 12 nemocnicích ve Spojených státech. Poř. Počet Velikost populace pracovních spádové oblasti číslo hodin (osoby v tisích) 1 304,37 25,5 2 2616,32 294,3 3 1139,12 83,7 4 285,43 30,7 5 1413,77 129,8 6 1555,68 180,8 7 383,78 43,4 8 2174,27 165,2 9 845,30 74,3 10 1125,28 60,8 11 3462,60 319,2 12 3682,33 376,2 Závislost počtu pracovních hodin na velikosti populace 0 50 100 150 200 250 300 350 400 0 500 1000 1500 2000 2500 3000 3500 4000 Řešení. Graf naznačuje lineární vztah mezi pracovní dobou a velikostí populace, a tak budeme pokračovat kvantifikací tohoto vztahu pomocí přímky y = β0 + β1x. 0 50 100 150 200 250 300 350 400 0 500 1000 1500 2000 2500 3000 3500 4000 Používáme-li model regresní analýzy pro statistické zpracování našich dat, je dobré ověřit předpoklady, ze kterých model vychází. Shrňme je v následujících třech bodech. (1) Závisle proměnná Y (pracovní doba) má normální rozdělení pro každou hodnotu nezávisle proměnné x (velikost populace). (2) Rozptyl závisle proměnné Y je stejný pro každou hodnotu nezávisle proměnné x. (3) Závislost veličiny Y na x je lineární. Pro tuto chvíli předpokládejme, že pro náš příklad jsou tyto předpoklady splněny. Odhad absolutního členu β0 a směrnice β1 regresní přímky a jejich statistické charakteristiky jsou uvedeny v další tabulce. Směrodatná chyba koeficientu je výběrová směrodatná odchylka odhadovaného parametru, tj. sβ0 = SM1 1 n + ¯x2 SXX a sβ1 = SM1√ SXX (Ve statistických programech je obvykle označována anglicky jako Standard Error.) Statistické charakteristiky lineární regrese Parametr Koeficient Směrodatná chyba koef. t-statistika p-hodnota Absolutní člen β0 180,658 128,381 1,407 0,1896823 Směrnice β1 9,429 0,681 13,847 7.520972e-08 Mgr. Jan Koláček, Ph.D. 65 Z tabulky tedy dostáváme: pracovní doba = 180,658 + 9,429 · velikost populace. To je třeba interpretovat jako odhad průměrné hodnoty počtu pracovních hodin pro populaci s danou velikostí. Očekáváme, že na každých dalších 1 000 lidí stoupne za měsíc počet pracovních hodin o 9,429, což je směrnice regresní přímky. Uvědomte si, že absolutní člen (180, 658) značí průměrný počet pracovních hodin, když je populace rovna nule. To zřejmě nedává smysl a mělo by nám to připomenout, že model by se měl používat pouze v tom rozmezí obou veličin, v němž se pohybovaly pozorované hodnoty. V tomto případě to znamená x od 26 do 370. Je ovšem pravda, že dosažená hladina významnosti pro absolutní člen je přibližně 0, 19, a nelze tedy říci, že by se absolutní člen β0 významně lišil od nuly. Připomeňme, že tyto výsledky jsme spočítali pro náhodný výběr 12 nemocnic. Kdybychom teď zvolili jiný náhodný výběr 12 nemocnic, dostali bychom odlišný odhad směrnice a absolutního členu. Určeme proto intervaly spolehlivosti neznámých parametrů β0 a β1. Oboustranný interval spolehlivosti pro β0 180,6575 ± 2,228 · 128,3812 = 180,6575 ± 286,051 −200 −100 0 100 200 300 400 500 (−105,394; 466,709) Oboustranný interval spolehlivosti pro β1 9,429 ± 2,228 · 0,681 = 9,429 ± 1,517 0 2 4 6 8 10 12 (7,912; 10,946) Na základě výběru 12 nemocnic můžeme říci, že neznámý parametr β0 leží mezi −105, 394 a 466, 709 a neznámý parametr β1, tj. parametr změny průměrného počtu pracovních hodin v závislosti na změně velikosti populace (v tisících), leží mezi 7, 912 a 10, 946 pracovními hodinami za měsíc. Protože interval spolehlivosti pro β0 pokrývá nulu, nelze potvrdit, že se významně liší od nuly. Naproti tomu interval spolehlivosti pro β1 nulu nepokrývá, tedy se významně liší od nuly, jinak řečeno počet pracovních hodin skutečně lineárně závisí na rozsahu spádové populace. Pokud bychom uvažovali regresi procházející počátkem (plná čára) a výsledek srovnali s obecnou regresní přímkou (čárkovaná čára), dostaneme následující odhady 66 M5VM05 Statistické modelování β∗ 1 = 10, 185 sβ∗ 1 = 0, 4371, t∗ = 3, 30157, p∗ − hodnota = 1.0318 × 10−10 Oboustranný interval spolehlivosti pro β∗ 1 10,185 ± 2,2 · 0,4371 = 10,185 ± 0,962 0 2 4 6 8 10 12 (9,223; 11,147) Protože interval spolehlivosti pro β∗ 1 nulu nepokrývá, opět jsme prokázali, že se významně liší od nuly, tj. počet pracovních hodin skutečně lineárně závisí na rozsahu spádové po- pulace. 0 50 100 150 200 250 300 350 400 0 500 1000 1500 2000 2500 3000 3500 4000 4500 pracovní doba = 10,185 · velikost populace. Úlohy k procvičení Cvičení 5.1. V lineárním regresním modelu (Y , X , β), X =            1 −3 9 1 −2 4 1 −1 1 1 1 1 1 2 4 1 3 9            , Y =            7 4 2 2 5 8            spočítejte metodou nejmenších čtverců odhady vektoru parametrů β, aproximace Y , reziduální součty čtverců Se a s2 . [ˆβ = (1, 5; 0, 1786; 0, 6786)′ , Y = (7, 0714; 3, 8571; 2; 2, 3571; 4, 5714; 8, 1429)′ , Se = 0, 3571, s2 = 0, 119.] Cvičení 5.2. Pro data x −2 −1 0 1 2 Y 0 2 3 3 1 spočítejte metodou nejmenších čtverců odhady vektoru parametrů β, aproximace Y , reziduální součty čtverců Se a s2 ve dvou modelech. Který model je vhodnější? (Proč?) Oba modely vykreslete. (a) model s regresní funkcí Y = β0 + β1x + β2x2 (b) model s maticí plánu X =         1 4 1 1 0 0 1 1 1 4         Mgr. Jan Koláček, Ph.D. 67 [(a) ˆβ = (3, 09; 0, 3; −0, 64)′ , Y = (−0, 086; 2, 143; 3, 086; 2, 743; 1, 114)′ , Se = 0, 114, s2 = 0, 057. (b) ˆβ = (3, 17; −0, 67)′ , Y = (0, 5; 2, 5; 0; 2, 5; 0, 5)′ , Se = 10, s2 = 3, 33.] Cvičení 5.3. Pomocí regresní přímky procházející počátkem spočítejte metodou nejmenších čtverců odhady vektoru parametrů β, aproximace Y , reziduální součty čtverců Se a s2 v LRM (Y , X , β) pro data x 10 20 30 40 50 60 Y 0, 18 0, 35 0, 48 0, 65 0, 84 0, 97 Jedná se o měření teplotní délkové roztažnosti měděné trubky. Rozdíl teploty od referenční 20 ◦ C je x, prodloužení tyče je měřená veličina Y . [ˆβ = 0, 0164, Y = (0, 164; 0, 328; 0, 493; 0, 657; 0, 821; 0, 985)′ , Se = 0, 0015, s2 = 0, 0003.] Cvičení 5.4. U 126 podniků řepařské oblasti v České Republice byl sledován hektarový výnos cukrovky ve vztahu ke spotřebě průmyslových hnojiv. Data jsou uložena v souboru „cukrovka.Rdata ve 4 sloupcích: (1) dolní hranice spotřeby K2O (kg/ha) (2) horní hranice spotřeby K2O (kg/ha) (3) četnosti (4) průměrné výnosy cukrovky (q/ha) a) odhadněte parametry regresní funkce tvaru y = β0 + β1x y = β0 + β1x + β2x2 y = β0 + β1x0,5 Poznámka: Za hodnoty nezávisle proměnné volte střed intervalu. b) Porovnejte vhodnost tří použitých regresních modelů. Cvičení 5.5. U 19 vzorků potravinářské pšenice byl zjišťován obsah zinku v zrnu (proměnná Y ), v kořenech (proměnná X1), v otrubách (proměnná X2) a ve stonku a listech (proměnná X3). Data jsou uložena v souboru „psenice.Rdata . a) Předpokládejte, že je vhodný regresní model Y = β0 + β1X1 + β2X2 + β3X3. Odhadněte regresní koeficienty a rozptyl, vypočtěte vektor predikce a index determinace. Proveďte celkový F-test a dílčí t-testy. Hladinu významnosti volte 0, 05. Normalitu reziduí posuďte graficky pomocí funkce qqnorm. b) Z regresního modelu odstraňte ty proměnné, jejichž regresní koeficienty se ukázaly nevýznamné pro α = 0, 05. Sestavte nový regresní model a proveďte v něm všechny úkoly z bodu a). KAPITOLA 5 Ověřování předpokladů v klasickém modelu lineární regrese Základní informace (1) V následující kapitole se budeme zabývat ověřováním předpokladů lineárního regresního modelu. Nejprve se zaměříme na ověření normality dat, graficky i pomocí statistických testů. Dále pak popíšeme metody pro testování korelace v datech a konstrukci odhadů parametrů lineárního regresního modelu pro korelovaná data. Nakonec se budeme zabývat multikolinearitou v matici plánu. Nejprve bude popsáno, jak detekovat tento problém, dále pak jak se s ním vyrovnat. (2) Předpokládá se znalost základních pojmů z teorie matematické statistiky a lineárních regresních modelů – číselné charakteristiky náhodných veličin a jejich výběrové odhady, odhady parametrů v lineárním regresním modelu, testování hypotéz Výstupy z výukové jednotky Studenti • graficky ověří normální rozdělení dat • aplikují statistické testy pro ověření normálního rozdělení • detekují přítomnost autokorelace 1. řádu • umí konstruovat regresní modely pro korelovaná data • detekují multikolinearitu v matici plánu • sestaví vhodný model pomocí postupné regrese 1. Motivace Možnost modelování závislosti pomocí lineárního regresního modelu je podmíněna nějakými předpoklady o datech. Jedním z nich je předpoklad normality. Ten má zcela zásadní vliv na použití testů o parametrech lineárního regresního modelu, neboť většina testů předpokládá právě normalitu. Dalším důležitým předpokladem je nezávislost chyb, která bývá často (zejména v časových řadách) porušena. Také vlastnosti matice plánu, zejména pak prvky matice X′ X a existence její inverze, hrají velmi důležitou roli při odhadech parametrů modelu. Opomíjení výše zmíněných předpokladů může v praxi vést i ke zcela zavádějícím výsledkům, proto je nutné věnovat tomuto problému patřičnou pozornost. 2. Ověřování normality dat V této části se zaměříme obecně na ověření normality dat. To je pro nás užitečné zejména pro ověření normality residuí, neboť v předešlých kapitolách jsme do konstrukce lineárního regresního modelu zahrnuli předpoklad normality residuí, tj. εi ∼ N(0, σ2 ), i = 1, . . . , n. V dalším budeme předpokládat X = (X1, . . . , Xn)′ je náhodný výběr z nějakého rozdělení a budeme zjišťovat, zda tímto rozdělením je normální rozdělení. 69 70 M5VM05 Statistické modelování 2.1. Grafické posouzení. Jedním z prvních kroků, které bychom měli provést při posuzování normality dat, je vykreslení dat do nějakého obrázku. Z toho pak můžeme rozhodnout, jestli vůbec má smysl pouštět se do dalších analýz. Možností, jak graficky posoudit normalitu dat je mnoho. Uvedeme tři základní typy. (1) Histogram Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti normálního rozložení. Nejprve vytvoříme třídicí intervaly (u1, u2 , . . . , (ur, ur+1 , doporučuje se volit r blízké √ n. Četnostní hustota j-tého třídicího intervalu je definována vztahem fj = pj dj kde dj = uj+1 − uj. Soustava obdélníků sestrojených nad třídicími intervaly, jejichž plochy jsou rovny relativním četnostem, se nazývá histogram. Vykreslením histogramu a příslušné hustoty normálního rozdělení můžeme vizuálně posoudit, zda se data řídí normálním rozdělením. Nutno podotknout, že tato metoda je velmi citlivá na volbu třídících intervalů, zvláště pro menší počty dat. (2) Quantile - quantile plot (Q–Q plot) Q-Q plot konstruujeme tak, že na svislou osu vynášíme uspořádané hodnoty x(1) ≤ · · · ≤ x(n) a na vodorovnou osu kvantily uαj normálního rozdělení, kde αj = j − radj n + nadj , přičemž radj a nadj jsou korigující faktory ≤ 0, 5. Implicitně se klade radj = 0, 375 a nadj = 0, 25. Protože normální rozložení závisí na parametrech µ a σ2 , tyto parametry se většinou odhadují z dat. Body (uαj (X), x(j)) se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím lepší je soulad mezi empirickým a normálním rozdělením. (3) Graf výběrové distribuční funkce Položme z(i) = x(i) − ¯x s , i = 1, . . . , n, s = 1 n − 1 n i=1 (xi − ¯x)2 . Na vodorovnou osu vykreslíme hodnoty z(i) a na svislou osu pak hodnoty distribuční funkce standardizovaného normálního rozdělení φ(z(i)), které porovnáme s hodnotami výběrové distribuční funkce Fn(z(i)) = i n , i = 1, . . . n. 2.2. Kolmogorovův – Smirnovův test. Věta 2.1. Testujeme hypotézu, která tvrdí, že náhodný výběr X = (X1, . . . , Xn)′ pochází z rozložení s distribuční funkcí Φ(x). Nechť Fn(x) je výběrová distribuční funkce. Testovou statistikou je statistika Dn = sup −∞ 0 76 M5VM05 Statistické modelování Vektor náhodných chyb již nemá varianční matici diagonální se stejným rozptylem, tj. Dε = σ2In, ale Dε = σ2 u 1 − θ2          1 θ θ2 . . . θn−1 θ 1 θ . . . θn−2 ... ... ... ... ... ... ... ... ... θ θn−1 . . . θ2 θ 1          = σ2 u 1 − θ2 σ2 ε W. Náš model je tedy tvaru Y = Xβ + ε, Eε = 0, Dε = σ2 ε W, píšeme Y ∼ L(Xβ, σ2 ε W). Vidíme, že uvažovaný model nesplňuje předpoklad homogenity rozptylu náhodných chyb, proto přejdeme k užitečnému zobecnění lineárního regresního modelu. Uvažujme lineární regresní model s obecnější varianční maticí Y ∼ L(Xβ, σ2 W−1 ), W > 0, σ2 > 0, h(X) = k. Také v tomto případě jsou β a σ2 neznámé parametry a matice W je (zpravidla známá) pozitivně definitní matice. Následující věta ukazuje, jakým způsobem lze provést odhad neznámých parametrů v tomto obecnějším případě. Věta 3.1. (Aitkenův odhad). Mějme regresní model Y ∼ L(Xβ, σ2 W−1 ) plné hodnosti, kde W > 0. Pak odhad pomocí metody nejmenších čtverců je roven βW = (X′ WX)−1 X′ WY. Poznámka 3.2. V případě, že matice W je diagonální, mluvíme o vážené regresi a metodě nejmenším čtverců, pomocí které byly provedeny odhady, se v tomto případě říká vážená metoda nejmenších čtverců. Příkladem takového modelu je situace, kdy i-tá složka vektoru Y je průměrem ni nezávislých pozorování se stejnou střední hodnotou a stejným rozptylem σ2 . Potom DYi = σ2 ni a regresní model je tvaru Y ∼ L(Xβ, σ2 W−1 ), kde W =        n1 0 · · · 0 0 n2 ... ... ... ... ... 0 0 · · · 0 nn        . 3.1. Detekce autokorelace. Popišme nejprve, jak poznat přítomnost autokorelace v datech. 1) Graficky Označme ˆε = Y − Y. Do grafu postupně vykreslíme hodnoty ˆεi v závislosti na ˆεi−1, i = 2, . . . , n. Bude-li z grafu zřejmá přibližná lineární závislost, svědčí to o autokorelaci 1. řádu nebo o špatné volbě modelu. 2) Test hypotézy H0 : θ = 0 proti H1 : θ = 0 Mgr. Jan Koláček, Ph.D. 77 (a) Pokud pracujeme s dostatečně velkým souborem pozorování (n ≥ 30), přichází v úvahu asymptotický test vycházející z přibližné normality ˆθ se střední hodnotou ˆθ = θ a rozptylem Dˆθ = 1−θ2 n . V takovém případě platí Uˆθ = ˆθ − θ 1−θ2 n A ∼ N(0, 1). Za platnosti hypotézy má tedy statistika √ nˆθ A ∼ N(0, 1). Pak nulovou hypotézu zamítáme, pokud | √ nˆθ| > u1− α 2 , kde u1− α 2 je kvantil standardizovaného normálního rozdělení. (b) Propracovanější je Durbinův – Watsonův test založený na statistice D = n i=2 (ˆεi − ˆεi−1)2 n i=1 ˆε2 i Pokud budou residua málo korelovaná, hodnota D se bude pohybovat kolem 2. Kladná hodnota způsobí, že D ∈ (0, 2) a záporná korelace způsobí, že D ∈ (2, 4). Přesné hodnoty kritických oborů pro test nalezneme v tabulkách. Durbinův – Watsonův test se používá zejména u dat, jejichž jednotlivá pozorování byla pořízena postupně v pravidelných časových odstupech. Statisticky významná hodnota D však může svědčit také o nesprávně zvoleném tvaru regresní funkce. 3.2. Odhad parametru θ. Pokud je známý parametr autokorelace θ, není problém spočítat odhad vektoru neznámých parametrů β metodou nejmenších čtverců. V praktických úlohách však parametr autokorelace θ neznáme a je třeba najít jeho vhodný odhad. Odhady parametru autokorelace θ lze zkonstruovat různým způsobem. Uveďme dva postupy: 1) Jednou z možností je odhadovat ho jako regresní koeficient v modelu ˆεi = θˆεi−1 + ui, i = 2, . . . , n metodou nejmenších čtverců. Odtud pak dostáváme ˆθ = n i=2 ˆεi ˆεi−1 n i=2 ˆε2 i−1 . Za určitých předpokladů o limitním chování vysvětlujících proměnných je ˆθ konzistentním odhadem parametru θ. 2) Další možností je využít výše popsané Durbinovy – Watsonovy statistiky D. Odhad je pak tvaru ˆθ = 1 − D 2 . Tento odhad je rovněž konzistentní a pro větší n jsou jen malé rozdíly mezi oběma odhady. Ani v případě prvního či druhého odhadu parametru θ nejsou již odhady ˆβ nejlepší nezkreslené. Konečné vlastnosti těchto odhadů jsou jen obtížně určitelné. Proto se většinou spokojíme s konstatováním, že asymptotické vlastnosti odhadů jsou dobré a předpokládáme, že jsou rozumnou aproximací i v konečných výběrech. 78 M5VM05 Statistické modelování 3.3. Odstranění autokorelace 1. řádu. V některých případech nás nezajímají pouze nezkreslené odhady ˆβ, ale chceme odstranit autokorelaci z dat nějakou vhodnou transformací. To je samozřejmě možné, je třeba si však uvědomit, že pak dostáváme úplně jiný model a následná interpretace výsledků je obtížně proveditelná. Uveďme postup pro odstranění autokorelace 1. řádu: (1) Jednou z výše uvedených metod nalezneme odhad ˆθ (2) Vytvoříme nový model Y ∗ i = Yi+1 − ˆθYi; X∗ ij = Xi+1,j − ˆθXij, i = 1, . . . , n − 1, j = 1, . . . , k, tj. vznikne model Y∗ = X∗ β∗ + ε∗ , Eε∗ = 0, Dε∗ = σ2 ε∗ In, ve kterém již není přítomna autokorelace 1. řádu. (3) Hledáme odhady ˆβ ∗ standardním způsobem. Příklad 3.3. V letech 1953 – 1983 byly měřeny ztráty vody při distribuci do domácností. Výsledky měření jsou uloženy v souboru „voda.RData . Proměnná x označuje množství vyrobené vody, proměnná Y ztrátu. Ověřte, zda se v datech vyskytuje autokorelace 1. řádu a případně ji odstraňte. Řešení. Nejprve do grafu postupně vykreslíme hodnoty ˆεi v závislosti na ˆεi−1, i = 2, . . . , 31. −20 −15 −10 −5 0 5 10 15 −20−15−10−5051015 residual plot e_1,...,e_n−1 e_2,...,e_n Z grafu je patrná lineární závislost a tudíž přítomnost autokorelace 1. řádu. Provedeme také oba testy na hladině významnosti α = 0, 05: (a) Pro asymptotický test vychází hodnota testové statistiky Uˆθ = | √ nˆθ| = 2, 339. Nulovou hypotézu tedy zamítáme, neboť | √ nˆθ| > u1− α 2 = 1, 96. (b) Pro Durbinův – Watsonův test máme D = n i=2 (ˆεi − ˆεi−1)2 n i=1 ˆε2 i = 1, 082 a p-hodnota testu je 0, 0016, takže také zamítáme nulovou hypotézu. Mgr. Jan Koláček, Ph.D. 79 Nyní se pokusíme vhodnou transformací autokorelaci odstranit. Nejprve je třeba odhadnout parametr θ. Použijeme k tomu obě zmíněné metody. Odhady ˆθ jsou velmi podobné. Metodou nejmenších čtverců dostáváme odhad ˆθ = 0, 421. Odhad pomocí Durbin – Watsonovy statistiky vychází ˆθ = 0, 459. Pomocí tohoto odhadu vytvoříme nový model a v něm vykreslíme residua. −15 −10 −5 0 5 10 15 −15−10−5051015 residual plot e_1,...,e_n−1 e_2,...,e_n Z obrázku je patrná nezávislost residuí. Také Durbinův – Watsonův test již nezamítá nulovou hypotézu (jeho p-hodnota vychází 0, 4). 4. Multikolinearita Multikolinearitou se rozumí vzájemná lineární závislost vysvětlujících proměnných. Přesnou multikolinearitou se rozumí případ, kdy jednotlivé sloupce xj, j = 1, . . . , k matice plánu X jsou lineárně závislé, takže pro aspoň jednu nenulovou konstantu cj platí c1x1 + · · · + ckxk = 0. V praxi bychom se s tímto případem neměli setkávat, neboť při rozumně sestaveném regresním modelu využijeme lineární kombinaci a zmenšíme počet vysvětlujících proměnných. Podobně nereálný je v praxi případ ortogonálních vysvětlujících proměnných, kdy matice X je ortogonální a platí, že X′ X = Ik. V praxi se tedy multikolinearitou rozumí případ, kdy přibližně platí rovnice vyjadřující lineární kombinaci vysvětlujících proměnných. V případě silné multikolinearity je determinant informační matice X′ X blízký nule, nejmenší vlastní číslo je rovněž blízké nule a matice X′ X je „skoro singulární . O multikolinearitě svědčí i vysoké hodnoty poměru největšího a nejmenšího vlastního čísla. Důvody multikolinearity mohou být různé: • Multikolinearitu způsobuje regresní rovnice obsahující nadbytečné vysvětlující proměnné. Statistickými technikami můžeme přebytečné proměnné identifikovat a vyloučit z regresní rovnice. • Multikolinearitu jen ztěží odstraníme v úlohách, kdy vzájemná spřaženost hodnot vysvětlujících proměnných je způsobena neuvažovanými veličinami nebo formou statistického zjišťování. Jde-li např. o údaje z časových řad, je podobný vývoj sledovaných veličin dostatečným důvodem vzniku multikolinearity. Vzhledem k tomu, že multikolinearitu hodnotíme výhradně na základě určitého souboru pozorování, stačí nesprávný výběr kombinací hodnot vysvětlujících proměnných, nereprezentujících obor možných hodnot, k existenci významné multikolinearity. 80 M5VM05 Statistické modelování • Závažným důvodem multikolinearity je skutečný vztah vysvětlujících proměnných v rámci sledovaného jevu, procesu nebo systému. V tomto případě je třeba využít všechny informace nevýběrového charakteru k zlepšení kvality regresních odhadů. 4.1. Důsledky multikolinearity. V případě přesné multikolinearity je matice X′ X singulární a běžnou inverzí nepořídíme odhad neznámých parametrů β metodou nejmenších čtverců. Pro přibližnou multikolinearitu jsme sice schopni matici X′ X invertovat, ale kvalita pořízených odhadů je poměrně nízká. Snížení kvality se projeví • v kovarianční matici var(ˆβ) = σ2 (X′ X)−1 • v přesnosti prováděných výpočtů neboť důsledkem vysokých rozptylů odhadů jsou příliš široké intervaly spolehlivosti, a tedy malá přesnost odhadu. Logickým důsledkem multikolinearity je obtížné vyjádření individuálního vlivu jednotlivých vysvětlujících proměnných. Projeví se to nízkými hodnotami testových kritérií v ttestech nedovolujícími potvrdit závažnost jednotlivých regresorů v regresní funkci. Závažným důsledkem je značná výpočetní nespolehlivost a nestabilní hodnoty regresních odhadů. Stačí malý zásah do statistických údajů a výsledné odhady jsou odlišné. Definice 4.1. Diagonální prvky matice (X′ X)−1 , tj. a = diag(X′ X)−1 se označují jako VIF – variance inflarion factors. Věta 4.2. Variance inflarion factors úzce souvisí s vícenásobnými korelačními koeficienty, vyjadřující vztah j-té vysvětlující proměnné a lineární funkce ostatních vysvětlujících proměnných. Lze je zapsat jako aj = 1 (1 − r2 j )x′ jxj , kde rj = rxj·x1x2...xj−1xj+1...xk je koeficient mnohonásobné korelace. Vysoký stupeň multikolinearity se projevuje vysokými hodnotami korelačních koeficientů rj, ale i vysokými hodnotami některých jednoduchých korelačních koeficientů. 4.2. Detekce multikolinearity. Jak bylo naznačeno výše, multikolinearita souvisí s korelačními koeficienty. Při detekci přítomnosti multikolinearity se tohoto faktu využívá. V praxi tedy testujeme hypotézu H0 : R = Ik proti H1 : R = Ik, kde R je korelační matice proměnných. Věta 4.3. Platí-li nulová hypotéza, pak K = − n − 1 − 1 6 (2k + 7) ln |R| ∼ χ2 k(k − 1) 2 . Hypotézu H0 tedy na hladině významnosti α zamítáme, pokud K > χ2 1−α k(k−1) 2 . Mgr. Jan Koláček, Ph.D. 81 Věta 4.4 (Identifikace proměnných způsobujících multikolinearitu). Pro identifikaci proměnných způsobujících multikolinearitu se používají statistiky Fj = n − k k − 1 (djj − 1), kde djj jsou diagonální prvky matice D = R−1 . V případě, že proměnná Xj nezpůsobuje multikolinearitu, má veličina Fj Fisherovo – Snedecorovo rozdělení F(k − 1, n − k). 4.3. Odstranění multikolinearity. Do modelu zařadíme jen ty regresory, které významně přispívají ke zlepšení kvality odhadu β. K výběru nejlepší podmnožiny regresorů použijeme metodu postupné regrese. Návod 4.5. Algoritmus pro metodu postupné regrese: (1) Spočteme korelační matici R a provedeme test hypotézy H0 : R = Ik. Je-li korelace prokázána, pokračujeme dalším krokem. (2) Spočteme korelační koeficienty rY,X1 , . . . , rY,Xk a vybereme ten regresor Xi, jehož rY,Xi je v absolutní hodnotě největší. (3) Sestavíme model Y = β0 +β1Xi a odhadneme jeho parametry. Vypočteme hodnotu statistiky F = (n−2)s2 Y s2 = (n−2)ID 1−ID , kde ID značí index determinace. Pokud F > F1−α(1, n − 2), ponecháme regresor Xi v modelu. (4) Spočteme parciální korelační koeficienty rY,X1·Xi , . . . , rY,Xi−1·Xi , rY,Xi+1·Xi , . . . , rY,Xk·Xi a vybereme ten regresor Xj, jehož rY,Xj·Xi je v absolutní hodnotě největší. (5) Sestavíme model Y = β0 + β1Xi + β2Xj a odhadneme jeho parametry. Vypočteme hodnotu statistiky F = (n−3)∆ID 1−ID , kde ∆ID je přírůstek indexu determinace při zařazení Xj do modelu a ID je index determinace pro model Y = β0 +β1Xi +β2Xj. Pokud F > F1−α(2, n − 3), ponecháme regresor Xj v modelu. (6) Spočteme parciální korelační koeficienty rY,X1·(Xi,Xj), . . . , rY,Xk·(Xi,Xj) a vybereme ten regresor Xl, jehož rY,Xl·(Xi,Xj) je v absolutní hodnotě největší a tak pokračujeme dále. 4.4. Zlepšování podmíněnosti matice X′ X. Často se v praxi stává, že matice X′ X je špatně podmíněná a přesto nemusí být přítomna multikolinearita v modelu. Může to být například způsobeno příliš rozdílnými hodnotami kovariátů. Uveďme některé obecné principy na zlepšení podmíněnosti matice X′ X. • Model standardizovaných proměnných. Místo původních proměnných yi a xij pracujeme s proměnnými ve tvaru qi = yi − ¯y sy , zij = xij − ¯xj sxj , kde sy a sxj jsou směrodatné odchylky jednotlivých proměnných. Standardizací vysvětlujících proměnných dostáváme při použití metody nejmenších čtverců místo matice X′ X korelační matici R = Z′ Z/n. Vektor Z′ q/n obsahuje jednoduché korelační koeficienty ryxj . Standardizací proměnných se zmenšují zaokrouhlovací chyby a zlepšují se možnosti hodnocení individuálního vlivu proměnných pomocí regresních parametrů. • Model v kanonickém tvaru. Místo modelu ve tvaru Y = X′ β + ε pracujeme s modelem Y = U′ γ + ε, 82 M5VM05 Statistické modelování kde matice U = XV, vektor γ = V′ β a V je matice standardizovaných vlastních vektorů odpovídajících vlastním číslům matice X′ X. Odhady parametrů v kanonickém tvaru: ˆγ = L−1 U′ Y, kde L je diagonální matice s vlastními čísly matice X′ X. Kovarianční matice odhadů var(ˆγ) = σ2 L−1 ukazuje, že i v tomto případě jsou odhady nezávislé. Residuální součet čtverců se transformací nemění. • Hřebenová regrese (ridge regression) – nebudeme podrobně popisovat tuto metodu, více informací lze najít např. v [8]. Pro praktickou aplikaci této metody lze v jazyce R použít proceduru lm.ridge z balíku MASS. Příklad 4.6. V souboru „vydaje.Rdata jsou uložena data o 20 náhodně vybraných domácnostech. Sloupce proměnné „domacnosti obsahují postupně tyto údaje: výdaje za potraviny a nápoje (Y ), počet členů domácnosti (X1), počet dětí (X2), průměrný věk výdělečně činných (X3) a příjem domácnosti (X4). Metodou postupné regrese zkonstruujte model s nejlepší podmíněností regresorů. Řešení. Uvažujme nejdřív model se všemi regresory. Spočtěme nejprve pro ilustraci determinant det((X′ X)−1 ) = 4, 65 × 10−16 . Také hodnoty VIF jsou pro první dva regresory vysoké: clenu deti vek prijem 21, 23 16, 18 1, 31 3, 4 Testujeme-li hypotézu H0 : R = I4, hodnota testové statistiky K = − 19 − 15 6 ln |R| = 64, 94 výrazně převyšuje kritickou hodnotu χ2 0,95 (6) = 12, 59. Hypotézu H0 tedy na hladině významnosti 0, 05 zamítáme. Pro identifikaci proměnných způsobujících multikolinearitu můžeme spočítat dílčí statistiky Fj clenu deti vek prijem 107, 88 80, 94 1, 66 12, 83 které porovnáme s kritickou hodnotou F0,95(3, 16) = 3, 24. Metodou postupné regrese sestavíme model: (1) Spočteme korelační koeficienty rY,X1 , . . . , rY,X4 = (0, 77; 0, 67; 0, 18; 0, 73). Vybereme regresor X1, neboť jeho korelace je v absolutní hodnotě největší. (2) Sestavíme model Y = β0 + β1X1. Vypočteme hodnotu statistiky F = (n−2)ID 1−ID = 18·0,5897 1−0,5897 = 25, 87. Tato hodnota je větší než F0,95(1, 18) = 4, 41, takže regresor X1 ponecháme v modelu. (3) Spočteme parciální korelační koeficienty rY,X2·X1 , rY,X3·X1 , rY,X4·X1 = (0, 36; 0, 499; 0, 32). Vybereme regresor X3, jehož parciální korelační koeficient je v absolutní hodnotě největší. (4) Sestavíme model Y = β0 + β1X1 + β2X3. Vypočteme hodnotu statistiky F = (n−3)∆ID 1−ID = 17·0,102 1−0,69 = 5, 64. Tato hodnota je větší než F0,95(2, 17) = 3, 59, tedy ponecháme regresor X3 v modelu. (5) Spočteme parciální korelační koeficienty rY,X2·(X1,X3), rY,X4·(X1,X3) = (0, 19; 0, 17). Vybereme regresor X2, jehož parciální korelační koeficient je v absolutní hodnotě největší. Mgr. Jan Koláček, Ph.D. 83 (6) Sestavíme model Y = β0 + β1X1 + β2X3 + β3X2. Vypočteme hodnotu statistiky F = (n−4)∆ID 1−ID = 16·0,012 1−0,704 = 0, 63. Tato hodnota je menší než F0,95(3, 16) = 3, 24, a tedy regresor X2 již nezahrneme do modelu. Výsledný model je tedy tvaru Y = β0 + β1X1 + β2X3. Úlohy k procvičení Cvičení 4.1. V souboru „studenti.RData jsou uloženy údaje o 96 studentech VŠE v Praze. Hodnoty v prvním sloupci značí hmotnost studentů v kg (proměnná Y ), ve druhém sloupci je výška studentů v cm (proměnná X1) a ve třetím sloupci je indikátor pohlaví studenta (proměnná X2, 0 – žena, 1 – muž). Předpokládejte regresní model Y = β0 + β1X1 + β2X2. Odhadněte parametry modelu a ověřte normalitu residuí. Dále pak testujte přítomnost autokorelace 1. řádu, případně ji odstraňte. [Odhady parametrů: ˆβ0 = −53, 67, ˆβ1 = 0, 6648, ˆβ2 = 6, 3323, normalita se nezamítá, autokorelace 1. řádu se zamítá.] Cvičení 4.2. V proměnné „LakeHuron 3 jsou uloženy roční údaje o hloubce jezera Huron (ve stopách) v letech 1875 – 1972. Nalezněte vhodný regresní model a ověřte, zda se v datech vyskytuje autokorelace 1. řádu. Případně se ji pokuste odstranit. Zkoumejte také normalitu residuí. [Vhodný model: polynom 7. stupně, autokorelace 1. řádu se nezamítá, normalita residuí u nového modelu se nezamítá.] Cvičení 4.3. V souboru „cement.RData jsou uloženy údaje, které se týkají chemického složení portlandského cementu: y množství tepla v kaloriích na gram cementu x1 Tricalcium aluminate 3CaO.Al2O3 v % x2 Tricalciam silicate 3CaO.SiO2 v % x3 Tetracalcium alumino ferrite 4CaO.Al2O3.Fe2O3 v % x4 Dicalcium silicate 2CaO.SiO2 v % Testujte multikolinearitu v daném modelu. Metodou postupné regrese nalezněte vhodný model. Poté ověřte normalitu residuí. [Multikolinearita se nezamítá, vhodný model: Y = β0 + β1X1 + β2X2 + β3X4, normalita residuí se nezamítá.] Cvičení 4.4. V proměnné „mtcars 3 jsou uložena data pro modelování závislosti spotřeby paliva osobních automobilů (proměnná mpg, počet mil/galon) na vlastnostech motoru, které jsou popsány následujícími proměnnými: 3datový soubor implementovaný v jazyce R 84 M5VM05 Statistické modelování cyl počet válců disp objem válců (kubické palce) hp výkon (počet koní) drat převodový poměr zadní nápravy wt hmotnost vozidla (kilolibry) qsec zrychlení (počet sekund z 0 na 1/4 míle) vs uspořádání válců (1 – „V , 0 – za sebou) am převodovka (0 – automat, 1 – manuál) gear počet převodových stupňů carb počet karburátorů Testujte multikolinearitu v daném modelu. Metodou postupné regrese nalezněte vhodný model. Ověřte také normalitu residuí. [Multikolinearita se nezamítá, vhodný model: mpg = β0 + β1wt + β2cyl, normalita residuí se nezamítá.] Cvičení 4.5 (pro náročné). Naprogramujte funkci „multicol.R , která pro zadaný model zjistí přítomnost multikolinearity v datech. V případě, že je multikolinearita přítomna, metodou postupné regrese nalezne vhodný model. KAPITOLA 6 Analýza rozptylu Základní informace (1) V následující kapitole se budeme zabývat obecně problematikou jednofaktorové analýzy rozptylu. Popíšeme lineární regresní model, ze kterého analýza vychází a aplikujeme výsledky tohoto modelu při testování hypotézy o shodě středních hodnot. Dále také uvedeme testy shody rozptylů a metody mnohonásobného porovnávání. (2) Předpokládá se znalost základních pojmů z teorie pravděpodobnosti a matematické statistiky – známá rozdělení náhodné veličiny, dále se předpokládá znalost lineárního regresního modelu a testování hypotéz o parametrech tohoto modelu. Výstupy z výukové jednotky Studenti • pochopí konstrukci modelu a testování hypotézy o shodě středních hodnot • umí sestrojit tabulku analýzy rozptylu • umí testovat shodu rozptylů • ovládají metody mnohonásobného porovnávání • aplikují úvahy analýzy rozptylu na výběrech z alternativního rozdělení 1. Motivace Zajímáme se o problém, zda lze určitým faktorem (tj. nominální náhodnou veličinou A) vysvětlit variabilitu pozorovaných hodnot náhodné veličiny Y , která je intervalového či poměrového typu. Např. zkoumáme, zda metoda výuky určitého předmětu (faktor A) ovlivňuje počet bodů dosažených studenty v závěrečném testu (náhodná veličina Y ). Předpokládáme, že faktor A má a ≥ 3 úrovní a i-té úrovni odpovídá ni výsledků Yi1, . . . , Yini , které tvoří náhodný výběr z rozložení N(µi, σ2 ), i = 1, . . . , a a jednotlivé náhodné výběry jsou stochasticky nezávislé, tedy Yij = µi + εij, kde εij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, σ2 ), kde i = 1, . . . , a a j = 1, . . . , ni. Na hladině významnosti α testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné oproti alternativní hypotéze, která tvrdí, že alespoň jedna dvojice středních hodnot se liší. Jedná se tedy o zobecnění dvouvýběrového t-testu a na první pohled se zdá, že stačí utvořit r(r − 1)/2 dvojic náhodných výběrů a na každou dvojici aplikovat dvouvýběrový t-test. Tento postup však nelze použít, neboť nezaručuje splnění podmínky, že pravděpodobnost chyby 1. druhu je α. Proto ve 30. letech 20. století vytvořil R. A. Fisher metodu ANOVA1 (analýza rozptylu, v popsané situaci analýza rozptylu jednoduchého třídění), která uvedenou podmínku splňuje. Pokud na hladině významnosti α zamítneme nulovou hypotézu, zajímá nás, které dvojice středních hodnot se od sebe liší. K řešení tohoto problému slouží metoda mnohonásobného porovnávání, např. Scheffého nebo Tukeyova metoda. Poznámka 1.1. Většina textu v této kapitole byla převzata z [3]. Pro podrobnější studium tohoto tématu proto odkazujeme na tento zdroj. 1Z anglického ANalysis Of VAriance 85 86 M5VM05 Statistické modelování 1.1. Označení. Výsledky pokusu popíšeme pomocí spojité náhodné veličiny Y a to tak, že sledujeme výsledky tohoto pokusu při všech úrovních faktoru A. Zjištěné hodnoty Y = (Y1, . . . , Yn)′ roztřídíme do a skupin podle úrovní do následující tabulky: Úroveň Počet Naměřené Součet Průměr Rozdělení faktoru pozorování hodnoty úrovně úrovně úrovně 1. n1 Y1 = (Y11, . . . , Y1n1 )′ Y1 = n1 i=1 Y1i Y 1 = 1 n1 Y1 Y1i ∼ L(µ1, σ2 ) 2. n2 Y2 = (Y21, . . . , Y2n2 )′ Y2 = n2 i=1 Y2i Y 2 = 1 n2 Y1 Y2i ∼ L(µ2, σ2 ) ... ... ... ... ... ... a-tá na Ya = (Ya1, . . . , Yana )′ Ya = na i=1 Yai Y a = 1 na Ya Yai ∼ L(µa, σ2 ) Součet n Y = a j=1 nj i=1 Yji Y = 1 n Y 2. Testování hypotézy o shodě středních hodnot Definujme nejprve obecně základní model, kterým se řídí pozorované náhodné veličiny. Z tohoto modelu budeme vycházet v dalších úvahách. Definice 2.1 (model M). Náhodné veličiny Yij se řídí modelem M: Yij = µ + αi + εij, pro i = 1, . . . , a a j = 1, . . . , ni, přičemž εij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, σ2 ), µ je společná část střední hodnoty proměnné veličiny, αi je efekt faktoru A na úrovni i. Při zkoumání vlivu jednoho faktoru A testujeme hypotézu H0 : α1 = · · · = αa = 0 proti alternativě H1 : ∃ i : αi = 0 Jinými slovy hypotéza říká, že Y = (Y′ 1, . . . , Y′ a)′ tvoří jeden náhodný výběr, alternativa znamená, že táž pozorování představují obecně a náhodných výběrů lišících se střední hodnotou. To odpovídá situaci, kdy pozorování byla pořízena za a různých podmínek, jejichž vliv, pokud existuje, se dá vyjádřit aditivní změnou střední hodnoty. Pokud hypotézu zamítneme, považujeme vliv zkoumaného faktoru za významný, v opačném případě za bezvýznamný. Pokud tedy platí nulová hypotéza H0, dostáváme následující minimální submodel. Definice 2.2 (model M0). Náhodné veličiny Yij se řídí modelem M0: Yij = µ + εij, pro i = 1, . . . , a a j = 1, . . . , ni, přičemž εij jsou stochasticky nezávislé náhodné veličiny s rozložením N(0, σ2 ). Poznámka 2.3 (odvození pro zvídavé). Vyjděme ze základního modelu M. Matice plánu je X =          1n1 1n1 0 · · · · · · 0 1n2 0 1n2 ... ... ... ... ... ... ... ... 1na−1 ... ... 1na−1 0 1na 0 · · · · · · 0 1na          a vektor parametrů β =          µ α1 ... ... αa          , vektor 1k značí sloupcový vektor složený z k jedniček. Matice X má (a + 1) sloupců a není plné hodnosti, neboť první sloupec dostaneme, pokud sečteme zbývajících a sloupců. Mgr. Jan Koláček, Ph.D. 87 Vyjádřeme nejprve systém normálních rovnic X′ Xβ = X′ Y: X′ X =             n n1 n2 · · · · · · na n1 n1 0 · · · · · · 0 n2 0 n2 ... ... ... ... ... ... ... ... na−1 ... ... na−1 0 na 0 · · · · · · 0 na             , X′ Y =             1′ n1 1′ n2 · · · 1′ na−1 1′ na 1′ n1 0 · · · · · · 0 0 1′ n2 ... ... ... ... ... ... ... ... ... 1′ na−1 0 0 · · · · · · 0 1′ na                         Y1 Y2 ... ... Ya−1 Ya             =             Y Y1 ... ... Ya−1 Ya             . Jednou z pseudoinverzních matic k matici X′ X je matice (X′ X)- =             0 0 0 · · · · · · 0 0 1 n1 0 · · · · · · 0 0 0 1 n2 ... ... ... ... ... ... ... ... 0 ... ... 1 na−1 0 0 0 · · · · · · 0 1 na             ⇒ H = X(X′ X)-X′ =          1 n1 En1 0 · · · 0 0 ... ... ... ... ... ... 0 0 · · · 0 1 na Ena          , kde Ek = 1k1′ k je matice typu (k × k) samých jedniček. Odtud Y =        (µ + α1) · 1n1 ... ... (µ + αa) · 1na        =        Y1 ... ... Ya        = HY =        1 n1 En1 0 · · · 0 0 ... ... ... ... ... ... 0 0 · · · 0 1 na Ena               Y1 ... ... Ya        =        Y 1 1n1 ... ... Y a 1na        takže odhad střední hodnoty je tvaru µ+αj = Y j . Přidáním dodatečné podmínky a j=1 njαj = 0, dostaneme odhad společné střední hodnoty µ = Y a pro j = 1, . . . , a odhad příspěvku j-té skupiny αj = Y j − Y Pokud platí nulová hypotéza H0, dostáváme minimální submodel M0, který vznikne ze základního modelu vypuštěním posledních a sloupců matice plánu, takže pokud vše vyjádříme maticově, máme Y = X0 β0 + ε. Vidíme, že jde o model plné hodnosti, ve kterém X0 = 1n, X′ 0X0 = 1′ n1n = n, X′ 0Y = 1′ nY = Y a ˆβ0 = (X′ 0X0)−1 X′ 0Y = 1 n Y = Y Pak H0 = X0(X′ 0X0)−1 X′ 0 = 1 n 1n1′ n = 1 n En a µ0 = Y0 = H0Y = 1 n EnY = Y 1n. Tedy součty kvadrátů odchylek Se = ε 2 =(Y−µ)′ (Y−µ)=(Y−Y)′ (Y−Y) = a j=1 (Yj −Y j 1nj )′ (Yj −Y j 1nj )= a j=1 nj i=1 (Yji−Y j )2 reziduální Se0= ST = ε0 2 =(Y−µ0)′ (Y−µ0)= a j=1 (Yj −Y 1nj )′ (Yj −Y 1nj )= a j=1 nj i=1 (Yji−Y )2 celkový S∆0= SA = ∆0 2 =(µ−µ0)′ (µ−µ0)= a j=1 (Y j 1nj −Y 1nj )′ (Y j 1nj −Y 1nj ) = a j=1 (Y j −Y )2 1′ nj 1nj = a j=1 nj(Y j −Y )2 mezi třídami =Se0 − Se ⇒ ST = SA + Se takže pokud platí model M , pak statistika FA = (Se0 −Se)/(a−1) Se/(n−a) ∼ F(a − 1, n − a) . 88 M5VM05 Statistické modelování Definice 2.4. Zavedeme součty čtverců: • Celkový součet čtverců (charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru), počet stupňů volnosti dfT = n − 1: ST = a i=1 ni j=1 Yij − Y 2 • Skupinový součet čtverců (charakterizuje variabilitu mezi jednotlivými náhodnými výběry), počet stupňů volnosti dfA = a − 1: SA = a j=1 nj Y j − Y 2 • Reziduální součet čtverců (charakterizuje variabilitu uvnitř jednotlivých výběrů), počet stupňů volnosti dfe = n − a: Se = a i=1 ni j=1 Yij − Y j 2 . Věta 2.5. Lze dokázat, že ST = SA + SE. Věta 2.6. Rozdíl mezi modely M a M0 ověřujeme pomocí testové statistiky FA = SA/dfA Se/dfe , která se řídí rozložením F(a − 1, n − a), je-li model M0 správný. Předcházející pojmy se shrnují v tabulce analýzy rozptylu Zdroj variability Součet čtverců Stupně volnosti Podíl SS df MS = SS df F = MS s2 Třídy SA dfa = a − 1 MSA = SA dfa FA = MSA MSe Reziduální Se dfe = n − a MSe = Se dfe – Celkový ST dfT = n − 1 – – Je-li konkrétní realizace statistiky FA (značíme malými písmeny fA) větší než (1−α)-kvantil F–rozdělení se stupni volnosti a − 1 a N − a, tj. fA > F1−α(a − 1, n − a), pak zamítáme nulovou hypotézu na hladině významnosti α. Bývá zvykem označovat v tabulce překročení kvantilu F0.95(a − 1, n − a) (tj. α = 0.05) označovat jednou hvězdičkou, dvě hvězdičky u α = 0.01 a tři hvězdičky u α = 0.001. Někdy se přidává sloupec s p-hodnotou, což je P(FA > fA). Mgr. Jan Koláček, Ph.D. 89 3. Bartlettův a Levenův test shody rozptylů Před provedením analýzy rozptylu je zapotřebí ověřit předpoklad o shodě rozptylů v daných a výběrech. Uvedeme zde dva testy – Levenův2 a Bartlettův3 . Věta 3.1 (Levenův test). Položme Zij = |Yij − Y i |. Označme: • Zi = 1 ni ni j=1 Zij • Z = 1 n a i=1 ni j=1 Zij • SZe = a i=1 ni j=1 Zij − Zi 2 • SZA = a i=1 ni Zi − Z 2 Platí-li hypotéza o shodě rozptylů, pak statistika FZ = SZA/(a − 1) SZe/(n − a) ∼ F(a − 1, n − a). H0 tedy zamítáme na hladině významnosti α, když FZ ≥ F1−α(a − 1, n − a). Věta 3.2 (Bartlettův test). Platí-li hypotéza o shodě rozptylů, pak statistika B = 1 C (n − a) ln S2 ∗ − a j=1 (nj − 1) ln S2 j ≈ χ2 (a − 1), kde C = 1 + 1 3(a − 1) a j=1 1 nj − 1 − 1 n − a , S2 ∗ = Se n − a . H0 zamítáme na asymptotické hladině významnosti α, když B ≥ χ2 1−α(a − 1, n − a). 4. Metody mnohonásobného porovnávání Zamítneme-li na hladině významnosti α hypotézu o shodě středních hodnot, chceme zjistit, které dvojice středních hodnot se liší na dané hladině významnosti α. Mají-li všechny výběry týž rozsah p (říkáme, že třídění je vyvážené), použijeme Tukeyovu4 metodu, nemajíli všechny výběry stejný rozsah, použijeme Scheffého5 metodu. 2Howard Levene (1914 — 2003). Profesor matematické statistiky a genetiky na Kolumbijské univerzitě. 3Maurice Stevenson Bartlett (1910 – 2002). Anglický matematik 4John Wilder Tukey (1915 – 2000). Americký matematik. 5Henry Scheffé (1907 – 1977). Americký matematik. 90 M5VM05 Statistické modelování Věta 4.1 (Tukeyova metoda). Rovnost středních hodnot µk a µl zamítneme na hladině významnosti α, když: Y k − Y l ≥ q1−α(a, n − a) S∗ √ p , kde q1−α(a, n − a) jsou kvantily studentizovaného rozpětí, které najdeme ve statistických tabulkách. Věta 4.2 (Scheffého metoda). Rovnost středních hodnot µk a µl zamítneme na hladině významnosti α, když: Y k − Y l ≥ S∗ (a − 1) 1 nk + 1 nl F1−α(a − 1, n − a). Poznámka 4.3. Může nastat situace, kdy při zamítnutí nulové hypotézy nenajdeme významný rozdíl u žádné dvojice středních hodnot. Pak je významně rozdílná některá složitější kombinace středních hodnot. Příklad 4.4. U čtyř odrůd brambor (označených symboly A, B, C, D) se zjišťovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky uvádí tabulka: odrůda hmotnost (v kg) A 0,9 0,8 0,6 0,9 B 1,3 1,0 1,3 C 1,3 1,5 1,6 1,1 1,5 D 1,1 1,2 1,0 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnota hmotnosti trsu brambor nezávisí na odrůdě. Zamítnete-li nulovou hypotézu, zjistěte, které dvojice odrůd se liší na hladině významnosti 0,05. Řešení. Data považujeme za realizace čtyř nezávislých náhodných výběrů ze čtyř normálních rozložení se stejným rozptylem. Testujeme hypotézu, že všechny čtyři střední hodnoty jsou stejné. Výpočtem získáme: y1 = 0, 8, y2 = 1, 2, y3 = 1, 4, y4 = 1, 1, y = 1, 14, Se = 0, 3, SA = 0, 816, ST = 1, 116, FA = 9, 97. Ze statistických tabulek získáme F0,95(3, 11) = 3, 59. Protože testová statistika se realizuje v kritickém oboru, zamítáme nulovou hypotézu na hladině významnosti 0,05. Výsledky zapíšeme do tabulky ANOVA: Zdroj variability Součet čtverců Stupně volnosti Podíl FA třídy SA = 0, 816 3 SA/3 = 0, 272 SA/3 SE/11 = 9, 97 reziduální SE = 0, 3 11 SE/11 = 0, 02727 — celkový ST = 1, 116 14 — — Nyní pomocí Scheffého metody zjistíme, které dvojice odrůd se liší na hladině významnosti 0,05. Mgr. Jan Koláček, Ph.D. 91 Srovnávané odrůdy Rozdíly |mk − ml| Pravá strana vzorce A, B 0,4 0,41 A, C 0,67 0,36 A, D 0,3 0,41 B, C 0,2 0,40 B, D 0,1 0,44 C, D 0,3 0,40 Na hladině významnosti 0,05 se liší odrůdy A a C. Poznámka 4.5. Význam předpokladů v analýze rozptylu • Nezávislost jednotlivých náhodných výběrů - velmi důležitý předpoklad, musí být splněn, jinak dostaneme nesmyslné výsledky. • Normalita – ANOVA není příliš citlivá na porušení normality, zvlášť pokud mají všechny výběry rozsah nad 20 (důsledek centrální limitní věty). Při výraznějším porušení se doporučuje Kruskalův – Wallisův test (viz např. [3]). • Shoda rozptylů – mírné porušení nevadí, při větším se doporučuje Kruskalův – Wallisův test. Test shody rozptylů má smysl provádět až po ověření předpokladu normality. 5. Kruskalův – Wallisův test Kruskalův6 – Wallisův7 test je neparametrická obdoba analýzy rozptylu jednoduchého třídění. Formulace problému Nechť je dáno a nezávislých náhodných výběrů o rozsazích n1, . . . , na. Předpokládáme, že tyto výběry pocházejí ze spojitých rozložení. Označme n = n1 + . . . + na. Chceme testovat hypotézu, že všechny tyto výběry pocházejí z téhož rozložení. Věta 5.1 (Kruskalův – Wallisův test). Všech n hodnot seřadíme do rostoucí posloupnosti a určíme pořadí každé hodnoty. Označme Tj součet pořadí těch hodnot, které patří do j-tého výběru, j = 1, . . . , a (kontrola: musí platit T1 + . . . + Ta = n(n + 1)/2). Testová statistika má tvar: Q = 12 n(n + 1) a j=1 T2 j nj − 3(n + 1). (18) Platí-li H0, má statistika Q asymptoticky rozložení χ2 (a − 1), rostou-li rozsahy výběrů nade všechny meze. H0 tedy zamítneme na asymptotické hladině významnosti α, když Q ≥ χ2 1−α(a − 1). 6. Více nezávislých náhodných výběrů z alternativních rozložení 6.1. Test homogenity binomických rozložení. Nechť Yj1, . . . , Yjnj ∼ A(θj), j = 1, 2, . . . , a jsou nezávislé náhodné výběry z alternativního rozložení. Testujeme hypotézu H0: θ1 = · · · = θa proti alternativní hypotéze H1: „alespoň jedna dvojice parametrů je různá . 6William Kruskal (1919 – 2005). Americký matematik. 7Wilson Allen Wallis (1912 – 1988). Americký matematik 92 M5VM05 Statistické modelování Věta 6.1. Statistika Q = 1 Y (1 − Y ) a j=1 nj Y j − Y 2 , má v případě platnosti nulové hypotézy asymptoticky rozložení χ2 (a−1). H0 tedy zamítáme na asymptotické hladině významnosti α, když Q ≥ χ2 1−α(a − 1). Poznámka 6.2. Test lze použít, pokud njy > 5 pro všechna j = 1, . . . , a. Poznámka 6.3. Statistiku Q lze snadno upravit do Brandtova8 – Snedecorova9 výpočetního tvaru Q = 1 Y (1 − Y ) a j=1 njY 2 j − n Y 1 − Y . (19) 6.2. Test homogenity binomických rozložení založený na arkussinusové transformaci. Není-li splněna podmínka njy > 5 pro všechna j = 1, . . . , a, doporučuje se následující postup: Věta 6.4. Označme • Aj = arcsin Y j • B = 1 n a j=1 njAj. Pak statistika Q = 4 a j=1 nj (Aj − B)2 ≈ χ2 (a − 1). H0 tedy zamítáme na asymptotické hladině významnosti α, když Q ≥ χ2 1−α(a − 1). 6.3. Mnohonásobné porovnávání. Zamítneme-li nulovou hypotézu na asymptotické hladině významnosti α, chceme zjistit, které dvojice parametrů θk a θl se liší. Věta 6.5. Platí-li nerovnost |Ak − Al| ≥ 1 8 1 nk + 1 nl · q1−α(a, ∞), pak na hladině významnosti α zamítáme hypotézu o shodě parametrů θk a θl. Poznámka 6.6. Hodnoty q1−α(a, ∞) jsou kvantily studentizovaného rozpětí. Najdeme je ve statistických tabulkách. Příklad 6.7. Na gymnázium bylo přijato 142 studentů. Ti byli náhodně rozděleni do tříd A, B, C, D. V každé třídě byla matematika vyučována jinou metodou. Na konci školního roku psali všichni studenti stejnou písemnou práci a byl zaznamenán počet těch studentů, kteří vyřešili všechny zadané úkoly. Třída A B C D Počet studentů 35 36 37 34 Počet úspěšných studentů 5 8 17 15 8Alva Esmond Brandt. Americký matematik. Pomohl vzniku katedry statistiky na Zemědělské fakultě Floridské univerzity. 9George Waddell Snedecor (1882 – 1974). Americký matematik. Mgr. Jan Koláček, Ph.D. 93 Na asymptotické hladině významnosti 0,05 testujte hypotézu, že rozdíly v podílech studentů v jednotlivých třídách, kteří správně vyřešili všechny zadané úlohy, jsou způsobeny pouze náhodnými vlivy. Řešení. Máme čtyři nazávislé náhodné výběry, j-tý pochází z rozložení A(θj), j = 1, 2, 3, 4. Testujeme hypotézu H0: θ1 = θ2 = θ3 = θ4. Ze zadání a výpočtem zjistíme: n1 = 35, n2 = 36, n3 = 37, n4 = 34, y1 = 5/35, y2 = 8/36, y3 = 17/37, y4 = 15/34, y = 45/142, Q = 12, 288, χ2 0,95(3) = 7, 81. Protože testové kritérium se realizuje v kritickém oboru, H0 zamítáme na asymptotické hladině významnosti 0,05. Spočteme arkussinusové transformace výběrových průměrů. Vyjde: A1 = 0, 3876, A2 = 0, 4909, A3 = 0, 7448, A4 = 0, 7264 Nyní metodou mnohonásobného porovnávání zjistíme, které dvojice parametrů se od sebe liší na hladině významnosti 0,05. Srovnávané třídy Rozdíly |Ak − Al| Pravá strana vzorce A, B 0,1033 0,30 A, C 0,3572 0,30 A, D 0,3388 0,31 B, C 0,2539 0,30 B, D 0,2356 0,31 C, D 0,0184 0,30 Na hladině významnosti 0,05 se liší třídy A, C a A, D. Úlohy k procvičení Cvičení 6.1. Jsou známy měsíční tržby (v tisících Kč) tří prodavačů za dobu půl roku. 1. prodavač 12 10 9 10 11 9 2. prodavač 10 12 11 12 14 13 3. prodavač 19 18 16 16 17 15 Na hladině významnosti 0,05 testujte hypotézu, že střední hodnoty tržeb všech tří prodavačů jsou stejné. Pokud zamítneme nulovou hypotézu, zjistěte, tržby kterých dvou prodavačů se liší na hladině významnosti 0,05. [Na hladině významnosti 0,05 se liší tržby prodavačů 1, 3 a 2, 3.] Cvičení 6.2. Naprogramujte funkci „anovabinom.R , která pro vstupní vektory nj (počet pozorování ve skupinách) a pj (počet „úspěchů ve skupinách) provede analýzu rozptylu pro binomická data. V případě zamítnutí nulové hypotézy vypíše indexy skupin, které se od sebe významně liší. Cvičení 6.3. 104 náhodně vybraných matek bylo dotázáno, zda jejich kojenec dostává dudlík. Zjišťoval se též nejvyšší stupeň dosaženého vzdělání matky. Vzdělání matky Počet matek Počet dětí s dudlíkem základní 39 27 středoškolské 47 34 vysokoškolské 18 15 94 M5VM05 Statistické modelování Na asymptotické hladině významnosti 0,05 testujte hypotézu, že podíly dětí s dudlíkem nezávisí na vzdělání matky. [nezávisí] Cvičení 6.4. Je dáno pět nezávislých náhodných výběrů o rozsazích 5, 7, 6, 8, 5, přičemž i-tý výběr pochází z rozložení N(µi, σ2 ), i = 1, . . . , 5. Byl vypočten celkový součet čtverců ST = 15 a reziduální součet čtverců Se = 3. Na hladině významnosti 0,05 testujte hypotézu o shodě středních hodnot. [n = 31, a = 5, SA = 12, fA = 26, F0,95(4, 26) = 2, 7426 Protože fA ≥ F0,95(4, 26), H0 zamítáme na hladině významnosti 0,05.] Cvičení 6.5. V proměnné „LakeHuron 10 jsou uloženy roční údaje o hloubce jezera Huron (ve stopách) v letech 1875 – 1972. Data proložte polynomem 8. stupně. Pomocí analýzy rozptylu zkoumejte možnosti zmenšení stupně regresního polynomu. [Možno jít na stupeň 7.] Cvičení 6.6. U 126 podniků řepařské oblasti v České Republice byl sledován hektarový výnos cukrovky ve vztahu ke spotřebě průmyslových hnojiv. Data jsou uložena v souboru „cukrovka.Rdata ve 4 sloupcích: (1) dolní hranice spotřeby K2O (kg/ha) (2) horní hranice spotřeby K2O (kg/ha) (3) četnosti (4) průměrné výnosy cukrovky (q/ha) a) odhadněte parametry regresní funkce tvaru y = β0 + β1x y = β0 + β1x + β2x2 Poznámka: Za hodnoty nezávisle proměnné volte střed intervalu. b) Porovnejte vhodnost použitých regresních modelů pomocí analýzy rozptylu. [Kvadratický model je významný.] 10datový soubor implementovaný v jazyce R KAPITOLA 7 Zobecněné lineární modely Základní informace (1) V následující kapitole se budeme zabývat statistickou analýzou vzájemných vztahů náhodných jevů, kde již nebude stačit předpokládat, že tyto vztahy lze popsat pomocí lineárních operací, ale budeme používat obecnějších modelů. Popíšeme obecně volbu optimálních parametrů modelu a uvedeme konkrétní příklady modelů. (2) Předpokládá se znalost základních pojmů z teorie lineárních regresních modelů a také některých pojmů z teorie odhadu – matice plánu, metoda nejmenších čtverců, testování hypotéz o parametrech modelu, analýza rozptylu, metoda maximální vě- rohodnosti Výstupy z výukové jednotky Studenti • definují hustotu exponenciálního typu • definují zobecněný lineární regresní model • vypočítají odhady neznámých parametrů metodou maximální věrohodnosti a testují hypotézy o těchto parametrech • definují škálovou deviaci modelu • testují hypotézy o vhodnosti submodelu 1. Motivace V reálném světě má mnoho procesů jiný, než lineární vztah závislosti. Např. v ekonomii se ukazuje, že mnoho vztahů má logaritmickou závislost, k vysvětlení procesů v přírodních vědách se užívají reciproké, mocninné i další vztahy. Vysvětlovaná veličina popisující pravděpodobnost přežití člověka, v případě určité nemoci a určitého způsobu léčby, může z definice pravděpodobnosti nabývat hodnot pouze z intervalu [0, 1], což by v případě klasického lineárního modelu bylo možné zajistit jen za přijetí určitých omezení na parametry modelu. Také normalita chyb je často nesplněným předpokladem klasického lineárního regresního modelu. Připomeňme, že normalita se vyznačuje nezávislosti střední hodnoty a rozptylu. Typicky např. u ekonomických veličin s rostoucí střední hodnotou obvykle roste rozptyl náhodné veličiny, přičemž náhodné chyby mají v těchto případech často nesymetrická, kladně sešikmená rozdělení. Klasický lineární regresní model je tedy sice velmi důležitým stochastickým modelem, avšak má celou řadu omezení. Je omezen pouze na třídu normálních rozdělení a předpokládá striktní rovnost mezi střední hodnotou náhodné veličiny Y a lineární kombinací prediktorů. Je však možné provést určitá zobecnění tohoto klasického lineárního modelu a tím se bude zabývat následující kapitola. Poznámka 1.1. Většina textu v této kapitole byla převzata z [5]. Pro podrobnější studium tohoto tématu proto odkazujeme na tento zdroj. 95 96 M5VM05 Statistické modelování 2. Základní pojmy a definice 2.1. Maximálně věrohodné odhady. Uveďme nejprve pár nezbytných definic a pojmů nezbytných k dalším úvahám. Definice 2.1. Mějme parametrický prostor Θ ⊂ Rm . Řekneme, že systém mparametrických hustot Fm reg = {f(y; θ) : θ = (θ1, . . . , θm)′ ∈ Θ} je regulární, jestliže platí (1) Θ ⊂ Rm je otevřená borelovská množina. (2) Množina M = {y ∈ Rn : f(y; θ) > 0} nezávisí na parametru θ. (3) Pro každé y ∈ M existuje konečná parciální derivace f′ i (y; θ) = ∂f(y; θ) ∂θi (i = 1, . . . , m). (4) Pro všechny θ = (θ1, . . . , θm)′ ∈ Θ platí M f′ i (y; θ) f(y; θ) dF(y; θ) = M ∂ ln f(y; θ) ∂θi dF(y; θ) = 0 i = 1, . . . , m, kde F(y; θ) je odpovídající distribuční funkce. (5) Pro všechny θ = (θ1, . . . , θm)′ ∈ Θ je integrál Jij(θ) = M ∂ ln f(y; θ) ∂θi ∂ ln f(y; θ) ∂θj dF(y; θ) i, j = 1, . . . , m konečný a matice J = J(θ) = (Jij(θ))m i,j=1 je pozitivně definitní. Matice J se nazývá Fisherova informační matice o parametru θ. Poznámka 2.2. Pro jednoduchost někdy hovoříme o regularitě f(y; θ), ne o regularitě systému hustot. Definice 2.3. Nechť f ∈ Fm reg. Pak náhodný vektor U = U(θ) = (U1(θ), . . . , Um(θ))′ se složkami Ui = Ui(θ) = ∂ ln f(Y; θ) ∂θi se nazývá skórový vektor příslušný hustotě f. Věta 2.4. (1) Je-li f ∈ Fm reg a pro i, j = 1, . . . , m existují f′′ ij(y; θ) = ∂2 f(y; θ) ∂θi∂θj , pak EU(θ) = 0 a DU(θ) = J(θ) . (2) Platí-li navíc pro i, j = 1, . . . , m E f′′ ij(Y; θ) f(Y; θ) = 0, pak J(θ) = −E(U′ (θ)), kde U′ (θ) = ∂Ui(θ) ∂θj m i,j=1 . Mgr. Jan Koláček, Ph.D. 97 V dalším budeme uvažovat náhodný výběr Yn = (Y1, . . . , Yn)′ z rozdělení s regulární hustotou f ∈ Fm reg. Označme M = {y ∈ R : f(y; θ) > 0}. Pak sdružená (simultánní) hustota náhodného vektoru Yn = (Y1, . . . , Yn)′ je rovna fYn (y; θ) = n i=1 f(yi, θ), y = (y1, . . . , yn)′ ∈ Rn , neboť náhodný výběr je tvořen systémem nezávislých náhodných veličin. Zaveďme následující značení pro: funkce: lk = l(θ; yk) = ln f(yk; θ) l∗ n = l∗ n(θ; y) = ln fYn (y; θ) náhodné vektory: Uk = Uk(θ) = (U1,k(θ), . . . , Um,k(θ))′ = ∂ ln f(Yk;θ) ∂θ1 , . . . , ∂ ln f(Yk;θ) ∂θm ′ U∗ n = U∗ n(θ) = (U∗ 1 (θ), . . . , U∗ m(θ))′ = ∂ ln fYn (Y;θ) ∂θ1 , . . . , ∂ ln fYn (Y;θ) ∂θm ′ maticové funkce: J = J(θ) = (Jij(θ))m i,j=1 = M ∂ ln f(y;θ) ∂θi ∂ ln f(y;θ) ∂θj dF(y; θ) m i,j=1 Jn = Jn(θ) = M · · · M ∂ ln fYn (y;θ) ∂θi ∂ ln fYn (y;θ) ∂θj dFY(y; θ) m i,j=1 Věta 2.5. Uvažujme náhodný výběr Yn = (Y1, . . . , Yn)′ z rozdělení s hustotou f ∈ Fm reg. (1) Pokud pro i, j = 1, . . . , m existují f′′ ij(y; θ) = ∂2 f(y; θ) ∂θi∂θj , pak EU∗ n(θ) = 0 a DU∗ n(θ) = nJ(θ) . (2) Platí-li navíc pro i, j = 1, . . . , m E f′′ ij(Y ; θ) f(Y ; θ) = 0, (tj. f je regulární i v 2. derivacích), pak E(U∗′ n (θ)) = −nJ(θ), kde U∗′ n (θ) = ∂U∗ i (θ) ∂θj m i,j=1 . Následující věta uvádí asymptotické vlastnosti skórových vektorů náhodných výběrů. 98 M5VM05 Statistické modelování Věta 2.6. Mějme náhodný výběr Yn = (Y1, . . . , Yn)′ z rozdělení s regulární hustotou f ∈ Fm reg. Označme M = {y ∈ R : f(y; θ) > 0}. Nechť pro všechna y ∈ M, θ ∈ Θ a i, j = 1, . . . , m existují druhé parciální derivace hustoty f(y; θ). (1) Pak platí 1 √ n U∗ n(θ) A ∼ Nm(0, J(θ)) nebo ekvivalentně U∗ n(θ) A ∼ Nm(0, Jn(θ)). Dále platí 1 n U∗ n(θ)′ J(θ)−1 U∗ n(θ) A ∼ χ2 (m) nebo U∗ n(θ)′ Jn(θ)−1 U∗ n(θ) A ∼ χ2 (m). (2) Platí-li navíc, že f je regulární i v 2.derivacích, tj. E f′′ ij(Y ; θ) f(Y ; θ) = 0, pak matice náhodných veličin 1 n U∗′ n (θ) = 1 n ∂U∗ i (θ) ∂θj m i,j=1 = 1 n ∂2 ln(θ; Y) ∂θi∂θj m i,j=1 s.j. −→ −J(θ), nebo ekvivalentně U∗′ n (θ) s.j. −→ −Jn(θ). V dalším budeme uvažovat pouze regulární hustoty, tj. f(y; θ) ∈ Fm reg, y ∈ Rn . Definice 2.7. (a) Věrohodnostní funkcí rozumíme funkci vektorového parametru θ L(θ; y) = f(y; θ) (b) logaritmickou věrohodnostní funkcí nazýváme funkci l(θ; y) = ln L(θ; y) (c) Řekneme, že odhad θMLE = θMLE(Y) je maximálně věrohodný odhad (MLE) vektorového parametru θ, pokud platí L(θMLE; Y) ≥ L(θ; Y) pro všechna θ ∈ Θ. V poslední větě této části uveďme důležité vlastnosti, které se týkají asymptotického rozdělení maximálně věrohodných odhadů. Věta 2.8. Mějme náhodný výběr Yn = (Y1, . . . , Yn)′ z rozdělení s regulární hustotou f ∈ Fm reg. Označme M = {y ∈ R : f(y; θ) > 0}. Nechť pro všechna y ∈ M, θ ∈ Θ a i, j = 1, . . . , m existují druhé parciální derivace hustoty f(y; θ) a platí E f′′ ij(Y ;θ) f(Y ;θ) = 0. Pak (1) θMLE A ∼ Nm(θ, Jn(θ)−1 ) nebo ekvivalentně √ n(θMLE − θ) A ∼ Nm(0, J(θ)−1 ) (2) W = (θMLE − θ)′ Jn(θ)(θMLE − θ) A ∼ χ2 (m) , tzv. Waldova statistika. 2.2. Exponenciální třída rozdělení pravděpodobností. Přirozenou třídou hustot, se kterými budeme dále pracovat, je třída hustot exponenciálního typu. Uveďme nejprve její definici. Mgr. Jan Koláček, Ph.D. 99 Definice 2.9. Řekneme, že pozorování pochází z rozdělení exponenciálního typu, pokud jeho pravděpodobnostní funkce (v případě diskrétních rozdělení) či hustota (v případě spojitých rozdělení) je tvaru f(y) = exp{a(y)b(θ) + c(θ) + d(y)}, kde θ je (neznámý) tzv. přirozený parametr a a(y), b(θ), c(θ), d(y) jsou známé funkce. Pokud • a(y) = y, říkáme že pravděpodobnostní funkce, popř. hustota je v kanonické formě. • v konkrétním rozdělení figurují další neznámé parametry, nazveme je tzv. rušivými parametry. V dalším budeme uvažovat pouze regulární a kanonické formy spolu s podmínkou b(θ) = θ a přitom zavedeme do označení jeden rušivý parametr φ : f(y) = exp yθ−γ(θ) ψ(φ) + d(y, φ) , kde θ a φ jsou parametry γ(θ), ψ(φ) > 0, d(y) jsou známé funkce, a pokud ψ(φ) = φ ω > 0, φ > 0 je tzv. faktor měřítka (scale factor) ω > 0 je známá apriorní váha. Tato forma se také nazývá škálovou formou hustoty exponenciálního typu. Poznámka 2.10. Jestliže neplatí b(θ) = θ, stačí provést jednoduchou reparametrizaci a zavést případně nový parametr θ∗ = b(θ), který se pak nazývá kanonickým parametrem. Lemma 2.11. Mějme náhodnou veličinu Y z rozdělení s regulární hustotou f exponenciálního typu: f(y) = exp yθ − γ(θ) ψ(φ) + d(y, φ) . (20) Pak EY = γ′ (θ) Nechť navíc platí E f′′ (Y ; θ) f(Y ; θ) = 0, (21) kde f′′ (Y ; θ) = d2f(Y ;θ) dθ2 , pak DY = γ′′ (θ)ψ(φ) Funkce γ′′ (θ) = DY ψ(φ) se nazývá rozptylovou funkcí (variance function). Příklady rozdělení exponenciálního typu Příklad 2.12 (Normální rozdělení). Mějme Y ∼ N(µ, σ2 ), µ ∈ R, σ2 > 0. 100 M5VM05 Statistické modelování Pak f(y) = 1√ 2πσ2 exp −1 2 y−µ σ 2 = exp    yµ− γ(θ) 1 2 µ2 σ2 ψ(φ) − 1 2 y2 σ2 − 1 2 ln 2πσ2 d(y,φ)    a γ(θ) = 1 2 µ2 = 1 2 θ2 ⇒ γ′ (θ) = θ = µ ⇒ γ′′ (θ) = 1 ψ(φ) = σ2 ⇒ φ = σ2 . Skutečně platí EY = γ′ (θ) = µ a DY = γ′′ (θ)ψ(φ) = σ2 . Tedy přirozený parametr θ = µ scale factor φ = σ2 rozptylová funkce V (µ) = 1 váhy ω = 1. Příklad 2.13 (Binomické rozdělení). Mějme Z = nY ∼ Bi(n, π), n ∈ N, π ∈ (0, 1). pak fZ(z) = n z πz (1 − π)n−z = exp z ln π 1−π + n ln(1 − π) + ln n z pro z = 0, . . . , n, přičemž EZ = µ = nπ a DZ = nπ(1 − π). Pravděpodobnostní funkce není ve škálové formě, proveďme reparametrizaci θ = ln π 1−π = ln nπ n−nπ = ln µ n−µ ⇒ π = eθ 1+eθ a 1 − π = 1 1+eθ . Tedy fZ(z) = exp    zθ − n ln 1 + eθ γ(θ) + ln n z d(y,φ)    a γ(θ) = n ln 1 + eθ ⇒ γ′ (θ) = n eθ 1+eθ = nπ = µ ⇒ γ′′ (θ) = n eθ (1+eθ)2 = nπ(1 − π) = µ 1 − µ n ψ(φ) = φ ω = 1 ⇒ ω = 1 φ = 1 Skutečně platí EZ = γ′ (θ) = µ a DZ = γ′′ (θ)ψ(φ) = nπ(1 − π). Tedy přirozený parametr θ = ln µ n−µ rozptylová funkce V (µ) = µ 1 − µ n scale factor φ = 1 váhy ω = 1. Mgr. Jan Koláček, Ph.D. 101 Poznámka 2.14. Je třeba poznamenat, že ve vztahu γ(θ) = n ln 1 + eθ se vedle parametru θ vyskytuje i parametr n, který je však vždy znám. Abychom dostáli úvodní definici (20), proto ho nebudeme považovat za rušivý parametr, ale za známou konstantu. Tomuto problému se lze vyhnout, když přejdeme od absolutních četností Z k relativním četnostem Y . V případě, že uvažuje místo absolutních relativní četnosti: Y = Z n je pravděpodobnostní funkce nenulová pro y ∈ {0, 1 n , 2 n , . . . , 1} a je tvaru fY (y) = n ny πny (1 − π)n−ny = exp y ln( π 1−π )+ln(1−π) 1/n + ln n ny a EY = µ = π a DY = π(1−π) n . Pravděpodobnostní funkce není ve škálové formě, proveďme reparametrizaci θ = ln π 1−π ⇒ π = eθ 1+eθ a 1 − π = 1 1+eθ Tedy fY (y) = exp    yθ− γ(θ) ln 1 + eθ 1/n ψ(φ) + ln n ny d(y,φ)    a γ(θ) = ln 1 + eθ ⇒ γ′ (θ) = eθ 1+eθ = π = µ ⇒ γ′′ (θ) = eθ (1+eθ)2 = π(1 − π) ψ(φ) = φ ω = 1 n ⇒ ω = n φ = 1 Skutečně platí EY = γ′ (θ) = µ DY = γ′′ (θ)ψ(φ) = π(1−π) n , Tedy přirozený parametr θ = ln µ 1−µ rozptylová funkce V (µ) = µ(1 − µ) scale factor φ = 1 váhy ω = n. Příklad 2.15 (Poissonovo rozdělení). Mějme Y ∼ Po(λ), λ > 0 pak f(y) = λye−λ y! = exp {y ln λ − λ − ln y!} y = 0, 1, 2, . . . přičemž EY = µ = λ a DY = λ. Protože pravděpodobnostní funkce není ve škálové formě, proveďme reparametrizaci θ = ln λ ⇒ λ = eθ 102 M5VM05 Statistické modelování a f(y) = exp    yθ − eθ γ(θ) − ln y! d(y,φ)    γ(θ) = eθ ⇒ γ′ (θ) = eθ = λ = µ ⇒ γ′′ (θ) = eθ = λ = µ ψ(φ) = φ ω = 1 ⇒ ω = 1 φ = 1 Skutečně platí EY = γ′ (θ) = λ = µ a DY = γ′′ (θ)ψ(φ) = eθ = λ = µ, Tedy přirozený parametr θ = ln λ rozptylová funkce V (µ) = µ scale factor φ = 1 váhy ω = 1. Příklad 2.16 (Gamma rozdělení). Mějme Y ∼ G(α, β), α > 0, β > 0. Pak f(y) = 1 Γ(α)βα yα−1 e− y β y > 0 přičemž EY = αβ a DY = αβ2 . Tento tvar hustoty je však pro nás nevhodný (ve střední hodnotě máme rušivý parametr α), proto uvažujme reparametrizaci µ = αβ ⇒ β = µ α , pak f(y) = 1 Γ(α) α µ α yα−1 e− α µ y = exp y(− 1 µ )−ln µ 1 α + α ln α + (α − 1) ln y − ln Γ(α) přičemž EY = µ a DY = µ2 α . Hustota není v kanonickém tvaru, proto parametrizujme θ = −1 µ ⇒ µ = −1 θ pak f(y) = exp    yθ− γ(θ) ln(− 1 θ ) 1 α + α ln α + (α − 1) ln y − ln Γ(α) d(y,φ)    a γ(θ) = ln(µ) = ln(−1 θ ) ⇒ γ′ (θ) = − θ θ2 = −1 θ = µ ⇒ γ′′ (θ) = 1 θ2 = µ2 ψ(φ) = φ ω = 1 α ⇒ ω = 1 φ = 1 α Skutečně platí EY = γ′ (θ) = µ a DY = γ′′ (θ)ψ(φ) = µ2 α = α2β2 α = αβ2 Tedy přirozený parametr θ = −1 µ Mgr. Jan Koláček, Ph.D. 103 rozptylová funkce V (µ) = µ2 scale factor φ = 1 α váhy ω = 1. Příklad 2.17 (Exponenciální rozdělení). Exponenciální rozdělení je speciálním případem gamma rozdělení Y ∼ Ex(λ) ≡ G(1, λ). Pak f(y) = 1 λ e− y λ = exp{−1 λ y − ln λ} y > 0, přičemž EY = µ = λ a DY = λ2 . Hustota není v kanonickém tvaru, proto parametrizujme θ = −1 λ ⇒ λ = −1 θ Tedy f(y) = exp    yθ − =γ(θ) ln(− 1 θ )    a γ(θ) = ln(µ) = ln(−1 θ ) ⇒ γ′ (θ) = −1 θ = λ = µ ⇒ γ′′ (θ) = 1 θ2 = λ2 = µ2 ψ(φ) = φ ω = 1 ⇒ ω = 1 φ = 1 Skutečně platí EY = γ′ (θ) = µ a DY = γ′′ (θ)ψ(φ) = µ2 = λ2 tj. jde o regulární systém hustot a navíc platí podmínka (21). Tedy přirozený parametr θ = −1 µ rozptylová funkce V (µ) = µ2 scale factor φ = 1 váhy ω = 1. 3. Definice jednorozměrného GLM 3.1. Omezení klasického lineárního regresního modelu. Mějme klasický lineární regresní model plné hodnosti Y = Xβ + ε ∧ h(X) = h(X′ X) = k ∧ n > k ∧ ε ∼ Nn(0, σ2 In), kde Y = (Y1, . . . , Yn)′ je vektor závisle proměnných, X = (xij) je matice plánu, (i = 1, . . . , n; j = 1, . . . , k) ε = (ε1, . . . , εn)′ je vektor chyb, přičemž Eε = 0; Dε = σ2 In. Když se podíváme na tento model blíže, zjistíme, že se skládá ze dvou částí: Systematická (signální) část vyjadřuje lineární vztah pro střední hodnotu a neznámé parametry βj, tj. EYi = µi = x′ iβ. 104 M5VM05 Statistické modelování Tato část je obvykle cílem zkoumání, snažíme se pomocí ní maximálně možně vysvětlit chování náhodné veličiny Yi a zjistit skrze parametry βj velikost a znaménko závislosti na vysvětlujících veličinách xi. V reálném světě má mnoho procesů jiný, než lineární vztah závislosti. Např. v ekonomii se ukazuje, že mnoho vztahů má logaritmickou závislost, k vysvětlení procesů v přírodních vědách se užívají reciproké, mocninné i další vztahy. Vysvětlovaná veličina popisující pravděpodobnost přežití člověka, v případě určité nemoci a určitého způsobu léčby, může z definice pravděpodobnosti nabývat hodnot pouze z intervalu [0, 1], což by v případě klasického lineárního modelu bylo možné zajistit jen za přijetí omezení na estimátor β. Náhodná část je reprezentovaná náhodnými chybami εi, které shrnují v sobě všechny ostatní vlivy, působící na Yi, kromě již uvedených v systematické části. Rozdělení náhodných veličin εi je závislé na rozdělení Yi a má tvar εi ∼ N(0, σ2 ), kde εi jsou nezávislé. Právě normalita chyb je často nesplněným předpokladem klasického lineárního regresního modelu. Připomeňme, že normalita se vyznačuje nezávislosti střední hodnoty a rozptylu. Typicky např. u ekonomických veličin s rostoucí střední hodnotou obvykle roste rozptyl náhodné veličiny, přičemž náhodné chyby mají v těchto případech často nesymetrická, kladně sešikmená rozdělení. Shrneme-li předchozí, můžeme říci, že klasický lineární regresní model je sice velmi důležitým stochastickým modelem, avšak má celou řadu omezení: • Je omezen pouze na třídu normálních rozdělení: Yi ∼ N(µi, σ2 ) i = 1, . . . , n, kde Y = (Y1, . . . , Yn)′ tvoří náhodný výběr. • Předpokládá striktní rovnost mezi střední hodnotou náhodné veličiny Yi a lineární kombinací prediktorů: EYi = µi = x′ iβ, kde xi = (xi1, . . . , xik)′ je vektor prediktorů a β = (β1, . . . , βk) je vektor neznámých parametrů. Je však možné provést zobecnění tohoto klasického lineárního modelu dvěma směry: (1) Zobecnění na nenormální rozdělení, a to na tzv. třídu exponenciálních rozdělení (2) Zobecnění na nelineární funkce, které spojují neznámé střední hodnoty výchozího rozdělení náhodné veličiny Yi s prediktivními proměnnými. 3.2. Definice jednorozměrného GLM. Předchozí pasáž nám poskytla motivaci pro hledání obecnějšího modelu, než je model lineární. Uveďme nyní již samotnou definici zobecněného lineárního modelu a poté několik příkladů pro lepší názornost. Mgr. Jan Koláček, Ph.D. 105 Definice 3.1 (Zobecněný lineární model). Mějme náhodný výběr Y = (Y1, . . . , Yn)′ a nechť rozdělení Yi závisí na pevných vektorech xi = (xi1, . . . , xik)′ ∈ Rk prostřednictvím neznámého vektoru parametrů β = (β1, . . . , βk)′ . Matice X = (x′ 1, . . . , x′ n) ′ má rozměr n × k a hodnost k < n. Říkáme, že Y = (Y1, . . . , Yn)′ se řídí zobecněným lineárním modelem (Generalized Linear Model), jestliže dále platí: (1) rozdělení Y = (Y1, . . . , Yn)′ je exponenciálního typu s regulární hustotou tvaru f(y, θ) = n i=1 f(yi, θi) = exp n i=1 yiθi − γ(θi) ψi(φ) + d(yi, φ) (22) (2) parametr θi závisí na xi a β prostřednictvím parametru ηi = x′ iβ , (23) který nazveme lineární prediktor. (3) Existuje známá ryze monotónní diferencovatelná funkce g , tzv. linkovací funkce (link function), a platí ηi = g(µi) µi = g−1 (ηi) , kde µi = µ(θi) = EYi. (24) Řekneme, že linkovací funkce je kanonická, pokud θi = ηi = g(µi). Matici X = (x′ i)n i=1 nazýváme maticí plánu. Příklad 3.2. Regresní přímka v klasickém lineárním regresním modelu: Yi ∼ N(µi, σ2 ) jsou pro i = 1, . . . , n nezávislé náhodné veličiny, g(µi) = µi = β1 + β2xi je identická linkovací funkce, β1, β2 a σ2 jsou neznámé parametry (přičemž σ2 je rušivým parametrem) a xi jsou známé kovariáty. Příklad 3.3. Regresní modely s logaritmickou linkovací funkcí pro exponenciálně a gamma rozdělené závisle proměnné: Yi ∼ Ex(λi) ≡ G(1, λi) jsou pro i = 1, . . . , n nezávislé náhodné veličiny (EYi = µi = λi), g(µi) = ln µi = β1 + β2xi je logaritmická linkovací funkce, β1, β2 jsou neznámé parametry a xi jsou známé kovariáty. 106 M5VM05 Statistické modelování vým parametrem) a xi jsou známé kovariáty. −1 −0.5 0 0.5 1 1.5 −4 −2 0 2 4 6 X Y Obrázek 1: Ukázka klasického regresního modelu s homogenním rozptylem. −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 0 2 4 6 8 10 12 14 16 18 20 22 X Y Obrázek 2: Ukázka GLM modelu s linkovací funkcí g(µ) = ln µ pro exponenciálně rozdělenou náhodnou veličinu Y . Jestliže Yi ∼ G(α, βi = µi α ) jsou pro i = 1, . . . , n nezávislé náhodné veličiny (EYi = µi = αβi), g(µi) = ln µi = β1 + β2xi je logaritmická linkovací funkce, β1, β2 a α = 1 φ jsou neznámé parametry (α je rušivý parametr) a xi jsou známé kovariáty. Příklad 3.4. Poissonovská regrese: Yi ∼ Po(µi) jsou pro i = 1, . . . , n nezávislé náhodné veličiny (EYi = µi), g(µi) = ln µi = β1 + β2xi je logaritmická linkovací funkce, β1, β2 jsou neznámé parametry a xi jsou známé kovariáty. Mgr. Jan Koláček, Ph.D. 107 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 0 2 4 6 8 10 12 14 16 18 X Y Obrázek 3: Ukázka GLM modelu s linkovací funkcí g(µ) = ln µ pro náhodnou veličinu Y s gamma rozdělením. 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 5 10 15 20 25 30 35 40 45 X Y Obrázek 4: Ukázka poissonovské regrese s linkovací funkcí g(µ) = ln µ. Příklad 3.5. Binomická regrese: Yi ∼ Bi(ni, πi) jsou pro i = 1, . . . , n nezávislé náhodné veličiny, kde g(πi) = ln πi 1 − πi je logistická linkovací funkce, β1, β2 jsou neznámé parametry a xi jsou známé kovariáty. Například ve farmaceutickém experimentu může být ni počet pacientů, kterým byla podána dávka xi nového léku a Yi počet pacientů dávající pozitivní odpověď na danou dávku xi nového léku. Jestliže pozorujeme, že Yi ni roste spolu s xi, hledáme model, ve kterém πi je funkcí xi, hodnot 0 < πi < 1. Proto model πi = β1 + β2xi není vhodný, avšak β1 + β2xi = ln πi 1−πi obvykle pracuje dobře. 108 M5VM05 Statistické modelování −3 −2 −1 0 1 2 3 4 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 X Y/n Obrázek 5: Ukázka binomické regrese s linkovací funkcí g(π) = ln πi 1−πi . Příklad 3.6. Kontingenční tabulky: Yij ∼ Mn(n, πij) jsou pro i = 1, . . . , I, j = 1, . . . , J, n = I · J, I i=1 J j=1 πij = 1 nezávislé náhodné veličiny, například počet lidí i-té etnické skupiny, kteří volí politickou stranu j. Snahou bude testovat hypotézu H0 : πij = αiβj pro všechna i, j, kde αi, βj jsou neznámé parametry, I i=1 αi = 1 a J j=1 βj = 1, tj. chceme testovat hypotézu, že volba strany a etnická příslušnost jsou nezávislé. Připomeňme, že µij = EYij = nπij takže ln Yij n = ln πij a za platnosti hypotézy H0 ln πij = ln αi + ln βj ekvivalentně g (µij) = ln µij = constij + ai + bj pro nějaké constij, ai, bj. 4. Odhady neznámých parametrů v GLM 4.1. Maximálně věrohodné odhady. Všimněme si, že rozdělení náhodných veličin Yi jsou stejného typu a logaritmus sdružené věrohodnostní funkce má tvar l∗ (θ; y) = l∗ (θ1, . . . , θn; y1, . . . , yn) = n i=1 li(θi; yi) = n i=1 yiθi − γ(θi) ψi(φ) + d(yi, φ) . Mgr. Jan Koláček, Ph.D. 109 Věta 4.1. Mějme náhodný výběr Y = (Y1, . . . , Yn)′ , který se řídí zobecněným lineárním modelem s linkovací funkcí g(µi) = x′ iβ = ηi i = 1, . . . , n. Předpokládejme, že pro i = 1, . . . , n existují příslušné derivace γ′ (θi), γ′′ (θi) a platí EYi = µi = γ′ (θi) DYi = γ′′ (θi)ψi(φ). Pak U∗ j = U∗ j (β) = n i=1 xij(Yi − µi) DYi ∂µi ∂ηi (25) a J∗ jk = J∗ jk(β) = n i=1 xijxik DYi ∂µi ∂ηi 2 , (26) což lze zapsat maticově U∗ n = U∗ n(β) = (U∗ 1 , . . . , U∗ m)′ = X′ W(β)Q(β)r(β) = X′ WQr (27) a Jn = Jn(β) = J∗ jk m j,k=1 = X′ W(β)X = X′ WX , (28) kde r = r(β) = (r1(β), . . . , rn(β))′ ri = ri(β) = Yi − µi = Yi − g−1 (x′ iβ) W = W(β) = diag{w1(β), . . . , wn(β)} wi = wi(β) = 1 DYi ∂µi ∂ηi 2 Q = Q(β) = diag{q1(β), . . . , qn(β)} qi = qi(β) = ∂ηi ∂µi . Odhad neznámých parametrů metodou maximální věrohodnosti dostaneme řešením rovnic typu ∂l∗ ∂β = U∗ n(β) = 0 Aby šlo o maximum, je nutné, aby matice druhých parciálních derivací logaritmické věrohodnostní funkce podle složek parametru β byla negativně definitní. Podle věty 2.6 konverguje matice druhých parciálních derivací skoro jistě k matici −Jn, která je při regularitě systému hustot negativně definitní. Aproximujeme-li proto matici ∂U∗ n(β) ∂β maticí −Jn, je řešení systému předešlých rovnic maximálně věrohodným odhadem parametru β. Nyní se vraťme k řešení věrohodnostních rovnic. Protože obecně rovnice U∗ j = ∂l∗ ∂βj = n i=1 ∂li ∂βj = n i=1 xij(Yi − µi) DYi ∂µi ∂ηi = 0 j = 1, . . . , m. nejsou lineární vzhledem k neznámým parametrům, musí se řešit numerickou iterací. 4.2. Newtonova – Raphsonova metoda. Chceme-li najít řešení systému nelineárních rovnic U∗ n(β) = 0, lze použít následující iterativní postup: (1) Nejprve provedeme linearizaci pomocí Taylorova rozvoje v okolí bodu β0, kde β0 je nějaký počáteční odhad: U∗ n(β) ≈ U∗ n(β0)+U∗′ n (β0)(β−β0). Protože U∗ n(β) = 0, pak po jednoduchých úpravách dostaneme β ≈ β0 − U∗′ n (β0) −1 U∗ n(β0). 110 M5VM05 Statistické modelování (2) Odhady parametrů v s-tém kroku jsou získány ze vztahu β (s) = β (s−1) − U∗′ n β (s−1) −1 U∗ n β (s−1) . (3) Iterační proces popsaný v předchozím bodě pokračuje tak dlouho, dokud β (s+1) − β (s) ≈ 0. 4.3. Metoda skórování. Alternativní procedurou k Newtonově – Raphsonově metodě je tzv. metoda skórování, kdy se matice druhých parciálních derivací U∗′ n (β) nahradí její střední hodnotou, tj. maticí −Jn(β), kde Jn(β), je informační matice. Druhý iterační krok pak upravíme takto: β (s) = β (s−1) + Jn(β (s−1) ) −1 U∗ n(β (s−1) ). Jednoduchou úpravou dostaneme Jn(β (s−1) )β (s) = Jn(β (s−1) )β (s−1) + U∗ n(β (s−1) ). Využijme vztahů: U∗ n(β) = X′ W(β)Q(β)r(β) a Jn(β) = X′ W(β)X a dále upravujme X′ W(β (s−1) )Xβ (s) = X′ W(β (s−1) )Xβ (s−1) + X′ W(β (s−1) )Q(β (s−1) )r(β (s−1) ) = X′ W(β (s−1) ) Xβ (s−1) + Q(β (s−1) )r(β (s−1) ) Z(β (s−1) ) přičemž pro i = 1, . . . , n Zi(β (s−1) ) = x′ iβ (s−1) + r (s−1) i q (s−1) i = m j=1 xij ˆβ (s−1) j + Yi − ˆµ (s−1) i ∂ˆη (s−1) i ∂ˆµ (s−1) i . Můžeme psát X′ W(β (s−1) )Xβ (s) = X′ W(β (s−1) )Z(β (s−1) ) nebo X′ W(s−1) Xβ (s) = X′ W(s−1) Z(s−1) , kde W(s−1) = diag{w (s−1) 1 , . . . , w(s−1) n } a w (s−1) i = 1 DY (s−1) i ∂ˆµ (s−1) i ∂ˆη (s−1) i 2 = ωi φV(ˆµ (s−1) i ) q (s−1) i 2 , kde DY (s−1) i = ψ(φ)V ˆµ (s−1) i = φ ωi V(ˆµ (s−1) i ). Jde o obdobu vážené metody nejmenších čtverců a v tomto případě mluvíme o iterační vážené metodě nejmenších čtverců. Mgr. Jan Koláček, Ph.D. 111 5. Testování hypotéz v GLM modelech Statistické modely jsou obvykle konstruovány s cílem rozhodnout o předem definované hypotéze a tuto přijmout či vyvrátit. Věta 5.1. Mějme náhodný výběr Yn = (Y1, . . . , Yn)′ , který se řídí zobecněným lineárním modelem s maticí vysvětlujících proměnných Xn×k. Předpokládejme, že pro i = 1, . . . , n existují příslušné derivace γ′ (θi), γ′′ (θi) a platí EYi = µi = γ′ (θi) DYi = γ′′ (θi)ψi(φ). Dále mějme matici Ck×q s hodností h(C) = q < k. Platí-li hypotéza: H0 : C′ β = 0, pak Waldova statistika W = β ′ MLEC C′ Jn(β)−1 C −1 C′ βMLE A ∼ χ2 (q), kde βMLE je maximálně věrohodným odhadem vektorového parametru β. Poznámka 5.2. Hypotézu H0 : C′ β = 0 zamítáme na hladině významnosti α, pokud platí W > χ2 1−α(q). Protože odhad βMLE konverguje za předpokladu existence E(l∗ (β)) skoro jistě k β, aproximujeme při výpočtu Waldovy statistiky W Fisherovou informační matici Jn(β) maticí Jn(βMLE). Poznámka 5.3. Testovat hypotézu H0 : βj = 0 pro j = 1, . . . , k lze více způsoby: • Pomocí Waldovy statistiky W, a to při speciální volbě C = ck×1 = (0, . . . , j 1, . . . , 0)′ . • Pomocí vztahu ˆβMLE,j A ∼ N βj, s⋆ jj = Jn(β)−1 jj , přičemž hypotézu zamítáme, pokud |ˆβMLE,i| s⋆ jj > u1− α 2 , kde opět Fisherovou informační matici Jn(β) aproximujeme maticí Jn(βMLE). 6. Ověřování vhodnosti modelu 6.1. Minimální, maximální model a submodely. Určení vhodné modelové rovnice je základem všech regresních modelů. Jedním z důležitých principů regresních modelů je zásada jednoduchosti, která znamená, že jednodušší model poměrně dobře popisující zkoumaná data dostane přednost před složitějším modelem, který data popisuje téměř dokonale. Často musíme vzít také v úvahu současně se základním zobecněným lineárním modelem i několik z něj vyplývajících dílčích modelů, kterým se říká submodely. Definujme nejprve důležité pojmy 112 M5VM05 Statistické modelování Definice 6.1. Maximální GLM, který označíme GLMmax, splňuje následující podmínky (1) Maximální model je zobecněný lineární model se stejným typem rozdělení jako zkoumaný GLM model. (2) Maximální model a zkoumaný mají stejnou linkovací funkci. (3) Počet parametrů maximálního modelu je roven počtu vysvětlovaných veličin n, maximálně věrohodný odhad parametru βmax je n-rozměrný vektor βmax. Poznámka 6.2. Z definice plyne, že vysvětlovaná veličina Y je maximálním modelem určena s nulovým reziduem, tj. odhadnutá hodnota Ymax = µmax = (ˆµmax,1, . . . , ˆµmax,n)′ = Y = (Y1, . . . , Yn)′ . Definice 6.3. Minimální GLM, který označíme GLMmin, splňuje následující podmínky (1) Minimální model je zobecněný lineární model se stejným typem rozdělení jako zkoumaný GLM model. (2) Minimální model a zkoumaný mají stejnou linkovací funkci. (3) Počet parametrů minimálního modelu je roven 1, maximálně věrohodný odhad parametru βmin je skalár ˆβmin. Poznámka 6.4. Pro minimální model, kde X = (1, . . . , 1)′ , lze snadno ověřit, že ˆµmin,i = ¯Y = 1 n n i=1 Yi i = 1, . . . , n. Maximální model tedy slouží jako ukazatel „nejlepší regrese a minimální model naopak jako ukazatel „nejhorší regrese při daném rozdělení a dané linkovací funkci. Zkoumaný model se bude nacházet někde mezi těmito extrémy a ve srovnání s nimi budeme oceňovat vhodnost modelu. Definice 6.5. Mějme zobecněný lineární model s maticí plánu Xn×k a vektorem neznámých parametrů β. Submodel, který označíme GLMsub, splňuje následující podmínky (1) Submodel je zobecněný lineární model se stejným typem rozdělení jako zkoumaný GLM model. (2) Submodel a zkoumaný model mají stejnou linkovací funkci. (3) Vektor neznámých parametrů βsub ∈ Rq a matice plánu Qn×q, pro kterou platí Qn×q = Xn×kTk×q. Aby GLMsub byl submodelem modelu GLM, musí každý sloupec matice Q patřit do obalu sloupců matice X. To bude splněno právě tehdy, bude-li Q typu Qn×q = Xn×kTk×q. Je třeba si uvědomit, že GLMsub je speciálním případem modelu GLM. Platí-li tudíž pro náhodný výběr Y model GLMsub, platí pro Y také model GLM. Model GLM vybíráme tak bohatý, abychom si mohli být jisti, že popisuje dobře chování Y. Následně bychom ovšem chtěli vědět, zda lze použít jednodušší model GLMsub. Můžeme usuzovat takto, platí-li GLMsub, pak rozšíření na GLM nepřinese podstatné změny a vektory β a βsub by se neměly podstatně lišit. Na druhé straně, budou-li β a βsub příliš odlišné, svědčí to proti možnosti redukce GLM na GLMsub. 6.2. Deviace. Deviace v zobecněných lineárních modelech je obdobou rozptylu u klasických lineárních regresních modelů. Deviace je tedy kritériem vhodnosti zobecněného lineárního modelu. Jak bude patrné z definice, metoda maximální věrohodnosti totiž odpovídá Mgr. Jan Koláček, Ph.D. 113 hledání minima deviace modelu. Definice 6.6. Mějme modely GLM a GLMmax. Nechť náhodný výběr Y se řídí modelem GLMmax. Škálovou deviací modelu GLM (scaled deviance) rozumíme statistiku D = 2 l∗ (βmax; Y) − l∗ (β; Y) , kde βmax, β jsou odpovídající maximálně věrohodné odhady. Lemma 6.7. Nechť je dán model GLM a náhodný výběr Y se řídí tímto modelem. Dále nechť (i) existují druhé parciální derivace hustoty f(y; β) podle složek β, (ii) platí E f′′ βiβj (Y;β) f(Y;β) = 0 (i, j = 1, . . . , k) (iii) a existuje E l∗ (β; Y). Pak asymptoticky lze statistiku Dk = 2 l∗ (β; Y) − l∗ (β; Y) aproximovat kvadratickou formou Wk = (β − β)′ Jn(β)(β − β) a rozdělení statistiky Dk lze aproximovat rozdělením χ2 (k), přičemž β je maximálně věrohodný odhad parametru β. Věta 6.8. Mějme modely GLM a GLMmax. Nechť náhodný výběr Y se řídí modelem GLMmax. Dále nechť (i) existují druhé parciální derivace hustoty f(y; βmax) podle složek βmax, (ii) platí E f′′ β(max,i)β(max,j) (Y;βmax) f(Y;βmax) = 0 (i, j = 1, . . . , n) (iii) a existuje E l∗ (βmax; Y). Platí-li hypotéza, že model GLM je vhodný, pak asymptoticky lze rozdělení škálové deviace modelu GLM aproximovat rozdělením χ2 (n − k), tj. D A ∼ χ2 (n − k). Poznámka 6.9. Škálovou deviaci D lze užít k testování hypotézy o vhodnosti modelu GLM. Jestliže platí D > χ2 1−α(n − k), pak považujeme model GLM za nevhodný. Věta 6.10. Mějme základní model GLM s β ∈ Rk a jeho submodel GLMsub s βsub ∈ Rq , přičemž q < k < n. Dále nechť náhodný výběr Y se řídí modelem GLM a platí (i) existují druhé parciální derivace hustoty f(y; β) podle složek β, (ii) platí E f′′ βiβj (y;β) f(y;β) = 0 (i, j = 1, . . . , k) (iii) a existuje E l∗ (β; Y). Platí-li hypotéza, že submodel GLMsub je vhodný, pak asymptoticky lze rozdělení statistiky ∆D = Dsub −D aproximovat rozdělením χ2 (k −q), tj. ∆D = Dsub − D A ∼ χ2 (k − q). Poznámka 6.11. Statistiky ∆D se užívá při porovnání dvou modelů, přičemž jeden je submodelem druhého. 114 M5VM05 Statistické modelování Definujme diagonální matici C, na jejíž hlavní diagonále budou nuly a jedničky, tj. cii ∈ {0, 1}. Počet jedniček na hlavní diagonále je roven číslu q = Tr(C) < k. Předpokládáme, že základní model s vektorem neznámých parametrů, který tentokrát označíme β1, dobře popisuje chování náhodného výběru. Uvažujme hypotézu H0 : β = βsub = C′ β1 a alternativní hypotézu odpovídající základnímu modelu H1 : β = β1. Test hypotézy H0 vůči H1 provedeme s využitím statistiky ∆D. Má-li statistika ∆D hodnotu ∆D > χ2 1−α(k − q), pak považujeme submodel za nevhodný a pro popis chování sledovaného náhodného výběru použijeme model základní. V opačném případě jsou oba dva modely dobré a vybereme jednodušší model odpovídající H0. Je nutné zdůraznit, že pojem „dobře popisuje chování náhodného výběru je zde použit pouze relativně z důvodu srovnání dvou modelů, kdy je třeba zjistit, zda obecnější model je výrazně lepší, či jsou oba modely přibližně srovnatelné. Neznamená ještě, když přijmeme hypotézu H0, že jsou oba modely pro daná data (absolutně) dobré, ale například jen to, že jsou oba stejně špatné. Proto při praktických úlohách se volí matice plánu obecnějšího modelu se všemi potencionálními vysvětlujícími veličinami a předpokládá se, že tento model popisuje data dobře. Následuje odstraňování jednotlivých vysvětlujících veličin a testování, zda vzniklý jednodušší model nepopisuje data na určité hladině významnosti stejně dobře, jako složitější model zá- kladní. 6.3. Analýza reziduí. Analýza reziduí nám poskytuje nenahraditelnou informaci o vhodnosti použitého modelu a nelze ji opomíjet, i když analýza deviace ukazuje na vhodnost modelu. Teprve zde se častokrát zjistí, že výchozí předpoklad o rozdělení náhodných chyb či tvaru linkovací funkce nebyl správný. Analýza reziduí může odhalit body, jejichž reziduum je výrazně odlišné od ostatních pozorování, což může být způsobeno neobvyklou závislostí mezi vysvětlovanou a vysvětlujícími veličinami či prozaičtěji chybou měření, chybou přepisu hodnot do databáze apod. Když se v grafu reziduí objeví určitá závislost reziduí na fitované hodnotě či vysvětlujících veličinách nebo třeba s rostoucí odhadnutou (fitovanou) hodnotou roste variabilita reziduí, pak je nutné celý model přehodnotit a případně jej začít vytvářet od začátku. Uveďme nejznámější typy reziduí používaných v GLM : (a) Standardizovaná rezidua (linear): též Pearsonova rP i = Yi − ˆµi V (ˆµi) . Nevýhodou těchto reziduí je fakt, že pro nenormální rozdělení jsou značně zešikmená. (b) Standardizovaná transformovaná rezidua (transformed linear) rTr i = g(Yi) − Eg(Yi) Dg(Yi) . Důvodem zavedení transformovací je snaha, aby transformovaná rezidua měla rozdělení, které se co nejvíce blíží normálnímu. Mgr. Jan Koláček, Ph.D. 115 (1) Anscombova rezidua jsou založena na transformaci typu gA(µ) = dµ V 1 3 (µ) , jejiž snahou je, aby transformovaná rezidua měla nulovou šikmost. (2) Rezidua stabilizující rozptyl jsou založena na transformaci typu gS(µ) = dµ V 1 2 (µ) , a cílem je, aby u transformovaných reziduí rozptyl nebyl funkcí střední hodnoty, ale konstantní. Příklady standardizovaných transformovaných reziduí Rozdělení Anscombova stabilizující rozptyl Binomické t Yi ni − t(ˆπi)+ˆπ − 1 3 i (1−ˆπi)− 1 3 (2ˆπi−1)/6ni ˆπ 1 6 i (1−ˆπi) 1 6 /ni arcsin Yi ni −arcsin √ ˆπi 1/(2 √ ni) Poissonovo Y 2 3 i − ˆµ 2 3 i −ˆµ − 1 3 i /9 2 3 ˆµ 1 6 i Y 1 2 i −ˆµ 1 2 i 1 2 Gamma (Yi/α) 1 3 − ˆµ 1 3 i −ˆµ − 2 3 i /9 ˆµ − 1 6 i /3 neuvažujeme kde pro binomické rozdělení: ˆπi = ˆµi/ni a t(u) = u 0 s− 1 3 (1 − s)− 1 3 ds (c) Deviační rezidua (deviance residual) rD i = sign(Yi − ˆµi) di, přičemž D = 2[l∗ (bmax; Y) − l∗ (b; Y)] = n i=1 di. Ještě lepší vlastnosti mají tzv. korigovaná deviační rezidua (bias-adjusted deviance residual) rAD i = sign(Yi − ˆµi) di + ρ3(ˆµi)/6, kde ρ3(µ) = E Y − µ √ DY 3 . 116 M5VM05 Statistické modelování 7. Tabulky rozdělení exponenciálního typu 7.1. Tabulka rozdělení exponenciálního typu. Příklady rozdělení exponenciálního typu Kanonická Rozptylová Rozdělení link-funkce funkce ψi(φ) = φ ωi EYi = µi θi = ηi = g(µi) γ(θi) V (µi) φ ωi Yi ∼ N(µi, σ2 ωi ) µi µi 1 2 θ2 i 1 σ2 ωi Yi ∼ Bi(ni, πi) niπi ln µi ni−µi ni ln(1+eθi ) µi 1− µi ni 1 1 niYi ∼ Bi(ni, πi) πi ln µi 1−µi ln(1+eθi ) µi(1−µi) 1 ni Yi ∼ Po(µi) µi ln µi eθi µi 1 1 Yi ∼ Ex(µi) µi − 1 µi − ln(−θi) µ2 i 1 1 Yi ∼ G(α, βi) αβi − 1 µi − ln(−θi) µ2 i 1 α 1 7.2. Tabulka různých spojovacích funkcí. Rozdělení link-funkce ηi = g(µi) µi=g−1 (ηi) ∂ηi ∂µi Normální, Gama identity µi ηi 1 Exponenciální log ln µi eηi 1 µi Poissonovo power µa i e 1 a ln ηi aµa−1 i logit ln µi ni−µi ni eηi 1+eηi ni µi(ni−µi) Binomické probit Φ−1 (µi ni ) niΦ(ηi) √ 2π ni e 1 2 Φ−1( µi ni ) 2 complement.log-log ln − ln 1− µi ni ni 1 − e−eηi 1 (µi−ni) ln 1− µi ni log-log − ln − ln µi ni nie−e−ηi − 1 µi ln µi ni kde Φ−1 je kvantilová funkce standardizovaného normálního rozdělení. Mgr. Jan Koláček, Ph.D. 117 Klasický regresní model a GLM Značení Střední hodnoty jednotlivých pozorování EYi = µi (i = 1, . . . , n) Hodnoty regresorů jednotlivých pozorování x′ i = (xi1, . . . , xik) (i = 1, . . . , n) Vektor pozorovaných hodnot Y = (y1, . . . , yn)′ Vektory neznámých parametrů (q < k < n) β = βk = (β1, . . . , βq βq , βq+1, . . . , βk βk−q )′ ; βmax = (β1, . . . , βq βq , βq+1, . . . , βk βk−q , βk+1, . . . , βn βn−k )′ Matice plánu z hodnot regresorů X =      x′ 1 ... x′ n      =      x11 · · · x1k ... ... ... xn1 · · · xnk      Submodely (X′ X)−1 =   A B B′ V   h(X′ X)=k; h(V)=k − q; h(A)=q Model EYi = µi = x′ iβ EYi = µi ηi = g(µi) = x′ iβ µi = g−1 (ηi) Yi ∼ N(x′ iβ EYi , σ2 DYi ) Yi ∼ Lexp(γ′ (θi) = g−1 (x′ iβ) EYi , ψi(φ)γ′′ (θi) DYi ) Odhady Metoda nejmenších čtverců Iterativni vážená metoda nejm. čtverců (max.věr.odh.) β=bk=(X′ X) −1 X′ Y β (s) = b (s) k = (X′ WX) −1 X′ WZ(s−1) Z(s−1) = (Z (s−1) 1 , . . . , Z (s−1) n )′ ; Z (s−1) i = ˆη (s−1) i + (yi − ˆµ (s−1) i ) dηi dµi ˆη (s−1) i = x′ ib(s−1) ; ˆµ (s−1) i = g−1 (ˆη (s−1) i ) wi = 1 DYi dµi dηi 2 ; W = diag{w1, . . . , wn} bmax = (b1, . . . , bn)′ = (y1, . . . , yn)′ Výběrová rozdělení odhadu bk bk ∼ Nk(β, σ2 (X′ X)−1 ) bk A ∼ Nk(β, J−1 n ) 1 σ2 (bk−βk)′ X′ X(bk−βk) ∼ χ2 (k) (bk − βk)′ Jn(bk − βk) A ∼ χ2 (k) Waldova statistika Výběrová rozdělení škálové deviace D = 2[l(bmax; y) − l(bk; y)] D ∼ χ2 (n − k) D A ∼ χ2 (n − k) Normální rozdělení Poissonovo rozdělení: D=2 n i=1 yiln yi ˆµi − (yi − ˆµi) D= 1 σ2 n i=1 (yi−ˆµi)2 =SSE σ2 = (n−k)s2 k σ2 Binomické rozdělení D=2 n i=1 yiln yi ˆµi + (ni−yi) ln ni−yi ni−ˆµi Gamma rozdělení D=2α n i=1 yi−ˆµi ˆµi − ln yi ˆµi Submodely H0 : β== (β1, . . . , βq)′ proti H1 : β=(β1, . . . , βq, βq+1, . . . , βk)′ nebo H0 : (βq+1, . . . , βk)′ = 0 proti H1 : (βq+1, . . . , βk)′ = 0 F ∼ F(k − q, n − k) ∆D A ∼ χ2 (k − q) F = 1 (k−q)sk b′ k−qV−1 bk−q ∆D = Dsub−D = 2[l(bk; y)−l(bq; y)] 118 M5VM05 Statistické modelování Úlohy k procvičení Cvičení 7.1. V souboru „toxic.RData jsou uvedeny hodnoty množství jedovaté látky, která vzniká jako vedlejší produkt při určitém chemickém procesu. Datový soubor obsahuje tyto proměnné: VOL objem vzniklé jedovaté látky (litry) TEMP teplota při chemickém procesu (◦ C) CAT hmotnost katalyzátoru (kg) METHOD metoda použitá při výrobě (kategoriální proměnná – A,B) Hledejte vhodný model pro popis závislosti objemu jedovaté látky na podmínkách procesu. Testujte nejprve, zda použitá metoda má vliv na výsledný objem jedovaté látky. Pomocí stepwise procedury najděte nejvhodnější lineární model a nejvhodnější zobecněný lineární model. U obou modelů ověřte normalitu residuí. [Metoda má vliv, vhodný model: VOL = β0 + β1METHODB + β2TEMP, residua jsou normální] Cvičení 7.2. V balíku „car , proměnné „SLID jsou uvedeny výsledky průzkumu z roku 1994 v kanadské provincii Ontario. Průzkum se zabýval vlivem některých faktorů na mzdu respondentů. Datový soubor obsahuje tyto proměnné: wages hodinová mzda (kanadské dolary) education počet let vzdělávání (roky) age věk (roky) sex pohlaví (1 – žena, 2 – muž) language jazyk (1 – angličtina, 2 – francouzština, 3 – ostatní) Hledejte vhodný model pro popis závislosti platu respondenta na ostatních faktorech. (1) Zkuste nejprve použít klasický lineární model, najděte nejvhodnější model a proveďte analýzu residuí. Jsou splněny předpoklady modelu? (2) Stále uvažujte lineární model. Místo proměnné wages uvažujte log(wages). Opět nalezněte nejvhodnější model. Zkuste také přidat dvojné či trojné interakce proměnných. Zlepší se kvalita modelu? (3) Pomocí stepwise procedury najděte nejvhodnější zobecněný lineární model. [(1) Vhodný model: wages = β0 + β1age + β2education + β3sex, residua nejsou normální, (2) kvalita se zlepší přidáním dvojných interakcí, (3) vhodný model: wages = β0 + β1age + β2education + β3sexMale + β4age:sexMale + β5education:sexMale + β6age:education.] Cvičení 7.3. V souboru „novorozenci.RData jsou uvedeny porodní hmotnosti novorozenců a informace o jejich rodičích. Datový soubor obsahuje tyto proměnné: Mgr. Jan Koláček, Ph.D. 119 hmnov porodní hmotnost novorozence (g) vyska výška matky (cm) hmmat hmotnost matky (kg) prir váhový přírůstek matky během těhotenství (kg) pohlavi pohlaví dítěte (0 – dívka, 1 – chlapec) stav stav matky při porodu (1 – svobodná, 2 – vdaná, 3 – rozvedená, 4 – vdova) vzdmat vzdělání matky (1 – zákl., 2 – vyuč., 3 – středošk., 4 – vysokošk.) vzdot vzdělání otce (0 – neuved., 1 – zákl., 2 – vyuč., 3 – středošk., 4 – vysokošk.) Hledejte vhodný model pro popis závislosti hmotnosti novorozence na jeho rodičích. Testujte nejprve, zda pohlaví má vliv na porodní hmotnost. Pomocí stepwise procedury najděte nejvhodnější model. U modelu ověřte normalitu residuí. [Pohlaví má vliv, vhodný model: hmmat = β0 + β1prir + β2pohlavi1 + β3vzdot1 + β4vzdot2 + β5vzdot3 + β6vzdot4 + β7vyska + β8hmmat:pohlavi1, residua jsou normální] KAPITOLA 8 Konkrétní GLM modely Základní informace (1) V následující kapitole se budeme zabývat aplikací teorie zobecněných lineárních modelů na různé typy dat. Budeme se zabývat případy, kdy pozorovaná veličina má alternativní nebo binomické rozdělení. To vede na modely typu dávka–odpověď a také na logistickou regresi. Dále budeme teoretické poznatky aplikovat na případ poissonovských dat a budeme se zabývat modelováním multinomických dat vedoucím na kontingenční tabulky. Popíšeme tedy konkrétní zobecněné lineární modely. (2) Předpokládá se znalost základních pojmů z teorie lineárních regresních modelů a zobecněných lineárních modelů – matice plánu, metoda nejmenších čtverců, linkovací funkce, škálová deviace. Výstupy z výukové jednotky Studenti • umí konstruovat a interpretovat modely typu dávka–odpověď • umí definovat a vysvětlit model logistické regrese • definují modely pro poissonovská data • definují kontingenční tabulku • modelují kontingenční tabulku jako zobecněný lineární model 1. Motivace V minulé kapitole jsme uvedli obecnou definici zobecněného lineárního modelu a obecné konstrukce testů hypotéz o parametrech těchto modelů. V této kapitole se již budeme zabývat zobecněnými lineárními modely pro konkrétní případy podle toho, jaké rozdělení má závisle proměnná Y . Nejprve je vhodné nahlédnout do úvodní kapitoly a připomenout si základní typy proměnných (ať už závisle či nezávisle proměnných) z hlediska vztahu mezi dvěma hodnotami. Tyto typy lze názorně popsat následujícím diagramem. Nominální Ordinální Intervalová Poměrová Kvalitativní Kvantitativní Diskrétní Spojitá Kategoriální Dichotomická Polytomická V závislosti na typu proměnné Y a jejím rozdělení pravděpodobnosti budeme zkoumat již konkrétní zobecněné lineární modely. Poznámka 1.1. Většina textu v této kapitole byla převzata z [5]. Pro podrobnější studium tohoto tématu proto odkazujeme na tento zdroj. 121 122 M5VM05 Statistické modelování 2. Modely pro alternativní a binomická data 2.1. Úvod. Předpokládejme, že sledovaná náhodná veličina Ui (i = 1, . . . , N) nabývá pouze dvou hodnot 0 a 1, tj. má alternativní rozdělení: Ui ∼ A(πi) ∼ fU (u) = P(Ui = u) =    πi u = 1 1 − πi u = 0 0 jinak =    πu i (1 − πi)1−u u = 0, 1 0 jinak . Předpokládejme, že náhodná veličina Ui závisí na m veličinách xi1, . . . , xik, tzv. kovariáty. Data můžeme mít zadána různým způsobem: • jednotlivá pozorování Ui: hodnoty kovariát pozorované binární veličiny xi1, . . . , xik Ui • skupinově, tj. pro každou kombinaci kovariát známe absolutní četnosti úspěchů Yj a celkový počet pokusů nj, tedy máme k dispozici binomická data Yj = nj i=1 Ui ∼ Bi(nj, πj) ∼ fY (y) = P(Yj = y) =    nj y πy j (1 − πj)nj−y y = 0, 1, . . . , nj 0 jinak kde j = 1, . . . , n; N = n1 + · · · + nn a data můžeme zapsat formou tabulky hodnota kovariát počet úspěchů počet pokusů xj1, . . . , xjk Yj nj • skupinově, tj. pro každou kombinaci kovariát máme relativní četnost úspěchů Zj = Yj nj a celkový počet pokusů nj Zj = Yj nj = 1 nj nj i=1 Ui ∼ fZ(y) = P(Zj = y) =    nj njy π njy j (1 − πj)nj−njy y = 0, 1 nj , . . . , 1 0 jinak kde j = 1, . . . , n; N = n1 + · · · + nn Data lze zapsat do tabulky kovariáty relativní úspěšnost počet pokusů xj1, . . . , xjk Zj = Yj nj nj • pro nominální či ordinální kovariáty můžeme data psát do tzv. kontingenčních tabulek. Uvažujme jednoduchý příklad: kovariáty U = 0 U = 1 x1 = 1 x2 = 1 n110 n111 x2 = 2 n120 n121 x1 = 2 x2 = 1 n210 n211 x2 = 2 n220 n221 Mgr. Jan Koláček, Ph.D. 123 V dalším se soustřeďme na relativní četnosti úspěchů Zi = Yi ni . Hlavním úkolem statistické analýzy je pak nalézt vztah mezi Zi, (tj. i Yi) a xi1, . . . , xik, tj. funkci πi = π(xi) = π(xi1, . . . , xik). Protože chceme použít GLM modely, modelujeme pravděpodobnosti πi pomocí linkovacích funkcí g(πi) = x′ iβ. Nejjednodušším modelem je lineární model πi = x′ iβ. Avšak tento model má řadu nevýhod, především je třeba zajistit, aby x′ iβ nabývala hodnot mezi 0 a 1, tedy je třeba přidat nějaké dodatečné podmínky. Proto, abychom tuto podmínku dodrželi, využijeme nějakou distribuční funkci F(t) = t −∞ f(s)ds f(s) ≥ 0 ∞ −∞ f(s)ds = 1 s odpovídající hustotou f(s), která se v tomto případě nazývá toleranční funkce (toleranční distribuce). Nyní si ukážeme několik modelů, které využívají různé toleranční distri- buce. 2.2. Modely dávka – odpověď. Typickým příkladem těchto modelů je vztah mezi dávkou toxické látky a odezvy (kladná-přežití, záporná-smrt) jedince na tuto dávku. Odezvy bývají obvykle udávány jako procenta kladné odezvy (quantal responses). Symetrické modely Definice 2.1. Jestliže uvažujeme toleranční distribuci jako rovnoměrně spojitou na nějakém intervalu (a, b), tj f0(s) ∼ Rs(a, b) f(s) =    1 b−a s ∈ (a, b) 0 jinak pak π0(x) = F0(x) = x a f(s)ds = x − a b − a pro x ∈ (a, b) a tento model je lineárním modelem π0(x) = x − a b − a = β0 + β1x tj. β0 = − a b − a β1 = 1 b − a > 0 s identickou linkovací funkcí g0(π) = π. V praxi tento model však nemá přílišné uplatnění. 124 M5VM05 Statistické modelování a (a+b)/2 b 1/(b−a) f(s)∼ Rs(a,b) a (a+b)/2 b 0.5 1 π(x) ∼ Rs(a,b) Obrázek 1: Rovnoměrné rozdělení na (a, b). µ f(s)∼ N(µ,σ2 ) 0.5 1 µ π(x) ∼ N(µ,σ2 ) Obrázek 2: Normální rozdělení N(µ, σ2). Další možností je vzít normální hustotu jako toleranční funkci. Připomeňme, že střední hodnota, medián i modus je roven parametru µ a rozptyl parametru σ2 > 0. Definice 2.2. Jestliže toleranční funkcí je normální hustota, mluvíme o probitovém modelu: π1(x) = F1(x) = x −∞ f1(s)ds = x −∞ 1 σ √ 2π e− 1 2 (s−µ σ ) 2 ds = Φ x−µ σ , kde Φ je distribuční funkce standardizovaného normálního rozdělení. Pak tzv. probitovou linkovací funkcí je kvantilová funkce normálního rozdělení g1(π) = Φ−1 (π) = x−µ σ = β0 + β1x tj. β0 = −µ σ β1 = 1 σ > 0. Hodnota mediánu x = µ se nazývá mediánová smrtící dávka (median lethal dose LD50) a odpovídá dávce, při které polovina jedinců má kladnou a polovina zápornou odezvu. Probitový model má široké uplatnění v biologických a sociálních vědách. µ f(s) 0.5 1 µ π(x) Obrázek 3: Logistické rozdělení. Mgr. Jan Koláček, Ph.D. 125 Definice 2.3. Logistický model je model, kde toleranční funkce je hustota logistického rozdělení (se střední hodnotou, mediánem i modusem µ a rozptylem π2 3 σ2 = 3.2899σ2 = (1.8138σ)2 ) f2(s) = 1 σ exp(s−µ σ ) [1+exp(s−µ σ )] 2 = 1 σ exp(− s−µ σ ) [1+exp(− s−µ σ )] 2 , takže π2(x) = F2(x) = x −∞ 1 σ exp(s−µ σ ) [1+exp(s−µ σ )] 2 ds = exp(x−µ σ ) 1+exp(x−µ σ ) = 1 1+exp(− x−µ σ ) s tzv. logit linkovací funkcí g2(π) = log π 1−π = x−µ σ = β0 + β1x tj. β0 = −µ σ β1 = 1 σ > 0. µ 0.5 1 µ Obrázek 4: Srovnání probitového a logistického (- - -) modelu při stejných parametrech µ a σ. Názorně je vidět, že logistický model má větší rozptyl a těžší konce. 126 M5VM05 Statistické modelování Asymetrické (extremální) modely Definice 2.4. Pokud za toleranční funkci zvolíme Log-Weibullovo rozdělení (extrememinimal-value distribution) ve tvaru f3(s) = 1 σ exp s−µ σ exp − exp s−µ σ , pak π3(x) = F3(x) = x −∞ 1 σ exp s−µ σ exp − exp s−µ σ ds = 1 − exp − exp x−µ σ s tzv. komplementární log-log linkovací funkcí g3(π) = log[− log(1 − π)] = x−µ σ = β0 + β1x tj. β0 = −µ σ β1 = 1 σ > 0 tedy β1 > 0. µ f(s) 0.5 1 µ π(x) Obrázek 5: Log-Weibullovo rozdělení. Pro výše uvedené rozdělení můžeme vyjádřit jeho číselné charakteristiky: střední hodnota=µ − γσ . = µ − 0.57721σ kde γ . = 0.57721 je tzv. medián=µ + σ log(log 2) . = µ − 0.36651σ Euler-Mascheroniho modus=µ konstanta. rozptyl=π2 6 σ2 = 1.6449σ2 = (1.2825σ)2 , Definice 2.5. Pokud jako toleranční funkci zvolíme zobecněné Gumbelovo rozdělení (extreme-maximal-value distribution) ve tvaru f4(s) = 1 σ exp −s−µ σ exp − exp −s−µ σ , dostaneme π4(x) = F4(x) = x −∞ 1 σ exp −s−µ σ − exp −s−µ σ ds = exp − exp −x−µ σ s tzv. log-log linkovací funkcí g3(π) = − log[− log(π)] = x−µ σ = β0 + β1x tj. β0 = −µ σ β1 = 1 σ > 0. Pro výše uvedené rozdělení opět vyjádřeme jeho číselné charakteristiky: střední hodnota = µ + γσ . = µ + 0.57721σ medián = µ − σ log(log 2) . = µ + 0.36651σ modus = µ rozptyl = π2 6 σ2 = 1.6449σ2 = (1.2825σ)2 , kde γ . = 0.57721 je tzv. Euler-Mascheroniho konstanta. Mgr. Jan Koláček, Ph.D. 127 µ f(s) 0.5 1 µ π(x) Obrázek 6: Zobecněné Gumbelovo rozdělení. Poznámka 2.6. Pokud náhodná veličina U má rozdělení rovnoměrně spojité na intervalu (0, 1), tj. U ∼ Rs(a, b), pak X = µ + σ log U 1−U má logistické rozdělení s hustotou f2(x) , X = µ + σ log(− log(1 − U)) Log-Weibullovo rozdělení s hustotou f3(x), X = µ − σ log(− log(U)) Gumbelovo rozdělení s hustotou f4(x). Těchto vztahů se využívá při generování pseudonáhodných čísel příslušných rozdělení. 2.3. Logistická regrese. Protože nejčastěji se používá logit linkovací funkce g2(π) = log π 1−π , budeme se proto věnovat logistické regresi podrobněji. Předpokládejme, že závisle proměnná Y je binární proměnná, která nabývá hodnoty jedna, pokud sledovaný jev nastal, v opačném případě je rovna nule. Protože jde o regresní model, bude nás zajímat vztah pravděpodobností úspěchu či neúspěchu k hodnotám regresorů (kovariát) x = (x1, . . . , xk)′ , budeme tedy zkoumat pravděpo- dobnost P(Y = 1|x1, . . . , xk) = π(x) = exp{η(x)} 1 + exp{η(x)} = 1 1 + exp{−η(x)} a P(Y = 0|x1, . . . , xk) = 1 − π(x) = 1 1 + exp{η(x)} = exp{−η(x)} 1 + exp{−η(x)} Předpokládejme, že lineární prediktor je roven η(x) = β0 + βT x a ukážeme, že má smysl uvádět absolutní člen samostatně. Všimněme se nejprve, že podíl odds(1) odds(0) = P(Y = 1|x1, . . . , xk) P(Y = 0|x1, . . . , xk) = π(x) 1 − π(x) = exp(β0 + βT x) má bezprostřední interpretaci. Porovnává pravděpodobnost jedničky (tj. výskyt sledovaného jevu při daných hodnotách kovariát) a nuly (nevýskyt sledovaného jevu při daných hodnotách kovariát). Anglickému označení odds odpovídá české označení šance. Hodnota šance není shora ohraničená, zdola však nulou. Pokud zlogaritmujeme šanci, dostaneme logit, který nabývá hodnot od mínus do plus nekonečna. Nyní budeme předpokládat, že máme jedinou kovariátu x , která je také binární, takže nabývá dvou různých hodnot, které můžeme bez újmy na obecnosti označit jako 0 a 1. V 128 M5VM05 Statistické modelování tom případě jde o kategoriální proměnnou, nebo–li x je umělá proměnná k dvouhodnotovému faktoru. Za těchto podminek je šance pro x = 0 rovna odds(0) = exp(β0), takže parametr β0 je roven logitu pravděpodobnosti výskytu sledovaného jevu v bodě x = 0. Pro x = 1 dostaneme odds(1) = exp(β0 + β1). Poměr šancí (nebo také křížový poměr, anglicky odds ratio) pro binární x je pak roven OR = odds(1) odds(0) = exp(β1), takže parametr β1 je roven logaritmu poměru šancí. Odtud tedy dostáváme, že pokud pravděpodobnost sledovaného jevu nezávisí na hodnotě proměnné x, je poměr šancí roven jedné, takže platí β1 = 0. I v případě, že vysvětlující proměnná je spojitá, má zajímavou interpretaci především parametr β1, neboť x + 1 x = β0 + β1(x + 1) β0 + β1x = exp(β1), takže parametr β1 vypovídá o změně vztažené k jednotkovému přírůstku nezávisle proměnné x, tentokrát je to změna logaritmu poměru šancí. Příklad 2.7. V souboru „beetle.RData jsou uvedeny údaje o úmrtnosti Potemníka skladištního (Tribolium confusum) v reakci na sirouhlík CS2. Datový soubor obsahuje tyto pro- měnné dose množství sirouhlíku (mg/l) population počet kusů ve zkoumaném vzorku killed počet mrtvých kusů ve zkoumaném vzorku Řešení. Pro modelování závislosti použijeme logistický model, probitový model a model s komplementární log-log linkovací funkcí. Výsledky jsou znázorněny na Obr. 7. 3. Modely pro poissonovská data Celočíselná data lze modelovat pomocí diskrétních rozdělení. V předchozí sekci jsme se zabývali alternativními a binomickými daty. Nyní soustřeďme pozornost na poissonovská data. Předpokládejme, že náhodný výběr rozsahu n je z Poissonova rozdělení, tj. Yi ∼ Po(λi) ∼ fY (y) = P(Yi = y) =    λye−λi y! = λi > 0; y = 0, 1, 2, . . . 0 jinak přičemž EYi = DYi = λi. Poznámka 3.1. Dále se tímto rozdělením řídí náhodná veličina, kterou je počet výskytu sledovaného jevu v určitém časovém intervalu délky t (nebo počet výskytu sledovaného jevu na ploše velikosti t apod.). Jestliže jsou splněny následující podmínky Mgr. Jan Koláček, Ph.D. 129 1.65 1.7 1.75 1.8 1.85 1.9 0 0.2 0.4 0.6 0.8 1 y Link Function g(π)=log(π/(1−π)) y=exp(−61.05+34.461x) −4 −3 −2 −1 0 1 2 3 4 −4 −3 −2 −1 0 1 2 3 4 5 Standard Normal Deviate PearsonResiduals Normal Probability Plot 1.65 1.7 1.75 1.8 1.85 1.9 0 0.2 0.4 0.6 0.8 1 Link Function g(π)=Φ−1 (π) y y=Φ(−35.127+19.838x) −4 −3 −2 −1 0 1 2 3 4 −5 0 5 Standard Normal Deviate PearsonResiduals Normal Probability Plot 1.65 1.7 1.75 1.8 1.85 1.9 0 0.2 0.4 0.6 0.8 1 link function g(π)=log(−log(1−π)) y y=1−exp(−exp(−40.647+22.656x)) −4 −3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 Standard Normal Deviate PearsonResiduals Normal Probability Plot Obrázek 7: Modely pro úmrtnost Potemníka skladištního. a) jev může nastat v kterémkoliv časovém okamžiku, b) počet výskytů jevu během časového intervalu závisí jen na jeho délce a ne na jeho počátku ani na tom, kolikrát jev nastoupil před jeho počátkem, c) pravděpodobnost, že jev nastoupí více než jednou v intervalu délky t, konverguje k nule rychleji než t, d) λ je střední hodnota počtu výskytů jevu za časovou jednotku 130 M5VM05 Statistické modelování pak uvedená náhodná veličina má rozdělení Po(λ). Náhodnou veličinou, která má Poissonovo rozdělení, je tedy např. • počet vadných výrobků ve velké sérii, jestliže pravděpodobnost vyrobení vadného výrobku je velmi malá • počet těžkých dopravních úrazů za den v určitém městě • počet zákazníků v prodejně během nějakého časového intervalu • počet částic v jednotce plochy nebo objemu, např. počet částic v zorném poli mik- roskopu • počet telefonních volání v časovém intervalu t • počet létavic pozorovaných během intervalu délky t Předpokládejme opět, že náhodná veličina Yi závisí na k veličinách xi1, . . . , xik, (tzv. kovariáty) a úkolem bude najít vztah mezi nimi, tj. hledáme funkci λi = λ(xi) = λ(xi1, . . . , xik). Protože chceme použít GLM modely, modelujeme pravděpodobnosti λi pomocí linkovacích funkcí g(λi) = x′ iβ. Definice 3.2. Pokud v modelu uvažujeme identickou linkovací funkci, tj. platí λi = x′ iβ, mluvíme o lineárním modelu. Avšak tento model má řadu nevýhod, především je třeba zajistit, aby x′ iβ nabývala pouze kladných hodnot, nejčastěji se proto volí následující dvě možnosti Definice 3.3. Pokud v modelu předpokládáme vztah λi = exp(x′ iβ), tj. uvažujeme linkovací funkci g1(λi) = log(λi) = x′ iβ, hovoříme o log-lineárním modelu. Definice 3.4. Pokud v modelu předpokládáme vztah λi = (x′ iβ) 2 , tj. uvažujeme linkovací funkci g2(λi) = λi = x′ iβ, hovoříme o odmocninovém modelu (square-root-linear model). Příklad 3.5. V souboru „aids.RData jsou uvedeny údaje o počtech nových případů AIDS ve Velké Británii za období prosinec 1982 až listopad 1985. Datový soubor obsahuje tyto proměnné month měsíc year rok number počet nových případů AIDS Řešení. Pro modelování závislosti použijeme lineární model, log-lineární model a odmocninový model. Výsledky jsou znázorněny na Obr. 8. Mgr. Jan Koláček, Ph.D. 131 5 10 15 20 25 30 35 0 5 10 15 20 numberofAIDS y=−2.2+0.457x link function g(µ)=µ −4 −3 −2 −1 0 1 2 3 4 −6 −4 −2 0 2 4 6 Standard Normal Deviate DevianceResiduals Normal Probability Plot 5 10 15 20 25 30 35 0 5 10 15 20 link function g(µ)=log(µ) numberofAIDS y=exp(0.0397+0.0796x) −4 −3 −2 −1 0 1 2 3 4 −5 0 5 Standard Normal Deviate DevianceResiduals Normal Probability Plot 5 10 15 20 25 30 35 0 5 10 15 20 link function g(µ)=√µ numberofAIDS y=(0.553+0.0944x)2 −4 −3 −2 −1 0 1 2 3 4 −5 0 5 Standard Normal Deviate DevianceResiduals Normal Probability Plot Obrázek 8: Modely pro výskyt nových onemocnění AIDS ve Velké Británii. 3.1. Modelování binomických dat pomocí poissonovského modelu. V praxi často nastává situace, kdy sice máme data s binomickým rozdělením, avšak pravděpodobnost „úspěchu v jednotlivých pozorováních je velmi malá vzhledem k počtu těchto pozorování. V takovém případě již nelze použít binomického modelu, ale je třeba jej nahradit modelem poissonovským. Připomeňme že pomocí Poissonova rozdělení Po(λ) lze dobře aproximovat binomické rozdělení Bi(n, π) za podmínek n → ∞ & π → 0 & nπ → λ < ∞, obvykle se doporučuje n > 30 a π < 0, 1. Chceme-li tedy aproximovat binomické rozdělení Bi(ni, πi) pomocí Poissonova rozdělení Po(λi = niπi) a přitom použijeme logaritmickou linkovací funkci, platí λi = niπi = exp(xT i β) ⇒ log(λi) = log(ni) tzv. „offset + log(πi) = xT i β. 132 M5VM05 Statistické modelování Z výše uvedeného vztahu je tedy vidět, že při definici zobecněného lineárního modelu pomocí poissonovské třídy rozdělení je k ostatním prediktorům ještě třeba přidat logaritmus proměnné udávající velikosti populace (pomocí příkazu offset). 4. Problematika příliš velkého nebo příliš malého rozptylu V praktickém modelování často narážíme na problémy s příliš velkou variabilitou dat (overdispersion) nebo příliš malou variabilitou dat (underdispersion). Existuje řada možných vysvětlení, proč k tomu dochází. Tak například v biologických studiích může být overdispersion důsledkem agregovaného výskytu organismů. Nebo je tento jev důsledkem závislosti v datech, které standardní model nepředpokládá. Příliš malý či velký rozptyl může vzniknout také nezařazením některé důležité vysvětlující proměnné. Popišme podrobněji tento jev. Předpokládáme, že náhodný výběr Yn = (Y1, . . . , Yn)′ z rozdělení exponenciálního typu se řídí GLM modelem, tj. má sdruženou pravděpodobnostní funkci nebo sdruženou hustotu tvaru f(y, θ) = n i=1 f(yi, θi) = exp n i=1 yiθi − γ(θi) ψi(φ) + d(yi, φ) . Předpokládejme, že pro hustotu exponenciálního typu platí ψi(φ) = φ ωi > 0, kde ωi > 0 jsou známé apriorní váhy a φ > 0 je neznámý tzv. faktor měřítka (scale factor) nebo bývá též nazýván rušivý parametr. Při testování vhodnosti modelu hraje důležitou roli tzv. (škálová) deviace, kterou můžeme vyjádřit D = 2 l∗ (βmax; Y) − l∗ (β; Y) = 1 φ 2 n i=1 ωi Yi(ˆθi,max − ˆθi) − γ(ˆθi,max) + γ(ˆθi) = 1 φ D∗ a D∗ nazveme neškálovou deviací (unscaled deviance). Protože platí D = 1 φ D∗ A ∼ χ2 (n − k) ⇒ ED = 1 φ ED∗ ≈ n − k, neboť střední hodnota χ2 rozdělení je rovna počtu stupňů volnosti, pak ˆφD∗ = D∗ n − k . Další často používanou mírou vhodnosti modelu je tzv. zobecněná Pearsonova statistika X2 = n i=1 (Yi − ˆµi)2 V (ˆµi) A ∼ χ2 (n − k) a proto dalším momentovým odhadem založeným na této statistice je ˆφX2 = X2 n − k . Přehled rušivých parametrů pro některá rozdělení exponenciálního typu je dán v následující tabulce Mgr. Jan Koláček, Ph.D. 133 Rozdělení φ Normální rozdělení σ2 Poissonovo rozdělení 1 Binomické rozdělení 1 Gamma rozdělení 1/α Problém s příliš velkou či malou variabilitou se týká těch rozdělení, u kterých má být scale parametr roven jedné, tj. binomického a Poissonova rozdělení. Pokud pro reálná data dojde k tomu, že například pro binomické či Poissonovo rozdělení je rozptyl větší než střední hodnota, pak jde o overdispersion. Pokud je například u dat, pro která jsme předpokládali Poissonovo rozdělení, rozptyl naopak menší než střední hodnota, pak jde o underdispersion. V těchto případech není hodnota disperzního (scale) parametru φ (jakožto poměru DY EY ) rovna 1. Ve výpisu výsledků modelu nás na tuto situaci upozorní výrazně větší (menší) hodnota reziduální (tedy nevysvětlené) deviace ve srovnání s reziduálním počtem stupňů volnosti, což je střední hodnota χ2 rozdělení. V prostředí R je k řešení tohoto problému k dispozici modifikovaná volba pro třídu exponenciálního rozdělení. V případě binomického rozdělení máme možnost volby family=quasibinomial a pro Poissonovo rozdělení family=quasipoisson. Nejde o nový typ exponenciálního rozdělení, ale o změnu ve výpočtu druhého momentu, pro jehož odhad se použije jednoduchý momentový odhad disperzního parametru φ. Výsledná korekce rozptylu je pak důležitá při testování hypotéz, neboť zohledňuje vyšší/nižší variabilitu v datech a zabraňuje tak nadbytku/nedostatku falešně pozitivních výsledků testů hypotéz o parametrech modelu. Příklad 4.1. V souboru „bees.RData jsou uvedeny údaje o aktivitě včel v závislosti na čase. Jednou z důležitých charakteristik při zkoumání včelí aktivity je počet včel, které opustí úl kvůli práci ve vnějším prostředí. Studie se zabývala měřením této veličiny během několika slunečných dní v závislosti na čase během dne. Datový soubor obsahuje tyto proměnné number počet včel, které opustily úl time čas, kdy byl tento údaj zaznamenán Modelujte závislost počtu včel, které opustí úl, na čase během dne. Řešení. Budeme předpokládat, že závisle proměnná number má Poissonovo rozdělení a pro modelování závislosti použijeme poissonovský model. Jako linkovací funkci zvolíme kanonickou, tj. logaritmus. Do modelu vstupuje jediná vysvětlující proměnná time a přidáme také její druhou mocninu. Po výpočtu všech potřebných parametrů je vidět, že hodnota reziduální deviace (4 879,3) je nepoměrně vyšší než počet stupňů volnosti (501), což je střední hodnota. Je tedy zřejmé, že došlo k „overdispersion a v jazyce R je třeba volit family=quasipoisson. Použití této volby neovlivňuje odhady koeficientů, ale mění jejich odhady variability, což se projeví např. v intervalu spolehlivosti. To je vidět i z grafického srovnání obou výsledků, viz Obr. 9 a Obr. 10. 134 M5VM05 Statistické modelování 8 10 12 14 16 020406080 Bees activity time number Obrázek 9: Odhad regresní funkce bez vyrovnání se s problematikou velkého rozptylu. 8 10 12 14 16 020406080 Bees activity time number Obrázek 10: Odhad regresní funkce s vyrovnáním se s problematikou velkého rozptylu. 5. Modely pro multinomická data 5.1. Kontingenční tabulky. Mějme náhodný výběr Y = Yn = (Y1, . . . , Yn)′ rozsahu n, pro který n = J · K, kde J, K ∈ N+ jsou kladná přirozená čísla, tj. náhodný výběr lze rozepsat takto Y = Yn = (Y1, . . . , Yn)′ = (Y11, . . . , Y1K, . . . , YJ1, . . . , YJK)′ . Předpokládejme, že náhodný výběr Y je z Poissonova rozdělení, tj. Yjk ∼ Po(λjk) j = 1, . . . , J; k = 1, . . . , K Mgr. Jan Koláček, Ph.D. 135 s tzv. celkovou dodatečnou podmínkou N = J j=1 K k=1 yjk N ∈ N+ , kde yjk jsou realizace náhodných veličin Yjk. Pak sdružená (nepodmíněná) pravděpodobnostní funkce náhodného vektoru Y je rovna pY(y) = P(Y11 = y11, . . . , Y1K = y1K, . . . , YJ1 = yJ1, . . . , YJK = yJK) =    J j=1 K k=1 λ yjk jk e −λjk yjk! yjk = 0, 1, 2, . . . ; j = 1, . . . , J; k = 1, . . . , K, 0 jinak. Součet nezávislých náhodných veličin s Poissonovým rozdělením má opět Poissonovo rozdělení, tj. Z.. = J j=1 K k=1 Yjk ∼ Po λ.. = J j=1 K k=1 λjk ∼ pZ(z) = λz ..e−λ.. z! z = 0, 1, 2, . . . , 0 jinak. . Nás ovšem zajímá rozdělení náhodného vektoru Y za podmínky Z.. = N, (tj. že součet jeho složek je roven pevně danému kladnému přírozenému číslu N) s pravděpodobnostní funkcí pY|Z..=N , kterou lze snadno vypočítat ze vztahu pY|Z..=N (y) = pY(y) pZ (N) pZ.. (N) = 0, 0 jinak, kterou s využitím vztahů e−λ.. = J j=1 K k=1 e−λjk λN .. = λ J j=1 K k=1 yjk .. = J j=1 K k=1 λyjk .. lze upravit takto pY|Z..=N (y) =    J j=1 K k=1 λ yjk jk e −λjk yjk! λN .. e−λ.. N! = pro yjk = 0, 1, . . . , N; j = 1, . . . , J; k = 1, . . . , K, = N! J j=1 K k=1 λjk λ.. yjk yjk! J j=1 K k=1 yjk = N 0 jinak. a položíme-li λjk λ.. = πjk pak J j=1 K k=1 πjk = 1. Z předchozích úvah vidíme, že platí následující věta. 136 M5VM05 Statistické modelování Věta 5.1. Rozdělení náhodného vektoru Y za podmínky Z.. = N je multinomické s pravděpodobnostní funkcí pY|Z..=N (y) =    N! J j=1 K k=1 π yjk jk yjk! pro yjk = 0, 1, . . . , N; j = 1, . . . , J; k = 1, . . . , K, J j=1 K k=1 yjk = N J j=1 K k=1 πjk = 1 0 jinak , tj. Y|Z.. = N ∼ Mn(N, π11, . . . , π1K, . . . , πJ1, . . . , πJK) , přičemž EYjk =Nπjk DYjk =Nπjk(1 − πjk) C(Yjk, Yj′k′ ) = − Nπjkπj′k′ Poznámka 5.2. Multinomické rozdělení popisuje situaci, kdy máme n = J × K neslučitelných jevů, které označme (AB)11, . . . , (AB)JK. Jednotlivé jevy mohou nastat v každém z N nezávislých pokusů s pravděpodobnostmi π11, . . . , πJK přičemž J j=1 K k=1 πjk = 1. Multinomické rozdělení je zobecněním binomického rozdělení a je patrně nejdůležitějším diskrétním mnohorozměrným rozdělením. Svým významem by se dalo přirovnat k mnohorozměrnému normálnímu rozdělení, jemuž se podobá především díky dvěma vlastnostem: podmíněná i marginální rozdělení jsou opět multinomická. Realizace náhodných veličin i teoretické pravděpodobnosti lze uspořádat do tzv. kontingenční tabulky: Kontingenční tabulka četností faktor faktor B A B1 B2 · · · BK A1 y11 y12 · · · y1K N1. A2 y21 y22 · · · y2K N2. ... ... ... ... ... ... AJ yJ1 yJ2 · · · yJK NJ. N.1 N.2 · · · N.K N = N.. Kontingenční tabulka pravděpodobností faktor faktor B A B1 B2 · · · BK A1 π11 π12 · · · π1K π1. A2 π21 π22 · · · π2K π2. ... ... ... ... ... ... AJ πJ1 πJ2 · · · πJK πJ. π.1 π.2 · · · π.K π.. = 1 Čísla Nj. a N.k se nazývají marginální četnosti a πj. a π.k jsou marginální pravděpodobnosti. Tabulky popisujeme slovně tak, že říkáme, že N jednotek bylo klasifikováno podle znaku A do J tříd a podle znaku B do K tříd. V praxi kontingenční tabulka vzniká tak, že na daných objektech sledujeme dva znaky (faktory). Vybereme-li náhodně N objektů, můžeme výsledky shrnout do kontingenční tabulky typu J × K Mgr. Jan Koláček, Ph.D. 137 Nejčastěji se v kontingenčích tabulkách testuje hypotéza, že faktory A a B jsou nezávislé tj. faktor faktor B A · · · Bk · · · ... ... ... ... ... Aj · · · πj.π.k · · · πj. ... ... ... ... ... · · · π.k · · · 1 πjk = πj.π.k, takže potom EYjk = Nπj.π.k , přičemž J j=1 πj. = K k=1 π.k = 1. Poznámka 5.3. Poznamenejme, že existuje samozřejmě více testů v kontingenčních tabulkách, např. test homogenity. Případně lze tyto testy rozšířit na vícerozměrné kontingenční tabulky. Pro více informací o modelech pro tyto případy odkazujeme čtenáře na [5]. 5.2. Log-lineární modely. Zkusme se na kontingenční tabulky dívat pohledem zobecněných lineárních modelů. V předchozím případě hypotéza nezávislosti vede k multiplikativnímu modelu, který logaritmováním lze převést na model lineární a odtud pramení všeobecně zažité pojmenování log-lineární modely. Nyní pro předchozí model hledejme odpovídající GLM model: Pro model s celkovou dodatečnou podmínkou lze hypotézu o nezávislosti dvou faktorů definovat takto EYjk = Nπj.π.k , přičemž J j=1 πj. = 1 a K k=1 π.k = 1. V GLM s log-lineární linkovací funkcí máme ηjk = log EYjk = x′ jkβ, tedy ηjk = log EYjk = log(Nπj.π.k) = µ =log N + αj =log πj. + βk =log π.k . Pokud bychom nepředpokládali nezávislost faktorů A a B, dostaneme maximální model ηjk = log EYjk = log(Nπjk) = µ =log N + αj + βk + (αβ)jk =log πjk Vidíme, že základní i maximální modely jsou přeparametrizovány. Proto se musí upravit, například tak, že položíme α1 = β1 = 0 resp. navíc (αβ)11 = 0 tzv. metoda horního rohu nebo J j=1 αj = 1 a K k=1 βk = 0 resp. navíc J j=1 K k=1 (αβ)jk = 0. Všimněme si počtů parametrů pro jednotlivé úrovně µ obecná střední hodnota 1 α hlavní efekt J − 1 β hlavní efekt K − 1 αβ interakce prvního řádu (J − 1)(K − 1) celkem n = JK 138 M5VM05 Statistické modelování Vidíme, že hypotéza nezávislosti dvou faktorů v kontingenčních tabulkách je ekvivalentní s hypotézou neexistence interakcí v analýze rozptylu (deviace), tj. H0 : (αβ)jk = 0 j = 1, . . . , J; k = 1, . . . , K. V log-lineárních modelech jsou obvykle výrazy vyšších řádů definovány jako odchylky od výrazů nižšího řádu. Tak například v základním modelu výraz αj reprezentuje rozdíl efektu řádku j od obecné střední hodnoty µ. Takže model je hiearchický v tom smyslu, že výrazy vyšších řádů nejsou obsaženy ve výrazech nižších řádů. Shrňme předchozí výsledky: GLMmax H0 : EYjk = Nπjk ⇒ ηjk = log EYjk = µ log N + αj + βk + (αβ)jk log πjk GLM H0 : EYjk = Nj.πj.π.k ⇒ ηjk = log EYjk = log(Nπj.π.k) = µ =log N + αj =log πj. + βk =log π.k . V této kapitole jsme se pokusili o stručný popis modelování kontingenčních tabulek v souvislosti se zobecněnými lineárními modely. Pro podrobnější analýzu závislosti náhodných veličin pomocí kontingenčních tabulek odkazujeme čtenáře na další kapitolu. Příklad 5.4. V následující kontingenční tabulce jsou obsaženy údaje studie 400 pacientů o počtech různých typů onemocnění rakovinou kůže (Malignant Melanoma) v závislosti na části těla, kde se vyskytují. Část těla Typ rakoviny končetiny hlava a krk trup Hutchinson’s melanotic freckle 10 22 2 neurčitý 28 11 17 Nodular 73 19 33 Superficial spreading melanoma 115 16 54 Na hladině významnosti α = 0, 05 testujte hypotézu, zda typ rakoviny kůže závisí na části těla, kde se vyskytuje. Řešení. Nejprve definujeme oba log-lineární modely, tj. model m1, který předpokládá nezávislost obou faktorů a model m2, který počítá i s interakcemi. Model m1 je tedy submodelem modelu m2. K testování využijeme analýzu deviace, Pearsonův test. Jeho p-hodnota vychází 2, 05 × 10−9 a proto zamítáme hypotézu o nezávislosti typu rakoviny kůže na části těla, kde se vyskytuje. Výsledky obou modelů lze také znázornit pomocí mozaikového grafu. Graf pro model m1 je znázorněn na Obr. 11, graf pro model m2 je vykreslen na Obr. 12. Úlohy k procvičení Cvičení 5.1. V souboru „heart.RData jsou uvedena data o přítomnosti infarktu myokardu v závislosti na věku pacienta. Datový soubor obsahuje tyto proměnné: age věk pacienta (roky) chd indikátor infarktu (1 – nastal, 0 – nenastal) Pro modelování závislosti použijte logistický model, probitový model a model s komplementární log-log linkovací funkcí. Výsledky vykreslete do obrázku. Mgr. Jan Koláček, Ph.D. 139 Independent data Type Site hutch indet nodul super extremheadtrunk Obrázek 11: Mozaikový graf pro model, který předpokládá nezávislost. Full model Type Site hutch indet nodul super extremheadtrunk Obrázek 12: Mozaikový graf pro model s interakcemi. Cvičení 5.2. V souboru „nemocnice.RData jsou uvedeny údaje o zotavení pacientů v závislosti na závažnosti onemocnění a nemocnici, ve které se léčili. Datový soubor obsahuje tyto proměnné: 140 M5VM05 Statistické modelování Infection Severity vážnost onemocnění Treatment Outcome indikátor uzdravení (1 – zdravý, 0 – smrt) Hospital typ nemocnice (1, 2, 3) Pro modelování závislosti nalezněte vhodný logistický model. Výsledky vykreslete do ob- rázku. Cvičení 5.3. V souboru „cancer.RData jsou uvedeny údaje o počtu onemocnění rakovinou kůže u žen v závislosti na věku a oblasti v USA, ve které pacientky žily. Datový soubor obsahuje tyto proměnné: Cases počet onemocnění Town město (0 – Minneapolis (Minnesota), 1 – Dallas (Texas)) Age věková skupina pacientky Population celkový počet žen dané věkové skupiny v příslušném městě Pro modelování závislosti nalezněte vhodný logistický model. Výsledky vykreslete do obrázku. Porovnejte pravděpodobnost vzniku onemocnění u 60-ti leté pacientky žijící v Minneapolisu s pravděpodobností pro stejně starou pacientku žijící v Dallasu. [Minneapolis: 0.00117, Dallas: 0.00276.] Cvičení 5.4. V souboru „car income.RData jsou uvedeny údaje o koupi nového auta během posledních 12-ti měsíců v závislosti na příjmu domácnosti a stáří původního auta. Datový soubor obsahuje tyto proměnné: purchase indikátor nákupu nového auta (1 – ano, 0 – ne) income roční příjem domácnosti (v tis. dolarů) age stáří původního auta (roky) Nejprve vykreslete závislosti proměnné purchase na ostatních. Pro modelování závislosti nalezněte vhodný logistický model. Jsou všechny proměnné statisticky významné? Znovu modelujte s použitím proměnné age jako factor. Opět sledujte statistickou významnost age. Vyzkoušejte tuto proměnnou zakomponovat do modelu jako factor s méně úrovněmi. Výsledky vykreslete do obrázku. Cvičení 5.5. V souboru „druhy.RData jsou k dispozici data, která se týkají dlouhodobého zemědělského experimentu. Bylo sledováno 90 pozemků (pastvin) o rozloze 25 m × 25 m, lišících se v biomase, pH půdy a druhové bohatosti (počet rostlinných druhů na celém pozemku). Je dobře známo, že s rostoucí biomasou docházi k poklesu druhové bohatosti. Ale zůstává otázka, zda rychlost poklesu nesouvisí s úrovní pH v půdě. Proto byly jednotlivé pozemky klasifikovány podle hodnoty pH v půdě do tří úrovní (nízká, střední a vysoká úroveň) a do experimentu bylo vybráno vždy po 30 pozemcích pro každou úroveň. Spojitá veličina Biomass je dlouhodobým průměrem naměřených červnových hodnot biomasy. Datový soubor obsahuje tyto proměnné: pH úroveň pH v půdě (low – nízká, mid – střední, high – vysoká) Biomass množství biomasy species počet rostlinných druhů Nejprve vykreslete závislosti proměnné species na ostatních. Pro modelování závislosti nalezněte vhodný poissonovský model. Vyzkoušejte postupně logaritmickou, identickou a Mgr. Jan Koláček, Ph.D. 141 odmocninovou linkovací funkci. Jsou všechny proměnné statisticky významné? Pokud ne, zkuste modely zjednodušit a pomocí analýzy deviace rozhodněte, zda takové zjednodušení je možné. Získané výsledné modely vykreslete do obrázku. Pomocí všech modelů odhadněte počet rostlinných druhů na pozemku s hodnotou biomasy 9 a střední úrovní pH v půdě. [Odhady počtu druhů pro log link: 8,895, identity link: 4,513, sqrt link: 7,414.] Cvičení 5.6. V souboru „sharks.RData jsou k dispozici data, která popisují počty napadení žraloky na Floridě v letech 1946 až 1999. Známe také velikost populace. Datový soubor obsahuje tyto proměnné: Year rok Population velikost populace Attacks počet napadení žraloky Fatalities počet úmrtí způsobených žraloky Nejprve vykreslete bodový graf počtu napadení na 1 milión obyvatel v závislosti na čase. Pro modelování použijte binomický i poissonovský model s kanonickou linkovací funkcí. Pro matici plánu uvažujte kubický polynom v proměnné Year. Predikce obou modelů i s intervalem spolehlivosti pro regresní funkci vykreslete do obrázku. Zkoumejte také, jestli nenastal problém příliš velkého nebo příliš malého rozptylu. Pokud ano, předefinujte model a výsledky znovu vykreslete do obrázku. Pomocí výsledného modelu odhadněte, kolik útoků (na 1 milión obyvatel) způsobí žraloci na Floridě v roce 2013 a také v jakém intervalu se tato hodnota s 95% pravděpodobností bude pohybovat. [Nastal problém příliš velkého rozptylu. Odhad: 33,96 útoků na 1 milión obyvatel, interval spolehlivosti: [3, 207; 359, 55].] Cvičení 5.7. V následující kontingenční tabulce jsou obsaženy údaje o počtech různých typů onemocnění horních cest dýchacích (Respiratory Tract Infections) v závislosti na čase. Časové období Diagnóza 1-3/96 4-6/96 7-9/96 10-12/96 1-3/97 Acute bronchitis 113 58 40 108 100 Acute sinusitis 99 37 23 50 32 URI 410 228 125 366 304 Pneumonia 60 43 30 56 45 Na hladině významnosti α = 0, 05 testujte hypotézu, zda onemocnění horních cest dýchacích závisí na čase. [závisí] KAPITOLA 9 Analýza závislosti dvou veličin Základní informace (1) V následující kapitole se budeme zabývat otázkou, zda dvě náhodné veličiny jsou stochasticky nezávislé. Testování hypotézy o nezávislosti se provádí různými způsoby podle toho, jakého typu jsou dané náhodné veličiny – zda jsou nominální, ordinální, intervalové či poměrové. Jednotlivé případy budou podrobněji rozebrány a uvedeny příslušné testy. Bude také věnován prostor zjišťování intenzity případné závislosti sledovaných dvou veličin. K tomuto účelu budou zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od -1 do 1). (2) Předpokládá se znalost základních pojmů z teorie pravděpodobnosti a matematické statistiky – náhodná veličina, číselné charakteristiky náhodné veličiny, stochastická nezávislost náhodných veličin, testování hypotéz. Výstupy z výukové jednotky Studenti • umí testovat nezávislost nominálních veličin • umí určit Cramérův koeficient pro měření síly závislosti • testují nezávislost ve čtyřpolních tabulkách • umí testovat nezávislost ordinálních veličin • testují nezávislost intervalových či poměrových veličin • umí porovnat koeficient korelace s danou konstantou • umí porovnat dva korelační koeficienty 1. Motivace Při zpracování dat se velmi často setkáme s úkolem zjistit, zda dvě náhodné veličiny jsou stochasticky nezávislé. Např. nás může zajímat, zda ve sledované populaci je barva očí a barva vlasů nezávislá nebo zda počet dnů absence a věk pracovníka jsou nezávislé. Testování hypotézy o nezávislosti se provádí různými způsoby podle toho, jakého typu jsou dané náhodné veličiny – zda jsou nominální, ordinální, intervalové či poměrové. Zpravidla chceme také zjistit intenzitu případné závislosti sledovaných dvou veličin. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od -1 do 1). Čím je takový koeficient bližší 1 (resp. -1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. Poznámka 1.1. Většina textu v této kapitole byla převzata z [3]. Pro podrobnější studium tohoto tématu proto odkazujeme na tento zdroj. 2. Testování nezávislosti nominálních veličin V této sekci se budeme zabývat stochastickou nezávislostí náhodných veličin nominálního typu. Připomeňme si nejprve, co tento pojem znamená. Nominální proměnná je taková, o jejíž dvou hodnotách můžeme pouze říci, zda jsou stejné či různé (škola, fakulta, obor, krevní 143 144 M5VM05 Statistické modelování skupiny: A, B, O, A/B), tj. obsahová interpretace je možná jenom u relace rovnosti. Hodnotami mohou být texty (písmena), případně i číselné kódy. Návod 2.1 (Popis testu). Nechť X, Y jsou dvě nominální náhodné veličiny. Nechť X nabývá variant x[1], . . . , x[r] a Y nabývá variant y[1], . . . , y[s]. Pořídíme dvourozměrný náhodný výběr rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X, Y ). Zjištěné absolutní četnosti njk dvojice variant (x[j], y[k]) uspořádáme do kontingenční ta- bulky: y y[1] . . . y[s] nj. x njk x[1] n11 . . . n1s n1. ... . . . . . . . . . . . . x[r] nr1 . . . nrs nr. n.k n.1 . . . n.s n Testujeme hypotézu H0 : X, Y jsou stochasticky nezávislé náhodné veličiny proti H1 : X, Y nejsou stochasticky nezávislé náhodné veličiny. Testová statistika má tvar: K = r j=1 s k=1 njk − nj.n.k n 2 nj.n.k n . Platí-li H0, pak K se asymptoticky řídí rozložením χ2 ((r−1)(s−1)). Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti α, když K ≥ χ2 1−α((r − 1)(s − 1)). Definice 2.2. Výraz nj.n.k n se nazývá teoretická četnost. Poznámka 2.3 (Podmínka dobré aproximace). Rozložení statistiky K lze aproximovat rozložením χ2 ((r − 1)(s − 1)), pokud teoretické četnosti aspoň v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna podmínka dobré aproximace, doporučuje se slučování některých variant. Dále se budeme zabývat intenzitou případné závislosti sledovaných veličin. K tomuto účelu byl zkonstruován Cramérův1 koeficient. Definice 2.4. Cramérův koeficient je tvaru V = K n(m − 1) , kde m = min{r, s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je 1, tím je těsnější závislost mezi X a Y . Čím blíže je 0, tím je tato závislost volnější. Příklad 2.5. V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen náhodný výběr rozsahu 360. Mimo jiné se zjišťovala sociální skupina, ze které uchazeč pochází a typ školy, na kterou se hlásí. Výsledky jsou zaznamenány v kontingenční tabulce: 1Carl Harald Cramér (1893 – 1985). Švédský matematik. Mgr. Jan Koláček, Ph.D. 145 Typ školy Sociální skupina nj. I II III IV univerzitní 50 30 10 50 140 technický 30 50 20 10 110 ekonomický 10 20 30 50 110 n.k 90 100 60 110 360 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální skupiny. Vypočtěte Cramérův koeficient. Řešení. n1.n.1 n = 140·90 360 = 35, n1.n.2 n = 140·100 360 = 38, 9, n1.n.3 n = 140·60 360 = 23, 3, n1.n.4 n = 140·110 360 = 42, 8, n2.n.1 n = 110·90 360 = 27, 5, n2.n.2 n = 110·100 360 = 30, 6, n2.n.3 n = 110·60 360 = 18, 3, n2.n.4 n = 110·110 360 = 33, 6, n3.n.1 n = 110·90 360 = 27, 5, n3.n.2 n = 110·100 360 = 30, 6, n3.n.3 n 110·60 360 = 18, 3, n3.n.4 n = 110·110 360 = 33, 6 K = (50−35)2 35 + (30−38,9)2 38,9 + . . . + (50−33,6)2 33,6 = 76, 84, r = 3, s = 4, χ2 0,95(6) = 12, 6. Protože K ≥ 12, 6, hypotézu o nezávislosti typu školy a sociální skupiny zamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient: V = 76, 4 360 · 2 = 0, 3267. 2.1. Čtyřpolní tabulky. Speciálním případem kontingenčních tabulek, kdy r = s = 2 jsou čtyřpolní tabulky. Zavádí se pro ně jiné značení. Definice 2.6. Nechť r = s = 2. Pak hovoříme o čtyřpolní kontingenční tabulce a používáme označení: n11 = a, n12 = b, n21 = c, n22 = d. x y nj. y[1] y[2] x[1] a b a + b x[2] c d c + d n.k a + c b + d n Poznámka 2.7. Pro tuto tabulku navrhl R. A. Fisher přesný (exaktní) test nezávislosti známý jako Fisherův faktoriálový test. (Je popsán např. v knize [11].) Ve čtyřpolních tabulkách používáme charakteristiku OR = ad bc , která se nazývá podíl šancí (odds ratio). Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem. 146 M5VM05 Statistické modelování Výsledek pokusu okolnosti nj. I II úspěch a b a + b neúspěch c d c + d n.k a + c b + d n Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za prvních okolností je a c , za druhých okolností je b d . Definice 2.8. Podíl šancí (odds ratio) ve čtyřpolní tabulce je definován jako OR = ad bc . Věta 2.9. Pomocí 100(1−α)% asymptotického intervalu spolehlivosti pro podíl šancí lze na asymptotické hladině významnosti α testovat hypotézu o nezávislosti nominálních veličin X a Y . Asymptotický 100(1 − α)% interval spolehlivosti pro přirozený logaritmus skutečného podílu šancí má meze: ln OR ± 1 a + 1 b + 1 c + 1 d u1−α/2. Jestliže po odlogaritmování nezahrne interval spolehlivosti 1, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti α. Příklad 2.10. U 135 uchazečů o studium na jistou fakultu byl hodnocen dojem, jakým zapůsobili na komisi u ústní přijímací zkoušky. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že přijetí na fakultu nezávisí na dojmu u přijímací zkoušky. přijetí dojem nj. dobrý špatný ano 17 11 28 ne 39 58 97 n.k 56 69 125 Řešení. OR = ad bc = 17·58 11·39 = 2, 298, ln OR = 0, 832, 1 a + 1 b + 1 c + 1 d = 1 17 + 1 11 + 1 39 + 1 58 = 0, 439, u0,975 = 1, 96 ln dm = 0, 832 − 0, 439 · 1, 96 = −0, 028, ln hm = 0, 832 + 0, 439 · 1, 96 = 1, 692 ⇒ dm = e−0,28 = 0, 972, hm = e1,692 = 5, 433 Protože interval (0,972; 5,433) obsahuje číslo 1, na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti dojmu u přijímací zkoušky a přijetí na fakultu. 3. Testování nezávislosti ordinálních veličin V dalším se budeme věnovat vzájemnému vztahu náhodných veličin ordinálního typu. Ordinální (pořadová) náhodná veličina je taková, u jejíž dvou hodnot můžeme navíc určit pořadí (úroveň spokojenosti, vzdělání), tj. obsahová interpretace je možná jenom u relace rovnosti a relace uspořádání. Jako hodnoty lze použít text, datum, číslo. Mgr. Jan Koláček, Ph.D. 147 Návod 3.1 (Popis testu). Nechť X, Y jsou dvě ordinální náhodné veličiny. Pořídíme dvourozměrný náhodný výběr (X1, Y1), . . . , (Xn, Yn) z rozložení, jímž se řídí náhodný vektor (X, Y ). Označíme Ri pořadí náhodné veličiny Xi a Qi pořadí náhodné veličiny Yi, i = 1, . . . , n. Testujeme hypotézu H0 : X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H1 : X, Y jsou pořadově závislé náhodné veličiny (resp. proti levostranné alternativě H1: mezi X a Y existuje nepřímá pořadová závislost resp. proti pravostranné alternativě H1: mezi X a Y existuje přímá pořadová závislost). Testová statistika se nazývá Spearmanův koeficient pořadové korelace a má tvar: rs = 1 − 6 n(n2 − 1) n i=1 (Ri − Qi)2 . H0 zamítáme na hladině významnosti α (1) ve prospěch oboustranné alternativy, když |rS| ≥ rS,1−α(n) (2) ve prospěch levostranné alternativy, když rS ≤ −rS,1−2α(n) (3) ve prospěch pravostranné alternativy, když rS ≥ rS,1−2α(n) rS,1−α(n) je kritická hodnota, kterou pro α = 0, 05 nebo 0,01 a n ≤ 30 najdeme v tabulkách. Pro n > 30 H0 zamítáme na asymptotické hladině významnosti α ve prospěch oboustranné alternativy, když |rs| ≥ u1−α/2 √ n − 1 (analogicky pro jednostranné alternativy). Poznámka 3.2. Spearmanův koeficient rS současně měří sílu pořadové závislosti náhodných veličin X, Y . Nabývá hodnot z intervalu −1, 1 . Čím je jeho hodnota bližší −1 (resp. 1), tím je silnější nepřímá (resp. přímá) pořadová závislost veličin X, Y . Čím je jeho hodnota bližší 0, tím je slabší pořadová závislost veličin X, Y . Příklad 3.3. Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient rS a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. Řešení. rs = 1 − 6 7(72 − 1) (4 − 4)2 + (1 − 2)2 + (6 − 5)2 + (3 − 1)2 + (2 − 3)2 + (7 − 7)2 = 0, 857 Kritická hodnota: rS,0,95(7) = 0, 745. Protože 0, 857 ≥ 0, 745, nulovou hypotézu zamítáme na hladině významnosti 0,05. 4. Testování nezávislosti intervalových či poměrových veličin V poslední části této kapitoly se budeme zabývat nezávislostí náhodných veličin intervalového nebo poměrového typu. Připomeňme, že intervalová (rozdílová) proměnná je taková, 148 M5VM05 Statistické modelování pro jejíž dvě hodnoty můžeme navíc (k možnostem ordinální proměnné) vypočítat, o kolik je jedna hodnota větší (resp. menší) než druhá (měsíční příjem domácnosti, počet dětí v rodině). Hodnotami jsou tedy čísla. Poměrová (podílová) proměnná je ta, pro jejíž dvě hodnoty můžeme navíc (k možnostem intervalové proměnné) vypočítat, kolikrát je jedna hodnota větší (resp. menší) než druhá, tzn. jedná se pouze o kladné hodnoty (počet členů domácnosti). 4.1. Pearsonův koeficient korelace. V teorii pravděpodobnosti byl zaveden Pearsonův koeficient korelace náhodných veličin X, Y (které jsou aspoň intervalového charakteru) vztahem R(X, Y ) = C(X,Y ) √ D(X) √ D(Y ) pro D(X), D(Y ) > 0, 0 jinak. Připomeneme jeho vlastnosti: (1) R(X, X) = 1 (2) R(X, Y ) = R(Y, X) (3) R(a + bX, c + dY ) = sgn(bd)R(X, Y ) (4) −1 ≤ R(X, Y ) ≤ 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a, b, kde b = 0 tak, že P(Y = a + bX) = 1, přičemž R(X, Y ) = 1 pro b > 0 a R(X, Y ) = −1 pro b < 0. Z těchto vlastností plyne, že R(X, Y ) je vhodnou mírou těsnosti lineárního vztahu náhodných veličin X, Y . Definice 4.1. R(X, Y ) většinou nemůžeme počítat přímo, protože to vyžaduje znalost simultánního rozložení náhodného vektoru (X, Y ). V praxi jsme většinou odkázáni na náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí Φ(x, y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: (1) výběrové průměry M1 = 1 n n i=1 Xi, M2 = 1 n n i=1 Yi, (2) výběrové rozptyly S2 1 = 1 n − 1 n i=1 (Xi − M1)2 , S2 2 = 1 n − 1 n i=1 (Yi − M2)2 , (3) výběrovou kovarianci S12 = 1 n − 1 n i=1 (Xi − M1)(Yi − M2) S jejich pomocí zavedeme výběrový koeficient korelace R12 = S12 S1S2 pro S1S2 > 0. Poznámka 4.2. Vlastnosti koeficientu korelace uvedené v 4.1 se přenášejí i na výběrový koeficient korelace. Mgr. Jan Koláček, Ph.D. 149 4.2. Koeficient korelace dvourozměrného normálního rozdělení. Připomeňme si základní vlastnosti dvourozměrného normálního rozdělení. Ty jsou popsány v následujících tvrzeních. Věta 4.3. Nechť náhodný vektor (X, Y ) má dvourozměrné normální rozložení s hustotou ϕ(x, y) = 1 2πσ1σ2 1 − ρ2 e − 1 2(1−ρ2) ( x−µ1 σ1 )2−2ρ (x−µ1)(y−µ2) σ1σ2 +( y−µ2 σ2 )2 , přičemž µ1 = E(X), µ2 = E(Y ), σ2 1 = D(X), σ2 2 = D(Y ), ρ = R(X, Y ). Pak marginální hustoty jsou: ϕ1(x) = 1 σ1 √ 2π e (x−µ1)2 2σ2 1 , ϕ2(y) = 1 σ2 √ 2π e (y−µ2)2 2σ2 2 . Věta 4.4. Je-li ρ = 0, pak pro ∀(x, y) ∈ R2 : ϕ(x, y) = ϕ1(x)ϕ2(y), tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Definice 4.5. Je-li ρ = 0, jsou náhodné veličiny X, Y stochasticky závislé. Je-li ρ > 0, říkáme, že jsou kladně korelované, je-li ρ < 0, říkáme, že jsou záporně korelované. V dalším textu budeme předpokládat, že náhodný výběr (X1, Y1), . . ., (Xn, Yn) pochází z dvourozměrného normálního rozdělení s parametry µ1, µ2, σ2 1, σ2 2, ρ. Využitím tohoto předpokladu dostáváme návod, jak testovat nezávislost dvou náhodných veličin pomocí výběrového koeficientu korelace. Věta 4.6. Testujeme H0 : ρ = 0 proti oboustranné alternativě H1 : ρ = 0 (resp. proti levostranné alternativě H1 : ρ < 0 resp. proti pravostranné alternativě H1 : ρ > 0). Testová statistika má tvar: T = R12 √ n − 2 1 − R2 12 . Platí-li nulová hypotéza, pak T ∼ t(n − 2). Kritický obor pro test H0 proti oboustranné alternativě: W = (−∞, −t1−α/2(n − 2) ∪ t1−α/2(n − 2), ∞), proti levostranné alternativě: W = (−∞, −t1−α(n − 2) a proti pravostranné alternativě: W = t1−α(n − 2), ∞). H0 zamítáme na hladině významnosti α, když T ∈ W. Příklad 4.7. Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně kore- lované. 150 M5VM05 Statistické modelování Řešení. Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec. Obrázek 1: Dvourozměrný tečkový diagram Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti. Testujeme H0 : ρ = 0 proti pravostranné alternativě H1 : ρ > 0. Výpočtem zjistíme: R12 = 0, 6668, T = 2, 1917. V tabulkách najdeme t0,95(6) = 1, 9432. Kritický obor: W = 1, 9432; ∞). Protože T ∈ W, hypotézu o neexistenci kladné korelace výsledků z 1. a 2. testu zamítáme na hladině významnosti 0,05. 4.3. Porovnání koeficientu korelace s danou konstantou. Nyní nás bude zajímat, jak testovat hypotézu, že se korelační koeficient rovná libovolné konstantě. Tento test se provádí např. tehdy, když experimentátor porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře. Věta 4.8. Nechť c je reálná konstanta. Testujeme H0 : ρ = c proti H1 : ρ = c. Test je založen na statistice U = Z − 1 2 ln 1 + c 1 − c − c 2(n − 1) √ n − 3, která má za platnosti H0 pro n ≥ 10 asymptoticky rozložení N(0, 1), přičemž Z = 1 2 ln 1 + R12 1 − R12 je tzv. Fisherova Z-transformace. Kritický obor pro test H0 proti oboustranné alternativě tedy je W = (−∞, −u1−α/2 ∪ u1−α/2, ∞). H0 zamítáme na asymptotické hladině významnosti α, když U ∈ W. Příklad 4.9. U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být 0,9. Na asymptotické hladině významnosti 0,05 testujte hypotézu H0 : ρ = 0, 9 proti H1 : ρ = 0, 9. Mgr. Jan Koláček, Ph.D. 151 Řešení. Z = 1 2 ln 1+0,85 1−0,85 = 1, 2562, U = 1, 2562 − 1 2 ln 1+0,9 1−0,9 − 0,9 2(600−1) √ 600 − 3 = −5, 2976, u0,975 = 1, 96, W = (−∞, −1, 96 ∪ 1, 96, ∞). Protože U ∈ W, H0 zamítáme na asymptotické hladině významnosti 0,05. 4.4. Porovnání dvou koeficientů korelace. Dále uvedeme test pro situaci, kdy máme k dispozici dva nezávislé náhodné výběry z dvourozměrných normálních rozdělení a chceme zjistit, zda se jejich korelační koeficienty statisticky liší. Věta 4.10. Nechť jsou dány dva nezávislé náhodné výběry o rozsazích n a n∗ z dvourozměrných normálních rozložení s korelačními koeficienty ρ a ρ∗ . Testujeme H0 : ρ = ρ∗ proti H1 : ρ = ρ∗ . Označme R12 výběrový koeficient korelace 1. výběru a R∗ 12 výběrový koeficient korelace 2. výběru. Položme Z = 1 2 ln 1 + R12 1 − R12 a Z∗ = 1 2 ln 1 + R∗ 12 1 − R∗ 12 . Platí-li H0, pak testová statistika U = Z − Z∗ 1 n−3 + 1 n∗−3 má asymptoticky rozložení N(0, 1). Kritický obor pro test H0 proti oboustranné alternativě tedy je W = (−∞, −u1−α/2 ∪ u1−α/2, ∞). H0 zamítáme na asymptotické hladině významnosti α, když U ∈ W. Příklad 4.11. Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový koeficient korelace mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že se koeficienty korelace v obou skupinách neliší. Řešení. Z = 1 2 ln 1+0,65 1−0,65 = 0, 7753, Z∗ = 1 2 ln 1+0,37 1−0,37 = 0, 3884, U = 0,7753−0,3884√ 1 100−3 + 1 142−3 = 2, 9242, u0,975 = 1, 96, W = (−∞, −1, 96 ∪ 1, 96, ∞). Protože U ∈ W, H0 zamítáme na asymptotické hladině významnosti 0,05. 4.5. Interval spolehlivosti pro koeficient korelace. V praxi bývá velice užitečný také interval spolehlivosti pro koeficient korelace, který nám poskytuje názornou představu o závislosti dvou normálně rozdělených náhodných veličin. 152 M5VM05 Statistické modelování Věta 4.12. Jestliže dvourozměrný náhodný výběr rozsahu n pochází z dvourozměrného normálního rozložení, jehož koeficient korelace se příliš neliší od nuly (|ρ| < 0, 5) a rozsah výběru je dostatečně velký (n ≥ 100), lze odvodit, že 100(1 − α)% interval spolehlivosti pro ρ má meze R12 ± u1−α/2 1 − R2 12 √ n − 3 . Nejsou-li uvedené podmínky splněny, pak nelze tento vzorec použít, protože rozložení výběrového korelačního koeficientu je příliš zešikmené. V takovém případě využijeme následujícího tvrzení. Věta 4.13. Náhodná veličina Z = 1 2 ln 1 + R12 1 − R12 má i při malém rozsahu výběru přibližně normální rozložení se střední hodnotou E(Z) = 1 2 ln 1 + ρ 1 − ρ + ρ 2(n − 1) (2. sčítanec lze při větším n zanedbat) a rozptylem D(Z) = 1 n−3 . Standardizací veličiny Z dostaneme veličinu U = Z − E(Z) D(Z) , která má asymptoticky rozložení N(0, 1). Tudíž 100(1−α)% asymptotický interval spolehlivosti pro 1 2 ln 1+ρ 1−ρ bude mít meze Z± u1−α/2 √ n−3 . Interval spolehlivosti pro ρ pak dostaneme zpětnou transformací. Poznámka 4.14. Jelikož Z = arctgh R12, dostáváme R12 = tgh Z a meze intervalu spolehlivosti pro ρ můžeme psát ve tvaru tgh Z ± u1−α/2 √ n − 3 , přičemž tgh x = ex − e−x ex + e−x . Příklad 4.15. Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní absence za rok (veličina Y ) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10 pracovnících. Č.prac. 1 2 3 4 5 6 7 8 9 10 X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10 z dvourozměrného normálního rozložení, vypočtěte výběrový koeficient korelace a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný koeficient korelace ρ. Řešení. Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu, viz. Obr. 2. Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Mgr. Jan Koláček, Ph.D. 153 Obrázek 2: Dvourozměrný tečkový diagram Testujeme H0 : ρ = 0 proti H1 : ρ = 0. Vypočítáme R12 = −0, 9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Testová statistika: T = −7, 3053, kvantil t0,975(8) = 2, 306, kritický obor W = (−∞, −2, 306 ∪ 2, 306, ∞). Jelikož T ∈ W, zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y . Vypočítáme Z = 1 2 ln 1 + R12 1 − R12 = 1 2 ln 1 − 0, 9325 1 + 0, 9325 = −1, 6772. Meze 95% asymptotického intervalu spolehlivosti pro ρ jsou tgh (−1, 6772 ± 1,96√ 7 ), tedy −0, 9842 < ρ < −0, 7336 s pravděpodobností přibližně 0,95. Úlohy k procvičení Cvičení 4.1 (Testování nezávislosti nominálních veličin). Na hladině významnosti 0,05 testujte hypotézu o nezávislosti pedagogické hodnosti a pohlaví a vypočtěte Cramérův koeficient, jsou-li k dispozici následující údaje: pohlaví pedagogická hodnost odb. asistent docent profesor muž 32 15 8 žena 34 8 3 [hypotézu o nezávislosti pohlaví a pedagogické hodnosti nezamítáme, Cramérův koeficient: 0,187] Cvičení 4.2 (Testování nezávislosti ordinálních veličin). 12 různých softwarových firem nabízí programy pro vedení účetnictví. Programy byly posouzeny odbornou komisí a komisí složenou z profesionálních účetních. Výsledky v 1. a 2. komisi: (6,4), (7,5), (1,2), (8,10), (4,6), (2.5,1), (9,7), (12,11), (10,8), (2.5,3), (5,12), (11,9). Vypočtěte Spearmanův koeficient pořadové korelace a na hladině významnosti 0,05 testujte hypotézu o nezávislosti pořadí v obou komisích. [rs = 0, 715, nulovou hypotézu zamítáme] 154 M5VM05 Statistické modelování Cvičení 4.3 (Testování nezávislosti intervalových a poměrových veličin). V dílně pracuje 15 dělníků, u nichž byl zjištěn počet směn odpracovaných za měsíc (veličina X) a počet zhotovených výrobků (veličina Y ). Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y , sestrojte pro něj 99% asymptotický interval spolehlivosti a na hladině 0,01 testujte hypotézu o nezávislosti X a Y . x 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81 [r12 = s12 s1s2 = 0, 927, hypotézu o nezávislosti veličin X a Y zamítáme, IS pro ρ : (0, 7131; 0, 983)] Cvičení 4.4. Nechť (X1, Y1),. . . ,(X16, Y16) je náhodný výběr z dvourozměrného normálního rozložení. Výběrový koeficient korelace RXY nabyl hodnoty −0, 87. Jestliže provedeme transformaci Ui = 1 + 3Xi, Vi = −3 − Yi, i = 1, . . . , 16, jakou hodnotu nabude výběrový koeficient korelace RUV ? [RUV = 0, 87] Cvičení 4.5. 400 náhodně vybraných pracovníků potravinářského podniku bylo dotázáno na příčiny nespokojenosti na pracovišti. Výsledky jsou uvedeny v tabulce: kategorie hlavní příčina nespokojenosti pracovníků pracovní prostředí špatné vztahy organizace práce výdělek jiné dělníci 80 50 75 40 55 THP 10 10 25 30 25 Na hladině významnosti 0,05 testujte hypotézu, že hlavní příčina nespokojenosti nezávisí na kategorii, do níž je pracovník zařazen. Vypočtěte Cramérův koeficient. [hypotézu o nezávislosti zamítáme, Cramérův koeficient je V = 0, 25] Rejstřík α-kvantil, 7 četnost, 4 relativní kumulativní, 4 absolutní, 4 absolutní kumulativní, 4 kumulativní, 4 relativní, 4 teoretická, 144 šikmost, 9 špičatost, 9 analýza rozptylu, 85 autokorelace, 75 autoregrese, 75 box plot, 10 chyba druhého druhu, 30 prvního druhu, 30 střední kvadratická, 39 decil, 8 deviace, 112 škálová, 113 neškálová, 132 Fisherova Z-transformace, 150 funkce četnostní, 4 empirická distribuční, 4 linkovací, 105 logaritmická věrohodnostní, 98 podmíněná distribuční, 40 regresní, 41 rozptylová, 99 toleranční, 123 výběrová empirická distribuční, 18 věrohodnostní, 98 histogram, 6, 13, 70 hladina významnosti, 30 hodnota extrémní, 10 odlehlá, 10 hustota četnosti, 6 četnostní, 6, 70 podmíněná, 40 regulární, 96 hypotéza alternativní, 29 nulová, 29 index determinace, 43 interval spolehlivosti, 23 koeficient Cramérův, 144 korelace, 149 mnohonásobné korelace, 45 parciální korelační, 48 regresní, 54 Spearmanův, 147 výběrový, mnohonásobné korelace, 46 výběrový, parciální korelační, 48 variace, 9 korelace korelační poměr, 42 Pearsonův koeficient, 41 kovariance, 41 krabicový diagram, 10 kvartil dolní, 8 horní, 8 matice Fisherova informační, 96 korelační, 45 plánu, 54, 105 regresní, 54 výběrová korelační, 46 výběrová kovarianční, 46 medián, 8 metoda maximální věrohodnosti, 109 nejmenších čtverců, 12, 55 Newtonova – Raphsonova, 109 Scheffého, 90 skórování, 110 Tukeyova, 90 vážená, nejmenších čtverců, 76 model dávka – odpověď, 123 GLM, 105 lineární regresní, 54 log-lineární, 130, 137 155 156 M5VM05 Statistické modelování logistický, 125 maximální GLM, 112, 137 minimální GLM, 112 odmocninový, 130 probitový, 124 standardizovaných proměnných, 81 v kanonickém tvaru, 81 zobecněný lineární, 105 modus, 7 moment centrální, 9 počáteční, 9 multikolinearita, 79 N–P plot, 11 náhodná veličina realizace, 3 náhodný výběr, 18 odchylka kvartilová, 8 směrodatná, 9 výběrová směrodatná, 18 odds ratio, 146 odhad asymptoticky nestranný, 19 BLUE, 55 bodový, 19 dolní, 23 horní, 23 intervalový, 23 kladně vychýlený, 19 konzistentní, 19 lineární, 55 maximálně věrohodný, 98 MLE, 98 nejlepší nestranný, 21 nestranný, 19, 55 záporně vychýlený, 19 overdispersion, 132 P–P plot, 12 percentil, 8 podíl šancí, 146 poměr šancí, 128 průměr aritmetický, 8 geometrický, 8 vážený, 9 výběrový, 18 Q–Q plot, 12, 70 regrese hřebenová, 82 logistická, 127 vážená, 76 rezidua Anscombova, 115 deviační, 115 Pearsonova, 114 stabilizující rozptyl, 115 standardizovaná transformovaná, 114 rozdělení χ2 , 25 binomické, 100 exponenciální, 103 exponenciálního typu, 99 Fisherovo–Snedecorovo, 25 Gamma, 102 Log-Weibullovo, 126 multinomické, 136 normální, 25, 99 Poissonovo, 101, 128 Studentovo, 25 zobecněné Gumbelovo, 126 rozptyl, 9 podmíněný, 40 reziduální, 44 vážený, 9 výběrový, 18 součet čtverců celkový, 88 reziduální, 88 skupinový, 88 střední hodnota podmíněná, 40 statistika, 18 pivotová, 24, 25 Waldova, 98, 111 submodel, 112 tabulka čtyřpolní, 145 analýzy rozptylu, 88 kontingenční, 133, 144 rozložení četností, 4 test asymptotický, 77 Bartlettův, 89 dobré shody, 71 Durbinův – Watsonův, 77 homogenity, 91 Kolmogorovův - Smirnovův, 70 Kruskalův – Wallisův, 91 Levenův, 89 normality, 71 Shapirův - Wilkův, 71 underdispersion, 132 výběr párový, 28 variance inflarion factors, 80 vektor skórový, 96 variant, 3 znaky intervalového typu, 8 nominálního typu, 6 ordinálního typu, 7 poměrového typu, 8