Masarykova Univerzita Ekonomicko-správní fakulta Bayesiánská analýza z anglického originálu pro potěšení sebe i druhých přeložil, opravil, doplnil, v TEXu vysázel a v Matlabu funkční aplikace připravil Daniel Němec podzim 2011 ii Obsah Předmluva xiii 1 Základní principy a pojmy Bayesiánské ekonometrie 1 1.1 Bayesiánská teorie . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Bayesiánské výpočetní postupy . . . . . . . . . . . . . . . . . . . 5 1.3 Software pro Bayesiánskou analýzu . . . . . . . . . . . . . . . . . 8 1.4 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2 NLRM s přirozeně konjugovaným priorem – jediný regresor 11 2.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Věrohodnostní funkce . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3 Apriorní hustota . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4 Posteriorní hustota . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.5 Porovnání modelů . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.6 Predikční hustota . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.7 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.8 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3 NLRM s přirozeně konjugovaným priorem - více regresorů 33 3.1 LRM v maticovém vyjádření . . . . . . . . . . . . . . . . . . . . 33 3.2 Věrohodnostní funkce . . . . . . . . . . . . . . . . . . . . . . . . 34 3.3 Apriorní hustota . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.4 Posteriorní hustota . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.5 Porovnání modelů . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.5.1 Porovnání modelů s omezením ve tvaru nerovnosti . . . . 40 3.5.2 Omezení ve tvaru rovnosti . . . . . . . . . . . . . . . . . . 41 3.5.3 Intervaly nejvyšší posteriorní hustoty (HPDI) . . . . . . . 44 3.6 Predikční hustota . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.7 Monte Carlo integrace . . . . . . . . . . . . . . . . . . . . . . . . 46 3.8 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.9 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 iv OBSAH 4 Normální lineární regresní model s jinými priory 57 4.1 NLRM s nezávislou normální-gama apriorní hustotou . . . . . . . 58 4.1.1 Apriorní hustota . . . . . . . . . . . . . . . . . . . . . . . 58 4.1.2 Posteriorní hustota . . . . . . . . . . . . . . . . . . . . . . 58 4.1.3 Gibbsův vzorkovač . . . . . . . . . . . . . . . . . . . . . . 60 4.1.4 Markov Chain Monte Carlo diagnostiky . . . . . . . . . . 62 4.1.5 Porovnání modelů: Savage-Dickey density ratio . . . . . . 65 4.1.6 Předpověď . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.1.7 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . 68 4.2 NLRM s omezeními ve tvaru nerovnosti . . . . . . . . . . . . . . 72 4.2.1 Apriorní hustota . . . . . . . . . . . . . . . . . . . . . . . 72 4.2.2 Posteriorní hustota . . . . . . . . . . . . . . . . . . . . . . 73 4.2.3 Importance sampling . . . . . . . . . . . . . . . . . . . . . 73 4.2.4 Porovnání modelů . . . . . . . . . . . . . . . . . . . . . . 75 4.2.5 Předpověď . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.2.6 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . 77 4.3 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 5 Nelineární regresní model 81 5.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2 Věrohodnostní funkce . . . . . . . . . . . . . . . . . . . . . . . . 83 5.3 Apriorní hustota . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.4 Posteriorní hustota . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.5 Metropolis-Hastings algoritmus . . . . . . . . . . . . . . . . . . . 84 5.5.1 Independence Chain M-H algoritmus . . . . . . . . . . . . 86 5.5.2 Random Walk Chain M-H algoritmus . . . . . . . . . . . 88 5.5.3 Metropolis-within-Gibbs . . . . . . . . . . . . . . . . . . . 90 5.6 Měřítko kvality modelu: Posteriorní predikční p-hodnota . . . . . 91 5.7 Porovnání modelů: Metoda Gelfanda-Deye . . . . . . . . . . . . . 94 5.8 Predikce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.9 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.10 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6 Lineární regresní model s obecnou kovarianční maticí chyb 105 6.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.2 Model s obecnou kovarianční maticí . . . . . . . . . . . . . . . . 106 6.2.1 Věrohodnostní funkce . . . . . . . . . . . . . . . . . . . . 107 6.2.2 Apriorní hustota . . . . . . . . . . . . . . . . . . . . . . . 107 6.2.3 Posteriorní hustota . . . . . . . . . . . . . . . . . . . . . . 108 6.3 Heteroskedasticita ve známé podobě . . . . . . . . . . . . . . . . 109 6.3.1 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . 110 6.4 Heteroskedasticita v neznámé podobě . . . . . . . . . . . . . . . 112 6.4.1 Bayesovský výpočet . . . . . . . . . . . . . . . . . . . . . 114 6.4.2 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . 116 6.5 Autokorelace náhodných složek . . . . . . . . . . . . . . . . . . . 116 6.5.1 Bayesovský výpočet . . . . . . . . . . . . . . . . . . . . . 118 OBSAH v 6.5.2 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . 121 6.6 Modely zdánlivě nesouvisejících regresí . . . . . . . . . . . . . . . 121 6.6.1 Apriorní hustota . . . . . . . . . . . . . . . . . . . . . . . 122 6.6.2 Bayesovský výpočet . . . . . . . . . . . . . . . . . . . . . 123 6.6.3 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . 124 6.7 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 7 Lineární regresní model s panelovými daty 125 7.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 7.2 Souhrnný model (pooled model) . . . . . . . . . . . . . . . . . . 126 7.3 Modely individuálních vlivů (individual effects models) . . . . . . 127 7.3.1 Věrohodnostní funkce . . . . . . . . . . . . . . . . . . . . 128 7.3.2 Apriorní hustota . . . . . . . . . . . . . . . . . . . . . . . 128 7.3.3 Bayesovský výpočet . . . . . . . . . . . . . . . . . . . . . 130 7.4 Model náhodných koeficientů . . . . . . . . . . . . . . . . . . . . 132 7.4.1 Věrohodnostní funkce . . . . . . . . . . . . . . . . . . . . 132 7.4.2 Hierarchická apriorní hustota . . . . . . . . . . . . . . . . 133 7.4.3 Bayesovský výpočet . . . . . . . . . . . . . . . . . . . . . 133 7.5 Porovnání modelů: Chibova metoda . . . . . . . . . . . . . . . . 134 7.6 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . . . . . 135 7.7 Analýza efektivity a model stochastických hranic . . . . . . . . . 136 7.7.1 Úvod do modelu stochastických hranic . . . . . . . . . . . 136 7.7.2 Věrohodnostní funkce . . . . . . . . . . . . . . . . . . . . 137 7.7.3 Hierarchická apriorní hustota pro model stochastických hranic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 7.7.4 Bayesovský výpočet . . . . . . . . . . . . . . . . . . . . . 139 7.7.5 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . 140 7.8 Rozšíření . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 7.9 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 8 Úvod do časových řad 141 8.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 8.2 Local level model . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 8.2.1 Věrohodnostní funkce a apriorní hustota . . . . . . . . . . 144 8.2.2 Posteriorní hustota . . . . . . . . . . . . . . . . . . . . . . 146 8.2.3 Empirické bayesiánské metody . . . . . . . . . . . . . . . 147 8.2.4 Empirická ilustrace: Local level model . . . . . . . . . . . 150 8.3 Obecný stavový model . . . . . . . . . . . . . . . . . . . . . . . . 150 8.3.1 Bayesovský výpočet pro stavový model . . . . . . . . . . 151 8.3.2 Empirická ilustrace . . . . . . . . . . . . . . . . . . . . . . 156 8.4 Rozšíření . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 8.5 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 vi OBSAH 9 Modely kvalitativních a omezených vysvětlovaných proměnných 157 9.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 9.2 Jednorozměrné modely . . . . . . . . . . . . . . . . . . . . . . . . 159 9.3 Tobit model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 9.3.1 Empirická ilustrace: tobit model . . . . . . . . . . . . . . 161 9.4 Probit model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 9.4.1 Empirická ilustrace: probit model . . . . . . . . . . . . . . 163 9.5 Uspořádaný probit model . . . . . . . . . . . . . . . . . . . . . . 164 9.6 Multinomiální probit model . . . . . . . . . . . . . . . . . . . . . 166 9.6.1 Empirická ilustrace: Multinomiální probit model . . . . . 171 9.7 Rozšíření probit modelů . . . . . . . . . . . . . . . . . . . . . . . 171 9.8 Další rozšíření . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 9.9 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 10 Flexibilní modely 175 10.1 Bayesovská neparametrická a semiparametrická regrese . . . . . . 176 10.1.1 Přehled . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 10.1.2 Parciální lineární model . . . . . . . . . . . . . . . . . . . 177 10.1.3 Aditivní verze parciálního lineárního modelu . . . . . . . 182 10.2 Kompozice (mixture) normálních modelů . . . . . . . . . . . . . 182 10.2.1 Přehled . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 10.2.2 Věrohodnostní funkce . . . . . . . . . . . . . . . . . . . . 182 10.2.3 Apriorní hustota . . . . . . . . . . . . . . . . . . . . . . . 182 10.2.4 Bayesovský výpočet . . . . . . . . . . . . . . . . . . . . . 182 10.2.5 Porovnání modelů: Informační kritéria . . . . . . . . . . . 182 10.2.6 Empirická ilustrace: Kompozice normálních modelů . . . 182 10.3 Rozšíření a alternativní přístupy . . . . . . . . . . . . . . . . . . 182 10.4 Souhrn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 11 Bayesiánské průměrování modelů 183 12 Další modely, metody a otázky bayesiánské ekonometrie 185 12.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 12.2 Další metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 12.3 Další otázky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 12.3.1 Identifikace . . . . . . . . . . . . . . . . . . . . . . . . . . 188 12.4 Další modely . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 12.4.1 Modely časových řad . . . . . . . . . . . . . . . . . . . . . 188 12.4.2 Endogenita, výběr vzorku a další otázky . . . . . . . . . . 188 12.4.3 Modely s nestandardními vysvětlovanými proměnnými . . 188 12.4.4 Strukturální modely . . . . . . . . . . . . . . . . . . . . . 188 12.4.5 Bayesovské neparametrické metody . . . . . . . . . . . . . 188 A Úvod do maticové algebry 189 OBSAH vii B Úvod do pravděpodobnosti a matematické statistiky 195 B.1 Základy pravděpodobnosti . . . . . . . . . . . . . . . . . . . . . . 195 B.2 Běžná rozdělení pravděpodobnosti . . . . . . . . . . . . . . . . . 199 B.3 Úvod do teorie výběru . . . . . . . . . . . . . . . . . . . . . . . . 201 B.4 Další užitečné teorémy . . . . . . . . . . . . . . . . . . . . . . . . 202 C Užitečné funkce v Matlabu 203 C.1 Základní příkazy Matlabu . . . . . . . . . . . . . . . . . . . . . . 203 C.2 Generátory náhodných čísel . . . . . . . . . . . . . . . . . . . . . 203 C.3 Ekonometrický toolbox . . . . . . . . . . . . . . . . . . . . . . . . 204 Literatura 206 viii OBSAH Seznam tabulek 1.1 Přehled software pro bayesiánskou ekonometrii. . . . . . . . . . . 9 2.1 Apriorní a posteriorní charakteristiky parametru β . . . . . . . . 28 2.2 Apriorní a posteriorní charakteristiky parametru h . . . . . . . . 29 2.3 Apriorní a posteriorní charakteristiky pro model jen s úrovňovou konstantou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.1 Apriorní a posteriorní střední hodnoty pro β (směrodatné odchylky v závorkách) . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.2 Apriorní a posteriorní střední hodnoty pro h (směrodatné odchylky v závorkách) . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.3 Porovnání modelů zahrnující parametr β . . . . . . . . . . . . . . 52 3.4 Posteriorní výsledky pro parametr β2 spočítané alternativním způsobem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.1 Apriorní a posteriorní střední hodnoty pro parametr β (směrodatné odchylky v závorkách) . . . . . . . . . . . . . . . . . . . . . 70 4.2 Posteriorní výsledky pro parametr β . . . . . . . . . . . . . . . . 78 5.1 Posteriorní výsledky na základě dvou M-H algoritmů . . . . . . . 98 6.1 Posteriorní výsledky pro β, h a α . . . . . . . . . . . . . . . . . . 110 x SEZNAM TABULEK Seznam obrázků 2.1 Marginální apriorní a posteriorní hustoty pro parametr β. . . . . 29 3.1 Predikční hustota ceny domu (přirozeně konjugovaná apriorní hustota). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.1 Predikční hustota ceny domu (Gibbsův vzorkovač). . . . . . . . . 71 5.1 Posteriorní predikční hustota šikmosti. . . . . . . . . . . . . . . . 100 5.2 Posteriorní predikční hustota špičatosti. . . . . . . . . . . . . . . 101 xii SEZNAM OBRÁZKŮ Předmluva Tato práce je podkladovým materiálem k předmětu Bayesiánská analýza, ve svých počátcích vyučovaným na Ekonomicko-správní fakultě pod názvem Regresní analýza. Obsahově i strukturou vychází z vynikající knihy Garyho Koopa – Bayesian econometrics [19] a jedná se tak o jakýsi neoficiální překlad. Verze pro rok 2011 by měla dále rozšířit a opravit původní text upravovaný od roku 2007, a to v několika ohledech. Prvním z nich je doplnění kapitoly věnované flexibilním modelům, bayesovskému průměrování modelů a dalším vybraným problémům bayesovské ekonometrie. Doplněny budou rovněž části věnované empirickým příkladům, v první fázi minimálně v rozsahu, jaký nabízí Gary Koop. Postupně bych rád rozšiřil a doplnil jednotlivé kapitoly o další pasáže, které v Koopově knize najít nelze, případně jsou tam uváděny v redukované podobě. Jedná se zejména o vybraná témata z neméně zajímavé učebnice Tonyho Lancastera [21]. Dalším příkladem by mohla být specifická problematika konvergenčních diagnostik. Protože je bayesiánská ekonometrie nerozlučitelně spjata s využitím počítačů, rád bych rozšířil část přílohy věnované popisu užitečných funkcí a toolboxů pro Matlab. Práce je to však náročná zejména z časového hlediska, přesto pevně věřím, že se mi alespoň většinu z plánovaných aktivit podaří uskutečnit. xiv Předmluva Kapitola 1 Základní principy a pojmy Bayesiánské ekonometrie Ekonometrii lze definovat nejlépe jako samostatnou vědní disciplínu, která v sobě propojuje a rozšiřuje zejména poznatky ekonomické teorie, matematické ekonomie, ekonomické statistiky a matematické statistiky. Ekonometrie dodává ekonomické teorii empirický rozměr, přičemž obvykle využívá matematickou formulaci ekonomického problému, což je hlavní náplní matematické ekonomie. Každá empirická analýza je založena na reálných naměřených datech, které poskytuje ekonomická statistika. Role ekonometra v tomto případě nespočívá jen v pasivním přejímání statistických dat a ukazatelů, ale i v jejich aktivní analýze a v jejich pečlivém výběru pro účely praktického modelování. Příkladem může být ekonomický pojem “úroková míra” (použitý v rámci formulace nějaké hypotézy vycházející z ekonomické teorie), pro který lze nalézt desítky různých statistických ukazatelů. Poznatky matematické statistiky jsou následně základem ekonometrických technik a nástrojů, které jsou obvykle vytvářeny a voleny s ohledem na specifický charakter ekonomických dat a modelů. V tomto textu se budeme zabývat jedním z možných přístupů k ekonometrické analýze, a to bayesovským přístupem. Tento přístup je hojně využíván i v jiných vědních disciplínách jakými jsou biologie či medicína. Ačkoliv se tedy budeme zabývat bayesiánskou1 ekonometrií, prezentované principy (a mnohdy i modely) mají univerzální platnost. 1.1 Bayesiánská teorie Bayesiánská ekonometrie (či obecněji analýza) je založena na několika jednoduchých zákonech pravděpodobnosti. Díky tomu je bayesovský přístup charakterizován vysokou mírou univerzálnosti. Ať už budeme chtít odhadovat parametry nějakého modelu, porovnávat různě specifikované modely nebo snad vytvářet 1V dalším textu je užíváno zcela rovnocenně přídavné jméno „bayesovský i „bayesiánský . 2 Základní principy a pojmy Bayesiánské ekonometrie předpovědi, všechny tyto aktivity v sobě budou zahnovat jednotnou aplikaci několika zákonů pravděpodobnosti. Pro ilustraci bayesiánského principu předpokládejme, že máme dvě spojité náhodné veličiny A a B. Jedno ze základních pravidel pravděpodobnosti nám říká, že p(A, B) = p(A|B)p(B), kde p(A, B) je simultánní či sdružená hustota pravděpodobnosti, p(A|B) je podmíněná hustota pravděpodobnosti náhodné veličiny A za předpokladu realizace B a p(B) je marginální hustota pravděpodobnosti. Toto pravidlo samozřejmě platí i pro diskrétní náhodné veličiny, v jejichž případě stačí hustotu pravděpodobnosti nahradit pravděpodobnostní funkcí. Logicky samozřejmě platí i vztah p(A, B) = p(B|A)p(A). Bayesovo pravidlo, které je alfou a omegou bayesiánské ekonometrie, vyplývá z rovnosti výše uvedených výrazů pro sdruženou hustotu pravděpodobnosti p(A, B): p(B|A) = p(A|B)p(B) p(A) . (1.1) Pro ekonometrii a ekonomii vůbec je charakteristická práce s modely. Typickým zástupcem ekonometrického modelu je regresní model, který můžeme chápat jako určitou formu nějakého obecnějšího ekonomického modelu. V rámci něho nás zajímají koeficienty resp. parametry tohoto modelu, které obvykle chceme odhadnout. Označme si tedy písmenem y vektor či matici dat a písmenem θ vektor či matici parametrů modelu, kterým se snažíme vysvětlit chování veličiny y. Chceme se tedy dozvědět něco o parametrech θ na základě dostupných dat y. Bayesiánská ekonometrie pro tento účel využívá právě Bayesova pravidla. Stačí, pokud ve vztahu (1.1) nahradíme náhodnou veličinu B parametry θ a náhodnou veličinu A získanými daty obsaženými ve vektoru (či matici) y. Získáme tak vztah: p(θ|y) = p(y|θ)p(θ) p(y) . (1.2) Právě podmíněná hustota pravděpodobnosti p(θ|y) je v centru zájmu bayesiánců, neboť v sobě obsahuje odpověď na otázku: „Co můžeme říci o parametrech θ, při nám známých datech? . Chápání parametrů θ jako náhodné veličiny2 odlišuje bayesiánský přístup od přístupu klasické ekonometrie (v anglické literatuře je přesnější označení frequentist econometrics). Bayesiánská ekonometrie je založena na subjektivním chápání pravděpodobnosti. V tomto kontextu tedy budeme brát jako fakt, že tento přístup nám umožňuje poznat něco neznámého (např. regresní koeficienty) za předpokladu, že něco známe (např. data), přičemž nejlepší souhrnnou charakteristikou takovéhoto přístupu k poznání je koncept podmíněné pravděpodobnosti. 2Všimněme si, že pro korektnost předchozího vztahu zde logicky musí dojít k nahrazení jedněch náhodných veličin náhodnými veličinami druhými. 1.1 Bayesiánská teorie 3 Pokud nás zajímá skutečně jen to, dozvědět se něco o parametrech θ, můžeme v rovnici (1.2) ignorovat člen p(y), neboť ten v sobě θ nezahrnuje. Můžeme tedy psát: p(θ|y) ∝ p(y|θ)p(θ). (1.3) Podmíněná hustota pravděpodobnosti p(θ|y) se nazývá posteriorní hustota (či posteriorní hustota pravděpodobnosti – posterior density), funkce hustoty pravděpodobnosti (v angličtině propability density function – p.d.f ) p(y|θ) je tzv. věrohodnostní funkce (likelihood function) a výraz p(θ) je tzv. apriorní hustota (prior density). Tento vztah se obvykle čte tak, že „posteriorní hustota je proporcionální součinu věrohodnostní funkce a apriorní hustoty. Apriorní hustota či zkráceně „prior p(θ) v sobě obsahuje informaci o parametrech θ nezávislou na datech. Jinými slovy v sobě obsahuje vše, co o θ víme před tím, než se podíváme na data. Apriorní hustota je jednou z kontroverzních věcí bayesovské ekonometrie. V dalších kapitolách bude probírána otázka tzv. informativních a neinformativních priorů (apriorních hustot). Existují i bayesiánské empirické metody, které využívají informaci obsaženou v datech pro stanovení apriorní hustoty, čímž ovšem poněkud narušují základní premisu bayesiánství. Nicméně, vzhledem k úspěchům v praxi je tento druh metod čím dál populárnější a používanější. Věrohodnostní funkce p(y|θ) je podmíněnou hustotou pravděpodobnosti dat. V tomto kontextu je chápána jako proces, kterým jsou data generována. Např. v lineárním regresním modelu často předpokládáme, že náhodná složka má normální rozdělení, což dále implikuje i to, že p(y|θ) bude mít podobu odpovídající normálnímu rozdělení, jehož konkrétní podoba je závislá na hodnotě regresních koeficientů a variabilitě náhodné složky. Posteriorní hustota či zkráceně „posterior p(θ|y) v sobě zahrnuje informaci o tom, co vše víme o parametrech θ, když jsme vzali v úvahu data. Rovnici (1.3) je tedy možno chápat jako „updating rule , tedy jakési pravidlo, které nám říká, jak aktualizovat naši apriorní informaci o parametrech θ na základě její konfrontace s daty. Posteriorní hustota je tak kombinací datové i nedatové informace. V řadě aplikací nás může zajímat porovnání různých modelů, což lze uplatnit v rámci testování alternativních ekonomických hypotéz. Model je formálně definován věrohodnostní funkcí a apriorní hustotou. Předpokládejme, že máme m různých modelů Mi pro i = 1, . . . , m, které se snaží vysvětlit chování y. Mi závisí samozřejmě na parametrech θi . Posteriorní hustotu tak můžeme zapsat jako p(θi |y, Mi) = p(y|θi , Mi)p(θi |Mi) p(y|Mi) , (1.4) kdy indexy i využíváme proto, abychom odlišili prior, věrohodnostní funkci a posterior pro každý z jednotlivých modelů. Logika bayesovské ekonometrie nás vede k užití Bayesova pravidla pro odvození pravděpodobnostní výpovědi o tom co neznáme (např. zda-li model je korektní či ne) za předpokladu platnosti toho, co známe (např. data). Tím je myšleno to, že můžeme použít posteriorní pravděpodobnost modelu k vyjádření 4 Základní principy a pojmy Bayesiánské ekonometrie míry podpory náležející modelu Mi. Stačí tedy opět dosadit ve vztahu (1.1) B = Mi a A = y, abychom získali: p(Mi|y) = p(y|Mi)p(Mi) p(y) . (1.5) V této rovnici označuje výraz p(Mi) apriorní pravděpodobnost modelu, což je měřítko toho, jakou pravděpodobnost tomuto modelu přisuzujeme bez znalosti dat. Výraz p(y|Mi) je tzv. marginální věrohodnost (marginal likelihood), kterou můžeme získat ze vztahu (1.4), pokud integrujeme obě její strany podle θi a pokud využijeme známou skutečnost, že p(θi |y, Mi)dθi = 1. Po úpravě tak dostáváme: p(y|Mi) = p(y|θi , Mi)p(θi |Mi)dθi . (1.6) V dalších kapitolách uvidíme, jak prakticky marginální věrohodnost spočítáme. Výraz ve jmenovateli rovnice (1.5) není snadné přímo spočítat, proto obvykle porovnáváme dva modely, i a j, pomocí tzv. posteriorního podílu šancí (posterior odds ratio), POij, což je vzájemný podíl posteriorních pravděpodobností porovnávaných modelů: POij = p(Mi|y) p(Mj|y) = p(y|Mi)p(Mi) p(y|Mj)p(Mj) . (1.7) Mnohdy je možné spočítat posteriorní podíl přímo. Pokud tento podíl spočítáme pro každou dvojici modelů a budeme-li předpokládat, že naše množina modelů je úplná (tj. p(M1|y)+p(M2|y)+. . .+p(Mm|y) = 1), lze tímto spočítat i samotnou posteriorní pravděpodobnosti modelů. Např. pokud máme dva modely (m = 2), pak lze využít rovnice p(M1|y) + p(M2|y) = 1 a PO12 = p(M1|y) p(M2|y) , abychom získali p(M1|y) = PO12 1 + PO12 a p(M2|y) = 1 − p(M1|y). Obvykle přisuzujeme všem modelům stejnou apriorní váhu. V takovémto případě nám přejde posteriorní podíl šancí na podíl mezních věrohodností modelů, jenž je označován jako Bayesův faktor, BFij: BFij = p(y|Mi) p(y|Mj) . (1.8) Poslední otázkou, které budeme na tomto místě věnovat pozornost, je problematika předpovědí. Zajímá nás tedy, jak na základě pozorovaných dat y 1.2 Bayesiánské výpočetní postupy 5 můžeme předpovídat budoucí nepozorované hodnoty y∗ . Bayesovský přístup vede k tomu, že je třeba uvažovat o neurčitosti y∗ v kontextu podmíněné pravděpodobnosti. Předpověď je tak založena na tzv. predikční hustotě pravděpodobnosti (predictive density), p(y∗ |y), resp. v případě více alternativních modelů na predikční hustotě p(y∗ |y, Mi). Tuto predikční hustotu můžeme zapsat do běžnějšího vyjádření s využitím několika jednoduchých pravidel pro hustoty pravděpodobnosti. Jedním z nich je to, že marginální hustotu pravděpodobnosti lze získat ze sdružené hustoty pravděpodobnosti prostou integrací: p(y∗ |y) = p(y∗ , θ|y)dθ. Člen uvnitř integrálu lze dále rozepsat, čímž získáme obvyklé vyjádření predikční hustoty za pomocí posteriorní hustoty pravděpodobnosti: p(y∗ |y) = p(y∗ |y, θ)p(θ|y)dθ. (1.9) Tímto jsme si představili základní teoretické pojmy a principy bayesovské ekonometrie. Pokud jednou příjmeme, že neznámé charakteristiky (např. θ, Mi a y∗ ) jsou náhodné veličiny, dostáváme se k vnitřně logickému a nadále již nekontroverznímu bayesovkému přístupu, který využívá matematicky ověřená pravidla pravděpodobnosti pro statistickou analýzu zkoumaných charakteristik. V rámci každého modelu je třeba mít na paměti, že bayesiánská ekonometrie vyžaduje výběr apriorní hustoty a věrohodnostní funkce, které jsou dále využity k formulaci posteriorní hustoty (1.3). Zdůrazněme tedy, že posteriorní hustota je základem analýzy neznámých parametrů modelu. Pro porovnání více modelů je možno použít posteriorní pravděpodobnosti modelu (1.5), posteriorní podíl šancí (1.7) nebo Bayesův faktor (1.8), k jejichž výpočtu je obvykle třeba spočítat marginální věrohodnosti modelů (1.6). Předpověď je pak založena na predikční hustotě pravděpodobnosti obvykle získávané z (1.9). Ač se to může zdát k neuvěření, těchto několik rovnic je možno využít ke statistické analýze jakýchkoliv představitelných aplikací. 1.2 Bayesiánské výpočetní postupy Na ekonometrické půdě byl bayesiánský přístup přes svou teoretickou a konceptuální eleganci dlouho mimo hlavní pozornost. Důvody pro to byly v zásadě dvojího druhu: problematika apriorní informace a problém výpočetní. První problém se tak týká víceméně filozofické debaty užití ”subjektivní”apriorní informace v rámci ”objektivní”ekonomické vědy. Argumentem zde nicméně je to, že v ekonometrii jako takové v podstatě celý proces tvorby modelů v sobě zahrnuje širokou škálu nedatových informací, ať již jde např. o rozhodnutí jaký typ modelu použít, jaké proměnné zahrnout, jaká zvolit kritéria pro porovnání modelů či odhad parametrů apod. Z tohoto ohledu je bayesiánský přístup zcela čistý a rigorózní v tom, jak s takovýmto typem nedatové informace pracovat. Navíc, pokud je k dispozici apriorní informace, měla by být užita, neboť větší množství 6 Základní principy a pojmy Bayesiánské ekonometrie informací je vždy preferováno před menším. Poslední obranou je i skutečnost, že bayesiánství “vyvinulo” pro celou řadu modelů neinformativní priory, což dáva člověku volnost v rozhodnutí, zda-li informativní apriorní hustotu využít nebo nevyužít. Problém výpočetní náročnosti tak hrál historicky mnohem důležitější roli a byl překonán až v průběhu posledních dvaceti let, což je spojeno s rozvojem výpočetní techniky. Praktické využití bayesiánských metod totiž vyžaduje aktivní zapojení počítačů. Třeba takové rovnice pro porovnání modelů a predikci v sobě přímo či nepřímo obsahují integrály. Jen v ojedinělých případech existuje jejich analytické řešení. Obvykle tak pro vyhodnocení těchto integrálů potřebujeme počítač, s čímž souvisí rozvoj celé řady výpočetních algoritmů. Samotná rovnice definující posteriorní hustotu vyhodnocení integrálů nevyžaduje, nicméně prezentace informací o parametrech si již nějaké to počítání vynucuje. Hustota p(θ|y) shrnuje vše, co můžeme říct o parametrech θ po shlédnutí dat. Prezentovat veškerou informaci o p(θ|y) je možné pouze v ojedinělých případech, kdy se jedná o posteriorní hustotu v jednoduché formě nebo vektor θ je jednorozměrný. V tomto případě si můžeme např. vykreslit posteriorní hustoty pravděpodobnosti. Oběcně nám však jde o prezentaci různých numerických souhrnů informace obsažené v posteriorní hustotě. A zde se opět dostáváme k integrování. Je tak např. žádoucí prezentovat bodový odhad parametru θ. Bayesovský přístup řeší volbu takovéhoto odhadu v rámci teorie rozhodování (decision theory). Pro naše potřeby je dostačující vědět, že vcelku intuitivní bodové odhady jako průměr (střední hodnota), medián či modus posteriorní hustoty je možno odvodit právě v kontextu této teorie rozhodování. Předpokládejme, že chceme jako bodový odhad využít posteriorní střední hodnotu (posterior mean) a předpokládejme dále, že θ je k-prvkový vektor, θ = (θ1, . . . , θk) . Posteriorní střední hodnota je tedy definována jako: E (θi|y) = θip(θ|y)dθ. (1.10) Až na několik výjimek nelze tento integrál řešit analyticky. Vhodné je rovněž prezentovat míru stupně neurčitosti spojenou s bodovým odhadem. Obvyklým měřítkem je v tomto případě posteriorní směrodatná odchylka, tedy odmocnina posteriorního rozptylu, který lze vypočíst jako var (θi|y) = E θ2 i |y − E (θi|y) 2 , což vyžaduje vyhodnocení integrálu v (1.10) v podobě E θ2 i |y = θ2 i p(θ|y)dθ. Dle kontextu řešeného problému je možné prezentovat jiné vlastnosti posteriorního rozdělení, např. zda-li některý z parametrů je kladný. To znamená opět vyhodnocení intergálu, tentokrát ve formě: p(θi ≥ 0|y) = ∞ 0 p (θ|y) dθ. 1.2 Bayesiánské výpočetní postupy 7 Všechny tyto posteriorní výpočty lze shrnout do jednotného vztahu: E(g(θ)|y) = g(θ)p(θ|y)dθ, (1.11) kde g(θ) je funkce, která nás zajímá. Např. g(θ) = θi, pokud počítáme posteriorní střední hodnotu pro θi. Podobně bude g(θ) = 1(θi ≥ 0) v případě, kdy počítáme pravděpodobnost, že θi je kladné. Zde vystupuje 1(A) jako indikační funkce, která je rovna jedné pokud podmínka A platí a nule v ostatních případech. Predikční hustota spadá také do tohoto obecného zápisu, neboť můžeme položit g(θ) = p(y∗ |y, θ). Jedněmi z výjimek, které nespadají pod tento obecný zápis jsou marginální věrohodnost a kvantily posteriorní hustoty. V rámci dalšího výkladu bude střední hodnota E[g(θ)|y] v rámci všech diskutovaných modelů existovat, podobně jako funkce g(.). Pro některé modely však existovat nemusí. Příkladem je Cauchyho rozdělení, což je t-rozdělení s jedním stupněm volnosti, pro které střední hodnota neexistuje. Při využití bayesiánských metod v rámci nového modelu tedy může být důležité existenci střední hodnoty E[g(θ)|y] ověřit. V případě, kdy p(θ|y) odpovídá hustotě pravděpodobnosti, však budou vždy existovat kvantily této hustoty. Nejsme-li se jistí existencí E[g(θ)|y], je možné vždy prezentovat posteriorní informaci na kvantilovém základě (např. medián nebo mezikvartilové rozpětí). V ojedinělých případech je možné výraz (1.11) vyhodnotit analyticky. Obecně je však potřeba využít výpočetní techniku. V moderní bayesiánské ekonometrii je převažujícím přístupem posteriorní simulace. Existuje celá řada simulátorů a všechny jsou aplikací či rozšířením zákona velkých čísel a centrální limitní věty. Jedním z důsledků zákona velkých čísel je: Teorém 1.1 (Monte Carlo integrace). Nechť θ(s) pro s = 1, . . . , S je náhodný výběr (vzorek) z p(θ|y) a definujme gS = 1 S S s=1 g(θ(s) ). (1.12) Potom gS konverguje k E[g(θ)|y] pro S jdoucí k nekonečnu. V praxi je tím myšleno to, že pokud počítač dokáže generovat náhodný výběr z posteriorního rozdělení, můžeme aproximovat E[g(θ)|y] jednoduchým průměrováním funkce, která nás zajímá, a to vyhodnocené v rámci tohoto náhodného výběru (vzorku). Tvorba náhodných výběrů či vzorkování z posteriorní hustoty je právě nazývána posteriorní simulací, kdy θ(s) je příslušný výběr (draw) či replikace (replication). Výše uvedený teorém je v podstatě nejjednodušším posteriorním simulátorem (tzn. generujeme náhodné výběry z posteriorního rozdělení), přičemž Monte Carlo integrace je způsob jak aproximovat střední hodnotu E[g(θ)|y]. Chyba aproximace by byla nulová pouze v případě, kdy by S bylo nekonečno. Můžeme si tak zvolit libovolné S, kdy samozřejmě s růstem S se zvyšují výpočetní nároky kladené na počítač. Je mnoho způsobů jak měřit chybu aproximace spojenou s konkrétní hodnotou S. Některé z nich jsou založeny na rozšíření 8 Základní principy a pojmy Bayesiánské ekonometrie centrální limitní věty. Pro případ Monte Carlo integrace centrální limitní věta implikuje následující teorém: Teorém 1.2 (Numerická standardní chyba). Při využití definice a postupu z Teorému 1.1 platí √ S {gS − E[g(θ)|y]} → N(0, σ2 g), (1.13) pro S jdoucí k nekonečnu, přičemž σ2 g = var[g(θ)|y]. Teorém 1.2 lze využít pro odhad chyby aproximace při Monte Carlo integraci s využitím vlastností normálního rozdělení. Skutečnost, že standardizované normální rozdělení má 95 % své hustoty uvnitř intervalu definovaném 1.96 násobkem směrodatné odchylky od střední hodnoty, nás vede tedy k tomu, že: Pr −1.96 σg √ S ≤ gS − E[g(θ|y)] ≤ 1.96 σg √ S = 0.95. Volbou S lze zajistit, aby chyba odhadu gS − E[g(θ|y)] bylo dostatečně malá, a to s vysokou pravděpodobností. V praxi je σg neznámé, ovšem Monte Carlo integrace nám umožňuje její aproximaci. Výraz σg √ S se označuje jako numerická standardní chyba a lze ji interpretovat jako míru chyby aproximace. Teorém 1.2 tedy implikuje, že máme-li např. vzorek velikosti S = 10000, pak numerická standardní chyba je 1 % posteriorní směrodatné odchylky. Problémem je, že málokdy je možno Monte Carlo integraci tak snadno provést. Existují algoritmy pro náhodný výběr z mnoha obvyklých rozdělení (normální, chí-kvadrát), i když přesněji řečeno, tyto počítačové algoritmy nejsou z formálního výběru náhodné generátory, ale spíše pseudo-náhodné. V řadě modelů však posteriorní hustoty nemají žádnou z obvyklých a známých forem. V takovýchto případech je nutné využít jiných posteriorních simulátorů, jejichž vytvoření je úkolem náročnějším. K tomu se ale v dalších kapitolách samozřejmě vrátíme. 1.3 Software pro Bayesiánskou analýzu Existuje řada počítačových programů a balíčků, které jsou užitečné pro bayesiánskou analýzu v rámci určitě třídy modelů. Bayesiánská ekonometrie je však výpočetně mnohem náročnější než klasická ekonometrie. Pro nástroje a techniky klasické ekonometrie existuje celá řada programů, ve kterých uživatel může jednoduše klikat na odpovídající ikonky či nabídky a provést tak požadovaný ekonometrický postup (odhad parametrů modelu, diagnostický test apod.). Lze namítnout, že tato výhoda je i nevýhodou v tom smyslu, že podporuje ekonometry v používání jednoduše jen těch technik, které jsou v daném programu obsaženy. To může mnohdy svádět k jednoduché prezentaci výsledků odhadů, testových statistik a diagnostických testů, které nám program vrací, ale bez ohledu na to, jestli se jedná o adekvátní použití pro aplikaci či 1.3 Software pro Bayesiánskou analýzu 9 problém, který řešíme.Bayesiánská analýza nás naopak nutí přemýšlet v intencích modelů (tzn. věrohodnostní funkce a apriorní hustoty), které jsou vhodné pro empirické otázky. které potřebujeme řešit. Nepřeberná řada možných věrohodnostních funkcí a apriorních hustot tak ztěžuje vytvoření bayesovského programu s širokým použitím. Z tohoto důvodu si bayesovští ekonometři vytvářejí vlastní programy a skripty v maticových programovacích jazycích jako je např. MATLAB, Gauss nebo Ox. Tento postup není zase tak obtížný jak by se mohlo zdát. Psát si vlastní program je navíc velmi dobrým způsobem jak se donutit plně porozumět podstatě daných ekonometrických postupů. V našem případě budeme řešit příklady s využitím MATLABU, který je pravděpodobně nejběžněji používaným počítačovým jazykem pro bayesovskou ekonometrii a statistiku. Pravdou je, že se jedná o komerční software, nicméně volně dostupnou variantou tohoto produktu je Octave (používající stejný syntax) a rozšířeným programovacím jazykem podobným Matlabu (s podobným syntaxem) je pak program R a jeho balíčky. Přehled programů a nástavbových balíčků nabízí tabulka 1.1. Tabulka 1.1: Přehled software pro bayesiánskou ekonometrii. Typ - Název Výrobce Poznámka Open source Octave University of Wisconsin „analogie Matlabu R The R Project různé knihovny BUGS/WinBUGS The BUGS Project Komerční GAUSS Aptech Systems, Inc. Matlab MathWorks, Inc. Balíčky BACC John Geweke i pro Matlab DYNARE M. Juillard makromodelování Econometrics Toolbox James P. LeSage Matlab, Octave Programy Octave, R a Matlab jsou v podstatě systémy s vlastním programovacím jazykem (Octave a Matlab ho mají totožný) navržené pro složité numerické výpočty. Disponují celou řadou implementovaných či externě stáhnutelných toolboxů či pluginů (což jsou balíčky již hotových a naprogramovaných funkcí pro různé účely použití). Matlab tak má k dispozici implementovaný statistický toolbox (funkce pro základní regresní techniky a statistiku), ekonometrický toolbox (pro práci s časovými řadami) a optimalizační toolbox (nástroje pro optimalizaci). Zcela volně je pro Maltab dostupný tzv. Econometrics Toolbox, z části naprogramován a spravován Jamesem P. LeSagem [22], který obsahuje velké množství funkcí a nástrojů pro odhad široké škály ekonometrických modelů. Výhodou tohoto typu programů je však obrovská flexibilita, kdy je možné naprogramovat si funkce pro řešení i těch nejsložitějších problémů. 10 Základní principy a pojmy Bayesiánské ekonometrie Zajímavým nástrojem pro makroekonomické modelování (využívající i klasické metody odhadu) je Juillardův Dynare [17]. Ale ani člověk, který si nechce zdokonalit své dovednosti v programování nemusí zoufat. Existují balíčky z naprogramovanými funkcemi pro standardní třídy modelů. Příkladem může být program BUGS, což je akronym pro Bayesian Inference Using Gibbs Sampling), využívající techniku Gibbsova vzorkovače (s níž se blíže seznámíme). Jiným relevantním balíčkem je BACC (Bayesian Analysis, Computation and Communication), který opět pokrývá velkou spoustu obvykle používaných modelů. Jeho snadné využití je pomocí dynamické knihovny pro Matlab (lze jej tak využívat prostřednictvím Matlabu). V rámci bayesovské analýzy se uplatní i nástroje a funkce LeSageho ekonometrického toolboxu, zmiňovaného výše. Existuje spousta dalších prográmků a balíčků pro bayesovskou analýzu, ty jsou však obvykle více směřovány na statistiky než ekonometry. Carlin a Louis [2] ve své příloze nabízejí přehled těchto programů a balíčků. 1.4 Shrnutí V této kapitole jsme si představili obecně všechny základní pojmy a principy bayesiánské ekonometrie. Velkou výhodou bayesovského přístupu je to, že jsme schopni vložit veškerou obecnou teorii do jedné kapitoly, a to s využitím základních principů pravděpodobnosti. Základními stavebními kameny bayesovského přístupu jsou věrohodnostní funkce (likelihood) a apriorní hustota pravděpodobnosti (prior). Jejich součinem definujeme posteriorní hustotu pravděpodobnosti (posterior), která tvoří základ analýzy neznámých parametrů modelu. Různé modely lze porovnat s využitím posteriorních pravděpodobností modelu (posterior model probabilities, které vyžadují výpočet marginálních věrohodností (marginal likelihood). Předpověď je založena na predikční hustotě pravděpodobnosti (predictive density). V naprosté většině případů nejsme schopni pracovat s těmito základními stavebními bloky v analytických tvarech. Proto zde na scénu přichází bayesovský způsob výpočtu, jehož dominantní metodou je posteriorní simulace. Následující kapitoly se věnují konkrétním typům modelů a ukazuje se v nich, jak doposud představené abstraktní koncepty jsou zosobněny v konkrétním kontextu. Logika bayesiánské ekonometrie představená v této kapitole se promítá i do struktury následujících kapitol. Kapitoly tak obvykle začínají věrohodnostní funkcí a apriorní hustotou. Následně je odvozena posteriorní hustota spolu s výpočetními metodami posteriorní analýzy a porovnání modelů. V tomto smyslu uvažování (tedy věrohodnostní funkce, apriorní hustota, posteriorní hustota a výpočet) je dobré přemýšlet i v rámci práce na vlastních empirických projektech řešících problémy (nejen) ekonomie. Kapitola 2 Normální lineární regresní model s přirozeně konjugovaným priorem a jedinou vysvětlující proměnnou 2.1 Úvod Regresní model patří mezi základní stavební kameny ekonometrie. Tento model předpokládá závislost mezi proměnnou y (označovanou jako závisle proměnná či vysvětlovaná proměnná) a k vysvětlujícími proměnnými, označenými jako x1, . . . , xk, ve formě: y = β1 + β2x2 + . . . + βkxk + , kde představuje náhodnou složku resp. regresní chybu a x1 je obvykle roven jedné, pokud uvažujeme model s tzv. úrovňovou konstantou β1. Je tedy zřejmé, že očekáváme lineární závislost mezi vysvětlovanou proměnnou a vysvětlujícími proměnnými, proto hovoříme o lineárním regresním modelu (LRM). Pro maximální zjednodušení je v této kapitole základní koncept a motivace regresního modelu prezentována na příkladu s jedinou vysvětlující proměnnou. 2.2 Věrohodnostní funkce Věrohodnostní funkci můžeme intuitivně chápat jako předpis či stochastické pravidlo, podle kterého jsou generována data. Nechť yi a xi označují postupně 12 NLRM s přirozeně konjugovaným priorem – jediný regresor naměřená (pozorovaná) data vysvětlované a vysvětlující proměnné pro jednotlivá pozorování i, kdy i = 1, . . . , N. Máme tedy celkem N pozorování. Jednotlivá pozorování mohou být brána jako pozorování v čase, pozorování týkající se jednotlivých subjektů (např. firem, států) apod. Pro zjednodušení tedy předpokládáme lineární regresní model ve tvaru: yi = βxi + i, (2.1) kde i je náhodná chyba. Náhodná chyba je obvykle zosobněním chyb v měření (v pozorování), možné chyby specifikace modelu (obsahuje tedy nevysvětlenou složku modelu), popř. v moderní dynamické makroekonomii (pracující se systémem interdependentních, tedy vzájemně propojených rovnic) je ekvivalentem stochastických šoků (šoky v technologii, pokud máme rovnici produkční funkce, šoky v poptávce v rovnici poptávky apod.). Předpoklady kladené na i a xi určují tvar věrohodnostní funkce. Standardní předpoklady (které budou v dalších kapitolách pstupně uvolněny) jsou následu- jící: 1. i má normální rozdělení s nulovou střední hodnotou a rozptylem σ2 , přičemž i a j jsou na sobě nezávislé pro j = i. Zkráceně lze zapsat i ∼ N(0, σ2 ). V anglickém textu je možno nalézt značení, že i je i.i.d. N(0, σ2 ), kde i.i.d. je zkráceně „independent and identically distributed , tedy „nezávisle a stejně rozděleny . 2. xi jsou buď pevně daná čísla (tj. nenáhodné veličiny) nebo pokud se jedná o náhodné veličiny, pak musí být nezávislé vzhledem k i. Jejich funkce hustoty pravděpodobnosti tak může být označena jako p(xi|λ), kde λ je vektor parametrů, které nezahrnují β nebo σ2 . Předpoklad nenáhodnosti vysvětlujících proměnných nemusí být v ekonomických aplikacích vždy rozumný, nicméně nezávislost jejich případných rozdělení na náhodné složce a parametrech β a σ2 již rozumná je. Lze tak hovořit o tom, že x je exogenní proměnná (ať náhodná, nebo deterministická). Požadavek normality náhodných složek vysvětluje to, proč hovoříme o normálním lineárním regresním modelu (NLRM). Věrohodnostní funkce je definována jako funkce sdružené hustoty pravděpodobnosti pro všechna data podmíněná neznámými parametry (viz (1.3)). Pro stručnost značení definujeme vektor pozorované vysvětlované proměnné y = (y1, y2, . . . , yN ) a vysvětlující proměnné x = (x1, x2, . . . , xN ) . Věrohodnostní funkce má tedy logicky tvar podmíněnné hustoty pravděpodobnosti p(y, x|β, σ2 , λ). Druhý předpoklad (o nezávislosti vysvětlující proměnné na parametrech a rozptylu náhodné složky) umožňuje zapsat věrohodnostní funkci následujícím způsobem: p(y, x|β, σ2 , λ) = p(y|x, β, σ2 )p(x|λ) Pokud nás pravděpodobnostní rozdělení x nezajímá, můžeme pracovat s věrohodnostní funkcí p(y|x, β, σ2 ). Pro jednoduchost značení nebude vektor vysvětlujících proměnných x ve věrohodnostní funkci dále uváděn. Je však třeba mít 2.2 Věrohodnostní funkce 13 na paměti, že regresní model (ať už je s ním pracováno bayesovsky či klasicky) v sobě implicitně zahrnuje práci s rozdělením y podmíněným x, a ne sdruženým rozdělením těchto dvou náhodných vektorů. Předpoklady kladené na náhodnou složku umožňují precizní formulaci věrohodnostní funkce: • p(yi|β, σ2 ) je normální, • E(yi|β, σ2 ) = E(βxi + i|β, σ2 ) = βxi, • var(yi|β, σ2 ) = var(βxi + i|β, σ2 ) = σ2 . Střední hodnota yi vychází z faktu, že střední hodnota náhodné složek je nulová. Rozptyl je ovlivněn pouze rozptylem náhodné složky, protože uvažujeme podmíněnou střední hodnotu, kdy βixi je třeba brát jako pevné hodnoty (jejichž rozptyl je tudíž nulový). Z definice normálního rozdělení plyne analytický tvar věrohodnostní funkce: p(yi|β, σ2 ) = 1 √ 2πσ2 exp − (yi − βxi)2 2σ2 Protože pro i = j jsou i a j vzájemně nezávislé, znamená to, že i yi a yj jsou nezávislé, tedy sdružená hustota všech pozorování je p(y|β, σ2 ) = N i=1 p(yi|β, σ2 ) a věrohodnostní funkce je tak dána jako: p(y|β, σ2 ) = 1 (2π) N 2 σN exp − 1 2σ2 N i=1 (yi − βxi)2 (2.2) Pro dalši odvozování je vhodné přepsat věrohodnostní funkci trochu odlišným způsobem. Lze snadno ukázat platnost následujícího vztahu3 : N i=1 (yi − βxi)2 = νs2 + (β − β)2 N i=1 x2 i , kde ν = N − 1, (2.3) β = xiyi x2 i , (2.4) s2 = (yi − βxi)2 ν . (2.5) 3Stačí zapsat (yi − βxi)2 = {(yi − βxi) − (β − β)xi}2. 14 NLRM s přirozeně konjugovaným priorem – jediný regresor V rámci klasické ekonometrie jsou β, s2 a ν odhady získané metodou nejmenších čtverců (OLS - Ordinary Least Squares) postupně pro β, rozptyl reziduí a stupně volnosti. Jsou rovněž tzv. postačujícími statistikami pro (2.2). Mnohdy je jednodušší pracovat místo s rozptylem chyb raději s přesností chyby (error precision). Přesnost chyby je definována jednoduše jako: h = 1 σ2 . Věrohodnostní funkci lze tedy přepsat do podoby: p(y|β, h) = 1 (2π) N 2 h 1 2 exp − h 2 (β − β)2 N i=1 (xi)2 h ν 2 exp − hν 2s−2 (2.6) Je dobré si všimnout, že první člen ve složených závorkách je podobný jádrové hustotě (kernelu) normální hustoty pro β a druhý člen je podobný rozdělení gama pro h. Vzhledem k tomu, že pojem jádrová hustota je v rámci bayesiánské ekonometrie hojně využíván, nebude od věci si blíže definovat, co to vlastně je. Definice 2.1 (Jádrová hustota – kernel). Hustota pravděpodobnosti náhodné veličiny X má obvykle podobu kg(x), kde k je číselná konstanta, jejíž jedinou rolí je zajistit, aby integrál kg(x) přes všechna x byl roven jedné (a jednalo se tak o skutečnou funkci hustoty pravděpodobnosti). Zbylá část výrazu, g(x), která zahrnuje x, se nazývá jádrem (jádrovou hustotou, kernelem) této funkce. Jako příklad si vezměmě třídu hustot pravděpodobnosti beta funkcí. V tomto případě je příslušným jádrem hustoty funkce xa−1 (1 − x)b−1 , kdy k je podílem gama funkcí, jež lze pro různé typy rozdělení nalézt v Příloze B. Co je obsahem jádra závisí na tom, co považujeme za proměnné dané hustoty pravděpodobnosti. Pokud nás např. zajímá x, kernelem funkce normální hustoty pravděpodobnosti N(µ, σ2 ) je funkce exp{− 1 2σ2 (x − µ)2 } a integrační konstantou je zde 1√ 2πσ . Na druhé straně, pokud uvažujeme normální hustotu pravděpodobnosti pro dané x jako funkci parametrů µ a σ2 , je kernelem výraz 1 σ exp{− 1 2σ2 (x−µ)2 }. V obou případech nás nezajímá člen 1√ 2π . Jak již bylo řečeno, význam k spočívá v tom, aby hustota pravděpodobnosti integrovala do jedné. Pokud známe jádrovou hustotu, lze tuto konstantu nalézt integrací této hustoty, ovšem málokdy nás tato konstanta zajímá. Protože dokážeme rozpoznat třídu rozdělení podle jejich kernelu, je vcelku obvyklé zanedbávat tyto konstanty při praktických manipulacích s hustotami pravděpodobnosti. V případě Bayesova teorému je to více než zřejmé, neboť se prakticky využívá bez integrační konstanty p(y): p(θ|y) ∝ p(y|θ)p(θ), tedy posteriorní hustota je proporcionální součinu věrohodnostní funkce a apriorní hustoty. 2.3 Apriorní hustota Apriotní hustota pravděpodobnosti (zkráceně prior) v sobě obsahuje informaci, kterou má výzkumník před tím, než se podívá na data. Obvykle se vybírají 2.4 Posteriorní hustota 15 určité třídy priorů, které lze snadno interpretovat a zjednodušují výpočet. Přirozeně konjugovaný prior má obě tyto přednosti. Konjugované apriorní rozdělení je takové, které po kombinaci s věrohodnostní funkcí dává posteriorní hustotu, která spadá do téže třídy rozdělení. Přirozeně konjugované apriorní rozdělení pak má tu dodatečnou vlastnost, že má dokonce stejnou funkční formu jako věrohodnostní funkce. Důsledkem toho je, že apriorní informace může být intepretována stejným způsobem jako informace obsažená ve věrohodnostní funkci. Jinými slovy lze tento prior interpretovat tak, že pochází z fiktivního datového souboru, který je generován stejným procesem jako reálná data. V jednoduchém lineárním regresním modelu je třeba specifikovat apriorní (sdruženou) hustotu pro parametry β a h, označovanou p(β, h). Již ze zápisu této hustoty je zřejmé, že nezávisí na datech y. Obvykle se tato hustota zapisuje pomocí podmíněné a marginální hustoty pravděpodobnosti jako p(β, h) = p(β|h)p(h). V takovémto případě pak definujeme apriorní hustotu pro β|h a pro h. Tvar věrohodnostní funkce ve vztahu (2.6) nasvědčuje tomu, že přirozeně konjugovaný prior bude zahrnovat normální rozdělení pro β|h a gama rozdělení pro h. Tento typ rozdělení, který je součinem rozdělení gama a (podmíněného) normálního rozdělení, je označován jako normální-gama rozdělení. V souladu se značením uvedeným v Příloze B platí, že pokud definujeme: β|h ∼ N(β, h−1 V ) h ∼ G(s−2 , ν), získáváme přirozeně konjugovanou apriorní hustotu pro β a h jako β, h ∼ NG(β, V , s−2 , ν). (2.7) Stačí pak vybrat konkrétní hodnoty tzv. apriorních hyperparametrů β, V , s−2 a ν. V dalším značení tedy budeme užívat podtržení pro parametry apriorní hustoty a čárku nahoře pro parametry posteriorní hustoty. 2.4 Posteriorní hustota Posteriorní hustota v sobě shrnuje apriorní informaci a datovou informaci o neznámých parametrech. Je proporcionální součinu věrohodnostní funkce (2.2) a apriorní hustotě (2.7). Lze ukázat, že posteriorní hustota má rovněž normálnígama rozdělení, což samozřejmě odpovídá tomu, že apriorní hustota je skutečně přirozeně konjugovaná. To si nyní dokážeme. Posteriorní hustota pravděpodobnosti je tedy proporcionální součinu apriorní hustoty a věrohodnostní funkce. Z definice normálního-gama rozdělení pro apriorní hustotu pravděpodobnosti a drobnou úpravou věrohodnostní funkce (2.6) spočívající v roznásobení mocnin se společným základem (kdy základ opíšeme a exponenty sečteme) můžeme 16 NLRM s přirozeně konjugovaným priorem – jediný regresor psát: p(β, h|y) ∝ h 1 2 exp − h 2 (β − β)2 · V −1 · h ν−2 2 exp − hνs2 2 × h N 2 exp − h 2 νs2 + (β − β)2 x2 i = h 1+ν−2+N 2 exp − h 2 νs2 + νs2 + (β − β)2 V −1 + (β − β)2 x2 i . Dále můžeme označit ν = ν + N. Parametr β se nachází pouze v části předchozího exponentu, konkrétně v (β − β)2 V −1 + (β − β)2 x2 i , a ten snadno zapíšeme jako (β − β)2 x2 i V V −1 + (β − β)2 V −1 , kde V = (V −1 + x2 i )−1 , β = V · (V −1 β + β x2 i ). Ukažme si nyní, že tomu tak opravdu je. V první fázi umocníme obsah závorek a sdružíme členy obsahující parametr β, čímž dostaneme β2 (V −1 + x2 i ) − 2β(βV −1 + β x2 i ) + β2 V −1 + β2 x2 i . Využitím vztahů pro V a β lze psát β2 V −1 − 2ββV −1 + β2 V −1 + β2 x2 i , kdy po přidání členu (β 2 V −1 − β 2 V −1 ) získáme (β − β)2 V −1 − β 2 V −1 + β2 V −1 + β2 x2 i . Dále se můžeme soustředit na druhou část výrazu (po znaménku mínus) a dosadit původní výraz pro β, tedy − β 2 V −1 + β2 V −1 + β2 x2 i = −V (V −1 β + β x2 i )2 + β2 V −1 + β2 x2 i = −V (V −1 )2 β2 + 2ββ x2 i V −1 + β2 ( x2 i )2 + β2 V −1 + β2 x2 i = V β2 V −1 V −1 + β2 x2 i V −1 − (V −1 )2 β2 − 2ββ x2 i V −1 − β2 ( x2 i )2 = V β2 V −1 V −1 + β2 V −1 x2 i + β2 x2 i V −1 + β2 ( x2 i )2 − −(V −1 )2 β2 − 2ββ x2 i V −1 − β2 ( x2 i )2 = V β2 V −1 x2 i + β2 x2 i V −1 − 2ββ x2 i V −1 = V (β − β)2 x2 i V −1 . 2.4 Posteriorní hustota 17 Parametr β se po této úpravě nachází již jen ve členu (β − β)2 V −1 . Díky tomu je jádrová hustota pro β|y, h dána jako p(β|y, h) ∝ exp − h 2 (β − β)2 V −1 , což je jádrová hustota normální hustoty pravděpodobnosti a platí tedy, že β|y, h ∼ N(β, h−1 V ). Marginální posteriorní hustotu pro h lze odvodit na základě skutečnosti, že p(h|y) = p(β, h|y)dβ = p(h|y)p(β|y, h)dβ. Protože každá hustota pravděpodobnosti integrovaná přes všechny meze je rovna jedné, lze tímto vyintegrovat část sdružené posteriorní hustoty pravděpodobnosti zahrnující funkci normální hustoty pravděpodobnosti pro β, tedy p(β|y, h) ∝ h 1 2 exp [−h 2 (β − β)2 V −1 ]. Zůstává nám tedy p(h|y) ∝ h ν−2 2 exp − h 2 νs2 + νs2 + (β − β)2 x2 i V V −1 = h ν−2 2 exp − h 2 νs2 , kde νs2 = νs2 + νs2 + (β − β)2 x2 i V V −1 . Výraz pro p(h|y) je jádrová hustota gama rozdělení, z čehož vyplývá, že p(h|y) ∼ G(s−2 , ν). Protože rozdělení β|y, h je normální a h|y je gama, je zřejmé, že sdružená hustota rozdělení pro parametry β a h odpovídá normálnímu-gama rozdělení, v našem značení tedy NG(β, V , s−2 , ν). Apriorní i posteriorní hustota jsou obě z normálního-gama rozdělení, čímž je ověřena konjugovanost apriorní hustoty. Shrňme si tedy naše poznatky o posteriorní hustotě: β, h|y ∼ NG(β, V , s−2 , ν), (2.8) kde V = 1 V −1 + x2 i , (2.9) β = V (V −1 β + β x2 i ), (2.10) ν = ν + N (2.11) 18 NLRM s přirozeně konjugovaným priorem – jediný regresor a s−2 je implicitně definováno následovně: νs2 = νs2 + νs2 + (β − β)2 V + 1 x2 i , (2.12) což je zcela ekvivalentnímu přechozímu výrazu pro νs2 , protože x2 i V V −1 = x2 i 1 V −1 + x2 i V −1 = x2 i 1 + x2 i V = 1 1 x2 i + V . V regresním modelu nás nejvíce zajímají koeficienty β vyjadřující marginální vliv příslušné vysvětlující proměnné na proměnnou vysvětlovanou. Posteriorní střední hodnota E(β|y) je hojně používaným bodovým odhadem a posteriorní rozptyl var(β|y) je obvykle využívanou mírou neurčitosti spojenou s bodovým odhadem. Posteriorní střední hodnotu lze spočítat jako: E(β|y) = βp(β, h|y)dhdβ = βp(β|y)dβ. Pro její výpočet nás tedy zajímá marginální posteriorní hustota p(β|y). V tomto případě ji lze spočítat analyticky s využitím vlastností normálního-gama rozdělení. Využijeme-li skutečnosti, že p(β|y) = p(β, h|y)dh, potom marginální posteriorní hustota pro β odpovídá Studentovu t-rozdělení: β|y ∼ t(β, s2 V , ν), (2.13) z čehož vyplývá: E(β|y) = β, (2.14) var(β|y) = νs2 ν − 2 V . (2.15) Důkaz toho, že marginální hustota pravděpodobnosti skutečně odpovídá trozdělení je relativně snadný. Sdružená posteriorní hustota parametrů β a h, p(β, h|y) ∼ NG(β, V , s−2 , ν), má analytické vyjádření 1 (2π) 1 2 h 1 2 V − 1 2 exp − h 2 V −1 (β − β)2 2s−2 ν ν 2 Γ ν 2 −1 h ν−2 2 exp − hν 2s−2 . Marginální hustotu získáme integrací přes všechna h. Členy neobsahující h můžeme vytknout před integrál a vzhledem k tomu, že přesnost chyby h nemůže nabývat záporných hodnot, můžeme psát p(β|y) = V − 1 2 (2π) 1 2 2s−2 ν ν 2 Γ ν 2 −1 × ∞ 0 h ν−1 2 exp − h 2 V −1 (β − β)2 + ν s−2 dh. 2.4 Posteriorní hustota 19 Pro výpočet výše uvedeného integrálu lze s úspěchem využít následující vztah odpovídající definici funkce gama: ∞ 0 xr e−ax dx = Γ(r + 1) ar+1 (a > 0, r > −1), čímž dostáváme p(β|y) = V − 1 2 (2π) 1 2 2s−2 ν ν 2 Γ ν 2 −1 Γ ν + 1 2 × 1 2 V −1 (β − β)2 + ν s−2 − ν+1 2 . Po uspořádání jednotlivých členů jsme schopni získat vyjádření Studentova trozdělení t(β, s2 V , ν): p(β|y) = ν ν 2 Γ ν+1 2 (2π) 1 2 Γ ν 2 s2 V − 1 2 ν + s2 V −1 (β − β)2 − ν+1 2 . Pokud jde o přesnost chyby h, pak z normálního-gama rozdělení plyne: h|y ∼ G(s−2 , ν) (2.16) E(h|y) = s−2 (2.17) var(h|y) = 2s−4 ν . (2.18) Rovnice (2.8)-(2.18) ukazují, jak bayesiánský přístup kombinuje apriorní a datovou informaci. Tento model je jedním a snad i jediným z případů, u kterého není třeba provádět posteriorní simulaci a jsme schopni odvodit analytické řešení. Klasická ekonometrie často využívá k odhadu parametru β estimátor metody nejmenších čtverců β. Bayesovský bodový odhad β je v tomto případě váženým průměrem OLS estimátoru a apriorní střední hodnoty β. Váhy jsou proporcionální k výrazu x2 i a V −1 . Poslední z těchto výrazů vyjadřuje velikost důvěry ve zvolený prior. Pokud zadáme vysokou variabilitu našemu prioru, vyjadřujeme tím velkou míru nejistoty o tom jaká asi bude hodnota β. Výsledkem tak je, že V −1 je malé a jen malá váha je přiřazena apriorní střední hodnotě β, tedy fakticky našemu apriornímu odhadu. Podobnou roli hraje i člen x2 i , snad jen s tím rozdílem, že v sobě nese datovou informaci. Volně řečeno, zohledňuje míru důvěry v to, že data v sobě obsahují informaci o nejlepším možném odhadu parametru β, kterým je OLS estimátor β. V klasické ekonometrii je ( x2 i )−1 proporcionální k variabilitě odhadu β, k čemuž se ještě vrátíme. Nicméně, před tím si uveďme intuitivní příklad. Mějme jednoduchý případ, kdy xi = 1 pro i = 1, . . . , N. V takovémto případě je x2 i = N a váha přiřazená k OLS odhadu β je jednoduše velikost vzorku, což je rozumné měřítko pro objem informací v datech (a klasická ekonometrie to tak skutečně chápe). 20 NLRM s přirozeně konjugovaným priorem – jediný regresor V rámci výpočtu posteriorní střední hodnoty parametru jsou váhy přiřazeny přímo úměrně přesnosti (tj. převrácené hodnotě rozptylů) apriorní střední hodnoty a OLS odhadu tohoto parametru. V klasické ekonometrii je rozptyl OLS estimátoru našeho regresního modelu s2 ( x2 i )−1 , což se využívá např. k testování statistické významnosti parametru (tzv. t-statistika pro testování β = 0 je β√ s2( x2 i )−1 ). Bayesiánskou analogií je posteriorní rozptyl β daný v rovnici (2.15). Neformálně tak můžeme interpretovat část posteriorního rozptylu parametr (2.9) tak, že posteriorní přesnost je průměrem apriorní přesnosti (V −1 ) a datové přesnosti ( x2 i ). Podobně můžeme vztah (2.12) intuitivně interpretovat tak, že posteriorní součet čtverců chyb (νs2 ) je roven sumě apriorního součtu čtverců chyb (νs2 ), součtu čtverců chyb OLS estimátoru (νs2 ) a členu jenž měří míru souladu mezi apriorní a datovou informací. Z výše uvedených rovnic tedy vypývá, že bayesiánský přístup kombinuje datovou a apriorní informaci. Přirozeně konjugovaná apriorní hustota navíc implikuje, že prior je možné interpretovat tak, že vyplývá z fiktivní datové množiny. Výrazy ν a N hrají ve vztazích (2.11) a (2.12) podobnou roli, tudíž ν) lze chápat jako apriorní velikost vzorku. Na první pohled se zdá, že klasický a Bayesiánský odhad mají mnoho společného. Klasický přístup odhaduje β a jeho rozptyl s2 ( x2 i )−1 a odhadem σ2 je s2 . Bayesiánský přístup rovněž počítá posteriorní střední hodnotu a rozptyl parametru β, tj. β a νs2 ν−2 V , a odhaduje h = σ−2 pomocí posteriorní střední hodnoty s2 . Existují zde však dva zásadní rozdíly: za prvé, bayesiánské vztahy vždy kombinují datovou a apriorní informaci, a za druhé, bayesiánci interpretují parametr (resp. obecně parametry) β jakožto náhodnou veličinu. Klasický přístup chápe pouze odhad β jakožto náhodnou veličinu. Použití přirozeně konjugovaného prioru nám implikuje to, že apriorní informace vstupuje do výpočtu stejným způsobem jako datová informace. To může pomoci se specifikací prioru. Při volbě β, V , s−2 a ν může pomáhat znalost toho, že β je ekvivalentní OLS odhadu z imaginární datové sady o ν pozorování s imaginární částí rozptylu parametru x2 i rovnou V −1 a stejně tak imaginárním rozptylem náhodné složky s2 daným jako s2 . Ekonometrie je však vědou, s jejichž výstupy a výsledky přichází do styku široká veřejnost. V mnoha případech jsou čtenáři schopni posoudit a ztotožnit se s tím, co by mohlo být rozumným priorem (např. na základě ekonomické teorie, která může napovědět, jakých hodnot by parametry mohly nabývat). Ovšem v případech, kdy je možno přistoupit k problému se zcela rozdílnými priory, je možno bayesovskou analýzu spoléhající na jediný prior kritizovat. Jedním z možných řešení je analýza citlivosti apriorní hustoty. Tím je myšleno to, že empirické výsledky je možno získat za použití různých priorů. Pokud jsou v tomto případě výsledky podobné (pro rozumné priory), pak čtenář, který se s těmito výsledky seznamuje, může být přesvědčen o tom, že výzkumníci s různým apriorním pohledem na věc jsou schopni po konfrontaci s daty dojít ke stejným či podobným závěrům. Pokud naopak jsou výsledky citlivé na volbu prioru, pak data jednoduše nedostačují k tomu, aby nastala shoda mezi výzkum- 2.4 Posteriorní hustota 21 níky s různými apriorními informacemi. I v tomto případě je však bayesovský přístup schopen najít z vědeckého hlediska čistý způsob řešení této situace. Existuje samostatná literatura, která hledá meze pro např. posteriorní střední hodnotu parametru. Jedná se o tzv. analýzu extrémních mezí (extreme bounds analysis). Typický závěr této literatury je přibližně v podobě, že „pro jakoukoliv volbu V se musí β nacházet mezi specifikovanou dolní a horní mezí. Další možností pro specifikaci prioru je případ, kdy vzhledem k neshodě o apriorní informaci je nutné sáhnout k použití tzv. neinformativního prioru. Opět zde existuje rozsáhlá literatura věnovaná této problematice. Dostatečné je však v tomto případě vědět, že může být v mnoha případech vhodné, aby datová informace převážila informaci apriorní. V našem konkrétním modelu lze toho dosáhnout velmi jednoduchou cestou. Stačí konkretizovat ν jakožto dostatečně malé vzhledem k N a V dostatečně velké, což v konečném důsledku zajistí, že apriorní informace bude hrát v posteriorním vztahu velmi malou roli. Tento druh apriorní informace se nazývá relativně neinformativní prior. V limitním případě můžeme vytvořit čistě neinformativní prior nastavením ν = 0 a V −1 = 0 (tj. V → ∞). Výsledkem je posteriorní hustota parametrů v podobě β, h|y ∼ NG(β, V , s−2 , ν), kde V = 1 x2 i , (2.19) β = β, (2.20) ν = N, (2.21) νs2 = νs2 . (2.22) S čistě neinformativním priorem zahrnují výše uvedené vztahy jen datovou informaci a odpovídají ve skutečnosti výsledkům aplikace metody nejmenších čtverců. Na jedné straně má tento druh prioru atraktivní vlastnosti a je jakýmsi předělem mezi klasickým a bayesiánským přístupem (díky blízkosti výsledkům odhadu metodou nejmenších čtverců). Jeho nepříjemnou vlastností je však to, že tento prior není apriorní hustotou v pravém slova smyslu, neboť jejím integrováním nezískáme jedničku. Takovýto druh prioru se nazývá nepravý prior (improper prior). S jeho užitím je spojena řada problémů, z nichž jeden bude ilustrován na příkladu porovnání modelů. Nepravost tohoto neinformativního prioru lze ukázat tím, že posteriorní výsledky uvedené v rovnicích (2.19)-(2.22) lze získat kombinací věrohodnostní funkce s následující ”apriorní hustotou”: p(β, h) = 1 h , kde h je definováno na intervalu (0, ∞). Integrací této hustoty na příslušném intervalu získáme výsledek rovný nekonečnu. Tento druh prioru bývá obvykle zapsán jako: p(β, h) ∝ 1 h . (2.23) 22 NLRM s přirozeně konjugovaným priorem – jediný regresor opět se ale nejedná z formálního hlediska o dobrý zápis vzhledem k tomu, že nepracujeme se skutečnou funkcí hustoty pravděpodobnosti. Je třeba poznamenat, že v mnohých modelech je tendence užívat neinformativní prior jakožto nepravý prior. Většinou se jedná o aplikaci uniformího rozdělení na intervalu (−∞, ∞) (o zkoumaném parametru tak předpokládáme, že jeho realizace je stejně pravděpodobná na celé reálné ose), což samozřejmě z formálního hlediska není uniformní rozdělení, které je definováno na intervalu [a, b] pro konečné hodnoty a a b. Uniformní ”neinformativní”apriorní hustota je tak hojně užívaným nepravým priorem. 2.5 Porovnání modelů Předpokládejme, že máme dva regresní modely, M1 a M2, přičemž oba se snaží popsat chování y. Tyto modely se liší ve svých vysvětlujících proměnných. Příslušným indexem rozlišujeme i parametry těchto modelů. Model Mj pro j = 1, 2 je tedy založen na jednoduchém lineárním regresním modelu v podobě yi = βjxji + ji, (2.24) pro i = 1, . . . , N. Předpoklady kladené na vysvětlující proměnné a náhodnou složku zůstávají stejné jako v předchozím oddíle, tedy ji je z i.i.d. N(0, h−1 j ) a xji je buď nenáhodné nebo exogenní pro j = 1, 2. Pro oba modely lze zapsat přirozeně konjugované priory z normálního-gama rozdělení jako βj, hj|Mj ∼ NG(βj , V j, s−2 j , ν). (2.25) To implikuje posteriorní hustoty ve tvaru βj, hj|y, Mj ∼ NG(βj, V j, s−2 j , νj), (2.26) kde V j = 1 V −1 j + x2 ji , (2.27) βj = V j(V −1 j βj + βj x2 ji), (2.28) νj = νj + N (2.29) a s−2 je implicitně definováno jako νjs2 j = νjs2 j + νjs2 j + (βj − βj )2 V j + 1 x2 ji . (2.30) Výrazy βj, s2 j a νj jsou OLS odhady analogické těm, definovaným ve vztazích (2.3)–(2.5). Jinými slovy, veškeré výsledky odpovídají vztahům (2.7)–(2.12), až na dodané indexy j reflektující konkrétně specifikovaný model. 2.5 Porovnání modelů 23 Rovnice (2.26)–(2.30) lze využít k posteriorní analýze každého z modelů. V našem případě nás však zajímá bayesovské porovnání modelů, jež se provádí pomocí posteriorních podílů šancí: PO12 = p(y|M1)p(M1) p(y|M2)p(M2) . Apriorní pravděpodobnosti modelů p(Mi) pro i = 1, 2 je třeba zvolit před tím, než se “podíváme” na data. Neinformativní volbou je přiřazení každému z modelů stejnou pravděpodobnost, tedy p(M1) = p(M2) = 1 2 . Marginální věrohodnost p(y|Mj) se počítá jako: p(y|Mj) = p(y|βj, hj)p(βj, hj)dβjdhj. (2.31) Oproti jiným modelům lze tento integrál vyhodnotit analyticky. Výsledkem je vztah: p(y|Mj) = cj V j V j 1 2 (νjs2 j )− νj 2 (2.32) pro j = 1, 2, přičemž cj = Γ νj 2 (νjs2 j ) νj 2 Γ νj 2 π N 2 (2.33) a Γ(·) je funkce gama. Posteriorní podíl šancí porovnávající M1 a M2 je: PO12 = c1 V 1 V 1 1 2 (ν1s2 1)− ν1 2 p(M1) c2 V 2 V 2 1 2 (ν2s2 2)− ν2 2 p(M2) . (2.34) Ukažme si nyní, že tomu tak skutečně je. Odvodíme si tedy výraz pro marginální hustotu. Pro přehlednost značení nebudeme uvádět dolní index j, označující příslušnost k danému modelu. Na úvod vyjdeme ze vztahů pro věrohodnostní funkci a apriorní hustotu parametrů: p(y|β, h) = 1 (2π) N 2 h N 2 exp − h 2 (β − β)2 N i=1 (xi)2 h ν 2 exp − hν 2s−2 , p(β, h) = 1 (2π) 1 2 h 1 2 V − 1 2 exp − h 2 V −1 (β − β)2 × 2s−2 ν ν 2 Γ ν 2 −1 h ν−2 2 exp − hν 2s−2 . V dalším kroku spolu pronásobíme věrohodnostní funkci a apriorní hustotu, integrační konstanty nezávislé na parametrech β a h dáme před odpovídající 24 NLRM s přirozeně konjugovaným priorem – jediný regresor dvojitý integrál, ve kterém oddělíme členy obsahující jen h a členy závisející na β: p(y|M) = h,β p(y|β, h)p(β, h)dβdh = 1 (2π) N+1 2 V − 1 2 2s−2 ν ν 2 Γ ν 2 −1 × ∞ 0 h 1+ν+1+ν−2 2 exp − h 2 νs2 + νs2 . . . ∞ −∞ exp − h 2 β − β 2 x2 i + V −1 β − β 2 dβdh. Nejprve vyřešíme integrále podle parametru β, který lze při využití předchozího značení (a odvození) přepsat do podoby ∞ −∞ exp − h 2 β − β 2 x2 i V V −1 + β − β 2 V −1 dβ. Člen neobsahující parametr β můžeme vytknout před integrál, čímž získáme ∞ −∞ exp − h 2 β − β 2 V −1 dβ. Výraz uvnitř integrálu odpovídá jádrové hustotě normálního rozdělení parametru β, kdy β ∼ N β, h−1 V . Z definice normálního rozdělení si snadno doplníme odpovídající členy integrační konstanty, které můžeme z větší části získat z výrazů původního dvojitého integrálu. Pro přehlednost si ale členy integrační konstanty doplníme samostatně (tzn. dodáme je do integrálu a jejich inverzní hodnotu pak pro korektnost necháme před daným integrálem) a až v závěru tyto výrazy spojíme s původními členy integrálu. Můžeme tedy psát (2π) 1 2 h− 1 2 V 1 2 ∞ −∞ 1 (2π) 1 2 h 1 2 V − 1 2 exp − h 2 β − β 2 V −1 dβ. Tento integrál je ale roven jedné (neboť se jedná o integrál funkce hustoty pravděpodobnosti), tudíž přistoupíme k integraci přes h. Všechny členy neobsahující h vytkneme před integrál, čímž získáme: 1 (2π) N+1 2 V − 1 2 2s−2 ν ν 2 Γ ν 2 −1 (2π) 1 2 V − 1 2 × ∞ 0 h ν+ν 2 h− 1 2 exp − h 2 νs2 + νs2 + β − β 2 x2 i V V −1 dh. Nyní vypočítáme příslušný integrál, který lze při značení zavedené v této kapitole přepsat do podoby ∞ 0 h ν−2 2 exp − h 2 νs2 dh. 2.5 Porovnání modelů 25 V tomto případě je výraz uvnitř integrálu jádrovou hustotou gama rozdělení pro parametr h, tedy h ∼ G s−2 , ν . Funkce hustoty gama rozdělení je známá, a tak si můžeme doplnit odpovídající členy integrační konstanty, čímž dostaneme 2s−2 ν Γ ν 2 ∞ 0 2s−2 ν Γ ν 2 −1 h ν−2 2 exp − h 2 νs2 dh. Tento integrál má hodnotu jedna. Výsledkem celého našeho snažení je tak vztah pro marginální věrohodnost v podobě p(y|M) = 1 (2π) N 2 V − 1 2 V 1 2 2s−2 ν Γ ν 2 −1 2s−2 ν Γ ν 2 . Po úpravě můžeme dojít k výrazu p(y|M) = 1 (2π) N 2 V V 1 2 νs2 2 ν 2 νs2 2 − ν 2 Γ ν 2 Γ ν 2 , který plně odpovídá vztahům (2.32) a (2.33), protože díky definici ν = N + ν platí 1 2 N 2 1 2 ν 2 1 2 −ν 2 = 1 2 N+ν−ν 2 = 1 2 0 2 = 1. Posteriorní podíl šancí může být využit k výpočtu posteriorních pravděpodobností modelů p(Mj|y): p(M1|y) = PO12 1 + PO12 , p(M2|y) = 1 1 + PO12 . Pohled na posteriorní podíl šancí jasně ukazuje, co všechno vstupuje do bayesovského porovnání modelů a co jej tedy ovlivňuje. Konkrétně tedy můžeme říct: 1. Čím větší je apriorní podíl šancí p(M1) p(M2) , tím vyšší je podpora pro M1. 2. Výraz νjs2 j obsahuje člen νjs2 j , což je součet čtverců chyb (reziduí). Součet čtverců chyb je obvyklým měřítkem souladu modelu s daty, a to z hlediska jeho schopnosti reprodukovat reálná data, kdy nižší hodnoty naznačují jeho lepší soulad. Posteriorní podíl šancí tedy oceňuje model, který lépe popisuje data. 3. Pokud všechny ostatní charakteristiky jsou stejné, posteriorní podíl šancí upřednostní model, kde je větší koherence mezi apriorní a datovou informací (tj. (βj − βj )2 , což vstupuje do νjs2 j ). 26 NLRM s přirozeně konjugovaným priorem – jediný regresor 4. Člen V i V i je podíl posteriorní a apriorní variance. Tento člen lze interpretova tak, že pokud vše ostatní zůstane stejné, bude upřednostněn model s větší apriorní informací (tedy menší apriorní variancí) vztažené relativně k posteriorní informaci. V další kapitole pak bude ukázáno, že bude upřednostněn posteriorním podílem šancí ten model, který má méně parametrů, a to za předpokladu, že ostatní hodnoty si budou rovny. Toto je důlěžitá vlastnost posteriorního podílu šancí, která na tomto místě (vzhledem ke stejnému počtu parametrů) nemůže být ukázána. V případě užití neinformativní apriorní informace není marginální věrohodnost definována a stejně tak není definován i posteriorní podíl šancí. To je jeden z problémů spojených s užitím neinformativního prioru. Obvyklým řešením je nastavení ν1 = ν2, a to v podobě velmi malé hodnoty. Tentýž postup se uplatní i při volbě V −1 1 a V −1 2 . Rovněž se nastaví s1 = s2. Za těchto předpokladů je posteriorní podíl šancí definován, zjednodušuje se, a dostává se blízko k výrazu: PO12 = 1 x2 1i 1 2 (ν1s2 1)− N 2 p(M1) 1 x2 2i 1 2 (ν2s2 2)− N 2 p(M2) . (2.35) V tomto případě reflektuje posteriorní podíl šancí pouze apriorní podíl šancí, relativní kvalitu shody modelů s daty a poměr zahrnující výraz 1 x2 ji , což odpovídá přesnosti posterioru pro Mj. Toto řešení problému použití neinformativního prioru však nelze použít (jak uvídíme později) v situaci, kdy je počet parametrů v obou porovnávaných modelech odlišný. Pokud bychom chtěli porovnávat více modelů, je možné porovnat každý pár a spočítat posteriorní pravděpodobnosti každého z modelu, pokud budeme předpokládat, že součet jejich pravděpodobností je roven jedné (a máme tak úplnou množinu relevantních modelů). 2.6 Predikční hustota V této sekci se vrátíme zpět k původní specifikaci modelu s věrohodnostní funkcí a apriorní hustotou definovanou rovnicemi (2.6) až (2.7). Rovnice (2.8)–(2.12) popisují bayesiánskou metodu poznávání parametrů β a h, založeného na datové množině N pozorování. Nyní se zaměříme na predikci nepozorované hodnoty vysvětlované proměnné generované stejným modelem. Formálně budeme předpokládat vztah: y∗ = βx∗ + ∗ , (2.36) kde y∗ není pozorován. Všechny předpoklady kladené na tento model jsou stejné jako v předchozí části, tedy ∗ je nezávislé na i pro i = 1, . . . , N a má normální rozdělení N(0, h−1 ). Parametr β je totožný s parametrem definovaným v úvodu této kapitoly. Je nutné předpokládat, že x∗ je pro nás známé či pozorované, jinak by naše predikce neměla valný smysl. 2.6 Predikční hustota 27 Bayesiánská predikce je založena na predikční hustotě, která je dána jako: p (y∗ |y) = p (y∗ |y, β, h) p (β, h|y) dβdh. (2.37) Skutečnost, že ∗ nezávisí na i implikuje, že y a y∗ jsou na sobě nezávislé, a tedy p(y∗ |y, β, h) = p(y∗ |β, h). V integrálu pro posteriorní predikční hustotu se tak vyskytuje posteriorní hustota p(β, h|y) a hustota p(y∗ |β, h). Analogickou úvahou pro odvození věrohodnostní funkce dostáváme: p(y∗ |β, h) = h 1 2 (2π) 1 2 exp − h 2 (y∗ − βx∗ )2 . (2.38) Násobením této věrohodnostní funkce predikce a posteriorní hustoty a integrací podle vztahu (2.37) získáme: p(y∗ |y) ∝ [ν + (y∗ − βx∗ )2 s−2 (1 + V x∗2 )−1 ]− ν+1 2 . (2.39) Opět můžeme vidět, že se jedná o jádrovou hustotu t-rozdělení se střední hodnotou βx∗ , rozptylem νs2 ν−2 (1 + V x∗2 ) a s počtem stupňů volnosti ν. Jinými slovy y∗ |y ∼ t(βx∗ , s2 {1 + V x∗2 }, ν). (2.40) Tyto výsledky lze využít pro bodovou predikci a míru neurčitosti asociovanou s bodovou predikcí, což je standardní chyba predikce. Na tomto místě je dobré zavést důležitý bayesiánský koncept zvaný průměrování modelů (Bayesian model averaging). V předchozí části jsme si ukázali, jak vypočítat posteriorní pravděpodobnosti modelů p(Mj|y) pro j = 1, 2. Tuto charakteristiku lze využít při volbě či upřednostnění konkrétního modelu. Ne vždy je však žádoucí vybrat jeden model s nejvyšší posteriorní hustotou modelu a nezabývat se dále ostatními modely. Bayesiánské průměrování modelu v sobě zahrnuje výsledky všech modelů, ovšem prezentace výsledků probíhá průměrováním přes všechny modely. Z pravidel pravděpodobnosti jednoduše vyplývá: p(y∗ |y) = p(y∗ |y, M1)p(M1|y) + p(y∗ |y, M2)p(M2|y). (2.41) Stručně řečeno, pokud se zajímáme o predikční hustotu p(y∗ |y), neměli bychom se zaměřit na jediný model a pracovat tak např. s p(y∗ |y, M1). Měli bychom spíše průměrovat výsledky přes oba (či obecněji všechny) relevantní modely, a to za použití vah danými posteriorními hustotami pravděpodobnosti. S využitím vlastnosti operátoru očekávání dostáváme: E(y∗ |y) = E(y∗ |y, M1)p(M1|y) + E(y∗ |y, M2)p(M2|y), což lze využít k výpočtu bodové predikce získané průměrováním přes oba modely. Pokud nás zajímá nějaká funkce predikovaných hodnot g(·), pak lze předchozí výsledek zobecnit do podoby: E[g(y∗ )|y] = E[g(y∗ )|y, M1]p(M1|y) + E[g(y∗ )|y, M2]p(M2|y), (2.42) 28 NLRM s přirozeně konjugovaným priorem – jediný regresor což lze zase využít např. pro výpočet rozptylu predikce. Tyto výsledky lze zobecnit na případ více modelů nebo na případ, kde funkce, která nás zajímá, v sobě místo y∗ bude obsahovat parametry. Detailněji bude bayesovské průměrování modelů diskutováno později. 2.7 Empirická ilustrace Regresní model s jedinou vysvětlující proměnnou je příliš jednoduchý pro praktické použití, zvláště pak bez přítomnosti úrovňové konstanty. Pro ilustraci základních principů popsaných v této kapitole tak využijeme uměle vytvořená data. Volba rozsahu datového souboru, vysvětlujících proměnných a apriorních hyperparametrů je čistě ilustrativní. Budeme postupovat v následujících kro- cích: 1. Zvolíme si počet uměle vytvořených dat N = 50 a skutečné hodnoty parametrů β = 2 a h = 1. 2. Vygenerujeme si jednotlivé vysvětlující proměnné, xi, které budou pocházet z rovnoměrného (uniformního) rozdělení, U(0, 1), pro i = 1, . . . , 50. Podobně získáme jedbotlivé hodnoty náhodných složek, i, které pocházejí z normálního rozdělení, N(0, h−1 ). 3. Využijeme vytvořené vysvětlující proměnné a náhodné složky k vygenerování závisle proměnné yi = βxi + i. 4. Využijeme dva typy apriorních hustot - neinformativní (viz 2.23) a informativní, přirozeně konjugovanou (viz 2.7) s parametry β = 1.5, V = 0.25, ν = 10 a s−2 = 1. Data pro tento příklad jsou obsahem souboru data_NLRM1.mat a příklad je řešen v Matlabu ve skriptu priklad_NLRM1.mat. Zde je možno snadno replikovat výsledky na základě „originálních dat odpovídajících výsledkům prezentovaným na tomto místě či si provést bayesiánskou analýzu na datech zcela nových. Tabulka 2.1: Apriorní a posteriorní charakteristiky parametru β Prior Posterior Informativní (Inf. prior) (Neinf. prior) Stř. hodnota 1.500 1.794 1.862 Sm. odchylka* 0.559 0.199 0.216 * Jedná se o směrodatnou odchylku příslušného t-rozdělení, apriorní či posteriorní V tedy neudává přímo hodnotu rozptylu. Tabulky 2.1–2.2 ukazují výsledky odhadů pro parametry β a h, s využitím vztahů (2.8)–(2.22). Obrázek 2.1 zobrazuje posteriorní hustoty parametru β pro 2.7 Empirická ilustrace 29 Tabulka 2.2: Apriorní a posteriorní charakteristiky parametru h Prior Posterior Informativní (Inf. prior) (Neinf. prior) Stř. hodnota 1.000 1.215 1.283 Sm. odchylka* 0.447 0.222 0.257 * Jedná se o směrodatnou odchylku odpovídajícího gama rozdělení. 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 0 0.005 0.01 0.015 0.02 0.025 β Hustotapravdepodobnosti Prior Posterior Likelihood Obrázek 2.1: Marginální apriorní a posteriorní hustoty pro parametr β. případ informativní apriorní hustoty a neinformativní apriorní hustoty. Součástí je rovněž vykreslení informativní apriorní hustoty parametru β (neinformativní hustota by odpovídala nekonečné ploché přímce na intervalu (−∞, ∞). Z rovnice 2.13 vyplývá, že se jedná o funkce hustoty pravděpodobnsoti odpovídající t-rozdělení (zmiňovaná rovnice je analogická i marginální apriorní hustotě, kdy příslušné parametry odpovídají apriorním hyperparametrům). Posteriorní charakteristiky založené na neinformativní apriorní hustotě obsahují jen informaci danou věrohodnostní funkcí a odpovídají tak klasickým závěrům při využití metody nejmenších čtverců (viz vztahy (2.19)–(2.22)). Právě proto označujeme v obrázku 2.1 výslednou marginální posteriorní hustotu pro β jako věrohodnostní funkci (likelihood). 30 NLRM s přirozeně konjugovaným priorem – jediný regresor Tabulky i obrázek ukazují zcela jasně jak bayesiánský přístup kombinuje apriorní a datovou informaci do podoby posteriorní hustoty. Na obrázku 2.1 tak vidíme, že posteriorní hustota vycházející z informativního prioru vypadá jako průměr apriorní hustoty a věrohodnostní funkce. Z tabulek 2.1 a 2.2 je patrné, že posteriorní střední hodnoty obou parametrů, E(β|y) a E(h|y), které jsou založeny na totožné apriorní informaci leží mezi odpovídajícími středními hodnotami apriorní hustoty a věrohodnostní funkce (což je posteriorní hustota při neinformativním prioru). Zvolená apriorní hustota obsahuje méně informace, než té, která je obsažena v datech. To vidíme jak na obrázku, kde je apriorní hustota mnohem „roztáhlejší (rozptýlenější) než funkce věrohodnosti, případně stejný závěr vyčteme i z tabulek, kdy jsou apriorní směrodatné odchylky mnohem větší než ty, vycházející z „věrohodnostních odhadů. Je třeba mít na paměti, že díky uměle vytvořeným datům známe skutečnou hodnotu parametrů, tedy β = 2 a h = 1. Samozřejmě nemůžeme nikdy očekávat, že náš bodový odhad, což je např. posteriorní střední hodnota nebo příslušný OLS odhad budou přesně roven skutečné hodnotě hledaného parametrů. Ovšem, posteriorní střední hodnoty jsou vcelku dost blízko svým skutečným hodnotám vzhledem ke svým posteriorním směrodatným odchylkám. Uvědomme si, že posteriorní směrodatná odchylka při použití informativní apriorní hustoty jsou trochu menší než směrodatné odchylky při využití neinformativních priorů. To odpovídá intuitivně faktu, že více informací nám obecně umožňuje přesnější odhad. Je tedy rozumné předpokládat, že posteriorní hustota kombinující jak datovou, tak i apriorní informaci, bude méně rozptýlená než posteriorní hustota založená na neinformativním prioru. Vrátíme-li se zpět k vzorcům předchozích podkapitol, je tento intuitivní závěr v souladu s výrazem (2.9), který bude menší než (2.19) pokud je V > 0. Ale pozor, tato intuice nebude platit v každém případě. Pokud budou apriorní a datová informace od sebe hodně odlišné, potom (2.12) může být mnohem větší než (2.22). Protože jak V , tak i νs2 vstupují do vztahu pro posteriorní směrodatnou odchylku parametru β symetricky, je možné (i když neobvyklé), že posteriorní směrodatná odchylka při informativním prioru bude větší než při použití neinformativní apriorní hustoty. Pro ilustraci porovnání modelů předpokládejme, že nás zajímá porovnání modelu uvedeného výše s lineárním regresním modelem, který bude obsahovat pouze úrovňovou konstantu. V tomto druhém případě tedy bude vysvětlující proměnná xi = 1 pro i = 1, . . . , 50. Pro oba modely využijeme tutéž apriorní hustotu jako u modelu původního (NG(1.5, 0.25, 1, 10)). Výsledky odhadu nabízí tabulka 2.3. Budeme předpokládat apriorní podíl šancí roven jedné. V tomto případě využijeme vztah (2.34) k výpočtu posteriorního podílu šancí, který porovnává pravděpodobnosti těchto dvou modelů. My samozřejmě víme, že náš první model je ten pravý, a můžeme tak očekávat, že i podíl šancí tuto skutečnost dokáže vzít v úvahu. A skutečně tomu tak je, posteriorní podíl šancí je 7346. To slovně popíšeme tak, že na základě našich odhadů je první model 7346 krát pravděpodobnější než model druhý. Vyjádříme-li si tento podíl šancí pomocí pravděpodobností jednotlivých modelů, získáváme výsledek (oba modely chápeme jako jediné možné a vzájemně se vylučující), že p(M1|y) = 0.9999 a p(M2|y) = 0.0001, 2.8 Shrnutí 31 Tabulka 2.3: Apriorní a posteriorní charakteristiky pro model jen s úrovňovou konstantou β h Prior Posterior Prior Posterior Stř. hodnota 1.500 0.990 1.000 0.917 Sm. odchylka 0.559 0.145 0.447 0.167 Pokud bychom na tomto základě prováděli (např. v rámci predikcí) bayesovské průměrování modelů, potom bychom 99.99% váhy přiřadili výsledkům prvního modelu a jen 0.01% váhy výsledkům modelu druhého (viz (2.41)). Pokud jde o analýzu zaměřenou na predikci, tu můžeme snadno provést s využitím vztahu (2.40). Zvolme si nepozorovanou hodnotu vysvětlující proměnné x∗ = 0.5 (nepozorovanou ve smyslu toho, že nebyla použita v rámci odhadu parametrů). Při využití informativního prioru získáváme výsledek y∗ |y ∼ t(0.897, 0.833, 60). V případě neinformativní apriorní hustoty je výsledek: y∗ |y ∼ t(0.931, 0.7915, 50). Tyto pravděpodobnosti lze využít pro prezentaci bodové predikce, směrodatné odchylky predikce či jakékoli jiné funkce predikce, kterou chceme spočítat. Z vlastností t-rozdělení tak např. vyplývá, že pro informativní apriorní hustotu jsou střední hodnota E (y∗ |y) = 0.897 a směrodatná odchylka predikce je 0.928 (získáme ji jako 0.833 · 60/(60 − 2)). Analogicky postupujeme i pro neinformativní apriorní hustotu. 2.8 Shrnutí V této kapitole jsme si prošli kompletní postup bayesiánské analýzy, tzn. věrohodnostní funkci, apriorní hustotu, posteriorní hustotu, porovnání modelů a predikci. Postup jsme si ukázali na normálním lineárním regresním modelu s jedinou vysvětlující proměnnou a tzv. přirozeně konjugovanou apriorní hustotou. Pro parametry modelu, β a h, má odpovídající apriorní hustota normálnígama rozdělení. Podstatou přirozeně konjugované apriorní hustoty je to, že i posterironí hustota má normální-gama rozdělení. Pro tuto apriorní hustotu mají posteriorní hustota, predikční hustota a výrazy pro porovnání modelů analytické vyjádření. Není tedy nutné využít posteriorních simulátorů. Posteriorní hyperparametry získáváme prostým „vylepšením apriorních hyperparametrů o datovou informaci. Tyto postupy byly klíčové v dobách, kdy výpočetní technika nebyla na tak dobré úrovni, aby zvládala náročné posteriorní simulace. Nicméně, je zřejmé že předpoklad přirozeně konjugovaných apriorních hustot může být pro reálné aplikace hodně svazující (případně nereálný). 32 NLRM s přirozeně konjugovaným priorem – jediný regresor Doplněním této kapitoly bylo zavedení neinformativních apriorních hustot a Bayesovského průměrování modelů, což je významnou „specialitou bayesiánského přístupu. Kapitola 3 Normální lineární regresní model s přirozeně konjugovaným priorem – více vysvětlujících proměnných V reálných aplikacích si těžko vystačíme s regresním modelem obsahujícím jedinou vysvětlující proměnou. V této kapitole tak rozšíříme naše dosavadní znalosti o případ regresního modelu s více vysvětlujícími proměnnými. Značení a postupy v této kapitole využívají maticovou algebru, což umožňuje jednak kompaktní zápis, jednak se tak zjednodušuje prezentace samotných výsledků. Nebude asi překvapující, že výsledky a postupy prezentované v této kapitoly budou ve své podstatě identické se závěry kapitoly předchozí. 3.1 LRM v maticovém vyjádření Předpokládejme tedy, že máme data vysvětlované (závislé) proměnné yi a k vysvětlujících proměnných xi1, . . . , xik pro i = 1, . . . , N. Lineární regresní model bude mít podobu yi = β1 + β2xi2 + . . . + βkxik + i. (3.1) Aby se v modelu vyskytovala i úrovňovou konstanta, je proměnná xi1 implicitně nastavena na hodnotu 1 (smozřejmě pro případ, kdy úrovňovou konstantu mít nechceme, tak tento implicitní předpoklad nezavádíme). Mnohem kompaktněji můžeme náš model zapsat v maticové podobě, a to definováním jednotlivých 34 NLRM s přirozeně konjugovaným priorem - více regresorů vektorů rozměru N × 1 a matice rozměru N × k. Konkrétně y =       y1 y2 · · yN       =       1 2 · · N       β =       β1 β2 · · βN       X =       1 x12 · · · x1k 1 x22 · · · x2k · · · · · · · · · · · · 1 xN2 · · · xNk       . Lineární tegresní model lze maticově vyjádřit jako y = Xβ + . (3.2) 3.2 Věrohodnostní funkce Věrohodnostní funkci můžeme odvodit podobným způsobem jak je naznačeno v předchozí kapitole. Předpoklady kladené na vektor náhodných složek a matici vysvětlujících proměnných X určují tvar věrohodnostní funkce. Maticové zobecnění těchto předpokladů je následující: 1. Vektor náhodných složek je z vícerozměrného normálního rozdělení se střední hodnotou 0N a kovarianční maticí σ2 IN , kde 0N je N-rozměrný (sloupcový) nulový vektor a IN je jednotková matice rozměru N × N. Jednoduše řečeno, ∼ N(0N , h−1 In), kde přesnost chyby h = σ−2 . 2. Všechny prvky matice X jsou pevná čísla (tj. nenáhodné veličiny). V případě náhodných veličin předpokládáme, že tyto jsou nezávislé na všech prvcích vektoru a jejich funkce hustoty pravděpodobnosti je p(X|λ), kde λ je vektor parametrů, který neobsahuje β ani h. Kovarianční matice příslušná vektoru parametrů či náhodných složek je matice, která obsahuje na hlavní diagonále postupně rozptyly jednotlivých prvků tohoto vektoru. Kovariance mezi jednotlivými prvky je pak obsahem prvků mimo diagonálu (kovarianční matice je symetrická matice), tedy var( ) =       var( 1) cov( 1, 2) . . . cov( 1, 2) cov( 1, 2) var( 2) . . . . . cov( 2, 3) . . . . . . . . . cov( N−1, N ) cov( 1, N ) . . . . var( N )       =       h−1 0 . . 0 0 h−1 . . . . . . . . . . . . 0 0 . . 0 h−1       . Jinými slovy slovy, výraz var( ) = h−1 IN je kompaktnější vyjádření předpokladu, že var( i) = h−1 (konstantní rozptyl) a cov( i, j) = 0 (nezávislost jednotlivých náhodných složek) pro i, j = 1, . . . , N a i = j. 3.3 Apriorní hustota 35 Z druhého předpokladu (týkajícího se matice vysvětlujících proměnných) vyplývá, že lze věrohodnostní funkci definovat jako p(y|X, β, h), kdy pro zjednodušení zápisu matici X z tohoto výrazu vypouštíme. Z definice vícerozměrného normálního rozdělení lze psát věrohodnostní funkci v podobě p(y|β, h) = h N 2 (2π) N 2 exp − h 2 (y − Xβ) (y − Xβ) . (3.3) Opět je obvyklý zápis věrohodnostní funkce pomocí OLS odhadů, tedy: ν = N − k, (3.4) β = (X X)−1 X y, (3.5) s2 = (y − Xβ) (y − Xβ) ν , (3.6) díky čemuž si můžeme snadno ověřit, že věrohodnostní funkci lze přepsat do podoby: p(y|β, h) = 1 (2π) N 2 h 1 2 exp − h 2 (β − β) X X(β − β) h ν 2 exp − hν 2s−2 . (3.7) 3.3 Apriorní hustota S ohledem na tvar věrohodnostní funkce (3.7) je odpovídá přirozeně konjugovaná apriorní hustota normálnímu-gama rozdělení. Pokud tedy předpokládáme apriorní podmíněnou hustotu pravděpodobnosti pro β a apriorní hustotu pro h ve tvaru β|h ∼ N(β, h−1 V ) h ∼ G(s−2 , ν), potom i příslušné posteriorní hustoty budou z těchto tříd rozdělení. Sdruženou apriorní hustotu pravděpodobnosti tedy zapíšeme v podobě: β, h ∼ NG(β, V , s−2 , ν). (3.8) Jedná se o téměř identický zápis jako (2.7). Pouze β je v tomto případě krozměrný vektor obsahující apriorní střední hodnoty k regresních koeficientů β1, . . . , βk a V je pozitivně definitní matice rozměru k × k, která je pevnou součástí apriorní kovarianční matice parametrů (díky normálnímu-gama rozdělení se nejedná přímo o kovarianční matici). Sdruženou apriorní hustotu pravděpodobnosti můžeme zapsat jako p(β, h) = fNG(β, h|β, V , s−2 , ν). 3.4 Posteriorní hustota Posteriorní hustotu pravděpodobnosti parametrů získáme násobením apriorní hustoty s věrohodnostní funkcí. Podobně jako v předchozí kapitole vyjdeme z 36 NLRM s přirozeně konjugovaným priorem - více regresorů definice normálního-gama rozdělení pro apriorní hustotu pravděpodobnosti a upravíme věrohodnostní funkci (3.7) roznásobením mocnin se společným základem (kdy základ opíšeme a exponenty sečteme). Jediným rozdílem je zde práce s maticemi. Můžeme tedy psát: p(β, h|y) ∝ h k 2 exp − h 2 (β − β) V −1 (β − β) · h ν−2 2 exp − hνs2 2 × h N 2 exp − h 2 νs2 + (β − β) X X(β − β) = h k+ν−2+N 2 exp − h 2 νs2 + νs2 + (β − β) V −1 (β − β) + (β − β) X X(β − β) . Stejně jako v předchozí kapitole označíme ν = ν +N. Parametr β se nachází pouze v části exponentu, konkrétně v (β − β) V −1 (β − β) + (β − β) X X(β − β), a ten snadno zapíšeme jako (β − β) X XV V −1 (β − β) + (β − β) V −1 (β − β), kde V = (V −1 + X X)−1 , β = V · (V −1 β + X Xβ). Opět nebude od věci ukázat si, proč tomu tak je. V první fázi roznásobíme obsah závorek a sdružíme členy obsahující parametr β, čímž dostaneme β V −1 β−β V −1 β−β V −1 β+β V −1 β+β X Xβ−β X Xβ−β X Xβ+β X Xβ Uspořádáním členů a zejména pak využitím vztahů pro V a β lze psát β V −1 β + β X Xβ − β (V −1 β + X Xβ) − (β V −1 + β X X)β + β V −1 β + β X Xβ = β V −1 β − β V −1 β − β V −1 β + β V −1 β + β X Xβ Po přidání členu (β V −1 β − β V −1 β) získáme (β − β) V −1 (β − β) − β V −1 β + β V −1 β + β X Xβ. Využíváme zde toho, že V i V jsou symetrické matice (stejně jako jejich inverze), tedy např. V = V .4 Dále se můžeme soustředit na druhou část výrazu (po 4Této vlastnosti je možno využít i v úvodu odvození, kdy platí (β V −1β = (β V −1β) = β V −1β). Výsledkem součinu je totiž skalár, který i po transpozici zůstává tím samým skalá- rem. 3.4 Posteriorní hustota 37 znaménku mínus) a dosadit původní výraz pro β, tedy − β V −1 β + β V −1 β + β X Xβ = −(V −1 β + X Xβ) V V −1 V (V −1 β + X Xβ) + β V −1 β + β X Xβ = −β V −1 V V −1 β − β V −1 V X Xβ − β X XV V −1 β − β X XV X Xβ + β V −1 β + β X Xβ = −β V −1 V V −1 β − β V −1 V X Xβ − β X XV V −1 β − β X XV X Xβ + β V −1 V V −1 β + β X XV V −1 β = −β V −1 V V −1 β − β V −1 V X Xβ − β X XV V −1 β − β X XV X Xβ + β V −1 V V −1 β + β V −1 V X Xβ + β X XV V −1 β + β X XV X Xβ = −β V −1 V X Xβ − β X XV V −1 β + β V −1 V X Xβ + β X XV V −1 β = (β − β) X XV V −1 (β − β). Platí totiž β V −1 V X Xβ = (β V −1 V X Xβ) = β X XV V −1 β. Využije se zde symetrie matic V a rovněž i skutečnost, že se jedná o transpozici skaláru. Další postup je zase v souladu s tím, co bylo řečeno v předchozí kapitole. Parametr β se po naši úpravě nachází již jen ve členu (β − β) V −1 (β − β). Díky tomu je jádrová hustota pro β|y, h dána jako p(β|y, h) ∝ exp − h 2 (β − β) V −1 (β − β) , což je jádrová hustota normální hustoty pravděpodobnosti a platí tedy, že β|y, h ∼ N(β, h−1 V ). Marginální posteriorní hustotu pro h lze odvodit na základě skutečnosti, že p(h|y) = p(β, h|y)dβ = p(h|y)p(β|y, h)dβ. Protože každá hustota pravděpodobnosti integrovaná přes všechny meze je rovna jedné, lze tímto vyintegrovat část sdružené posteriorní hustoty pravděpodobnosti zahrnující funkci normální hustoty pravděpodobnosti pro β, tedy p(β|y, h) ∝ h k 2 exp [−h 2 (β − β) V −1 (β − β)]. Zůstává nám tedy p(h|y) ∝ h ν−2 2 exp − h 2 νs2 + νs2 + (β − β) X XV V −1 (β − β) = hν−2 2 exp − h 2 νs2 , kde νs2 = νs2 + νs2 + (β − β) X XV V −1 (β − β). 38 NLRM s přirozeně konjugovaným priorem - více regresorů Výraz pro p(h|y) je jádrová hustota gama rozdělení, z čehož vyplývá, že p(h|y) ∼ G(s−2 , ν). Protože rozdělení β|y, h je normální a h|y je gama, je zřejmé, že sdružená hustota rozdělení pro parametry β a h odpovídá skutečně normálnímu-gama rozdělení, v našem značení tedy NG(β, V , s− 2, ν). Apriorní i posteriorní hustota jsou z normálního-gama rozdělení, čímž je ověřena konjugovanost apriorní hustoty. Pokud si tedy shrneme dosažené výsledky, máme posteriorní hustotu v po- době: β, h|y ∼ NG(β, V , s−2 , ν), (3.9) kde V = (V −1 + X X)−1 , (3.10) β = V (V −1 β + X Xβ), (3.11) ν = ν + N (3.12) a s−2 je implicitně definováno následovně: νs2 = νs2 + νs2 + (β − β) [V + (X X)−1 ]−1 (β − β). (3.13) Není nijak obtížné ověřit si ekvivalenci výrazů X XV V −1 a [V + (X X)−1 ]−1 . Stačí si v prvním výrazu dosadit původní výraz za V a uvědomit si, že (X X) = 1 (X X)−1 a stejně tak V −1 = 1 V . Po roznásobení členů v takto získaném jmenovateli je závěr jednoznačný. Zajímá-li nás místo sdružené hustoty marginální hustota pro β, je třeba ji integrovat přes h. Výsledkem je pak vícerozměrné t-rozdělení: β|y ∼ t(β, s2 V , ν), (3.14) z čehož vyplývá: E(β|y) = β, (3.15) var(β|y) = νs2 ν − 2 V . (3.16) Postup důkazu je zcela identický s postupem z předchozí kapitoly a nebudu ho zde proto rozvádět. Pokud jde o přesnost chyby h, pak z normálního-gama rozdělení plyne: h|y ∼ G(s−2 , ν), (3.17) E(h|y) = s−2 , (3.18) var(h|y) = 2s−4 ν . (3.19) Výsledky jsou (jak již bylo několikrát zdůrazněno) podobné těm z předchozí kapitoly, jen skaláry nahradily vektory a matice. Např. β je vektor, matice 3.5 Porovnání modelů 39 (X X)−1 hraje podobnou roli jako skalár 1 x2 i , V je matice rozměru k×k apod. V kapitole 2 jsme mohli intepretovat posteriorní střední hodnotu parametru β, β, jako vážený průměr apriorní střední hodnoty, β a OLS odhadu, β, kdy váhy reflektují sílu apriorní informace obsažené v V −1 a v datech ( x2 i ). Stejnou úvahu lze použít i zde, s tím rozdílem, že se jedná o maticově vážený průměr apriorní a datové informace. Opět je samozřejmě nutné rozhodnout o volbě apriorních hyperparametrů, konkrétně tedy β, V , s−2 a ν. V mnoha případech nám při jejich volbě pomůže ekonomická teorie, zkušenost, cit či znalost předchozích empirických studií založených na jiných datových vzorcích. V tomto ohledu nám zjednodušuje volbu apriorních hyperparametrů skutečnost, že využíváme přirozeně konjugovanou apriorní hustotu. Tento druh apriorní hustoty lze chápat a interpretovat jako výsledek fiktivní datové sady generované stejným procesem jako skutečná data. Jiný přístup k volbě apriorních hyperparametrů spočívá ve volbě řady různých hodnot v rámci citlivostní analýzy, případně můžeme pracovat s relativně neinformativním priorem. Můžeme tedy volit ν hodnotově výrazně nižší než je N a V jako ”dostatečně velké”. Vzhledem k tomu, že pracujeme s maticemi, není výraz ”dostatečně velký”zrovna snadno představitelný. Maticové zobecnění nerovnosti a > b, kde a i b jsou skaláry, je obvykle chápáno tak, že rozdíl A − B je pozitivně definitní matice (porovnáváme tedy čtvercové matice stejných rozměrů). Měřítkem velikosti matice je její determinant. Pokud tedy budeme hovořit o tom, že matice ”A by měla být relativně velká vzhledem k B”, máme tím na mysli to, že A − B by měla být pozitivně definitní matice s hodnotově velkým determinantem. Čistě neinformativní prior můžeme získat volbou ν = 0 a V −1 jako dostatečně malé. To lze řešit různými způsoby. Jedním z nich je nastavení V −1 = cIk, kde c je skalár blížíci se limitně k nule. V takovémto případě bude platit β, h|y ∼ NG(β, V , s−2 , ν), kde V = (X X)−1 , (3.20) β = β, (3.21) ν = N, (3.22) νs2 = νs2 . (3.23) Všechny tyto vztahy v sobě obsahují pouze datovou informaci a odpovídají odhadům metodou nejmenších čtverců. Tento druh neinformativního prioru je nepravým priorem a lze jej tedy vyjádřit v podobě: p(β, h) ∝ 1 h . (3.24) 3.5 Porovnání modelů Lineární regresní model s k vysvětlujícími proměnnými v sobě zahrnuje řadu možností porovnání větší škály různě specifikovaných modelů. V rámci porovnání jednotlivých specifikací modlů bdeme rozlišovat dva případy: v prvním 40 NLRM s přirozeně konjugovaným priorem - více regresorů případě se modely liší omezeními ve tvaru nerovnosti, která jsou kladena na jednotlivé parametry (či obecněji parametrický prostor, jakožto množinu parametrů), ve druhém případě jsou modely odlišeny různě specifikovanými omezeními jednotlivých parametrů ve tvaru rovnosti. 3.5.1 Porovnání modelů s omezením ve tvaru nerovnosti V řadě aplikací se můžeme zaměřit na analýzu jen části parametrického prostoru. Předpokládejme např. model, ve kterém je závisle proměnná objem prodeje nějakého produktu a jednou z vysvětlujících proměnných jsou výdaje na určitou marketingovou kampaň. V takovémto případě by nás mohlo zajímat, jestli reklamní kampaň zvyšuje prodejnost výrobku, konkrétně se tedy zaměřujeme na to, zdali příslušný regresní koeficient (vyjadřující efekt reklamní kampaně) je kladný resp. nezáporný. V jiné modelové aplikaci nás může zajímat, zdali výnosy z rozsahu jsou rostoucí či klesající. To v kontextu regresního modelu znamená zodpovědět otázku, zdali určitá kombinace parametrů je menší či větší než jedna. Oba příklady v sobě zahrnují omezení ve tvaru nerovnosti, které klademe na určité regresní koeficienty. Předpokládejme tedy, že naše omezení mají tvar Rβ ≥ r, (3.25) kde R je známá matice rozměru J × k a r je známý vektor rozměru J × 1. Takovýto předpoklad nám umožňuje formulovat J lineárních omezení ve tvaru nerovnosti, která souvisejí s jednotlivými regresními koeficienty β. Abychom se vyhnuli tomu, že se některá z omezení budou vzájemně duplikovat, musíme předpokládat plnou hodnost matice R, tedy rank(R) = J. Můžeme tedy definovat dva modely M1 a M2: M1 : Rβ ≥ r , M2 : Rβ ≥ r , přičemž značení v definici modelu M2 znamená, že J omezení v modelu M1 není splněno. Pro modely definované tímto způsobem je výpočet posteriorního podílu šancí snadný a není zde ani problém s využitím neinformativního prioru: PO12 = p(M1|y) p(M2|y) = p(Rβ ≥ r|y) p(Rβ ≥ r|y) . (3.26) Protože je posteriorní hustota pravděpodobnosti pro vektor parametrů β z vícerozměrného Studentova t-rozdělení, platí, že i posteriorní hustota lineární kombinace tětohoto vektoru p(Rβ|y) je z t-rozdělení. Kvalitní software jako např. MATLAB dokáže intervalové pravděpodobnosti pro vícerozměrné t-rozdělení spočítat, tudíž i p(Rβ ≥ r) lze snadno spočítat. Pokud je počet omezení J = 1, lze s úspěchem využít i statistických tabulek pro jenorozměrné t-rozdělení. 3.5 Porovnání modelů 41 3.5.2 Omezení ve tvaru rovnosti Porovnání modelů, které v sobě zahrnují omezení ve tvaru rovnosti, je trošku komplikovanější a vznikají zde problémy s použitím neinformativního prioru. Lze se setkat s dvěma typy porovnání modelů: • V prvním případě nás může zajímat porovnání modelu M1, který v sobě obsahuje omezení Rβ = r, s modelem M2, který toto omezení nemá. Model M1 je příkladem vnořeného (nested) modelu, to znamená, že model M1 získáme z modelu M2 zohledněním omezení Rβ = r. • V druhém případě nás zajímá porovnání modelu M1 : y = X1β(1) + 1 s modelem M2 : y = X2β(2) + 2, kde X1 a X2 jsou matice obsahující v případě nutnosti i zcela odlišné vysvětlující proměnné. Označení β(j) označuje koeficienty v j-tém modelu (jelikož máme dva modely, tak j = 1, 2). Jedná se o případ porovnání nevnořených (non-nested) modelů. Obě výše uvedené typové kategorie porovnání modelů můžeme řešit v kontextu formálního zápisu Mj : yj = Xjβ(j) + j, (3.27) kde j = 1, 2 označuje naše dva modely, yj bude definováno níže, Xj je matice vysvětlujících proměnných rozměru N×kj, β(j) je kj-rozměrný vektor regresních koeficientů a j je N-rozměrný vektor chyb pocházející z normálního rozdělení N(0N , h−1 j IN ). Případ porovnání nevnořených modelů získáme volbou y1 = y2. Pro případ vnořených modelů je třeba vychízet z neomezeného LRM z rovnice (3.2). Model M2 je právě tento neomezený model. Volíme tedy y2 = y, X2 = X a β(2) = β. Model M1, který obsahuje omezení Rβ = r, lze definovat zahrnutím těchto omezení do vysvětlujících proměnných. Na tomto základě je pak třeba rovněž předefinovat vysvětlovanou proměnnou. Princip (bez nějakého formálního zobecnění) lze ukázat na následujících příkladech: 1. Omezení ve tvaru βm = 0 implikuje, že matice X1 odpovídá matici X s vypuštěnou m-tou vysvětlující proměnnou. 2. Omezení ve tvaru βm = r implikuje, že matice X1 je matice X s vypuštěnou m-tou vysvětlující proměnnou a y1 = y −rxm, kdy vektor xm je m-tý sloupec matice X. 3. Omezení β2 −β3 = 0 lze získat vypuštěním příslušných vysvětlujících proměnných (x2 a x3, což jsou druhý a třetí sloupec matice X) a definováním nové vysvětlující proměnné (x23), která je součtem těchto vypuštěných proměnných, tedy x23 = x2 + x3. Vícenásobná a komplikovanější omezení lze řešit zobecněním výše uvedených příkladů. Označíme-li normální-gama apriorní rozdělení dvou modelů jako β(j), hj|Mj ∼ NG(βj , V j, s−2 j , ν) (3.28) 42 NLRM s přirozeně konjugovaným priorem - více regresorů pro j = 1, 2, má posteriorní hustota podobu β(j), hj|yj ∼, NG(βj, V j, s−2 j , νj) (3.29) kde V j = (V −1 j + XjXj)−1 , (3.30) βj = V j(V −1 j βj + XjXjβj), (3.31) νj = νj + N (3.32) a s−2 je implicitně definováno ve výrazu νjs2 j = νjs2 j + νjs2 j + (βj − βj ) [V j + (XjXj)−1 ](βj − βj ). (3.33) Výrazy βj, s2 j a νj jsou OLS odhady analogické těm definovaným ve vztazích (3.4)–(3.6). Odvození marginální věrohodnosti pro každý z modelů a tedy následně i posteriorního podílu šancí je obdobné jako v předchozí kapitole. Marginální věrohodnost tak lze spočítat jako p(yj|Mj) = cj |V j| |V j| 1 2 (νjs2 j )− νj 2 (3.34) pro j = 1, 2, přičemž cj = Γ νj 2 (νjs2 j ) νj 2 Γ νj 2 π N 2 . (3.35) Posteriorní podíl šancí porovnávající modely M1 a M2 odpovídá výrazu PO12 = c1 |V 1| |V 1| 1 2 (ν1s2 1)− ν1 2 p(M1) c2 |V 2| |V 2| 1 2 (ν2s2 2)− ν2 2 p(M2) . (3.36) Faktory ovlivňující posteriorní podíl šancí byly diskutovány v předchozí kapitole 2. Posteriorní podíl šancí tedy závisí na apriorním podílu šancí, zvýhodňuje soulad modelu s daty, koherenci mezi apriorní a datovou informací a šetrnost pokud jde o počet vysvětlujících proměnných. Problém nám však opět může způsobit použití neinformativní apriorní hustoty. Tento druh prioru jsme zavedli způsobem, kdy ν = 0 a V −1 = cIk, přičemž c se limitně blížilo nule. Volně řečeno, ν = 0 implikuje, že zde není apriorní informace o přesnosti chyby h a nastavení c limitně se blížící nule znamená neexistenci apriorní informace o regresních koeficientech β (jejich rozptyl je nekonečně velký). V následující části budeme tyto dvě různé specifikace analyzovat odděleně. Důežitým závěrem bude to, že je rozumné využít neinformativního prioru pro hj, kde j = 1, 2, ale není rozumné užít neinformativních priorů pro 3.5 Porovnání modelů 43 β(j). Důvod je takový, že přesnost chyby je parametr společný pro oba modely a má v obou modelech stejnou interpretaci. Naopak β(1) a β(2) nejsou stejné (respektive nemusí být) a v případech, kdy počty parametrů se budou v obou modelech lišit, tedy k1 = k2, bude použití neinformativních priorů působit vážné problémy v chování posteriorního podílu šancí. Obecně lze formulovat následující pravidlo (platné pro jakýkoliv model, tedy nejen regresní): pokud porovnáváme modely využitím posteriorního podílu šancí, pak je žádoucí použití neinformativních priorů pro parametry, které jsou společné oběma modelům. Čistě informativní priory je nutné užít pro všechny ostatní parametry. Pokud nastavíme ν1 = ν2 = 0 (přesněji oba členy se budou limitně k nule blížit stejným tempem), potom se nám vztah v rovnici (3.36) zjednoduší, neboť c1 = c2. Posteriorní podíl šancí má přesto stále rozumnou interpretaci, neboť v sobě obsahuje měřítko souladu modelu s daty, tj. s2 j , jakožto koherenci mezi apriorní a datovou informací, apod. Použijeme-li neinformativní priory pro β(j), nastanou problémy zejména v případě, kdy k1 = k2. V případě porovnání nevnořených modelů může být interpretace parametrů β(1) a β(2) zcela odlišná. V případě vnořených modelů nám restrikce kladené na model M1 zajistí, že β(1) má menší dimenzi než β(2) a tedy k1 < k2. Rozdílnost počtu vysvětlujících proměnných, k1 = k2, je tedy obvyklá. Problém s interpretací posteriorních podílů šancí nastává díky členu |V j|. Pokud V −1 j = cIk, potom |V j| = 1 ckj . Blíží-li se c k nule, potom se členy zahrnující c v (3.36) vzájemně nevyruší. Pokud je apriorní podíl šancí kladný a konečný, nastane v případě nerovnosti k1 < k2 situace, kdy PO12 je nekonečno. V případě, kdy k1 > k2, bude podíl šancí PO12 roven nule. Jinými slovy, posteriorní podíl šancí vždy upřednostní model s menším počtem parametrů bez ohledu na data, v limitním případě pak tak bude zcela upřednostněn šetrnější model (z hlediska počtu pužitých parametrů resp. vysvětlujících proměnných). Tento výsledek nás nutí k upřednostnění použití informativního prioru přinejmenším u koeficientů, které jsou odlišné v obou porovnávaných modelech. V případě rovnosti počtu vysvětlujících proměnných (k1 = k2) má posterioní podíl šancí podobu PO12 = (|X1X1|) 1 2 (ν1s2 1)− N 2 p(M1) (|X2X2|) 1 2 (ν2s2 2)− N 2 p(M2) . (3.37) Hodnota tohoto výrazu bude záviset na měrných jednotkách jednotlivých veličin. Pokud by vysvětlující proměnné v modelu M1 byly měřeny v jednotkách dolarů a toto měřítko bychom následně změnili na tisíce dolarů, přičemž v matici vysvětlujícíh proměnných druhého modelu (X2) bychom tuto změnu nezohlednili, změnil by se i náš posteriorní podíl šancí. To je nepříjemná vlastnost, která opět vede k upřednostnění informativního prioru i v případě, kdy k1 = k2. V případě informativního prioru totiž tento problém nenastává. Jako příklad uvažujme regresní model závislosti ceny domu na různých charakteristikách, kdy x2 může být rozloha obytné plochy v metrech čtverečních. Parametr β2 můžeme intepretovat jako měřítko toho, o kolik dolarů vzroste cena domu, jestliže zvýšíme 44 NLRM s přirozeně konjugovaným priorem - více regresorů jeho obytnou plochu o jeden metr čtvereční a ostatní charakteristiky zůstanou nezměněny. Z ohledem na to pak volíme příslušný hyperparametr apriorní hustoty (resp. apriorní hustotu jako takovou) pro β2 (jeho apriorní střední hodnotu a rozptyl). Pokud by se měřítko x2 změnilo na stovky metrů čtverečních, pak se i interpretace parametru β2 změní na měřítko toho, o kolik dolarů vzroste cena domu, zvýší-li se jeho obytná plocha o sto metrů čtverečních a ostatní charakteristiky zůstanou nezměněny. Tuto změnu reflektuje i volba apriorní hustoty. Pokud tedy volíme použití informativní apriorní hustoty, implicitně bereme do úvahy i příslušné měrné jednotky.5 To však neplatí při použití neinformativního prioru. Shrneme-li obsah této části kapitoly, pak je nutné zdůraznit, že užití neinformativního prioru je akceptovatelné, pokud se zaměříme na odhad parametrů či predikci a chceme zůstat ”objektivní”, tedy přesněji nechceme (nebo neumíme) do našich vypočtů vnášet nějakou apriorní informaci. V případě výpočtu posteriorního podílu šancí však volba neinformativního prioru akceptovatelná není. 3.5.3 Intervaly nejvyšší posteriorní hustoty (HPDI) Tradiční techniky bayesovského porovnání modelů jsou založeny na intuitivní myšlence, že p(Mj|y) je souhrnem veškerých našich znalostí a nejistoty týkajících se modelu Mj po konfrontaci s daty. Výpočet rozumných posteriorních pravděpodobností modelů v sobě obvykle zahrnuje práci s informativními priory. Pokud bychom však přesto chtěli testovat či porovnávat modely za použití neinformativních priorů, můžeme využít jiných technik. Tyto techniky však již nejsou do té míry intuitivní jako bayesovské pravděpodobnosti modelu a jejich oprávněnost je dána ad hoc. V této části zavedeme pojem „interval nejvyšší posteriorní hustoty (Highest Posterior Density Interval - HPDI, či jenom HDI) a ukážeme si, jak jej lze využít pro ad hoc porovnání vnořených modelů. Následující definice jsou definovány v kontextu vektoru parametrů β normálního lineárního regresního modelu, nicméně jsou dostatečně obecné a lze je tak využít pro parametry jakéhokoliv modelu. Předpokládejme tedy, že prvky vektoru regresních koeficientů β se mohou nacházet v intervalu (−∞, ∞), což označíme jako β ∈ Rk (zde R označuje množinu reálných čísel). Nechť ω = g(β) je m-rozměrný vektor funkcí β definovaný na množině Ω, kdy m ≤ k. Nechť C je oblast v rámci Ω, tedy C ⊆ Ω. Definice 3.1 (Přijatelné množiny (Credible Sets)). Množina C ⊆ Ω je 100(1 − α)% přijatelná množina vzhledem k p(ω|y) jestliže p(ω ∈ C|y) = C p(ω|y)dω = 1 − α . 5Připoměňme si v této souvislosti tvrzení o tom, že volbu apriorní hustoty nám ulehčuje skutečnost, že apriorní hustota odpovídá (pro „přirozeně konjugovaný případ) procesu generujícího fiktivní datové sady. Právě tento generující proces se odvíjí od použitého měřítka vysvětlujících proměnných, což musí být samozřejmě zohledněno v apriorní hustotě. 3.5 Porovnání modelů 45 Jako příklad předpokládejme ω = g(β) = βj, tedy jediný regresní koeficient. Potom 95% přijatelný interval pro βj je interval [a, b] takový, že p(a ≤ βj ≤ b|y) = b a p(βj|y)dβj = 0.95 Existuje obvykle nekonečně mnoho možných přijatelných intervalů. Předpokládejme příklad, kdy βj|y pochází z N(0, 1). Potom ze statistických tabulek pro standardizované normální vyplývá, že 95% přijatelný interval je [−1.96, 1.96] stejně jako [−1.75, 2.33], [−1.64, ∞] atd. Abychom si z této nekonečné množiny intervalů vybrali jediného reprezentant, provádíme volbu obvykle tak, že zvolíme ten interval, který má nejmenší rozsah. Pro standarní normální rozdělení je [−1.96, 1.96] nejkratší přijatelný interval. Pro tento druh výběru užíváme označení interval s nejvyšší posteriorní hustotou (Highest Posterior Density In- terval). Definice 3.2 (Interval nejvyšší posteriorní hustoty (HPDI)). (1 − α) · 100% interval nejvyšší posteriorní hustoty pro množinu ω je (1 − α) · 100% přijatelný interval množiny ω, pro který platí, že má nejmenší rozsah oproti jiným (1 − α) · 100% přijatelným intervalům množiny ω. Kromě bodových odhadů parametrů (v rámci bayesovského odhadu) je obvyklé uvádět i tyto intervaly nejvyšší posteriorní hustoty. Můžeme tak například uvádět posteriorní střední hodnotu a 95% HPDI pro βj. Jsme si tak z 95 % jistí, že βj leží uvnitř HPDI. Lze jej rovněž využít pro ad hoc porovnání modelů. Předpokládejme v této souvislosti dva NLRM a můžeme se zajímat o to, zdali j-tá vysvětlující proměnná má být zahrnuta do modelu. Dva modely které budeme uvažovat budou M1 : βj = 0, M2 : βj = 0. Posteriorná analýzu lze provést (analyticky) standardním způsobem a HPDI pro βj lze spočítat využitím vlastností Studentova t-rozdělení. Pokud tento HPDI neobsahuje nulu, potom je to důkaz či skutečnos hovořící v neprospěch modelu M1. Pokud by závěr zněl, že HPDI obsahuje nulu, potom bychom měli důkaz ve prospěch modelu M1. Tento postup lze zobecnit standardním způsobem pro ověření platnosti soustavy lineárních omezení (Rβ = r). Tento přístup je podobný přístupu klasické ekonometrie v rámci standardního testování hypotéz. Obvykle se tak testuje omezení βj = 0 (nevýznamnost parametru) pomocí konfidenčních intervalů (intervalů spolehlivosti) pro βj. Pokud tento interval obsahuje nulu, pak je nulová hypotéza přijata, v opačném případě je zamítnuta. Tato podobnost je jen velmi hrubou, rámcovou intuicí. Konfidenční intervaly mají oproti HPDI velmi odlišnou interpretaci. HPDI je obecným nástrojem, který existuje vždy, když existuje posteriorní hustota pravděpodobnosti. Lze jej tak využít i při použití neinformativní apriorní hustoty. Ačkoliv je však oprávněnost jejich využití při porovnání modelů smysluplná, má jen neformální charakter, který nemá pevnou oporu v teorii 46 NLRM s přirozeně konjugovaným priorem - více regresorů pravděpodobnosti (oproti posteriornímu podílu šancí, či konfidenčním intervalům v klasické ekonometrii a statistice). )ú 3.6 Predikční hustota V této části si jen rozšíříme poznatky o predikční hustotě z minulé kapitoly pro případ více vysvětlujících proměnných. Předpokládejme, že nás zajímá predikční analýza T nepozorovaných hodnot závisle proměnné y∗ = (y∗ 1, . . . , y∗ T ) , generovaných jako y∗ = X∗ β + ∗ , (3.38) kde ∗ je nezávislé na a má normální rozdělení N(0, h−1 IT ). Matice X∗ je matice rozměru T ×k analogická matici X a obsahující k vysvětlujících proměnných pro každé z T pozorování mimo dostupný datový vzorek. Kroky vedoucí k odvození predikční hustoty pro y∗ jsou zobecněním vztahů (2.37)–(2.40). Bayesiánská předpověď je založena na p(y∗ |y) = p(y∗ |y, β, h)p(β, h|y)dβdh. Skutečnost, že ∗ je nezávislé na , současně implikuje nezávislost y na y∗ a tedy p(y∗ |y, β, h) = p(y∗ |β, h). Dále platí p(y∗ |β, h) = h T 2 (2π) T 2 exp − h 2 (y∗ − X∗ β) (y∗ − X∗ β) . (3.39) Násobením vztahu (3.39) a posteriorní hustoty v (3.9) a následnou integrací získáme vícerozměrnou t-predikční hustotu pravděpodobnosti ve tvaru y∗ |y ∼ t(X∗ β, s2 {IT + X∗ V X∗ }, ν). (3.40) Na tomto základě lze provést veškerou predikční analýzu normálního lineárního modelu s přirozeně konjugovaným priorem. 3.7 Monte Carlo integrace Porovnání modelů, predikci a posteriorní analýzu týkající se vektoru β lze provést analyticky za využití výsledků předchozích částí kapitoly. Protože marginální posteriorní hustota pro vektor parametrů β odpovídá vícerozměrnému Studentovu t-rozdělení, jsou i lineární kombinace vektoru β z vícerozměrného t-rozdělení. Pokud tak definujeme matici R podobně jako ve vztahu (3.25), lze provést posteriorní analýzu i pro lineární kombinaci našich parametrů, tedy Rβ. Marginální posteriorní hustota pro přesnost chyby h odpovídá gama roz)údělení, tudíž lze využít vlastnosti tohoto rozdělení k analýze přesnosti chyby. 3.7 Monte Carlo integrace 47 V některých případech nás však nemusí zajímat vektor β či Rβ, ale pozornost může být zaměřena na nelineární funkci parametrů β, f(β). Budeme předpokládat, že f(·) je skalární funkce, ovšem techniku zmíněnou v tomto oddíle je možno rozšířit i pro případ vektorový. Obecně nemusí platit, že posteriorní hustota pro f(β) bude spadat do třídy hustot se známými analytickými vlastnostmi. V tom případě je nutné využít simulační metody. Nejjednodušším simulačním algoritmem je Monte Carlo integrace zmiňovaná již v kapitole 1. V kontextu normálního lineárního regresního modelu lze zapsat základní teorém Monte Carlo integrace následovně: Teorém 3.1 (Monte Carlo integrace). Nechť β(s) pro s = 1, . . . , S je náhodný výběr (vzorek) z p(β|y) a g(·) je funkce a definujme gS = 1 S S s=1 g(β(s) ), (3.41) potom gS konverguje k E[g(β)|y] pro S jdoucí k nekonečnu. )ú Není třeba nechat se zmást zavedením dvou funkcí f(·) a g(·). POkud budeme definovat g(·) = f(·) můžeme získat odhady E[f(β)|y] pro jakoukoliv funkci parametrů f(·). Pokud chceme spočítat nějaké další posteriorní charakteristiky funkce parametrů f(β), je třeba funkci g(·) zavést. Pro výpočet rozptylu var[f(β)|y] je třeba definovat g(·) = f(·)2 a spočítat pomocí vztahu (3.41) E[f(β)2 |y]. Rovnice (3.41) nám říká, že pro daný náhodný výběr z posteriorního rozdělení příslušnému parametrům β je možno analyzovat jakoukoliv funkci těchto parametrů. Prakticky lze algoritmus výpočtu (např. pro MATLAB) shrnout do následujících kroků: 1. Vygenerujeme náhodný výběr β(s) z posteriorní hustoty pro β dané vztahem (3.14), a to za použití generátoru náhodných čísel pro vícerozměrné t-rozdělení. 2. Spočítáme g(β(s) ) a uchováme si tento výsledek. 3. Opakujeme kroky 1 a 2 celkem S-krát. 4. Spočítáme celkový průměr S náhodných výběrů g(β(1) ), . . . , g(β(S) ). Těmito kroky získáme odhad E[g(β)|y] pro jakoukoliv funkci parametrů, která nás zajímá. Volbou S můžeme řídit velikost chyby aproximace, které se dopouštíme, neboť pouze jen volba S = ∞ by nám dala skutečnou střední hodnotu funkce parametrů, která nás zajímá. Jak již bylo popsáno v kapitole 1, můžeme snadno získat i číselné vyjádření chyby aproximace, a to využitím centrální limitní věty. Přesněji řečeno, vyjdeme z definice chyby odhadu, a konkrétně využijeme tu vlastnost, že √ S {gS − E[g(β)|y]} → N(0, σ2 g) (3.42) 48 NLRM s přirozeně konjugovaným priorem - více regresorů pro S jdoucí k nekonečnu, přičemž σ2 g = var[g(β)|y]. Intuitivně nám tento vztah říká, že střední hodnota chyby odhadu je nulová, a variabilita chyby odhadu (tedy míra nejistoty spojená s tím, že máme konečný počet vzorků) se snižuje s růstem počtu generovaných vzorků S. Rozptyl chyby odhadu σ2 g lze odhadnout Monte Carlo integrací a tento odhad označíme σ2 g. Použitím tohoto odhadu, vztahu (3.42) a vlastností normálního rozdělení můžeme psát: Pr E[g(β)|y] − 1.96 σg √ S ≤ gS ≤ E[g(β)|y] + 1.96 σg √ S ≈ 0.95. (3.43) Další úpravou můžeme zjistit přibližný 95% konfidenční interval pro střední hodnotu funkce parametrů, která nás zajímá, E[g(β)|y], ve tvaru gS − 1.96 σg √ S , gS + 1.96 σg √ S . Tento výraz lze využít jako měřítko přesnosti našeho odhadu E[g(β)|y] nebo jako vodítko pro výběr velikosti počtu generovaných vzorků S. Alternativně lze využít i numerickou standardní chybu σg √ S , která obsahuje stejnou informaci v poněkud kompaktnější podobě. 3.8 Empirická ilustrace K ilustraci bayesiánské analýzy v rámci modelu vícenásobné regrese využijeme data obsahující údaje o prodejních cenách N = 546 domů prodaných ve Windsoru (Kanada) v roce 1987. Data jsou obsahem souboru hprice.txt. Našim zájmem je nalézt faktory, které ovlivňují prodejní cenu domu. Prodejní cena je tedy vysvětlovanou (závisle) proměnnou. Využijeme čtyři vysvětlující proměnné (datový soubor jich obsahuje více, a tak je samozřejmě možné model dále rozšiřovat), konkrétně celkovou rozlohu domu (včetně pozemku), počet ložnic, počet koupelen a počet pater. Definujeme tedy: • yi = prodejní cena i-tého domu (v Kanadských dolarech), • xi2 = rozloha i-tého domu (ve čtverečních stopách), • xi3 = počet ložnic v i-tém domě, • xi4 = počet koupelen v i-tém domu, • xi5 = počet pater v i-tém domu. Pokud bychom skutečně prováděli výzkum faktorů ovlivňující cenu domů ve Windsoru, asi bychom měli nějaké povědomí o tamním trhu s nemovitostmi, a na tomto základě bychom mohli stanovit parametry odpovídající apriorní hustoty. Další možností je zeptat se místního realitního agenta, který by nám mohl tuto apriorní informaci poskytnout. Mohli bychom se tak tohoto agenta zeptat na několik otázek v podobě: „Jakou cenou byste ohodnotil jednopatrový dům s 3.8 Empirická ilustrace 49 rozlohou 4000 čtverečních stop, se dvěma ložnicemi a jednou koupelnou? ; „Jakou cenou byste ohodnotil dvoupatrový dům s rozlohou 6000 čtverečních stop, se třemi ložnicemi a dvěma koupelnami? , apod. Protože máme pět neznámých regresních koeficientů, odpovědi na pět otázek v této podobě nám dá pět rovnic o pět neznámých. Jejich řešením bychom získali agentův odhad regresních koeficientů. Ty pak mohou být využity pro nastavení apriorní střední hodnoty parametrů β. Pro ilustrační účely použijeme pouze hrubý odhad apriorní hustoty. Ceny domů ve Windsoru v roce 1987 mají velkou variabilitu, nicméně většina domů je prodávána za cenu 50000 až 150000 dolarů. Regresní model, který dobře vyrovná data, by mohl mít chyby v řádu někoika tisíc dolarů, řekněme, maximálně 10000 dolarů. To nám napovídá, že směrodatná odchylka, σ, by mohla být asi 5000. Protože jsou náhodné chyby normálně rozděleny se střední hodnotou nulovou, potom, pokud předpokládáme, že σ = 5000, bude 95 % chyb v absolutní hodnotě menší než 1.96×5000 = 9800 dolarů. Protože je h = 1 σ2 , bude rozumný apriorní odhad pro h roven 1 50002 = 4.0 × 10−8 . Nastavíme tedy s−2 = 4.0 × 10−8 . To je však jen velmi hrubý odhad, a tak mu chceme přiřadit jen malou váhu, a to nastavením ν na hodnotu mnohem menší než velikost vzorku, N. Protože je N = 546, bude volba ν = 5 relativně neinformativní. Volně řečeno, říkáme, že apriorní informace o h by měla odpovídat 1 % váhy datové informace (tj. ν N ≈ 0.01). Pro regresní koeficienty volíme: β =       0.0 10 5000 10000 10000       . Připomeňme si, že regresní koeficienty lze interpretovat tak, že nám říkají, „jestliže vysvětlující proměnná j vzroste o jednotku a ostatní vysvětlující proměnné zůstanou konstantní, cena tohoto domu bude mít tendenc zvýšit se o βj dolarů. Naše apriorní střední hodnota by tak měla implikovat tvrzení v podobě: „jestliže porovnáme dva domy, které jsou identické, až na to, že první dům má o jednu ložnici více než druhý, potom očekáváme, že první dům bude o 5000 dolarů dražší než druhý, nebo, „jestliže počet koupelen vzroste o jednu a ostatní charakteristiky se nezmění, budeme očekávat, že cena domu vzroste o 10000 dolarů, apod. Všechny tyto odhady regresních koeficientů jsou velmi hrubé, a tak nám dává smysl přiřadit jim relativně vysokou variabilitu. Předpokládejme například, že naše apriorní informace o úrovňové konstantě je nejistá. V tomto případě bychom mohli chtít, aby var(β1) = 100002 (tzn. apriorní směrodatná odchylka je 10000), a tudíž přiřazujeme zhruba 95% apriorní pravděpodobnost oblasti [−20000, 20000], což je vcelku široký interval.6 Pokud si budeme hodně jistí, že 6Používáme zde aproximativní pravidlo, které nám říká, že 95 % pravděpodobnosti funkce hustoty je obsaženo v oblasti dvojnásobné směrodatné odchylky od své střední hodnoty. Tato 50 NLRM s přirozeně konjugovaným priorem - více regresorů vliv rozlohy bude mezi 0 a 20 dolary za stopu čtvereční, zvolíme var(β2) = 25 (tzn. apriorní směrodatná odchylka pro β2 je 5). Pro ostatní koeficienty volíme var(β3) = 25002 a var(β4) = var(β5) = 50002 . Tyto hodnoty hyperparametrů nám říkají, že například nejlepší apriorní odhad pro β4 je 10000 a domníváme se tedy, že se tato hodnota bude nacházet s vysokou pravděpodobností v intervalu [0, 20000]. Pro tuto volbu rozptylů si můžeme představit apriorní kovarianční matici. Vlastnosti normálního-gama rozdělení nám implikují, že kovarianšní matice pro vektor parametrů β má podobu: var(β) = νs2 ν − 2 V , Protože νs2 ν−2 = 416666662 3 , implikují volby var(βj) pro j = 1, . . . , 5: V =       2.40 0 0 0 0 0 6.0 × 10−7 0 0 0 0 0 0.15 0 0 0 0 0 0.60 0 0 0 0 0 0.60       . Poznamenejme, že jsme všechny apriorní kovariance nastavili na hodnotu nula. To je obvyklá volba, protože je apriori velmi obtížné odhadnout jaká by mohla být vzájemná závislost mezi těmito parametry. Naše apriorní informace o možných hodnotách βj by tak mohla být ta, že jsou nekorelovány s βj pro i = j. V řadě případů se jedná o rozumný předpoklad. Tím jsme dokončili specifikaci informativní apriorní přirozeně konjugované hustoty parametrů našeho modelu. Předchozí odstavce nám ilustrovaly, jak lze v praxi postupovat při nastavení priorů. Stanovení apriorních představ může být obtížný a obsahuje velkou část práce. Nicméně tato práce se vyplatí, neboť nás nutí přemýšlet o našem modelu a o interpretaci příslušných parametrů. Pokud se nacházíme v situaci, že nás nic nenapadá, nemáme tedy apriorní informaci, nebo ji nechceme použít, můžeme bayesiánskou analýzu provést s využitím neinformativní apriorní hustoty (3.24). Tabulky 3.1 a 3.2 ukazují apriorní a posteriorní výsledky a informace za použití jak informativní, tak i neinformativní aproorní hustoy. Veškeré výpočty jsou náplní souborů chapter03.m resp. chapter03_neinf.m. Tyto soubory vyžadují další podpůrné funkce, zejména pak nlrm_ncp.m, která pro výpočet posteriorních hustot využívá vztahy (3.9)–(3.19). Na základě vztahů (3.20)–(3.23) lze provést posteriorní analýzu pro neinformativní hustotu. V našem případě jsme však využili funkce pro informativní apriorní hustoty, s tím, že jsme použili pro β vysoce neinformativní apriorní hyperparametry. Tabulka 3.1 potvrzuje, že naše apriorní hustota je relativně neinformativní, protože výsledky založené na informativní apriorní hustotě jsou podobné těm založeným na hustotě neinformativní. V předchozí kapitole jsmě viděli, že posteriorní střední hodnota jednoho regresního koeficientu při využití informativního prioru leží mezi apriorní aproximace je téměř dokonalá pro normální rozdělení či rozdělení s podobným průběhem jako je ono normální (např. t-rozdělení). 3.8 Empirická ilustrace 51 střední hodnotou a OLS odhadem. V tabulce 3.1 je vidět tendence, že posteriorní střední hodnota vycházející z informativní apriorní hustoty leží mezi apriorní střední hodnotou a OLS odhadem. Vzpomeňme si, že OLS odhad je identický posteriorní střední hodnotě založené na neinformativní apriorní hustotě (viz (3.21)). Ovšem ne každá posteriorní střední hodnota založená na informativním prioru leží mezi apriorní střední hodnotou a OLS odhadem (viz výsledek pro β1). To je z toho důvodu, že posteriorní střední hodnota je maticově váženým průměrem apriorní střední hodnoty a OLS odhadu (viz (3.11)). Maticové vážení nám neimplikuje, že každý jednotlivý koeficient leží mezi svou apriorní střední hodnotou a OLS odhadem. Tabulka 3.1: Apriorní a posteriorní střední hodnoty pro β (směrodatné odchylky v závorkách) Prior Posterior Informativní (Inf. prior) (Neinf. prior) β1 0 (10000) −4035.05 (3530.16) −4009.55 (3590.11) β2 10 (5) 5.43 (0.37) 5.43 (0.37) β3 5000 (2500) 2886.81 (1184.93) 2824.61 (1210.43) β4 10000 (5000) 16965.24 (1708.02) 17105.18 (1728.18) β5 10000 (5000) 7641.23 (997.02) 7634.90 (1004.34) Tabulka 3.2: Apriorní a posteriorní střední hodnoty pro h (směrodatné odchylky v závorkách) Prior Posterior Informativní (Inf. prior) (Neinf. prior) Stř. hodnota 4 × 10−8 3.05 × 10−9 3.03 × 10−9 Sm. odchylka 2.53 × 10−8 1.84 × 10−10 1.83 × 10−10 Tabulka 3.2 ukazuje apriorní a posteriorní výsledky pro h. Pro tento parametr opět můžeme vidět, že datová informace převyšuje apriorní informaci. Posteriorní výsledky jsou tedy podobné těm získaným na základě neinformativního prioru. Obsah písemné zprávy shrnující výsledky tabulek 3.2 a 3.2 by odpovídal standardní interpretaci regresních koeficientů. Např. by zde mohla být obsažena 52 NLRM s přirozeně konjugovaným priorem - více regresorů tvrzení: „Bez ohledu na to, jestli použijeme informativní nebo neinformativí apriorní husotu, zjišťujeme, že posteriorní střední hodnota pro parametr β4 je přibližně 17000. Náš bodový odhad tak vypovídá o tom, že pokud srovnáme dva totožné domy, až na to, že jeden má o jednu ložnici více než druhý, můžeme očekávat, že první dům bude zhruba o 17000 dolarů hodnotnější než druhý. Toto tvrzení lze vyjádřit i stroze v podobě, že „bodový odhad mezního vlivu počtu ložnic na cenu domu je zhruba 17000 dolarů. Tabulka 3.3 obsahuje výsledky vztahující se k různým metodám porovnání modelů, diskutovaných v této apitole. Všechny výsledky lze použít pro objasnění otázky, jestli jendotlivé koeficienty jsou nulové. Sloupec označený jako p(βj > 0|y) využívá (3.14) a vlastnosti t-rozdělení k výpoču pravděpodobnosti, že jednotlivé koeficienty jsou kladné. Užitečnost těchto pravděpodobností je obsahem části 3.5.1. Sloupec označený jako „Posteriorní podíl šancí pro βj = 0 obsahuje logicky posteriorní podíl šansí porovnávající modl s omezením, že daný parametr je roven nule oproti neomezené alternativě. K výpočtu posteriorního podílu šancí pro modely M1 : βj = 0 a M2 : βj = 0 se používají metody z části 3.5.2 (i to je obsahem funkce nlrm_ncp.m). Tabulka 3.3: Porovnání modelů zahrnující parametr β P. podíl šancí p(βj > 0|y) 95% HPDI 99% HPDI pro βj = 0 Informativní apriorní hustota β1 0.13 [-10969.27,2899.17] [-13159.75,5089.64] 4.14 β2 1.00 [4.71,6.15] [4.49,6.38] 0.00 β3 0.99 [559.29,5214.34] [-175.96,5949.58] 0.39 β4 1.00 [13610.20,20320.27] [12550.37,21380.10] 0.00 β5 1.00 [5682.82,9599.65] [5064.16,10218.30] 0.00 Neinformativní apriorní hustota∗ β1 0.13 [-11061.65,3042.54] [-13289.45,5270.34] — β2 1.00 [4.71,6.15] [4.48,6.38] — β3 0.99 [446.96,5202.27] [-304.15,5953.38] — β4 1.00 [13710.50,20499.85] [12638.10,21572.25] — β5 1.00 [5662.07,9607.73] [5038.84,10230.96] — * Jako neinformativní apriorní hustota byla použita apriorní hustota blížící se čistě neinformativní hustotě. Podíl šancí tak bylo možno spočítat, ale není zde uváděn. Omezený model využívá informativní apriorní hustotu, která je stejná jako neomezená apriorní hustota, s tou výjimkou, že β q V jsou postupně matice rozměru 4 × 1 respektive 4 × 4, po vypuštění apriorní informace vztahující se k vypuštěnému βj. Apriorní podíl šancí je nastaven na hodnotu jedna (výsledkem je tedy Bayesův faktor). Zbylé dva sloupce tabulky 3.3 obsahují 95% a 99% intervaly nejvyšší posteriorní hustoty (HPDI) pro každý z parametrů βj (využita je zde jednoduchá funkce HPDI_nlrm_ncp, využívající vlastnosti posteriorní hustoty odpovídající t-rozdělení). Jak bylo popsáno v části 3.5.3, HPDI lzde použít testování omezení ve tvaru rovnosti. Tyto intervaly mají své oprávnění (byť ad hoc) i v případě použití neinformativní apriorní hustoty. Nezapomeňme, že posteriorní podíl šancí vyžaduje použití informativních priorů (přinejmenším v případě společných parametrů porovnávaných modelů). Přestože jsme prak- 3.8 Empirická ilustrace 53 ticky v algoritmu využili „téměř neinformativní hustoty, posteriorní podíl šancí v tomto případě neprezentujeme. Výsledky tabulky 3.3 jsou konzistentní s těmi z tabulky 3.1. V této posledně jmenované tabulce jsme viděli, že posteriorní střední hodnoty pro β2, β4 a β5 jsou kladné a velmi vysoké relativně ke své směrodatné odchylce, což je silný důkaz pro to, že všechny tyto koeficienty jsou nenulové a kladné. Bez ohledu na to, jestli použijeme informativní nebo neinformativní prior, tabulka 3.3 říká, že p(βj > 0|y) je v podstatě rovna jedné pro j = 2, 4, 5, a žádný z intervalů nejvyšší posteriorní hustoty neobsahuje nulu. Pro informativní prior jsou posteriorní podíly šancí, porovnávající modely M1 : βj = 0 vzhledem k M2 : βj = 0 pro j = 2, 4, 5, velmi malé, což nám indikuje, že neomezený model má mnohem větší pravděpodobnost oproti modelům omezeným. Výsledky pro β1 a β3 jsou smíšené. Většina důkazů hovoří pro to, že β3 = 0. Nicméně, 99% HPDI pro tento parametr obsahuje nulu. Pokud bychom tedy použili postup výběru modelů nastíněný v části 3.5.3, budou výsledky záviset na volbě intervalu nejvyšší posteriorní hustoty. 95% interval by implikoval β3 = 0, ale 99% HPDI říká, že β3 = 0. Tato nejistota je zobrazena i v posteriorním podílu šancí, který říká, že omezený model je 0.39 krát pravděpodobnější než neomezený model. Pokud použijeme tento posteriorní podíl šancí k výpočtu posteriorní pravděpodobnosti modelu, zjistíme, že P(M1 : β3 = 0|y) = 0.28 (předpokládáme zde pro jednoduchost, že omezený a neomezený model tvoří úplnou množinu, i když s ohledem na nulové podíly šancí u ostatních modelů, nám stačí „ignorovat model s možností nulové úrovňové konstanty). Jinými slovy, existuje 28% šance, že β3 = 0 a 72% šance, že tomu tak není. Pokud zde máme tuto nejistotu, je rozumné využít bayesovské průměrování modelů. Alternativně můžeme zvolit buď neomezený nebo omezený model. V každém případě je zde však významná pravděpodobnost, že zvolíme špatný model. Pro ilustraci, jak provést predikci v normální lineárním regresním modelu, budeme předpokládat případ, kdy nás zajímá predikce prodejní ceny domu s rozlohou 5000 čtverečních stop, dvěma ložnicemi, dvěma koupelnami a jedním patrem. S využitím (3.40) můžeme v případě informativního prioru pracovat s rozdělení t(70468, 3.33 × 108 , 551). Pro neinformativní prior je rozdělení predikční hustoty t(70631, 3.35 × 108 , 546). Některou z těchto hustot (jsou podobné) můžeme využít k prezentaci informace pro klienta, který chce prodat dům s výše uvedenými charakteristikami. Můžeme říct, že náš nejlepší odhad prodejní ceny je 70000 dolarů, nicméně je zde velká nejistota spojená s tímto odhadem, kdy predikční směrodatná odchylka je zhruba 18000 dolarů. Predikční hustota je vykreslena na obrázku 3.1. Část 3.7 byla věnována Monte Carlo integraci. Monte Carlo integrace není v případě normálního lineárního regresního modelu a přirozeně konjugovanou apriorní hustotou nezbytná, pokud nás nezajímají nelineární funkce regresních koeficientů. Známe psteriorní vlastnosti β (viz tabulka 3.1), a Monte Carlo integraci na tomto místě není třeba provádět. Pro ilustraci si však s jejím využitím spočítáme posteriorní střední hodnotu a směrodatnou odchylku parametru β2. Z tabulky 3.1 víme, že střední hodnota je 5.43 a směrodatná odchylka 0.37. Tyto analytické hodnoty lze využít pro hodnocení kvality Monte Carlo integrace. Z 54 NLRM s přirozeně konjugovaným priorem - více regresorů 0 2 4 6 8 10 12 14 x 10 4 0 0.5 1 1.5 2 2.5 x 10 −5 Predikovana cena domu, y* Hustotapravdepodobnosti Obrázek 3.1: Predikční hustota ceny domu (přirozeně konjugovaná apriorní hustota). důvodu úspory místa si výsledky ukážeme jen pro informativní apriorní hustotu. Monte Carlo integraci lze provést na základě náodných výběrů z posteriorního rozdělení β, a to následným zprůměrováním nějaké funkce (která nás zajímá) těchto výběrů (viz (3.41)). Z (3.14) víme, že p(β|y) odpovídá t-rozdělení. Můžeme tedy vytvořit program, který bude opakovat výběry z této hustoty a následně je zprůměruje (případně zprůměruje nějakou funkci těchto výběrů). Tabulka 3.4 ukazuje posteriorní střední hodnotu a směrodatnou odchylku pro β2 spočítanou různými způsoby (využita je funkce MCI_nlrm_ncp.m). Řádek označený jako „Analyticky je přesný výsledek získaný z (3.14)–(3.16). Ostatní řádky ukazují výsledky na základě Monte Carlo integrace s různým počtem replikací. Je zde uvedena rovněž numerická standardní chyba (NSE), která nám poskytuje pohled na přesnost Monte Carlo aproximace střední hodnoty parametru, E(β2|y) resp. jeho nějaké funkce (viz diskuze v části 3.7). Jak bychom asi očekávali, přesnost aproximace jak posteriorní střední hodnoty, tak i směrodatné odchylky se zvyšuje s rostoucím počtem replikací.7 Z empirického hlediska závisí volba S na námi požadované přesnosti. Při předběžném průzkumu dat někdy stačí hrubý odhad, a tedy volba S = 10 nebo S = 100. Pro hodně přesné výsledky je však třeba nastavení S = 10000 nebo 7V rámci našeho programu není možno zreplikovat přesně dané výsledky, protože je zde zcela náhodně nastavován generátor náhodných čísel, a to dle času spuštění programu. 3.9 Shrnutí 55 Tabulka 3.4: Posteriorní výsledky pro parametr β2 spočítané alternativním způsobem Směrodatná Stř. hodnota odchylka NSE Analyticky 5.43 0.37 — Počet replikací S = 10 5.44 0.27 0.085 S = 100 5.43 0.38 0.038 S = 1000 5.44 0.36 0.011 S = 10000 5.44 0.36 0.004 S = 100000 5.43 0.37 0.001 dokonce S = 100000. Numerická standardní chyba je dobrým měřítkem přesnosti každé aproximace. Aporixmativní posteriorní střední hodnoty jsou zřídka odlišné o více než jednu numerickou standardní chybu od skutečné posteriorní střední hodnoty dané v řádku „Analyticky . Je potřeba zdůraznit, že rostoucí S sice zvýší přesnot Monte Carlo aproximace střední hodnoty E(β2|y), nicméně toto zvýšení není lineární v S. Tabulka 3.4 ukazuje výsledky pro S = 100000, které nejsou desetkrát přesnější než ty pro S = 10000. Analyticky, numerická standardní chyba, σg √ S , se snižuje tempem 1√ S . Výsledky pro S = 100000 by tedy měly být jen zhruba √ 10 = 3.16 krát přesnější než ty pro S = 10000. 3.9 Shrnutí V této kapitole jsme si prošli postup bayesiánské analýzy, zahrnující věrohodnostní funkci, apriorní hustotu, posteriorní hustotu, porovnání modelů a predikci, a to pro případ normálního lineárního regresního modelu s přirozeně konjugovanou apriorní hustotou a k vysvětlujícími proměnnými. Tato kapitola v podstatě odpovídá kapitole předešlé, až na to, že jsme zde využili značení s využitím matic, abychom se tak vypořádali s „komplikacemi vznikajícími v důsledku více vysvětlujících proměnných (k > 1). Zavedli jsme si rovněž koncept intervalů nejvyšší posteriorní hustoty a ukázali jsme si, jak využít Monte Carlo integraci pro posteriorní analýzu nelineárních funkcí regresních parame- trů. 56 NLRM s přirozeně konjugovaným priorem - více regresorů Kapitola 4 Normální lineární regresní model s jinými priory Pro reálné aplikace je přirozeně konjugovaná apriorní hustota poněkud omezující a není tak pravděpodobné, že bychom si s ní vystačili. V této kapitole tak budeme pracovat s normálním lineárním regresním model s nezávislým normálnímgama apriorním rozdělením. Nezávislost rozdělení parametru β a h má totiž zásadní důsledky, neboť posteriorní hustota, predikční hustota a posteriorní podíl šancí již nebudou mít známou analytickou formu. Bude tedy nutné využít posteriorních simulátorů. V této kapitole tak bude zaveden mocný nástroj posteriorní simulace – Gibbsův vzorkovač (Gibbs sampler). V této souvislosti si vysvětlíme problematiku tzv. konvergenčních diagnostik, pomocí kterých budeme ověřovat, zda-li je počet simulovaných a využitelných vzorků dostatečný natolik, abychom mohli hovořit o reprezentativním výběru z posteriorní hustoty pravděpodobnosti. Uvidíme rovněž jak vypočítat posteriorní podíl šancí pro vnořené modely, a to za užití tzv. Savage-Dickeyeho poměr hustot (SavageDickey density ratio). Jako druhou variantu apriorní hustoty si ukážeme takový typ hustoty, který v sobě bude obsahovat určité restrikce kladené na vektor parametrů β. V této souvislosti bude zavedena technika zvaná importance sampling. Český ekvivalent by mohlo být „vzorkování dle důležitosti popř. „vážené vzorkování , nicméně v textu bude uváděn spíše anglický výraz. V obou analyzovaných situacích budou věrohodnostní funkce totožné a budou odpovídat funkci z kapitoly 3, neboť se stále pohybujeme v intencích normálního lineárního regresního modelu. 58 Normální lineární regresní model s jinými priory 4.1 NLRM s nezávislou normální-gama apriorní hustotou 4.1.1 Apriorní hustota Předpokládejme tedy, že rozdělení vektoru parametrů β není podmíněno přesností chyby h a že jsou tedy tyto parametry vzájemně nezávislé. Platí tedy, že sdružená apriorní hustota pravděpodobnosti je rovna p(β, h) = p(β)p(h), kde p(β) odpovídá normálnímu rozdělení a p(h) rozdělení gama: p(β) = 1 (2π) k 2 |V |− 1 2 exp − 1 2 (β − β) V −1 (β − β) , (4.1) p(h) = c−1 G h ν−2 2 exp − hν 2s−2 , (4.2) kde cG je integrační konstanta pro funkci hustoty pravděpodobnosti odpovídající rozdělení gama. Značení je už tradiční, β je apriorní střední hodnota parametru β, apriorní střední hodnota a stupně volnosti pro přesnost chyby h jsou s−2 a ν. Matice V je přímo apriorní kovarianční matice vektoru parametrů β (v případě přirozeně konjugované apriorní hustoty byl rozptyl parametrů podmíněn přesností chyby, tedy var(β|h) = h−1 V ). 4.1.2 Posteriorní hustota Posteriorní hustota je proporcionální součinu věrohodnostní funkce a apriorní hustoty. Pokud budeme abstrahovat od členů nezávislých na β nebo h získáváme jádrovou hustotu v podobě: p(β, h|y) ∝ exp − 1 2 h(y − Xβ) (y − Xβ) + (β − β) V −1 (β − β) × h N+ν−2 2 exp − hν 2s−2 . (4.3) Tato sdružená hustota pravděpodobnosti pro β a h nemá tvar známé hustoty pravděpodobnosti a nelze jí tedy snadným způsobem využít pro posteriorní analýzu. Pro nalezení např. posteriorní střední hodnoty E(β) je nutné využít nějakého posteriorního simulátoru. Ačkoliv tedy sdružená hustota pravděpodobnosti nemá obvyklou formu (ve smyslu známého rozdělení), podmíněné posteriorní hustoty již tuto formu mít budou. Podmíněnou posteriorní hustotu p(β|y, h) snadno získáme, budeme-li zacházet se vztahem (4.3) jako s funkcí parametrů β pro pevně dané h. Formálně řečeno, pravidla pravděpodobnosti implikují p(β|y, h) = p(β,h|y) p(h|y) . Jelikož však p(h|y) nezávisí na vektoru β, dává nám samotná p(β, h|y) jádrovou hustotu p(β|y, h). Protože je však hustota definovaná svou jádrovou hustotou, jsme schopni z tvaru sdružené posteriorní hustoty p(β, h|y) vyvodit informaci o podmíněné hustotě p(β|y, h) za předpokladu, že 4.1 NLRM s nezávislou normální-gama apriorní hustotou 59 budeme fixovat h (bereme tento výraz jako proměnnou, jejíž hodnota je daná a známá). Po maticových úpravách analogických těm z předchozích kapitol můžeme definovat: h(y − Xβ) (y − Xβ) + (β − β) V −1 (β − β) = (β − β) V −1 (β − β) + Q, kde V = (V −1 + hX X)−1 , (4.4) β = V (V −1 β + hX y), (4.5) Q = hy y + β V −1 β − β V −1 β. Další kombinací s rovnicí (4.3) a vypuštěním členů, které nezahrnují vektor β (včetně výrazu Q), lze psát: p(β|y, h) ∝ exp − 1 2 (β − β) V −1 (β − β) , (4.6) což je samozřejmě jádrová hustota vícerozměrného normálního rozdělení. Jinými slovy β|y, h ∼ N(β, V ). (4.7) Podmíněnou posteriorní hustotu přesnosti chyby p(h|y, β) získáme z (4.3) jako funkci přesnosti chyby h. Lze tedy odvodit: p(h|y, β) ∝ h N+ν−2 2 exp − h 2 {(y − Xβ) (y − Xβ)} . (4.8) Můžeme si snadno ověřit, že se jedná o jádrovou hustotu gama rozdělení a tedy h|y, β ∼ G(s−2 , ν), (4.9) kde ν = N + ν, (4.10) s2 = (y − Xβ) (y − Xβ) + νs2 ν . (4.11) Tyto vztahy vypadají podobně jako v případě normálního lineárního regresního modelu s přirozeně konjugovanou apriorní hustotou. Neformálně zde samozřejmě platí podobná úvaha o tom, jak je kombinována datová a apriorní informace. Je však třeba zdůraznit, že vztahy (4.4)-(4.11) se nevztahují přímo k posteriorní hustotě, která nás zajímá, tedy p(β, h|y), ale vztahují se k podmíněným hustotám p(β|y, h) a p(h|y, β). Jelikož však p(β, h|y) = p(β|y, h)p(h|y, β), neříkají nám podmíněné posteriorní hustoty (4.8) a (4.9) vše o sdružené posteriorní hustotě p(β, h|y). Existuje však posteriorní simulátor zvaný Gibbsův vzorkovač, který využívá náhodných výběrů z podmíněných hustot k vytvoření množiny náhodných vzorků z odpovídající sdružené hustoty pravděpodobnosti. Ty pak lze využít k odhadům posteriorních středních hodnot apod. 60 Normální lineární regresní model s jinými priory 4.1.3 Gibbsův vzorkovač Princip tohoto nástroje budeme prezentovat ve zcela obecné podobě. Mějme tedy dán p-rozměrný vektor parametrů θ, věrohodnostní funkci p(y|θ), apriorní hustotu p(θ) a posteriorní hustotu p(θ|y). V případě lineárního regresního modelu je p = k + 1 a θ = (β , h) . Rozdělme si navíc vektor parametrů θ do několika (B) bloků, tedy θ = (θ(1), θ(2), . . . , θ(B)) , kde θ(j) je skalár nebo vektor pro j = 1, 2, . . . , B. V lineárním regresním modelu je obvyklé nastavit počet bloků B = 2, tedy první blok parametrů θ(1) = β a druhý blok θ(2) = h. Monte Carlo integrace poskytuje odhad E[g(θ)|y] na základě náhodných výběrů z posteriorní hustoty pravděpodobnosti p(θ|y), a to pro jakoukoliv funkci parametrů g(θ). Ne vždy je však možno provést náhodný výběr přímo z p(θ|y). Často je však možné provést náhodné výběry z podmíněných hustot pravděpo- dobnosti p(θ(1)|y, θ(2), . . . , θ(B)), p(θ(2)|y, θ(1), θ(3), . . . , θ(B)), . . . . . . , p(θ(B−1)|y, θ(1), . . . , θB−2, θ(B)), p(θ(B)|y, θ(1), . . . , θ(B−1)). Množinu těchto rozdělení nazýváme plně podmíněnými posteriorními rozděleními, neboť definují posteriorní hustotu pro každý blok jako hustotu podmíněnou ostatními bloky. V NLRM s nezávislou normální-gama apriorní hustotou je podmíněná hustota p(β|y, h) normální a hustota p(h|y, β) má gama rozdělení, z nichž je velmi snadné provést náhodný výběr. Náhodné výběry z takto definovaných plně podmíněných rozdělení nám dají sekvenci vzorků θ(1) , θ(2) , . . . , θ(S) , ze kterých jsme schopni získat Monte Carlo integrací E[g(θ)|y]. Předpokládejme tedy případ, kdy B = 2 a mějme již dán jeden počáteční náhodný výběr z p(θ(2)|y), který označíme θ (0) (2). Dolní index indikuje blok, horní index pak číslo vzorku. Protože p(θ|y) = p(θ(1)|y, θ(2))p(θ(2)|y), je tak zřejmé, že výběr z p(θ(1)|y, θ (0) (2)) je řádným výběrem θ(1) z p(θ|y). Označme tento výběr θ (1) (1). Neboť p(θ|y) = p(θ(2)|y, θ(1))p(θ(1)|y), platí, že náhodný výběr z p(θ(2)|y, θ (1) (1)) je platným výběrem θ(2) z p(θ|y). Tedy vektor parametrů θ(1) = (θ (1) (1) , θ (1) (2) ) je řádným výběrem z p(θ|y). Takto lze postupovat do nekonečna. Jsme-li tedy schopni úspěšne najít θ (0) (2), potom sekvenční výběr z posteriorního rozdělení θ(1) podmíněného předchozím výběrem θ(2) a výběr θ(2) podmíněný takto získaným θ(1) nám dává řadu náhodných výběrů (vzorků) z posteriorního rozdělení. Strategie sekvenčních výběrů z plně podmíněných posteriorních rozdělení je nazývána Gibbsův vzorkovač. Problémem je samozřejmě získání počátečního výběru θ (0) (2). Pokud bychom uměli získávat náhodné výběry z p(θ(2)|y), mohli bychom jej přímo využít spolu s podmíněnou hustotou pro první blok p(θ(1)|θ(2), y) v rámci Monte Carlo integrace a Gibbsův vzorkovač by nebylo potřeba využít.8 Lze však ukázat, že za 8Připomeňme si, že pravidla pravděpodobnosti nám říkají, že sdruženou hustotu pravděpodobnosti můžeme přepsat do podoby p(θ(1), θ(2)|y) = p(θ(1)|θ(2), y)p(θ(2)|y). 4.1 NLRM s nezávislou normální-gama apriorní hustotou 61 podmínky splnění tzv. slabých podmínek nehraje počáteční výběr θ (0) (2) žádnou roli v tom smyslu, že Gibbsův vzorkovač bude vždy konvergovat k sekvenci výběrů z p(θ|y). Obvykle tak zvolíme počáteční hodnotu θ (0) (2) necháme proběhnout Gibbsův vzorkovač v rámci S replikací. Poté prvních S0 vzorků odstraníme (tzv. burn-in replications) a zbývajících S1 vzorků použijeme k odhadu střední hodnoty funkce parametrů, která nás zajímá, E[g(θ)|y], přičemž S0 + S1 = S. Pokud jde o ony slabé podmínky zmiňované výše, stačí nám pro naše potřeby vědět, že nejtypičtějším příkladem, kdy nejsou splněny je případ, kdy posteriorní hustota je definována ve dvou různých oblastech, které nejsou vzájemně propojeny. V tom případě Gibbsův vzorkovač poskytne výběry jen z jedné z těchto oblastí (do druhé oblasti se nebude schopen dostat). To samozřejmě není případ normálního-gama rozdělení. Gibbsův vzorkovač lze tedy algoritmicky definovat (pro obecný počet B bloků) následovně: • Krok 0: Zvolíme počáteční hodnotu vektoru parametrů θ(0) . Pro s = 1, . . . , S: • Krok 1: Provedeme náhodný výběr θ (s) (1) z podmíněné posteriorní hustoty pravděpodobnosti p(θ(1)|y, θ (s−1) (2) , θ (s−1) (3) , . . . , θ (s−1) (B) ). • Krok 2: Provedeme náhodný výběr, θ (s) (2) z podmíněné posteriorní hustoty pravděpodobnosti p(θ(2)|y, θ (s) (1), θ (s−1) (3) , . . . , θ (s−1) (B) ). . . . • Krok B: Provedeme náhodný výběr θ (s) (B) z podmíněné posteriorní hustoty pravděpodobnosti p(θ(B)|y, θ (s) (1), θ (s) (2), . . . , θ (s) (B−1)). Získáme tímto S výběrů, θ(s) pro s = 1, . . . , S. Prvních S0 výběrů vyhodíme, abychom eliminovali efekt počáteční volby θ(0) a zbývajících S1 výběrů můžeme zprůměrovat, abychom obdrželi požadované posteriorní charakteristiky. Pokud nás zajímá funkce parametrů g(·) a gS1 = 1 S1 S s=S0+1 g(θ(s) ), (4.12) potom gS1 konverguje ke střední hodnotě E[g(θ)|y] pro S1 jdoucí k nekonečnu. Tato strategie bude fungovat pro jakoukoliv volbu bloků, nicméně ve většině případů se tato volba nabízí sama. Centrální limitní věta nám rovněž umožňuje přibližné určení chyby aproximace. Nicméně oproti samotné Monte Carlo integraci zde vznikají dva problémy: 1. V rámci Gibbsova vzorkovače se musíme ujistit, že volba θ(0) nemá vliv na získané výsledky. 62 Normální lineární regresní model s jinými priory 2. Sekvence výběrů není i.i.d. (stejnoměrně a nezávisle rozdělena). Konkrétně, vektory θ(s) a θ(s−1) nejsou vzájemně nezávislé, neboť θ (s) (j) závisí na θ (s−1) (l) pro j = 1, . . . , B − 1 a l > j. Prakticky tedy je nutné pro dosažení požadované úrovně přesnosti vygenerovat mnohem více výběrů při využívání Gibbsova vzorkovače než by tomu bylo v případě Monte Carlo integrace. 4.1.4 Markov Chain Monte Carlo diagnostiky Skutečnost, že stav Gibbsova vzorkovače pro výběr s (tj. θ(s) ) závisí na jeho stavu při výběru s − 1 (tj. θ(s−1) ) znamená, že sekvence tvoří tzv. Markovský řetězec (Markov chain). Existuje mnoho dalších posteriorních simulátorů s touto vlastností. Tento druh posteriorních simulátorů má obecné označení jako Markov Chain Monte Carlo (MCMC) algoritmy. Existuje zde celá řada možností jak měřit chybu aproximace v rámci MCMC algoritmu a mnoho dalších diagnostik, které analyzují, zda-li odhadnuté výsledky jsou spolehlivé. Souhrně je lze označit jako MCMC diagnostiky. První MCMC diagnostikou je numerická standardní chyba. V předchozím textu byla odvozena na základě centrální limitní věty. V kontextu MCMC metod lze rovněž odvodit numerickou standardní chybu, nicméně vzhledem k tomu, že náhodné výběry nejsou v rámci těchto algoritmů nezávislé, je třeba použít jiný typ centrální limitní věty. Jedná se o to, že za slabých podmínek nutných pro konvergenci Gibbsova vzorkovače získáváme známou podobu centrální limitní věty: S1{gS1 − E[g(θ)|y]} → N(0, σ2 g) (4.13) pro S1 jdoucí k nekonečnu. V tomto případě má σ2 g mnohem složitější formu než v případě (3.42) a v literatuře zatím nebyl publikován dostatečně ověřený způsob jejího odhadu. Intuitivně by σ2 g měla zohledňovat skutečnost, že θ(s) pro s = 1, . . . , S je vzájemně korelovaná řada. Geweke [14] na tomto základě navrhuje myšlenku převzatou z literatury pojednávající o časových řadách a nabízí odhad σ2 g v podobě: σ2 g = S(0) S1 (4.14) Oprávnění tohoto odhadu je spíše neformální nicméně v praxi se osvědčuje. S(0) je spektrální hustota řady θ(s) pro s = S0 +1, . . . , S vyhodnocená v 0. Podstatné pro nás nemusí být co přesně spektrální hustota vyjadřuje, stačí nám, že odhad σ2 g existuje a počítačové programy jej dokáží spočítat. Lze tak obdržet numerickou standardní chybu σg √ S1 . Interpretace je stejná jako v předchozí kapitole. Geweke [14] nabízí rovněž diagnostiku založenou na intuici, že pokud byl učiněn dostatečně velký výběr, odhad g(θ) založený na první polovině výběru by měl být zhruba stejný jako odhad založený na polovině druhé. Pokud jsou tyto odhady rozdílné, nasvědčuje to tomu, že máme málo výběrů (a odhad je tak nepřesný) nebo vliv počátečního výběru θ(0) ještě neodezněl a ovlivňuje 4.1 NLRM s nezávislou normální-gama apriorní hustotou 63 nám první polovinu výběru. Obecněji tedy rozdělme našich S výběrů z Gibbsova vzorkovače na prvních S0 vzorků, které zahazujeme, a S1 vzorků, které ponecháváme. Tento vzorek pak dále rozdelíme na první sadu SA výběrů, prostřední SB a poslední SC. V praxi se osvědčila volba SA = 0.1S1, SB = 0.5S1 a SC = 0.4S1. Pro potřeby diagnostiky nebudeme používat prostřední množinu vzorků SB. Tím si zajistíme větší pravděpodobnost, že první a poslední sada výběrů bude na sobě nezávislá. Nechť gSA a gSC jsou odhady E[g(θ)|y] za použití prvních SA vzorků (po vyhození S0 výběrů) a SC vzorků. Definujme σA√ SA a σC√ SC jakožto numerické standardní chyby těchto odhadů. Potom lze využít centrální limitní větu analogickou (4.13): CD → N(0, 1) kde CD je konvergenční diagnostika daná výrazem: CD = gSA − gSC σA√ SA + σC√ SC (4.15) V empirických aplikacích využívajících Gibbsův vzorkovač lze tuto konvergenční diagnostiku spočítat a porovnat s kritickými hodnotami standardizovaného normálního rozdělení. Vysoké hodnoty CD ukazují na to, že gSA a gSC jsou od sebe vzdálené a je tedy potřeba více replikací. Pokud naopak tato diagnostika nasvědčuje tomu, že jsme provedli dostatečný počet replikací, lze konečné statistiky posteriorní hustoty vypočíst na základě celého vzorku S1 výběrů. Předchozí MCMC diagnostiky jsou vcelku informativní, pokud jde o otázku, zda-li Gibbsův vzorkovač pracuje dobře a zda-li jsme zadali dostatečný počet replikací pro dosažení žádoucí úrovně přesnosti. Není zde ovšem vždy zajištěno, že nám budou dávat spolehlivé výsledky. Příkladem může být případ bimodální posteriorní hustotou pravděpodobnosti. Předpokládejme, že posteriorní hustota je kombinací dvou normálních rozdělení nacházejících se v různých částech parametrického prostoru. Je možné, že Gibbsův vzorkovač, který začíná blízko jedné ze středních hodnot těchto normálních rozdělení zde setrvá a všechny vzorky budou jen z této oblasti. Numerické standardní odchylky budou vypadat rozumně, výše zmiňované konvergenční diagnostiky budou indikovat konvergenci, ovšem ve skutečnosti všechny naše výsledky budou postrádat jedno z normálních rozdělení, které zahrnuje posteriorní hustota. Toto není případ normálního lineárního regresního modelu s nezávislým normálním-gama apriorním rozdělením. Některé kombinace normálních modelů však v sobě mohou zahrnovat multimodální posteriorní hustotu. Druhým příkladem, kdy by výsledky Gibbsova vzorkovače byly zavádějící a zmiňované MCMC diagnostiky nás na to neupozorní, je případ, kdy náš počáteční výběr θ(0) je extrémě vzdálen od oblasti parametrického prostoru s největší posteriorní pravděpodobností. Pokud je míra korelace ve vzorcích vysoká, bylo by třeba enormně velkého počtu výběrů Gibbsovým vzorkovačem, abychom se dostali do oblasti vyšší posteriorní pravděpodobnosti. Ve většině případů tento problém bude indikovat CD diagnostika, neboť gSA a gSC se budou od sebe lišit 64 Normální lineární regresní model s jinými priory (jak se bude Gibbsův vzorkovač postupně vzdalovat od θ(0) ), ovšem v neobvyklých případech tomu tak být nemusí. Gibbsův vzorkovač je často označován jakožto procházející posteriorní rozdělení, přičemž nejvíce navštěvuje oblasti s vysokou posteriorní pravděpodobností a méně pak oblasti s pravděpodobností menší. Ve výše uvedených případech však tomu tak nebylo, což způsobilo nevěrohodnost MCMC diagnostik. Ostatně, Gibbsův vzorkovač nám těžko může něco říct o oblastech parametrického prostoru, které nenavštívil. Tyto dva případy nastaly z důvodu, že neodezněl efekt počátečního výběru θ(0) . Obvyklou praxí je nechat vzorkovač běžet několikrát po sobě s užitím různých θ(0) . Pokud Gibbsův vzorkovač dosáhne ve všech případech podobné výsledky, můžeme si být jistí, že jsme provedli dostatečný počet replikací a zároveň jsme i vyhodili dostatečný počet prvních vzorků, což v souhrnu anulovalo vliv počátečního výběru. Tato myšlenka byla formalizována v rámci další MCMC diagnostiky. Nechť θ(0,i) pro i = 1, . . . , m označuje m počátečních hodnot z různých oblastí parametrického prostoru. Jedná se o tzv. overdispersed starting values, tedy silně rozptýlené počáteční hodnoty. Nechť θ(s,i) pro s = 1, . . . , S označuje S výběrů navzorkovaných Gibbsovým vzorkovačem z i-té počáteční hodnoty a g (i) Si označuje odpovídající odhad E[g(θ)|y]. Intuitivně, pokud by efekt počátečních hodnot odezněl, každá z těchto m sekvencí by měla být stejná resp. podobná. Tedy rozptyl spočtený mezi sekvencemi by neměl být velký vzhledem k rozptylu v rámci sekvence. Obvyklým odhadem rozptylu sekvence je: s2 i = 1 S1 − 1 S s=S0+1 g(θ(s,i) ) − g (i) Si 2 (4.16) což se označuje jako vnitřní rozptyl sekvence. Lze pak definovat průměrný rozptyl vnitřních rozptylů sekvencí jako W = 1 m m i=1 s2 i (4.17) Obdobně lze ukázat, že mezisekvenční rozptyl je možno odhadnout jako: B = S1 m − 1 m i=1 (g (i) Si − g)2 (4.18) kde g = 1 m m i=1 g (i) Si (4.19) Poznamenejme, že W je odhadem var[g(θ)|y]. Lze ukázat, že dalším odhadem rozptylu, var[g(θ)|y], je var[g(θ)|y] = S1 − 1 S1 W + 1 S1 B. (4.20) 4.1 NLRM s nezávislou normální-gama apriorní hustotou 65 Pokud Gibbsův vzorkovač nezkonvergoval, potom W podhodnotí var[g(θ)|y]. Intuitivně řečeno, pokud Gibbsův vzorkovač prošel jenom část posteriorní hustoty, měl by podhodnotit její varianci. Naopak B je založeno na sekvencích s rozptýlenými počátečními hodnotami. Tato rozptýlenost by mělo implikovat, že pokud Gibbsův vzorkovač zkonvergoval, var[g(θ)|y] nadhodnocuje var[g(θ)|y]. Obvyklá MCMC kovergenční diagnostika má podobu: R = var[g(θ)|y] W (4.21) Hodnoty by měly být větší než jedna, přičemž hodnoty blízké jedné indikují úspěšnou konvergenci. R je označována jako estimated potential scale reduction. Lze ji interpretovat jako mez toho, jak vzdálené mohou být odhady směrodatné odchylky g(θ) díky nedostatečné konvergenci. V literatuře jsou hodnoty R větší než 1.2 indikátorem nedostatečné konvergence. 4.1.5 Porovnání modelů: Savage-Dickey density ratio Pro NLRM s normální-gama apriorní hustotou neexistuje analytická podoba marginální věrohodnosti. Marginální věrohodnost je tak dána standardním vý- razem: p(y) = p(y|β, h)p(β, h)dβdh kde p(β, h) má podobu danou výrazy (4.1) a (4.2) a p(y|β, h) je věrohodnostní funkce normálního lineárního regresního modelu definována v předchozí kapitole. Obecná simulační metoda pro výpočet marginální věrohodnosti je tzv. metoda Gelfanda a Deye. Ta může být někdy dosti komplikovaná. Na tomto místě bude představena jednodušší metoda, která není sice obecně uplatnitelná, ale umožňuje zápis (a následně i výpočet) Bayesova faktoru pro vnořené modely. Tento zápis je nazývám jako Savage-Dickey density ratio (Savageho-Dickeyho poměr hustot). Je možno tohoto vztahu využít pouze pro porovnání vnořených modelů a to pouze v případě určitých typů apriorních hustot. Pokud jej však můžeme využít, nabízí se velmi jednoduchý způsob jak vypočítat Bayesův faktor a tedy i posteriorní podil šancí. Myšlenka stojící v pozadí je následující: Předpokládejme neomezenou verzi modelu M2 s vektorem parametrů θ = (ω , ψ ) . Věrohodnostní funkce a apriorní hustota je dána hustotami p(y|ω, ψ, M2) a p(ω, ψ, M2). Omezená verze modelu M1 má ω = ω0, kde ω0 je vektor konstant. Parametry vektoru ψ jsou neomezené pro oba modely. Věrohodnostní funkce a apriorní hustota pravděpodobnosti jsou p(y|ψ, M1) a p(ψ|M1). Protože ω je rovna ω0 v rámci modelu M1 není třeba specifikovat apriorní hustotu pro tento vektor parametrů. Teorém 4.1 (Savage-Dickey density ratio). Předpokládejme, že apriorní hustoty obou modelů splňují vztah: p(ψ|ω = ω0, M2) = p(ψ, M1) (4.22) 66 Normální lineární regresní model s jinými priory potom BF12, Bayesův faktor porovnávající M1 a M2 má podobu: BF12 = p(ω = ω0|y, M2) p(ω = ω0|M2) (4.23) kde p(ω = ω0|y, M2) a p(ω = ω0|M2) jsou postupně neomezená posteriorní a apriorní hustota pravděpodobnosti vyhodnocené v bodě ω0. Vztah (4.23) je nazýván jako Savage-Dickey density ratio (Savage-Dickeyeho poměr hustot). Důkaz tohoto teorému a poněkud komplikovanější výraz pro Bayesův faktor pro případ, kdy apriorní hustoty nesplňují vztah (4.22) lze nalézt v článku Verdinelliho a Wassermana [28]. V mnoha případech je rozumné využít stejnou apriorní hustotu pro parametry, které jsou stejné v obou modelech (tj. p(ψ|M2) = p(ψ|M1)). Ve skutečnosti je podmínka (4.22) mnohem slabší, neboť vyžaduje shodu apriorních hustot pro ψ pouze v bodě ω = ω0. Savage-Dickey density ratio v sobě obsahuje informaci týkající se modelu M2, tudíž se nemusíme zatěžovat posteriorní analýzou pro model M1. Navíc vztah (4.23) zahrnuje pouze apriorní a posteriorní hustoty, se kterými se velmi snadno pracuje. Přímý výpočet marginální věrohodnosti není potřebný. Pro ilustraci využití Savage-Dickeyeho poměru hustot v rámci NLRM v této kapitole předpokládejme omezený model M1 zahrnující omezení β = β0. Případ omezení Rβ = r je jen jednoduchým rozšířením této ilustrace. Neomezený model M2 je model diskutovaný v této kapitole. Bayesův faktor porovnávající tyto modely je: BF12 = p(β = β0|y, M2) p(β = β0|M2) (4.24) Jmenovatel tohoto výrazu lze snadno spočítat, neboť marginální apriorní hustota pro β je normální a lze ho spočítat přímo, tedy: p(β = β0|M2) = 1 (2π) k 2 |V |− 1 2 exp − 1 2 (β0 − β) V −1 (β0 − β) . (4.25) Spočítat čitatel výrazu (4.24) je o něco obtížnější. Ačkoliv víme, že hustota p(β|y, h, M2) odpovídá normálnímu rozdělení, neznáme podobu p(β|y, M2). Ovšem využitím zákonů pravděpodobnosti a výsledků Gibbsova vzorkovače lze p(β = β0|y, M2) snadno odhadnout. Gibbsovým vzorkovačem získáme náhodné vzorky β(s) a h(s) pro s = S0 + 1, . . . , S. Pokud pak zprůměrujeme p(β = β0|y, h(s) , M2) přes všechny výběry h(s) , získáme požadovaný odhad p(β = β0|y, M2). Přesněji řečeno, 1 S1 S s=S0+1 p(β = β0|y, h(s) , M2) → p(β = β0|y, M2) (4.26) pro S1 jdoucí k nekonečnu. Protože platí p(β = β0|y, h(s) , M2) = 1 (2π) k 2 |V |− 1 2 exp − 1 2 (β0 − β) V −1 (β0 − β) (4.27) 4.1 NLRM s nezávislou normální-gama apriorní hustotou 67 průměr pravé strany (4.26) tak získáme velmi snadno. Abychom pochopili, proč platí vztah (4.26), poznamenejme, že zákony pravděpodobnosti implikují p(β = β0|y, M2) = p(β = β0|y, h, M2)p(h|y.M2)dh Jelikož p(β = β0|y, h, M2) v sobě neobsahuje nadále β (je zde nyní vektor konstant β0), jedinou náhodnou veličinou v rámci integrálu je h. Můžeme tak psát p(β = β0|y, M2) = g(h)p(h|y)dh = E[g(h)|y] kde g(h) = p(β = β0|y, h, M2). Posteriorní simulátory však jsou použitelné právě pro výpočet charakteristik jako je E[g(h)|y]. Vztah (4.26) nám dává odhad p(β = β0|y, M2) podobně jako (4.12) poskytuje odhad E[g(θ)|y] pro jakýkoliv vektor parametrů θ a jeho funkci g(θ). Na závěr je dobré poznamenat, že je celá řada modelů, pro které je Gibbsův vzorkovač vhodným posteriorním simulátorem. Pro tyto modely je většinou velmi snadné spočítat i Savage-Dickey density ratio. Jedná se tedy o silný a rozšířený nástroj pro výpočet Bayesova faktoru. 4.1.6 Předpověď Stejně jako v předchozí kapitole nás bude zajímat predikce pro T nepozorovaných hodnot závisle proměnné y∗ = (y∗ 1, . . . , y∗ T ) danými jako: y∗ = X∗ β + ∗ (4.28) kde ∗ je nezávislé na a je z N(0, h−1 IT ) a X∗ je matice rozměru T × k analogická matici X, obsahující k vysvětlujících proměnných pro každé z T pozorování pro predikci. Predikční hustota je dána jako p(y∗ |y) = p(y∗ |y, β, h)p(β, h|y)dβdh (4.29) Skutečnost, že ∗ je nezávislé na , implikuje, že y a y∗ jsou vzájemně nezávislé, a tudíž p(y∗ |y, β, h) = p(y∗ |β, h), což lze zapsat jako p(y∗ |β, h) = h T 2 (2π) T 2 exp − h 2 (y∗ − X∗ β) (y∗ − X∗ β) (4.30) Integrál ve vztahu (4.29) nelze pro NLRM s nezávislou normální-gama apriorní hustotou řešit analyticky. S úspěchem zde využijeme simulačních metod. V podstatě jakákoliv prediktivní charakteristika může být zapsána v podobě E[g(y∗ )|y] pro příslušnou funkci g(·). Například výpočet střední hodnoty predikce y∗ i implikuje g(y∗ ) = y∗ i , výpočet rozptylu predikce vyžaduje znalost prediktivní střední hodnoty a E[y∗ i |y], tedy bude nás zajímat g(y∗ ) = y∗2 i . Zajímá nás tedy výpočet E[g(y∗ )|y] = g(y∗ )p(y∗ |y)dy∗ (4.31) 68 Normální lineární regresní model s jinými priory Tento vztah je samozřejmě obdoba vztahu pro analýzu parametru θ E[g(θ)|y] = g(θ)p(θ|y)dy∗ (4.32) pro jakoukoliv funkci g(θ). Stačí zaměnit θ a y∗ . Monte Carlo integrace a Gibbsův vzorkovač využívají skutečnosti, že pokud θ(s) pro s = 1, . . . , S jsou náhodné výběry z posteriorní hustoty, potom gS = 1 S S s=1 g(θ(s) ) konverguje k E[g(θ)|y] pro S jdoucí k nekonečnu.9 Logicky, pokud jsme schopni nalézt y∗(s) pro s = 1, . . . , S jakožto výběry z p(y∗ |y), potom gY = 1 S S s=1 g(y∗(s) ) (4.33) bude konvergovat k E[g(y∗ )|y]. Následující postup nám poskytne potřebné vzorky y∗ . Pro každé β(s) a h(s) , které nám dává Gibbsův vzorkovač, vezmeme výběr y∗(s) z predikční hustoty p(y∗ |y, β(s) , h(s) ). Protože se jedná o hustotu odpovídající normálnímu rozdělení (viz (4.30)), je tato strategie jednoduše relizovatelná. Máme tedy β(s) , h(s) a y∗(s) pro s = 1, . . . , S. Zákony pravděpodobnosti nám říkají, že p(β, h, y∗ |y) = p(y∗ |y, β, h)p(β, h|y) a tedy strategie výběru nejdříve z posteriorní hustoty a potom z p(y∗ |y, β, h) nám dává výběr z p(β, h, y∗ |y). Náš soubor výběrů β(s) , h(s) a y∗(s) lze tedy využít k vyhodnocení jakékoliv posteriorní charakteristiky využitím vztahu (4.12) a prediktivní charakteristiky za využití (4.33).10 Postup uvedený v této části lze využít pro jakýkoliv model, kde je využit posteriorní simulátor pro získání vzorků z p(θ|y) a p(y∗ |y, θ) má podobu, se kterou lze snadno pracovat. 4.1.7 Empirická ilustrace K ilustraci použití Gibbsova vzorkovače pro normální lineární regresní model s nezávislou normální-gama apriorní hustotou použijeme data obsahující údaje o prodejních cenách N = 546 domů prodaných ve Windsoru (Kanada) v roce 1987. Data jsou obsahem souboru hprice.txt (stejná data jako v kapitole 3). V této kapitole jsme se rovněž zabývali postupem volby apriorních hyperparametru. Je 9V případě Gibbsova vzorkovače je žádoucí prvních S0 vzorků vyhodit, tudíž sumace půjde od S0 + 1 do S. 10Tento závěr využívá obecné pravidlo, že pokud máme výběry ze sdružené hustoty pravděpodobnosti p(θ, y∗|y), potom samostatné výběry θ jsou výběry z marginálního rozdělení p(θ|y) a samotné výběry y∗ jsou výběrem z p(y∗|y). 4.1 NLRM s nezávislou normální-gama apriorní hustotou 69 logické, že i zde použijeme obdobný postup, tzn. ν = 5, s−2 = 4.0 × 10−8 a β =       0.0 10 5000 10000 10000       . Tyto hodnoty jsou stejné jako hodnoty z předchozí kapitoly a mají podobnou interpretaci, jen s tím rozdílem, že V bude odpovídat přímo kovarianční matici parametrů β, tedy var(β) = V . Jen pro připomenutí, v případě přirozeně konjugované apriorní hustoty jsme měli var(β) = νs2 ν − 2 V . Abychom měli srovnatelné apriorní hustoty s těmi z předchozí kapitoly, zvolíme V =       100002 0 0 0 0 0 52 0 0 0 0 0 25002 0 0 0 0 0 50002 0 0 0 0 0 50002       . Všimněme si, že v případě nezávislé normální-gama apriorní hustoty je obykle snadné stanovení V , neboť odpovídá apriorní kovarianční matici vektoru parametrů β. V případě přirozeně konjugovné apriorní hustoty však máme apriorní závislost mezi β a h. což znamená, že rozptyl β závisí na bolbě priorů pro h a V . Bayesiánskou analýzu v tomto modelu provedem snadno s využitím Gibbsova vzorkovače. Příslušný skript je podobný tomu, který byl využit v předchozí kapitole pro Monte Carlo integraci, kdy pouze musíme sekvenčně generovat výběry z podmíněných hustot p(β|h) a p(h|β) oproti jednoduchému výběru p(β) z MC integrace. Příslušný soubor se skriptem je označen jako priklad_NLRMjiny_Gibbs.m. Mohou být vyžadovány další funkce LeSageho toolboxu [22]. Tabulka 4.1 obsahuje empirické výsledky našeho modelu vztažené k parametru β, včetně MCMC konvergenčních diagnostik. Nastavili jsme počáteční výběr přesnosti chyby jako inverzní hodnotu k OLS odhadu rozptylu σ2 (tzn. h(0) = 1 s2 ). Vyhodili jsme prvních S0 = 1000 replikací a ponechali S1 = 10000 replikací. Pro přehlednost neukazujeme výsledky pro h. Posteriorní střední hodnoty a směrodatné odchylky jsou velmi podobné těm z tabulky 3.1, což odpovídá skutečnosti, že jsme v obou kapitolách použili podobné informativní apriorní hustoty. Sloupec označený jako „NSE obsahuje numerickou standardní chybu aproximace E(βj|y) pro j = 1, . . . , 5. Pro odhad spektrální hustoty S(0) byla využita funkce momentg.m, nicméně v rámci skriptu 70 Normální lineární regresní model s jinými priory Tabulka 4.1: Apriorní a posteriorní střední hodnoty pro parametr β (směrodatné odchylky v závorkách) Gewekeho P. podíl šancí Prior Posterior NSE CD pro βj = 0 β1 0 (10000) −4119.01 (3251.44) 34.273 −0.065 1.39 β2 10 (5) 5.45 (0.36) 0.004 −1.474 0.00 β3 5000 (2500) 3228.83 (1080.46) 11.389 1.073 0.18 β4 10000 (5000) 16136.64 (1605.11) 16.919 0.144 0.00 β5 10 (5) 7685.55 (987.20) 10.406 −0.597 0.00 byla použita i funkce Matlabu pro odhad spektrální hustoty. Interpretace NSE zůstává stejná, měří tedy přesnost našeho odhadu. Pokud požadujeme vyšší úroveň přesnosti, je třeba zvýšit počet replikací, S1. SLoupec označený jako CD je hodnota Gewekovy konvergenční diagnostiky. V našem případě porovnává odhad E(βj|y) založený na prvních 1000 ponechaných vzrocích s posledními 4000. Pokud nám efekt počátečních podmínek odezněl a generovali jsme dostatečný počet výběrů, měly by být tyto dva odhady podobné. Vzhledem k tomu, že CD má asymptoticky standardizované normální rozdělení, platí, že konvergence MCMC algortimu nastala v případě, pokud je CD menší než 1.96 v absolutní hodnotě pro všechny parametry (1.96 odpovídá 97.5% kvantlu standardizovaného normálního rozdělení). Z tabulky vidímě, že zkonvergovaly odhady pro všechny parametry. Tabulka 4.1 obsahuje rovněž i posteriorní podíly šancí porovnávající dva regresní modely: M1 : βj = 0 vzhledem k M2 : βj = 0. Stejně jako v kapitole 3, omezený model používá informativní apriorní hustotu, která je stejná jako apriorní hustota neomezenéo modelu s tou výjimkou, že β je vektor rozměru 4 × 1 a V je matice rozměru 4×4, kdy informaci o βj vynecháváme. Apriorní podíl šancí je jednička. Informace z porovnání modelů v tabulce 4.1 je kvalitativně podobná jako informace z tabulky 3.3. Existuje zde tedy jasný důkaz toho, že β2, β4 a β5 jsou nenulové, nicméně je zde určitá nejistota pokud jde o to, jestli je nulový parametr beta1 nebo β3. Pokud porovnáme empirické výsledky z tabulky 4.1 s výsledky z kapitoly 3, jsou výsledky porovnání modelů hodnotově více odlišné než výsledky např. odhadu středních hodnot posteriorních hustot. To je vcelku obvyklý jev. Informativní apriorní hustota má tendenci mít větší vliv na posteriorní podíl šancí než na posteriorní střední hodnoty a směrodatné odchylky. Odlišnosti apriorníh hustot kapitol 3 a 4 se tak projevují více v posteriorním 4.1 NLRM s nezávislou normální-gama apriorní hustotou 71 −2 0 2 4 6 8 10 12 14 x 10 4 0 200 400 600 800 1000 1200 Predikovana cena domu Obrázek 4.1: Predikční hustota ceny domu (Gibbsův vzorkovač). podílu šancí než v posteriorních středních hodnotách. Snadno si rovněž sestrojíme predikční hustotu pro dům s danými charakteristikami. Budeme opět předpokládat případ, kdy nás zajímá predikce prodejní ceny domu o rozloze 5000 čtverečních stop, dvěma ložnicemi, dvěma koupelnami a jedním patrem. Bohužel v tomto případě nemáme analytické výsledky. Nicméně vlastnosti predikční hustoty lze získat snadnou modifikací skriptu pro simulaci Gibbsovým vzorkovačem. Pokud do něj přidáme řádek kódu pro generování y∗(s) podmíněného β(s) a h(s) s využitím vztahu (4.30) a uložíme-li si výsledky výběrů y∗(s) pro s = S0 + 1, . . . , S, můžeme spočítat jakoukoli charakteristiku predikční hustoty s využitím (4.33). Na tomto základě zjistíme, že posteriorní střední hodnota domu s těmito specifickými charakteristikami je 69499 dolarů a predikční směrodatná odchylka činí 18111. Tyto hodnoty jsou podobné těm z minulé kapitoly. Pro jednorozměrný (maximálně dvojrozměrný) případ mohou být efektivním způsobem prezentace empirických výsledků grafické metody. Obrázek 4.1 vykresluje naši predikční hustotu. Obrázek je prostým historgramem všech náhodných výběrů, y∗(s) pro s = S0 + 1, . . . , S. Aproximace je to z toho důvodu, protože histogram můžeme brát jako diskrétní aproximaci spojité funkce predikční hustoty. Tneto obrázek nám tak nejen umožňuje hrubý odhad predikční střední hodnoty, ale rovněž nám dává i náhled na rozptýlenost predikovaných hodnot, což je vyjádřeno tloušťkou konců „rozdělení . Tento obrázek nám napovídá, že daná datová množina nám neumožňuje dostatečnou (přesnou) predikční 72 Normální lineární regresní model s jinými priory analýzu. Ačkoliv je naše nejlepší predikce ceny domu o rozloze 5000 čtverečních stop, dvou ložnicích, dvou koupelnách a jednom patru asi 70000 dolarů, predikční hustota dává i nezanedbatelnou pravděpodobnost cenám do 30000 dolarů nebo nad 110000 dolarů. 4.2 NLRM s omezeními ve tvaru nerovnosti V této části bude diskutován lineární regresní model, ve kterém budeme požadovat omezení koeficientů ve tvaru nerovnosti. Tento požadavek lze zapsat v podobě β ∈ A, kde A je příslušná relevantní oblast parametrického prostoru. Bayesiánské řešení tohoto problému je jednoduché, neboť omezení kladená na parametry lze zakomponovat do aprioní hustoty pravděpodobnosti. Pro posteriorní analýzu se využívá technika zvaná importance sampling, tedy něco jako vzorkování dle důležitosti či vážené vzorkování. Pro některé typy nerovnostních omezení (např. lineární omezení βj > 0) je možno využít ještě jednodušších metod. Nicméně, importance sampling je i tak dosti jednoduchá a průhledná metoda posteriorní analýzy a lze ji využít pro jakýkoliv typ omezení ve tvaru nerovnosti a v podstatě i pro jakýkoliv typ modelů. 4.2.1 Apriorní hustota Pro zavedení nerovnostních omezení je obvyklé využít apriorní hustoty. Tedy tvrzení β ∈ A je ekvivalentní tvrzení, že oblast parametrického prostoru mimo A je apriori vyloučená, a tedy měly by jí být přiřazeny apriorní váhy hodnoty 0. Tuto apriorní informaci lze kombinovat s dalšími apriorními informacemi, například je možná kombinace s nezávislým apriorním normálním-gama rozdělelením, nebo přirozeně konjugovaným priorem. V rámci přiblížení konceptu importance sampling ji budeme kombinovat s přirozeně konjugovanou apriorní hustotou danou ve vztahu (3.8). Speciálním případem je pak neinformativní prior daným vztahem (3.24). Tento neinformativní prior je užitečné využít v případě, kdy chceme zavést omezení ve tvaru nerovnosti na parametry β, ale nemáme žádnou další apriorní informaci. Apriorní hustota je tedy dána jako p(β, h) ∝ fNG(β, h|β, V , s−2 , ν)1(β ∈ A) (4.34) kde β, V , s−2 , ν jsou apriorní hyperparametry a 1(β ∈ A) je indikační funkce, která nabývá hodnot 1, pokud β ∈ A a 0 jinak. V případě přirozeně konjugovaného prioru odpovídá marginální apriorní hustota parametru β t-rozdělení (obdobně jako marginální posteriorní hustota): p(β) ∝ ft(β|β, s2 V , ν)1(β ∈ A) (4.35) Neinformativní variantu přirozeně konjugovaného prioru získáváme nastavením ν = 0 a V −1 = cIk, kde c se blíží nule: p(β, h) ∝ 1 h 1(β ∈ A) (4.36) 4.2 NLRM s omezeními ve tvaru nerovnosti 73 4.2.2 Posteriorní hustota Odvození posteriorní hustoty je analogické odvození v kapitole 3 s jedinou výjimkou, kdy musíme brát v úvahu omezení ve tvaru nerovnosti. Sdružená posteriorní hustota pro β a h tedy bude z normálního-gama rozdělelní a marginální posteriorní hustota pro β bude odpovídat vícerozměrnému t-rozdělení (neinformativní prior pak byl speciálním případem přirozeně konjugovanho prioru). Získáváme tedy totožné výsledky, kdy výsledné hustoty budou ohraničené. Přesněji, p(β, h|y) bude ohraničená v rámci oblasti β ∈ A,(β|y) je vícerozměrné t-rozdělení omezené na stejnou oblast β ∈ A: p(β|y) ∝ ft(β|β, s2 V , ν)1(β ∈ A) (4.37) kde β, V , s−2 a ν jsou definovány rovnicemi (3.10)-(3.13). Posteriorní hustota pro neinformativní apriorní hustotu má tutéž podobu, kde β, V , s−2 a ν jsou definovány rovnicemi (3.20)-(3.23) Pokud bychom kombinovali naše omezení s nezávislou normální-gama apriorní hustotou, pak by vztah pro p(β|y, h) v (4.6) měl být násoben 1(β ∈ A). 4.2.3 Importance sampling Pro některou volbu A jsou k dispozici analytické výsledky. Pro jiné lze využít Gibbsův vzorkovač. Pro obecnou volbu A však nelze využít žádný z výše uvedených přístupů. Ukážeme si tedy přístup posteriorní simulace zvaný importance sampling. Jelikož se jedná o obecně uplatnitelnou metodu, využijeme obecného značení. Budeme tedy využívat vektor parametrů θ, věrohodnostní funkci p(y|θ), apriorní hustotu p(θ) a posteriorní hustotu p(θ|y). Monte Carlo integrace v sobě zahrnuje náhodné výběry z p(θ|y), ovšem v celé řadě modelů je není snadné získat. Předpokládejme na místo toho, že náhodné výběry θ(s) pro s = 1, . . . , S pocházejí z hustoty pravděpodobnosti q(θ), ze které je snadné tyto výběry získat. Tato hustota se nazývá importance function. Je zřejmé, že průměrování těchto výběrů nezískáme požadované výsledky, neboť gS = 1 S S s=1 g(θ(s) ) nebude konvergovat k E[g(θ)|y] pro S → ∞. Pro lepší představu předpokládejme situaci, kdy q(θ) a p(θ|y) mají podobnou střední hodnotu, nicméně q(θ) má vyšší variabilitu než p(θ|y). Náhodné výběry z q(θ) budou obsahovat příliš mnoho výběrů z okrajů hustoty p(θ|y) a příliš málo výběrů z blízkosti střední hodnoty hustoty pravděpodobnosti p(θ|y). Importance sampling koriguje tento nesoulad tím, že přiřazuje menší váhu odlehlým výběrům a větší váhu výběrům blízko střední hodnoty. Jednoduše řečeno, namísto jednoduchého průměru bereme vážený průměr. 74 Normální lineární regresní model s jinými priory Teorém 4.2 (Importance sampling). Nechť θ(s) pro s = 1, . . . , S je náhodný výběr z q(θ) a definujme gS = S s=1 w(θ(s) )g(θ(s) ) S s=1 w(θ(s)) (4.38) kde w(θ(s) ) = p(θ = θ(s) |y) q(θ = θ(s)) (4.39) potom gS koverguje k E[g(θ)|y] pro S jdoucí k nekonečnu (při splnění slabých podmínek)11 . Jelikož váhy se objevují v čitateli i jmenovateli (4.38), je třeba vyhodnotit pouze jádrové hustoty p(θ|y) a q(θ). Pokud p∗ (θ|y) ∝ p(θ|y) a q∗ (θ) ∝ q(θ), lze (4.39) nahradit výrazem w(θ(s) ) = p∗ (θ = θ(s) |y) q∗(θ = θ(s)) (4.40) a výše zmíněný teorém bude stále platit. Jak se na první pohled může zdát, importance sampling je krásným řešením jakéhokoliv problému posteriorní simulace. Zdá se, že můžeme brát náhodné vzorky z obvyklé a známé hustoty q(θ) a využitím (4.38) pro odhad E[g(θ)|y]. Bohužel v praxi to není tak jednoduché. Pokud q(θ) nebude dobře aproximovat p(θ|y), mohou nastat případy, kdy w(θ(s) ) je nula pro téměř každý výběr. To znamená, že vážený průměr bude v sobě zahrnovat velmi málo výběrů. To by znamenalo, že S by muselo být enormně vysoké, abychom získali dostatečně přesné odhady E[g(θ)|y]. Importance sampling tak může být neproveditelné, pokud q(θ) není vhodně zvolena. Jelikož vhodný výběr q(θ) s sebou může přinášet hodně práce a rozdílné q(θ) jsou použitelné pro různé třídy modelů, většinou se v rámci možností využívá jiných strategií, jako je Gibbsův vzorkovač. Pokud zvolíme počet bloků, Gibbsův vzorkovač dovoluje vytvářet náhodné výběry z podmíněných hustot pravděpodobnosti (a monitorovat konvergenci). Importance sampling v sobě obsahuje hledání a ověření obvyklé třídy importance funkcí (např. z třídy normálních rozdělení), a po té je třeba v rámci této třídy příslušnou funkci vhodně zadefinovat (např. vybrat střední hodnotu a rozptyl normálního rozdělení) abychom dobře aproximovali p(θ|y). Zejména pokud je θ vícedimenzionální, může být extrémně obtížné najít vhodnou importance funkci. Obecnou strategii pro výběr rozumné importance funkce nabízí Geweke [13]. Pro normální lineární regresní model omezený požadavky ve formě nerovností se nabízí importance function v podstatě sama a importance sampling tak lze provést vcelku jednoduše. Předpokládejme co se stane, když zvolíme q(β) = ft(β|β, s2 V , ν) (4.41) 11Tyto podmínky obnášejí zejména to, že q(θ) podporuje p(θ|y) a E[g(θ|y)] existuje. 4.2 NLRM s omezeními ve tvaru nerovnosti 75 Z této importance function je snadné provádět náhodné výběry, neboť se jedná o vícerozměrné t-rozdělení. Využitím (4.37) a (4.40) můžeme váhy spočítat jako w(β(s) ) = 1(β(s) ∈ A) a (4.38) lze využít pro odhad E[g(β)|y] pro jakoukoliv funkci parametrů g(·), která nás zajímá. Všechny tyto váhy jsou buď rovny jedné, pokud β(s) ∈ A, a nebo nula, pokud β(s) /∈ A. Tento postup tedy zahrnuje náhodný výběr z neomezené posteriorní hustoty a vyhození výběrů, které nesplňují omezení (mají nulovou váhu). Tento postup je tedy snadné využít, pokud A není příliš malá oblast, kdy by veškeré vzorky byly vyhozeny. Numerická standardní chyba se snadno vypočte využitím centrální limitní věty. Teorém 4.3 (Numerická standardní chyba). Využitím definice a značení v rámci teorému 4.2 platí √ S{gS − E[g(θ)|y]} → N(0, σ2 g) (4.42) pro S jdoucí k nekonečnu, přičemž σ2 g je možno konzistentně odhadnout jako σ2 g = 1 S S s=1 w(θ(s) ) g(θ(s) ) − gS 2 1 S S s=1 w(θ(s)) 2 Numerickou standardní chybu, σg √ S , lze tedy vypočítat, což nám napomůže ve volbě S. 4.2.4 Porovnání modelů Omezení ve tvaru nerovnosti obvykle neumožňuje přimý výpočet marginální věrohodnosti takovéhoto modelu. Předpokládejme případ, ve kterém M1 je normální lineární regresní model s přirozeně konjugovaným priorem s omezeními ve tvaru nerovnosti (tj. β ∈ A). Nechť M2 je tentýž model, přičemž předchozí restrikce neplatí (tj. β /∈ A). Jelikož omezení ve tvaru nerovnosti jsou obvyklou implikací ekonomické teorie, porovnání modelů v této podobě je pro nás více než zajímavé. Ekonomická teorie může implikovat β ∈ A a p(M1|y) tak označuje pravděpodobnost, že ekonomická teorie je v souladu s daty, že tedy platí. Příklad modelů tohoto typu (a jejich porovnání) byl diskutován v kapitole 3. Prakticky lze tedy využít neomezený NLRM s přirozeně konjugovaným priorem k výpočtu p(M1|y) = p(β ∈ A|y) a p(M2|y) = 1 − p(M1|y). Pokud mají omezení ve tvaru nerovnosti lineární podobu, p(β ∈ A) lze vypočíst analyticky. Alternativně lze využít i importance sampling, v rámci neomezeného modelu, p(β ∈ A|y) = E[g(θ)|y], kde g(θ) = 1(β ∈ A). Právě posteriorní simulace je ideální pro vyhodnocení takovýchto charakteristik. Můžeme tedy vzít náhodné výběry u neomezené posteriorní hustoty (ft(β|β, s2 V , ν)) a jednoduše spočítat podíl těch, které splňují β ∈ A. Tento podíl je odhadem p(β ∈ A|y). Ovšem 76 Normální lineární regresní model s jinými priory výběr z ft(β|β, s2 V , ν) je právě to, co bylo diskutováno v předchozí části při ilustraci techniky importance sampling. Jejím provedením a zachováním informace o tom, kolik vzorků jsme nechali a kolik vyhodili (přiřadili jim nulovou váhu), získáme základ pro výpočet p(M1|y) a p(M2|y). Savage-Dickey density ratio lze využít k porovnání vnořených modelů, na které jsou kladeny tytéž nerovnostní omezení. Nechť M2 je NLRM s přirozeně konjugovaným priorem a nerovnostními omezeními, jehož posteriorní hustota je dána rovnicí (4.37) a nechť M1 je stejný jako M2 s tou výjimkou, že β = β0. Pokud předpokládáme v obou modelech tutéž apriorní hustotu pro h, SavageDickey density ratio nám říká, že Bayesův faktor lze spočítat jako BF12 = p(β = β0|y, M2) p(β = β0|M2) Naneštěstí vyhodnocení Bayesova faktoru není tak jednoduché, jak by se mohlo znát, neboť výsledky v (4.35) a (4.37) jsou apriorními a posteriorními jádrovými hustotami (není zde znaménko rovnosti). Formálně mají apriorní a posteriorní hustoty podobu: p(β) = cft(β|β, s2 V , ν)1(β ∈ A), p(β|y) = cft(β|β, s2 V , ν)1(β ∈ A), kde c a c jsou apriorní a posteriorní konstanty zajišťující integrovatelnost těchto hustot na hodnotu jedna. Savage-Dickey ratio má tedy podobu BF12 = cft(β|β, s2 V , ν) cft(β|β, s2V , ν) (4.43) Tento vztah vyžaduje vyhodnocení dvou hustot pravděpodobnosti z vícerozměrného t-rozdělení v bodě β = β0 a výpočet konstant c a c. Pro některé typy hypotéz je výpočet těchto konstant snadný. Předpokládejme případ jednorozměrného omezení mající podobu βj > 0. V tomto případě je možno využít statistických tabulek t-rozdělení (nebo jejich počítačové podoby) pro získání těchto integračních konstant. Pro oběcnější nerovnosti je třeba využít metody předchozího odstavce, která počítala pravděpodobnost p(M1|y), jež odpovídala pravděpodobnosti, že omezení β ∈ A platí. Ovšem c = 1 p(M1|y) , protože c = 1 ft(β|β, s2 V , ν)1(β ∈ A)dβ a p(M1|y) = ft(β|β, s2 V , ν)1(β ∈ A)dβ. Výpočet c je podobný, jen je třeba využít importance sampling v rámci apriorní hustoty pravděpodobnosti. 4.2.5 Předpověď Postup vyjádřený ve vztazích (4.28) až (4.33) lze využít i v tomto případě. Výběry z importance function je třeba vážit způsobem popsaným v (4.38) a (4.39). 4.2 NLRM s omezeními ve tvaru nerovnosti 77 V rámci obecného značení označme θ(s) jakožto náhodný výběr z importance function a y∗(s) jako náhodný výběr z p(y∗ |y, θ(s) ) pro s = 1, . . . , S. Potom gY = S s=1 w(θ(s) )g(y∗(s) ) S s=1 w(θ(s)) (4.44) konverguje k E[g(y∗ )|y] pro S jdoucí k nekonečnu, kdy w(θ(s) ) je dána výrazem (4.39) nebo (4.40). Tento postup pro výpočet predikčních charakteristik je možno využít všude tam, kde je prováděno importance sampling, tedy i v případě normálního lineárního regresního modelu s přirozeně konjugovaným priorem s omezením ve tvaru nerovnosti. 4.2.6 Empirická ilustrace K ilustraci techniky importance sampling opět použijeme dana o prodejních cenách N = 546 domů prodaných ve Windsoru (Kanada) v roce 1987. Data jsou tradičně obsahem souboru hprice.txt. Připomeňme si, že závisle proměnná je prodejní cena domu a vysvěltující proměnné jsou rozloha domu, počet ložnic, počet koupelen a počet pater. Budeme předpokládat, že všechny tyto veličiny mají kladný vlv na cenu domu. Navíc předpokládejme, že máme informaci, že β2 > 5, β3 > 2500, β4 > 5000 a β5 > 5000 a tuto informaci chceme samozřejmě včlenit do naši apriorní hustoty. To nám bude definovat oblast omezení parametrů, A. Apriorní hustota je součinem 1(β ∈ A) normální-gama apriorní hustoty. Předpokládáme, že se nyní pohybujeme v rámci modelu s přirozeně konjugovanou normální.gama apriorní hustotou. Musíme si tedy zvolit hyperparametry β, V , s−2 a ν. Zvolíme si stejné hodnoty jako v kapitole 3. To znamená, že volíme s−2 = 4.0 × 10−8 , ν = 5, β =       0.0 10 5000 10000 10000       a V =       2.40 0 0 0 0 0 6.0 × 10−7 0 0 0 0 0 0.15 0 0 0 0 0 0.60 0 0 0 0 0 0.60       . Přestože bychom byli schopni využít přímo Monte Carlo integraci založenou na výběrech z omezené ho normálního rozdělení (díky jednoduchosti omezení), zaměříme se na využití techniky importance sampling. Příslušný programový kód je jednoduchý a je obsažem v souboru priklad_NLRMjiny_IS.m. Jako importance function můžeme využít (4.41) což je ale stejná funkce jako je posteriorní hustota pravděpodobnosti z kapitoly 2. Váhy pro importance sampling získáme jednoduše na základě vztahu (4.37). Při dané volbě importance fnction 78 Normální lineární regresní model s jinými priory je tak jasné, že váhy budou nabývat hodnoty 1 (pokud výběr splňuje omezení) nebo 0 (pokud výběr omezení nesplňuje). Na základě váženého průměru jsme schopni získat posteriorní vlastnosti vektoru parametrů β (resp. každého jeho prvku). Jsme schopni spočítat i numerickou standardní chybu. Tabulka 4.2 obsahuje posteriorní střední hodnoty, standardní odchylky a numerické standardní chyby parametrů β spolu s hodnotami posteriorního podílu šancí porovnávající model s βj = βj s modelem zahrnujícím pouze zavedená nerovnostní omezení. Tato volba modelů, které porovnáváme je pouze ilustrativní, kdy k výpočtu posteriorního podílu šancí využíváme vztah (4.43). Protože βj = βj je jednorozměrné omezení, můžeme c a c spočítat na základě vlasntostí jednorozměrného t-rozdělení. Tabulka 4.2 je založena na 10000 replikacích (tj. S = 10000). Tabulka 4.2: Posteriorní výsledky pro parametr β Směrodatná P. podíl šancí Stř. hodnota odchylka NSE pro βj = βj β1 −5658.15 3011.44 41.245 1.20 β2 5.50 0.30 0.004 0.00 β3 3571.50 777.15 10.644 0.49 β4 16638.59 1671.19 22.889 0.00 β5 7454.92 925.41 12.675 0.22 Výsledky jsou velmi podobné těm z tabulek 3.1 nebo 4.1. Všimněme si, že pro parametry β4 a β5 měly zavedené restrikce nepatrný dopad. Posteriorní střední hodnota (resp. směrodatná odchylka) pro β4 a β5 jsou 16965.24 (1708.02) respektive 7634.90 (1004.34). Veškerá posteriorní hustota se tak nachází v oblasti β4 > 5000 a β5 > 5000 a dodání takovéhoto dplňku k apriorní hustotě tak nepřineslo žádnou novou informaci. Omezení ve tvaru nerovnosti však ovlivnila β2 a β3, kdy došlo ke zvýšení jejich posteriorní střední hodnoty. Pokud a priori odřízneme oblast β2 < 5a β3 < 2500, není překvapující, že se střední hodnota zvýší. Došlo rovněž ke snížení posteriorních směrodatných odchylek, což nám naznačuje, že dodání další apriorní informace snížilo naši posteriorní nejistotu o hodnotách daných parametrů. Numerické standardní chyby nám říkají, že jsme dosáhli rozumné přesnosti odhadů, ale pokud bychom chtěli přesnost vyšší, tak stačí (stejně jako u jakýchkoli jiných posteriorních simulátorů) zvýšit počet replikací, S. Porovnáním s tabulkou 3.4 však ukazují, že numerické standardní chyby (a tedy aproximativní chyby odhadu) jsou v rámci importance sampling vyšší než u Monte Carlo integrace. Např. se obdobným počtem replikací 10000 byla NSE odhadu E(β2|y) rovna v případě Monte Carlo integrace hodnotě 0.004, po zaokrouhlení směrem nahoru, kdežto u importance sampling 0.004, po zaokrouhlení směrem dolů. I když tento rozdíl nemusí být až tak patrný, je vcelku logický, protože Monte Carlo integrace vychází z výběrů přímo z posteriorní hustoty, kdežto impor- 4.3 Shrnutí 79 tance sampling generuje výběry z importance function, což je jen aproximace posteriorní hustoty. Importance sampling tak je numericky méně efektivní. Posteriorní podíly šancí jsou v souladu s tím co nám poskytují výsledky odhadu posteriorní střední hodnoty a směrodatné odchylky. S výjimkou úrovňové konstanty, nemáme důkaz pro tvrzení, že βj = β. Pro parametry β3 a β5 dává posteriorní poddíl šancí vyšší pravděpodobnost platnosti restrikcí. Pro tyto koeficienty totiž není posteriorní střední hodnota příliš vzdálená od βj (vzhledem k příslušné směrodatné odchylce), posteriorní poddíl šancí tak je svou hodnotou vcelku odpovídající. Predikční hodnotu ceny domu s danými charakteristikami lze spočítat tak jak je zmiňováno v části 4.2.5. Každý výběr v rámci importance sampling tak lze využít k výběru y∗(s) pro s = 1, . . . , S. Tyto výběry se pak odpovídajícím způsobem zprůměrují (viz (4.44)) pro získání požadovaných predikčních charakteristik. V předchozí empirické ilustraci v části 4.1.7 jsme generovali výběry z p(y∗ |β(s) , h(s) ). To bylo vcelku snadné, neboť se jednalo o hustotu odpovídající normálnímu rozdělení. Je snadné převzít podobnou strategii i pro náš příklad, přestože v tomto případě musíme rozšířit naši importance function pro generování výběrů z h(s) . Logickou volbou pro tuto funkci bude normální-gama posteriorní hustota z (3.9). Alternativně lze využít analogické postupy přechodu z (3.39) k (3.40), což nám implikuje, že p(y∗ |y, β) = p(y∗ |β) = ft(y∗ |X∗ β, s2 IT , ν). Výběry z p(y∗ |β(s) ) lze tak generovat z t-rozdělení. Pokud nás překvapuje to, kam se poděly naše omezení kladená na βm stačí si uvědomit, že predikční výběry z p(y∗ |β(s) ) jsou podmíněny výběry β na základě importance sampling. Tyto výběry již v sobě daná omezení zahrnují. POkud tedy použijeme tento postup pro získání charakteristik predikční hustoty prodejní ceny domu s rozlohou 5000 čtverečních stop, se dvěma ložnicemi, dvěma koupelnami a jedním patrem, zjistíme, že predikční střední hodnota a směrodatná odchylka jsou postupně 69639 a 18311. Tyto výsledky jsou podobné těm z předchozích empirických ilustrací využívajících tuto datovou sadu. 4.3 Shrnutí V této kapitole jsme si popsali metody bayesovské posteriorní analýzy, predikční analýzy a porovnání modelů pro normální lineární regresní model s dvěma typy apriorních hustot. První z nich byla nezávislá normální-gama apriorní hustota a druhá přirozeně konjugovaná s omezením ve tvaru nerovností. Tyto apriorní hustoty se nám mohou hodit v řadě empirických apikací. Důvod však byl i ten, že nám dovolily zavést dvě důležité metody bayesovského výpočtu, a to v nám známém kontextu. První z těchto metod byl Gibbsův vzorkovač. Oproti Monte Carlo integraci, zahrnující náhodné výběry ze sdružené hustoty pravděpodobnosti, využívá Gibbsův vzorkovač sekvenční výběry z plně podmíněných apriorních hustot. Tyto výběry lze brát jako výběry ze sdružené hustoty 80 Normální lineární regresní model s jinými priory pravděpodobnosti, nicméně je třeba dávat si pozor v důsledku toho, že se nejedná o nezávislé výběry a mohou být ovlivněny volbou počátečních podmínek (počátečního výběru). Odstranění techto problémů lze ověřit s pomocí MCMC konvergenčních diagnostik. Druhou výpočetní metodou bylo importance sampling. Tento algoritmus umožňuje generovat výběry z „importance function , tyto výběry následně odpovídajícím způsobem převáží pro zohlednění toho, že „importance function a posteriorní hustota nejsou identické. V rámci této kapitoly byl zaveden i Savageho-Dickeyeho poměr hustot, což je obvyklý způsob zápisu Bayesova faktoru pro vnořené modely. Máme tak k dispozici již tři algoritmy posteriorní simulace: Monte Carlo integraci, Gibbsův vzorkovač a importance sampling. Otázka, který z nich využít, závisí na podstatě řešeného problému. Pokud dokážeme snadno generovat náhodné výběry z posteriorní hustoty, Monte Carlo integrace je tou správnou volbou. Pokud je generování vzorků s posteriorní hustoty obtížné, nicméně je snadné generování z podmíněných hustot, nabízí se Gibbsův vzorkovač. Pokud nelze použít ani Monte Carlo integraci, ani Gibbsův vzorkovač, nicméně můžeme posteriorní hustotu snadno aproximovat, je rozumnou volbou importance sam- pling. Kapitola 5 Nelineární regresní model 5.1 Úvod V předchozích kapitolách jsme pracovali s lineárním regresním modelem v po- době: yi = β1 + β2xi2 + . . . + βkxik + i pro jednotlivá pozorování i = 1, . . . , N. Tento model je užitečný nejen v případech, kdy vztah mezi vysvětlovanou a vysvětlujícími proměnnými je lineární, ale i v případech, kdy tento vztah lze převést do lineární podoby. Příkladem může být Cobb-Douglasova produkční funkce vyjadřující závislost výstupu y na vstupech x2, . . . , xk y = α1xβ2 1 · . . . · xβk k Logaritmováním obou stran této rovnice a přidáním náhodné složky získáváme regresní model: ln(yi) = β1 + β2 ln(xi2) + . . . + βk ln(xik) + i, kde β1 = ln(α1). Tento model je již lineární v logaritmech jak vysvětlované tak i vysvětlujících proměnných a lze tak uplatnit postupy z předchozích kapitol. Některé funkční formy však do lineární podoby snadno transformovat nelze. Příkladem skutečně nelineárního funkčního tvaru je produkční funkce s konstantní elasticitou substituce (CES funkce), která má podobu yi =   k j=1 γjx γk+1 ij   1 γk+1 V této kapitole se zaměříme na bayesiánskou analýzu regresních modelů, ve kterých vystupují vysvětlující proměnné nelineární formou. Empirická ilustrace bude vedena v intencích CES produkční funkce, tedy nelineární regresní model 82 Nelineární regresní model bude mít podobu: yi =   k j=1 γjx γk+1 ij   1 γk+1 + i. (5.1) Notace bude standardní, tedy a y jsou N-rozměrné vektory obsahující náhodnou složku a pozorování závisle proměnné, X je matice rozměru N ×k obsahující pozorování k vysvětlujících proměnných. Tradiční předpoklady jsou: 1. je z normálního rozdělení N(0N , h−1 IN ). 2. Všechny prvky matice X jsou pevná čísla (tj. nenáhodné proměnné) nebo pokud jsou to náhodné veličiny, jsou nezávislé se všemi prvky vektoru , přičemž jejich funkce hustoty pravdepodobnosti je p(X|λ), kde λ je vektor parametrů, který neobsahuje žádný s ostatních parametrů modelu. Hlavní myšlenky této kapitoly budou platit pro obecný nelineární regresní model mající podobu yi = f(Xi, γ) + i kde Xi je i-tý řádek matice X, f(·) je funkce závisející na Xi a vektoru parametrů γ. Tento model můžeme v maticové podobě zapsat jako: y = f(X, γ) + , (5.2) kde f(X, γ) je N-rozměrný vektor funkcí s i-tým prvkem daným obecně nelineární funkcí f(Xi, γ). Přesná implementace algoritmu posteriorní simulace diskutované v této kapitole bude záviset na tvaru f(·). Základní koncept tak bude nejprve rozebírán za použití vztahu (5.2). Nelineární model je velmi užitečný v řadě modelových aplikací. V rámci něho si ukážeme řadu technik, které budou aplikovatelné v podstatě v jakémkoliv modelu. Linerání regresní model byl velmi speciálním případem, který umožňoval prezentovat výsledky posteriorní analýzy v analytickém vyjádření. Dokonce i při použítí apriorních hustot, které analytickou posteriorní analýzu neumožňují, jsou k dispozici speciální techniky posteriorní analýzy (např. Gibbsův vzorkovač a Savage-Dickey density ratio). Některé modely však použití těchto speciálních technik neumožňují a je tedy důležité vyvinout obecné metody využitelné v jakémkoliv modelu. Nelineární regresní model dovoluje zavedení těchto obecných metod v kontextu velmi podobném lineárnímu regresnímu modelu. V rámci posteriorní simulace zavedeme významnou třídu psteriorních simulátorů zvaných Metropolis-Hastings algoritmy. Zavedeme rovněž obecnou metodu výpočtu marginální věrohodnosti vyvinutou Gelfandem a Deyem [12]. Měřítkem kvality modelu pak bude charakteristika zvaná posteriorní predikční p-hodnota (posterior predictive p-value). 5.2 Věrohodnostní funkce 83 5.2 Věrohodnostní funkce Z definice vícerozměrného normálního rozdělení lze zapsat věrohodnostní funkci nelineárního regresního modelu jako p(y|γ, h) = h N 2 (2π) N 2 exp − h 2 {y − f(X, γ)} {y − f(X, γ)} . (5.3) V rámci lineárního regresního modelu bylo možno zapsat tento výraz pomocí kvantit OLS odhadů, což nahrávalo použití přirozeně kojugované apriorní hustoty. Takovéto zjednodušení zde není možné, pokud f(·) nemá vyloženě specifický tvar. 5.3 Apriorní hustota Volba apriorní hustoty bude záviset na podobě f(·) a významu parametrů γ. Například pro případ CES produkční funkce odpovídá γk+1 odpovídá pružnosti substituce mezi jednotlivými vstupy. V tomto případě by výzkumník pravděpodobně měl apriorní informaci o tom, jakých hodnot by tento parametr měl nabývat. Volba apriorní hustoty tak závisí na kontextu, ve kterém probíhá empirické analýza. V této kapitole budeme používat buď obecnou apriorní hustotu p(γ, h) nebo neinformativní prior využívaný v rámci LRM: p(γ, h) = 1 h . (5.4) Tato apriorní hustota je uniformní pro γ a ln(h). 5.4 Posteriorní hustota Posteriorní hustota je proporcionální součinu věrohodnostní funkce a apriorní hustoty a lze ji zapsat jako p(γ, h|y) ∝ p(γ, h) h N 2 (2π) N 2 exp − h 2 {y − f(X, γ)} {y − f(X, γ)} . (5.5) Obecně není možno tento výraz dále zjednodušit. Vše závisí na specifikaci p(γ, h) a f(·). Posteriorní hustota nebude nabývat tvaru hustoty obvyklého rozdělení. Pokud využijeme apriorní hustotu z (5.4), lze h analyticky ”vyintegrovat”a marginální posteriorní hustota pro γ je p(γ|y) ∝ [{y − f(X, γ)} {y − f(X, γ)}] − N 2 . (5.6) V případě, kdy f(·) byla lineární, bylo možno tento výraz přepsat do podoby jádrové hustoty t-rozdělení. 84 Nelineární regresní model 5.5 Metropolis-Hastings algoritmus Neexistence analytických posteriorních výsledků vyžaduje využití posteriorního simulátoru. Pro některé tvary f(·) je možno odvodit Gibbsův vzorkovač. V určitých případech, kdy se sama nabízí vhodná aproximace p(γ|y) je možno využít importance sampling. Zde si zavedeme třetí možnost – Matropolis-Hastings algoritmus. V rámci něho je možně představit si celou třídu algoritmů, jež lze využít k vytvoření posteriorních simulátorů pro širokou škálu modelů. Opět využijeme obecné značení θ jakožto vektor parametrů, p(y|θ) pak bude věrohodnostní funkce a samozřejmě p(θ) a p(θ|y) budou postupně apriorní a posteriorní hustota. Metropolis-Hastings algoritmus má mnoho společného s importance sampling. Obě techniky se využívají v situacích, kdy je obtížné z posteriorní hustoty přímo generovat náhodné vzorky. V rámci importance sampling se nabíela možnost generovat náhodné výběry z importance function, v rámci MetropolisHastings algoritmu je analogická funkce nazývána candidate generating density, tedy kandidátská hustota. Nehcť θ∗ označuje výběr právě z této hustoty pravděpodobnosti, který označíme q(θ(s−1) ; θ). Toto označení je interpretováno tak, že kandidátský výběr θ∗ je realizací náhodné veličiny θ jejíž hustota závisí na θ(s−1) . Jinými slovy, stejně jako u Gibbsova vzorkovače současný výběr závisí na předchozím výběru. M-H algoritmus je tedy také Markov Chain Monte Carlo (MCMC) algoritmem a řada výběrů θ(s) pro s = 1 . . . , S je označována jako řetězec (chain). V rámci importance sampling jsme rozdílnost importance function a posteriorní hustoty korigovalia vážením jednotlivých vzorků. V případě M-H algoritmu mají všechny výběry stejnou váhu, nicméně ne všechny kandidátské výběry (kandidáti) jsou akceptovány. Jinými slovy, pokud g(·) je funkce, která nás zajímá, je možno získat odhad E[g(θ)|y], označovaný gS, jednoduchým průměrováním našich výběrů: gS = 1 S S s=1 g(θ(s) ) (5.7) Metropolis-Hastings algoritmus tak má vždy následující podobu: • Krok 0: Zvolíme počáteční hodnotu, θ(0) . • Krok 1: Vygenerujeme kandidátský výběr θ∗ ze zvolené kandidátské hustoty q(θ(s−1) ; θ). • Krok 2: Spočítáme akceptační pravděpodobnost (acceptance probability), α(θ(s−1) , θ∗ ). • Krok 3: Přiřadíme θ(s) = θ∗ s pravděpodobností α(θ(s−1) , θ∗ ) a θ(s) = θ(s−1) s pravděpodobností 1 − α(θ(s−1) , θ∗ ). • Krok 4: Opakujeme Krok 1, 2 a 3 celkem S krát. • Krok 5: Spočítáme průměr S výběrů g(θ(1) ), . . . , g(θ(S) ). 5.5 Metropolis-Hastings algoritmus 85 Tímto postupem získáme odhad E[g(θ)|y] pro jakoukoliv funkci, která nás za- jímá. Stejně jako u Gibbsova vzorkovače, M-H algoritmus obvykle vyžaduje znalost počáteční hodnoty θ(0) . Pro omezení efektu této počáteční hodnoty je rozumné vyhodit prvních S0 vzorků. Je zde rovněž vhodné využít MCMC diagnostik (z nichže některé byly prezentoány v kapitole 4) pro ověření toho, zda-li bylo generováno dostatečné množství výběrů a zda-li byl vyhozen dostatečný počet prvních vzorků. Před tím, než si uvedeme přesný vztah pro akceptační pravděpodobnost α(θ(s−1) , θ∗ ), bude užitečné prodiskutovat vlastnosti, které by dobrá akceptační funkce měla mít. V předchozí kapitole byla zmínka o tom, že MCMC algoritmus lze intuitivně chápat jako proces procházející posteriorní hustotu, kdy vybírá vzorky nejčastěji z oblastí vysoké posteriorní pravděpodobnosti a proporcionálně méně vzorků z oblastí nízké posteriorní hustoty pravděpodobnosti. Kandidátská hustota pravděpodobnosti není identická s posteriorní hustotou a z ní brané výběry by tedy nepokryly adekvátně oblast parametrického prostoru. Matropolis-Hastings algoritmus řeší tento nesoulad tím, že neakceptuje každý kandidátksý výběr. Odvozuje se tak akceptační pravděpodobnost, která je nejvyšší v oblastech, kde je i posteriorní hustota vysoká a nejnižší v oblastech nízké posteriorní pravděpodobnosti. Intuitivně tedy v případě, kdy θ(s−1) je z oblasti nízké posteriorní pravděpodobnosti, bude algoritmus směřovat pryč od θ(s−1) . To znamená, že současná pozice řetězce je v oblasti nízké pravděpodobnosti, a je tedy pravděpodobné, že kandidátský výběr, který nás posouvá ze současné pozice, bude s velkou pravděpodobností akceptován. Pokud naopak θ(s−1) je v oblasti vysoké posteriorní pravděpodobnosti, bude algoritmus směřovat k tomu, že v této pozici zůstane (v rámci Kroku 3 je možno nastavit θ(s) = θ(s−1) ). Pokud algoritmus zůstává na místě, dává se tomuto bodu vysoké posteriorní hustoty implicitně vyšší váha podobně jako tomu je v případě vah u importance sampling. Podobné závěry lze učinit i u kandidátského výběru θ∗ . Pro daný stav θ(s−1) chceme kandidáta θ∗ , který bude akceptován s vysokou pravděpodobností, pokud je v oblasti vyšší posterioní hustoty než θ(s−1) . Kandidáty θ∗ v oblastech nižší pravděpodobnosti pak budeme chtít s vysokou pravděpodobností zamítnout. Předchozí odstavec poskytl intuici pro akceptační pravděpodobnost, která závisí na θ∗ a θ(s−1) způsobem, který má tendenci posunout řetězec z oblasti nízké posteriorní pravděpodobnosti do oblasti s pravděpodobností vyšší. Samozřejmě je zde nutné zdůraznit spojení ”má tendenci”. Není žádoucí, aby řetězec neustále zůstával v oblastech vysoké posteriorní pravděpodobnosti. Naopak chceme, aby byly prozkoumány i oblasti nízké pravděpodobnosti (i když samozřejmě ne tak často). Způsob konstrukce akceptační pravděpodobnosti by tedy měl zajistit, aby se řetězec obvykle (ne vždy) posouval z oblasti nízké pravděpodobnosti do oblasti pravděpodobnosti vyšší. Výborným úvodem do M-H algoritmu je Chib a Greenberg [6], který zahrnuje i odvození akceptační pravděpodobnosti, která zajišťuje konvergenci MetropolisHastings algoritmu k posteriorní hustotě. Akceptační pravděpodobnost má po- 86 Nelineární regresní model dobu: α(θ(s−1),θ∗ ) = min p(θ = θ∗ |y)q(θ∗ ; θ = θ(s−1) ) p(θ = θ(s−1)|y)q(θ(s−1); θ = θ∗) , 1 (5.8) Poznamenejme, že p(θ = θ∗ |y) je označení posteriorní hustoty vyhodnocené v bodě θ = θ∗ , přičemž q(θ∗ ; θ) je hustota pro náhodnou veličinu θ, a tudíž q(θ∗ ; θ = θ(s−1) ) je tato hustota vyhodnocená v bodě θ = θ(s−1) . Lze ověřit, že akceptační pravděpodobnost má žádoucí vlastnosti diskutované výše. Operátor minima je uplatněn proto, aby akceptační pravděpodobnost nemohla být větší než jedna. Stejně jako importance sampling i M-H algortimus je na první pohled skvělé řešení pro jakýkoliv problém posteriorní simulace. Zdá se, že je možné generovat náhodné vzorky v podstatě z jakéhokoliv obvyklého rozdělení, q(θ(s−1) ; θ) a přijmout nebo zamítnout kandidátské výběry za použití (5.8) k získání sekvence výběrů θ(s) pro s = 1, . . . , S, který lze použít pro odhad E[g(θ)|y]. V praxi to však takto jednoduché není. Pokud kandidátská hustota není dobře vybrána, může dojít k tomu, že fakticky všichni kandidáti budou zamítáni a řetězec bude setrvávat po dlouhou dobu na jednom místě. Výběru kandidátské hustoty je tedy třeba věnovat pečlivou pozornost a vždy je třeba pužívat MCMC diagnostiky k verifikaci konvergence algoritmu. Existuje celá řada možných strategií výběru kandidátských hustot. V následujících částech si popíšeme dvě nejobvyklejší. 5.5.1 Independence Chain M-H algoritmus Jak již název napovídá Independence Chain Metropolis-Hastings algoritmus využívá kandidátských hustot, které jsou nezávislé na výběrech. Tedy funkce q(θ(s−1) ; θ) = q∗ (θ) a kandidátská hustota tak nezávisí na θ(s−1) . Tento přístup je užitečný v případech, kdy existuje vhodná aproximace posteriorní hustoty. Tuto vhodnou aproximaci můžeme využít jako kandidátskou hustotu. Pokud tak učiníme, zjednodušuje se akceptační pravděpodobnost na α(θ(s−1) , θ∗ ) = min p(θ = θ∗ |y)q∗ (θ = θ(s−1) ) p(θ = θ(s−1)|y)q∗(θ = θ∗) , 1 (5.9) Independence Chain M-H algoritmus je úzce svázán s importance sampling. To lze ukázat, pokud budeme definovat váhy importance sampling: w(θA ) = p(θ = θA |y) q∗(θ = θA) akceptační pravděpodobnost v (5.9) lze tak zapsat jako α(θ(s−1) , θ∗ ) = min w(θ∗ ) w(θ(s−1)) , 1 Akceptační pravděpodobnost je tak jednoduše poměr vah importance sampling vyhodnocených v posledním a kandidátském výběru. 5.5 Metropolis-Hastings algoritmus 87 Pokud jde o nelineární regresní model, použitelnost tohoto algoritmu závisí na tom, zda-li f(·) má tvar takový, že lze najít vhodnou kandidátskou hustotu. Neexistuje zcela obecný postup na výběr aproximativní hustoty. Pokud však nějakou vzvolíme, je třeba užít MCMC diagnostiky pro verifikaci konvergence výsledného algoritmu. Jednám z postupů je využití výsledků klasické metody maximální věrohodnosti pro nalezení vhodné q∗ (θ). Čistě bayesovsky zaměřený čtenář může tento odstavec přeskočit a věnovat se až praktickým doporučením. Nicméně, klasická ekonometrie vychází z toho, že estimátor metody maximální věrohodnosti θML je za určitých podmínek asymptoticky normální s asymptotickou kovarianční maticí danou jako var(θML) = I(θ)−1 kde I(θ) je informační matice definovaná jako záporná očekávaná (střední) hodnota druhé derivace logaritmované věrohodnostní funkce (přičemž operátor očekávání resp. střední hodnoty je brán vzhledem k y): I(θ) = −E ∂2 ln(p(y|θ)) ∂θ∂θ Slovně řečeno, pokud je velikost vzorku dostatečně veliká, inverze informační matice nám dává dobrou představu o podobě p(y|θ). Dokonce i kdyby nebylo možno informační matici přímým způsobem spočítat, ∂2 ln(p(y|θ)) ∂θ∂θ půjde vyčíslit (ručně anebo využitím numerických procedur pro derivaci, které jsou dostupné např. v Matlabu) a lze ji tak využít pro získání aproximativního vyjádření var(θML), což označíme jako var(θML). Výraz ∂2 ln(p(y|θ)) ∂θ∂θ je označován jako Hessián, a lze tak mluvit o odhadu var(θML) jako o ”záporném inverzním Hessiánu”. Výsledky předchozího odstavce implikují pro naše potřeby, že pokud je velikost vzorku dostatečně velká a apriorní informace relativně neinformativní, potom posteriorní hustota může být aproximativně z normálního rozdělení se střední hodnotou θML a kovariační maticí aproximativně rovnou var(θML). Pro některé druhy modelů existují počítačové programy, které počítají přímo takovéto veličiny maximální věrohodnosti. Alternativně lze využít např. prostředí Matlabu, který dokáže nalézt optima uživatelem specifikované funkce. To je možné využít pro počítání charakteristik odhadů metodou maximální věrohodnosti. Pokud jsme schopni naprogramovat proceduru, maximalizující věrohodnostní funkci a hledající var(θML), je mnohdy žádoucí na místo toho maximalizovat posteriorní hustotu, tedy nalézt θmax a vzít druhé derivace posteriorní hustoty k nalezení aporximace k var(θmax). Tento postup je vhodný při použití informativní apriorní hustoty, neboť je zde posteriorní hustota aproximována mnohem lépe než jen za využití věrohodnostních odhadů. Asymptotické výsledky nasvědčují tomu, že posteriorní hustota bude aproximativně z fN (θ|θmax, var(θmax)). V následující části budeme pracovat s výsledky odhadů 88 Nelineární regresní model metodou maximální věrohodnosti, které však lze nahradit odhady z maximalizace posteriorní hustoty, θmax a var(θmax), pokud je máme k dispozici. Volba q∗ (θ) = fN (θ|θML, var(θML)) může být v řadě případů velmi úspěšná. Obvyklejší je však volba t-rozdělení jako kandidátské hustoty, tedy q∗ (θ) = ft(θ|θML, var(θML), ν). Důvod je ten, že v praxi je důležité, aby kandidátská hustota měla své konce přinejmenším stejně tak tlusté jako posteriorní hustota. Geweke [13] zdůvodňoval tuto volbu v kontextu importance sampling, nicméně stejné zdůvodnění platí i pro Independence Chain M-H algoritmus. Normální hustota má velmi úzké konce. Oproti tomu t-hustota má konce mnohem tlustší, zejména pro malé hodnoty ν. Užitečnými vlastnostmi t-rozdělení je to, že pro ν → ∞ se toto rozdělení blíží normálnímu a pro malá ν jsou jeho konce velmi tlusté. Ve skutečnosti, t-rozdělení pro ν = 1 je Cauchyho rozdělení, které má natolik tlusté konce, že jeho střední hodnota je nekonečno (i když jeho medián a modus jsou konečné hodnoty). V některých případech je možné vyšetřením posteriorní hustoty najít takové hodnoty ν, které zajistí, že konce kandidátské hustoty převýší konce hustoty posteriorní. Z opatrnosti se však volí malé hodnoty ν a MCMC diagnostiky se využijí k verifikaci konvergenčních vlastností algoritmu. Je důležité zdůraznit, že existují případy, kdy je použití t-rozdělení neadekvátní pro generování kandidátů. Například, pokud je posteriorní hustota multimodální, potom unimodální t-hustota nebude obvykle dobře pracovat. Rovněž pokud je posteriorní hustota definována v omezené oblasti (např. Gamma rozdělení je deifnováno pouze v oblasti kladných reálných čísel), potom t-rozdělení (definované na celé množině reálných čísel) nemusí pracovat nejlépe, pokud posteriorní hustota není ostře vymezena uvnitř této oblasti. V případě nelineárního regresního modelu vyžaduje maximalizace věrohodnostní funkce (posteriorní hustoty) napsání programu pro vyhodnocení (5.3) nebo (5.5). Obychom získali odhad var(θML), je třeba provést druhou derivaci (5.3) nebo využít podprogramu pro numerickou derivaci, který je dostupný v rámci každého relevantního počítačového programového prostředí. Tento postup bude záviset na přesné specifikaci f(·). Z předchozí diskuze je patrné, že nalezení aproximativní hustoty pro Independent Chain M-H algoritmus popřípadě importance sampling může být umění. Pro většinu modelů však existují asymptotické výsledky, které nám říkají, že tím, jak se velikost datového vzorku blíží nekonečnu, blíží se posteriorní hustota normálnímu rozdělení. Pro modely této třídy (máme-li dostatečný počet pozorování) je vhodnou aproximaci funkce hustoty pravděpodobnosti ft(θ|θML, var(θML), ν). 5.5.2 Random Walk Chain M-H algoritmus Random Walk Chain Metropolis-Hastings algoritmus je užitečný v případě, kdy nejsme schopni najít dobrou aproximaci pro posteriorní hustotu. V rámci Independence Chain M-H algoritmu (podobně jako u importance sampling), bereme 5.5 Metropolis-Hastings algoritmus 89 výběry z hustoty, která je podobná posteriorní hustotě a akceptační pravděpodobnost (nebo vážení v případě importance sampling) se využije pro korekci rozdílu mezi posteriorní a aproximativní hustotou. V rámci Random Walk Chain M-H algoritmu nezkoušíme aproximovat posteriorní hustotu, místo toho vybíráme kandidátskou hustotu, která má široký záběr a bere proporcionálně náhodné výběry v různých oblastech posteriorní hustoty. Formálně řečeno, tento M-H algoritmus generuje kandidáty podle následujícího schématu: θ∗ = θ(s−1) + z (5.10) kde z se nazývá increment random variable, tedy přírůstková náhodná veličina. Předpoklad v (5.10) implikuje, že kandidáti jsou generováni jako náhodná procházka, tj. kandidáti jsou vybíráni v náhodném směru ze současného bodu. Akceptační pravděpodobnost zajistí, že řetězec se posune žádoucím směrem. Poznamenejme, že θ∗ a θ(s − 1) vstupují do vztahu (5.10) symetricky a vždy bude platit q(θ∗ ; θ = θ(s−1) ) = q(θ(s−1) ; θ = θ∗ ). To znamená, že akceptační pravděpodobnost lze zapsat jako α(θ(s−1) , θ∗ ) = min p(θ = θ∗ |y) p(θ = θ(s−1)|y) , 1 (5.11) a je zřejmé, že random walk chain má tendenci posunovat se do oblastí vyšší posteriorní hustoty. Výběr hustoty pro z determinuje přesnou formu kandidátské hustoty. Obvyklým a vhodným výběrem je vícerozměrné normální rozdělení. V tomto případě (5.10) určuje střední hodnotu tohoto normálního rozdělení, což je θ(s−1) a nám nezbývá nic jiného než zvolit kovarianční matici, kterou označíme jako Σ: q(θ(s−1) ; θ) = fN (θ|θ(s−1) , Σ) (5.12) V rámci tohoto přístupu je nutné zvolit Σ, a to tak, aby akceptační pravděpodobnost nebyla ani moc vysoká, ani moc nízká. Pokud je akceptační pravděpodobnost obvykle velmi nízká, potom kandidátské výěry jsou téměř vždy zamítány a řetězec se jen zřídka pohne. To není moc dobrá situace, neboť implikuje, že S musí být extrémně vysoké, aby řetězec prošel celou posteriorní hustotu. Malá akceptační pravděpodobnsot indikuje, že Σ je příliš ”velká”a většina kandidátů pochází z oblastí konců posteriorního rozdělení. Druhým extrémem je situace, kdy akceptační pravděpodobnost je blízko jedné (Σ je příliš ”malá”). V tomto případě leží θ∗ a θ(s−1) velmi blízko u sebe a akceptáční pravděpodobnost bude blízko jedné. I v tomto případě by S muselo být velmi obrovské číslo, aby řetězec prozkoumal celé posteriorní rozdělení. Neexistuje obecné pravidlo, které nám říká, jaká by měla být optimální míra akceptačního poměru (tedy podíl počtu akceptovaných ze všech výběrů). Ve speciálním případě, kdy posteriorní i kandidátská hustota jsou obě normální byl vypočítán optimální akceptační podíl 0.45 pro případ jednodimenzionálního problému a o něco menší hodnota pro vícedimenzionální problém. Pokud se počet dimenzí blíží nekonečnu, optimální akceptační podíl se přibližuje hodnotě 90 Nelineární regresní model 0.23. Jiným hrubým a často zmiňovaným pravidlem je akceptační poměr na hodnotě 0.5. Obecně, pokud si zvolíme Σ, které zajistí, že akceptační podíl bude v tomto rozmezí, je nepravděpodobné, že bychom se touto volbou dopouštěli závažné chyby. Vždy je však nutné verifikovat konvergenci algoritmu. Tvrzení, že by Σ mělo být vybráno tak, aby akceptační podíl spadal do ontervalu od 0.2 do 0.5 je dostatečná informace pro její výběr v případě, kdy θ a tedy i Σ je skalár. V tomto případě lze experimentovat s různými hodnotami Σ a opakovat Random Walk Chain M-H algoritmus dokud nebudeme dostávat rozumné akceptační podíly. V případě, kdy θ je p-dimenzionální je tento přístup poněkud obtížnější, neboť Σ bude mít p(p+1) 2 prvků. V tomto případě je vhodné nastavit Σ = cΩ, kde c je skalára Ω je odhad posteriorní kovarianční matice vektoru θ. Pak lze experimentovat s různými hodnotami c, abychom získali rozumné akceptační podíly. Tento přístup vyžaduje najít Ω a odhadnout var(θ|y). To lze učinit dvěma způsoby. Z pohledu výzkumníka je nejjednodušší začít se Σ = cIp a zkoušet najít hodnoty c, které nebudou implikovat nepužitelné hodnoty akceptačních pravděpodobností (to je případ, kdy kandidáti jsou akceptováni s pravděpodobností 0.000001 nebo 0.99999, pokud bychom samozřejmě neměli k dispozici výkonné počítače, které by byly schopny generovat biliony vzorků). Tuto hodnotu c je pak možné použít pro velmi hrubý odhad Ω. Pak je možné nastavit Σ = cΩ a zkoušet hledat nové hodnoty c, které přinášejí ještě rozumnější akceptační pravděpodobnosti. Výsledky po tento případ je pak zase možné využít pro získání lepší matice Ω, kterou dále využijeme pronalezení lepších hodnot pro Σ atd. Tento postup lze opakovat až do nalezení vhodné matice Σ. Jedná se o jednoduchý postup z toho hlediska, že pokud si vytvoříme základní program pro Random Walk Metropolis-Hastings algoritmus, není už nutné žádné další programování. Ovšem jsou zde určité nároky na výpočetní dobu. Alternativně lze Ω nastavit na hodnotu var(θML), teda jako odhad variance odhadu metodou maximální věrohodnosti. Tento odhad je však nutno zjistit, což vyžaduje další programování. 5.5.3 Metropolis-within-Gibbs Metropolis-Hastings algoritmus poskytuje posteriorní simulátor pro p(θ|y). V předchozí kapitole jsme zavedli Gibbsův vzorkovač, který pro případ dvou bloků, kde θ = (θ(1), θ(2)) , vyžadoval sekvenční výběry z p(θ(1)|y, θ(2)) a p(θ(2)|y, θ(1)). Pro NLRM s nezávislou normální-gama apriorní hustotou bylo snadné Gibbsův vzorkovač implementovat, protože p(β|y, h) odpovídalo normálnímu rozdělení a p(h|y, β) odpovídalo rozdělení gama. V nelineárním regresním modelu, neinformativní apriorní hustota nebo nezávislá gama apriorní hustota pro h bude implikovat, že p(h|y, γ) odpovídá gama rozdělení. Naopak p(γ|y, h) bude proporcionální k (5.5) a tedy nebude mít podobu obvyklé hustoty, ze které by bylo možno generovat náhodné výběry. Zdá se tedy, že zde není možno využít Gibbsův vzorkovač zahrnující p(h|y, γ) a p(γ|y, h). Lze však ukázat, že pokud využijeme Metropolis-Hastings algoritmus pro p(γ|y, h), výsledné nasimulované vzorky γ(s) a h(s) pro s = 1, . . . , S jsou platnými posteriorními výběry. Formálně 5.6 Měřítko kvality modelu: Posteriorní predikční p-hodnota 91 řečeno, využití Metropolis-Hastings algoritmu pro jednu či obě podmíněné posteriorní hustoty využité v Gibbsově vzorkovači, p(θ(1)|y, θ(2)) a p(θ(2)|y, θ(1)), je zcela akceptovatelné a užitečné. Toto je možné využít i když Gibbsův vzorkovač zahrnuje více než dva bloky. Tento Metropolis-within-Gibbs algoritmus je obvyklou technikou, neboť řada modelů má jednak posteriorní hustoty, ze kterých je snadné generovat náhodné vzorky, ovšem jedna či dvě podmíněné hustoty standardní formu nemají, a právě pro ně je možné využít M-H algoritmus. 5.6 Měřítko kvality modelu: Posteriorní predikční p-hodnota Typickou bayesiánskou metodou pro porovnání modelu je posteriorní podíl šancí, což je relativní pravděpodobnost dvou plně specifikovaných modelů. Mohou však nastat situace, kdy je žádoucí prověřit kvalitu modelu v jakémsi absolutním slova smyslu a nikoliv tedy relativně vzhledem k alternativnímu modelu. Rovněž v řadě případů může být žádoucí využít nepravý, neinformativní prior, kdy ovšem posteriorní podíl šancí nemusí být spočítatelný respektive může být nesmyslný, pokud je tato apriorní hustota použita pro parametry, které nejsou společné oběma modelům. V těchto situacích je rozumnou alternativou posteriornímu podílju šancí posteriorní predikční p-hodnota. V dalším výkladu budeme rozlišovat mezi aktuálně pozorovanými daty y a pozorovatelnými daty y◦ , které by mohly být generovány modelem (tj. y◦ je náhodný vektor rozměru N × 1 s funkcí hustoty pravděpodobnosti p(y◦ |θ), což je věrohodnostní funkce bez zahrnutí y). Nechť g(·) je funkce, která nás zajímá. Potom p(g(y◦ )|y) je souhrnem veškeré informace, kterou nám dává model o g(y◦ ) po shlédnutí dat. Jinými slovy nám ukazuje, jaký druh dat může náš model generovat. Pro pozorovaná data můžeme přímo spočítat g(y). Pokud g(y) je z odlehlého konce p(g(y◦ )|y), potom model nemůže dobře vysvětlovat g(y), tedy g(y) není tím typem charakteristiky dat, které lze přijatelně generovat modelem. Formálně jsme schopni získat pravděpodobnosti okrajových oblastí způsobem podobným p-hodnotě z klasické statistiky. Přesněji řečeno, posteriorní predikční p-hodnota je pravděpodobnost modelu generovat datovou sadu, která bude mít extrémnější vlastnosti než ta, kterou skutečně pozorujeme (analogicky s p-hodnotou klasické statistiky či ekonometrie je možné prezentovat buď jednostrannou nebo oboustrannou p-hodnotu). Hustotu pravděpodobnosti p(g(y◦ )|y) je možno spočítat použitím simulačních metod obdobných pro predikční analýzu. Lze tedy psát: p(g(y◦ )|y) = p(g(y◦ )|θ, y)p(θ|y)dθ = p(g(y◦ )|θ)p(θ|y)dθ (5.13) poslední rovnice vyplývá ze skutečnosti, že díky podmíněnosti vektorem parametrů θ, aktuální data nepřinášejí žádnou dodatečnou informaci o y◦ . Posteriorní simulátor poskytuje výběry z p(θ|y) a jsme tak schopni simulovat výběry z p(g(y◦ )|θ) pro daný posteriorní výběr parametrů θ. Posteriorní predikční p-hodnotu lze využít dvěma způsoby: 92 Nelineární regresní model 1. Jako měřítko souladu modelu s daty, tedy jaká je pravděpodobnost, že data byly generována dle tohoto modelu. 2. Pro porovná různých modelů, tedy jestliže jeden model poskytuje posteriorní predikční p-hodnoty výrazně nižší než druhý model, potom je to důkaz v neprospěch tohoto druhého modelu. Pro porovnání modelů se však (je-li to možné) využívá posteriorní podíl šancí. Přístupy využívající posteriorní predikční p-hodnoty vyžadují výběr funkce, která nás zajímá, g(·). Přesný výběr g(·) bude záviset na empirické aplikaci. Pokud se vrátíme k nelineárnímu regresnímu modelu z této kapitoly, potom máme y◦ i = f(Xi, γ) + i pro i = 1, . . . , N. Vzhledem k předpokladům kladeným na náhodnou složku platí: p(y◦ |γ, h) = fN (y◦ |f(X, γ), h−1 IN ) (5.14) kde f(X, γ) je N-rozměrný vektor definovaný v (5.2). Poznamenejme, že pro daný vektor parametrů je simulace hodnot y◦ vcelku snadné, neboť postačuje generovat náhodné výběry z vícerozměrného normálního rozdělení. Tato jednoduchost je obvyklá pro řadu modelů, což usnadňuje výpočet posteriorní predikční p-hodnoty. Pro nelineární regresní model s neinformativní apriorní hustotou uvedenou v (5.4) je možno předchozí výraz dále zjednodušit, neboť h lze vyintegrovat. Přesněji řečeno, odvozením obdobným přechodu z (5.5) do (5.6) lze ukázat, že p(y◦ |γ) = ft(y◦ |f(X, γ), s2 IN , N) (5.15) kde s2 = [y − f(X, γ)] [y − f(X, γ)] N (5.16) Výběry y◦ lze tak získat využitím vícerozměrného t-rozdělení (podmíněného vektorem γ). Tyto výběry lze interpretovat jako reprezentatnty typů dat, které je schopen generovat náš model. Přístup využívající posteriorní predikční phodnotu využívá myšlenky, že pokud je model rozumně formulován, měla by skutečně pozorovaná data spadat do kategorie dat, která dokáže náš model běžně generovat. Nalezení příslušného percentilu, který vytváří g(y) v rámci hustoty p(g(y◦ )|y) je záležitostí využití formální metriky. Pro konkrétnější představu si nastíníme možnosti pro volbu g(·). Kvalita modelu se často posuzuje skrze tzv. analýzu reziduí. V rámci klasické ekonometrie se počítají odhady i, které se nazývají rezidua. Poté lze zkoumat vlastnosti těchto reziduí pro ověření toho, jestli předpoklady kladené na model a techniky pro odhad jeho parametrů jsou splněny. V bayesovském kontextu jsou chyby i pro i = 1, . . . , N dány jako i = yi − f(X, γ) 5.6 Měřítko kvality modelu: Posteriorní predikční p-hodnota 93 O těchto chybových členech jsme vyslovili řadu předpokladů, Předpokládali jsme, že mají normální rozdělelní, a to i.i.d. N(0, h−1 ). Mnohdy je možné, že tyto předpoklady nemusí být v souladu s pozorováním, a tudíž je žádoucí otestovat je. Tento předpoklad v sobě zahrnuje skutečnost, že chybové členy jsou vzájemně nezávislé, mají stejný rozptyl apod. My se zatím zaměříme pouze na předpoklad jejich normality. Typickou vlastností normálního rozdělení je, že má nulovou šikmost a specifickou špičatost. Šikmost a špičatost je měřena pomocí třetích a čtvrtých momentů. Pro standardizované normální rozdělení je třetí moment nulový a čtvrtý moment má hodnotu tři. Předpoklad normality tedy implikuje, že následující obvykle užívané míry šikmosti a převisu špičatosti by měly být obě nulové: Skew = √ N N i=1 3 i N i=1 2 i 3 2 (5.17) Kurt = N N i=1 4 i N i=1 2 i 2 − 3 (5.18) Tyto míry šikmosti a špičatosti nelze vypočítat přímým způsobem, neboť i je nepozorovatelné. Klasická ekonometrie nahradí i příslušnými OLS rezidui a provede test šikmosti a špičatosti. Bayesiánská analogie klasického přístupu vyžaduje výpočet očekávané hodnoty (5.17) nebo (5.18) a ověření, zda-li je tato hodnota přijatelná. Formálně tedy, E[Skew|y] = E    √ N N i=1[yi − f(Xi, γ)]3 N i=1[yi − f(Xi, γ)]2 3 2 y    je něco, co dokážeme spočítat, pokud máme posteriorní simulátor. Skew je tedy funkce parametrů modelu a dat. Její posteriorní střední hodnota tak může být spočítána jako jakákoliv posteriorní střední hodnota funkce, která by nás zajímala. Rovněž E[Kurt|y] můžeme spočítat analogickým způsobem. Pokud platí předpoklad normality, E[Skew|y] a E[Kurt|y] by měly být shruba nulové. Nyní se vraťme zpět k tématu posteriorní predikční p-hodnoty. E[Skew|y] a E[Kurt|y] jsou funkce pozorovaných dat a lze je spočítat využitím posteriorního simulátoru. Pro jakákoliv pozorovatelná data y◦ , E[Skew|y] a E[Kurt|y] lze spočítat stejným způsobem. Pokud tyto dvě posledně zmiňované funkce spočítáme pro celou řadu pozorovatelných datových vzorků, můžeme získat rozdělení hodnot šikmosti a převisu špičatosti, které je schopen model generovat. Pokud E[Skew|y] nebo E[Kurt|y] leží hluboko na koncích rozdělení E[Skew|y◦ ] respektive E[Kurt|y◦ ] jedná se o důkaz svědčící proti předpokladu normality. Je třeba zdůraznit, že E[Skew|y] a E[Kurt|y] jsou prostá čísla, oproti tomu E[Skew|y◦ ] respektive E[Kurt|y◦ ] jsou obě náhodné veličiny s rozdělením pravděpodobnosti počítaným dle (5.13). V kontextu našeho předchozího značení nastavíme g(y) = E[Skew|y] nebo E[Kurt|y] a g(y◦ ) = E[Skew|y◦ ] nebo E[Kurt|y◦ ]. 94 Nelineární regresní model V praxi vyžaduje programový kód pro výpočet posteriorní predikční phodnoty pro nelineární regresní model využívající neinformativní apriorní hustotu níže uvedené kroky. Případ výpočtu převisu špičatosti nebo jiné funkce, která by nás mohla zajímat, je naprosto podobný. Tyto kroky předpokládají, že máme odvozený posteriorní simulátor (např. M-H algoritmus). • Krok 0: Vezmeme výběr γ(s) využitím posteriorního simulátoru. • Krok 1: Vygenerujeme reprezentativní datovou sadu y◦ z p(y◦ |γ(s) ) užitím (5.15). • Krok 2: Definujeme (s) i = yi −f(Xi, γ(s) ) pro i = 1, . . . , N a vyhodnotíme (5.17) v tomto bodě, abychom získali Skew(s) . • Krok 3: Definujeme ◦(s) i = y ◦(s) i − f(Xi, γ(s) ) pro i = 1, . . . , N a vyhodnotíme (5.17) v tomto bodě, abychom získali Skew◦(s) . • Krok 4: Opakujeme Krok 1, 2, 3 a 4 celkem S krát. • Krok 5: Spočítáme průměr S výběrů Skew(1) , . . . , Skew(S) pro odhad E[Skew|y]. • Krok 6: Spočítáme podíl S vzorků Skew◦(1) , . . . , Skew◦(S) , které jsou menší než odhad E[Skew|y]. Pokud je toto číslo menší než 0.5, potom je to odhad posteriorní predikční p-hodnoty. V opačném případě je tímto odhadem jedna mínus toto číslo. Neexistuje nějaké pevné pravidlo, které nám řekne kolik přesně by tato hodnota měla být, aby svědčila v neprospěch našeho modelu. Užitečným hrubým pravidlem je vzít posteriorní predikční p-hodnotu menší než 0.05 (nebo 0.01) jako důkaz svědčící proti modelu. Pokud tedy např. posteriorní predikční phodnota pro šikmost je rovna 0.05, potom můžeme říct, že model generuje měřítka šíkmosti vyšší než tu, kterou skutečně pozorujeme, pouze v pěti procentech případů. Je tedy nepravděpodobné, že by model generoval pozorovaná data. 5.7 Metoda Gelfanda-Deye V rámci porovnání modelů je v případě nelineární specifikace často žádoucí porovnávat různé funkční tvary f(·). Ve většině případů se bude jednat o porovnání nevnořených modelů. Alternativně je možno porovnávat lineární a nelineární specifikaci. Například pro CES produkční funkci zavedenou v úvodu této kapitoly se model stává lineárním pro γk+1 = 1 a lineární model je tak vnořeným modelem modelu nelineárního, tedy M1 : γk+1 = 1 a M2 : γ neomezeno. Při porovnávání vnořených odelů tohoto typu je obvyklým nástrojem Savage-Dickey density ratio. Pro nelineární regresní model, jestliže apriorní hustota pro γ má jednoduchou podobu, lze Savage-Dickeyeho poměr snadno spočítat (tzn. pokud posteriorní hustota pro γ, která musí být vyhodnocena v bodě γk+1, může mít 5.7 Porovnání modelů: Metoda Gelfanda-Deye 95 podobu, se kterou lze jednoduše pracovat12 ). Například, pokud apriorní hustota má podobu p(γ, h) ∝ p(γ) h potom posteriorní hustota pro γ bude mít podobu danou v (5.6) násobenou p(γ). Pokud je však apriorní hustota komplikovanější, může být nemožné vyhodnotit Savage-Dickey denstiy ratio. Pro porovnání nevnořených modelů, či vnořených modelů, kde nelze snadno využít Savage-Dickey density ratio, je třeba obecnější metody vyhodnocení posteriorního podílu šancí. Nejen v těchto případech lze využít metodu Gelfanda a Deye [12]. Metoda Gelfanda a Deye je založena na skutečnosti, že inverzi marginální věrohodnosti pro model Mi, který závisí na vektoru parametrů θ, lze zapsat jako E[g(θ)|y, Mi] pro specifickou volbu g(·). Právě posteriorní simulátory jako např. M-H algoritmus jsou vytvořeny právě pro odhad takovýchto charakteristik. Následující teorém ukazuje nutnou volbu pro g(·). Teorém 5.1 (Metoda Gelfanda a Deye). Nechť p(θ|Mi) označuje apriorní hustotu, p(y|θ, Mi) věrohodnostní funkci a p(θ|y, Mi) posteriorní hustotu pro model Mi definovaný v oblasti Θ. Pokud f(θ) je funkce hustoty pravděpodobnosti definovaná na oblasti obsahující Θ, potom E f(θ) p(θ|Mi)p(y|θ, Mi) y, Mi = 1 p(y|Mi) (5.19) Důkaz E f(θ) p(θ|Mi)p(y|θ, Mi) y, Mi = f(θ) p(θ|Mi)p(y|θ, Mi) p(θ|y, Mi)dθ = f(θ) p(θ|Mi)p(y|θ, Mi) p(θ|Mi)p(y|θ, Mi) p(y|Mi) dθ = 1 p(y|Mi) f(θ)dθ = 1 p(y|Mi) Tento teorém se zdá být na první pohled velmi silný v tom smyslu, že pro jakoukoliv p.d.f f(θ) můžeme nastavit: g(θ) = f(θ) p(θ|Mi)p(y|θ, Mi) (5.20) a využít výsledky posteriorního simulátoru k odhadu E[g(θ)|y, Mi]. Pro úspěšné použití této metody je potřeba obezřetné volby f(θ). Například Geweke [16] 12Je třeba poznamenat, že existují algoritmy, které při daných výstupech posteriorního simulátoru γ(s) pro s = 1, . . . , S dokáží aproximovat p(γ|y). Tuto aproximaci lze využít při výpočtu čitatele Savage-Dickeyeho poměru. Tyto algoritmy spadají do oblasti neparametrických odhadů hustoty a vyžadují specifické znalosti přesahující zaměření tohoto textu. 96 Nelineární regresní model poukazuje na to, že f(θ) p(θ|Mi)p(y|θ,Mi) musí být shora omezena, tedy musí nabývat konečných hodnot pro jakoukoliv volbu θ. Geweke [16] doporučuje následující strategii pro volbu f(θ), která se v praxi ukázala jako velmi účinná. Tato strategie v sobě zahrnuje definování f(θ) jakožto funkce normální hustoty pravděpodobnosti s ohraničenými okraji. Důvod je ten, že je obtížné ověřit, zda-li f(θ) p(θ|Mi)p(y|θ,Mi) je konečné na okrajích hustoty normálního rozdělení. Odříznutím těchto konců je f(θ) pro tyto potenciálně problematické oblasti nulová. Formálně řečeno, nechť θ a Σ jsou odhady E(θ|y, Mi) a var(θ|y, Mi) získané z posteriorní simulace. Dále nechť pro určitou oblast pravděpodobnosti p ∈ (0, 1) označuje Θ oblast definičního oboru funkce f(θ), která je definována jako: Θ = {θ : (θ − θ) Σ−1 (θ − θ) ≤ χ2 1−p(k)} (5.21) kde χ2 1−p(k) je (1 − p) procentní kvantil rozdělení chí-kvadrát s k stupni volnosti, přičemž k je počet prvků vektoru θ. Geweke potom doporučuje volbu f(θ) jakožto funkci vícerozměrné normální hustoty pravděpodobnosti omezené do oblasti Θ: f(θ) = 1 p(2π) k 2 |Σ|− 1 2 exp − 1 2 (θ − θ) Σ−1 (θ − θ) 1(θ ∈ Θ) (5.22) kde 1() je indikační funkce. Očekává se, že nejlepších výsledků dosahujem při volbě nízkých hodnot p (např. p = 0.01), neboť potom při odhadu marginální věrohodnosti zahrnujeme mnohem více vzorků. Jak ovšem dále zdůrazňuje Geweke, dodatečný náklad zkoušení různých hodnot p je velmi malý. Standarním způsobem jsme schopni spočítat i numerickou standardní chybu, kterou lze využít při vyhodnocení přesnosti odhadu marginální věrohodnosti metodou Gelfanda-Deye. Implementace této metody je obsažena např. v balíku BACC. Je třeba zdůraznit, že obecná metoda Gelfanda-Deye pro výpočet marginální věrohodnosti funguje pro jakýkoliv model. V praxi jsou reálnými požadavky pouze to, aby byl k dispozici posteriorní simulátor a aby byly známy p(θ|Mi) a p(y|θ, Mi). Právě druhý z požadavků není až tak triviální, neboť v některých případech známe pouze jádrové hustoty apriorní hustoty a(nebo) věrohodnsotní funkce, a tedy ne plnou p.d.f. V těchto případech metodu Gelfanda-Deye nelze použít. Gewekova implementace této metody funguje pouze v případě, kdy definiční obor posteriorní hustoty obsahuje oblast definovanou v (5.21), tj. Θ ∈ Θ. Pokud tomu tak není, nabízí Geweke [16] návrhy postupu, jak tuto implementaci mírně pozměnit. Gewekův přístup je tedy o něco méně obecný, nicméně je přesto uplatnitelný pro širokou škálu modelů. 5.8 Predikce Predikční analýza probíhá analogickým způsobem nastíněným v předchozí kapitole. Výběry z p(γ|y), které nám poskytuje M-H algoritmus, využijeme pro 5.9 Empirická ilustrace 97 tvorbu vzorků z podmíněné predikční hustoty p(y∗ |y, γ(s) ). Jejich průměrováním pak získáme odhad jakékoliv charakteristiky predikční hustoty, která nás může zajímat. Pokud například využijeme neinformativní apriorní hustotu danou v (5.4) a s využitím techniky analogické pro odvození (3.40) lze ověřit, že p(y∗ |y, γ) = ft(y∗ |f(X∗ , γ), s2 IT , N) kde s2 je definovaná v (5.16). Výběry z y∗ podmíněné vektorem γ lze tedy získat velmi snadno. 5.9 Empirická ilustrace K ilustraci bayesiánské analýzy nelineárního regresního modelu využijeme příklad z mikroekonomie. Využijeme data z N = 123 společností týkající se jejich výstupu, y, a vstupů v podobě práce, x1, a kapitálu, x2. Data jsou obsahem textového souboru ch5data.out. Abychom nemuseli řešit problém jednotek jednotlivých veličin, jsou všechny proměnné standardizované, tedy jejch směrodatná odchylka je jedna. Pozorování každé proměnné tedy byla vydělena svou směrodatnou odchylkou. Standardizace se někdy dělá proto, že výsledná interpretace koeficientů probíhá v intencích právě směrodatných odchylek proměnných. Např. v lineárním regresním modelu lze parametr βj interpretovat tak, že nám říká: „Pokud se vysvětlující j-tá proměnná zvýší o jednu směrodatnou odchylku, vysvětlovaná proměnná má tendenci zvýšit se o βj směrodatných odchylek. Budeme pracovat s CES funkcí v podobě (viz (5.1)): yi = γ1 + (γ2xγ4 i1 + γ3xγ4 i2 ) 1 γ4 + i. Volba aditivně přidané úrovňové konstanty má jediný účel, a to ten, že omezení γ4 = 1 povede k lineárnímu regresnímu modelu. Začneme porovnáním výsledků posteriorní analýzy tohoto modelu, a to na základě použití Independence Chain a Random Walk Chain Metropolis-Hastings algoritmů. Kompletní analýza je obsahem soubor priklad_CES.m. V tomto případě využijeme neinformativní apriorní hustotu danou výrazem (5.4). Zaměříme se zatím jen na marginální posteriorní hustotu pro vektor parametrů γ = (γ1, . . . , γ4) , danou výrazem (5.6). Ke konstrukci kandidáty generujících hustot pro tyto dva algoritmy, využijeme optimalizační techniku k nalezení γmax, tedy modu marginální posteriorní hustoty, p(γ|y). K dispozici je možnost využití optimalizačního algoritmu z ekonometrického toolbox LeSageho [22] nebo funkci pro neomezenou optimalizaci (minimalizaci) fminunc.m, která je součástí Optimalisation toolboxu Matlabu. Obě funkce poskytují Hesián, který využijeme ke konstrukci kovarianční matice odhadu parametrl, var(γmax) (viz část 5.5.1). Optimalizaci můžeme obejít i způsobem postupného vylepšování střední hodnoty a kovarianční matice, kdy vyjdeme např. z počátečního vektoru jedniček a jednotkové kovarianční matice a provedeme M-H algoritmus pro zkrácený počet iterací s neextrémními průměrnými akceptačními pravděpodobnostmi (viz část 5.5.2). 98 Nelineární regresní model Funkce CES_post je námi vytvořená funkce odpovídající jádrové marginální posteriorní hustotě. Jedná se o záporný logaritmus jádra marginální posteriorní hustoty (algoritmus tak hledá minimum logaritmu této funkce, což odpovídá i nalezení maxima původní nelogaritmované funkce). Tabulka 5.1 ukazuje výsledky na základě implementace obou algoritmů. Příslušný skript matlabovského souboru odpovídá krokům popsaným v části 5.5. Algoritmy se liší jen ve svých kandidátských hustotách, a tedy ve výrazech pro akceptační pravděpodobnost (viz (5.9) a (5.11)). Akceptační pravděpodobnosti jsou zapsány s ohledem na to, že pracujeme se záporným logaritmem příslušné posteriorní hustoty a logaritmem kandidátské hustoty. Independence Chain algoritmus generuje kandidáty z vícerozměrného t-rozdělení, ft(γ|γmax, var(γmax), 5) a Random Walk algoritmu bere kandidáty z vícerozměrného normálního rozdělení, fN (γ|γs−1 , var(γmax)). S kandidátskými hustotami lze experimentovat použitím různých kovariančních maticí v obou kandidátských hustotách. Jak již bylo naznačeno, matici var(γmax) jsme mohli aproximovat kovarianční maticí var(γ|y) získanou na základě výchozího běhu každého z algoritmů. Dále si můžeme vyhrát s použitím c · var(γmax) a experimentováním s různými volbami skaláru c pro vylepšení výkonnosti algoritmů. Pro Independence Chain Metropolis-Hastings algoritmus si můžeme zkusit měnit i parametr vyjadřující počet stupňů volnosti v kanditáty generující hustotě. V případě obou algoritmů jsme zvolili počet generovaných vzorků S = 25000 a počet vyhozených vzorků S0 = 5000. Tabulka 5.1: Posteriorní výsledky na základě dvou M-H algoritmů Independence Chain Random Walk Chain Stř. hodnota Rozptyl Stř. hodnota Rozptyl γ1 1.022 0.003 1.019 0.003 γ2 0.706 0.011 0.710 0.012 γ3 1.004 0.024 0.983 0.023 γ4 1.393 0.081 1.336 0.058 Akceptační poměr u Independence Chain algoritmu byl 45 % u Random Walk algoritmu pak 21 %. V obou případech jsou výsledné odhady velmi podobné. S ohledem na posteriorní směrodatnou odchylku (odmocnina z prezentovaného rozptylu) jsou odhadnuté posteriorní střední hodnoty skoro stejné. Odhadnuté posteriorní rozptyly jsou již trochu odlišné, nicméně ne moc dramaticky. Pokud bychom chtěli ještě přesnější výsledky, mohli bychom ještě vyladit kandidátské hustoty nebo zvýšit počet replikací. Tyto algoritmy jsou výpočetně náročné, i když v našem případě čas výpočtu na čtyřjádrovém procesoru Intel Core 2 Quad (Q9550), 8Gb RAM a 64bitovým operačním systémem zabrala doba výpočtu asi 40 sekund (celkově pro oba algoritmy). S rozvojem počítačů je samozřejmě mnohem snadnější generovat více a více vzorků, pro velký počet 5.9 Empirická ilustrace 99 replikací stačí nechat běžet počítač přes noc či přes víkend. To má svůj význam pro empirickou praxi. Pro dosažení požadované úrovně přesnosti máme možnost buď zlepšovat algoritmus posteriorní simulace, nebo pracovat s méně efektivním algoritmem na více replikacích. Práce nad vytvořením lepčího algoritmu zabírá hlavně čas náš, práce s více replikacemi zabere čas počítače. Většina z nás si asi více váží času svého než počítače a tak raději prezentuje výsledky na základě „dostatečně dobrého algoritmu, než na základě algoritmu „nejlepšího pro danou aplikaci. Výsledky v tabulce 5.1 jsou získány na základě nepravé, neinformativní apriorní hustoty. Z tohoto důvodu nelze využít posteriorní podíl šancí pro porovnání tohoto modelu s modely jinými. Místo toho použijeme posteriorní predikční phodnotu, pro pohled na to, jak dobře je model v souladu s daty. Část 5.6 popisuje, jak tyto p-hodnoty získat. V každém kroku tak generujeme umělá data z (5.15) a spočítáme měřítko šikmosti a převisu špičatosti, tedy (5.17) a (5.18). Na tomto základě jsme shopni získat posteriorní predikční hustotu pro tato dvě měřítka. Formálně počítáme E[Skew|y◦ ] a E[Kurt|y◦ ], což jsou náhodné veličiny, protože y◦ je náhodná veličina. Můžeme rovněž spočítat měřítko šikmosti a špičatosti pro námi pozorovaná data, E[Skew|y] a E[Kurt|y], což již nejsou náhodné veličiny, protože y není náhodné. Umístění E[Skew|y] a E[Kurt|y] v rámci posteriorních predikčních hustot E[Skew|y◦ ] a E[Kurt|y◦ ] nám dává dostatečný náhled na to, jako dobře model popisuje data. Obrázky 5.1 a 5.2 nám vykreslují aproximace výše zmiňovaných predikčních hustot. Jedná se o histogramy výběrů, které jsme v části 5.6 označovali jako Skew◦(1) , . . . , Skew◦(S) a Kurt◦(1) , . . . , Kurt◦(S) . V těchto obrázcích jsou rovněž označeny hodnoty E[Skew|y◦ ] a E[Kurt|y◦ ] jako „Pozorovaná šikmost a „Pozorovaná špičatost . Jinými slovy, posteriorní predikční hustota pro šikmost (nebo špičatost) nám říká, jaké hodnoty šikmosti (nebo špičatosti) má náš model tendenci generovat. Obrázek 5.1 nám naznačuje, že nelineární regresní model z tohoto příkladu v podstatě ve všech případech generuje data s hodnotou šikmosti v absolutní hodnotě menší než jedna. Kdyby nám skutečná data ukázala hodnotu šikmosti v abolutní hodnotě větší než jedna, byl by to důkaz toho, že model není vhodný pro aplikaci na tato data. Ve skutečnosti je E[Skew|y] = 0.233, což je v blízkosti středu vykreslené hustoty z obrázku 5.1. Odpovídající p-hodnota je 0.51. V rámci našeho skritu se jedná o oboustrannou p-hodnota). Toto číslo nám říká, že 51 % uměle vygenerovaných dat bude vykazovat v absolutní hodnotě vyšší hodnotu šikmosti než aktuální data. Šikmost pozorovaných dat je tak v souladu s tím, co by nám měl generovat náš nelineární regresní model. Podobný závěr lze učinit pro posteriorní predikčí hodnotu převisu špičatosti. Pozorovaná data vracejí hodnotu E[Kurt|y] = −0.326, což je konzistentní se špičatostí data generovatelných modelem. Posteriorní predikční p-hodnota 0.43, což nám říká, že 43 % uměle vytvořených datových vzorků bude mít extrémnější hodnotu špičatosti (v absolutní hodnotě). Můžeme tedy učinit závěr, že nelineární regresní model použitý v tomto příkladě dobře vystihuje data, alespoň pokud jde o jejich šikmost a špičatost. Samozřejmě lze prezentovat i jednostranné varianty p-hodnoty. Doposud jsme se zaměřili na empirickou analýzu vektoru parametrů γ a 100 Nelineární regresní model −1.5 −1 −0.5 0 0.5 1 1.5 0 500 1000 1500 2000 2500 Sikmost Pozorovana sikmost Obrázek 5.1: Posteriorní predikční hustota šikmosti. nic jsme si neřekli o parametru h. Pokud by nás zajímala posteriorní analýza parametru h, potřebovali bychom posteriorní simulátor, který by nám poskytl výběry h(s) . Kromě toho, metoda Gelfanda-Deye pro výpočet marginální věrohodnosti vyžaduje výběry z úlného vektoru parametrů, θ = (γ , h) . Z těchto důvodů (a pro ilustraci dalšího algoritmu posteriorní simulace) si v krátkosti odvodíme Metropolis-within-Gibbs algoritmus (viz část 5.5.3), který bude generovat výběry z p(h|y, γ) a p(γ|y, h). Porovnání modelů na základě posteriorního podílu šancí si budeme ilustrovat na příkladu analýzy toho, jestli je pro náš příklad adekvátní lineární regresní model. Náš omezený model bude M1 : γ4 = 1. Neomezený model he M2 : γ4 = 1. K výpočtu posteriorního podílu šancí porovnávajícího tyto modely potřebujeme informativní apriorní hustotu. Použijeme normální-gama apriorní hustotu pro oba modely (viz kapitola 4, část 4.1). Pro model M2 je apriorní hustota pro γ nezávislá na apriorní hustotě pro h a má podobu γ ∼ N(γ, V ). Apriorní hustota pro h odpovídá hustotě h ∼ G(s−2 , ν). Zvolíme γ = (1, 1, 1, 1) , V = 0.25I4, ν = 12 a s−2 = 10.0. Vzhledem k pravděpodobným rozměrlm mezního produktu práce a kapitálu a díky způsobu standardizace dat jsou tyto volby vcelku rozumné, i když relativně neinformativní. 5.9 Empirická ilustrace 101 −2 −1 0 1 2 3 4 5 6 0 1000 2000 3000 4000 5000 6000 Spicatost Pozorovana spicatost Obrázek 5.2: Posteriorní predikční hustota špičatosti. Pro model M1 použijeme tutéž apriorní hustotu s tím, že γ bude mít jen tři prvky, tudíž γ bude bez svého posledního řádku a podobně V bude bez posledního řádku a sloupce. Pro lineární regresní model využijeme veškeré postupy z kapitoly 4, části 4.1, včetně Gibbsova vzorkovače pro posteriorní simulaci. Pro nelineární regresní model s touto apriorní hustotou si odvodíme Metropolis-within-Gibbs algoritmus. Ke konstrukci tohoto algoritmu si musíme odvodit podmíněné hustoty p(h|y, γ) a p(γ|y, h). Využitím stejného postupu jako pro odvození (4.8) až (4.11) zjistíme, že h|y, γ ∼ G(s−2 , ν), (5.23) kde ν = N + ν, s2 = [y − f(X, γ)] [y − f(X, γ)] + νs2 ν . S využitím (5.5) a s vědomím toho, že p(γ|y, h) ∝ p(γ, h|y), můžeme vidět, 102 Nelineární regresní model že p(γ|y, h) ∝ exp − h 2 {y − f(X, γ)} {y − f(X, γ)} exp − 1 2 (γ − γ) V −1 (γ − γ) . (5.24) Tato podmíněná posteriorní hustota nemá podobu známého rozdělení, ze kterého bychom mohli snadno generovat náhodné výběry. Nicméně, můžeme použít Metropolis-Hastings algoritmus pro p(γ|y, h), který v kombinaci s výběry z gama rozdělení z (5.23) dává Metropolis-within-Gibbs algoritmus. V našem příkladě použijeme pro výběry z (5.24) Random Walk Chain Metropolis-Hastings algoritmus. Tento algoritmus je stejný jako v úvodní části tohoto příkladu, jen s tím rozdílem, že akceptační pravděpodobnost je počítána s využitím (5.24). Výpočet marginální věrohodnosti metodou Gelfanda a Deye je vcelku jasný, pokud máme výstup z takových posteriorních simulátorů jako jsme využili pro modely M1 a M2. V části 5.7 lze nalézt potřebné detaily. Samotný výpočet je obsahem souboru priklad_GelfandDey.m. Po tom, co získáme výběry posteriorních simulátorů, musíme vyhodnotit pro tyto výběry věrohodnostní funkci (funkce CES_like.m a CES_like_lin.m) a apriorní hustotu (CES_like_lin.m), viz (5.20). Protože je pro oba modely apriorní hustota v podobě nezávislé normální-gama hustoty, vyhodnocení apriorní hustoty je jasné. Pro model M1 je věrohodnostní funcke dána výrazem (3.3) a pro M2 je dán v (5.3). Z Matlabovských funkcí lze vidět, že napsaání příslušných kódů není nijak obtížné. Stejně tak lze snadno naprogramovat funkci označenou jako f(θ) (viz (5.20)), zahrnující jen (5.21) a (5.22). Jakmile vyhodnotíme apriorní hustotu, věrohodnostní funkci a f(·) v každém posteriorním výběru, můžeme spočítat g(·) (5.20) a zprůměrovat získané výsledky, čímž získáme odhad marginální věrohodnosti (resp. její inverzi). Oba posteriorní simulátory (jak Gibbsův vzorkovač pro lineární model, tak i Metropolis-within-Gibbs algoritmus pro nelineární model) generovaly S = 25000 vzorků, z čehož jsme S0 = 5000 vzorků vyhodili. Marginální věrohodnost byla spočítána pro p = 0.01 (viz (5.21)). Pro jiné hodnoty ale výsledek nebude příliš odlišný. Výsledný odhad Bayesova faktoru je 1.09. Lineární model tak je tak stejně pravděpodobný jako model nelineární. S ohledem na výsledky odhadu γ4 a příslušný rozptyl to není překvapující výsledek. Pro věrohodnost všech předchozích výsledků je třeba ověřit konvergenci algoritmů pomocí MCMC di- agnostik. 5.10 Shrnutí V této kapitole jsme se zabývali bayesiánskou analýzou nelineárního regresního modeli. Aspekt nelinearity znamená, že nemáme k dipozici analytické výsledky, a to i pro případ jednoduchých neinformativních apriorních hustot. Obecně není možné vyvinout Gibbsův vzorkovač pro posteriorní simulaci. Tyto vlastnosti nás motivovaly pro zavedení nevé třídy velmi obecných algoritmů posteriorní 5.10 Shrnutí 103 simulace, třídu Metropolis-Hastings algoritmů. Dvě obvyklé varianty jsou Independence Chain a Random Walk Chain Metropolis-Hastings algoritmy a obě jsme si detailně popsali. První z nich pracuje velmi dobře v případě, kdy existuje dobrá aproximace posteriorní hustoty. Druhý algoritmus lze použít v případě, kdy tato aproximace neexistuje resp. ji nelze nalézt. Nelineární regresní model jsme využili k zavedení nové metody hodnocení modelu nebo modelů Jedná se o prediktivní p-hodnotu, což je obecný nástroj pro vyjádření kvality modelu z hlediska jeho souladu s daty. Obecný nástroj pro výpočet marginální věrohodnosti je metoda Gelfanda a Deye, který byl rovněž detailně vysvětlena. Na tomto místě jsme si fakticky představili veškeré základní nástroje a koncepty využívané v následujících kapitolách. Pokud jde o posteriorní simulátory, tak jsme se seznámili s Monte Carlo integrací, importance sampling, Gibbsovým vzorkovačem a Metropolis-Hastings algoritmem. V rámci porovnání modelů jsme pokryli metodu Gelfanda a Deye pro výpočet marginální věrohodnosti, stejně jako snadnější, ale méně obecnou metodu Savage-Dickeyeho poměru hustot. Rovněž byl popsán přístup využívající predikční p-hodnotu. Tento přístup lze nejlépe popsat jako způsob souladu modelu s daty, nicméně jej lze využít i k porovnání modelů. Zbytek kapitol se zabývá problematikou implementace doposud probraných obecných nástrojů a konceptů na konkrétní typy modelů. Je dobré poznamenat, že k dispozici máme širokou paletu nástrojů, kdy po některé modely je možno použít vícero z nich. V případě nelineárního modelu tak můžeme použít jak importance sampling, tak i Metropolis-Hastings algoritmus. Pro porovnání modelů můžeme použít posteriorní podíl šancí nebo posteriorní predikční phodnotu. Použití konkrétního nástroje tak může být spíše otázkou preferencí nebo zvyku. Konkrétně zvolený přístup či nástroj v dalších kapitolách tak nelze automaticky brát jako jediný možný nebo dokonce ten nejlepší. 104 Nelineární regresní model Kapitola 6 Lineární regresní model s obecnou kovarianční maticí chyb 6.1 Úvod V této kapitole se vrátíme k normálnímu lineárnímu regresnímu modelu y = Xβ + (6.1) V předchozích kapitolách jsme předpokládali, že je z N(0N , h−1 IN ). Předpoklad, že náhodná složka má nulovou střední hodnotu, pokud by tomu tak snad nebylo, je možno tuto nenulovou střední hodnotu zahrnou do úrovňové konstanty (tedy pokud máme model bez úrovňové konstanty a předpokládáme-li nenulovou střední hodnotu chybového členu, je tento model možno zapasat jako model s úrovňovou konstantou a náhodnou složkou, která již nulovou střední hodnotu mít bude). Předpoklad kovarianční matice h−1 IN však již tak samozřejmý není, a v řadě případů jej bude žádoucí uvolnit, rovněž i předpoklad u normalitě náhodné složky nemusí být vždy adekvátní modelové situaci. V rámci této kapitoly budou všechny modely založeny na (6.1) a na následujících předpokladech: 1. je z vícerozměrného normálního rozdělení s střední hodnotou 0N a kovarianční maticí h−1 Ω, kde Ω je pozitivně definitní matice rozměru N × N. 2. Všechny prvky X jsou buď pevně daná čísla (tj. nenáhodné veličiny) nebo pokud se jedná o náhodné veličiny, pak musí být nezávislé vzhledem k s funkcí hustoty pravděpodobnosti p(X|λ), kde λ je vektorem parametrů, které nezahrnují β nebo h. Různé modely diskutované v této kapitole se budou odlišovat v přesně podobě Ω. Budeme se zabývat některými specifickými tvary, se kterými se můžeme 106 Lineární regresní model s obecnou kovarianční maticí chyb setkat v řadě apikací. Začneme předpokladem heteroskedasticity, což je případ, kdy se rozptyly náhodných složek budou v rámci jednotlivých pozorování lišit. Budeme předpokládat dva typy heteroskedasticity: v jednom případě bude její podoba známa, ve druhém pak bude neznámá. Poslední případ nám umožní uvolnit předpoklad normality a ukážeme si, jak určitý model s heteroskedasticitou v neznámé podobě je ekvivalentní LRM s náhodnou složkou ze Studentova t-rozdělení. Tento model nám umožní zavést koncept hierarchického prioru. Dále bude předpokládat případ, kdy náhodné chyby jsou vzájemně korelovány. Přesněji, budeme analyzovat model s autoregresními (AR) chybovými členy. Autoregresní modely jsou významnými modely v rámci analýzy časových řad. Posledním typem modelů v této kapitole budou tzv. SUR modely, neboli seemingly unrelated regression models, tedy modely zdánlivě nesouvisejících regresí. 6.2 Model s obecnou maticí Ω Na úvod se zmíníme o obecném řešení našeho problému. Jelikož předpokládáme, že Ω je pozitivně definitní matice, platí, že bude existovat matice P rozměru N × N, s vlastností, že PΩP = IN . Vynásobíme-li obě strany (6.1) maticí P, dostaneme transformovaný model y∗ = X∗ β + ∗ (6.2) kde y∗ = Py, X∗ = PX a ∗ = P . Lze ověřit, že po této transformaci je ∗ z normálního rozdělení N(0N , h−1 IN ). Tento transformovaný model je tak identický s modely diskutovanými v předchozích kapitolách. To má dvě důležité implikace: 1. Pokud je Ω známa, jsme schopni přetransformovat data a provést bayesiánskou analýzu matodami probíranými v předchozích kapitolách. 2. Pokud je Ω neznámá, vztah (6.2) nám napovídá jak provést bayesovskou analýzu. Podmíněno maticí Ω, podmíněné posteriorní hustoty pro β a h budou mít obdobnou podobu jako v předchozích kapitolách. Pokud je apriorní hustota pro β a h NG(β, V , s−2 , ν), potom veškeré výsledky kapitol 2 a 3 jsou aplikovatelné, podmíníme-li je Ω, a jsme tedy schopni generovat náhodné výběry. V této kapitole se zaměříme na nezávislou normální-gama apriorní hustotu. Můžeme tak vytvořit Gibbsův vzorkovač pro sekvenční výběry z p(β|y, h, Ω), p(h|y, β, Ω) a p(Ω|y, β, h). Obě dvě posteriorní podmíněné hustoty budou normální a gama (jako v kapitole 4), přičemž p(Ω|y, β, h) závisí na přesné formě Ω. Veškerá nová odvození se tak budou týkat pouze poslední z hustot. 6.2 Model s obecnou kovarianční maticí 107 6.2.1 Věrohodnostní funkce Využitím vlastností vícerozměrného normálního rozdělení můžeme věrohodnostní funkci zapsat jako: p(y|β, h, Ω) = h N 2 (2π) N 2 |Ω|− 1 2 exp − h 2 (y − Xβ) Ω−1 (y − Xβ) (6.3) případně za použití transformovaných dat p(y∗ |β, h, Ω) = h N 2 (2π) N 2 exp − h 2 (y∗ − X∗ β) (y∗ − X∗ β) (6.4) V kapitole 3 bylo ilustrováno, jak zapsat věrohodnostní funkci pomocí OLS kvantit (3.4-3.7). Obdobným odvozením zde jsme schopni odvodit věrohodnostní funkci v kontextu GLS (General Least Squares – zobecněná metoda nejmenších čtverců) kvantit: ν = N − k (6.5) β = (X∗ X∗ )−1 X∗ y∗ = (X Ω−1 X)−1 X Ω−1 y (6.6) s2 (Ω) = (y∗ − X∗ β(Ω)) (y∗ − X∗ β(Ω)) ν = (y − Xβ(Ω)) Ω−1 (y − Xβ(Ω)) ν (6.7) p(y|β, h, Ω) = 1 (2π) N 2 × h 1 2 exp − h 2 (β − β(Ω)) X Ω−1 X(β − β(Ω)) × h ν 2 exp − hν 2s(Ω)−2 (6.8) 6.2.2 Apriorní hustota Použijeme normální-gama apriorní hustotu pro β a h a obecné značení p(Ω) pro označení apriorní hustoty pro Ω: p(β, h, Ω) = p(β)p(h)p(Ω), kde p(β) = fN (β|β, V ), (6.9) p(h) = fG(h|ν, s−2 ). (6.10) 108 Lineární regresní model s obecnou kovarianční maticí chyb 6.2.3 Posteriorní hustota Posteriorní hustota je tradičně poroporcionální součinu apriorní hustoty a věrohodnostní funkce v podobě p(β, h, Ω|y) ∝ p(Ω) × exp − 1 2 h(y∗ − X∗ β) (y∗ − X∗ β) + (β − β) V −1 (β − β) × h N+ν−2 2 exp − hν 2s−2 (6.11) Sdružená hustota pravděpodobnosti nemá tvar žádného obvyklého rozdělení. Alternativní vyjádření této posteriorní hustoty jsou tedy nadbytečná. Snadno však lze odvodit některé podmíněné posteriorní hustoty, a to obdobným způsobem jako tomu bylo v kapitole 4. Je tedy možné odvodit podmíněnou posteriorní hustotu pravděpodobnosti pro β, což je vícerozměrné normální rozdělení: β|y, h, Ω ∼ N(β, V ) (6.12) kde V = (V −1 + hX Ω−1 X)−1 , (6.13) β = V (V −1 β + hX Ω−1 Xβ(Ω)). (6.14) Podmíněná posteriorní hustota pro h odpovídá gama rozdělení: h|y, β ∼ G(s−2 , ν) (6.15) kde ν = N + ν, (6.16) s2 = (y − Xβ) Ω−1 (y − Xβ) + νs2 ν . (6.17) Posteriorní podmíněná hustota pro Ω má jádrovou hustotu v podobě p(Ω|y, β, h) ∝ p(Ω)|Ω|− 1 2 exp − h 2 (y − Xβ) Ω−1 (y − Xβ) (6.18) Obecně tato posteriorní podmíněná hustota nenabývá podoby známého rozdělení. Dále budeme předpokládat již konkrétní podobu pro Ω a odvodíme tomu odpovídající posteriorní simulátory. Pokud budeme schopni generovat výběry z p(Ω|y, β, h), jsme schopni využít Gibbsův vzorkovař, neboť p(β|y, h, Ω) odpovídá normálnímu rozdělení a p(h|y, β, Ω) rozdělení gama. 6.3 Heteroskedasticita ve známé podobě 109 6.3 Heteroskedasticita ve známé podobě Případ heteroskedascity nastává v případech, kdy rozptyl náhodných složek se liší mezi jednotlivými pozorováními. Opakem heteroskedasticity je případ homoskedasticity, která byla předpokladem modelů probíraných v předchozích kapitolách. Jako motivace, proč může být žádoucí předpokládat heteroskedasticitu chybového členu, si uveďme několik příkladů. Předpokládejme mikroekonomický případ, kde závislou proměnnou jsou tržby firem. Zde můžeme reálně předpokládat, že chybový člen bude proporcionální velikosti firmy, tedy pro malé firmy bude menší než pro velké. Jiným příkladem může být model, který analyzuje data různých států, kdy z důvodu, že rozvinuté země budou mít lepší institucionální zabezpečení pro sběr statistických dat než země rozvojové, můžeme se zde opět setkat s případem, kdy chybové složky budou pro rozvinuté země výrazně nižší. V notaci našeho regresního modelu, heteroskedasticita nastává v případě, kdy Ω =       ω1 0 · · 0 0 ω2 0 · · · 0 · · · · · · · 0 0 · · 0 ωN       . (6.19) Jinými slovy tedy máme stejný model jako v kapitolách 2 až 4, s tím rozdílem, že nyní předpokládáme var( i) = h−1 ωi pro i = 1, . . . , N. Výše uvedené motivační příklady naznačují, že často známe nebo alespoň předpokládáme, jakou formu bude heteroskedasticita nabývat. Například, ωi by mohla záviset na tom, zda-li firma i je malá nebo velká, nebo zda-li země i je rozvinutá nebo rozvojová. Budeme obecně předpokládat, že ωi = h(zi, α) (6.20) kde h() je kladná funkce závisející na parametrech α a p-rozměrném vektoru dat, zi. Vektor zi může obsahovat některé či všechny vysvětlující proměnné xi. Obvyklá volba pro h(), která nám zajistí, že všechny rozptyly náhodných složek budou kladné je: h(zi, α) = (1 + α1zi1 + α2zi2 + αpzip)2 (6.21) Samozřejmě závěry této části kapitoly budou platit i pro jiné volby funkce h(). Apriorní hustota, věrohodnostní funkce a posteriorní hustota odpovídají funkcím hustoty pravděpodobnosti prezentovaným v úvodu této kapitoly, s tím, že jsme schopni vyjádřit i výraz pro Ω daný vztahem (6.19). Je však třeba upozornit, že Ω nyní závisí na parametrech α. Pro bayesiánskou analýzu tohoto „heteroskedastického modelu potřebujeme mít posteriorní simulátor. Vhodným simulátorem je je zde algoritmus Metropolis-within-Gibbs. Jak již bylo poznamenáno, p(β|y, h, α) má normální rozdělení a p(h|y, β, α) odpovídá gama rozdělení. Pro kompletaci posteriorního simulátoru 110 Lineární regresní model s obecnou kovarianční maticí chyb tedy potřebujeme metodu pro generování vzorků z p(α|y, β, h). Pokud dosadíme (6.19) a (6.20) do (6.18), nebude mít výsledný výraz pro p(α|y, β, h) podobu známé hustoty rozdělení. Ovšem jsme schopni vyvinout Metropolis-Hastings algoritmus. V následující ilustraci je použit Random Walk Chain M-H algoritmus, ačkoliv jsou možné i jiné algoritmy. Lze spočítat Bayesův faktor pro jakoukoliv hypotézu (např. α1 = . . . = αp = 0, tedy zda-li je v modelu přítomna heteroskedasticita), a to s využitím přístupu Gelfanda-Deye. Rovněž lze testovat kvalitu modelu za pomocí p-hodnot nebo intervalů nejvyšší posteriorní hustoty. Predikční analýzu je rovněž možno provést standardním způsobem. 6.3.1 Empirická ilustrace K ilustraci problému heteroskedasticity ve známé podobě využijme data o cenách domů z kapitoly 3. Náš model budeme chápat jako normální lineární regresní model s heteroskedasticitou ve známé podobě a k jeho identifikaci tak využijeme Gibbsův vzorkovač. Využívaná data jsou podrobně popsána v části 3.8. Předpokládáme, že heteroskedasticita bude mít podobu odpovídající vztahu (6.21), kdy zi = (xi2, . . . , xik) . Apriorní hustoty pro parametry β a h jsou dány vztahy (6.9) a (6.10). Jako apriorní hyperparametry použijeme stejné parametry jako v kapitole 4, části 4.1.7. Pro vektor parametrů α použijeme neinformativní apriorní hustotu v podobě p(α) ∝ 1. Všimněme si, že se jedná o nepravou apriorní hustotu, což má za následek to, že nejsme schopni pro ověření hypotéz zahrnující prvky vektoru α smysluplné Bayesovy faktory. Z tohoto důvodu si ukážeme, kromě posteriorních středních hodnot a směrodatných odchylek, 95% intervaly nejvyšší posteriorní hustoty (HPDI). To vše je obsahem tabulky 6.1. Tabulka 6.1: Posteriorní výsledky pro β, h a α Stř. hodnota Sm. odchylka 95% HPDI β1 -5406.98 2981.53 [-11267.91, 376.88] β2 6.1438 0.4223 [5.3270, 6.9771] β3 3107.33 1018.74 [1117.58, 5107.99] β4 14417.35 1669.22 [11156.38,17714.82] β5 7866.99 929.76 [6034.01,9691.73] h 0.0000 0.0000 [0.0000, 0.0000] α1 0.0006 0.0001 [0.0003,0.0009] α2 0.6401 0.2907 [0.1030,1.2395] α3 0.7057 0.3786 [0.0641,1.5376] α4 -0.3678 0.3087 [-0.9528, 0.2785] Posteriorním simulátorem je Metropolis-within-Gibbs algoritmus, který ge- 6.3 Heteroskedasticita ve známé podobě 111 neruje vzorky β a h z rozdělení daného vztahy (6.12) resp. (6.15). Výběry z p(α|y, β, h) jsou dány v (6.18), kdy známe přesnou podobu matice Ω (která je funkcí parametrů α. Rovnice (6.18), vyhodnocená v kandidátském a posledním výběru, je použita pro výpočet akceptační pravděpodobnosti (viz kapitola 5, vztah (5.11)). Rozptyl kandidátské hustoty, označený jako Σ ve vztahu (5.12), je zvolen na základě volby Σ = cI a na základě následného experimentování s různými hodnotami skalární proměnné c, a to až do bodu nalezení přijatelné akceptační pravděpodobnosti. Posteriorní simulátor je pak spuštěn s využitím této hodnoty pro odhad posteriorního rozptyly α, var(α|y). Potom je zvolena matice Σ = cvar(α|y) a opět se provede několik experimentálních odhadů pro různé hodnoty c, až nalezneme hodnotu, která povede k průměrné akceptační pravděpodobnosti mezi 0.2 až 0.3 (případně až do 0.5). To vše je provedeno na krátkých vzorcích, neboť simulace zabírá nějaký ten čas. Finální běh algoritmu je proveden na základě 50000 replikací, kdy je prvních 20000 zahozeno. Samotný matlabovský skript je obsahem souboru priklad hetero znama.m, čas odhadu na čtyřjádrovém procesoru Intel Core 2 Quad (s frekvencí 2.83 GHz) zabral 65 minut. Podobné odhady by bylo možno získat i při nižším počtu replikací. Pravdou rovněž je, že i samotný algoritmus by bylo možné dále výpočetně zefektivnit, snahou však bylo využít značení a obecné postupy co nejvíce odpovídající textu předchozí části kapitoly. Jako užitečné se jeví upozornit na úskalí numerických chyb např. při vyhodnocování jádrové hustoty (ta je obsahem funkce a post.m). V tomto případě bylo přímo nutné využít nejen logaritmus jádrové hustoty (což je velmi běžný postup), ale i faktu, že matice Ω je diagonální matice, z čehož vyplývá, že logaritmus determinantu této matice je roven součtu logaritmů prvků na hlavní diagonále. V opačném případě MATLAB nevracel správné výsledky hodnoty logaritmu determinantu takto rozsáhlé matice (součin 526 malých čísel na diagonále může vést při numerickém násobení k hodnotě nekonečno a logaritmus nekonečna nekonečnem zůstane). MCMC diagnostiky indikují konvergenci Metropolis-within-Gibbs algoritmu a numerické standardní chyby pak naznačují chybu aproximace, které jsou velmi malé relativně k posteriorním směrodatným odchylkám jednotlivých parametrů. Tabulka 6.1 (hodnoty pro parametr h vypadají nulověnám říká, že heteroskedasticita bude pro danou datovou sadu relevantním faktorem. To vyplývá ze skutečnosti, že 95% intervaly nejvyšší posteriorní hustoty neobsahují nulu pro parametry α1, α2 a α3. To tedy znamená, že rozloha domu, počet ložnic a počet koupelen disponující významnou vysvěltující silou v rovnici heteroskedasticity. Skutečnost, že jsou všechny tyto koeficienty kladné, nám dále říká, že rozptyl náhodných složek pro velké domy má tendenci být vyšší než pro domy menší. V předchozích kapitolách byl problém heteroskedasticity ignorován (v rámci odhadu modelu cen domů). Pokud porovnáme výsledky z tabulky 6.1 a z tabulky 4.1, vidíme, jaký vliv toto opomenutí mělo. Posledně zmiňovaná tabulka obsahuje výsledky pro homoskedastickou verzi modelu, nicméně využívá tatáž data a tytéž apriorní hustoty pro parametry β a h. Lze vidět, že zahrnutí heteroskedasticity má určitý vliv na posteriorní hustotu vektoru parametrů β. Můžeme například vidět, že střední hodnota parametru β4 byla 16136 pro 112 Lineární regresní model s obecnou kovarianční maticí chyb homoskedastický model a 14417 pro model v heteroskedastickém formátu. Pro mnohá využití však i takovýto rozdíl může být zanedbatelná a lze tak dospět k závěru, že zahrnutí heteroskedasticity nijak výrazně výsledky odhadu neovlivní. Ale záleží skutečně na vlastní interpretaci výsledků. 6.4 Heteroskedasticita v neznámé podobě V této části budeme hledat odpověď na otázku, jak postupovat, pokud víme, že v datech je přítomna heteroskedasticita náhodných složek, ale neznáme její přesnou podobu. Jinými slovy, předpokládáme, že platí (6.19), nicméně již nechceme (resp. neumíme) specifikovat přesnou funkční podobu pro ωi jako ve vztahu (6.20). Na první pohled se zdá, že odhadnout na základě N pozorování N + k + 1 parametrů (tj. β, h a ω = (ω1, . . . , ωN ) ) je v podstatě nemožné. Nicméně uvidíme, že rozšířením techniky z předchozí části této kapitoly, jsme schopni řešit i tento problém. Metoda, kterou si zde v této souvislosti ukážeme, bude užitečná ze dvou hledisek: 1. Tato metoda zahrnuje využití tzv. hierarchických priorů. Tyto priory hrají významnou roli v současném rozvoji bayesiánské statistické teorie a své místo nalézají čím dál více i v ekonometrii. Využívají se jako způsob tvorby více flexibilních na parametry bohatých modelů pro statistickou analýzu. 2. Tento model nám dovolí zavést koncept vztahující se k flexibilnímu ekonometrickému modelování a konkrétně pak nám umožní uvolnit předpoklad normality náhodné složky. Začneme tedy formulací apriorní hustoty p(ω) pro N-rozměrný vektor parametrů ω. Obvykle se pracuje s přesností chyby než jejím rozptylem, tudíž budeme definovat λ ≡ (λ1, λ2, . . . , λN ) ≡ (ω−1 1 , ω−1 2 , . . . , ω−1 N ) . Předpokládejme následující apriorní hustotu pro λ: p(λ) = N t=1 fG(λi|1, νλ) (6.22) Poznamenejme, že apriorní hustota pro λ závisí na hyperparametru νλ, který si volíme, a předpokládá se, že každé λi pochází z téhož rozdělení. Jinými slovy, parametry λi jsou i.i.d. výběry z gama rozdělení. Tento předpoklad je nutny pro vypořádání se s problémy vysoké dimenzionality vektoru λ. Intuitivně řečeno, pokud bychom chtěli pracovat s λ1, . . . , λN jako s N zcela nezávislými a neomezenými parametry, nebudeme mít dostatek pozorování k jejich odhadům. Náš předpoklad umožňuje to, že rozptyly náhodných složek se budou vzájemně lišit, ovšem budou pocházet ze stejného rozdělení. Máme tak velmi flexibilní model s dostatečně pevnou strukturou pro možnou statistickou analýzu. Můžeme se podivovat nad tím, proč by λi měly být i.i.d. výběry z gama rozdělení se střední hodnotou 1.0. Důvod je ten, že náš model s věrohodnostní 6.4 Heteroskedasticita v neznámé podobě 113 funkcí (6.3) a apriorními hustotami danými vztahy (6.9) (6.10) a (6.22) je naprosto stejný jako limeární regresní model s náhodnými složkami z i.i.d. Studentova t-rozdělení s νλ stupni volnosti. Jinými slovy, předpokládáme-li p( i) = ft( i|0, h−1 , νλ) (6.23) pro i = 1, . . . , N, odvozením tomu odpovídající věrohodnostní funkce a kombinací s apriorními hustotami pro β a h získáme identickou posteriorní hustotu. Důkaz a další vysvětlení nabízí Geweke [15]. Studentovo t-rozdělení je podobné normálnímu rozdělení, má ovšem tlustší konce a je více flexibilnější. Ve skutečnosti je normální rozdělení speciálním případem Studentova t-rozdělení pro νλ → ∞. Máme tedy model, který nám dává flexibilnější rozdělení náhodných složek, a to bez toho abychom opustili rámec normálního lineárního regresního modelu. Navíc můžeme těžit z výpočetních metod vyvinutých výše, abychom vytvořili posteriorní simulátor pro lineární regresní model s nezávislými t-rozdělenými chybami. Je třeba poznamenat, že zde diskutovaný model je mixem specifických normálních rozdělení. Intuitivně, pokud je normální rozdělení příliš restriktivní, jsme schopni vytvořit mnohem flexibilnější rozdělení váženým průměrem více normálních rozdělení. Čím více normálním rozdělení ”namixujeme”, tím flexibilnější bude výsledné rozdělení, čímž bude schopno aproximovat takřka jekékoliv rozdělení s vysokým stupněm přesnosti. Takováto směs normálních modelů je tedy mocným nástrojem v situacích, kdy ekonomická teorie nenabízí specifikaci věrohodnostní funkce a my chceme být dostatečně flexibilní. Naše chápání heteroskedasticity v neznámé podobě je ekvivalentní poměrnému mixu normálních rozdělení (scale mixture of Normals). Tím je myšleno, že předpoklad, že i jsou N(0, h−1 λ−1 i ) s apriorní hustotou pro λi danou v (6.22) je ekvivalentní předpokladu, že rozdělení chyb je váženým průměrem (či mixem) různých normálních rozdělelní, které mají různé rozptyly (tj. různá měřítka – scales) a stejné střední hodnoty (tj. všechny chyby mají nulovou střední hodnotu). Pokud je tato směs vytvořena za použití gama hustot fG(λi|1, νλ), je výsledek ekvivalentní t-rozdělení. Využitím jiných hustot než fG(λi|1, νλ) jsme schopni získat jiná rozdělení, ještě mnohem flexibilnější. Předchozí analýza předpokládala, že νλ bylo známé. Prakticky to nemusí být rozumný předpoklad, a je tedy žádoucí brát ho jako neznámý parametr. V bayesovském konceptu vyžaduje každý parametr znalost apriorní hustoty, a tudíž zde zatím použijeme značení p(νλ). Pokud to učiníme, je apriorní hustota pro λ specifikována ve dvou krocích, jedním z nich je (6.22), druhým pak p(νλ). Alternativně lze apriorní hustotu pro λ zapsat jako p(λ|νλ)p(νλ). Apriorní hustoty zapsána ve dvou či více krocích, jako je uvedeno zde, se nazývají hierarchické apriorní hustoty. Zápis apriorní hustoty jako hierarchický prior je obvyklým způsobem zápisu apriorní informace. Není to však nutné, neboť zákony pravděpodobnosti implikují, že hierarchický prior lze zapsat v nehierarchickém pojetí. V našem případě můžeme použít p(λ) = p(λ|νλ)p(νλ)dνλ pro odvození nehierarchické verze apriorní hustoty pro λ. Ve všech předchozích empirických ilustracích byly prezentovány posteriorní střední hodnoty jako bodové odhady parametrů a posteriorní směrodatné od- 114 Lineární regresní model s obecnou kovarianční maticí chyb chylky jako měřítka neurčitosti spojená s bodovými odhady. Střední hodnoty a směrodatné odchylky však nemusí existovat pro každou hustotu pravděpodobnosti. Zde uváděný model je právě takovým modelem, kde střední hodnoty a směrodatné odchylky nemusí nutně existovat. Přesněji, Geweke [15] ukázal, že pokud použijeme neinformativní apriorní hustotu pro β (tj. p(β) ∝ 1 na intervalu (−∞, ∞)), potom posteriorní střední hodnota nebude existovat, pokud p(νλ) není nulová na intervalu (0, 2 . Posteriorní směrodatná odchylka nebude existovat v případě, pokud p(νλ) nebude nulová na intervalu (0, 4 . Pokud tedy chceme využít neinformativní prior pro β, měli bychom užít apriorní hustotu, která bude vylučovat malé hodnoty νλ, jinak bude nutné prezentovat posteriorní mediány a mezikvartilová rozpětí (které budou existovat pro jakoukoliv p.d.f). Pokud využijeme normální informativní apriorní hustotu pro β jako (6.9), posteriorní střední hodnoty i směrodatné odchylky budou existovat. Rovněž se nemusí vyplatit použít neinformativní apriorní hustotu pro νλ. Naivní výzkumník, který by chtěl být dostatečně neinformativní, by mohl použít nepravou uniformní apriorní hustotu p(νλ) ∝ 1 νλ(0, ∞) s úmyslem dát stejnou apriorní váhu každému intervalu o stejné délce. Ovšem Studentovo t-rozdělení s νλ stupni volnosti se blíží normálnímu rozdělení pro νλ → ∞. Prakticky je Studentovo t-rozdělení identické normálnímu pro νλ > 100. Předchozí naivní ”neinformativní”apriorní hustota všechnu váhu právě do tohoto intervalu, tzn. p(νλ≤0) p(νλ>100) = 0. Tento neinformativní prior je tedy více než informativní, říkaje, že chybové složky jsou normálně rozděleny! Toto je ilustrace jednoho z mnoha problému, které může přinést použití neinformativních apriorních hustot. 6.4.1 Bayesovský výpočet V této části si odvodíme Gibbsův vzorkovač pro posteriorní analýzu β, h, λ a νλ. Gibbsův vzorkovač vyžaduje odvození plně podmíněných posteriorních rozdělelní těchto parametrů. Některé z těchto hustot již byly odvozeny, konkrétně p(β|y, h, λ) a p(h|y, β, λ) jsou dány v (6.12) a (6.15).13 V této části se tedy zaměříme na p(λ|y, β, h, νλ) a p(νλ|y, β, h, λ). Odvození podmíněné hustoty pro λ je zřejmé, stačí dosadit apriorní hustotu danou (6.22) do obecného tvaru podmíněné posteriorní hustoty daného vztahem (6.18). Prozkoumáním výsledné hustoty zjistíme, že veličiny λi jsou navzájem nezávislé (podmíněné ostatními parametry modelu) a každá z podmíněných posteriorních hustot pro λi má tvar gama rozdělení. Formálně tak máme p(λ|y, β, h, νλ) = N i=1 p(λi|y, β, h, νλ) (6.24) 13Formálně by plně podmíněné hustoty pravděpodobnosti měly být p(β|y, h, λ, νλ) a p(h|y, β, λ, νλ). Nicměně za podmínky λ nám νλ nepřináší žádnou novou informaci a tudíž p(β|y, h, λ, νλ) = p(β|y, h, λ) a p(h|y, β, λ, νλ) = p(h|y, β, λ) 6.4 Heteroskedasticita v neznámé podobě 115 a p(λi|y, β, h, νλ) = fG λi| νλ + 1 h 2 i + νλ , νλ + 1 (6.25) Poznamenejme, že za podmínky, kdy známé β (což předpokládá podmíněná pravděpodobnost), jsme schopni náhodnou složku i spočítat, tudíž parametry gamma rozdělení v předchozím výrazu lze spočítat v rámci Gibbsova vzorkovače. Doposud jsme se nezmínili o apriorní hustotě pro νλ, jejíž přesná podoba není relevantní pro podmíněné posteriorní hustoty ostatních parametrů. Podoba p(νλ) samozřejmě ovlivní p(νλ|y, β, h, λ) a je tak nutné ji specifikovat. Jelikož musí platit, že νλ > 0, využijeme jako apriorní hustotu exponenciální rozdělení. Exponenciální rozdělelní není nic jiného než gama rozdělení s dvěma stupni volnosti. Můžeme tedy psát p(νλ) = fG(νλ|νλ, 2) (6.26) Můžeme pracovat i s jinými apriorními hustotami, kdy dojde jen k drobným úpravám následujícího algoritmu posteriorní simulace. Podmíněnou hustotu p(νλ|y, β, h, λ) je snadné odvodit, jelikož νλ nevstupuje do věrohodnostní funkce, a lze si tak ověřit, že p(νλ|y, β, h, λ) = p(νλ|λ). Z Bayesova teorému vyplývá, že p(νλ|λ) ∝ p(λ|νλ)p(νλ) a jádrovou podmíněnou posteriorní hustotu snadno získáme vynásobením (6.22) a (6.26). Získáme tedy p(νλ|y, β, h, λ) ∝ νλ 2 Nνλ 2 Γ νλ 2 −N exp(−ηνλ) (6.27) kde η = 1 νλ + 1 2 N i=1 [ln(λ−1 i ) + λi] Nejedná se v tomto případě o žádnou standardní hustotu rozdělení. Pro náhodné výběry z tohoto rozdělení je tak nutné využít Metropolis-Hastings algoritmus. Je však třeba zdůraznit, že Geweke [15] doporučuje jiný užitečný algoritmus zvaný acceptance sampling. Tento algoritmus je velmi užitečný v případech, kdy chceme získat náhodné vzorky z nestandardního jednorozměrného rozdělení, které je navíc omezeno resp. ohraničeno. Obecnou diskuzi k této technice nabízí Devroye [8]. Pro řadu hypotéz (např. βj = 0) můžeme využít v rámci porovnání modelů Savage-Dickey density ratio. Ne vždy je to však snadné či možné. V mnoha případech nás může zajímat, zda-li zde existuje náznak odchýlení rozdělení náhodné složky od normality. V tomto případě bychom rádi porovnali M1 : νλ → ∞ a M2 : νλ jako konečné číslo. Tyto modely není vůbec snadné dát do kontextu vnořených modelů, pro které je jako dělaný Savage-Dickeyeho poměr hustot. Bayesův faktor (porovnávající tyto dva modely) lze však vypočíst za použití 116 Lineární regresní model s obecnou kovarianční maticí chyb metody Gelfanda-Deye. To vyžaduje posteriorní simulátor pro každý z těchto modelů, tj. posteriorní simulátor z kapitoly 4 části 4.1 pro model M1 a posteriorní simulátor popisovaný na tomto místě pro model M2. Alternativně lze vypočítat prediktivní p-hodnoty nebo HPDI pro analýzu kvality a vhodnosti modelu. Predikční analýza probíhá standardním způsobem popsaným v kapitole 4. 6.4.2 Empirická ilustrace BUDE DOPLNĚNO!!! 6.5 Autokorelace náhodných složek Řada proměnných (časových řad) je korelována v čase díky faktorům jakými jsou setrvačnost v preferencích či čas potřebný k přizpůsobení se novým podmínkám. Tato korelace mezi hodnotami jedné proměnné v různých časech (proto hovoříme o autokorelaci) se může projevovat skrze chybový člen. Je tedy žádoucí předpokládat podobu kovariační matice, která bude tuto skutečnost reflektovat. V předchozích kapitolách jsme předpokládali, že je N(0N , h−1 IN ). Tento předpoklad jsme v předchozích oddílech uvolnili předpokladem, že kovarianční matice chyb je diagonální. I v tomto případě jsme předpokládali, že chybové členy jsou vzájemně nekorelované, tedy platí E( i, j) = 0 pro i = j. Nyní tento předpoklad opustíme. Indexem t budeme označovat čas, tedy yt pro t = 1 . . . , T bude označovat pozorování závisle proměnné pro období 1 až T (např. roční pozorování hrubého domácího produktu). Jednoduchým způsobem, jak dovolit autokorelaci chyb, je předpoklad, že jsou generovány autoregresním procesem řádu 1 resp. AR(1) procesem: t = ρ t−1 + utm (6.28) kde ut je i.i.d. N(0, h−1 ). Tato specifikace umožňuje aby chybový člen v jednom období závisel na členu v předchozím období. Literatura zabývající se problematikou časových řad uvádí řadu pojmů, nástrojů a technik, které napomáhají formálnějšímu pochopení vlastností různých časových řad. Zde si uvedeme některé z nich, přičemž budeme uvádět obecné označení časové řady jako zt. Bayesovský přístup k časovým řadám analyzuje Bauwens, Lubrano a Richard [1], nebayesovský pak Enders [10]. V této části budeme předpokládat, že zt = t. Standardně se předpokládá, že proces generující časovou řadu probíhá od období −∞ do ∞. My pak pozorujeme tento proces pro období t = 1 . . . , T. O řadě zt řekneme, že je kovariančně stacionární (či slabě stacionární), pokud pro každé t a s platí: E(zt) = E(zt−s) = µ, var(zt) = var(zt−s) = γ0, cov(zt, zt−s) = γs, 6.5 Autokorelace náhodných složek 117 kde µ, γ0 a γs jsou všechno konečné hodnoty. O časové řadě řekneme, že je kovariančně či slabě stacionární, pokud má konstantní střední hodnotu a rozptyl a kovariance mezi jakýmikoli dvěma pozorováními zavisí pouze na počtu období, který je mezi nimi. Většina časových řad tuto vlastnost má a pokud ne, lze je obvykle diferencovat na stacionární řady. První diference zt se označuje jako ∆zt a je definována jako ∆zt = zt − zt−1 Podobně můžeme definovat diferenci m-tého řádu pro m > 1 jako ∆m zt = ∆m−1 zt − ∆m−1 zt−1 Abychom pochopili ekonomický význam diferencování, předpokládejme, že zt je logaritmus cenové hladiny. Potom ∆zt je (aproximativně) procentní změna cen, tedy inflace. Druhá diference ∆2 zt bude procentní změna v míře inflace. Práce z logaritmy veličin a jejich diferencemi je v makroekonomických modelech běžná. Obvyklým nástrojem pro analýzu vlastností stacionárních časových řad je γs, nebo-li tzv. autokovariační funkce. S ní je úzce svázána autokorelační funkce, která počítá korelace mezi pozorováními vzdálenými od sebe s období (tj. je definována jako γs γ0 pro s = 0, . . . , ∞). Jedná se o funkce proměnné s a je obvykle vhodné vykreslit si některou z nich pro analýzu jejich vývoje při zvyšujícím se s. Například pro makroekonomické proměnné je autokorelační funkce klesající v s, neboť události poslední doby mají obvykle větší dopad na současnou makroekonomickou situaci než události starších období. Nyní se vrátíme k našemu AR(1) procesu. Pro analýzu jeho vlastností je obvyklé zapsat t jako funkci ut−s pro s = 0, . . . , ∞. To můžeme udělat pomocí zápisu t−1 = ρ t−2 + ut − 1 a subsitucí tohoto výrazu do (6.28), tím dostáváme t = ρ2 t−2 + ρut−1 + ut Pokud dále provedem substituci pro t−2 dostaneme rovnici zahrnující t−3. Dalšími substitucemi získáme výraz t = ∞ s=0 ρs ut−s (6.29) Při tomto zápisu si můžeme všimnout, že může nastat problém při výpočtu střední hodnoty, rozptylu a kovariance t, neboť ρs bude nekonečno pro |ρ| > 1. Rovněž pro ρ = 1 se bude jednat o nekonečnou sumu konečných členů. Ve skutečnosti je podmínka |ρ| < 1 nutnou podmínkou pro stacionaritu časové řady. Při podmínce |ρ| < 1 lze ověřit, že E( t) = 0, γ0 = var( t) = h−1 ∞ s=0 ρ2s = 1 h(1 − ρ2) , γs = cov( t, t−s) = ρs h(1 − ρ2) . 118 Lineární regresní model s obecnou kovarianční maticí chyb Poznamenejme, že pro |ρ| < 1 autokovarianční funkce γs klesá s rostoucím s. Intuitivně se tak v rámci AR(1) postupně vytrácí vliv minulých hodnot na hodnotu současnou. Tyto poznatky lze využít pro zápis kovarianční matice pro jako h−1 Ω, kde Ω = 1 1 − ρ2       1 ρ ρ2 · ρT −1 ρ 1 ρ · · ρ2 ρ · · ρ2 · · · · ρ ρT −1 · ρ2 ρ 1       (6.30) AR(1) model lze rozšířit i o vliv starších období resp. zpoždění (lags) vyššího řádu. Můžeme tedy definovat autoregresní proces řádu p nebo-li AR(p) proces jako t = ρ1 t−1 + . . . + ρp t−p + ut (6.31) Výše uvedené metody lze pak využít pro výpočet střední hodnoty, rozptylu a autokovarianční funkce. Jak dále uvidíme, pro bayesiánskou analýzu procesu AR(p) nebude nutné znát přesnou podobu autokovariačnní funkce. Nebudeme ji zde tedy odvozovat. Stačí jen poznamenat, že proces AR(p) má podobné vlastnosti jako AR(1), ale je více flexibilnější. Zavedeme si ještě tzv. operátor zpoždění, označovaný jako L. Jeho vlastností je to, že L t = t−1 nebo obecněji Lm t = t−m. AR(p) proces je možno zapsat jako (1 − ρ1L − . . . − ρpLp ) t = ut nebo ρ(L) t = ut kde ρ(L) = (1 − ρ1L − . . . − ρpLp ) je polynom řádu p pro operátor zpoždění. Lze ověřit, že proces AR(p) je stacionární, pokud kořeny rovnice ρ(z) = 0 jsou všechny v absolutní hodnotě větší než jedna. Pro další potřeby definujme ρ = (ρ1, . . . , ρp) a nechť Φ označuje stacionární oblast tohoto modelu. 6.5.1 Bayesovský výpočet Posteriorní simulátor, který nám umožní bayesovskou analýzu NLRM s chybami generovanými AR(p) procesem, dokážeme odvodit ze vztahů platných pro obecnou nespecifikovanou matici Ω, které jsou dány v (6.12), (6.15) a v (6.18). Pokud provedeme jednu specifickou aproximaci, budou mít tyto podmíněné posteriorní hustoty jednoduchou formu. Tato aproximace v sobě zahrnuje úpravu resp. ošetření počátečních podmínek. Než se však dostaneme k tomu, co se za touto aproximací a úpravou skrývá, je dobré se zamyslet nad tím, jak by bylo možné transformovat model podobně jako v případě (6.1). To můžeme provést tak, že specifikujeme přesný tvar Ω za předpokladu přítomnosti chyb v podobě AR(p) procesu, a odvodíme matici P takovou, pro kterou platí PΩP = I. Pro alternativní postup si zapíšeme regresní model jako yt = xtβ + t (6.32) 6.5 Autokorelace náhodných složek 119 kde xt = (1, xt2, . . . , xtk) . Přenásobení obou stran rovnice výrazem ρ(L) a zavedením y∗ t = ρ(L)yt a x∗ t = ρ(L)xt získáváme y∗ t = x∗ t β + ut. (6.33) Předpokládali jsme, že ut je i.i.d. N(0, h−1 ) a tedy transformovaný model je normální lineární regresní model s i.i.d. chybami. Poznamenejme ovšem, co se stane s těmito transformovanými hodnotami pro t ≤ p. Například y∗ 1 závisí na y0, . . . , y1−p. Jelikož naše data máme naměřená pro t = 1 . . . , T, tyto tzv. počáteční podmínky y0, . . . , y1−p nejsou pozorovány. Ošetření počátečních podmínek je choulostivá otázka, zejména v případě, kdy AR proces není stacionární (či se nestacionárnímu procesu blíží). Bližší podrobnosti nabízí Bauwens, Lubrano a Richard [1]. V našem případě budeme předpokládat stacionaritu chyb, tudíž ošetření počátečních podmínek nebude mít takovou důležitost. Obvyklým způsobem řešení tohoto problému je práce s věrohodnostní funkcí založenou spíše na datech od t = p + 1, . . . , T než t = 1, . . . , T. Pokud je p relativně malé vzhledem k T, bude výsledná aproximativní věrohodnostní funkce velmi blízká skutečné věrohodnostní funkci. Protože y∗ t a x∗ t pro t = p + 1, . . . , T nezávisí na nepozorovaných zpožděných hodnotách, lze transformaci danou v (6.33) velmi snadno provést. Pro jednoduchost značení nebudeme zavádět speciální označení pro věrohodnostní funkci, posteriorní hustotu apod. vycházející z dat od t = p+1, . . . , T. Pro zbytek tohoto oddílu budeme interpretovat y, y∗ , a ∗ jako vektory rozměru T − p, tedy odstranili jsme prvních p pozorování. Matice X a X∗ budou rozměrů (T− p)×k. Za těchto předpokladů lze odvodit Gibbsův vzorkovač s využitím výsledků předchozích oddílů. Intuitivně, p(β|y, h, ρ) a p(h|y, β, ρ) jsou dány v (6.12) a (6.15). Podmíněnou hustotu p(ρ|y, β, h) lze odvodit, pokud si uvědomíme, že za podmínky β a h je t pro t = p + 1, . . . , T známé a (6.31) je normální lineární regresní model (se známým rozptylem chyb) a s koeficienty danými vektorem ρ. Pomocí výsledků bayesiánské analýzy z předchozích kapitol jsme tak schopni odvodit p(ρ|y, β, h). Využijeme-li tedy nezávislou normální-gama apriorní hustotu pro β a h danou v (6.9) a (6.10), lze výsledky z úvodního oddílu 6.2 modifikovat pro naše potřeby následujícím způsobem: β|y, h, ρ ∼ N(β, V ) (6.34) kde V = (V −1 + hX∗ X∗ )−1 (6.35) a β = V (V −1 β + hX∗ y∗ ) (6.36) Posteriorní hustota pro h podmíněná ostatními parametry modelu odpovídá gama rozdělení: h|y, βρ ∼ G(s−2 , ν) (6.37) kde ν = T − p + ν (6.38) 120 Lineární regresní model s obecnou kovarianční maticí chyb a s2 = (y∗ − X∗ β) (y∗ − X∗ β) + νs2 ν (6.39) Posteriorní hustota pro ρ závisí na své apriorní hustotě, která může reflektovat jakýmkoli způsobem naši nedatovou informaci. Zde budeme předpokládat, že se jedná o vícerozměrné normální rozdělelní omezené na stacionární oblast. Tedy, p(ρ) ∝ fN (ρ|ρ, V ρ)1(ρ ∈ Φ) (6.40) kde 1(ρ ∈ Φ) je indikační funkce, která je rovna jedné pro stacionární oblast a nula jinak. S touto apriorní hustotou je snadné odvodit podmíněnou posteriorní hustotu p(ρ|y, β, h) ∝ fN (ρ|ρ, V ρ)1(ρ ∈ Φ) (6.41) kde V ρ = (V −1 ρ + hE E)−1 , (6.42) ρ = V ρ(V −1 ρ ρ + hE ) (6.43) a E je matice rozměru (T − p) × p s t-tým řádkem daným jako t−1, . . . , t−p. Gibbsův vzorkovač v sobě zahrnuje sekvenční výběry z (6.34), (6.37) a (6.41). Skutečnost, že podmíněná posteriorní hustota pro ρ je omezené vícerozměrné normální rozdělení, přináší drobnou komplikaci. Ovšem výběry z omezeného rozdělení lze provést pomocí výběrů z neomezeného rozdělení a jednoduchým vypuštěním vzorků, které spadají mimo stacionární oblast. Pokud ρ leží uvnitř této oblasti (nebo alespoň nepříliš daleko od ní), bude tento postup více než úspěšný. Alternativně lze odvodit Metropolis-Hastings algoritmus. Pro naše potřeby jsme schopni provést i predikční analýzu standardním způsobem. Pro ověření kvality modelu můžeme spočítat predikční p-hodnoty nebo HPDI. Bayesův faktor pro ověření jakýchkoli hypotéz, které nás zajímají, můžeme vypočítat použitím Savage-Dickeyeho poměru hustot nebo za pomocí metody Gelfanda-Deye. Je však třeba připomenout, že Savage-Dickey density ratio vyžaduje znalost celých funkcí hustoty pravděpodobnosti (ne jen jádrových hustot) p(ρ|y, β, h) a p(ρ|y). Pro p = 1 lze integrační konstantu snadno vypočítat, neboť p(ρ|y, β, h) odpovídá jednorozměrnému omezenému normálnímu rozdělení a vlastnosti tohoto rozdělení jsou dobře známy (viz Poirier [26], strana 115). Pro p > 1 je však stacionární oblast nelineární a analytické vyjádření p(ρ|y, β, h) je velmi obtížné. Ovšem snadno lze k aproximativnímu výpočtu integrační konstanty využít posteriorní simulaci. Hustota odpovídající (6.41) je p(ρ|y, β, h) = fN (ρ|ρ, V ρ)1(ρ ∈ Φ) Φ fN (ρ|ρ, V ρ)dρ Běžný posteriorní simulátor umožňuje získávat vzorky z fN (ρ|ρ, V ρ) a vyhodit ty výběry, které jsou mimo stacionární oblast. Ovšem Φ fN (ρ|ρ, V ρ)dρ není nic jiného než podíl vzorků (z celkového počtu), který nám zůstane. V rámci Gibbsova vzorkovače tak v každém běhu můžeme evidovat počet pokusů potřebných 6.6 Modely zdánlivě nesouvisejících regresí 121 k získání akceptovatelného výběru. Aproximací výrazu 1 − Φ fN (ρ|ρ, V ρ)dρ je tedy podíl celkového množství zamítnutých vzorků na celkovém počtu vzorků. Obecně lze integrační konstantu jakékoliv omezené hustoty nalézt za pomocí výběrů z neomezené verze této hustoty a spočítáním podílu vzorků nacházejících se v oblasti dané příslušným omezením. V závislosti na zvolené apriorní hustotě je použití této strategie nutné i pro výpočet integrační konstanty apriorní hustoty. 6.5.2 Empirická ilustrace BUDE DOPLNĚNO! 6.6 Modely zdánlivě nesouvisejících regresí Posledním modelem v této kapitole je tzv. „Seemingly Unrelated Regressions (SUR) model. Tedy model zdánlivě nesouvisejících regresí. Jedná se vícerovnicový model zajímavý sám o sobě. V ekonomii jsou vícerovnicové modely běžné v řadě kontextů. Například při analýze spotřeby nás může zajímat odhad rovnic pro každou z kategorií spotřeby (tj. potraviny, výrobky dlouhodobé spotřeby apod.). V mikroekonomických aplikacích se můžeme pokoušet o odhad rovnic poptávky po výrobních faktorech, a to pro každý výrobní faktor v produkční funkci.14 V mnoha případech se nedopustíme příliš velké chyby, budeme-li pracovat s jednotlivými rovnicemi samostatně, čímž můžeme využít techniky odvozené v předchozích kapitolách. Ovšem práce se všemi modely najednou může vylepšit výsledky odhadů. SUR model můžeme zapsat jako ymi = xmi βm + mi (6.44) kde i = 1, . . . , N označuje N pozorování pro m = 1, . . . , M rovnic, ymi tedy označuje i-té pozorování závisle proměnné v rovnici m, xmi je km-rozměrný vektor obsahující i-té pozorování vektoru vysvětlujících proměnných v m-té rovnici a nakonec βm je km-rozměrný vektor regresních koeficientů pro m-tou rovnici.15 Je třeba zdůraznit, že takovéto označení umožňuje, aby se počet vysvětlujících proměnných v rámci jednotlivých rovnic lišil, nicméně některé či všechny vysvětlující proměnné mohou být v některých rovnicích totožné. Tento SUR model můžeme přepsat do obvyklejšího maticového vyjádření. 14V rámci klasické ekonometrie je druhem SUR modelu redukovaný tvar modelu simultánních rovnic. Podobně i v analýze časových řad patří tzv. vektorový autoregresní model (VAR model) do skupiny SUR modelů. 15Je třeba upozornit, že se trochu změnilo značení. V tomto oddíle je xmi vektor, kdy první index označuje číslo rovnice. V předchozích kapitolách označovalo xij i-té pozorování pro j-tou vysvětlující proměnnou. 122 Lineární regresní model s obecnou kovarianční maticí chyb Stačí zapsat všechny rovnice podle pozorování do vektorů a matic jako yi =     y1i · · yMi     β =     β1 · · βM     Xi =       x1i 0 · · 0 0 x2i 0 · · · · · · · · · · · 0 0 · · 0 xMi       a definovat k = M m=1 km. Díky tomuto značení lze ověřit, že (6.44) lze přepsat do podoby yi = Xiβ + i. (6.45) Nyní stačí dát všechna pozorování dohromady y =     y1 · · yN     =     1 · · N     X =     X1 · · XN     a psát y = Xβ + SUR model tak lze zapsat jako nám dobře známý lineární regresní model. Pokud bychom předpokládali, že mi je i.i.d. N(0, h−1 ) pro všechna i a m, měli bychom skutečně normální lineární regresní model, analyzovaný v předchozích kapitolách. V mnoha případech je však obvyklé předpokládat, že náhodné složky jsou korelovány v rámci pozorování, tedy předpokládáme, že i je i.i.d. N(0, H−1 ) pro i = 1, . . . , N, kde H je matice přesností chyb rozměru M × M. S tímto předpokladem lze ukázat, že je z N(0, Ω), kde Ω je blokově-diagonální matice rozměru NM × NM: Ω =       H−1 0 · · 0 0 H−1 · · · · · · · · · · · · 0 0 · · 0 H−1       . (6.46) SUR model tak náleží do třídy modelů analyzovaných v této kapitole. Jediným rozdílem je to, že zde nevystupuje h. To nepřináší žádné podstatné rozdíly, neboť h byl skalár, který byl vytknut v předchozích oddílech jen kvůli zvyklosti. Pro tento typ modelů toto vytknutí obvyklé není (nicméně pokud bychom chtěli, mohli bychom to udělat). 6.6.1 Apriorní hustota V této části si rozšíříme nezávislé normální-gama rozdělení do podoby nezávislého normálního-Wishartova rozdělení: p(β, H) = p(β)p(H) 6.6 Modely zdánlivě nesouvisejících regresí 123 kde p(β) = fN (β|β, V ) (6.47) a p(H) = fW (H|ν, H) (6.48) Wishartovo rozdělení je maticovým zobecněním gama rozdělení. Pro analýzu apriorní hustoty je důležité poznamenat, že E(H) = νH a neinformativnosti lze docílit volbou ν = 0 a H−1 = 0M×M . Pro tento model existuje i řada jiných apriorních hustot. Zjeména je to přirozeně konjugovaná apriorní normální-Wishartova hustota. Pro tuto aprioní hustotu je možno získat analytické výsledky a není zde nutné využití posteriorního simulátoru. Ovšem tento druh hustoty byl shledán jako příliš restriktivní. Jeho implikací je například to, že apriorní kovariance mezi koeficienty v každé dvojici rovnic (tj. βm a βj pro j = m) jsou všechny proporcionální téže matici. Z tohot odůvodu se v empirických pracích objevuje pouze neinformativní varianta přirozeně konjugované apriorní hustoty. Rovněž byla učiněna řada pokusů pro odvození méně restriktivních přirozeně konjugovaných hustot. 6.6.2 Bayesovský výpočet Bayesovský výpočet pro tento model lze provést Gibbsovým vzorkovačem při využití vztahů pro podmíněnou posteriorní hustotu (6.12) a (6.18) založených na apriorních hustotách (6.47) a (6.48). Obě z těchto podmíněných posteriorních hustot zahrnují inverzi NM × NM-rozměrné matice Ω, což je výpočetně náročné. Ovšem bloková struktura matice Ω umožňuje provést tuto inverzi částečně analyticky. Pokud to učiníme, p(β|y, H) a p(H|y, β) budou mít obvyklou podobu, tedy: β|y, H ∼ N(β, V ) (6.49) kde V = V −1 + N i=1 Xi HXi −1 (6.50) a β = V V −1 β + N i=1 Xi Hyi (6.51) Podmíněná posteriorní hustota pro H odpovídá Wishartovu rozdělení: H|y, β ∼ W(ν, H) (6.52) kde ν = N + ν (6.53) a H = H−1 + N i=1 (yi − Xiβ)(yi − Xiβ) −1 (6.54) 124 Lineární regresní model s obecnou kovarianční maticí chyb Protože generátory náhodných čísel z Wishartova rozdělení jsou k dispozici (např. varianta pro Matlab je součástí LeSageho Ekonometrického toolboxu), lze snadno implementovat Gibbsův vzorkovač, který bude generovat vzorky z p(β|y, H) a p(H|y, β). Predikční analýza bude probíhat standardním způsobem. Rovněž tak lze ověřit kvalitu modelu pomocí posteriorní predikční p-hodnoty a intervalů nejvyšší posteriorní hustoty. Pro výpočet posteriorního podílu šancí můžeme využít Savage-Dickey density ratio. 6.6.3 Empirická ilustrace BUDE DOPLNĚNO! 6.7 Shrnutí BUDE DOPLNĚNO! Kapitola 7 Lineární regresní model s panelovými daty 7.1 Úvod V předchozích kapitolách jsme předpokládali případy, kdy jedna datová položka byla dostupná pro každou pozorovatelnou jednotku. Například, yi byl skalár, který obsahoval jediné pozorování závisle proměnné. V ekonomii (a nejen v ní) však existuje řada případů, kdy pro jednu proměnnou máme několik pozorování. Mikroekonomickým příkladem by tak mohl být případ produkce firem, kdy můžeme mít údaje o vstupech a výstupech za několik let, a to pro více firem. V literatuře zabývající se problémem ekonomického růstu se často pracuje s modely, které mají časovou i prostorovou dimenzi (časovou řadu údaje pro velkou množinu zemí). V rámci finančního modelování lze například pracovat s cenami akcií více firem obchodovaných v několika dnech čiměsících. V oblasti marketingu můžeme disponovat daty o nákupech jednotlivých zákazníků realizovaných při jejich návštěvách v jednom obchodě. Všechny tyto příklady jsou charakteristické dostupností T pozorování pro každého z N jednotlivců či firem (nebo jiných jednotek). V ekonometrii je tento typ dat nazýván panelovými daty, ačkoli ve statistické literatuře nesou název longitudinální data. V této kapitole budou diskutovány modely a metody bayesovské analýzy právě pro tento typ dat. Tato kapitola nepřináší žádné nové výpočetní techniky, naopak jsou zde kombinovány aspekty různých modelů a metod posteriorní simulace z předchozích kapitol. Více se zde zaměříme na koncept hierarchických apriorních hustot. Tato kapitola je strukturována dle předpokladů kladených na regresní koeficienty. Začneme předpokladem, že regresní koeficienty jsou stejné pro všechny jednotlivce (souhrnný model – pooled model). Potom tento předpoklad uvolníme a dovolíme, aby se úrovňová konstanta mohla mezi jednotlivci lišit (modely individuálních vlivů – individual effects models). Uvolnění všech koeficientů pak je představováno modelem náhodných koeficientů (random coefficients model). Podrobněji je analyzován speciální případ modelu individuálních 126 Lineární regresní model s panelovými daty vlivů, tzv. stochastic frontier model. Zavedeme si rovněž novou metodu výpočtu marginální věrohodnosti, nazývanou dle svého autora Chibova metoda [5]. Tato metoda je aplikovatelná pokud je posteriorní simulace prováděna Gibbsovým vzorkovačem a je užitečná v případech vysoké dimenzionality parametrického prostoru. Na úvod si ujasníme značení v této kapitole. Nechť yit a it označuje tté pozorování (pro t = 1, . . . , T) závisle proměnné a náhodné složky pro i-tého jednotlivce, kde i = 1, . . . , N. Vektory yi a i tedy budou obsahovat T pozorování závisle proměnné a chyb pro i-tého jednotlivce. V některých regresních modelech budem rozlišovat mezi úrovňovou konstantou a ostatními koeficienty. Budeme tedy definovat Xi jakožto matici rozměru T ×k obsahující T pozorování každé z k vysvětlujících proměnných (včetně úrovňové konstanty) pro i-tého jednotlivce. Matice ˜Xi bude matice rozměru T × (k − 1) odpovídající matici Xi bez sloupce odpovídajícímu úrovňové konstantě. Tedy, Xi = [ιT ˜Xi]. Pokud dáme pozorování pro N jednotlivců dohromady, získáváme TN-rozměrné vektory: y =     y1 · · yN     =     1 · · N     Podobně i agregace všech pozorování vysvětlujících proměnných vede k matici rozměru TN × K: X =     X1 · · XN     7.2 Souhrnný model (pooled model) V rámci tohoto modelu předpokládáme že stejný regresní vztah platí pro všechny jednotlivce, tedy yi = Xiβ + i (7.1) pro i = 1, . . . , N, kde β je k-rozměrný vektor regresních koeficientů včetně úrovňové konstanty. Tvar věrohodnostní funkce závisí na předpokladech kladených na náhodnou složku. V této kapitole budeme předpokládat pro i, j = 1, . . . , N: 1. i má vícerozměrné normální rozdělení se střední hodnotou 0T a kovarianční maticí h−1 IT . 2. i a j jsou nezávislé pro i = j. 3. Všechny prvky Xi jsou pevná čísla (tj. nenáhodné veličiny) nebo v případě, že jsou náhodnými veličinami, jsou nezávisle na všech prvcích j a mají hustotu pravděpodobnosti p(Xi|λ) kde λ je vektor parametrů, který neobsahuje β ani h. 7.3 Modely individuálních vlivů (individual effects models) 127 Tyto předpoklady jsou podobné předpokladům definovaným v předchozích kapitolách. Poznamenejme jen, že předpokládáme, že it a is jsou vzájemně nezávislé pro t = s. Předpoklad nezávislosti chyb pozorování pro jednoho jednotlivce v čase nemusí být vždy rozumný. Můžeme tedy obecněji předpokládat, že i má kovarianční matici Ω. Tento případ lze pak řešit podobným způsobem jako SUR model v předchozí kapitole. Předpoklad nezávislosti chyb v čase i mezi jednotlivci navzájem redukuje tento model na lineární regresní model diskutovaný v kapitolách 2, 3 a 4. Data za všechny jednotlivce jsou tak shrnuty do jedné velké regrese. Předchozí předpoklady tedy implikují věrohodnostní funkci v podobě: p(y|β, h) = N i=1 h T 2 (2π) T 2 exp − h 2 (yi − Xiβ) (yi − Xiβ) Což lze přepsat do podoby p(y|β, h) = h NT 2 (2π) NT 2 exp − h 2 (y − Xβ) (y − Xβ) což je věrohodnostní funkce z kapitol 3 a 4 pro TN pozorování. V rámci empirické ilustrace je využita nezávislá apriorní normální-gama hustota, kde β ∼ N(β, V ) a h ∼ G(s−2 , ν). Lze tedy využít metody Gibbsova vzorkovače z kapitoly 4. 7.3 Modely individuálních vlivů (individual effects models) Souhrnný model nemusí být vždy vhodný a předpoklad stejných koeficientů pro všechny jednotlivce nemusí být rozumný. Předpokládejme například příklad z oblasti marketingu kde yit je prodej nápoje značky i v čase t. Prodeje mohou záviset na vysvětlujících proměnných, které je snadné pozorovat, jako např na ceně. Existují však i nezachytitelné kvantit jako je věrnost značce. Tomu odpovídající model tak může mít podobu: yit = αi + βxit + it V našem příkladu by xit byla cena i-tého nápoje v čase t. Skutečnost, že úrovňová konstanta se mezi jednotlivými značkami liší (α má index i), může znamenat, že v ní je obsažen právě onen zmiňovaný efekt věrnosti značce. Je tím umožněno, že dvě značky nápojů se stejnou cenou mohou mít rozdílnöu očekávanou prodejnost. Tento typ modelů modelů označujeme jako modely individuálních vlivů, kdy αi je označováno jako individuální vliv (individual effect). Podobná terminologie je i v klasické ekonometrii, kde dva typy modelů individuálních vlivů jsou označovány jako random effect models a fixed effects models. 128 Lineární regresní model s panelovými daty 7.3.1 Věrohodnostní funkce Věrohodnostní funkce tohoto modelu je založena na regresní rovnici: yi = αiιT + ˜Xi ˜β + i (7.2) kde je zřejmé, že αi označuje úrovňovou konstantu regresní rovnice i-tého jednotlivce a ˜β je vektorem zbylých koeficientů, o kterých předpokládáme, že jsou stejné pro všechny jednotlivce. Rovnice (7.2) spolu s předpoklady na náhodnou složku formulovanými za rovnicí (7.1) implikuje věrohodnostní funkci v podobě: p(y|α, ˜β, h) = N i=1 h T 2 (2π) T 2 exp − h 2 (yi − αiιT − ˜Xi ˜β) (yi − αiιT − ˜Xi ˜β) (7.3) přičemž α = (α1, . . . , αN ) . 7.3.2 Apriorní hustota V rámci bayesovské analýzy lze použít jakýkoliv druh apriorní hustoty, včetně neinformativních. Zde budeme předpokládat dva typy apriorních hustot. Nehierarchická apriorní hustota Regresní model v (7.2) lze zapsat jako: y = X∗ β∗ + (7.4) kde X∗ je matice rozměru TN × (N + k − 1) dána jako X∗ =       ιT 0T · · 0T ˜X1 0T ιT · · · ˜X2 · 0T · · · · · · · · 0T · 0T · · · ιT ˜XN       a β∗ =       α1 · · αN ˜β       Tento způsob zápisu jasně ukazuje, že individual effects model lze psát jako regresní model, který byl řešen v kapitole 3 a 4 a jakákoukoli apriorní hustotu zavedenou v těchto kapitolách lze použít i pro (β∗ , h). Pro srovnání s klasickou ekonometriíí, tento nehierarchický prior vede k modelu analogickému fixed effects modelu. Matice X∗ totiž obsahuje vysvětlující proměnné připojené k matici obsahující umělou (dummy) proměnnou pro každého jednotlivce. 7.3 Modely individuálních vlivů (individual effects models) 129 V této kapitole využijeme nezávislou normální-gama apriorní hustotu, tedy β∗ ∼ N(β∗ , V ) (7.5) a h ∼ G(s−2 , ν) (7.6) Hierarchická apriorní hustota V moderní statistice roste zájem o modely, kde vektor parametrů má velkou dimenzi. Jak bylo řečeno v kapitole 6, oddílu 6.4, hierarchické apriorní hustoty lze využít k řešení problémů způsobených vysokou dimenzi parametrického prostoru. Model individuálních vlivů je modelem s parametrickým prostorem obsahujícím N +k parametrů (tj. N úrovňových konstant v α, k −1 koeficientů v ˜β a přesnost chyb h). Pokud je T relativně malé vzhledem k N, je počet parametrů relativně vysoký vzhledem k velikosti celkového vzorku.16 To nasvědčuje tomu, že hierarchická apriorní hustota je zcela přiměřená řešenému problému. Obvykle se předpokládá, že pro i = 1, . . . , N je αi ∼ N(µα, Vα) (7.7) kde αi a αj jsou vzájemně nezávislé pro i = j. Hierarchická struktura apriorní hustoty nastává v případě, kdy předpokládáme, že µα a Vα jsou neznámé parametry, které vyžadují svou vlastní apriorní hustotu. Předpokládáme, že µα a Vα jsou navzájem nezávislé a platí µα ∼ N(µα , σ2 α) (7.8) a V −1 α ∼ G(V −1 α , να) (7.9) Jak hierarchická, tak i nehierarchická apriorní hustota dovoluje různé úrovňové konstanty pro každého z jednotlivců. Hierarchická struktura díky dodatečnému předpokladu o rozdělení parametrů úrovňové konstanty (je-li v souladu s daty) umožňuje přesnější odhad. Pro zbylé parametry předpokládáme nehierarchickou apriorní hustotu nezávislého normálního-gama rozdělení: ˜β ∼ N(β, V β) (7.10) a h ∼ G(s−2 , ν) (7.11) Opět pro srovnání s klasickou ekonometrií, model s takto definovanou hierarchickou apriorní hustotou vede k tzv. random effects modelu. 16Modely panelových dat jsou obvykle používány pro data získaná v rámci výběrových šetření. To většinou obsahuje dotazování velkého počtu osob (např. N = 10000) co rok či dva (tedy T = 5). Otázky se týkají jejich výdajů a spotřebních zvyklostí. V těchto případech je N nesrovnatelně velké vzhledem k T. 130 Lineární regresní model s panelovými daty 7.3.3 Bayesovský výpočet Posteriorní analýza při nehierarchické apriorní hustotě Za předpokladu nehierarchické apriorní hustoty dané v (7.5) a (7.6) máme lineární regresní model s nezávislou normální-gama apriorní hustotou. Posteriorní analýza je tak analogické té z kapitoly 4. Můžeme tedy využít Gibbsův vzorkovač na základě znalosti podmíněných hustot: β∗ |y, h ∼ N(β∗, V ) (7.12) a h|y, β∗ ∼ G(s−2 , ν), (7.13) kde V = (V −1 + hX∗ X∗ )−1 , β∗ = V (V −1 β∗ + hX∗ y), ν = TN + ν, s2 = N i=1(yi − αiιT − ˜Xi ˜β) (yi − αiιT − ˜Xi ˜β) + νs2 ν . Analýza konvergence, predikční analýza a porovnání modelů lze provést metodami předchozích kapitol. Je třeba poznamenat, že může nastat numerický problém, pokud je N příliš velké, neboť V je matice rozměru (N +k −1)×(N + k − 1) a je ji třeba invertovat. Počítačový algoritmus pro maticovou inverzi tak může být nespolehlivý. V takových případech je vhodné využít teorém o inverzi dělené matici, který snižuje dimenzi invertovaných matic (viz příloha A). Posteriorní analýza při hierarchické apriorní hustotě Odvození posteriorní hustoty pro hierarchickou apriorní hustotu danou v (7.7) až (7.11) není nijak obtížné. Toto odvození v sobě zahrnuje násobení věrohodnostní funkce a apriorních hustot a analýzu výsledného výrazu pro ˜β, h, α, µα a Vα, abychom tak nalezli jádrové hustoty pro každou z podmíněných posteriorních hustot. Pak již není nic jednoduššího než využít Gibbsův vzorkovač. Relevantní posteriorní rozdělení pro ˜β a h podmíněné veličinou α jsou odvozeny analogickým způsobem jako v případě lineárního regresního modelu s nezávislou normální-gama apriorní hustotou, tedy17 ˜β|y, h, α, µα, Vα ∼ N(β, V β) (7.14) a h|y, ˜β, α, µα, Vα ∼ G(s−2 , ν), (7.15) 17Poznamenejme, že rovnice pro p(˜β|y, h, α, µα, Vα) a p(h|y, ˜β, α, µα, Vα) nezávisí na µα a Vα, a jsou tak ekvivalentní p(˜β|y, h, α) a p(h|y, ˜β, α). Úplné značení používáme jen z toho důvodu, abychom zdůraznili, že Gibbsův vzorkovač v sobě zahrnuje výběry z plně podmíněných posteriorních rozdělení. 7.3 Modely individuálních vlivů (individual effects models) 131 kde V β = V −1 β + h N i=1 ˜Xi ˜Xi −1 , β = V β V −1 β β + h N i=1 ˜Xi[yi − αiιT ] , ν = TN + ν, s2 = N i=1(yi − αiιT − ˜Xi ˜β) (yi − αiιT − ˜Xi ˜β) + νs2 ν . Podmíněná posteriorní hustota pro každé αi je nezávislá na αj pro i = j je dána jako αi|y, ˜β, h, µα, Vα ∼ N(αi, V i), (7.16) kde V i = Vαh−1 TVα + h−1 , αi = Vα(yi − ˜Xi ˜β) ιT + h−1 µα TVα + h−1 . Nakonec pak podmíněné posteriorní hustoty pro hierarchické parametry µα a Vα jsou µα|y, ˜β, h, α, Vα ∼ N(µα, σ2 α) (7.17) a V −1 α |y, ˜β, h, α, µα, Vα ∼ G(V −1 α , να), (7.18) kde σ2 α = Vασ2 α Vα + Nσ2 α µα = Vαµα + σ2 α N i=1 αi Vα + Nσ2 α , να = να + N, V α = N i=1(αi − µα)2 + V ανα να . Je dobré si všimnout, že Gibbsův vzorkovač vyžaduje v našem případě výběry jen z normálního a gama rozdělení. Ačkoliv tedy vzorce vypadají dosti složitě, není obtížné napsat počítačový skript či program, který bude provádět posteriorní simulaci tohoto modelu. Predikční analýza a kovergenční testy lze opět provést standardním způsobem. 132 Lineární regresní model s panelovými daty 7.4 Model náhodných koeficientů Souhrnný (pooled) model předpokládal, že všem sledovaným jednotkám příslušela tatáž regresní přímka respektive rovina. Model individuálního vlivu pak umožnil to, že sklon této roviny zůstává pro všechny jednotlivce stejný, ale úrovňové členy se mohou lišit. Zde prezentovaný model uvolňuje předpoklad o společném sklonu regresní roviny. Je tedy možno psát yi = Xiβi + i, (7.19) kde βi je k-rozměrný vektor regresních koeficientů (včetně úrovňového členu). Tato rovnice platí pro i = 1, . . . , N, tedy celý model zahrnuje Nk + 1 parametrů (tj. k regresních koeficientů pro každého z N jednotlivců a přesnost chyby h). Pokud T není relativně vysoké vzhledem k N, je velmi obtížné odhadnou všechny parametry modelu s nějakým stupněm přesnosti. Proto je obvyklé využití hierarchických apriorních hustot pro regresní koeficienty. Takovýto model je nazáván modelem náhodných koeficientů (random coefficients model). Jako motivaci jeho využití se můžeme vrátit k příkladu z marketingu pracujícímu s prodeji různých značek nápojů (vysvětlovaná proměnná) v závislosti na faktorech obsažených v Xi, kterými byla úrovňová konstanta a cena dané značky. Pokud se βi liší mezi značkami, model umožňuje, aby dvě značky s identickou cenou měly rozdílné očekávané prodeje (díky rozdílným úrovňovým konstantám), a navíc umožňuje i odlišný marginální efekt změny ceny mezi značkami (díky rozdílným koeficientům u ceny). Pokud zde existuje věrnost značce, pak zde tyto odlišnosti mezi jednotlivými značkami mohou nastat. Využití hierarchických apriorních hustot dává těmto odlišnostem jakousi podobu či strukturu, neboť je modeluje jakožto parametry pocházející ze společných rozdělení. Model náhodných koeficientů dovoluje každé jednotlivé značce, aby se nějakým způsobem odlišovala, nicméně hierarchická apriorní hustota říká, že tato odlišnost nebude přílišná, že se tedy bude jednat o jakousi homogenní skupinu. Takovýto model je užitečný i v řadě jiných praktických aplikacích. 7.4.1 Věrohodnostní funkce Předpoklady kladené na chybový člen (diskutované v úvodu kapitoly) a tvar regresního modelu napovídá, jakou podobu bude mít věrohodnostní funkce: p(y|β, h) = N i=1 h T 2 (2π) T 2 exp − h 2 (yi − Xiβi) (yi − Xiβi) , (7.20) kde β = (β1 , . . . , βN ) označuje všechny regresní koeficienty pro všechny jed- notlivce. 7.4 Model náhodných koeficientů 133 7.4.2 Hierarchická apriorní hustota Obvyklou hierarchickou apriorní hustotou je ta, která předpokládá, že βi pro i = 1, . . . , N jsou nezávislé výběry z normálního rozdělení. Předpokládáme tedy βi ∼ N(µβ, Vβ). (7.21) Druhá fáze hierarchické apriorní hustoty je dána jako µβ ∼ N(µβ , Σβ) (7.22) a V −1 β ∼ W(νβ, V −1 β ). (7.23) Připomeňme si, že Wishartovo rozdělení (zmiňované v kapitole 6 při analýze SUR modelů) je maticovým zobecněním gama rozdělení. Rozdělení v (7.23) je parametrizováno tak, že E(V −1 β ) = νβV −1 β . Neinformativní variantu lze získat nastavením νβ = 0. Pro přesnost chyby využíváme apriorní hustotu v podobě gama rozdělení: h ∼ G(s−2 , ν). (7.24) 7.4.3 Bayesovský výpočet Posteriorní analýzu lze opět provést za využití Gibbsova vzorkovače (podobně jako v případě předchozího modelu). Odvození požadovaných podmíněných posteriorních hustot není obtížné a lze je získat násobením věrohodnostní funkce (7.20) s apriorními hustotami v (7.21)-(7.24). Analýza výsledných výrazů nám odkrývá jádrové hustoty relevantních podmíněných posteriorních rozdělení. Podmíněné posteriorní hustoty parametrů βi, pro i = 1, . . . , N, jsou vzájemně nezávislé a platí βi|y, h, µβ, Vβ ∼ N(βi, V i), (7.25) kde V i = (hXi Xi + V −1 β )−1 , βi = V i(hXi yi + V −1 β µβ). Pro hierarchické parametry µβ a Vβ jsou relevantní podmíněné posteriorní hustoty: µβ|y, β, h, Vβ ∼ N(µβ, Σβ) (7.26) a V −1 β |y, β, h, µβ ∼ W(νβ, [νβV β]−1 ), (7.27) 134 Lineární regresní model s panelovými daty kde Σβ = NV −1 β + Σ−1 β −1 , µβ = Σβ V −1 β N i=1 βi + Σ−1 β µβ , νβ = N + νβ, V β = N i=1 (βi − µβ)(βi − µβ) + V β. Výraz N i=1 βi je třeba chápat jako k-rozměrný vektor obsahující součty prvků βi. Podmíněná posteriorní hustota pro přesnost chyby má obvyklou podobu: h|y, β, µβ, Vβ ∼ G(s−2 , ν), (7.28) kde ν = TN + ν, s2 = N i=1(yi − Xiβi) (yi − Xiβi) + νs2 ν . Gibbsův vzorkovač v tomto případě vyžaduje výběry z normálního, gama a Wishartova rozdělení. Není tedy obtížené tento problém počítačově zpracovat. Predikční analýza a kovergenční testy lze opět provést standardním způsobem. 7.5 Porovnání modelů: Chibova metoda výpočtu marginální věrohodnosti Doposud nebyla pozornost věnována porovnání modelů třídy tohoto typu. Pro řadu typů modelů lze využít metody z předchozích kapitol. Ppro analýzu pevně daných resrikcí, zahrnujících vektor parametrů ˜β v modelech individuálních vlivů, lze využít Savage-Dickeyho poměru hustut podobně, jako je tomu v kapitole 4, části 4.1.5. Ti, kdo něchtějí počítat posteriorní podíl šancí (např. z důvodu použití neinformativní apriorní hustoty), si mohou spočítat intervaly nejvyšší posteriorní hustoty a predikční p-hodnotu. Některé druhy porovnání modelů, které jsou obsahem této kapitoly, je však obtížné provést. Uvažujme například situaci, kdybychom chtěli porovnat model individuálních vlivů s hierarchivkou apriorní hustotou a souhrnný model. Lze ukázat, že posledně jmenovaný model odpovídá modelu individuálních vlivů v případě, kdy Vα = 0. Skutečnost, že jeden model je vnořeným modelem druhého modelu nám napovídá, že by bylo možné k výpočtu Bayesova faktoru v tomto případě využít Savage-Dickeyho poměr hustot. Pokud se podíváme na vztah (7.18), vidíme, že je tento přístup spojen velkými problémy. K výpočtu Savage-Dickeyho poměru hustot by bylo 7.6 Empirická ilustrace 135 potřeba zvoli V −1 α = ∞. Asi by bylo možno vyřešit tento problém volbou V −1 α jakožto velkého, konečného čísla, nicméně, v tomto případě by byla výsledkem jen hrubá aproximace skutečné hodnoty bayesova faktoru. Savage-Dickeyho poměr hustot tak je v tomto případě nedostačující metodou. Bylo by možné, na druhé straně, pokusit se o použití metody Gelfanda a Deye, což už by byla akceptovatelná metoda pro výpočet marginální věrohodnosti. V případě poblému zahrnujících vektory parametrů vysokých dimenzí může být metoda Gelfanda a Deye dosti nepřesná, a to zejména v kontextu odpovídající volby funkce f(θ) (viz kapitola 5, vztahy (5.21) a (5.22)). Obecně je výpočet marginální věrohodnosti v případě vysoké dimenze parametrického prostoru vcelku obtížný a tomuto problému je v literatuře věnována velká pozornost. V této části si ukážeme jeden přístup, který lze v mnoha případech využít k efektivnímu výpočtu marginální věrohodnosti. Jedná se zejména o případy vysoké dimenze parametrického pro- storu. Stejně jako v předchozích částech kapitol, tak i zde se vrátíme k obecnému značení, kde θ je vektor parametrů a p(y|θ), p(θ) a p(θ|y) jsou postupně věrohodnostní funkce, apriorní hustota a posteriorní hustota. Chibova metoda k výpočtu marginální věorhodnsoti, popsaná v práci Chib [5], vychází z velmi jednoduchého zjištění. Bayesovo pravidlo říká p(θ|y) = p(y|θ)p(θ) p(y) . Nicméně, p(y) nezávisí na paremetrech θ, tedy pravá strana rovnice může být vyhodnocena v jakémkoliv bodě θ∗ , a výsledkem bude marginální věrohodnost. Pro jakýkoliv bod θ∗ tak získáváme p(y) = p(y|θ∗ )p(θ∗ ) p(θ∗|y) , (7.29) kterou Chib nazývá jako základní identita marginální věrohodnosti (basic marginal likelihood identity). Všimněme si, že všechny hustoty na pravé straně rovnice (7.29) jsou vyhodnoceny v jendo bodě. Například p(θ∗ ) je zkrácený zápis pro p(θ = θ∗ ). Pokud bychom znali přesnou podobu věrohodnostní funkce, apriorní hustoty a posteriorní hustoty (tedy ne jen jejich jádra, ale přesnou podobu funkcí hustoty pravděpodobnosti), potom můžeme marginální věrohodnost spočítat na základě vyhodnocení těchto funkcí v jakémkoliv bodě a s využitím vztahu (7.29). V mnoha případech známe přesnou podobu věrohodnostní funkce a apriorní hustoty. Obvykle však neznáme přesnou podobu posteriorní hustoty. K implementaci Chibovy metody si tak musíme ukázat, ja kvyhodnosti posteriorní hustotu v podě (tj. spočítat p(θ∗ |y). Chibova práce popisujetento postup pro různé případy. My se zaměříme na případ, který je relevantní pro modely z této kapitoly. 7.6 Empirická ilustrace BUDE DOPLNĚNO! 136 Lineární regresní model s panelovými daty 7.7 Analýza efektivity a model stochastických hranic V této části využijeme ekonomickou teorii k prezentaci modelu stochastických mezí (stochastic frontier model, který spadá do kategorie modelů individuálích vlivů, ovšem s odlišnou hierarchickou apriorní hustotou než tou prezentovanou v části 7.4.2. Tento model je důležitý sám o sobě, protože se využívá v případě studií zaměřených na efektivitu produkce firem nebo jiného typu ekonomických agentů. Odvození modelu stochastických mezí je rovněž dobrou ukázkou toho, jak aplikovaná ekonomie může využít ekonomickou teorii ke konstrukci ekonometrického modelu. 7.7.1 Úvod do modelu stochastických hranic Principy, na kterých je tato třída modelů postavena, lze ukázat na příkladu ekonomického modelu produkce, kdy výstup firmy i v čase t, Yit, je vyráběn s využitím vektoru vstupů, X∗ it, kde i = 1, . . . , N a t = 1, . . . , T. Firmy využívají běžnou, nejlepší možnou dostupnou technologii, pomocí které přetavují vstupy do podoby výstupu. Tato technologie je závislá na neznámých parametrech, β, a je dána jako: Yit = f (X∗ it; β) . (7.30) To je tzv. hranice výrobních možností (production frontier) a říká nám, jaký maximální objem výstupu může být dosažen z daného objemu vstupů. Ve skutečnosti může skutečný produkt firmy spadnout pod takovouto maximální dosažitelnou úroveň. Odchylka skutečného výstupu od maximálně dosažitelného bývá chápána jako měřítko neefektivity a spadá do oblasti zájmu v řadě praktických aplikací. Formálně si můžeme vztah (7.30) rozšířit do podoby Yit = f (X∗ it; β) τi, (7.31) kde 0 < taui ≤ 1 je míra efektivity, která je specifická pro jednotlivé firmy, a τi = 1 znamená, že firma i je plně efektivní. Např. hodnota τi = 0.75 znamená, že firma i produkuje jen 75% výstupu, který by mohla produkovat, kdyby pracovala dle nejlépe dostupné technologie. V rámci této specifikace předpokládáme, že každá firma má svou konkrétní úroveň efektivity, která je neměnná v čase. Tento předpoklad však můžeme uvolnit, kdy odkaz na příslušnou detailnější literaturu nabízí Koop [19]. V ekonometrické praxi se v modelu dále uvažuje náhodný chybový člen, ζit, který zahrnuje chyby v měření či specifikaci. Model tak nabývá podoby Yit = f (X∗ it; β) τiζit. (7.32) Zahrnutí tohoto chybového členu (chyb měření) vytváří stochastickou hranici, a odtud tedy máme název modelu stochastických hranic. Pokud je hranice výrobních možností, f (), v log-lineární podobě (např. Cobb-Douglasova produkční 7.7 Analýza efektivity a model stochastických hranic 137 funkce nebo produkční funkce TRANSLOG), můžeme využít logaritmování a přepsat vztah (7.32) jako yit = Xitβ + it − zi, (7.33) kde β = (β1, . . . , βk) , yit = ln (Yit), it = ln (ζit), zi = − ln (τi) a Xit je protějškem X∗ it, kdy vstupy jsou transformovány za pomocí logaritmů. Veličina zi je označován jako nefektivita, a protože 0 < τi ≤ 1, jedná se o nezápornou náhodnou veličinu. Předpokládáme, že Xit obsahuje úrovňovou konstantu a koeficient β1. Všimněme si, že tento model má podobu modelu individuálních vlivů. Tzn., že výraz β1 − zi hraje tutéž roli jako αi v sekci 7.4.2. V modelu stochastických hranic nám však sama ekonomická teorie dává vodítko k výběru hierarchické apriorní hustoty. Je potřeba poznamenat, že v případě, kdy není produkční funkce log-lineární (např. CES produkční funkce, tedy produkční funkce s konstantní elasticitou subsituce), je potřeba bayesovskou analýzu provádět ve vzájemné kombinaci technik z kapitoly 5 a technik uváděnými na tomto místě. Rovnice (7.33) může být zapsána jako yit = Xitβ + i − ziιT , (7.34) pokud si setřídíme všechny proměnné do matic stejným způsobem, jak bylo popsáno v úvodu této kapitoly (část 7.1). Připomeňme si, že ιT je v našem značení T-rozměrný vektor jedniček. 7.7.2 Věrohodnostní funkce Podoba věrohodnostní funkce závisí na předpokladech kladených na náhodnou složku. Kromě standardních předpokladů vyjádřených v úvodu této kapitoly (viz část 7.1) budeme předpokládat, že zi a j jsou vzájemně nezávisle pro všechna i a j. Výsledná věrohodnostní funkce tak má podobu p (y|β, h, z) = N i=1 h T 2 (2π) T 2 exp − h 2 (yi − Xiβ + ziιT ) (yi − Xiβ + ziιT ) , (7.35) kde z = (z1, . . . , zN ) . V rámci této specifikace chápeme z jako vektor neznámých parametrů, které vstupují do věrohodnostní funkce. V přístupu „klasické ekonometrie by věrohodnostní funkce byla definována jako p(y|β, h, θ) = p(y|β, h, z)p(z|θ)dz, kde p(z|θ) odpovídá našemu předpokladu o rozdělení neefektivity, které závisí na vektoru neznámých parametrů θ. Tento postup je matematicky ekvivalentní bayesovskému přístupu využívajícímu p(z|θ) jako hierarchickou apriorní hustotu. Jinými slovy, v modelech jako tento je volba toho, co označíme jako „věrohodnostní funkce a co jako „hierarchickou apriorní hustotu , čistě sémantickou záležitostí, která nemá vliv na statistické postupy další analýzy. 138 Lineární regresní model s panelovými daty 7.7.3 Hierarchická apriorní hustota pro model stochastických hranic Pro koeficienty hranice výrobních možností a přesnost chyby využijeme nám dobře známou nezávislou normální-gama apriorní hustotu: β ∼ N β, V (7.36) a h ∼ G s−2 , ν . (7.37) Pro míru neefektivity použijeme hierarchickou apriorní hustotu. Protože víme, že zi > 0, není vhodné použít hierarchická hustota odpovídající normální hustotě pravděpodobnosti z části 7.4.2. Volba apriorní hustoty obvykle v literatuře odpovídá omezenému normálnímu rozdělení nebo některému rozdělení z rodiny gama rozdělení. Zde si ukážeme bayesovskou analýzu modelů stochastických hranic s využitím exponenciálního rozdělení, což je gama rozdělení s dvěma stupní volnosti (viz Příloha B). Předpokládejme tedy, že zi a zj jsou a priori nezávislé pro i = j, kdy platí zi ∼ G (µz, 2) . (7.38) Hierarchická podstata apriorní hustoty znamená, že chápeme střední hodnotu rozdělení neefektivity jako parametr, který vyžaduje svůj vlasntí prior. Protože je zi > 0, vyplývá z toho, že rovněž µz > 0. Je snadnější pracovat s µ−1 z než přímo s µz, podobně jako pracujeme s přesností chyby (h) místo rozptylu chyby (σ2 ), což nám umožňuje setrvat v nám známých třídách rozdělení chybových členů. Budeme tedy pracovat a apriorní hustotou v podobě µ−1 z ∼ G µ−1 z , νz . (7.39) Apriorní hyperparametry pro µ−1 z a νz mohou být stanoveny na základě předpokladů o rozdělení efektivity. Můžeme tedy často mít k dispozic apriorní informaci o tom, kde je rozdělení efektivity umístěno. Nechť τ∗ označuje apriorní medián tohoto rozdělení. Pokud očekáváme, že firmy v našem vzorku jsou spíše efektivní, můžeme nastavit hodnotu τ∗ na vysokou hodnotu (např. 0.95). Pokud očekáváme, že řada firem je neefektivních, nastavíme ji na hodnotu nižší. V literatuře je ukázáno, že nastavení νz = 2 implikuje relativně neinformativní apriorní hustotu a z nastavení µz = − ln (τ∗ ) vyplývá, že medián apriorního rozdělení efektivity je τ∗ . To nám ilustruje obvyklou strategii nastavení prioru. Apriorní hustotu stanovujeme prostřednictvím hyperparametrů, které jsou snadno interpretovatelné v kontextu výchozí ekonomické teorie (v tomto případě τ∗ ). Následně provádí zpětnou transformaci pro nalezení hyperparametrů použitých v modelu (v našem případě µz a νz). Užitečné je rovněž upozornit na skutečnost, že je to často ekonomická teorie, která nám nabízí různá omezení, která mohou být zavedena skrze náš prior. 7.7 Analýza efektivity a model stochastických hranic 139 Například bychom chtěli implementovat restrikci, že hranice výrobních možností je monotónně rostoucí ve vstupech. V jiných variantách modelu stochastických hranic je žádoucí zahrnout restrikci, že nákladová funkce je konkávní nebo, že je možný technologický úpadek (jako opak technologického pokroku). Toto vše znamená omezení parametrů ve tvaru nerovností, což lze provést metodami z kapitoly 4, části 4.2. 7.7.4 Bayesovský výpočet Posteriorní analýza může být provedena stejně jako v modelech individuálních vlivů pomocí Gibbsova vzorkovače. Gibbsův vzorkovač potřebuje pouze znalost plně podmíněných posteriorních hustot. Ukážeme si tedy pouze příslušná podmíněná rozdělení (ne celou posteriorní hustotu), která jsou stejná jako v případě modelu individuálních vlivů s hierarchickou apriorní hustotou, tedy až na hustoty odpovídající z a µz. Pro parametry hranice výrobních možností získáváme β|y, h, z, µz ∼ N β, V , (7.40) kde V = V −1 h N i=1 Xi Xi −1 , β = V V −1 β + h N i=1 Xi [yi + ziιT ] . Pro přesnost chyby máme standardní výsledky h|y, β, z, µz ∼ G s−2 , ν , (7.41) kde ν = TN + ν, s−2 = N i−1 (yiziιT − Xiβ) (yiziιT − Xiβ) + νs2 ν . Podmíněné posteriorní hustoty pro neefektivity jsou na sobě nezávislé (tj. zi a zj jsou nezávislé pro i = j) a odpovídají normálnímu rozdělení omezenému na kladné hodnoty s funkcí hustoty pravděpodobnosti danou jako p (zi|yi, Xi, β, h, µz) ∝ fN zi|Xiβ − yi − (Thµz) −1 , (Th) −1 1 (zi ≥ 0) , (7.42) kde yi = T t=1 yit T a Xi je matice rozměru (1 × k) obsahující průměrné hodnoty každé vysvětlující proměnné pro každého jednotlivce i. Opět, 1 (zi ≥ 0) je indikační funkce rovna jedničce pokud zi ≥ 0 a nule v ostatních případech. 140 Lineární regresní model s panelovými daty Podmíněná posteriorní hustota pro µ−1 z je dána jako µ−1 z |y, β, z ∼ G (µz, νz) , (7.43) kde νz = 2N + νz, µz = N + νz 2 N i=1 ziµz . Bayesiánská analýza modelu stochastické hranice může být provedena pomocí Gibbsova vzorkovače zahrnujícího sekvenční výběry z podmíněných hustot (7.40) až (7.43). Výběry z omezeného normálního rozdělení (viz (7.42)) můžeme provést tak, že provedem výběry z odpovídajícího neomezeného normálního rozdělení a zahodímě výběry, kdy zi < 0. Alternativně lze využít algoritmy pro výběry z omezeného normálního rozdělení, snadno dostupné např. pro MALTAB. Tradičním způsobem provádíme predikční analýzu a standardními MCMC diagnostikami ověřujeme kovergenci Gibbsova vzorkovače. Porovnání modelů lze využít za pomocí technik této kapitoly, např. pomocí Chibovy metody můžeme vypočítat marginální věrohodnost. Užitečné je rovněž vědět, že tyto metody se využívají i pro čistě průřezovou verzi tohoto modelu (tzn. T = 1). V případě T = 1 však není přijatelné použití určitých nepravých priorů, neboť vedou k nepravým posteriorům. Intuitivně, pokud je T = 1, je počet parametrů v celém modelu větší než velikost vzorku (parametry z, µz, β, h dohromady dávají N + K + 2 parametrů a my máme k dispozici jen N pozorování), což poněkud omezuje rozumnou posteriorní analýzu při absenci apriorní informace. Otázky použití neinformativních priorů v modelech stochastických hranic jsou podrobně diskutovány v odborné literatuře. 7.7.5 Empirická ilustrace BUDE DOPLNĚNO! 7.8 Rozšíření BUDE DOPLNĚNO! 7.9 Shrnutí BUDE DOPLNĚNO! Kapitola 8 Úvod do časových řad 8.1 Úvod K problematice časových řad se váže rozsáhlá ekonometrická literatura. V této kapitole se budeme zabývat jednou třídou modelů zvanou stavové modely (state space models), které jsou běžně využívány právě za použití veličin a dat v podobě časových řad. Pro zavedení stavových modelů hovoří tři důvody: 1. Stavové modely jsou ve své podstatě hierarchické. Právě bayesovské metody s hierarchickou apriorní hustotou jsou v praxi velmi atraktivní. 2. Bayesiánská analýza hlavního alternativního přístupu18 k ekonometrii časových řad je detailně pokryta v knize Bauwens, Lubrano a Richard [1]. Tato kapitola nabízí jiný pohled na problematiku časových řad. 3. Stavové modely nejsou až tak odlišnou třídou modelů než používají Bauwens, Lubrano a Richard [1]. Nabízejí však jiný způsob zápisu téhož mo- delu.19 Využitím stavových modelů je možno řešit stejné problémy, které jsou obsahem publikace autorů Bauwens, Lubrano a Richard [1], ovšem zůstáváme v hierarchickém kontextu, který je důvěrně známý a výpočetně pohodlný. Některé koncepty zahrnující časové řady byl řešeny v kapitole 6 v rámci analýzy lineárního regresního modelu s autokorelovanými náhodnými složkami. Při práci s časovými řadami tedy používáme t a T místo i a N, tedy yt pro i = 1, . . . , T značí pozorování závisle proměnné v období 1 až T. Před tím, než se dostaneme ke stavovým modelům, je dobré připomenout, že techniky analyzované v kapitole 6 lze v praxi dobře uplatnit. Například, lineární regresní model s autokorelovanými chybami je modelem časových řad, který může být v 18Tento alternativní přístup v sobě zahrnuje ARIMA modely a dynamické regresní modely, které v sobě zahrnují problematiku jednotkových kořenů a kointegrace. 19Například, pro jakýkoliv ARIMA model existuje i stavová reprezentace. 142 Úvod do časových řad řadě případů více než vhodný. Tento model obsahuje chybovou složku t, generovanou AR(p) procesem. Běžný model časových řad pro jednu vysvětlovanou proměnnou (tj. model analyzující chování jedné časové řady y) pro yt odpovídá AR(p) procesu: (1 − ρ1L − . . . − ρpLp )yt = ut (8.1) Výpočetní metody bayesovské analýzy tohoto modelu jsou zjednodušením metod diskutovaných v předchozích kapitolách. Ve skutečnosti je (8.1) lineární regresní model, kde vysvětlující proměnné jsou zpožděné hodnoty proměnné vysvětlované yt = ρ1yt−1 + . . . + ρpyt−p + ut (8.2) Všechny základní regresní techniky diskutované v předchozích kapitolách jsou relevantní. Rovnice (8.2) může být rozšířena o další vysvětlující proměnné a jejich zpoždění, přičemž se stále budeme nacházet v regresním konceptu: yt = ρ1yt−1 + . . . + ρpyt−p + β0xt + β1xt−1 + . . . + βqxt−q + ut (8.3) V tomto na regresi založeném přístupu však vzniká několik komplikací. Volně řečeno, největší část literatury pojednávající o časových řadách se týká restrikcí kladených na koeficienty (8.3), případně jejich transformaci. Rovněž je zde řada důležitých problémů týkajících se definování apriorní hustoty, které nevznikají v kontextu průřezových dat.20 V rámci úvodu do stavových modelů začneme s nejjednodušším případem zvaným local level model. Základní otázky týkající se formulace apriorní hustoty a výpočtu mohou být diskutovány v kontextu tohoto modelu. Potom přistoupíme obecnějšímu stavovému modelu. Detailnější výklad nabízí West a Harrison [29].21 Publikace Kima a Nelsona [18] je další bayesiánskou knihou, která je úvodem i rozšířením problematiky stavových modelů. V této kapitole využijeme stavové modely k zavedení empirických bayesovských metod. Tyto metody jsou velmi populární v hierarchických modelech všeho druhu. Poskytují na datech založené metody k získání apriorních hyperparametrů. Empirické bayesovské metody nabízejí atraktivní alternativu22 pro ty, kdo nechtějí využívat subjektivního definování informativních apriorních hustot nebo nechtějí používat neinformativních priorů. 8.2 Local level model Local level model je dán jako yt = αt + t (8.4) 20Kromě knihy Bauwense, Lubrana a Richarda [1], další podrobnosti nabízejí příspěvky z tématických vydání časopisů Econometric Theory (ročník 10, srpen-říjen 1994) a Journal of Applied Econometrics (ročník 6, říjen-prosinec 1991) 21Další články pojednávající o bayesiánské analýze stavových modelů jsou Carlin, Polson a Stoffer [3], Carter a Kohn [4], de Jong a Shephard [7], Fruhwirth-Schnatter [11], Koop and van Dijk [20] a Shively a Kohn [27]. Durbin a Koopman [9] je dobrým zdrojem s bayesovským obsahem. 22Statistický úvod do empirických bayesovských metod nabízí Carlin a Louis [2]. 8.2 Local level model 143 kde t je i.i.d. N(0, h−1 ). Jedinečným aspektem tohoto modelu je člen αt, který není pozorován a o kterém předpokládáme, že je generován jako náhodná procházka (random walk) αt+1 = αt + ut (8.5) kde ut je i.i.d. N(0, ηh−1 ) a t a us jsou vzájemně nezávislé pro všechna t a s. Ve vztahu (8.4) t probíhá od 1 do T, ve vztahu (8.5) od 1 do T − 1. Rovnice (8.5) neposkytuje explicitně vyjádření pro α1, označované jako počáteční podmínka. Rovnice (8.4) je tzv. rovnice pozorování či měření (observation equation, measurement equation), rovnice (8.5) je pak nazývána stavovou rovnicí (state equation). V kapitole 6 byl diskutován AR(1) model a bylo zdůrazněno, že pro koeficient u zpožděné závisle proměnné ρ = 1 je tato řada nestacionární. Implikací tohoto je, že αt má stochastický trend. Pojem stochastický trend vychází ze skutečnosti, že pro modely jako (8.5) se příslušná řada může v čase dosti volně vyvíjet (tj. má trend), nicméně do tohoto trendového chování vstupuje prvek náhodnosti. V protikladu k deterministickému trendu jako αt = α + βt kde proměnná je právě funkcí času, stochastický trend v sobě obsahuje náhodnou složku ut. Skutečnost, že (8.5) vyjadřuje trendové chování pro αt, je možno vyvodit ze zápisu αt = α1 + t−1 j=1 uj (8.6) a tedy (při zanedbání počátečních podmínek) var(αt) = (t − 1)ηh−1 . Navíc αt a αt−1 mají tendenci ležet blízko u sebe (tj. E(αt|αt−1) = αt−1). Stochastický trend má tedy variabilitu, která je rostoucí funkcí času (a řada tedy může procházet stále se rozšiřující oblastí), ovšem αt se mění v čase jen pozvolna. To je konzistentní s intuitivním konceptem trendu, který je něco co postupně roste nebo klesá v čase. Rovnice (8.4) dekomponuje pozorovanou řadu yt na trendovou komponentu a chybovou či nepravidelnou komponentu t.23 Obecně řečeno, stavové modely lze interpretovat jakožto modely dekomponující časovou řadu na různé části. V local level modelu jsou to komponenty: trend a náhodná složka. V složitějších modelech mohou přibýt i další složky, jako např. sezónní složka. Je dobré poznamenat, že local level model se používá pro měření relativní velikosti trendu a nepravidelné složky. To je zároveň i motivací, proč byly zapsány rozptyly předchozích náhodných složek (h−1 a ηh−1 ). Tento způsob přímo implikuje smysl η jakožto míru velikosti náhodné procházky relativně k rozptylu chyby v rovnici měření. Je tak možno vidět, že pro η → 0 náhodná složka v (8.5) vypadává a αt = α1 pro všechna t a (8.4) nabyde tvaru yt = α1 + t. 23Z makroekonomického pohledu by tak trend mohl pokrývat dlouhodobou růstovou tendenci ekonomiky (např. díky růstu pracovní síly, růstu kapitálové zásoby nebo technickému pokroku), přičemž nepravidelná komponenta reflektuje náhodné krátkodobé škoky postihující ekonomiku (např. efekty hospodářského cyklu). 144 Úvod do časových řad V tomto případě vykazuje yt náhodné fluktuace kolem konstantní úrovně α1 a nemá už tedy trendový charakter. Ovšem pro rostoucí η roste rovněž i rozptyl ut a tudíž narůstá role stochastického trendu. Analýza η je tedy dobrý způsob pro měření významu trendového chování v časové řadě. Jen na okraj, test toho, zdali η = 0, je jedním ze způsobů testování jednotkového kořene (unit root). Tento test hraje svou důležitou roli v moderní empirické makroekonomii, a stavové modely umožňují toto testování vcelku intuitivním a jasným způsobem. Jiný způsob interpretace (8.4) a (8.5) vychází z toho, že αt je střední hodnota (či úroveň, tedy level) pro yt. Protože tato střední hodnota se mění v čase, používá se terminologie local level model. Interpretovat αt tímto způsobem, jako parametr, je v bayesovském chápání vcelku přirozené. Rovnici (8.4) je tak možno chápat jako velmi jednoduchý případ lineárního regresního modelu zahrnujícího jen úrovňovou konstantu. Významnou inovací je to, že se tento parametr může měnit v čase. Local level model je tedy jednoduchým příkladem modelu v čase proměnných parametrů (time varying parameters model). Sofistikovanější stavové modely v sobě mohou zahrnovat v čase proměnné parametry (regresní koeficienty) nebo v čase proměnné rozptyly náhodných složek. Pokud je α = (α1, . . . , αT ) interpretováno jako vektor parametrů, potom v bayesiánském kontextu je třeba definovat příslušnou apriorní hustotu. Ovšem (8.5) tuto apriorní husotu přímo nabízí, neboť definuje hierarchickou apriorní hustotu pro α. S touto interpretací je local level model velmi podobný modelu individuálních vlivů v rámci analýzy panelových dat v kapitole 7 s T = 1. Samozřejme model individuálních vlivů má úrovňovou konstantu, která se mění v rámci jednotlivců, přičemž local level model má úrovňovou konstantu proměnnou v čase. Základní struktura těchto dvou modelů je však stejná. Nástroje kapitoly 7 s využitím nezávislé normální-gama apriorní hustoty zde lze s určitými modifikacemi využít. Z tohoto důvodu zde použijeme přirozeně konjugovanou apriorní hustotu a zavedeme novou techniku pro definování apriorní hustoty. Bayesovské metody využívající nezávislou normální-gama apriorní hustotu jsou podobné těm z kapitoly 7, nebudeme je zde tedy opakovat. Lze zde odvodit Gibbsův vzorkovač. Tento algoritmus bude odvozen v kontextu obecnějšího stavového modelu (vzhledem k této obecnosti je půjde využít i pro local level model). V následující části bude využita přirozeně kojungovaná apriorní hustota k zavedení empirických bayesiánských metod. 8.2.1 Věrohodnostní funkce a apriorní hustota Pokud budeme definovat y = (y1, . . . , yT ) a = ( 1, . . . , T ) , lze zapsat local level model v maticovém zápisu jako y = IT α + (8.7) Budeme-li předpokládat standardní požadavky kladené na , tedy že má vícerozeměrné normální rozdělení se střední hodnotou 0T a kovarianční maticí h−1 IT , potom se bude jednat o normální lineární regresní model, kde matice vysvětlujících proměnných bude jednotková matice (X = IT ) a α bude T-rozměrný vektor 8.2 Local level model 145 regresních koeficientů. Věrohodnostní funkce tak bude mít standardní podobu normálního lineárního regresního modelu (viz kapitola 3). Samozřejmě v jakémkoliv bayesovském příkladu můžeme využít apriorní hustotu dle našich potřeb a přání. Stavová rovnice v (8.5) však sama nabízí hierarchickou apriorní hustotu. Využijeme tedy tuto hustotu v přirozeně konjugované podobě. Pro porovnání s výsledky kapitoly 3 pro normální lineární regresní model s přirozeně konjugovanou apriorní hustotou je dobré zapsat tento model poněkud odlišným způsobem. Začneme definováním matice prvních diferencí rozměru (T − 1) × T: D =     −1 1 0 0 · · · · · · 0 0 −1 1 0 · · · · · · 0 · · · · · · · · · · · · · · · · · · · · · 0 · · · · · · 0 0 −1 1     (8.8) Pro představu souvislostí se stavovým modelem poznamenejme, že Dα =     α2 − α1 · · αT − αT −1     a stavová rovnice (8.5) tak může být zapsána v podobě Dα = u kde u = (u1, . . . , uT −1) . Předpoklad, že u je normální lze tedy intepretovat tak, že stavová rovnice definuje normální hierarchickou apriorní hustotu pro Dα. Ke specifikaci kompletních apriorních hustot pro všechny parametry modelu je třeba specifikovat apriorní hustotu pro h a α1. Abychom tak učinili, zapíšeme (8.7) v podobě y = Wθ + (8.9) kde θ =       α1 α2 − α1 · · αT − αT −1       a W = 1 0t−1 ιT −1 C , kde ιT −1 je (T −1)-rozměrný vektor jedniček. Maticovým násobením lze ukázat, že (8.9) je ekvivalentní k (8.7). Přímá maticová inverze může být využita k tomu, aby se ukázalo, že C je dolní trojúhelníková matice rozměru (T − 1) × (T − 1) se všemi nenulovými prvky rovnými jedné (jedná se o inverzi matice D s vynechaným prvním sloupcem). Tedy C má všechny prvky na a pod hlavní diagonálou rovny jedné a všechny prvky nad hlavní diagonálou rovny nule. 146 Úvod do časových řad Nyní si definujme přirozeně konjugovanou apriorní hustotu pro θ a h: θ, h ∼ NG(θ, V , s−2 , ν) (8.10) Budeme předpokládat specifickou strukturu pro θ a V která bude zahrnovat apriorní informaci obsaženou ve stavové rovnici: θ =       θ1 0 · · 0       (8.11) V = V 11 0T −1 0T −1 ηIT −1 (8.12) Poznamenejme, že tato apriorní hustota implikuje, že αt+1 − αt odpovídá normální hustotě, N(0, ηh−1 ), což je přesně to, co jsme předpokládali na začátku této sekce. Skutečnost, že apriorní hustota závisí na parametru η ji činí hierarchickou. Navíc jsme poskytly apriorní hustotu pro počáteční podmínku α1 ∼ N(θ1, h−1 V 11). Na tomto místě je vhodně shrnout, co jsme doposud udělali. Zapsali jsme local level model jako náš dobře známý normální lineární regresní model s přirozeně konjugovanou apriorní hustotou. Skutečnost, že se jedná o problematiku časových řad zahrnující stavový model, se projevuje výhradně díky výběru apriorní hustoty. V rámci bayesovského paradigmatu je interpretace stavové rovnice jakožto prioru zcela přirozená a atraktivní. Je však třeba dodat, že nebayesovská ekonometrie by tuto hierarchickou apriorní hustotu interpretovala jako část věrohodnostní funkce. V řadě modelů je jen otázkou rozhodnutí, kterou část modelu označíme jako ”věrohodnostní funkci”a kterou jako ”prior”. 8.2.2 Posteriorní hustota Standarní výsledky pro NLRM s přirozeně kojugovanou apriorní hustotou (viz kapitola 3) nám říkají, že posteriorní hustota pro parametry θ a h, označována jako p(θ, h|y), odpovídá NG(θ, V , s−2 , ν) kde θ = V (V −1 θ + W y) (8.13) V = (V −1 + W W)−1 (8.14) ν = ν + T (8.15) a νs2 = νs2 + (y − Wθ) (y − Wθ) + (θ − θ) V −1 (θ − θ) (8.16) Vlastnosti normálního-gama rozdělení implikují, že je snadné zpětně transformovat parametrizaci v (8.9) na původní parametrizaci danou v (8.7). Protože 8.2 Local level model 147 p(θ|h, y) je normální a platí, že lineární kombinace veličiny z normálního rozdělení je opět veličina z normálního rozdělení, potom za podmínky, že posteriorní hustota p(θ, h) odpovídá NG(θ, V , s−2 , ν), je posteriorní rozdělení (α, h) analogické rozdělení NG(α, V α, s−2 , ν) kde α = Wθ (8.17) a V α = WV W (8.18) Protože jsme použili přirozeně konjugovanou apriorní hustotu, máme k dispozici analytické výsledky, a nepotřebujeme tak posteriorní simulátor. Je dobré poznamenat, že local level model je regresní model, kde počet regresních koeficientů je roven počtu pozorování. V regresní analýze je obvyklejší případ, kdy počet regresních koeficientů je výrazně nižší než počet pozorování (tj. v notaci předchozích kapitol k N). Local level model tak ukazuje, že apriorní informace může být v mnoha případech využita k získání hodnotné posteriorní analýzy i v modelech s velkým počtem parametrů. V tomto kontextu vzniká jiná otázka, a to, proč nezískáváme degenerované posteriorní rozdělení v bodě y = α. Pokud bychom nastavili αt = yt pro všechna t, získali bychom perfektně padnoucí model ve smyslu, že t = 0 pro všechna t. Lze ověřit, že věrohodnostní funkce nabývá v tomto bodě nekonečně velké hodnoty. Bayesiánská posteriorní hustota však není do tohoto bodu nekonečné věrohodnosti umístěna, a to díky apriorní informaci. Stavová rovnice nám říká, že αt+1 a αt leží velmi blízko u sebe, což odsunuje posteriorní hustotu dále od bodu perfektní shody modelu s daty. V literatuře zabývající se stavovými modely je tato skutečnost či jev nazývána vyhlazením (smoothing) stavového vektoru. Jelikož se jednalo v tomto oddíle o NLRM s přirozeně konjugovanou apriorní hustotou, porovnání modelů a predikce je prováděna metodami z kapitoly 3. 8.2.3 Empirické bayesiánské metody V předchozích kapitolách byla apriorní hustota formulována buď subjektivně nebo se využívalo neinformativních apriorních hustot. V kontextu této kapitoly to znamená volbu θ, V , s−2 , ν nebo nastavení neinformativních hodnot ν = 0 a V −1 = 0T ×T .24 Oba tyto přístupy však mají své nedostatky. Subjektivní volbu apriorních priorů je někdy obtížné udělat, případně může být zdrojem kritiky jiných výzkumníků majících apriorní hyperparametry (či hustoty) jiné. Neinformativní apriorní hustoty obvykle znemožňují bayesovské porovnání modelů z důvodů nedefinovanosti marginálních věrohodností. Mnozí bayesiánci proto využívají tzv. empirických bayesovských metod, které se snaží překlenout výše zmiňované problémy. Local level model je vhodným místem pro jejich zavedení. Samozřejmě tyto metody lze využít s jakýmkoli modelem, přičemž jsou obzvláště populární v modelech s hierarchickými apriorními hustotami (jako jsou modely této kapitoly a kapitoly 7). Je však třeba poznamenat, že empirické bayesovské metody jsou kritizovány pro jejich implicitní ”dvojpočet”s daty, tj. data jsou 24Připomeňme si, že při této volbě jsou hodnoty θ a s−2 irelevantní. 148 Úvod do časových řad nejprve využita pro volbu apriorních hyperparametrů a po jejich vobě jsou tatáž data využita po druhé v rámci standardní bayesiánské analýzy. Empirické bayesovské metody v sobě zahrnují odhad apriorních hyperparametrů z dat. Ideálním nástrojem pro tento postup tak bývá marginální věrohodnost. Pro jakoukoliv volbu apriorních hyperparametrů jsme schopni spočítat marginální věrohodnost. Hodnoty apriorních hyperparametrů, kterými dostáváme nejvyšší apriorní věrohodnost, pak využijeme v empirické bayesovské analýze. Hledání skrze všechny apriorní hyperparametry však může být velmi náročné. Empirické bayesovské metody se tak využívají nejčastěji pro jeden nebo dva klíčové hyperparametry. Zde si ukážeme postup této analýzy v rámci local level modelu. Apriorní hustota pro local level model specifikována v (8.10), (8.11) a (8.12) závisí na pěti hyperparametrech η, θ1, V 11, s−2 a ν. Z nich je nejvýznamnějším parametrem η a zdá se tak být největším kandidátem na použití empirického bayesovského přístupu. Tento parametr lze interpretovat jako parametr vztahující se k velikosti komponenty náhodné procházky ve stavovém modelu a lze tak pro ni obtížně definovat subjektivně nějakou hodnotu. Navíc zjevná ”neinformativní”limitní volba η → ∞ nedává velký smysl, protože to impikuje fakt, že stochastický trend převáží nad nesystematickou (nepravidelnou) komponentou. To je dosti „informativní tvrzení. Zaměříme se tedy na η. Budeme předpokládat, že jsme schopni subjektivně definovat hodnoty pro θ1, V 11, s−2 a ν. Výsledky kapitoly 3 (viz (3.34)) implikují, že marginální věrohodnost pro analyzovaný model má podobu: p(y|η) = c |V | |V | 1 2 (νs2 )− ν 2 (8.19) kde c = Γ ν 2 (νs2 ) ν 2 Γ ν 2 π T 2 (8.20) Značení v (8.19) ukazuje, že bereme marginální věrohodnost jako funkci η (v předchozích kapitolách jsme používali značení p(y) nebo p(y|Mj), ale tady chceme explicitně vyjádřit její závislost na η). Standardní způsob provedení empirické bayesovské analýzy by byl zvolit takové η = η, pro které bude maximalizována p(y|η). Toto η by se pak vložilo do (8.12) a posteriorní analýza by proběhla standardním způsobem využitím (8.13)-(8.18). V local level modelu je možno η nalézt síťovou vyhledávací metodou (grid search method), kdy se zkusí dát každá potenciální hodnota η do odpovídající sítě či mřížky a zvolí se η maximalizující p(y|η). Formálnější způsob je pak možný explicitním chápáním η jakožto parametru a využitím zákonů podmíněné pravděpodobnosti pro bayesovskou analýzu. Pokud je η bráno jako neznámý parametr, potom Bayesův teorém implikuje p(η|y) ∝ p(y|η)p(η), kde p(η) je apriorní hustota, a můžeme tak psát p(η|y) = c |V | |V | 1 2 (νs2 )− ν 2 p(η) (8.21) 8.2 Local level model 149 Tato posteriorní hustota může být využita pro analýzu η. Pokud se náš zájem zaměřuje i na ostatní parametry modelu, potom lze využít skutečnosti, že p(θ, h, η|y) = p(θ, h|y, η)p(η|y) Jelikož p(θ, h|y, η) je normální-gama hustota (podmíněná specifickou hodnotou η, čímž platí posteriorní výsledky v (8.13)-(8.18)) a p(η|y) je jednorozměrná hustota, můžeme využít Monte Carlo integraci pro posteriorní analýzu tohoto modelu. Provedeme tak náhodný výběr z p(η|y) ∝ p(y|η)p(η) a podmíněno tímto výsledkem provedeme náhodný výběr z p(θ, h|y, η), čimž získáme výběr ze sdružené posteriorní hustoty. To, jak dostaneme výběr z p(η|y), bude záviset na přesné podobě p(η). Jednoduchý způsob výběru z jednorozměrného rozdělení zahrnuje jeho aproximaci diskrétní alternativou. Tedy, vyhodnocení p(η|y) v B různých bodech mřížky η1, . . . , ηB vede k získání p(η1|y), . . . p(ηB|y). Výběry η brané z tohoto diskrétního rozdělení (tj. rozdělení definovaného pravděpodobnsotmi p(η = ηi) = p(ηi|y) pro i = 1, . . . , B) budou aproximativně odpovídat výběrům z p(η|y). Pro rostoucí B se bude zvyšovat i kvalita aproximace. Popsané empirické bayesovské metody pro local level model vyžadují výběr θ1, V 11, s−2 a ν (případně p(η) při využití druhého přístupu zmiňovaného v předchozím odstavci). Obvyklá je volba neinformativních apriorních hyperparametrů a ve většině modelů s hierarchickou apriorní hustotou tato volba funguje dobře (např. model pro panelová data z kapitoly 7). Ovšem pro případ local level modelu tento postup nefunguje. Podrobněji si tedy řekneme, proč tomu tak je, což zároveň bude ilustrovat problém, který může vzniknout při bayesovské analýze modelů s velkým počtem parametrů. Uvažujme, co se stane, když nastavíme ν a V −1 11 na jejich limitní hodnoty ν = V −1 11 = 0. V takovémto případě budou hodnoty s−2 a θ1 irelevantní. Pro tuto neinformativní volbu lze přímo ověřit, že p(θ, σ−2 |y, η) je dobře definovaná posteriorní hustota. S ohledem na marginální věrohodnost však nastávají dva problémy. První problém je, že integrační konstanta v (8.20) je nedeterminovatelná. To je standardní problém diskutovaný v kapitole 2 v oddíle zabývajícím se porovnáním modelů. Pokud se však zaměříme jen na η, popřípadě je marginální věrohodnost využita pouze pro porovnání současného modelu s jiným s touž neinformativní apriorní hustotou, není tento první problém nijak vážný. Konstanta c buď do vztahů nevstoupí nebo se vykrátí v rámci např. Bayesova faktoru a může být tedy ignorována. Druhý problém spočívá v tom, že člen νs2 se blíží nule pro η → ∞. Abychom to viděli, poznamenejme, že pokud jsou všechny hyperparametry nastaveny na své neinformativní hodnoty, θ = (W W)−1 W y a y − Wθ = 0T . Nebudeme uvádět formální důkaz, nicméně se jedná o případ, kdy tato degenerativnost je dostatečná k tomu, aby marginální věrohodnost byla nekonečno pro η → ∞. Empirická bayesovská analýza tak nastaví η → ∞ pro jakoukoliv datovou sadu. Lze ukázat, že tato volba povede k tomu, že E(α|y) = y a nenastává tak žádné vyhlazení (smoothing) stavového vektoru. Empirické bayesovské metody selhávají v rámci local level model při nastavení ν a V −1 11 na neinformativní 150 Úvod do časových řad hodnoty. Tento problém (který nevzniká ve většině jiných modelů) nastává z toho důvodu, že počet vysvětlujících proměnných daných v (8.7) je roven počtu pozorování a regresní přímka (či křivka) tak může přesně proložit pozorovaná data. Při práci s nepravými neinformativními apriorními hustotami tak je třeba být velmi obezřetný, jestliže pracujeme s modely s velkým počtem parametrů. Lze ověřit, že pokud nastavíme buď ν > 0 nebo V −1 11 > 0 (a zvolíme s2 nebo θ1 adekvátním způsobem), potom empirické bayesovské metody použít můžeme. Obě volby zamezí tomu, aby νs2 v (8.19) se blížilo nule pro η → ∞. Není tedy nutné mít informativní apriorní hustotu jako pro h, tak pro θ1. V rámci alternativního přístupu, který chápe η jako parametr (viz (8.21)), nastává podobně nepříjemná situace pro volbu ν = V −1 11 = 0 a pro nastavení nepravého prioru pro η. Pokud například zvolíme ν = V −1 11 = 0 a ještě budeme brát p(η) jako nepravou apriorní hustotu odpovídající uniformnímu rozdělení na intervalu (0, ∞), potom bude platit, že p(η|y) není platná hustota pravděpodobnosti (je tedy nepravá). Pokud však zvolíme buď ν > 0 nebo V −1 11 > 0 anebo p(η) jako platnou p.d.f., potom i p(η|y) je platná posteriorní hustota. Jestliže tedy budeme chápat η jako neznámý parametr, lze provést bayesiánskou analýzu v tom případě, kdy bude k dispozici informativní apriorní hustota jednoho z parametrů η, h nebo θ1. 8.2.4 Empirická ilustrace: Local level model BUDE DOPLNĚNO! 8.3 Obecný stavový model V tomto oddíle se zaměříme na obecnější stavový model ve tvaru yt = Xtβ + Ztαt + t (8.22) kde αt+1 = Ttαt + ut (8.23) Tento model využívá trochu odlišný zápis než v případě local level modelu, kdy předpokládáe, že αt je p×1 rozměrný vektor obsahující p stavových rovnic. Předpokládáme, že t je i.i.d. N(0, h−1 ), ovšem ut je nyní p×1 rozměrný vektor, který je i.i.d. N(0, H−1 ) a t a us jsou vzájemně nezávislé pro všechna s a t. Xt a Zt jsou postupně vektory rozměru 1 × k a 1 × p obsahující vysvětlující proměnné a (nebo) známé konstanty. Matice Tt je matice známých konstant rozměru p × p. Případ, kdy Tt obsahuje neznámé parametry lze řešit způsobem uvedeným níže. Zde uváděný model není tím zcela nejobecnějším, nicméně i tak je užitečné ilustrovat si v tomto kontextu několik speciálních případů. Local level model je speciálním případem při volbě p = 1, k = 0, Tt = 1 a Zt = 1, tudíž je možné i tento stavový model využít pro dekompozici časové řady na stochastický trend a nepravidelnou (nesystematickou) složku. Dokonce i normální lineární regresní 8.3 Obecný stavový model 151 model můžeme snadno získat volbou Zt = 0. Normální lineární regresní model s v čase proměnnými parametry pak získáme tehdy, pokud Zt obsahuje některé nebo všechny vysvětlující proměnné. Existují i tzv. strukturální modely časových řad, které lze převést do podoby (8.22) a (8.23). Durbin a Koopman [9] analyzují tento typ modelů, a to včetně problematiky sezónnosti a jak lze běžně používané ARIMA modely (autoregresivní integrované modely klouzavých součtů) převést do podoby stavových modelů. Na tomto místě si ukážeme, jak jeden z běžných strukturálních modelů časových řad zvaný local linear trend model můžeme přepsat do stavového tvaru. Tento model je podobný local level modelu, ovšem zahrnuje navíc v sobě lineární trend. Tedy yt = µt + t µt+1 = µt + νt + ξt a νt+1 = νt + ζt kde ξt je i.i.d. N(0, σ2 ξ ), ζt) je i.i.d. N(0, σ2 ζ ) a všechny náhodné chyby jsou vzájemně nezávislé. Je možno vidět, že tento local linear trend model lze přepsat do podoby stavového modelu volbou αt = µt νt ut = ξt ζt Tt = 1 1 0 1 Zt = 1 0 H−1 = σ2 ξ 0 0 σ2 ζ a β = 0. Krátce a stručně shrnuto: řada užitečných regresních modelů i modelů časových řad lze zapsat jako stavové modely. 8.3.1 Bayesovský výpočet pro stavový model Jednou z výhod bayesovského přístupu je to, že metody posteriorní analýzy v řadě komplikovaných modelů lze odvodit jednoduchou kombinací výsledků jednodušších modelů. Stavový model je dobrým příkladem tohoto postupu. Aniž bychom si postupně odvozovali věrohodnostní funkci, apriorní hustoty a posteriorní hustoty, rovnou přeskočíme na problém bayesovského výpočtu a ukážeme si, jak využít výsledky předchozích kapitol pro tento stavový model. Jak je možno vidět, pro posteriorní simulaci nastává komplikace toho rázu, že posteriorní hustoty pro α (analogické podobě jako v kapitole 7), (8.23) nebudou v čase nezávislé. To implikuje, že αt a αt−1 nebudou vzájemně nezávislé. Nejsme tak 152 Úvod do časových řad schopni najednou generovat výběry pro αt a případná přímá implementace Gibbsova vzorkovače by zahrnovala výběry z T-rozměrného normálního rozdělení. To by mohlo být poněkud zdlouhavé, nicméně De Jong a Shephard [7] popisují efektivní metodu Gibbsova vzorkovače pro tuto třídu modelů. Bližší pohled na (8.23) naznačuje, že pokud by αt pro t = 1, . . . , T bylo známé (jakožto protiklad tomu, že je nepozorováno), potom by se stavový model redukoval na normální lineární regresní model: y∗ t = Xtβ + t kde y∗ t = yt −Ztαt. Všechny výsledky pro normální lineární regresní model předchozích kapitol by tak byly využitelné, pouze vysvětlovaná proměnná by byla y∗ t místo y. To naznačuje, že pro stavový model by mohl být využit Gibbsův vzorkovač s obohacenými daty (data augmentation)25 . V závislost na zvolené apriorní hustotě, p(β, h|y, α1, . . . , αT ) bude mít jednu z jednoduchých podob daných v kapitole 3 nebo 4. Pokud by podobně byly známé αt pro i = 1, . . . , T, potom stavové rovnice dané v (8.23) jsou jednoduchou variantou modelu zdánlivě nesouvisejících regresí (SUR) diskutovaných v kapitole 6 a p(H|y, α1, . . . , αT ) má známou formu.26 Pokud tedy jsme schopni odvodit metodu pro generování náhodných výběrů z podmíněné hustoty p(α1, . . . , αT |y, β, h, H), budeme mít plně specifikovaný Gibbsův vzorkovač s obohacenými daty, jenž nám umožňuje bayesovskou analýzu stavového modelu. V následující části bude ukázán takovýto Gibbsův vzorkovač pro specifickou volbu apriorní hustoty, nicméně lze využít i jiných apriorních hustot, a to s minimálními dopady a změnami. V našem případě využijeme pro parametry β a h nezávislou normální-gama apriorní hustotu, pro matici H Wishartovu apriorní hustotu a pro α1, . . . , αT apriorní hustotu implikovanou stavovou rovnicí. Konkrétně tedy předpokládáme apriorní hustotu v podobě p(β, h, H, α1, . . . , αT ) = p(β)p(h)p(H)p(α1, . . . , αT |H), kde p(β) = fN (β|β, V ), (8.24) p(h) = fG(h|s−2 , ν) (8.25) a p(H) = fW (H|νH, H) (8.26) 25Pod pojmem data augmentation je obvykle chápána metoda pro konstrukci iterativních algoritmů (jakým je rozhodně Gibbsův vzorkovač) skrze zavedení nepozorovaných dat či latentních proměnných (resp. latentních dat). Jako český ekvivalent metodám s data augmentation budu používat pojmu metody s „obohacenými daty či „pomocnými proměnnými (auxiliary variables). 26Případ, kdy Tt obsahuje neznámé parametry, by v sobě zahrnoval výběry z podmíněné hustoty p(H, T1, . . . , Tt|y, α1, . . . , αT ), což lze snadno provést. V obvyklém ”v čase neměnném”případě, kde T1 = . . . = Tt, p(H, T1, . . . , Tt|y, α1, . . . , αT ) bude mít právě podobu SUR modelu. 8.3 Obecný stavový model 153 Pro prvky stavového vektoru zacházíme s (8.23) jako s hierarchickou apriorní hustotou. Bereme-li v tomto případě časový index jakožto index začínající od nuly (tzn. t = 0, 1, . . . , T) a předpokládáme-li, že α0 = 0, potom nám stavová rovnice dokonce poskytuje apriorní hustotu pro počáteční podmínku. Formálně můžeme tuto část apriorní hustoty psát jako p(α1, . . . , αT |H) = p(α1|H)p(α2|α1, H) . . . p(αT |αT −1, H), kde pro t = 1, . . . , T − 1 p(αt+1|αt, H) = fN (αT +1|Ttαt, H) (8.27) a p(α1) = fN (α1|0, H) (8.28) Poznamenejme, že H hraje podobnou roli jako η v local level modelu. V tomto případě je ovšem H matice rozměru p × p, tudíž využití empirických bayesovských metod by bylo v případě tohoto modelu obtížné. Navíc nevyužíváme přirozeně konjugované apriorní hustoty, což má za následek neexistenci analytického řešení. Výše uvedené úvahy napovídají, že směřujeme ke Gibbsově vzorkovači s obohacenými daty, který bude využívat sekvenční výběry z p(β|y, α1, . . . , αT ), p(h|y, α1, . . . , αT ), p(H|y, α1, . . . , αT ) a p(α1, . . . , αT |y, β, h, H). První tři posteriorní hustoty lze odvodit z předchozích kapitol. Z kapitoly 4 (oddíl 4.1) víme, že β|y, h, α1, . . . , αT ∼ N(β, V ) (8.29) a h|y, β, α1, . . . , αT ∼ G(s−2 , ν), (8.30) kde V = V −1 + h T t=1 Xt Xt −1 , (8.31) b1 = V V −1 β + h T t=1 Xt (yt − Ztαt) , (8.32) ν = T + ν (8.33) a s2 = T t=1(yt − Xtβ − Ztαt)2 + νs2 ν . (8.34) Za využití výsledků pro SUR model (bez vysvětlujících proměnných) z kapitoly 6 získáváme H|y, α1, . . . , αT ∼ W(νH, H), (8.35) kde νH = T + νH (8.36) 154 Úvod do časových řad a H = H−1 + T −1 t=0 (αt+1 − Ttαt)(αt+1 − Ttαt) −1 (8.37) Pro úplnost Gibbsova vzorkovače potřebujeme odvodit podmíněnou posteriorní hustotu p(α1, . . . , αT |y, β, h, H) a způsob jak z této hustoty generovat náhodné výběry. Ačkoliv není těžké zapsat tuto hustotu jako vícerozměrné normální rozdělení, je obtížné získat z ní prakticky náhodné výběry, neboť se jedná o T-rozměrné rozdělení a její prvky jsou vysoce korelovány. V této souvislosti existuje řada příspěvků snažících se nalézt efektivní způsob generování náhodných výběrů z tohoto rozdělení (významnými příspěvky jsou Carter a Kohn [4] a DeJong a Shephard [7]). Zde budeme prezentovat metodu DeJonga a Shepharda, která se ukázala v řadě praktických aplikací jako vysoce efektivní. Důkazy a další odvození jsou obsaženy v příslušném příspěvku. Oba pánové pracují s trochu odlišnou obecnou verzí stavového modelu v podobě yt = Xtβ + Ztαt + Gtνt (8.38) a αt+1 = Ttαt + Jtνt (8.39) pro t = 1, . . . , T v (8.38) a t = 0, . . . , T v (8.39) a α0 = 0. Náhodná složka νt je i.i.d. N(0, h−1 Ip+1). Ostatní proměnné a parametry jsou definovány stejně jako v původní definici stavového modelu. Lze ukázat, že tento model je ekvivalentní s původní formulací pokud zvolíme νt = t ut Gt bude řádkový vektor rozměru (p + 1) daný jako Gt = 1 0 . . 0 a Jt je matice rozměru p × (p + 1) daná jako Jt = 0p A , kde A je matice rozměru p × p implicitně definována vztahem H−1 = 1 h AA Jelikož Gibbsův vzorkovač v sobě zahrnuje výběry z podmíněné posteriorní hustoty p(α1, . . . , αT |y, β, h, H), vše v (8.38) a (8.39) může být bráno jako známé hodnoty, s výjimkou αt a νt. Příspěvkem DeJonga a Shepharda [7] je návrh efektivního algoritmu27 pro výběry ηt = Ftνt pro různé volby Ft. Výběry z ηt pak lze transformovat do výběrů z αt. Jejich algoritmus je nastaven pro arbitrární 27Existují i další výhody tohoto algoritmu, zahrnující požadavky na paměť počítače a vyhnutí se určitým případům degenerace. 8.3 Obecný stavový model 155 Ft, ovšem je třeba poznamenat, že obvyklou volnou je Ft = Jt, čímž získáváme výběry chyb stavové rovnice, které lze přímo transformovat do požadovaných výběrů z αt. DeJong a Shephard nazývají svůj algoritmus jako simulační vyhlazovač (simulation smoother). Tento simulační smoother začíná nastavením a1 = 0, P1 = J0J0 a výpočtem následujících veličin pro t = 1, . . . , T:28 et = yt − Xtβ − Ztαt (8.40) Dt = ZtPtZt + GtGt (8.41) Kt = (TtPtZt + JtGt )D−1 t (8.42) at+1 = Ttat + Ktet (8.43) a Pt+1 = TtPt(Tt − KtZz) + Jt(Jt − KtGt) (8.44) potom si uložíme získané veličiny et, Dt a Kt. Následně je vypočítána nová sada veličin v obrácené časové posloupnosti (tj. t = T, T − 1, . . . , 1). Tento postup začíná nastavením rT = 0 a UT = 0 a výpočtem Ct = Ft(I − Gt D−1 t Gt − [Jt − KtGt] Ut[Jt − KtGt])Ft (8.45) ξt ∼ N(0, h−1 Ct) (8.46) Vt = Ft(Gt D−1 t Zt + [Jt − KtGt] Ut[Tt − KtZt]) (8.47) rt−1 = Zt D−1 t et + (Tt − KtZt) rt − Vt C−1 t ξt (8.48) Ut−1 = Zt D−1 t Zt + (Tt − KtZt) Ut(Tt − KtZt) + Vt C−1 t Vt (8.49) a ηt = Ft(Gt D−1 t et + [Jt − KtGt] rt) + ξt (8.50) kde G0 = 0. Tímto algoritmem získáme η = (η0, . . . , ηT ) a lze dokázat, že se jedná o náhodný výběr z p(η|y, β, h, H). V závislosti na podobě Ft lze tento výběr transformovat na požadovaný náhodný výběr αt pro t = 1, . . . , T. Při obvyklé volbě Ft = Jt tento algoritmus poskytuje výběry náhodných chyb ve stavové rovnici (tj. ηt = Jtνt), které lze transformovat na výběry z αt za využití (8.39) a skutečnosti, že α0 = 0. Tyto vzorce vypadají složitě. Nicméně algoritmus je jednoduchou sérií výpočtů zahrnující matice nízkých rozměrů a náhodný výběr z normálního rozdělení pro získání ξt. To velmi zrychluje výpočet neboť práce s maticemi velkých rozměrů (tj. T × T) je dosti pomalá. Pro většinu aplikací budou mít matice Ft, Gt, Jt a Tt jednoduchou podobu, což předchozí rovnice ještě více zjednodušuje. Naprogramovat si takovýto Gibbsův vzorkovač tak není nijak obtížné. Byl tedy odvozen Gibbsův vzorkovač s obohacenými daty, který prováděl sekvenční výběry z p(β|y, α1, . . . , αT ), p(h|y, α1, . . . , αT ), p(H|y, α1, . . . , αT ) a 28Tyto výpočty jsou označovány jako běh Kalmanova filtru. 156 Úvod do časových řad p(α1, . . . , αT |y, β, h, H). Na základě výstupů takovéhoto posteriorního simulátoru, lze povést posteriorná analýzu obdobnou té z kapitoly 4. Stejně tak je možno provést predikční analýzu, spočítat prediční p-hodnoty nebo HPDI. Marginální věrohodnost pro stavový model lze vypočítat pomocí Chibovy metody, je obdobná jako její aplikace pro model individuálních vlivů, kdy α1, . . . , αT jsou brány jako latentní data (kapitola 7). 8.3.2 Empirická ilustrace BUDE DOPLNĚNO! 8.4 Rozšíření BUDE DOPLNĚNO! 8.5 Shrnutí BUDE DOPLNĚNO! Kapitola 9 Modely kvalitativních a omezených vysvětlovaných proměnných 9.1 Úvod Normální lineární regresní model je mocný analytický nástroj využitelný pro analýzy založené na široké paletě dat. Má však jedno velké omezení, a to takové, že rozdělení vysvětlované proměnné y (podmíněnné maticí vysvětlujících proměnných X) odpovídá normálnímu rozdělení. Pro řadu aplikací je tento předpoklad nereálný. Tato kapitola je tedy věnována určitým typům dat (a na nich založených modelům), pro které není použití normálního lineárního regresního modelu adekvátní. Ukážeme si však, že je možné koncept normální lineárního regresního modelu rozšířit do takové podoby, že již bude příměřená těmto „nestandardním typům dat. „Nestandardními typy je zde myšleno to, že vysvětlovaná proměnná je kvalitativní povahy případně je nějakým způsobem omezena. Jako malou ilustraci je možno na úvod zmínit příklad z ekonomie dopravy. Může nás zajímat, proč někteří lidé volí jako dopravní prostředek pro svou cestu do práce auto a proč jiní cestují za prací veřejnou dopravou. Data, na kterých je takováto analýza postavena obvykle pocházejí z nějakého druhu výběrového (dotazníkového) šetření, kdy jsou respondenti dotazováni na to,jestli do práce jezdí autem nebo veřejnou dopravou a současně s tím poskytují o sobě i další více či méně osobnější údaje (např. jak daleko to do práce z domova mají, jaká je jejich mzda atd.). Pokud bychom chtěli sestavit regresní model, byly by vysvětlujícími proměnnými právě tyto osobní charakteristiky. Vysvětlovaná proměnná by však měla kvalitativní podobu. Jednalo by se o umělou proměnnou, která by nabývala hodnoty 1, pokud respondent dojíždí do práce autem, a hodnotu 0, pokud volí hromadnou dopravu. Bylo by asi dosti naivní předpokládat, že takováto umělá proměnná 158 Modely kvalitativních a omezených vysvětlovaných proměnných (podmíněná vysvětlujícími proměnnými) bude pocházet z normálního rozdělení. Jako druhý příklad uvažujme teoretický model, který zkoumá závislost žádoucí úrovně investic nějaké firmy na jejich různých charakteristikách. V odpovídajícím empirickém modelu tak bude požadovaná úroveň investic firmy vysvětlovaná proměnná a vysvětlující proměnné budou ony různé charakteristiky firmy. V praxi jsou však data o požadovaných investicích zřídka kdy dostupná. Místo toho pozorujeme skutečně realizované investice firmy. Pokud nepřipadají v úvahu negativní investice, potom je aktuální úroveň investic rovna požadovaným investicím jen v případě, pokud jsou požadované investice kladné. Negativní hodnota požadovaných investic odpovídá nulovým hodnotám skutečných investic. Pokud bychom tak pro regresní analýzu využívali skutečné investice jako závisle proměnnou, dopouštěli bychom se vážné chyby (právě z toho důvodu že nulové skutečně pozorované investice neodpovídají nulovým požadovaným investicím). V tomto případě je totiž závisle proměnná omezená (censored). Jedná se o příklad modelu s omezenou vysvětlovanou proměnnou (limited dependent variable). Oba tyto příklady implikují to, že model obsahuje latentní (nepozorovanou) závisle proměnnou, u které můžeme vcelku rozumně předpokládat její normalitu. V prvním příkladě odpovídají tato latentní data užitku, který svou volbou toho či onoho dopravního prostředku dosahuje každý z dotazovaných respondentů. V druhém případě je latentní proměnnou požadovaná úroveň investic. Bohužel však v žádném z těchto příkladů nejsme schopni latentní data zcela perfektně pozorovat. V prvním případě pozorujeme jen skutečnou volbu respondenta, ne užitek, který mu tato volba přináší. V druhém případě pozorujeme latentní proměnnou v omezené (cenzorované) podobě. To, že jsme schopni tyto příklady interpretovat ve vztahu k latentním datům, nám dává vodítko k tomu, jak přistupovat k bayesovské analýze tohoto problému. Podmíníme-li naše analýzy latentními daty, bude se v každém případě jednat o normální lineární regresní model a techniky z předchozích kapitol budou více než využitelné pro posteriorní simulaci. Budeme-li schopni odvodit podmíněnou posteriorní hustotu latentních dat podmíněnou skutečně pozorovanými daty a parametry modelu, jsme schopni v rámci bayesovské analýzy nasadit Gibbsův vzorkovač s obohacenými daty (data augmentation)29 . To je přesně postup identifikace modelů v této kapitole. V další části bude trochu formálněji vyjádřen postup naznačený v předchozích odstavcích. Bude ukázáno, jak lze tuto obecnou strategii implementovat do tří typových modelů známých jako tobit, probit a uspořádaný (ordered) probit. Dále budeme předpokládat případ, kdy je vysvětlovaná proměnná vícerozměrná a zaměříme se na model známý jako multinomiální (multinomial) probit. Bayesovská analýza modelů tobit, probit a uspořádaný probit zahrnuje kombinaci metod pro normální lineární regresní model s modelem spojujícím latentní a pozorovaná data. Bayesovská analýza multinomiálního probit modelu je po- 29Jen pro připomenutí, pod pojmem data augmentation je obvykle chápána metoda pro konstrukci iterativních algoritmů skrze zavedení nepozorovaných dat či latentních proměnných (resp. latentních dat). Jako český ekvivalent metodám s data augmentation budu používat metody s „obohacenými daty či „pomocnými proměnnými (auxiliary variables). 9.2 Jednorozměrné modely 159 dobná s tou výjimkou, že normální lineární regresní model je nahrazen modelem zdánlivě nesouvisejících regresí (SUR). Přestože klíčovým prvkem této kapitoly bude (normální) lineární regrese (a zaměříme se tak na třídy modelů tobit a probit), je třeba zdůraznit, že existuje celá řada dalších modelů využívaných pro práci s kvalitativními a omezenými vysvětlovanými proměnnými, přičemž tyto modely již nejsou úzce spjaty s normálním lineárním regresním modelem. K těmto modelům existuje velm pestrá literatura. Jako příklad využití multinomiálních probit modelů s panelovými daty zmiňme oblast marketingu, pro kterou je tento typ modelů zcela běžný. 9.2 Jednorozměrné modely pro kvalitativní a omezené vysvětlované proměnné Pro začátek vyjděme z nám dobře známého normálního regresního modelu. V rámci značení však učiníme drobnou změnu, a to takovou, že vysvětlovaná proměnná bude označována jako y∗ = (y∗ 1, . . . , y∗ N ) . Model tak zapíšeme jako y∗ i = xiβ + i, (9.1) kde xi = (1, xi2, . . . , xik) . V maticovém vyjádření je značení y∗ = Xβ + . (9.2) Na vektor náhodných složek budeme klást standardní předpoklady, tedy 1. vektor náhodných složek je z vícerozměrného normálního rozdělení se střední hodnotou 0N a kovarianční maticí h−1 IN , 2. všechny prvky matice X jsou pevná čísla (tj. nenáhodné veličiny). V případě náhodných veličin předpokládáme, že tyto jsou nezávislé na všech prvcích vektoru a jejich funkce hustoty pravděpodobnosti je p(X|λ), kde λ je vektor parametrů, který neobsahuje β ani h. Jestliže bychom byli schopni veličinu y∗ pozorovat, analýza by probíhala v intencích předchozích kapitol. V této kapitole však budeme předpokládat, že y∗ obsahuje nepozorovaná, latentní data, která jsou nějakým způsobem propojena se skutečně pozorovanými daty obsaženými ve vektoru y. Aby byla zaručena „funkčnost dále popisovaných metod, musíme předpokládat, že vztah mezi y∗ a y je takový, že p(β, h|y∗ , y) = p(β, h|y∗ ) (pokud pracujeme s přirozeně konjugovanou apriorní hustotou jako v kapitole 3) nebo p(β|y∗ , y, h) = p(β|y∗ , h) a p(h|y∗ , y, β) = p(h|y∗ , β) (pracujeme-li s nezávislou normální-gama apriorní hustotou jak je tomu v kapitole 4). Tyto podmínky nám neříkají nic jiného než to, že pokud bychom pozorovali y∗ , nepřineslo by nám dodatečné pozorování y žádnou novou informaci. Tato podmínka je platná pro celou řadu užitečných modelů včetně těch diskutovaných v této kapitole. 160 Modely kvalitativních a omezených vysvětlovaných proměnných Pokud jsou tedy výše uvedené podmínky pro vztah mezi y a y∗ splněny, je možno provést bayesovskou analýzu s využitím Gibbsova vzorkovače s obohacenými daty. V případě neinformativní apriorní hustoty (popř. její neinformativní verze) provádí posteriorní simulátor postupné výběry z p(β, h|y∗ ) a p(y∗ |y, β, h). V případě nezávislé normální-gama apriorní hustoty je posteriorní simulace založena na postupných výběrech z p(β|y∗ , h), p(h|y∗ , β) a p(y∗ |y, β, h). V obou případech je jedinou novou podmíněnou hustotou, kterou musíme odvodit (ostatní odpovídají těm z kapitol 3 a 4), hustota p(y∗ |y, β, h). Z tohoto důvodu se zaměříme pouze na tuto podmíněnou hustotu. 9.3 Tobit model Tobit model je jednoduchým příkladem modelu, ve kterém jsou data nějakým způsobem omezena. Příkladem může být v úvodu kapitoly naznačeny problém skutečných investic, které jsou omezeným pozorováním požadované úrovně investic. Tento případ tedy uvažuje vztah mezi y a y∗ v podobě yi = y∗ i pokud y∗ i > 0 yi = 0 pokud y∗ i ≤ 0 (9.3) Asi není překvapením, že pokud bychom znali y∗ , potom bychom znali rovněž i y. Z tohoto důvodu by p(β, h|y∗ ) = p(β, h|y, y∗ ) a mohli bychom pro získání výběrů z podmíněné posteriorní hustoty parametrů (podmíněné y∗ ) snadno využít výsledky z kapitol 3 a 4. Nicméně většinou tato optimistická varianta nenastává a musíme tudíž odvodit p(y∗ |y, β, h) pro využití Gibbsova vzorkovače. Posteriorní hustotu latentních dat podmíněnou parametry modelu lze odvodit vcelku jasným způsobem. Poznamenejme nejprve, že jsme předpokládali, že náhodné chyby jsou vzájemně nezávislé a tudíž i latentní data budou mít stejnou vlastnost. Můžeme tak psát p(y∗ |y, β, h) = N i=1 p(y∗ i |yi, β, h) a zameřit se tím na p(y∗ i |yi, β, h). Musíme vzít do úvahy dva prípad, a to případ kdy yi > 0 a případ, kdy yi = 0. První z nich je jednoduchý: pokud je yi > 0, potom máme y∗ i = yi. Formálně řečeno, jestliže je yi > 0, potom je podmíněná posteriorní hustota pro y∗ i degenerovaná hustota s veškerou pravděpodobností směřovanou do bodu y∗ i = yi. Druhý případ lze řešit kombinací (9.1) (tzn. skutečností, že nepodmíněná hustota y∗ i je normální) s faktem, že yi = 0 implikuje nerovnost y∗ i ≤ 0. Proměnná y∗ i má omezené normální rozdělení v případě, kdy yi = 0. Formálně tak můžeme zapsat p(y∗ i |yi, β, h) jako y∗ i = yi pokud yi > 0 y∗ i |yi, β, h ∼ N(xiβ, h−1 )1(y∗ i < 0) pokud yi = 0 (9.4) přičemž 1(y∗ i < 0) je indikační funkce, která je rovna jedné pro y∗ i < 0 a nule jinak. 9.4 Probit model 161 Posteriorní analýza tobit modelu může být úspěšně provedena za pomocí Gibbsova vzorkovače, který kombinuje výsledky předchozích kapitol s (9.4). Lze zde aplikovat všechny doposud probírané nástroje pro porovnání modelů a predikci využívajících MCMC algoritmus. Savage-Dickey density ratio využijeme k výpočtu Bayesova faktoru porovnávajícího různé modely, případně jako alternativu lze pro výpočet matginální věrohodnosti tobit modelu použít Chibovu metodu. Predikční analýza je opět zřejmou aplikací výsledků popsaných v části 4.1.6. Nesmíme samozřejmě zapomenout na ověření konvergence pomocí konvergenčních diagnostik. V této části jsme předpokládali případ, kdy omezení (cenzoring) závisle proměnné nastává při nulové hodnotě. Stačí však vcelku triviální rozšíření výše uvedeného modelu, abychom umožnili omezení vysvětlované proměnné při nějaké známé hodnotě c. Stejně tak je možné omezit závisle proměnnou ve známých hodnotách zhora i zdola. Všechna taková rozšíření znamenají toliko změnu bodu(-ů) omezení v rovnici (9.4). Případ, kdy k omezení dochází při nějaké hodnotě c, která je ovšem neznámým parametrem je trochu složitější rozšíření výše uvedeného modelu. Nicméně i tento problém lze řešit pomocí dodatečného bloku v rámci Gibbsova vzorkovače. Příkladem aplikace takovéhoto rozšíření tobit modelu ukazuje Li [23]. 9.3.1 Empirická ilustrace: tobit model BUDE ČASEM DOPLNĚNO! 9.4 Probit model Probit model se obvykle používá v situacích, kdy je vysvětlovaná proměnná kvalitativního ražení indikující výsledek v rámci jedné či dvou kategorií (např. jednotlivec cestuje do práce vlastním automobilem nebo veřejnou dopravou). Motivace tohoto typu modelu je založena na tom, že jednotlivec provádí v rámci svého rozhodování nějaký druh volby. Samozřejmě probit model je možno využít i v kontextu, kdy je závisle proměnná umělou proměnnou nabývající hodnoty nula nebo jedna. Předpokládejme nicméně, že se jednotlivec rozhoduje mezi dvěma alternativami. Ekonomickou formalizací takovéto situace by byla specifikace užitkové funkce. Nechť tedy Uij je užitek, který jednotlivec i (pro i = 1, . . . , N) přiřazuje volbě j (pro j = 0, 1). Jednotlivec tak provede volbu 1 tehdy, pokud U1i ≥ U0i a volbu 0 jinak. Výběr tak závisí na rozdílu v užitcích vycházejících z volby jednotlivých alternativ. Tento rozdíl můžeme definovat jako y∗ i = U1i − U0i Probit model předpokládá, že tento rozdíl v užitcích lze vysvětlit normálním lineárním regresním modelem definovaným rovnicemi (9.1) nebo (9.2). To tedy znamená, že rozdíl v užitcích jednotlivců závisí na pozorovaných charakteristikách v xi (např. vzdálenost do práce, úroveň platu, atd.) a chybovém členu, 162 Modely kvalitativních a omezených vysvětlovaných proměnných o kterém předpokládáme, že má normální rozdělení. Díky této náhodné chybové složce jsou probit model a další podobné modely nazývány jako modely náhodného užitku (random utility models). Problém je samozřejmě to, že nejsme schopni y∗ i pozorovat přímo. Jsme schopni pouze pozorovat konkrétní volbu, kterou jednotlivec i provede. Stejně jako v tobit modelu můžeme y∗ chápat jako proměnnou obsahující latentní data. Na tomto základě samozřejmě budeme schopni k bayesovské analýze použít Gibbsův vzorkovač s obohacenýmih dat. Z důvodů diskutovaných v části (9.2) potřebujeme odvodit pouze podmíněnou hustotu pro y∗ , tedy p(y∗ |y, β, h). V rámci probit modelu má vztah mezi y a y∗ podobu lclyi = 1 pokud y∗ i ≥ 0 yi = 0 pokud y∗ i < 0 (9.5) Opět lze okamžitě vidět, že bychom při znalosti y∗ znali rovněž i y, a z tohoto důvodu by bylo p(β, h|y∗ ) = p(β, h|y, y∗ ). Mohli bychom tak pro získání výběrů z podmíněné posteriorní hustoty parametrů (podmíněné y∗ a závisející na zvolené apriorní hustotě) snadno využít výsledky z kapitol 3 a 4. Podobu podmíněné hustoty p(y∗ |y, β, h) lze odvodit podobným způsobem jako v rámci tobit modelu. Nezávislost pozorování mezi jednotlivci implikuje p(y∗ |y, β, h) = N i=1 p(y∗ i |yi, β, h) a stačí se tak zaměřit na p(y∗ i |yi, β, h). Předpoklady vyřčené v rámci normálního lineárního regresního modelu implikují, že i hustota p(y∗ i |β, h) odpovídá normálnímu rozdělení. K získání p(y∗ i |yi, β, h) stačí zkombinovat tento výsledek s informací obsaženou v yi. Pokude je yi = 1, potom získáme normální rozdělení omezené zleva v hodnotě 0. Pokud je naopak yi = 0, potome získáme normální rozdělení omezené zprava ve stejné nulové hodnotě. Precizněji to lze vyjádřit následovně: y∗ i |yi, β, h ∼ N(xiβ, h−1 )1(y∗ i ≥ 0) pokud yi = 1 y∗ i |yi, β, h ∼ N(xiβ, h−1 )1(y∗ i < 0) pokud yi = 0 (9.6) Posteriorní analýzu tak lze provést pomocí Gibbsova vzorkovače využívajícím obohacená data, kterým postupně generujeme výběry z (9.6) a p(β, h|y∗ ) (opět zde využijeme poznatky z kapitol 3 popř. 4). Porovnání model a predikce může být snadno implementována s využitím dříve uváděných nástrojů. K samotným odhadům prametrů je často užitečné uvádět i informaci o pravděpodobnostech jednotlivých voleb. Tyto pravděpodobnosti lze odvodit z posteriorního rozdělení parametrů, pokud vezmeme v úvahu skutečnost, že pro určité hodnoty parametrů platí Pr(yi = 1|β, h) = Pr(y∗ i ≥ 0|β, h) (9.7) = Pr(xiβ + i ≥ 0|β, h) = Pr( √ h i ≥ − √ hxiβ|β, h) 9.4 Probit model 163 Protože jsou chybové členy normálně rozdělené, je poslední člen v rovnici (9.7) roven rozdílu jedničky a kumulativní distribuční funkce standardizovaného normálního rozdělení (tj. √ h i odpovídá N(0, 1)). Pokud budeme definovat kumulativní distribuční funkci standardizovaného normálního rozdělení jako Φ(a), potom pravděpodobnost volby alternativy 1 bude rovna výrazu 1−Φ(− √ hxiβ). Členy ve vztahu (9.7) jsou funkcemi parametrů modelu, čímž lze jejich posteriorní charakteristiky vypočítat standardně s využitím výstupu Gibbsova vzorkovače. Použitím značení z kapitoly 4, části 4.1, odpovídají členy rovnice (9.7) výrazu g(θ) pro specifickou volbu funkce g(). Rovnice (9.7) ilustruje identifikační problém, se kterým jsme se nesetkali u tobit modelu. O identifikačním problému hovoříme tehdy, pokud více hodnot parametrů modelu způsobí stejnou hodnotu věrohodnostní funkce. V rámci probi modelu existuje nekonečný počet hodnot parametrů β a h, které vedou přesně k totožnému modelu. To si můžeme lehce vybavit, pokud si uvědomíme, že Pr(xi β + i ≥ 0|β, h) = Pr(xicβ +c i ≥ 0|β, h) pro jakoukoli kladnou konstantu c. Protože transformovaná náhodná veličina c i má rozdělení N(0, c2 h−1 ), jedná se o totožné probit modely, lišící se jen různými koeficienty a přesností chyb. Ekvivalentním způsobem důkazu tohoto tvrzení by bylo vyjádření a porovnání příslušných věrohodnostních funkcí. Lze tak ukázat, že hodnota věrohodnostní funkce je totožná pro hodnoty (β = β0, h = h0) a (β = cβ0, h = h0 c2 ), přičemž β0 a h0 jsou arbitrárně zvolené hodnoty pro β a h. Jinými slovy, probit model není schopen rozlišit odděleně β a h, je schopen pouze identifikovat součin β √ h. Z ekonomického úhlu pohledu není tento závěr překvapující, protože s podobnou vlastností se lze setkat u užitkové funkce. Pokud je např. U(x) užitková funkce definovaná na množině kombinací zboží x, potom i cU(x) vyjádří naprosto identické spotřebitelské preference týkající se rozhodování mezi jednotlivými kombinacemi statků. Řešením tohoto problému v rámci probit modelu je nastavení h = 1 (jak tomu je v empirické ilustraci). Alternativním řešením je nastavení jednoho z prvků vektoru β na pevně danou hodnotu (např. nastavení jednoho z koeficientů na hodnotu 1). Ovšem takovéto řešení vyžaduej to, abychom znali znaménko příslušného koeficientu. Pokud totiž nastavíme jeden z koeficientů na hodnotu 1, implikuje nám to, že tato vysvětlující proměnná bude mít pozitivní efekt na úroveň užitku (tzn. vysoké hodnoty této proměnné zvýší pravděpodobnost provedení volby 1). V praxi je tento druh informace (pokud jde o znaménko) zřídka dostupný, a tak je obvykle preferováno normalizování parametru h na hodnotu jedna, tedy h = 1. 9.4.1 Empirická ilustrace: probit model BUDE ČASEM DOPLNĚNO! 164 Modely kvalitativních a omezených vysvětlovaných proměnných 9.5 Uspořádaný probit model Probit model dovoluje dvě alternativy (např. člověk jezdící do práce volí mezi autem nebo veřejnou dopravou). Řada empirických aplikací však zahrnuje tři nebo více alternativ (cestovat do práce se dá třeba i na kole). V další části bude řeč o multinomiálním probit modelu, který obecně dovoluje zahrnutí více alternativ. Ještě před tím si však zavedeme pojem uspořádaný probit model (ordered probit model), který je jednoduchým rozšířením probit modelu z předchozí kapitoly. Uspořádaný probit model dovoluje volbu mezi několika laternativami, ovšem tyto alternativy mají specifickou podobu. Ta spočívá v tom, že tyto alternativy jsme schopni jednoznačně seřadit v ordinálním slova smyslu (což samozřejmě v řadě aplikací nemusí být rozumné). Ovšem v mnoha situacích existuje jejich logické seřazení, z čehož vyplývá, že uspořádaný probit model může být vcelku kvalitním řešením problému. Představme si takový marketingový průzkum, ve kterém jsou spotřebitelé dotazováni na své názory ohledně nějakého konkrétního produktu, přičemž volí mezi alternativami “velmi špatný”, “špatný”, “neutrální”, “dobrý”, “velmi dobrý”. V tomto případě má těchto pět možností vcelku logické pořadí od “velmi špatný” po “velmi dobrý”. V ekonomi práce se uspořádaný probit model využívá k analýze pracovních úrazů, kdy je zraněný pracovník ohodnocen dle vážnosti úrazu (datová množina tak obsahuje řadu kategorií od lehkých zranění, až po zranění velmi vážná). K popisu uspořádaného probit modelu je nutné zobecnění dosavadního značení. Model lze intepretovat jako normální lineární regresní model, kdy je vysvětlovaná proměnná latentní (jako v (9.2)). Stejně jako v předchozích částech je klíčový vztah mezi y∗ a y. V uspořádaném probit modelu nabývá yi hodnoty j = 1, . . . , J, kde J je počet uspořádaných alternativ a získáváme tak vztah yi = j pokud γj−1 < y∗ i ≤ γj (9.8) kde γ = (γ0, γ1, . . . , γJ ) je vektor parametrů, přičemž γ0 ≤ . . . ≤ γJ . Stejným způsobem jako ve vztahu (9.7) můžeme využít předpokladů normality regresního modelu pro latentní data k vyjádření pravděpodobnosti volby jednotlivých alternativ. Podobně jako v probit modelu je nutno zavést omezení pro identifikovatelnost parametru. Budeme tak předpokládat omezení h = 1. Dostáváme tak Pr(yi = j|β, γ) = Pr(γj−1 < y∗ i ≤ γj|β, γ) = (9.9) Pr(γj−1 < xiβ + i ≤ γj|β, γ) = Pr(γj−1 − xiβ < i ≤ γj − xiβ|β, γ) Protože chybové členy i pocházejí z N(0, 1), odpovídají pravděpodobnosti volby kumulativní distribuční funkci standardizovaného normálního rozdělení. Konkrétně, při značení definovaném v rámci vztahu (9.7) dostáváme Pr(yi = j|β, γ) = Φ(γj − xiβ) − Φ(γj−1 − xiβ) (9.10) (9.11) Uspořádaný probit počítá pravděpodobnosti volby pro každého jednotlivce tak, že vyjdeme z normálního rozdělení (jehož integrál přes všechny meze je 9.5 Uspořádaný probit model 165 roven jedné) a zvolíme γ0, . . . , γJ takovým způsobem, abychom rozdělili pravděpodobnost mezi všechny možnosti volby. S využitím této intuice je zřejmé, že bude potřeba mít více restrikcí pro identifikaci parametrů. Předpokládejme případ, kdy J = 3 a pravděpodobnost tak musí být rozdělena mezi tři alternativy. Představme si normální rozdělení, v rámci kterého si můžeme volně zvolit jeho střední hodnotu (tj. xi β) a čtyři body v oblasti normálního rozdělení (tj. γ0, γ1, γ2 a γ3). Existuje celá řada různých způsobů, jak zvolit tyto parametry abychom dostali dané rozdělení pravděpodobnosti mezi jednotlivé alternativy. Předpokládejme, že xi obsahuje pouze úrovňovou konstantu a budeme chtít Pr(yi = 1|β, γ) = 0.025, Pr(yi = 2|β, γ) = 0.95 a Pr(yi = 3|β, γ) = 0.025. Toho můžeme dosáhnout tak, že β = 0, γ0 = −∞, γ1 = −1.96, γ2 = 1.96 a γ3 = ∞. Ovšem totožné pravděpodobnosti volby získáme pro β = 1, γ0 = −∞, γ1 = −1.96, γ2 = 1.96 a γ3 = ∞ a řadu dalších voleb hodnot parametrů. A tak tu máme samozřejmě identifikační problém. Standardní způsob řešení tohoto problému je nastavení γ0 = −∞, γ1 = 0 a γJ = ∞. Pochopit nutnost omezení parametrů z identifikačních důvodů je možno i alternativně tak, že se vrátíme k předchozímu jednoduchému probit modelu. Tento model je ekvivalentní uspořádanému probit modelu s J = 2. Lze ověřit, že se vztahy (9.8) a (9.9) zredukují na své probitovské ’ ekvivalenty ve vztazích (9.5) a (9.7) v případě, kdy γ0 = −∞, γ1 = 0 a γ2 = ∞, což jsou přesně ona identifikační omezení zavedená v předchozím odstavci. Stejně jako v probit modelu si můžeme y∗ představit jako úroveň užitku. Protože jsou jednotlivé alternativy jednoznačně uspořádány, je celkem rozumné modelovat pravděpodobnosti volby založené na svých latentních užitcích způsobem, jakoby se jednalo o integrály postupně na sebe navazujících oblastí normálního rozdělení. Představme si tak náš marketingový případ, kdy je spotřebitel dotazován na svůj užitek, který získává spotřebou nějakého zboží a musí volit z alternativ „velmi špatný , „špatný , „neutrální , „dobrý , „velmi dobrý . Předpokládejme y∗ i , což je takový užitek i-tého spotřebitele, který ho vede k vyjádření alternativy, že produkt je špatný . Pokud se užitek spotřebitele mírně zvýší, potom je uspořádáním kategorií myšleno to, že spotřebitel řekne, že produkt je pro něj nyní „neutrální (nebo zůstane u stávající volby, a to té, že se stíle jedná o produkt „špatný ). S uspořádaným probit modele neexistuje možnost, že se mírná změna v užitku náhle promítne do změny názoru na produkt ve smyslu volby „velmi dobrý . Je nutné skutečně zdůraznit, že omezení užitku tímto způsobem dává smyslu jen tehdy jestliže se bude jednat o uspořádané kategorie příslušných alternativ. Pokud spotřebitel volí mezi několika neuspořádanými alternativami, je adekvátní modelovou volbou multinomiální probit model. Bayesovská analýza uspořádaného modelu využívá Gibbsův vzorkovač s obohacenými daty, v rámci něhož jsou postupně generovány výběry z p(β|y∗ , γ), p(γ|y∗ , y, β) a p(y∗ |y, β, γ). Stejně jako u probit modelu odpovídá podmíněná hustota p(β|y∗ i , γ) normálnímu rozdělení, samozřejmě za podmínky, že jsme jako apriorní hustotu pro vektor parametrů β využili normální rozdělení popřípadě neinformativní apriorní hustotu (viz kapitola 3, kdy ovšem předpokládáme, že h = 1). Podmíněná hustota latentních dat p(y∗ i |yi, β, γ) odpovídá ohraničené 166 Modely kvalitativních a omezených vysvětlovaných proměnných normální hustotě pravděpodobnosti, která je jednoduchým rozšířením vztahu (9.6): y∗ i |yi = j, β, γ ∼ N(xiβ, 1)1(γj−1 < y∗ i ≤ γj) (9.12) To co je u uspořádaného probit modelu nové, je podmíněnná hustota pro γ, tedy p(γ|y∗ i , yi, β). Pro každý z těchto parametrů využijeme nepravou apriorní hustotu mající charakter nekonečně širokého rovnoměrného rozdělení, tj. p(γj) ∝ c. S mírnými modifikacemi je možné využít i jiné typy apriorních hustot. Tento druh prioru umožňuje snadnější současné výběry každého prvku vektoru γ. Připoměňme si, že identifikovatelnost parametrů vyžaduje volbu γ0 = −∞, γ1 = 0 a γJ = ∞ a je tak obvyklejší generovat náhodné výběry z p(γj|y∗ , y, β, γ(−j)) pro j = 2, . . . , J − 1. Označení γ(−j) vyjadřuje vektor γ bez prvku γj, tzn. γ(−j) = (γ0, . . . , γj−1, γj+1, . . . , γJ ) . Podmíněnou hustotu p(γj|y∗ , y, β, γ(−j)) lze snadno odvodit, vezmeme-li v úvahu několik jednoduchých skutečností. Za prvé, tato hustota je podmíněna vektorem γ(−j) a víme tedy, že γj musí ležet v intervalu [γj−1, γj+1]. Za druhé, hustota je podmíněna jak vektorem y, tak i y∗ a můžeme si tak ujasnit, jaké hodnoty latentních dat odpovídají příslušným hodnotám skutečných dat. Za třetí, v argumetnech podmíněné hustoty není přítomna žádná další informace o γj. Tyto skutečnosti nám impikují rovnoměrné rozdělení: γj|y∗ , y, β, γ(−j) ∼ U(γj−1, γj+1) (9.13) pro j = 2, . . . , J − 1, přičemž γj−1 = max {max {y∗ i : yi = j}, γj−1} a γj+1 = min {min {y∗ i : yi = j + 1}, γj+1} Označení max {y∗ i : yi = j} označuje maximální hodnotu latentních dat mezi všemi jednotlivci, kteří si zvolili alternativu j. Výraz min {y∗ i : yi = j + 1} je definován analogickým způsobem. Shrneme-li si dosavadní poznatky, posteriorní analýzu uspořádaného probit modelu lze provést pomocí Gibbsova vzorkovače s obohacenými daty, kterým provádíme sekvenřní výběry z (9.12), (9.13) a p(β|y∗ ). Poslední hustota odpovídá normálnímu rozdělení, pokud budeme předpokládat normální či neinformativní apriorní hustotu a přesnost chyby h = 1. Porovnání modelů a predikce může být implementována pomocí standardních, v předcházejících kapitolách rozebíraných nástrojů. V závislosti na porovnávaných modelech lze využít buď Savage-Dickey density ratio nebo Chibovu metodu. Predikční analýza je implementována podobně jako je tomu v kapitole 4. Konvergenčními diagnostikami je třeba ověřit konvergenci Gibbsova vzorkovače. 9.6 Multinomiální probit model Existují případy, kdy jednotlivci mohou volit mezi několika alternativami, nicméně zde nebude existovat jejich logické uspořádání. V takovýchto případech 9.6 Multinomiální probit model 167 si s uspořádaným probit modelem nevystačíme. Zavedem si tedy multinomiální probit model, který je asi nejvíce využívaným modelem v případech, kdy uvažujeme několik neuspořádaných alternativ. Na úvod si trochu upravíme značení předchozích částí kapitoly. Budeme předpokládat, že yi může nabývat hodnot {j = 0, . . . , J}. Máme tedy celkem J + 1 alternativ indexovaných jako {j = 0, . . . , J}, kdy J > 1. Pro motivaci zavádění multinomiálního probit modelu si můžeme rozšířit předchozí případ konceptu „náhodných užitků . Výběr jednotlivce nezáleží na absolutní hodnotě užitku spjené s danou alternativou, ale na relativním užitku vzhledem k ostatním alternativám. Nechť Uji je užitek i-tého jednotlivce volícího alternativu j (pro i = 1, . . . , N a j = 0, . . . , J). Veškerá informace o volbě, která byla ve skutečnosti učiněna, je obsažena v rozdílech užitků vzhledem k nějaké základní alternativě. Zvolíme si alternativu 0 jako základní volbu a definujeme latentní proměnnou diferencí užitků jako y∗ ji = Uji − U0i pro j = 1, . . . , J. Multinomiální probit model předpokládá, že tento rozdíl užitků lze popsat normálním lineárním regresním modelem: y∗ ji = xjiβj + ji (9.14) kde xji je kj-rozměrný vektor obsahující vysvětlující proměnné, které ovlivňují užitek spojený s volbou j (relativně vzhledem k volbě 0), βj je odpovídající vektor regresních koeficientů a ji je chybový člen regrese. Protože rovnice (9.14) zahrnuje J rovnic, bude posteriorní simulátor kombinovat výsledky pro model zdánlivě nesouvisejících regresí (SUR) s metodami poskytujícími výběry pro latentní rozdíly užitků. Bude tedy užitečné přepsat vztah (9.14) do podoby SUR modelu. Všechny rovnice tak dáme do společných vektorů a matic, konkrétně y∗ i = (y∗ 1i, . . . , y∗ Ji) , i = ( 1i, . . . , Ji) , β =     β1 · · βJ     Xi =       x1i 0 · · 0 0 x2i 0 · · · · · · · · · · · 0 0 · · 0 xJi       Definujme k = J j=1 kj a y∗ i = Xiβ + i (9.15) Pokud dále budeme definovat y∗ =     y∗ 1 · · y∗ N     =     1 · · N     X =     X1 · · XN     můžeme zapsat multinomiální probit model (pomocí latentních rozdílů užitků) jako y∗ = Xβ + (9.16) 168 Modely kvalitativních a omezených vysvětlovaných proměnných Rovnice (9.16) je v podobě SUR modelu a můžeme tak využít standardní předpoklady kladené na náhodné složky SUR modelu. Předpokládáme tedy, že i jsou nezávisle a stejnoměrně rozdělena, přičemž jejich rozdělení odpovídá N(0, H−1 ) pro i = 1, . . . , N, kdy H je matice přesností chyb rozměrů J × J. Alternativní možností vyjádření těchto předpokladů je tvrzení o tom, že rozdělení vektoru odpovídá N(0, Ω), kde Ω je blokově diagonální matice rozměru NJ × NJ. Ω =       H−1 0 · · 0 0 H−1 · · · · · · · · · · · · 0 0 · · 0 H−1       (9.17) Jakožto ekonometři nepozorujeme y∗ ji přímo, nicméně pozorujeme yi, kdy platí yi = 0 pokud max (y∗ i ) < 0 yi = j pokud max (y∗ i ) = y∗ ji ≥ 0 (9.18) přičemž max (y∗ i ) je maximum J-rozměrného vektoru y∗ i . Jednotlivce tak volí tu či onu alternativu, která bude maximalizovat jeho užitek, ale my pozorujeme pouze jeho volbu. Připomeňme si, že jsem v rámci jednorozměrného probit modelu kombinovali normální lineární regresní model se specifikací pro latentní data y∗ . Pro bayesovskou analýzu jsme následně využili Gibbsův vzorkovač s obohacenými daty, v rámci něhož jsme generovali výběry z podmíněných hustot p(β|y∗ ) a p(y∗ |y, β). V kontextu multinomiálního probit modelu využijeme podobnou strategii, kdy budeme kombinovat výsledky identifikace SUR modelu spolu se specifikací latentních dat. Odvodíme si tak Gibbsův vzorkovač, který využívá výsledků z kapitoly 6, části 6.6, pro získání výběrů z p(β|y∗ , H) a p(H|y∗ , β), a jistou podobu vícerozměrného ohraničeného normálního rozdělení pro podmíněnou hustotu p(y∗ |y, β, H). Metody generování výběrů z p(y∗ |y, β, H) lze odvodit v podobném duchu jako v případě tobit nebo probit modelu. Nezávislost chování mezi jednotlivci implikuje p(y∗ |y, β, H) = N i=1 p(y∗ i |yi, β, H) díky čemuž se můžeme zaměřit jen na p(y∗ i |yi, β, H). Rovnice (9.15) nám napovídá, že p(y∗ i |β, H) odpovídá normální hustotě pravděpodobnosti. Pokud toto tvrzení zkombinujeme s informací obsaženou v pozorovaných datech yi, získáme ohraničenou normální hustotu pravděpodobnosti, konkrétně pak lcly∗ i |yi, β, H ∼ N(Xiβ, H−1 )1(max (y∗ i ) < 0) pokud yi = 0 y∗ i |yi, β, H ∼ N(Xiβ, H−1 )1(max (y∗ i ) = y∗ ji ≥ 0) pokud yi = j (9.19) Ekonometrická analýza multinomiálního probit modelu byla mnoho let mimo oblast hlavního zájmu (jak z hlediska bayesovského, tak i klasického přístupu), 9.6 Multinomiální probit model 169 a to z důvodu výpočetních obtíží vztahujících se k ohraničenému normálnímu rozdělení. Bayesovský přístup vyžaduje generování vzorků z ohraničené vícerozměrné normální hustoty pravděpodobnosti, klasický přístup by pak vyžadoval výpočet integrálů nad různými oblastmi parametrického prostoru ohraničené vícerozměrné normální hustoty pravděpodobnosti. Problém nastával zejména v případě velkého počtu alternativ. Současné pokroky ve výpočetní technice však výrazně zjednodušují bayesovskou (i klasickou) analýzu multinomiálního probit modelu. Existují volně dostupné programové kódy pro generování výběrů z ohraničeného vícerozměrného normálního rozdělení zahrnující omezení v podobě lineárních nerovností. Jestliže využijeme pro vektory a matice parametrů, β a H, nezávislou normální-Wishartovu apriorní hustotu, můžeme provést bayesovskou nalýzu pomocí posteriorní simulace zahrnující postupné výběry z podmíněných hustot p(y∗ |y, β, H) (vztah (9.19)), p(β|y∗ , H) (což je normální rozdělení odpovídající rovnicím (6.49)-(6.51)) a p(H|y∗ , β) (což je Wishartovo rozdělení vycházející ze vztahů (6.52)-(6.54)). Vyvstává nám zde však problém týkající se identifikovatelnosti modelu. U jednorozměrného probit modelu byl tento problém řešen volbou h = 1. Tato podmínka je jednoduchá a významně zjednodušuje výpočet. V rámci multinomiálního probit modelu je však zahrnutí identifikačních omezení mnohem složitější a poněkud se tím komplikují i výpočetní postupy. Důvody, proč je multinomiální probit model neidentifikovatelný, jsou podobné jako u probit modelu. Pokud budeme definovat kovarianční matici chyb jako Σ = H−1 a označíme-li σij jako ij-tý prvek matice Σ, potom je standardním způsobem řešení identifikovatelnosti volba σij = 1. Za těchto podmínek však podmíněná hustota p(H|y∗ , β) nebude odpovídat Wishartovu rozdělení a nelze tak využít výsledky analýzy SUR modelu. Řadu způsobů řešení toto problému lze nalézt v literatuře. Například McCulloch a Rossi [25] jednoduše ignorují problém identifikovatelnosti a nepracují tak s předpokladem σ11 = 1. V tomto případě odpovídá podmíněná hustota p(H|y∗ , β) Wishartovu rozdělení a následné výpočty jsou tak jasné. Místo prezentace empirických výsledků pro parametry β prezentují autoři své výsledky pro identifikovanou kombinaci parametrů β σ11 . Někteří autoři však práci s neidentifikovanými modely nepreferují. Dosti nebezpečná je práce s neinformativními apriorními hustotami, kde nastávají výpočetní problémy. Velmi obvyklá je však bayesovská analýza multinomiálního probit modelu s využitím informativní apriorní hustoty ovšem s ignorováním identifikačních omezení. Pro ty, kdo chtějí pracovat pouze s identifikovanými modely nabízejí užitečný přístup McCulloch, Polson a Rossi [24]. Jejich regresní model předpokládá v (9.15), že i odpovídá N(0, Σ). Připomeňme si, že jakoukoli sdruženou hustotu pravděpodobnosti lze zapsat pomocí marginálních a podmíněných rozdělení. Na tomto základě je tedy možné rozdělit vektor i do podoby i = 1i υi 170 Modely kvalitativních a omezených vysvětlovaných proměnných kde υi = ( 2i, . . . , Ji) . Matice Σ je rozdělena podobným způsobem, konkrétně Σ = σ11 δ δ Συ (9.20) Zákony pravděpodobnosti nám říkají, že p( i) = p( 1i)p(υi| 1i). Z vlastností vícerozměrného normálního rozdělení lze vyvodit, že hustoty pravděpodobnosti p( 1i) a p(υi| 1i) odpovídají normálním rozdělením. Přesněji, 1i ∼ N(0, σ11) (9.21) a υi| 1i ∼ N( δ σ11 1i, Φ), (9.22) kde Φ = Συ − δδ σ11 . Místo přímé práce s kovarianční maticí chyb Σ rozměru J ×J můžeme pracovat s parametry σ11, δ a Φ. Jednoduše tak můžeme nastavit σ11 = 1, zvolit apriorní hustoty pro δ a Φ a odvodit Gibbsův vzorkovač. Je obvyklé předpokládat normální apriorní hustotu pro δ a Wishartovu apriorní hustotu pro Φ−1 . Volíme tedy p(δ, Φ−1 ) = p(δ)p(Φ−1 ) , kde p(δ) = fN (δ|δ, V δ) (9.23) a p(Φ−1 ) = fW (Φ−1 |νΦ, Φ−1 ) (9.24) S těmito apriorními hustotami McCulloch, Polson a Rossi [24] ukazují, že potřebné podmíněné hustoty pro Gibbsův vzorkovač jsou p(δ|y∗ , Φ, β) = fN (δ|δ, V δ) (9.25) a p(Φ−1 |y∗ , δ, β) = fW (Φ−1 |νΦ, Φ −1 ) (9.26) Jednotlivé parametry těchto podmíněných hustot jsou dány následovně: V δ = V −1 δ + Φ−1 N i=1 2 1i −1 δ = V δ V −1 δ δ + Φ−1 N i=1 υi 1i Φ −1 = Φ + N i=1 (υi − 1iδ)(υi − 1iδ) −1 υΦ = υΦ + N 9.7 Rozšíření probit modelů 171 Je nutné si uvědomit, že se jedná o podmíněné hustoty, kdy podmíněnost e dána vektory y∗ a β, tudíž lze využít vztah (9.15) a brát vektor i = ( 1i, υi) jako známý vektor. Shrneme-li si naše dosavadní poznatky, můžeme říct, že bayesiánskou analýzu multinomiálního probit modu lze snadno provést s využitím Gibbsova vzorkovače s obohacenými daty. Pokud ignorujeme odentifikační omezení, zahrnuje Gibbsův vzorkovaš postupné výběry z podmíněných hustot (9.16), (6.49) a (6.52). Budeme-li uvažovat identifikační omezení σ11 = 1, potom Gibbsův vzorkovač obnáší výběry z (9.16), (9.25), (9.26) a (6.49). Ve všech případech lze pro porovnání modelů a predikci využít nástroje z předcházejících kapitol. Je třeba upozornit, že v některých aplikacích byla zjištěna pomalá konvergence Gibbsova vzorkovače. V literatuře tak lze nalést práce zaměřené na efektivnější výpočetní algoritmy. V této podkapitole byly pro kovarianční matici chyb specifikovány dvoje rozdílné apriorní hustoty. Existuje však i řada jiných specifikací apriorních hustot, které lze s úspěchem využít. Multinomiální probit model je někdy kritizován pro svou přeparametrizovanost. To znamená, že pokud je počet alternativ velký, obsahuje kovarianční matice Σ příliš hodně parametrů, což může vést k nepřesným odhadům. Mnozí výzkumníci tak byli vedeni snahou o specifikaci omezených variant multinomiálního probit modelu nebo o rozvoj informativních priorů zahrnujících dodatečnou strukturalizaci modelu. Možností omezení je například omezení matice Σ na diagonální matici. Pokud je nějaké takové omezení rozumné, může významně snížit riziko přeparametrizování a zjednodušit praktické výpočty. 9.6.1 Empirická ilustrace: Multinomiální probit model BUDE ČASEM DOPLNĚNO! 9.7 Rozšíření probit modelů Asi není překvapivé, že existuje řada rozšíření modelů typu probit, uspořádaný probit a multinomiální probit. Jedním z nejvýznamnějších rozšíření zahrnuje využití panelových dat. Tento typ dat je obvykle dostupný v marketingu. Díky čtečkám čárových kódů v supermarketech je možné sledovat chování a výběry mnoha jednotlivců během jejich různých návštěv. Je navíc zřejmé, že se jednotlivci mohou lišit ve svých užitkových funkcí. To nám naznačuje možné využití modelu náhodných koeficientů z kapitoly 7 (část 7.4) pro latentní rozdíly v užitcích, a to v kontextu probit modelu. Například v případě, kdy existují dvě alternativy (tj. nějaký produkt je buď koupen nebo nekoupen) a k dipozici máme panelová data, lze rovnici pro normální lineární regresní model s latentní závisle proměnnou (viz (9.1)) zapsat v podobě y∗ it = xitβi + it. (9.27) 172 Modely kvalitativních a omezených vysvětlovaných proměnných K odvození podmíněných hustot p(βi|y∗ ) pro i = 1, . . . , N lze využít metody z kapitoly 7 zahrnující hierarchickou apriorní hustotu pro vektory parametrů βi, kterými je vyjádřena heterogenita spotřebitelů. Výraz pro p(y∗ it|yit, β) je jednoduchým rozšířením vztahu (9.6). Snadno tak lze opět využít Gibbsův vzorkovač s obohacenými daty. Bayesovská analýza panelového multinomiálního probitu náhodných koeficientů kombinuje odvození v rámci multinomiálního probit modelu, modelu náhodných koeficientů a SUR modelu. Další rozšíření můře vést k ošetření problémů či předpokladů spojených s časovými řadami, kam můžeme zařadit problém autokorelace náhodných chyb. Příkladem je tzv. multinomiální vícečasový probit model (multinomial multiperiod probit model). Důležitým poznatkem bayesiánství jako takového je skutečnost, že bayesovská analýza panelového probit modelu a jeho multinomiální varianty zahrnuje kombinací bloků Gibbsova vzorkovače pocházejících z jednodušších modelů předchozích kapitol. Bayesovská analýza je obvykle implementována s využitím posteriorních simulátorů, které obvykle pracují s bloky parametrů podmíněné ostatními bbloky. Takováto modulární povaha posteriorních simulátorů vede k snadné a intuitivní kombinaci částí (výsledků analýzy) různých modelů. Jakýkoliv probit (tobit) model je možno kombinovat s modelem či modely předchozích kapitol. Probit (tobit) model s nelineární regresní funkcí, heteroskedasticitou náhodných složek nebo jejich autokorelací lze vyvinout s využitím výsledků této kapitoly a příslušných kapitol předchozích. Všechna taková rozšíření podtrhují modulární charakter Gibbsova vzorkovače. 9.8 Další rozšíření V rámci celé této kapitoly jsme se zaměřili na modely, ve kterých vhodně definovaná latentní data (a jejich chování) mohou být vysvětlena pomocí normálního lineárního regresního modelu. Existuje ovšem celá plejáda jiných populárních modelů, které nelze zakomponovat do tohoto schématu. Většinu z nich lze zařadit do skupiny modelů, které mají charakter lineárních regresních modelů, nicméně náhodné chyby mají ne-normální rozdělení. Pokud je například vysvětlovaná proměnná počet něčeho (počet patentů registrovaných nějakou firmou, počet zemřelých doprovázející nějaký druh lékařského zákroku), potom předpoklad normálních chyb je zcela nevhodný. V takových případech je obvykle využíváno Poissonovo rozdělení. V případech, kdy je vysvětlovanou proměnnou doba trvání nějaké události (např. počet týdnů trvání nezaměstnanosti), je obvyklé využít v rámci regresních modelů exponenciální nebo Weibullovo roz- dělení. S ohledem na kvalitativní podobu dat jsou populární konkurencí probit modelů třída tzv. logit modelů. Ve skutečnosti existuje ke každé podobě probit modelu jeho „logitovský protějšek (uspořádaný logit model, multinomiální logit model apod.). Tyto modely jsou založeny na podobné intuici ohledně existence náhodných užitků jako v případě probit modelů a jejich jediným rozdílem je předpoklad logistického rozdělení náhodných chyb. Klíčovou vlastností tohoto rozdělení je to, že existuje analytické vyjádření příslušné kumulativní distribuční 9.8 Další rozšíření 173 funkce. Tuto vlastnost nemá normální rozdělení. Až do doby rozvoje posteriorních simulátorů se odhad multinomiálního probit modelu s velkým počtem alternativ potýkal s výpočetními obtížemi. Multinomiální logit model s analytickým vyjádřením kumulativní distribuční funkce, která je klíčovou částí věrohodnostní funkce, tento problém samozřejmě nemá. Problematiku logit modelů ve svých různých variantách dobře popisuje odborná literatura. Třída logit modelů nabízí atraktivní alternativu k probit modelům a je samozřejmé, že lze využít bayesovských nástrojů k rozhodování mezi oběma typy modelů (posteriorní podíl šancí, posteriorní predikční p-hodnota). Pokud však existují více než dvě alternativy, má multinomiální logit model vlastnost, která není v řadě aplikací příliš vítána. Pravděpodobnosti voby implikované multinomiálním logit modelem musí splňovat vlastnost tzv. nezávislosti irelevantních alternativ (Independence of Irrelevant Alternatives - IIA). Tím je myšleno, že poměr pravděpodobností jakýchkoli dvou voeb bude stejný bez ohledu na to, jaké budou ostatní alternativy. Předpokládejme, že si cestující do práce může vybrat mezi autobusem (y = 1) a autem (y = 0) a pravděpodobnosti těchto voleb jsou stejně pravděpodobné (tj. p(y=0) p(y=1) = 1). Dále předpokládejme, že ve městě postaví stezku pro cyklisty, čímž se rozšiřují možnosti cestování do práce na prostředek kolo. Vlastnost IIA říká, že dodání této alternativy neovlivní skutečnost, že p(y=0) p(y=1) = 1). V tomto příkladu je možné (i když spíše nepravděpodobné), že vlastnost IIA může být rozumně splněna. Původně jsme předpokládali, že p(y = 0) = p(y = 1) = 0.5. Předpokládejme, že bude existovat 20% šance, že si náš pracující zvolí pro cestu do práce kolo (když už byla postavena ona nová stezka pro cyklisty). To ke konzistentní s faktem, že p(y = 0) = p(y = 1) = 0.4, kdy je v důsledku stále zachován poměr p(y=0) p(y=1) = 1. Pro ilustraci nepřijatelnosti podmínky IIA si představme obměnu výše nastoleného příkladu do podoby problému tzv. červeného a modrého autobusu (Red Bus-Blue Bus problem). V rámci něho předpokládáme možnost volby mezi červeným autobusem (y = 1) a autem (y = 0). Pokud začne v oblasti operovat nová společnost s modrými autobusy (y = 2), ppkrývající i linku do práce, potom není moc rozumný předpoklad podmínky IIA. Vyjděme z toho, že původně platilo p(y = 0) = p(y = 1) = 0.5 (a tedy i p(y=0) p(y=1) = 1). Pokud je linka modrých autobusů identická s červenými, má zavedení této alternativy pramalý vliv na volbu cestování automobilem, a tedy platí p(y = 0) = 0.5 a p(y = 1) = p(y = 2) = 0.25. Zavedení nové alternativy tak vede k poměru p(y=0) p(y=1) = 2, což porušuje vlasnost IIA, a takováto změna není v rámci multinomiálního logit modelu povolena. Pro překonání této omezující vlastnosti byly vyvinuty různé varianty logit modelů. Jednou z nich je tzv. vnořený logit model (nested logit model), který předpokládá vnořenou strukturu rozhodovacího procesu. V příkladu červeného a modrého autobusu by ekonometr využil logit model pro cestujícího volícího mezi autem a veřejnou dopravou. V případě volby veřejné dopravy by pak použil druhý logit model pro volbu mezi červeným a modrým autobusem. Jeden logit model je tak vnořen do druhého logit modelu. Analýza vnořených logit modelů je v literatuře opět dobře popsána. 174 Modely kvalitativních a omezených vysvětlovaných proměnných 9.9 Shrnutí BUDE ČASEM DOPLNĚNO! Kapitola 10 Flexibilní modely Modely z předchozích kapitol zahrnovaly nějaký předpoklad o funkčním tvaru závislosti mezi proměnnými, rozdělení náhodných složek apod. V normálním lineárním regresním modelu jsme předpokládali, že náhodná složka pochází u normálního rozdělelní a vztah mezi závisle proměnnou a vysvětlujícími proměnnými je lineární. Tyto předpoklady jsou nezbytné pro konstrukci věrohodnostní funkce, která tvoří základ bayesovské analýzy. Ekonomická terie nám však málokdy dokáže přesně říct, jakou funkční podobu a typ rozdělení máme uvažovat. Např. v oblasti teorie produkce nám ekonmická teorie čast říká, že výstup firmy je rostoucí ve vstupecj a případně zde existují klesající výnosy z rozsahu. Ekonomická teorie nám neřekne, že máme použít „produkční funkci s konstantní elasticitou substituce . V praci je tak třeba dbát na pečlivé využívání porovnávání modelů a kvality souladu modelu s daty (např. pomocí posteriorní predikční p-hodnotě nebo posteriorního podílu šancí), abychom se ujistili, že naše předpoklady o věrohodnostní funkci jsou korektní. Ve světle skutečností, že předpoklady o věrohodnostní funkci nemusejí být vhodné a silně ovlivňují empirické výsledky, dochází k rozvoji nebayesiánské literatury věnované neparametrickým a semiparametrickým metodám. Proč se tyto metody nazývají právě takto je vcelku intuitivní. Věrohodnostní funkce závisejí na parametrech a specifikace konkrétních předpokladů o rozdělení a funkční podobě nám dává parametrickou věrohodnostní funkci. Myšlenka stojící v pozadí neparametrického přístupu je založena na snaze zbavit se takovýchto parametrických předpokladů buď zcela (v případě neparametrických metod) nebo z části (v případě semiparametrických metod).30 30Cíl „nechat zcela promluvit data je často v praxi težko dosažitelný, protože je vždy nutné vytvořit pro daný problém určitou strukturu, abychom získali rozumné empirické výsledky. Neparametrické metody zahrnují rovněž tvorbu určitých předpokladů, takže není správné argumentovat, že přístup založený na věrohodnosti vychází z nějakých předpokladů, příčemž neparametrický přístup zcela „nechává promlouvat data . To co odlišuje neparametrické a na věrohodnostním přístupu založené metody je právě typ vytvářených předpokladů. Například nelineární regresní model vychází z předpokladů, že „vztah mezi y a x má specifickou funkční podobu . Neparametrický regresní model vychází z předpokladů o určité hladkosti regresní křivky. Otázku rozumnosti toho či onoho druhu předpokladů lze zodpovědět pouze v kontextu 176 Flexibilní modely Bayesiánská analýza je vždy založena na parametrické věrohodnostní funkci a tedy bychom neměli hovořit o bayesovských „nearametrických nebo „semiparametrických metodách. To je důvod, proč je tato kapitola pojmenována „Flexibilní modely . Nicméně, existuje řada bayesiánských modelů, které jsou myšlenkou velmi podobné nebayesiánským neparametrickým metodám, což dává příčinu pro vznik a neustálý růst literatury používající označení „Bayesiánská neparameetrická . Tato oblast je velmi široká, tudíž je tato kapitola zaměřena na dva druhy bayesovských neparametrických přístupů, které jsou vcelku jednoduché a vystačíme si v nich s metodami předchozích kapitol. Pro motivaci nemusíme chodit daleko a představme si předpoklady kladené v rámci normálního lineárního regresního modelu. Mohli bychom chtít uvolnit předpoklad o lineární závislosto (tj. uvolnit předpoklad o funkční formě) nebo uvolnit předpoklad o normálně rozložených chybových členech (tj. uvolnit předpoklad o rozdělení). Těmito dvěma aspekty se budeme zabývat. Část Bayesiánská neparametrická a parametrická regrese uvolňuje předpoklad o funkční formě, a část věnovaná modelování s pomocí směšování či mixu (mixture) normálních rozdělení uvolňuje předpoklady o rozdělení. Jak uvidíme, bayesiánskou semiparametrickou regresi jsme schopni provést pomocí technik z kapitoly 3 věnované normálnímu lineárnímu regresnímu modelu s přirozeně konjugovanou apriorní hustotou. Modelování směšováním normálních hustot můžeme provést za pomocí Gibbsova vzorkovače, který je rozšířením toho, co bylo obsahem kapitoly 6 (část 6.4) pro model s náhodnou složkou mající Studentovo t-rozdělení. 10.1 Bayesovská neparametrická a semiparametrická regrese 10.1.1 Přehled V kapitole 5 jsme diskutovali nelineární regresní model v podobě yi = f (Xi, γ) + i, kde Xi je i-tý řádek matice vysvětlujících proměnných X, f(·) je známá funkce závisející na Xi a vektoru parametrů γ. V této části začneme podobně a zapíšeme so neparametrický regresní model jako yi = f (Xi) + i. (10.1) V tomto případě je f(·) neznámá funkce. V rámci celé této části si zadefinujeme standardní předpoklady: 1. pochází z N 0N , h−1 IN - 2. Všechny prvky matice X jsou buď pevná čásla (nenáhodné vleičiny), nebo pokud jsou náhodné veličiny, jsou nezávislé na všech prvcích vektoru náhodných složek a jejich funkce hustoty pravděpodobnosti je p (X|λ), kde λ je vektor parametrů, který nezahrnuje žádný z jiných parametrů modelu. konkrétní empirické aplikace. 10.1 Bayesovská neparametrická a semiparametrická regrese 177 Než se dostaneme k diskuzi nad samotnou neparametrickou regresí, je dobré zdůraznit, že pomocí nelineárních regresních metod, které předpokládají extrémně flexibilní volbu pro f (Xi, γ), dokážeme dosáhnout podobné vsledky jako v případě neparametrické ekonometrie, a to s použitím již nám dobře známých metod. Můžeme použít některou z obvyklých metod rozvoje funkce (Taylorův, Fourierův nebo Mutzův-Szatzův rozvoj) a dostat tak parametrickou podobu pro f (Xi, γ), které je dostatečně flexibilní k aproximaci jakékoli neznámé funkce. Výběr bodu omezení rozvoje řady nám umožňuje řídit přesnost aproximace. Neparametrické metody vycházejí z myšlenky, že f(·) je hladká funkce. To znamená, že když Xi a Xj leží blízko sebe, potom by i f (Xi) a f (Xj) měly ležet ve své blízkosti. Neparametrické regresní metody tedy odhadují neparametrickou regresní křivku na základě lokálních průměrů sousedních pozorování. Řada neparametrických regresních estimátorů pro f (Xi) má podobu f (Xi) j∈Ni wjyj, (10.2) kde wj je wáha příslušná j-tému pozorování a Ni označuje okolí Xi. Přístupy se liší v tom, jak jsou definovány jednotlivé váhy a okoli. Bohužel, pokud je příliš mnoho vysvětlujících promění, trpí neparametrické metody tzv. prokletím dimenzionality (curse of dimensionality). Neparametrické metody tak v podstatě „průměrují okolní pozorování k aproximaci regresního vztahu. Pro pevně danou velikost vzorku (poorování) s růstem dimenze Xi jsou od sebe okolní pozorování čim dál vzdálenější a neparametrické metody se stávají méně a méně přijatelnými. Málokdy tedy vidíme, že by se neparametrické regresní modely (10.1) přímo používaly v aplikacích zahrnujících hodně vysvětlujících proměnných. Místo toho jsou používány modely, které se tomuto problému dimenzionality vyhýbají. Ukážeme si dva takové modely, přičemž prvním z nich je Parciální lineární model. 10.1.2 Parciální lineární model Parciální lineární model rozděluje vysvětlující proměnné do dvou skupin. V jedné skupine jsou proměnné chápány parametricky (z), ve druhé jsou proměnné brány neparametricky (x). Pokud má x nízkou dimenzi, problém dimenzionality je vyřešen. Výběr toho, které vysvětlující proměnné chápat neparametricky závisí na konkrétní aplikaci. Obvykle jsou v x obsaženy nejdůležitější proměnné (nebo proměnná), která je klíčová z hlediska korektního zjištění jejich (jejího) marginálního vlivu. Na tomto místě budeme přepdokládat, že x je skalár a krátce pohovoříme o tom, jak lze řešit případ neskalárního x. Formálně je parciální lineární model dán jako yi = ziβ + f(xi) + i, (10.3) kde yi je závisle proměnná, zi je vektor k vysvěltujících proměnných, xi je skalární vysvětlující proměnná a f(·) je neznámá funkce. Poznamenejme, že zi 178 Flexibilní modely neobsahuje úrovňovou konstantu, protože tuto roli převítá f(xi). Funkci f() označujeme jako neparametrickou regresní křivku. Základní myšlenka bayesovkého odhadu tohoto modelu je založena na tom, že f(xi) pro i = 1, . . . , N mohou být chápány jako neznámé parametry. Pokud tomu tak je, potom 10.3 je normální lineární regresní model (i když s více vysvěltujícími proměnnými než pozorováními). Bayesiánská analýza s přirozeně konjugovanou apriorní husototu může být provedena stejně jako v kapitole 3. Bayesiánská analýza je tudíž jasná a jednoduchá v případě parciálního lineárního modelu. Začneme tím, že si seřadíme pozorování tak, že x1 ≤ x2 ≤ · · · ≤ xN . Protože jsou jednotlivá data na sobě nezávislá, je jejich přesně řazení nepodstatně a volba seřazení vzestupně činí smysl „okolních či „blízkých pozorování jasnější. Uspořádáme si všechny proměnné do matic, a to obvyklým zpsobem, tedy y = (y1, . . . , yN ) , Z = (z1 , . . . , zN ) a = ( 1, . . . , N ) . Pokud definujeme γ = (f(x1), . . . .f(xN )) , W = [Z IN ] a δ = (β , γ ) , potom můžeme (10.3) psát jako y = Wδ + . (10.4) Poznamenejme, že γ je N-rozměrný vektor obsahující každý bod neparametrické regresní křivky. V této fázi jsme nezavedli žádně restrikce na prvy vektoru γ. Aplikujeme tedy neparametrický přístup v tom smyslu, že f(xi) může být cokoli a f() je zcela neomezená, neznámá funkce. Dále, (10.4) je zřejmě regresní model s vysvětlujícími proměnnými v matici W rozměru N ×(N +k). Ovšem, (10.4) je neobvyklý regresní model, protože počet neznámých prvků ve vektoru δ je větší než počet pozorování, tzn. N + k ≥ N. TO nám implpikuje, že můžeme provést perfektní proložení, kdy součet čtverců chyb bude nulový. Pokud budeme mít odhad vektoru δ v podobě δ = 0k y , potom výsledné chyby budou nulové. Vektor δ nám implikuje, že body na neparametrické regresní křivce jsou odhadnuty jako f(xi) = yi. Takovýto odhad nám tedy nenabízí žádné vyhlazení neparametrické regrensí křivky. Ve smyslu výrazu (10.2), odpovídající váhy jsou wi = 1 a wj = 0 pro j = i. Takovýto estimátor je nedostačující. Tuto anomálii však lze překonat pomocí apriorní informace. V literatuře věnované neprametrické regresi jsou estimátory založeny na myšlence, že f() je hladká funkce. To znamená, že pokud xi a xi−1 leží velmi blízko sebe, měly by i jejich funkční hodnoty, f(xi) a f(xi−1), ležet blízko sebe. V bayesiánské analýe lze tuto informaci zahrnout do apriorní hustoty. Existuje celá řada způsobů, jak toho docílit. Zde si ukážeme jeden z nich. Předpokládejme přirozeně konjugovanou normální-gama apriorní hustotu pro β, γ a h. Díky tomu získáme jednoduché analytické výsledky bez nutnosti použití posteriorních simulátorů. Abychom se zaměřili na neparametrickou část parciálního lineárního 10.1 Bayesovská neparametrická a semiparametrická regrese 179 modeli, budeme předpokládat standardní neinformativní apriorní hustout pro h a β: p (β, h) ∝ h. (10.5) Pro koeficienty neparametrické části modelu využijeme částečně informativná apriorní hustitu prvních diferencí γ: Rδ ∼ N 0N−1, h−1 V (η) , (10.6) kde V (η) je pozitivně definitní matice závisejíci na hyperparametru η (který bude vysvětlen později) a R = [0(N−1)×k D], kde D je matice prvních diferencí rozměru (N − 1) × N: D =     −1 1 0 0 · · · · · · 0 0 −1 1 0 · · · · · · 0 · · · · · · · · · · · · · · · · · · · · · 0 · · · · · · 0 0 −1 1     (10.7) Poznamenejme, že takto specifikovaná struktura nám implikuje, že máme apriorní informaci pouze o rozdílu f(xi) − f(xi−1). Skutečnost, že očekáváme že sousedící body neparametrické regrese si budou co do hodnoty podobné, je obsažena v (10.6) díky předpokladu, že E[f(xi) − f(xi−1)] = 0. Matice V (η) nám umožňuje řídit očekávanou velikost odchylky f(xi) − f(xi−1) a tedy stupeň hladkosti neparametrické regresní křivky. Je třeba na tomto místě rovněž zdůraznit, že v rámci apriorní informace můžeme chtít pro neznámou funkci, popisující regresní křivku, zavést i různé druhy omezení ve tvaru nerovnosti. Příkladem může být požadavek, že f() je monotónně rostoucí funkce. To lze snadno provést s využitím technik z kapitoly 4, část 4.2. Než e pustíme do vyjádření posteriorní hustoty tohoto modelu, je dobré zdůraznit dvě veci. Za prvé, můžeme si všimnout, že struktura parciálního lineárního modeli je téměř identická s local level modelem z kapitoly 8. Ve skutečnosti, pokud zanedbáme parametrický člen (Z) a změníme index i na index t, potom je neparametrický regresní model identický se stavovým modelem. To není překvapivé, pokud si všimneme, že oba modely mají zeřazená data a struktura stavové rovnice (8.5) je identická s apriorní hustotou definovanou v rovnici (10.6). Skutečnost, že metody pro stavové modely lze využít k neparametrické regresi je zmiňována v literatuře. Vše v kapitole 8, část 8.2, lze tedy využít. Využity mohou být i empirické bayesovské metody z části 8.2.3, pokud nechceme rozhodovat o apriorním hyperparametru jakým je parametr η. Za druhé, můžeme se částečně podivovat i nad tím, že jsme se ve vztahu (10.6) zmiňovali možnost řízení „stupně hladkosti neparametrické regresní křivky skrze apriorní informaci ohledně prvních diferencí. Obvykle je míra hladkosti funkce měřena pomocí druhých diferencí funkce, což by nám napovídalo, že bychom měli použít apriorní informaci ohledně druhých diferencí (tzn. [f(xi+1) − f(xi)] − [f(xi) − f(xi−1)]). Apriorní informaci o druhých derivacích můžeme zavést jednoduchým zpsůobem pomocí předefinování matice D v (10.7) na matici durhých diferencí. 180 Flexibilní modely Není obtížné dokázat, že posteriorní hustota pro normální lineární regresní model s částečně neinformativní normální-gamma apriorní hustotou je δ, h|y ∼ NG ˜δ, ˜V , ˜s−2 , ˜ν , (10.8) kde ˜V = R V (η)−1 R + W W −1 , (10.9) ˜δ = ˜V (W y) , (10.10) ˜ν = N, (10.11) ˜ν˜s2 = y − W ˜δ y − W ˜δ + R˜δ V (η)−1 R˜δ . (10.12) Posteriorní hustota je korektní a platná funkce hustoty pravděpodobnosti a to navzdory faktu, že počet vysvětlujících proměnných v regresním modelu je větší než počet pozorování. Intuitivně, apriorní informace o stupni hladkosti v neparametrické regresní funkci je dostačující ke korekci nepříjemné možnosti perfektního proložení dat. V empirických studiích se zaměřujeme zejména na neparametrickou část modelu. S využitím (10.8) a z vlastností vícerozměrného rozdělení plyne E(γ|y) = [Mz + D V (η)−1 D]−1 MZy, (10.13) kde Mz = IN −Z(Z Z)−1 Z . Rovnici (10.13) lze využít k odhadu f() a nazveme ji jako vyrovnanou neparametrickou regresní přímku. Matice MZ je zajímavá matice, která se často vyskytuje v klasické ekonometrii. Součin MZy odpovídá reziduím získaným metodou nejmenších čtverců v rámci regrese y na Z. Rovnici (10.13) můžeme interpretovat tak, že nejdříve odstraníme vliv Z na y (právě proto, že MZy jsou rezidua) a výsledek pak vyhladíme použitím matice [Mz + D V (η)−1 D]−1 . Poznamenejme, že v čistě neparametrickém případě (kdy tedy Z nevstupuje do modelu) se v případě, kdy se apriorní hustota v (10.6) stane neinformativní (tzn. V (η)−1 → 0N−1,N−1), je E(γ|y) = y a neparametrická čás modelu zcela vyrovná pozorovaná data (není zde tedy žádné vyhlazení). Doposud jsme si neřekli nic o V (η), přičemž zde existuje řada možností volby. Jednoduchá volba, které odpovídá pouze předpokladu o vyhlazení (tzn. f(xi) − f(xi−1) je malé), by odpovídala volbě V (η) = ηIN−1.31 Tato apriorní hustota závisí pouze na skalárním hyperparametru η, který si můžeme zvolit sami podle toho, jak chceme řídit míru vyhlazení. Abychom si přiblížili způsob, jak bayesovská posteriorníhustota řeší průměrování sousedních pozorování. Napomůže nám pohled na podmíněnou střední hodnotu E(γi|y, γ(i) ), kde γi = (γ1, . . . , γi−1,γi+1,...,γN ). Pro čistě neparametrickou regresi (kdy do regrese nevstupuje Z) lze uázat, že E(γi|y, γ(i) ) = 1 2 + η (γi−1 + γi+1) + η 2 + η yi, 31V malých datových vzorcích může být rozdíl mezi xi a xi−1 velký a je tak žádoucí tuto skutečnost zakomponovat do aprioní hustoty. Jednoduchý způsob by bylo využití prioru zahrnujícího V (η) jakožto diagnonální matici s prvky na diagonále rovnými νi = η(xi − xi−1). 10.1 Bayesovská neparametrická a semiparametrická regrese 181 pro i = 2, . . . , N − 1. E(γi|y, γ(i) ) je vážený průměr yi a nejbližších bodů neparametrické regresní křivky pod a nad i (tzn. γi−1 a γi+1). Protože parametr η kontroluje stupeň hladkosti,který chceme přiřadit funkci f(·), je smysluplné, že pro η → ∞ dostaneme E(γi|y, γ(i) ) = 1 2 (γi−1 + γi+1). Dále lze ukázat, že var(γi|y, γ(i) = σ2 η 2+η , která se blíží nule pro η → 0. V limitním případě η → 0 získáme γi = 1 2 (γi−1 + γi+1) a neparametrická část regrese odpovídá přímce. Shrnuto, bayesiánská analýzy parciálního lineárního regresního modelu může být provedena s využitím normálního lineárního regresního modelu s přirozeně konjugovanou apriorní hustotou, pokud budeme chápat neznámé body neparametrické regresní přímky jako parametry. Přes skutečnost, že počet vysvětlujících proměnných je větší než počet pozorování, získáváme řádnou posteriorní hustotu. Porovnání modelů lze provést stejně jako v kapitole 3. V řadě případů chceme přiřadit parametru η konkrétní hodnotu. Stejně tak lze ale pro volbu hodnoty η využit i empirické bayesovké metody (viz kapitola 8, část 8.2.3). Vyplatí se ale zmínit i další metodu výběru tohoto parametru, s využitím dat. Tato nová metoda, která je hojně využívaná neparametrickými statistiky je označována jako krosvalidace (cross-validation). Základní myšlenka je ta, že některá data jsou „zatajena . Model je tak odhadnut s využitím zbylých dat a využit k predikci těchto „zatajených dat. Modely jsou porovnávány na základě toho, jak dobře jsou schopni tato data predikovat.32 V tomto kontextu můžeme definovat krosvalidační funkci jako CV (η) = 1 N N i=1 yi − E(γi|y(i) ) 2 , kde y(i) = (y1, . . . , yi−1, yi+1, . . . , yN ) . To znamená, že vždy vymažeme jedno pozorování v čase a spočítáme neparametrickou regresní přímku s využitím zbylých dat. Následně použijeme (yi − E(γi|y(i) , η))2 jako metriku toho, jak dobře nám výsledná neparametrická regresní přímka vysvětluje zbylá data. Parametr η volíme tak, aby byla minimalizována krosvalidační funkce. 32Postup krosvalidace lze použít pro porovnání či hodnocení modelů v případě jakéhokoli modelu, nejen neparametrického. 182 Flexibilní modely Empirická ilustrace: Parciální lineární model Rozšíření: Semiparametrický probit a tobit 10.1.3 Aditivní verze parciálního lineárního modelu Ilustrace: Aditivní model 10.2 Kompozice (mixture) normálních modelů 10.2.1 Přehled 10.2.2 Věrohodnostní funkce 10.2.3 Apriorní hustota 10.2.4 Bayesovský výpočet 10.2.5 Porovnání modelů: Informační kritéria 10.2.6 Empirická ilustrace: Kompozice normálních mode- lů 10.3 Rozšíření a alternativní přístupy 10.4 Souhrn Kapitola 11 Bayesiánské průměrování modelů 184 Bayesiánské průměrování modelů Kapitola 12 Další modely, metody a otázky bayesiánské ekonometrie 12.1 Úvod Je logické, že jediná kniha nemůže pojmout všechny různé modely a metody využívané v rámci bayesovské ekonometrie. Logiku bayesiánské analýzy však lze využít v rámci jakéhooliv modelu a nástroje prezentované v předchozích kapitolách (např. z oblasti posteriorní simulace) mají velmi širokou uplatnitelnost. V předchozích kapitolách tedy byly představeny nezbytné nástroje bayesovské ekonometrie pro výzkum v kontextu jakéhokoliv modelu, který by připadal v úvahu. Pokud se pouštíme do analýzy dat, měli bychom se vždy zamyslet nad tím, jaký vhodný model by připadal v úvahu, což v podstatě obnáší stanovení věrohodnostních funkcí a apriorních hustot. Vhodný model může být jak ten, který již dříve vyvinutý výzkumníky v dané oblasti problémů, a stal se tak jakýmsi standardem, tak i takový, který je zcela nový a spíše na doposavad využívané dosavadní modely navazuje (pokud vůbec). Pokud si zvolíme množinu modelů, měli bychom využít pravidla pravděpodobnosti k nalezení posteriorních hustot, marginálních věrohodnostní a predikčních hustot. V poslední fázi je pak třeba vyvinout metody a techniky pro práci s těmito charakteristikami. Tyto metody budou obvykle zahrnovat posteriorní simulaci, kdy lze obvykle s úspěchem využít Gibbsův vzorkovač nebo Metropolis-Hastings algoritmy. V této kapitole tak nebude od věci, popsat si v krátkosti některé další obvyklé modely, metody a otázky bayesovské analýzy, pro něž existuje bohatá odborná literatura. 186 Další modely, metody a otázky bayesiánské ekonometrie 12.2 Další metody Pro řadu modelů je využíván Gibbsův vzorkovač s obohacenými daty. Zvláště při práci s latentními daty však můžeme narazit na problém konvergence. To znamená, že nezbytný počet odstraněných replikací, jakož i replikací „přeživších může být natolik vysoký, že výpočetná náročnost bude příliš vysoká. Tento problém nastává zejména v případech, kdy je v modelu velký počet parametrů a korelace mezi nimi je vysoká. Protože i latentní data mohou být interpretována jako vektor parametrů, je počet parametrů v řadě modelů předchozích kapitol vcelku vysoký. Bayesiánská literatura se tak pokouší o vytvoření mnohem efektivnějších algoritmů posteriorní simulace (pro některé třídy modelů). Algoritmy jako Metropolis-Hastings nebo Metropolis-within-Gibbs využívají náhodných výběrů z kandidátské hustoty a ty pak akceptují s určitou pravděpodobností. Pokud není kandidát přijat, zůstává řetězec na místě. Jestliže je kandidátské rozdělení nevhodně zvoleno, může být akceptační pravděpodobnost stále nízká a řetězec výběrů zůstává na jednom místě po dosti dlouhou dobu. V takových případech může řetězci trvat velmi dlouhou dobu, než začne konvergovat, čímž se zvyšují výpočetní nároky. Jednoduchou radou je v tomto případě volba lepší kandidátské hustoty. Ovšem toto není vždy možné, zejména v případě, dy je počet parametrů velký. V řadě modelů nejsou problémy s konvergencí Gibbsova vzorkovače či s volbou kandidátské hustoty příiš patrné, zejména pokud jde o regresní modely. Pokud však nastanou, existuje několik přístupů, o kterých není naškodu zmínit pár slov. Posteriorní simulátory z předchozích kapitol v sobě zahrnovaly výběry z obvyklých hustot pravděpodobnosti, pro které běžně existují počítačové algoritmy (např. pro normální, gama či Wishartovo rozdělení). Existuje však několik metod, které jsou mnohem obecnější a umožňují výběry z široké palety nestandardních hustot. Pokud některou z těchto metod je možno přímo využít (pro generování výběrů z posteriorní či podmíněné posteriorní hustoty), není potřeba zapojovat Metropolis-Hastings algoritmus nebo Metropolis-within-Gibbs, které mohou mít onen neduh nízkých akceptačních pravděpodobností. Třemi populárním metodami jsou acceptance sampling, Griddyho-Gibbsův vzorkovač a adaptivní rejection sampling. „Acceptance sampling je založeno na následujícím teorému Teorém 12.1 (Acceptance Sampling). Nechť p∗ (θ|y) je jádro posteriorní hustoty (tj. p(θ|y) = cp∗ (θ|y)) a q(θ) je jádro hustoty pravděpodobnosti, ze které není problém generovat náhodné výběry. Hustota q(θ) se nazývá zdrojovou hustotou (source density) a musí být definována nad definičním oborem hustoty p(θ|y). Přepdokládejme, že jádra zdrojové a posteriorní hustoty splňují podmínku 0 ≤ p∗ (θ|y) q(θ) ≤ a, (12.1) kde a je konečná konstanta. Potom algoritmus, který bude generovat vzorky z 12.2 Další metody 187 q(θ) a akceptovat je s pravděpodobností p∗ (θ|y) q(θ)a , (12.2) bude tímto generovat náhodné výběry z p(θ|y). Úspěch tohoto simulátoru závisí na nalezení zdrojové hustoty, která bude splňovat omezení z (12.1). Ne vždy je možné takovou to hustotu nalézt. Zdrojová hustota musí být navíc taková, že akceptační pravděpodobnost v (12.2) nebude mít tendencí být příliš malá. Není obtížné nalézt příklady, kdy je akceptační pravděpodobnost tak nepatrná, že acceptance sampling není výpočetně zvládnutelné. V mnoha případech se však jedná o účinný a hojně využívaný nástroj. Například generátory náhodných čísel z normálního a gama rozdělení obsažené v řadě výpočetních balíčků typicky využívají acceptance sampling. Griddy-Gibbsův vzorkovač je aproximativní metoda, jejíž hlavní ideu lze vcelku snadno popsat. Předpokládejme, že máme nestandardní posteriorní hustotu (nebo podmíněnou posteriorní hustotu v rámci Gibbsova vzorkovače), ze které bychom rádi generovaly náhodné výběry. Tato hustota může být aproximována tak, že vezmeme mřížku (grid - proto v názvu Griddy) bodů a vyhodnotíme posteriorní hustotu v každém bodě takovéto mřížky či možná snad sítě. Ty pak mohou být využity k multinimiální aproximaci posteriorní hustoty. Protože z multinomiálního rozdělení je snadné generovat náhodné výběry, lze aproximativní výběry z nestandardních rozdělení získat vcelku jasným způsobem. Jinými slovy, Griddy-Gibbsův vzorkovač v sobě zahrnuje diskrétní aproximaci nestandardní posteriorní hustoty, která nás zajímá. Adaptivní rejection sampling je populární metoda pro výběry z log-konkávních hustot. Pro hlubší proniknutí do dalších metod generujících výběry z nestandardních posteriorních hustot lze nalézt v bohaté literatuře. Obecně tyto metody zvyšují výkonnost a efektivitu MCMC algoritmů. Existuje i řada aproximací, které dovolují abstrahovat od samotné posteriorní simulace. V nejjednodušším případě totiž v řadě situací konverguje posteriorní rozdělení k normálnímu rozdělení pro N → ∞. Typický teorém Bayesiánské asymptotické literatury má následující podobu. Teorém 12.2 (Bayesovský centální limitní teorém). Za určitých podmínek regularity lze posteriorní rozdělení pro N → ∞ aproximovat jako θ|y ∼ N(˜θ, [I(˜θ)]−1 ), (12.3) kde ˜θ je posteriorní modus33 a I(˜θ) je pozorovaná informační matice vyhodnocená v bodě ˜θ. Pozorovaná informační matice je definována jako záporná hodnota Hessiánu logaritmu posteriorní hustoty (tj. matice druhých parciálních derivací logaritmu posteriorní hustoty vzhledem k jednotlivým prvkům vektoru θ). 33Vektor ˜θ může být i odhad metodou maximální věrohodnosti a bude platit totožný teorém. Intuitivně to lze vyjádřit tak, že v některých případech, kdy se zvyšuje velikost vzorku, se datová informace stává čím dál více dominantnější nad apriorní informací. Asymptoticky je tak apriorní hustota irelevantní. 188 Další modely, metody a otázky bayesiánské ekonometrie Tento teorém lze dokázat při řadě různých podmínek regularity. Jinými slovy, tyto podmínky se využijí pro vyřazení potenciálně nevhodné apriorní hustoty (např. apriorní hustota nesmí přiřadit nulové váhy oblastem parametrického prostoru v blízkosti odhadů metodou maximální věrohodnosti) a pro vyloučení určitých případů, kdy se dimenzionalita parametrického prostoru zvyšuje s velikostí vzorku. Výše uvedený teorém tak lze využít pro aproximaci bayesiánské analýzy ve většině modelů. Z výpočetního hlediska je tím jediným, co potřebujeme, program k maximalizaci posteriorní hustoty (či věrohodnostní funkce) a vyhodnocení Hessiánu. Většina programů má funkce k maximalizaci či minimalizaci arbitrárně zvolené funkce a k výpočtu Hessiánu (ačkoliv je obvykle lepší využívat v programu analyticky získaný Hessián). 12.3 Další otázky 12.3.1 Identifikace 12.4 Další modely 12.4.1 Modely časových řad 12.4.2 Endogenita, výběr vzorku a další otázky 12.4.3 Modely s nestandardními vysvětlovanými proměn- nými 12.4.4 Strukturální modely 12.4.5 Bayesovské neparametrické metody Příloha A Úvod do maticové algebry Protože je v průběhu celého textu hojně využíván zápis pomocí matic, nebude od věci připomenout si základy maticové algebry. Definice A.1 (Matice a vektor). Matice A rozměru N ×K je uspořádání N ·K prvků (např. náhodných veličin) do N řádků a K sloupců: X =       a11 a12 · · a1K · · · · · · · · · · · · · · · aN1 aN2 · · aNK       , kde člen ank je prvek n-tého řádku a k-tého sloupce. Pokud je K = 1, potom A je sloupcový vektor a pokud N = 1 pak A je vektor řádkový. Matice s N = 1 a K = 1 se nazývá skalár. Definice A.2 (Maticové sčítání a odčítání). Pokud A a B jsou matice rozměru N × K, potom A + B je matice rozměru N × K s prvky v n-tém řádku a k-tém sloupci danými jako ank + bnk. Rozdíl matic A − B je matice rozměru N × K s prvky v n-tém řádku a k-tém sloupci danými jako ank − bnk. Sčítat a odčítat můžeme jen matice stejných rozměrů. Teorém A.1 (Vlastnosti maticového součtu). Pro maticový součet platí pravidla komutativní a asociativní (jako v základní aritmetice). Pokud tedy matice A, B a C mají rozměr N × K, platí: A + B = B + A A + (B + C) = (A + B) + C. Definice A.3 (Skalární součin). Pokud c je skalár a A je matice rozměru N×K, pak cA je matice rozměru N ×K, kde prvky n-tého řádku a k-tého sloupce jsou dány jako cank. 190 Úvod do maticové algebry Teorém A.2 (Vlastnosti skalárního součinu). Pokud c a d jsou skaláry a A a B jsou matice rozměru N × K, potom platí: (c + d)A = cA + dA c(A + B) = cA + cB. Definice A.4 (Maticový součin). Nechť A je matice rozměru N × K a B je matice rozměru K ×J. Potom C = AB je matice rozměru N ×J s prvky n-tého řádku a j-tého sloupce cnj, přičemž cnj = K k=1 ankbkj. Teorém A.3 (Vlastnosti maticového součinu). S ohledem na předchozí definici obecně pro maticový součin neplatí komutativní zákon, nicméně tento součin podléha asociativnímu a distribučnímu zákonu. Obecně tedy platí AB = BA (BA je definován jen pokud N = J). Opačně však platí A(BC) = (AB)C a A(B + C) = AB + AC, a to za podmínky, že matice A, B, C mají takové rozměry, že tyto operace jsou definovány. Definice A.5 (Transpozice matic). Nechť A je matice rozměru N × K s prvky n-tého řádku a k-tého sloupce ank. Pak transponovaná matice A, označovaná jako A , je matice rozměru K × N s prvky k-tého řádku a n-tého sloupce ank. Poznámka: transpozice zaměňuje řádky a sloupce, tedy n-tý řádek matice A odpovídá n-tému sloupci matice A . Teorém A.4 (Vlastnosti transpozice). Nechť A je matice rozměru N × K a B je matice rozměru K × J. Potom (AB) = B A . Definice A.6 (Speciální matice). Čtvercová matice je matice se stejným počtem řádků jako sloupců. Diagonální matice je čtvercová matice, kde všechny prvky mimo diagonálu jsou rovny nule (tj. ank = A pro n = k). Horní trojúhelníková matice má všechny prvky pod hlavní diagonálou rovny nule (tj. ank = A pro n > k). Dolní trojúhelníková matice má všechny prvky nad hlavní diagonálou rovny nule (tj. ank = A pro n < k). Symetrická matice je čtvercová matice, kde ank = akn. Definice A.7 (Užitečné matice). Nulová matice je matice rozměru N × K se všemi prvky rovnými nule a je označována jako 0N×K. Pokud K = 1, označuje se 0N . Jedničková matice je matice rozměru N × K se všemi prvky rovnými jedné a je označována jako ιN×K. Pokud je K = 1, označuje se ιN . Jednotková matice je diagonální matice rozměru N ×N s prvky na hlavní diagonále rovnými jedné (tj. ank = 1 pro n = k a ank = 0 pro n = k). Je označována jako IN . Je-li z kontextu znám rozměr těchto matic, označují se bez uvedení indexu. Teorém A.5 (Některé vlastnosti užitečných matic). Nechť A je matice rozměru N × K, potom A + 0N×K = 0N×K + A = A 191 A · 0K×J = 0N×J , 0J×N · A = 0J×K A · IN = IKA = A. Definice A.8 (Lineární nezávislot). Nechť A1, . . . , AK označuje K sloupců matice A o rozměru N × K. Tyto sloupce jsou lineárně závislé, pokud existují skaláry c1, . . . , cK (ne všechny nulové) takové, že c1A1 + c2A2 + . . . + cKAK = 0N . Pokud takové skaláry neexistují, jsou sloupce matice A lineárně nezávislé. Definice A.9 (Hodnost matice). Hodnost matice A označována jako h(A) či rank(A), je maximální počet lineárně nezávislých sloupců matice A. Definice A.10 (Determinant matice). Volně řečeno je determinant výhradně čtvercové matice A rozměru N × N skalár a označuje se jako |A|. Lze jej intuitivně intepretovat jako číslo vyjadřující velikost matice. Definice A.11 (Stopa matice). Stopa matice A označována jako tr(A) je součet diagonálních prvků této matice. Teorém A.6 (Některé vlastnosti determinantu). Nechť matice A a B jsou čtvercové matice o rozměru N × N a c je skalár. Potom platí: |AB| = |A||B|, |cA| = cN |A|, |A | = |A|. Obecně však |A + B| = |A| + |B|. Definice A.12 (Inverze matice). Inverze čtvercové matice A rozměru N × N označována jako A−1 je matice rozměru N × N, pro kterou platí AA−1 = IN . Pokud A−1 existuje, pak se jedná o matici regulární, v opačném případě se jedná o matici singulární. Teorém A.7 (Singularita matice). Nechť A je matice rozměru N × N, potom sloupce této matice jsou lineárně závislé tehdy a jen tehdy, pokud |A| = 0. Podobně, jestliže |A| = 0, potom h(A) < N. Matice A je singulární tehdy a jen tehdy, pokud |A| = 0 (či ekvivalentně h(A) < N). Teorém A.8 (Vlastnosti inverze). Nechť A a B jsou nesingulární matice rozměru N × N, potom platí: (A−1 )−1 = A, (AB)−1 = B−1 A−1 , (A )−1 = (A−1 ) , |A−1 | = |A|−1 . 192 Úvod do maticové algebry Teorém A.9 (Inverze a determinant dělené matice). Nechť A je regulární matice rozměru N × N rozdělená do následujících submatic: A = A11 A12 A21 A22 , kde A11 a A22 jsou regulární matice rozměrů N1 ×N1 a N2 ×N2, kdy N1 +N2 = N. Submatice A21 a A12 jsou matice rozměrů N2 × N1 resp. N1 × N2. Inverzní matice A−1 je rozdělena obdobným způsobem: A−1 = A11 A12 A21 A22 . Platí: |A| = |A22||A11 − A12A−1 22 A21| = |A11||A22 − A21A−1 11 A12|. Části inverzní matice A−1 lze spočítat následovně: A11 = (A11 − A12A−1 22 A21)−1 , A22 = (A22 − A21A−1 11 A12)−1 , A12 = −A−1 11 A12A22 , A21 = −A−1 22 A21A11 . Definice A.13 (Kvadratická forma). Nechť x je vektor rozměru N × 1 a A je symterická matice rozměru N × N. Pak skalár x Ax se nazývá kvadratická forma. Poznámka: Nechť xi označují prvky vektoru x a aij označují prvky matice A, která je symetrická, tedy aij = aji, i = 1, . . . , N, j = 1, . . . , N. Potom x Ax = N i=1 N j=1 aijxixj je kvadratická funkce ve čtvercích a křížových součinech prvků x. Volně řečeno, kvadratická forma je maticové zobecnění součtů čtverců. Definice A.14 (Definitnost matice). Symetrická matice A rozměru N × N je: • pozitivně definitní tehdy a jen tehdy, jestliže x Ax > 0 pro všechny nenulové x, • negativně definitní tehdy a jen tehdy, jestliže −A je pozitivně definitní, • pozitivně semidefinitní tehdy a jen tehdy, jestliže x Ax ≥ 0 pro všechny x a x Ax = 0 pro některé nenulové x, • negativně semidefinitní tehdy a jen tehdy, jestliže −A je pozitivně semi- definitní. Poznámka: Kovarianční matice náhodného vektoru je pozitivně definitní (nebo pozitivně semidefinitní). Podobnost se skalárním případem je v tom, že variance náhodné veličiny je kladná (nebo nezáporná). Užitečnou vlastností je i to, že pozitivně definitní matice je regulární. 193 Teorém A.10 (Diagonalizace symetrické matice). Nechť A je čtvercová matice rozměru N × N, potom existují matice X a D takové, že X X = IN a D je diagonální matice, přičemž platí X AX = D. Jestliže je A pozitivně definitní, pak X a D jsou regulární. Poznámka: Tento výsledek se používá obvykle pro transformaci modelu s obecnou kovarianční maticí do podoby modelu s kovarianční maticí rovnou cI, kde c je skalár. Teorém A.11 (Choleského dekompozice). Nechť A je čtvercová, pozitivně definitní matice rozměru N ×N. Pak existuje dolní trojúhelníková regulární matice X rozměru N × N, pro kterou platí A = X X. Poznámka: Matice X není jednoznačně určena. Obvyklý způsob učinit jí jedinečnou je specifikovat požadavek, aby všechny její diagonální prvky byly kladné. Podobnost Choleského dekompozice ve skalárním případě je operátor druhé odmocniny. Pokud je A kovarianční matice, pak je analogií Choleského dekompozice pro skalární případ výpočet směrodatné odchylky. Pro Choleského dekompozici platí A−1 = (X )−1 X−1 . Tato vlastnost je často využívána v počítačových programech pro výpočet inverze pozitivně definitní matice. Choleského dekompozici je užitečné využít i v případě, kdy dokážeme vygenerovat pouze náhodný výběr ze standardizovaného normálního rozdělení. Konkrétně lze využít Choleského dekompozici kovarianční matice pro transformaci výběrů ze standardizovaného normálního rozdělení do podoby výběru z vícerozměrného normálního rozdělení, a to s arbitrárně určenou kovarianční maticí. 194 Úvod do maticové algebry Příloha B Úvod do pravděpodobnosti a matematické statistiky V tomto dodatku jsou obsaženy potřebné základy pravděpodobnosti a matematické statistiky. V některých případech se jedná spíše o intuitivní či neformální definice. B.1 Základy pravděpodobnosti Definice B.1 (Experiment a náhodné jevy). Experiment je proces, jehož výsledek není předem znám. Možné výsledky experimentu se nazývají náhodné jevy. Množina všech možných výsledků je výběrový prostor. Definice B.2 (Diskrétní a spojíté proměnné). Proměnnou (či veličinu) nazýváme diskrétní, jestliže existuje konečný či spočítatelný počet hodnot, jichž může nabývat. Proměnná je spojitá, pokud může nabývat jakékoliv hodnoty na přímce reálných hodnot nebo na určitém intervalu reálných hodnot. Definice B.3 (Náhodné proměnné a pravděpodobnost). Obvykle bývají otázky vztahující se k pravděpodobnosti, experimentu a náhodným jevům reprezentovány proměnnou (veličinou), ať již diskrétní nebo spojitou. Jelikož není výsledek experimentu předem znám, je tato proměnná nazývána náhodnou veličinou. Pravděpodobnost lze intuitivně chápat jako reflexi věrohodnosti toho, že každý z náhodných jevů nastane. Pravděpodobnost realizace jevu A je označována Pr(A). Je důležité rozlišovat mezi náhodnou veličinou X označovanou velkými písmeny a její realizací x obvykle značenou písmenem malým. Jako příklad lze uvažovat experiment házení kostkou. Výběrový prostor je v tomto případě [1, 2, 3, 4, 5, 6] a diskrétní náhodná veličina X nabývá hodnot 1, 2, 3, 4, 5, 6 s pravděpodobnostmi danými jako Pr(X = 1) = Pr(X = 2) = . . . = Pr(X = 6) = 1 6 . Alternativně je náhodná veličina X funkcí definovanou v bodech 1, 2, 3, 4, 5, 6. Funkce je implicitně definována pravděpodobnostmi Pr(X = 1) = Pr(X = 2) = . . . = Pr(X = 6) = 1 6 . 196 Úvod do pravděpodobnosti a matematické statistiky Definice B.4 (Nezávislost). Dva jevy A a B jsou nezávislé, jestliže platí Pr(A, B) = Pr(A)Pr(B), kde Pr(A, B) je pravděpodobnost současné realizace jevů A a B. Definice B.5 (Podmíněná pravděpodobnost). Podmíněná pravděpodobnost jevu A jevem B, označována Pr(A|B), je pravděpodobnost realizace jevu A za podmínky realizace B. Teorém B.1 (Pravidla podmíněné pravděpodobnosti). Nechť A a B öznačují dva jevy, potom platí: Pr(A|B) = Pr(A, B) Pr(B) , Pr(B|A) = Pr(A, B) Pr(A) , a kombinací pak získáme Bayesův teorém Pr(A|B) = Pr(B|A)Pr(A) Pr(B) . Definice B.6 (Pravděpodobnost a distribuční funkce). Nechť diskrétní náhodná veličina X je definovaná na výběrovém prostoru x1, . . . , xn. Pravděpodobnostní funkce této veličiny se označuje p(x), přičemž platí: p(x) = Pr(X = xi) pro x = xi, 0 jinak, pro i = 1, 2, . . . , N. Distribuční funkce (DF) označována P(x) je definována jako: P(x) = Pr(X ≤ x) = j∈J Pr(xj), kde J je množina indexů j pro které platí xj ≤ x. Pravděpodobnostní a distribuční funkce mají následující vlastnosti: p(xi) > 0 i = 1, 2, . . . , N N i=1 p(xi) = P(xN ) = 1 Definice B.7 (Hustota pravděpodobnosti a DF). DF příslušná spojité náhodné veličině X je P(x) = Pr(X ≤ x) = x −∞ p(t)dt, kde p(·) je hustota pravděpodobnosti (probability density function - p.d.f.). Pro tyto funkce platí: p(x) ≥ 0 ∀x, ∞ −∞ p(t)dt = P(∞) = 1, p(x) = dP(x) dx , Pr(a ≤ x ≤ b) = P(b) − P(a) = b a p(x)dx. B.1 Základy pravděpodobnosti 197 Definice B.8 (Očekávaná hodnota). Nechť g(·) je funkce, pak očekávaná hodnota g(X), označována jako E[g(X)] je definována jako: E[g(X)] = N i=1 g(xi)p(xi), pokud X je diskrétní náhodná veličina na výběrovém prostoru x1, . . . , xN , a E[g(X)] = ∞ −∞ g(x)p(x)dx, pokud X je spojitá náhodná veličina (platí-li E[g(X)] < ∞). Speciálními případy této obecné definice zahrnují: • střední hodnota µ ≡ E(X), • rozptyl σ2 ≡ var(X) = E[X − µ]2 = E(X2 ) − µ2 , • r-tý moment E(Xr ), • r-tý centrovaný moment E(X − µ)r . Třetí a čtvrtý centrovaný moment jsou obvyklé míry šikmosti a špičatosti náhodné veličiny, což reflektuje tloušťku krajů (chvostů) funkce hustoty pravdě- podobnosti. Teorém B.2 (Vlastnosti očekávané hodnoty). Nechť jsou dány náhodné veličiny X a Y , funkce g(·) a h(·) a konstanty a a b, potom platí: • E[ag(X) + bh(Y )] = aE[g(X)] + bE[h(Y )], • var[ag(X) + bh(Y )] = a2 var[g(X)] + b2 var[h(Y )], pokud X a Y jsou nezávislé. Definice B.9 (Modus, medián a mezikvartilové rozpětí). Střední hodnota je obvyklým měřítkem polohy funkce hustoty pravděpodobnosti nebo pravděpodobnostní funkce. Dalšími alternativami je modus a medián. Medián xmed je chrakterizován jako P(xmed) = 1 2 . Modus xmod je chrakterizován jako xmod = arg max[p(x)]. Definice B.10 (Sdružená pravděpodobnost a DF). Nechť je dán vektor N diskrétních náhodných veličin X = (X1, . . . , XN ) na výběrovém prostoru Xi daným xi1, . . . , xiN . Potom pravděpodobnostní funkce X označována jako p(x) je dána výrazem: p(x) = Pr(X = x1, . . . , XN = xN ), kde x je N-rozměrný vektor x = (x1, . . . , xN ) . Pokud x nenáleží do výběrového prostoru X, potom p(x) = 0. Distribuční funkce P(X) je definována jako: P(x) = Pr(X1 ≤ x1, . . . , XN ≤ xN ) . 198 Úvod do pravděpodobnosti a matematické statistiky Definice B.11 (Sdružená hustota a DF). Distribuční funkce definovaná pro náhodný vektor X = (X1, . . . , XN ) označována jako P(x), kde x = (x1, . . . , xN ) , je P(x) = Pr(X1 ≤ x1, . . . , XN ≤ xN ) = x1 −∞ . . . xN −∞ p(t)dt1 . . . dtN , přičemž p(x) je sdružená hustota pravděpodobnosti. Definice B.12 (Marginální pravděpodobnost a DF). Mějme vektor N náhodných veličin X = (X1, . . . , XN ) (diskrétních či spojitých) a X∗ = (X1, . . . , XJ ) , kde J < N. Potom sdružená marginální distribuční funkce X∗ je svázána s distribuční funkcí X následovně: P(x∗ ) = P(x1, . . . , xJ ) = lim xi→∞ P(x1, . . . , xJ , ∞, . . . , ∞). Pokud je X spojitý náhodný vektor, potom je sdružená funkce marginální hustoty pravděpodobnosti p(x) definována jako p(x∗ ) = ∞ −∞ . . . ∞ −∞ p(x)dxJ+1 . . . dxN . Pokud J = 1, užívá se v terminologii výrazů funkce marginální hustoty pravděpodobnosti, marginální distribuční funkce a funkce marginální pravděpodobno- sti. Definice B.13 (Podmíněná hustota a DF). Nechť X = (X1, . . . , XN ) je vektor N spojitých náhodných veličin. Definujme X∗ = (X1, . . . , XJ ) , X∗∗ = (XJ+1, . . . , XN ) a nechť x, x∗ a x∗∗ jsou příslušné realizace. Potom funkce podmíněná hustoty pravděpodobnosti X∗ za podmínky realizace X∗∗ je definována jako p(x1, . . . , xJ |xJ+1, . . . , xN ) = p(x∗ |x∗∗ ) = p(x) p(x∗∗) = p(x∗ , x∗∗ ) p(x∗∗) . Podmíněná distribuční funkce P(x∗ |x∗∗ ) je definována jako P(x∗ |x∗∗ ) = Pr(X1 ≤ x1, . . . , XJ ≤ xj|XJ+1 = xJ+1, . . . , XN = xN ) = x1 −∞ . . . xJ −∞ p(x1, . . . , xJ |xJ+1, . . . , xN )dx1 . . . dxJ Definice pro případ diskrétního náhodného vektoru je zobecněním výše uvede- ného. Definice B.14 (Vícerozměrná očekávaná hodnota). Nechť je dán vektor N spojitých náhodných veličin X = (X1, . . . , XN ) s hustotou pravděpodobnosti p(x), kde x = (x1, . . . , xN ) . Potom očekávaná hodnota skalární funkce g(X) značená E[g(X)] je dána jako: E[g(X)] ≡ ∞ −∞ . . . ∞ −∞ g(x)p(x)dx1 . . . dxN . B.2 Běžná rozdělení pravděpodobnosti 199 Je to zobecnění definice střední hodnoty pro vícerozměrný případ. Rozšíření na podmíněnou očekávanou hodnotu E[g(X∗ )|x∗∗ ] lze provést nahrazením p(x) funkcí p(x∗ |x∗∗ ). Snadno lze tuto definici zobecnit pro diskrétní náhodný vektor. Definice B.15 (Kovariance a korelace). Nechť X1 a X2 jsou náhodné veličiny, kdy E(X1) = µ1 a E(X2) = µ2. Potom kovariance mezi X1 a X2 se označuje jako cov(X1, X2) a je definována jako: cov(X1, X2) = E[(X1 − µ1)(X2 − µ2)] = E(X1X2) − µ1µ2. Korelace mezi X1 a X2 se označuje jako corr(X1, X2) a definuje se jako: corr(X1, X2) = cov(X1, X2) var(X1)var(X2) . Pokud X1 = X2, je kovariance rovna rozptylu. Korelaci je možno interpretovat jako stupeň míry propojení mezi dvěma náhodnými veličinami. Definice B.16 (Kovarianční matice). Nechť X = (X1, . . . , XN ) je vektor N náhodných veličin a definujme N-rozměrný vektor µ ≡ E(X) ≡ [E(X1), . . . , E(XN )] ≡ [µ1, . . . , µN ]. Potom je definována kovarianční matice jako var(X). Jedná se o matici rozměru N × N obsahující variance a kovariance všech prvků X: var(X) = E[(X − µ)(X − µ) ] =       var(X1) cov(X1, X2) · · cov(X1, XN ) cov(X1, X2) var(X2) · · · · · · · · · · · · cov(XN−1, XN ) cov(X1, XN ) · · cov(XN−1, XN ) var(XN )       . Teorém B.3 (Vlastnosti očekávání a kovariance). Nechť je definována nestochastická matice A rozměru M ×N a Y = AX, přičemž výrazy jsou definovány stejně jako v předchozí definici. Potom platí: E(Y ) = AE(X) = Aµ, var(Y ) = Avar(X)A . Pokud a a b jsou skaláry a X1 a X2 náhodné vektory, pak platí: var(aX1 + bX2) = a2 var(X1) + b2 var(X2) + 2abcov(X1, X2). B.2 Běžná rozdělení pravděpodobnosti Definice B.17 (Binomiální rozdělení). Definice B.18 (Poissonovo rozdělení). 200 Úvod do pravděpodobnosti a matematické statistiky Definice B.19 (Uniformní rozdělení). Definice B.20 (Gama rozdělení). Spojitá náhodná veličina Y má gama rozdělení se střední hodnotou µ > 0 a stupni volnosti ν > 0, označované jako Y ∼ G (µ, ν), pokud je její funkce hustoty pravděpodobnosti definována jako: fG(y|µ, ν) ≡ c−1 G y ν−2 2 exp −yµ 2µ pokud 0 < y < ∞ 0 jinak kde integrační konstant je dána jako cG = 2µ ν ν 2 Γ ν 2 , kde Γ(a) je gama funkce. Teorém B.4 (Střední hodnota a rozptyl gama rozdělení). Pokud Y ∼ G(µ, ν), potom E(Y ) = µ a var(Y ) = 2µ2 ν . Poznámky: gama rozdělení je v bayesiánské ekonometrii důležité rozdělení a obvykle je vztaženo kpřesnosti chyby. Další rozdělení, která jsou úzce spojena s gama rozdělením, jsou chí-kvadrát rozdělení, což je gama rozdělení s ν = µ. Označuje se jako Y ∼ χ2 (ν). Exponenciální rozdělení je gama rozdělení s ν = 2. Invertované gama rozdělení má tu vlasntost, že pokud je Y z gama rozdělení, potom 1 Y pochází z gama rozdělení. V některých bayesiánských učebnicích a textech pracují autoři přímo s rozptylem náhodných složek (místo přesností chyb) a právě invertované gama rozdělení je v tomto případě s úspěchem využito. Definice B.21 (Multinomiální rozdělení). Definice B.22 (Vícerozměrné normální rozdělení). Spojitý k-rozměrný vektor Y = (Y1, . . . , Yk) má normální rozdělení se střední hodnotou µ (k-rozměrný vektor) a s kovarianční maticí Σ (pozitivně definitní matice rozměru k × k) a označuje se jako Y ∼ N(µ, Σ), pokud je jeho funkce hustoty pravděpodobnosti dána jako fN (y|µ, Σ) = 1 (2π) k 2 |Σ| − 1 2 exp − 1 2 (y − µ) Σ−1 (y − µ) . Poznámka: speciální případ, kdy k = 1, µ = 0 a Σ = 1, je nazýván standardizované normální rozdělení. Většina statistických a ekonometrických učebnic obsahuje tabelované hodnoty percentilů standardizovaného normálního rozdělení. Definice B.23 (Vícerozměrné Studentovo t-rozdělení). Definice B.24 (Normální-gama rozdělení). Definice B.25 (Wishartovo rozdělení). Definice B.26 (Dirichletovo a beta rozdělení). B.3 Úvod do teorie výběru 201 B.3 Úvod do teorie výběru Definice B.27 (Náhodný výběr). Teorém B.5 (Vlastnosti náhodného výběru). Definice B.28 (Konvergence v pravděpodobnosti). Definice B.29 (Slabý zákon velkých čísel). Teorém B.6 (Slabý zákon velkých čísel pro náhodný výběr). Definice B.30 (Konvergence (limita) v distribuci). Nechť {YT } je řada náhodných veličin, {PT (·)} je odpovídající řada distribučních funkcí, a nechť Y je náhodná veličina s distribuční funkcí P(y). Potom {YT } konverguje v distribuci k náhodné veličině Y , což je označováno jako YT d → Y , jestliže lim T →∞ PT (y) = P(y). P(y) se nazývá limitní rozdělení. Konvergence v distribuci má tu vlastnost, že pokud YT d → Y , potom g(YT ) d → g(Y ), kde g(·) je spojitá funkce. Definice B.31 (Centrální limitní věta). Nechť {YT } je řada náhodných veličin, Y je náhodná veličina a označme výběrový průměr závisející na délce řady T jako Y T = T t=1 Yt T . Potom Y T vyhovuje centrální limitní větě (CLV), jestliže Y T d → Y . Poznámka: V ekonometrických situacích a problémech je limitní rozdělení vždy normální. V bayesovské analýze je CLV využívána k výpočtu numerických standardních chyb pro odhady získané z řady náhodných výběrů z posteriorní simulace. Stejně jako v případě slabého zákona velkých čísel zde existuje celá řada různých centrálních limitních vět, na které se lze odkazovat v závislosti na vlastnostech řady (např. jestli řada obsahuje nezávislé náhodné veličiny nebo zda-li jsou veličiny závislé, jestli je řada vybírána s téhož rozdělení nebo naopak z různých rozdělení apod.). Jako příklad je zde následující CLV, která je relevantní pro případ, kdy je řada náhodným výběrem. Ačkoliv mnohé posteriorní simulátory (např. Gibbsův vzorkovač) poskytují řadu, která není náhodným výběrem, platí, že v textu zmiňované simulátory splňují centrální limitní věty nutné pro zajištění konvergence v distribuci. Teorém B.7 (Centrální limitní věta pro náhodný výběr). Nechť máme řadu {YT } nezávislých a stejně rozdělených náhodných veličin ze stejného rozdělení se střední hodnotou µ a rozptylem σ2 . Definujme novou sekvenci nezávislých a stejně rozdělených náhodných veličin {ZT }, kde ZT = √ T(Y T − µ) σ . 202 Úvod do pravděpodobnosti a matematické statistiky Potom ZT d → Z, kde Z ∼ N(0, 1). Poznámka: Tento teorém je často označován jako Lindberg-Levyho centrální limitní věta. Existuje řada rozšíření zde uváděných základních centrálních limitních vět a slabých zákonů velkých čísel např. vícerozměrné rozšíření výše uváděných jednorozměrných teorémů. B.4 Další užitečné teorémy Teorém B.8 (Teorém změny proměnné - jednorozměrný). Teorém B.9 (Teorém změny proměnné - vícerozměrný). Příloha C Užitečné funkce v Matlabu Na tomto místě nebude od věci prezentovat užitečné funkce a příkazy programového prostředí Matlab, které lze využít při bayesiánské analýze. Jedná se zejména o funkce, které jsou součástí Statistického toolboxu. Veškeré podrobnější informace o dané funkci lze získat příkazem help (napsaným do příkazového řádku Matlabu), případně v dokumentaci (nápovědě). Součástí této přílohy jsou i funkce LeSageho Ekonometrického toolboxu [22], který je volně dostupný na www.spatial-econometrics.com. Tyto funkce jsou rovněž dobře popsány v manuálu, který tento toolbox doprovází. C.1 Základní příkazy Matlabu C.2 Generátory náhodných čísel Spíše než o generátory náhodných čísel se jedná o pseudo generátory. Základními funkcemi jsou rand (pro generování pseudo náhodných čísel z uniformního rozdělení U(0, 1) a randn (generátor ze standardizovaného normálního rozdělení). Obě funkce jsou využity pro generování náhodných čísel z dalších rozdělení, které jsou součástí Statistického toolboxu. • betarnd – náhodná čísla z beta rozdělení • chi2rnd – náhodná čísla z chí-kvadrát rozdělení • exprnd – náhodná čísla z exponenciálního rozdělení • frnd – náhodná čísla z F -rozdělení • gamrnd – náhodná čísla z gama rozdělení • lognrnd – náhodná čísla z log-normálního rozdělení • normrnd – náhodná čísla z normálního rozdělení 204 Užitečné funkce v Matlabu • trnd – náhodná čísla z t-rozdělení • wishrnd – náhodná čísla z Wishartova rozdělení • mvnrnd – náhodná čísla z vícerozměrného normálního rozdělení • mvtrnd – náhodná čísla z vícerozměrného t-rozdělení C.3 Ekonometrický toolbox Literatura [1] BAUWENS, L., LUBRANO, M., and RICHARD, J. F. Bayesian Inference in Dynamic Econometric Models. Oxford University Press, 1999. [2] CARLIN, B., and LOUIS, T. Bayes and Empirical Bayes Methods for Data Analysis. Boca Raton: Chapman & Hall, 2000. [3] CARLIN, B., POLSON, N., and STOFFER, D. Monte carlo approach to nonnormal and nonlinear state space modeling. Journal of the American Statistical Association 87 (1992), 493–500. [4] CARTER, C., and KOHN, R. On gibbs sampling for state space models. Biometrika 81 (1994), 541–553. [5] CHIB, S. Marginal likelihood from the gibbs sampler. Journal of the American Statistical Association 90 (1995), 1313–1321. [6] CHIB, S., and GREENBERG, E. Understanding the metropolishastings algorithm. The American Statistician 49 (1995), 327–335. [7] DeJONG, P., and SHEPHARD, N. The simulation smoother for time series models. Biometrika 82, 2 (1995), 339–350. [8] DEVROYE, L. Non-Uniform Random Number Generation. SpringerVerlag, 1986. [9] DURBIN, J., and KOOPMAN, S. Time Series Analysis by State Space Methods. Oxford University Press, 2001. [10] ENDERS, W. Applied Econometric Time Series. John Wiley & Sons, 1995. [11] FRUHWIRTH-SCHNATTER, S. Model discrimination and bayes factors for linear gaussian state space models. Journal of the Royal Statistical Society, Series B 56 (1995), 237–246. [12] GELFAND, A., and DEY, D. Bayesian model choice: Asymptotic and exact calculations. Journal of the Royal Statistical Society Series B 56 (1994), 501–514. 206 LITERATURA [13] GEWEKE, J. Bayesian inference in econometrics models using monte carlo integration. Econometrica 57 (1989), 1317–1340. [14] GEWEKE, J. Evaluating the accuracy of sampling-based approaches to the calculation of posterior moments. Bayesian Statistics 4 (1992), 641– 649. [15] GEWEKE, J. Bayesian treatment of the independent student-t linear model. Journal of Applied Econometrics 8 (1993), 19–40. [16] GEWEKE, J. Using simulation methods for bayesian econometric models: Inference, development, and communication. Econometric Reviews 18 (1999), 1–126. [17] Juillard, M. Dynare toolbox for matlab. ver. 4. [18] KIM, C., and NELSON, C. State Space Models with Regime Switching. MIT Press, 1999. [19] Koop, G. Bayesian Econometrics. Wiley, 2003. [20] KOOP, G., and van DIJK, H. Testing for integration using evolving trend and seasonals models: A bayesian approach. Journal of Econometrics 97 (2000), 261–291. [21] Lancaster, T. An introduction to Modern Bayesian Econometrics. Blackwell Publishing, 2004. [22] LeSAGE, J. P. Econometrics toolbox. version 7. [23] LI, K. Exchange rate target zone models: A bayesian evaluation. Journal of Applied Econometrics 14 (1999), 461–490. [24] McCULLOCH, R., POLSON, N., and ROSSI, P. A bayesian analysis of the multinomial probit model with fully identified parameters. Journal of Econometrics 99 (2000), 173–193. [25] McCULLOCH, R., and ROSSI, P. An exact likelihood analysis of the multinomial probit model. Journal of Econometrics 64 (1994), 207–240. [26] POIRIER, D. Intermediate Statistics and Econometrics: A Comparative Approach. MIT Press, 1995. [27] SHIVELY, T., and KOHN, R. A bayesian approach to model selection in stochastic coefficient regression models and structural time series models. Journal of Econometrics 76 (1997), 39–52. [28] VERDINELLI, I., and WASSERMAN, L. Computing bayes factor using a generalization of the savage-dickey density ratio. Journal of the American Statistical Association 90 (1995), 614–618. [29] WEST, M., and HARRISON, P. Bayesian Forecasting and Dynamic Models. Springer, 1997.