Bayesiánská analýza - cvičení 5
Toto cvičení je založeno na znalosti šesté kapitoly z učebnice Koop (2003): Bayesian econometrics, případně na odpovídající kapitole podkladového učebního textu Bayesiánská analýza.
Co bude náplní cvičení?
^ Odhad a posteriorní analýza normálního nelineárního regresního modelu s obecnou kovarianční maticí, a to s využitím reálných dat.
^ Příklad na heteroskedasticitu využívající efektivnější kódy než původní empirická ilustrace. ^ Příklad na autokorelaci a SUR model odpovídající empirické ilustraci z Koop (2003).
Zadání příkladů
1. Předpokládejme, že spotřeba energie v čase roste s tím, jak narůstá populace a její důchod, a naopak klesá s růstem cen energií. Využijte roční data pro Spojené státy od roku 1960 do roku 1985 a odhadněte regresní model závislosti distribuované energie na čase, ceně a důchodu domácností. Datový soubor je EX64 .dat, výchozí m-files postupně energya .m, energyb . m a energyc .m. Model je definována jako
Q = f31+f32- Y E AR + /3a-P + /34- INC
kde Q je logaritmus množství dodané energie (1015 BTU), Y E AR nabývá hodnoty 1 v roce 1960 a 26 v roce 1960, P je logaritmus ceny energií (za jednotku, v dolarech roku 1975) a INC je logaritmus důchodu na jednu domácnost (v dolarech roku 1975, !v původním datovém souboru není logaritmován!).
Vyjděte z nezávislé normální-gama apriorní hustoty pro odhadované parametry. Výsledky metodou nejmenších čtverců prezentované Pindyckem a Rubinfeldem1 (Příklad 6.4, strana 158) jsou (í-statistiky jsou uvedeny v závorkách):
Q   =   -36.48   +   0A8YEAR   -     .67P     + .55INC (-1.98) (1.76) (-8.99) (2.03)
R2 = .970 s = .032
Řešte tento příklad bez předpokladu heteroskedasticity a potom i s předpokladem známé kovarianční matice a neznámé kovarianční matice (náhodné chyby budou z í-rozdělení). V případě známé kovarianční matice testujte (porovnáním modelů) případ, neexistence heteroskedasticity. Inspiraci pro postup můžete hledat v Koop (2003), využijte rovněž i hotové skripty z předchozích cvičení (nebo se jimi alespoň inspirujte). V rámci regrese pro prvky obecné kovarianční matice íl můžete využít i neinformativní prior a oc 1, v tom případě nelze počítat Bayesův faktor (nedává správné výsledky) pro testování hypotéz zahrnující a.
2. Proveďte bayesiánskou analýzu v rámci příkladu (empirické ilustrace) z Koop (2003), příklad (6.5.3). Tento regresní model se snaží vysvětlit procento výher baseballového týmu New York Yankees v každém roce (v období 1903 až 1999) v závislosti na statistikách charakterizujících ofenzivní a defenzivní výkonnost tohoto týmu. Datový soubor je yankees . txt, výchozí m-files pak chapter0 6c_noauto .m, chapterO 6c . m a zcela obecný chapterO 6 c_expand .m. Vysvětlovanou proměnnou je winning percentage (PCT) v roce t, tedy PCT = wins/ (wins+losses). Vysvětlujícími veličinami jsou on4jase percentage (OBP), team slugging average (SLG) a team earned run average (ERA) vše za rok t. Bližší vysvětlení těchto veličin je obsaženo v souboru baseball statistics.pdf.
Předpokládáme v modelu autokorelaci náhodných složek. Vzhledem k tomu, že subjektivní určení apriorních hustot je obtížné, použijte neinformativní apriorní hustotu pro (3 a zvolte tedy = Okxk- Stejně tak užijte neinformativní apriorní hustotu pro h nastavením v_ = 0. Totuo volbou se stává hodnota /3 a s~2 irelevantní.
'Pindyck, Rubinfeld (1997) Econometric models and economic forecast. 4. vydání
1
Spočítejte Savage-Dickey density ratio porovnávající modely s p j = 0 pro j = 1,... ,p vzhledeme k neomezenému modelu. To vyžaduje formulaci informativní apriorní hustoty pro p, vhodnou volbou je zde p = 0 a Vp = c * Ip. V rámci analýzy citlivosti apriorních hustot pak volíme různá c.
Koop ukazuje, že Bayesův faktor a HPDI nepodopořili hypotézu o autokorelaci vyššího řádu než je jedna. Můžete tudíž rovnou zvolit p = 1, což bude znamenat, že stacionární oblast je pro \pi \ < 0. Zkuste však odhadnout model i s předpokladem autokorelace vyššího řádu a samozřejmě neopomeňte odhad bez předpokladu autoko-relace (pro srovnání výsledků).
3. Proveďte bayesiánskou analýzu v rámci příkladu (empirické ilustrace) z Koop (2003), příklad (6.6.4). Tento regresní model se snaží vysvětlit procento výher baseballového týmu New York Yankees a Red Sox v každém roce (v období 1903 až 1999) v závislosti na statistikách charakterizujících ofenzivní a defenzivní výkonnost tohoto týmu. Datový soubor je yankees . txt a yankees . txt, výchozí m-file pak chapter0 6d. m. Vysvětlovanou proměnnou je winning percentage (PCT) v roce í, tedy PCT = wins/(wins + losses). Vysvětlujícími veličinami jsou on-base percentage (OBP), team slugging average (SLG) a team earned run average (ERA) vše za rok t. Bližší vysvětlení těchto veličin je obsaženo v souboru baseball statistics . pdf. Model bereme jako model zdánlivě nesouvisejících regresí.
Vzhledem k tomu, že subjektivní určení apriorních hustot je obtížné, použijme neinformativní apriorní hustotu pro /3 a zvolme tedy /3 = Ok, Y_~x = 4/^ a = 02x2 - Na základě výsledků korelace náhodných složek mezi oběma rovnicemi pak můžeme rozhodnout, jestli bylo vůbec nutné pracovat se SUR modelem.
2