Bayesiánská analýza VII. Lineární regresní model s panelovými daty Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 1 / 41 Obsah tématu 1 Souhrnný model 2 Model individuálních vlivů 3 Model náhodných koeficientů 4 Chibova metoda porovnání modelů 5 Empirická ilustrace 6 Model stochastických hranic Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 2 / 41 Úvod Panelová data — časová i prostorová dimenze. Souhrnný model (pooled model), model individuálních vlivů (individual effects model), model náhodných koeficientů (random coefficients model). Chibova metoda marginální věrohodnosti. Model stochastických mezí (stochastic frontier model). Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 3 / 41 Značení yit a it: t-té pozorování (pro t = 1, . . . , T) pro i-tého jednotlivce (i = 1, . . . , N). Xi = [ιT ˜Xi ]. TN-rozměrné vektory: y =      y1 · · yN      =      1 · · N      Matice TN × K: X =      X1 · · XN      Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 4 / 41 Souhrnný model Obsah tématu 1 Souhrnný model 2 Model individuálních vlivů 3 Model náhodných koeficientů 4 Chibova metoda porovnání modelů 5 Empirická ilustrace 6 Model stochastických hranic Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 5 / 41 Souhrnný model Princip Stejný regresní vztah pro všechny jednotlivce: yi = Xi β + i . Předpoklady: 1 i ∼ N(0T , h−1 IT . 2 i a j jsou nezávislé pro i = j. 3 Všechny prvky Xi jsou pevná čísla (tj. nenáhodné veličiny) nebo v případě, že jsou náhodnými veličinami, jsou nezávisle na všech prvcích j a mají hustotu pravděpodobnosti p(Xi |λ) kde λ je vektor parametrů, který neobsahuje β ani h. it a is jsou vzájemně nezávislé pro t = s → zobecnění i má kovarianční matici Ω (řešení jako SUR model). Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 6 / 41 Souhrnný model Bayesovská analýza Věrohodnostní funkce: p(y|β, h) = N i=1 h T 2 (2π) T 2 exp − h 2 (yi − Xi β) (yi − Xi β) . Přepsání do podoby: p(y|β, h) = h NT 2 (2π) NT 2 exp − h 2 (y − Xβ) (y − Xβ) . Např. nezávislá apriorní normální-gama hustota β ∼ N(β, V ) a h ∼ G(s−2, ν) → Gibbsův vzorkovač. Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 7 / 41 Model individuálních vlivů Obsah tématu 1 Souhrnný model 2 Model individuálních vlivů 3 Model náhodných koeficientů 4 Chibova metoda porovnání modelů 5 Empirická ilustrace 6 Model stochastických hranic Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 8 / 41 Model individuálních vlivů Princip Příklad z oblasti marketingu: yit je prodej nápoje značky i v čase t. Prodeje závisí např na ceně + existují i nezachytitelné kvantity (věrnost značce): yit = αi + βxit + it αi = individuální vliv (individual effect). Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 9 / 41 Model individuálních vlivů Věrohodnostní funkce Regresní model: yi = αi ιT + ˜Xi ˜β + i Z předpokladů: p(y|α, ˜β, h) = N i=1 h T 2 (2π) T 2 exp − h 2 (yi − αi ιT − ˜Xi ˜β) (yi − αi ιT − ˜Xi ˜β) . α = (α1, . . . , αN) . Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 10 / 41 Model individuálních vlivů Nehierarchická apriorní hustota Model: y = X∗ β∗ + . X∗: matice rozměru TN × (N + k − 1). X∗ =        ιT 0T · · 0T ˜X1 0T ιT · · · ˜X2 · 0T · · · · · · · · 0T · 0T · · · ιT ˜XN        β∗ =        α1 · · αN ˜β        . Klasická ekonometrie = fixed effects model (X∗ s umělými proměnnými). Např. nezávislá normální-gama apriorní hustota: β∗ ∼ N(β∗ , V ), h ∼ G(s−2 , ν). Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 11 / 41 Model individuálních vlivů Hierarchická aprirorní hustota Velká dimenze vektoru parametrů → hierarchická aprirorní hustota. N + k parametrů → problém pokud T relativně malé vzhledem k N. Obvyklý předpoklad pro i = 1, . . . , N: αi ∼ N(µα, Vα) αi a αj vzájemně nezávislé pro i = j. Hierarchická struktura: pokud µα a Vα neznámé parametry. Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 12 / 41 Model individuálních vlivů Konkretizace aprirorních hustot Předpokládáme nezávislost µα a Vα: µα ∼ N(µα , σ2 α), V −1 α ∼ G(V −1 α , να). Zbylé parametry s nehierarchickou apriorní hustotou (nezávislé normální-gama rozdělení): ˜β ∼ N(β, V β), h ∼ G(s−2 , ν). Klasická ekonometrie: tzv. random effects model. Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 13 / 41 Model individuálních vlivů Posteriorní analýza při nehierarchickém prioru LRM s nezávislou normální-gama apriorní hustotou (Gibbs): β∗ |y, h ∼ N(β∗, V ), h|y, β∗ ∼ G(s−2 , ν), V = (V −1 + hX∗ X∗ )−1 , β∗ = V (V −1 β∗ + hX∗ y), ν = TN + ν, s2 = N i=1(yi − αi ιT − ˜Xi ˜β) (yi − αi ιT − ˜Xi ˜β) + νs2 ν . Standardní analýza konvergence, predikční analýza a porovnání modelů. Numerický problém, pokud N příliš velké (V matice rozměru (N + k − 1) × (N + k − 1) + inverze) → teorém o inverzi dělené matici (snížení dimenze invertovaných matic). Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 14 / 41 Model individuálních vlivů Posteriorní analýza při hierarchickém prioru Odvození = násobení věrohodnostní funkce a apriorních hustot a analýzu výsledného výrazu pro ˜β, h, α, µα a Vα → jádrové (podmíněné) hustoty → Gibbsův vzorkovač. Posteriorní rozdělení pro ˜β a h podmíněné veličinou α analogické jako LRM s nezávislou normální-gama apriorní hustotou. p(˜β|y, h, α, µα, Vα) a p(h|y, ˜β, α, µα, Vα) nezávisí na µα a Vα → ekvivalence vzhledem k p(˜β|y, h, α) a p(h|y, ˜β, α). Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 15 / 41 Model individuálních vlivů Posteriorní analýza pro β a h ˜β|y, h, α, µα, Vα ∼ N(β, V β), h|y, ˜β, α, µα, Vα ∼ G(s−2 , ν), V β = V −1 β + h N i=1 ˜Xi ˜Xi −1 , β = V β V −1 β β + h N i=1 ˜Xi [yi − αi ιT ] , ν = TN + ν, s2 = N i=1(yi − αi ιT − ˜Xi ˜β) (yi − αi ιT − ˜Xi ˜β) + νs2 ν . Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 16 / 41 Model individuálních vlivů Posteriorní analýza pro α Podmíněná posteriorní hustota pro αi je nezávislá na αj pro i = j: αi |y, ˜β, h, µα, Vα ∼ N(αi , V i ), V i = Vαh−1 TVα + h−1 , αi = Vα(yi − ˜Xi ˜β) ιT + h−1µα TVα + h−1 . Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 17 / 41 Model individuálních vlivů Posteriorní analýza pro hierarchické parametry Podmíněné hustoty pro hierarchické parametry µα a Vα: µα|y, ˜β, h, α, Vα ∼ N(µα, σ2 α), V −1 α |y, ˜β, h, α, µα, Vα ∼ G(V −1 α , να), σ2 α = Vασ2 α Vα + Nσ2 α µα = Vαµα + σ2 α N i=1 αi Vα + Nσ2 α , να = να + N, V α = N i=1(αi − µα)2 + V ανα να . Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 18 / 41 Model náhodných koeficientů Obsah tématu 1 Souhrnný model 2 Model individuálních vlivů 3 Model náhodných koeficientů 4 Chibova metoda porovnání modelů 5 Empirická ilustrace 6 Model stochastických hranic Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 19 / 41 Model náhodných koeficientů Princip Uvolněný předpoklad o společném sklonu regresní (nad)roviny: yi = Xi βi + i . Problém odhadu pro malé T (vzhledem k N) → hierarchická konstrukce apriorní hustoty. Motivace: příklad z marketingu → navíc odlišný marginální efekt změny ceny na prodeje (věrnost značce skrze mezní vlivy ceny). Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 20 / 41 Model náhodných koeficientů Věrohodnostní funkce Z předpokladů o chybovém členu a tvaru regresního modelu: p(y|β, h) = N i=1 h T 2 (2π) T 2 exp − h 2 (yi − Xi βi ) (yi − Xi βi ) . β = (β1 , . . . , βN ) označuje všechny regresní koeficienty. Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 21 / 41 Model náhodných koeficientů Hierarchická apriorní hustota βi pro i = 1, . . . , N jsou nezávislé výběry z normálního rozdělení: βi ∼ N(µβ, Vβ). Druhá fáze hierarchické apriorní hustoty: µβ ∼ N(µβ , Σβ), V −1 β ∼ W (νβ, V −1 β ). Wishartovo rozdělení: E(V −1 β ) = νβV −1 β + neinformativní varianta pro νβ = 0. Přesnost chyby: h ∼ G(s−2 , ν). Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 22 / 41 Model náhodných koeficientů Posteriorní analýza při nehierarchickém prioru – β Gibbsův vzorkovač (standardní odvození): Vzájemně nezávislé podmíněné posteriorní hustoty parametrů βi , pro i = 1, . . . , N: βi |y, h, µβ, Vβ ∼ N(βi , V i ), V i = (hXi Xi + V −1 β )−1 , βi = V i (hXi yi + V −1 β µβ). Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 23 / 41 Model náhodných koeficientů Posteriorní analýza při nehierarchickém prioru – µβ a Vβ Relevantní hustoty pro µβ a Vβ: µβ|y, β, h, Vβ ∼ N(µβ, Σβ) V −1 β |y, β, h, µβ ∼ W (νβ, [νβV β]−1 ), Σβ = NV −1 β + Σ−1 β −1 , µβ = Σβ V −1 β N i=1 βi + Σ−1 β µβ , νβ = N + νβ, V β = N i=1 (βi − µβ)(βi − µβ) + V β. Výraz N i=1 βi : k-rozměrný vektor obsahující součty prvků βi . Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 24 / 41 Model náhodných koeficientů Posteriorní analýza při nehierarchickém prioru – h Podmíněná posteriorní hustota pro přesnost chyby: h|y, β, µβ, Vβ ∼ G(s−2 , ν), ν = TN + ν, s2 = N i=1(yi − Xi βi ) (yi − Xi βi ) + νs2 ν . Gibbsův vzorkovač: výběry z normálního, gama a Wishartova rozdělení. Predikční analýza a kovergenční testy proveditelné standardním způsobem. Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 25 / 41 Chibova metoda porovnání modelů Obsah tématu 1 Souhrnný model 2 Model individuálních vlivů 3 Model náhodných koeficientů 4 Chibova metoda porovnání modelů 5 Empirická ilustrace 6 Model stochastických hranic Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 26 / 41 Chibova metoda porovnání modelů Úvod Bude časem doplněno. . . Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 27 / 41 Empirická ilustrace Obsah tématu 1 Souhrnný model 2 Model individuálních vlivů 3 Model náhodných koeficientů 4 Chibova metoda porovnání modelů 5 Empirická ilustrace 6 Model stochastických hranic Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 28 / 41 Empirická ilustrace Úvod Bude časem doplněno. . . Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 29 / 41 Model stochastických hranic Obsah tématu 1 Souhrnný model 2 Model individuálních vlivů 3 Model náhodných koeficientů 4 Chibova metoda porovnání modelů 5 Empirická ilustrace 6 Model stochastických hranic Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 30 / 41 Model stochastických hranic Princip Ekonomická teorie: stochastic frontier model. Model individuálních vlivů s odlišnou hierarchickou apriorní hustotou. Analýza efektivity produkce firem či jiných agentů. Ekonomická teorie → ekonometrický model. Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 31 / 41 Model stochastických hranic Úvod do modelu Ekonomický model produkce: výstup firmy i v čase t, Yit, je vyráběn s využitím vektoru vstupů, X∗ it, kde i = 1, . . . , N a t = 1, . . . , T. Firmy využívají běžnou, nejlepší možnou dostupnou technologii závislou na neznámých parametrech, β: Yit = f (X∗ it; β) . Hranice výrobních možností (production frontier). Odchylka skutečného výstupu od maximálně dosažitelného = měřítko neefektivity: Yit = f (X∗ it; β) τi . 0 < τi ≤ 1: míra efektivity specifická pro jednotlivé firmy. τi = 1: firma i plně efektivní. Předpoklad: každá firma úroveň efektivity neměnnou v čase (lze uvolnit). Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 32 / 41 Model stochastických hranic Úvod do modelu (pokračování) Chybový člen ζit: Yit = f (X∗ it; β) τi ζit. Zahrnutí chybového členu (chyb měření) = stochastická hranice. Pokud hranice výrobních možností, f (), v log-lineární podobě (např. Cobb-Douglasova produkční funkce nebo produkční funkce TRANSLOG) → logaritmování: yit = Xitβ + it − zi , β = (β1, . . . , βk) , yit = ln (Yit), it = ln (ζit), zi = − ln (τi ) a Xit je protějškem X∗ it (vstupy transformovány logaritmy). Veličina zi = nefektivita a díky 0 < τi ≤ 1 nezáporná náhodná veličina. Xit s úrovňovou konstantou a koeficientem β1. Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 33 / 41 Model stochastických hranic Úvod do modelu (dokončení) Podoba modelu individuálních vlivů: výraz β1 − zi odpovídá αi . Ekonomická teorie dává vodítko k výběru hierarchické apriorní hustoty. Pro nelog-lineární produkční funkci (např. CES produkční funkce) potřeba kombinace s technikami M-H algoritmu. Setřízení proměnných a matic: yi = Xi β + i − zi ιT . Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 34 / 41 Model stochastických hranic Věrohodnostní funkce Předpoklad nezávislosti zi a j pro všechna i a j: p (y|β, h, z) = N i=1 h T 2 (2π) T 2 exp − h 2 (yi − Xi β + zi ιT ) (yi − Xi β + zi ιT ) . z = (z1, . . . , zN) . z: vektor neznámých parametrů. „klasická“ ekonometrie: věrohodnostní funkce definována jako p(y|β, h, θ) = p(y|β, h, z)p(z|θ)dz, kde p(z|θ) odpovídá předpokladu o rozdělení neefektivity (závisí na vektoru neznámých parametrů θ). Matematicky ekvivalentní postup bayesovskému přístupu využívajícímu p(z|θ) jako hierarchickou apriorní hustotu ⇒ volba označení „věrohodnostní funkce“ a „hierarchická apriorní hustota“ je čistě sémantickou záležitostí. Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 35 / 41 Model stochastických hranic Hierarchická apriorní hustota Koeficienty hranice výrobních možností a přesnost chyby: β ∼ N β, V , h ∼ G s−2 , ν . Míra neefektivity: hierarchická apriorní hustota. zi > 0 → ne hierarchická hustota odpovídající normální hustotě pravděpodobnosti. Obvykle omezené normálnímu rozdělení nebo rozdělení z rodiny gama rozdělení, zde exponenciální rozdělení (zi a zj a priori nezávislé pro i = j): zi ∼ G (µz, 2) . zi > 0 ⇒ µz > 0 (snadnější práce s µ−1 z než přímo s µz): µ−1 z ∼ G µ−1 z , νz . Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 36 / 41 Model stochastických hranic Apriorní hustota pro hyperparametry Apriorní hyperparametry pro µ−1 z a νz na základě předpokladů o rozdělení efektivity. Např. nechť τ∗ označuje apriorní medián tohoto rozdělení. Pokud očekáváme spíše efektivní firmy v našem vzorku: hodnota τ∗ vysoká (např. 0.95), jinak nižší. Literatura: νz = 2 implikuje relativně neinformativní prior. Z nastavení µz = − ln (τ∗): medián apriorního rozdělení efektivity τ∗. Strategie stanovení priorů prostřednictvím snadno interpretovatelných hyperparametrů v kontextu výchozí ekonomické teorie (např. τ∗) + následná zpětná transformace pro nalezení hyperparametrů použitých v modelu (např. µz a νz). Omezení z ekonomické teorie: např. restrikce, že hranice výrobních možností je monotónně rostoucí ve vstupech nebo nákladová funkce je konkávní nebo možnost technologického úpadku ⇒ omezení parametrů ve tvaru nerovností. Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 37 / 41 Model stochastických hranic Bayesovský výpočet Gibbsův vzorkovač: podmíněné hustoty jako v modelu individuálních vlivů s hierarchickou apriorní hustotou (s výjimkou z a µz). Parametry hranice výrobních možností: β|y, h, z, µz ∼ N β, V , V = V −1 h N i=1 Xi Xi −1 , β = V V −1 β + h N i=1 Xi [yi + zi ιT ] . Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 38 / 41 Model stochastických hranic Bayesovský výpočet (pokračování) Standardní výsledky pro přesnost chyby: h|y, β, z, µz ∼ G s−2 , ν , ν = TN + ν, s−2 = N i−1 (yi + zi ιT − Xi β) (yi zi ιT − Xi β) + νs2 ν . Nezávislé podmíněné posteriorní hustoty pro neefektivity odpovídají normálnímu rozdělení omezenému na kladné hodnoty: p (zi |yi , Xi , β, h, µz) ∝ fN zi |Xi β − yi − (Thµz)−1 , (Th)−1 1 (zi ≥ 0) . yi = T t=1 yit T a Xi je matice rozměru (1 × k) obsahující průměrné hodnoty každé vysvětlující proměnné pro každého jednotlivce i. 1 (zi ≥ 0) je indikační funkce rovna jedničce pokud zi ≥ 0 a nule v ostatních případech. Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 39 / 41 Model stochastických hranic Bayesovský výpočet (dokončení) Podmíněná posteriorní hustota pro µ−1 z : µ−1 z |y, β, z ∼ G (µz, νz) , νz = 2N + νz, µz = N + νz 2 N i=1 zi µz . Výběry z omezeného normálního rozdělení (neomezené + vyhození zi < 0 nebo specifické algoritmy). Tradiční způsob predikční analýzy a provedení MCMC diagnostik; porovnání modelů např. pomocí Chibovy metody. Metody i pro čistě průřezovou verzi tohoto modelu (tzn. T = 1 × nepřijatelné použití určitých nepravých priorů → nepravé posteriory). Intuitivně: T = 1 ⇒ parametry z, µz, β, h = N + K + 2 parametrů × jen N pozorování. Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 40 / 41 Model stochastických hranic Empirická ilustrace Bude časem doplněno. . . Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 41 / 41