Bayesiánská analýza
VII. Lineární regresní model s panelovými daty
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 1 / 41
Obsah tématu
1 Souhrnný model
2 Model individuálních vlivů
3 Model náhodných koeﬁcientů
4 Chibova metoda porovnání modelů
5 Empirická ilustrace
6 Model stochastických hranic
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 2 / 41
Úvod
Panelová data — časová i prostorová dimenze.
Souhrnný model (pooled model), model individuálních vlivů
(individual eﬀects model), model náhodných koeﬁcientů (random
coeﬃcients model).
Chibova metoda marginální věrohodnosti.
Model stochastických mezí (stochastic frontier model).
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 3 / 41
Značení
yit a it: t-té pozorování (pro t = 1, . . . , T) pro i-tého jednotlivce
(i = 1, . . . , N).
Xi = [ιT
˜Xi ].
TN-rozměrné vektory:
y =





y1
·
·
yN





=





1
·
·
N





Matice TN × K:
X =





X1
·
·
XN





Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 4 / 41
Souhrnný model
Obsah tématu
1 Souhrnný model
2 Model individuálních vlivů
3 Model náhodných koeﬁcientů
4 Chibova metoda porovnání modelů
5 Empirická ilustrace
6 Model stochastických hranic
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 5 / 41
Souhrnný model
Princip
Stejný regresní vztah pro všechny jednotlivce:
yi = Xi β + i .
Předpoklady:
1 i ∼ N(0T , h−1
IT .
2 i a j jsou nezávislé pro i = j.
3 Všechny prvky Xi jsou pevná čísla (tj. nenáhodné veličiny) nebo v
případě, že jsou náhodnými veličinami, jsou nezávisle na všech prvcích
j a mají hustotu pravděpodobnosti p(Xi |λ) kde λ je vektor parametrů,
který neobsahuje β ani h.
it a is jsou vzájemně nezávislé pro t = s → zobecnění i má
kovarianční matici Ω (řešení jako SUR model).
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 6 / 41
Souhrnný model
Bayesovská analýza
Věrohodnostní funkce:
p(y|β, h) =
N
i=1
h
T
2
(2π)
T
2
exp −
h
2
(yi − Xi β) (yi − Xi β) .
Přepsání do podoby:
p(y|β, h) =
h
NT
2
(2π)
NT
2
exp −
h
2
(y − Xβ) (y − Xβ) .
Např. nezávislá apriorní normální-gama hustota β ∼ N(β, V ) a
h ∼ G(s−2, ν) → Gibbsův vzorkovač.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 7 / 41
Model individuálních vlivů
Obsah tématu
1 Souhrnný model
2 Model individuálních vlivů
3 Model náhodných koeﬁcientů
4 Chibova metoda porovnání modelů
5 Empirická ilustrace
6 Model stochastických hranic
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 8 / 41
Model individuálních vlivů
Princip
Příklad z oblasti marketingu: yit je prodej nápoje značky i v čase t.
Prodeje závisí např na ceně + existují i nezachytitelné kvantity
(věrnost značce):
yit = αi + βxit + it
αi = individuální vliv (individual eﬀect).
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 9 / 41
Model individuálních vlivů
Věrohodnostní funkce
Regresní model:
yi = αi ιT + ˜Xi
˜β + i
Z předpokladů:
p(y|α, ˜β, h) =
N
i=1
h
T
2
(2π)
T
2
exp −
h
2
(yi − αi ιT − ˜Xi
˜β) (yi − αi ιT − ˜Xi
˜β) .
α = (α1, . . . , αN) .
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 10 / 41
Model individuálních vlivů
Nehierarchická apriorní hustota
Model:
y = X∗
β∗
+ .
X∗: matice rozměru TN × (N + k − 1).
X∗
=







ιT 0T · · 0T
˜X1
0T ιT · · · ˜X2
· 0T · · · ·
· · · · 0T ·
0T · · · ιT
˜XN







β∗
=







α1
·
·
αN
˜β







.
Klasická ekonometrie = ﬁxed eﬀects model (X∗ s umělými
proměnnými).
Např. nezávislá normální-gama apriorní hustota:
β∗
∼ N(β∗
, V ),
h ∼ G(s−2
, ν).
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 11 / 41
Model individuálních vlivů
Hierarchická aprirorní hustota
Velká dimenze vektoru parametrů → hierarchická aprirorní hustota.
N + k parametrů → problém pokud T relativně malé vzhledem k N.
Obvyklý předpoklad pro i = 1, . . . , N:
αi ∼ N(µα, Vα)
αi a αj vzájemně nezávislé pro i = j.
Hierarchická struktura: pokud µα a Vα neznámé parametry.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 12 / 41
Model individuálních vlivů
Konkretizace aprirorních hustot
Předpokládáme nezávislost µα a Vα:
µα ∼ N(µα
, σ2
α),
V −1
α ∼ G(V −1
α , να).
Zbylé parametry s nehierarchickou apriorní hustotou (nezávislé
normální-gama rozdělení):
˜β ∼ N(β, V β),
h ∼ G(s−2
, ν).
Klasická ekonometrie: tzv. random eﬀects model.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 13 / 41
Model individuálních vlivů
Posteriorní analýza při nehierarchickém prioru
LRM s nezávislou normální-gama apriorní hustotou (Gibbs):
β∗
|y, h ∼ N(β∗, V ),
h|y, β∗
∼ G(s−2
, ν),
V = (V −1
+ hX∗
X∗
)−1
,
β∗ = V (V −1
β∗
+ hX∗
y),
ν = TN + ν,
s2
=
N
i=1(yi − αi ιT − ˜Xi
˜β) (yi − αi ιT − ˜Xi
˜β) + νs2
ν
.
Standardní analýza konvergence, predikční analýza a porovnání
modelů.
Numerický problém, pokud N příliš velké (V matice rozměru
(N + k − 1) × (N + k − 1) + inverze) → teorém o inverzi dělené
matici (snížení dimenze invertovaných matic).
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 14 / 41
Model individuálních vlivů
Posteriorní analýza při hierarchickém prioru
Odvození = násobení věrohodnostní funkce a apriorních hustot a
analýzu výsledného výrazu pro ˜β, h, α, µα a Vα → jádrové
(podmíněné) hustoty → Gibbsův vzorkovač.
Posteriorní rozdělení pro ˜β a h podmíněné veličinou α analogické jako
LRM s nezávislou normální-gama apriorní hustotou.
p(˜β|y, h, α, µα, Vα) a p(h|y, ˜β, α, µα, Vα) nezávisí na µα a Vα →
ekvivalence vzhledem k p(˜β|y, h, α) a p(h|y, ˜β, α).
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 15 / 41
Model individuálních vlivů
Posteriorní analýza pro β a h
˜β|y, h, α, µα, Vα ∼ N(β, V β),
h|y, ˜β, α, µα, Vα ∼ G(s−2
, ν),
V β = V −1
β + h
N
i=1
˜Xi
˜Xi
−1
,
β = V β V −1
β β + h
N
i=1
˜Xi [yi − αi ιT ] ,
ν = TN + ν,
s2
=
N
i=1(yi − αi ιT − ˜Xi
˜β) (yi − αi ιT − ˜Xi
˜β) + νs2
ν
.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 16 / 41
Model individuálních vlivů
Posteriorní analýza pro α
Podmíněná posteriorní hustota pro αi je nezávislá na αj pro i = j:
αi |y, ˜β, h, µα, Vα ∼ N(αi , V i ),
V i =
Vαh−1
TVα + h−1
,
αi =
Vα(yi − ˜Xi
˜β) ιT + h−1µα
TVα + h−1
.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 17 / 41
Model individuálních vlivů
Posteriorní analýza pro hierarchické parametry
Podmíněné hustoty pro hierarchické parametry µα a Vα:
µα|y, ˜β, h, α, Vα ∼ N(µα, σ2
α),
V −1
α |y, ˜β, h, α, µα, Vα ∼ G(V
−1
α , να),
σ2
α =
Vασ2
α
Vα + Nσ2
α
µα =
Vαµα
+ σ2
α
N
i=1 αi
Vα + Nσ2
α
,
να = να + N,
V α =
N
i=1(αi − µα)2 + V ανα
να
.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 18 / 41
Model náhodných koeﬁcientů
Obsah tématu
1 Souhrnný model
2 Model individuálních vlivů
3 Model náhodných koeﬁcientů
4 Chibova metoda porovnání modelů
5 Empirická ilustrace
6 Model stochastických hranic
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 19 / 41
Model náhodných koeﬁcientů
Princip
Uvolněný předpoklad o společném sklonu regresní (nad)roviny:
yi = Xi βi + i .
Problém odhadu pro malé T (vzhledem k N) → hierarchická
konstrukce apriorní hustoty.
Motivace: příklad z marketingu → navíc odlišný marginální efekt
změny ceny na prodeje (věrnost značce skrze mezní vlivy ceny).
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 20 / 41
Model náhodných koeﬁcientů
Věrohodnostní funkce
Z předpokladů o chybovém členu a tvaru regresního modelu:
p(y|β, h) =
N
i=1
h
T
2
(2π)
T
2
exp −
h
2
(yi − Xi βi ) (yi − Xi βi ) .
β = (β1 , . . . , βN ) označuje všechny regresní koeﬁcienty.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 21 / 41
Model náhodných koeﬁcientů
Hierarchická apriorní hustota
βi pro i = 1, . . . , N jsou nezávislé výběry z normálního rozdělení:
βi ∼ N(µβ, Vβ).
Druhá fáze hierarchické apriorní hustoty:
µβ ∼ N(µβ
, Σβ),
V −1
β ∼ W (νβ, V −1
β ).
Wishartovo rozdělení: E(V −1
β ) = νβV −1
β + neinformativní varianta
pro νβ = 0.
Přesnost chyby:
h ∼ G(s−2
, ν).
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 22 / 41
Model náhodných koeﬁcientů
Posteriorní analýza při nehierarchickém prioru – β
Gibbsův vzorkovač (standardní odvození):
Vzájemně nezávislé podmíněné posteriorní hustoty parametrů βi , pro
i = 1, . . . , N:
βi |y, h, µβ, Vβ ∼ N(βi , V i ),
V i = (hXi Xi + V −1
β )−1
,
βi = V i (hXi yi + V −1
β µβ).
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 23 / 41
Model náhodných koeﬁcientů
Posteriorní analýza při nehierarchickém prioru – µβ a Vβ
Relevantní hustoty pro µβ a Vβ:
µβ|y, β, h, Vβ ∼ N(µβ, Σβ)
V −1
β |y, β, h, µβ ∼ W (νβ, [νβV β]−1
),
Σβ = NV −1
β + Σ−1
β
−1
,
µβ = Σβ V −1
β
N
i=1
βi + Σ−1
β µβ
,
νβ = N + νβ,
V β =
N
i=1
(βi − µβ)(βi − µβ) + V β.
Výraz N
i=1 βi : k-rozměrný vektor obsahující součty prvků βi .
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 24 / 41
Model náhodných koeﬁcientů
Posteriorní analýza při nehierarchickém prioru – h
Podmíněná posteriorní hustota pro přesnost chyby:
h|y, β, µβ, Vβ ∼ G(s−2
, ν),
ν = TN + ν,
s2
=
N
i=1(yi − Xi βi ) (yi − Xi βi ) + νs2
ν
.
Gibbsův vzorkovač: výběry z normálního, gama a Wishartova
rozdělení.
Predikční analýza a kovergenční testy proveditelné standardním
způsobem.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 25 / 41
Chibova metoda porovnání modelů
Obsah tématu
1 Souhrnný model
2 Model individuálních vlivů
3 Model náhodných koeﬁcientů
4 Chibova metoda porovnání modelů
5 Empirická ilustrace
6 Model stochastických hranic
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 26 / 41
Chibova metoda porovnání modelů
Úvod
Bude časem doplněno. . .
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 27 / 41
Empirická ilustrace
Obsah tématu
1 Souhrnný model
2 Model individuálních vlivů
3 Model náhodných koeﬁcientů
4 Chibova metoda porovnání modelů
5 Empirická ilustrace
6 Model stochastických hranic
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 28 / 41
Empirická ilustrace
Úvod
Bude časem doplněno. . .
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 29 / 41
Model stochastických hranic
Obsah tématu
1 Souhrnný model
2 Model individuálních vlivů
3 Model náhodných koeﬁcientů
4 Chibova metoda porovnání modelů
5 Empirická ilustrace
6 Model stochastických hranic
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 30 / 41
Model stochastických hranic
Princip
Ekonomická teorie: stochastic frontier model.
Model individuálních vlivů s odlišnou hierarchickou apriorní hustotou.
Analýza efektivity produkce ﬁrem či jiných agentů.
Ekonomická teorie → ekonometrický model.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 31 / 41
Model stochastických hranic
Úvod do modelu
Ekonomický model produkce: výstup ﬁrmy i v čase t, Yit, je vyráběn
s využitím vektoru vstupů, X∗
it, kde i = 1, . . . , N a t = 1, . . . , T.
Firmy využívají běžnou, nejlepší možnou dostupnou technologii
závislou na neznámých parametrech, β:
Yit = f (X∗
it; β) .
Hranice výrobních možností (production frontier).
Odchylka skutečného výstupu od maximálně dosažitelného = měřítko
neefektivity:
Yit = f (X∗
it; β) τi .
0 < τi ≤ 1: míra efektivity speciﬁcká pro jednotlivé ﬁrmy.
τi = 1: ﬁrma i plně efektivní.
Předpoklad: každá ﬁrma úroveň efektivity neměnnou v čase (lze
uvolnit).
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 32 / 41
Model stochastických hranic
Úvod do modelu (pokračování)
Chybový člen ζit:
Yit = f (X∗
it; β) τi ζit.
Zahrnutí chybového členu (chyb měření) = stochastická hranice.
Pokud hranice výrobních možností, f (), v log-lineární podobě (např.
Cobb-Douglasova produkční funkce nebo produkční funkce
TRANSLOG) → logaritmování:
yit = Xitβ + it − zi ,
β = (β1, . . . , βk) , yit = ln (Yit), it = ln (ζit), zi = − ln (τi ) a Xit je
protějškem X∗
it (vstupy transformovány logaritmy).
Veličina zi = nefektivita a díky 0 < τi ≤ 1 nezáporná náhodná
veličina.
Xit s úrovňovou konstantou a koeﬁcientem β1.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 33 / 41
Model stochastických hranic
Úvod do modelu (dokončení)
Podoba modelu individuálních vlivů: výraz β1 − zi odpovídá αi .
Ekonomická teorie dává vodítko k výběru hierarchické apriorní hustoty.
Pro nelog-lineární produkční funkci (např. CES produkční funkce)
potřeba kombinace s technikami M-H algoritmu.
Setřízení proměnných a matic:
yi = Xi β + i − zi ιT .
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 34 / 41
Model stochastických hranic
Věrohodnostní funkce
Předpoklad nezávislosti zi a j pro všechna i a j:
p (y|β, h, z) =
N
i=1
h
T
2
(2π)
T
2
exp −
h
2
(yi − Xi β + zi ιT ) (yi − Xi β + zi ιT ) .
z = (z1, . . . , zN) .
z: vektor neznámých parametrů.
„klasická“ ekonometrie: věrohodnostní funkce deﬁnována jako
p(y|β, h, θ) = p(y|β, h, z)p(z|θ)dz, kde p(z|θ) odpovídá
předpokladu o rozdělení neefektivity (závisí na vektoru neznámých
parametrů θ).
Matematicky ekvivalentní postup bayesovskému přístupu
využívajícímu p(z|θ) jako hierarchickou apriorní hustotu ⇒ volba
označení „věrohodnostní funkce“ a „hierarchická apriorní hustota“ je
čistě sémantickou záležitostí.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 35 / 41
Model stochastických hranic
Hierarchická apriorní hustota
Koeﬁcienty hranice výrobních možností a přesnost chyby:
β ∼ N β, V ,
h ∼ G s−2
, ν .
Míra neefektivity: hierarchická apriorní hustota.
zi > 0 → ne hierarchická hustota odpovídající normální hustotě
pravděpodobnosti.
Obvykle omezené normálnímu rozdělení nebo rozdělení z rodiny gama
rozdělení, zde exponenciální rozdělení (zi a zj a priori nezávislé pro
i = j):
zi ∼ G (µz, 2) .
zi > 0 ⇒ µz > 0 (snadnější práce s µ−1
z než přímo s µz):
µ−1
z ∼ G µ−1
z
, νz .
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 36 / 41
Model stochastických hranic
Apriorní hustota pro hyperparametry
Apriorní hyperparametry pro µ−1
z
a νz na základě předpokladů o
rozdělení efektivity.
Např. nechť τ∗ označuje apriorní medián tohoto rozdělení.
Pokud očekáváme spíše efektivní ﬁrmy v našem vzorku: hodnota τ∗
vysoká (např. 0.95), jinak nižší.
Literatura: νz = 2 implikuje relativně neinformativní prior.
Z nastavení µz
= − ln (τ∗): medián apriorního rozdělení efektivity τ∗.
Strategie stanovení priorů prostřednictvím snadno interpretovatelných
hyperparametrů v kontextu výchozí ekonomické teorie (např. τ∗) +
následná zpětná transformace pro nalezení hyperparametrů použitých
v modelu (např. µz a νz).
Omezení z ekonomické teorie: např. restrikce, že hranice výrobních
možností je monotónně rostoucí ve vstupech nebo nákladová funkce
je konkávní nebo možnost technologického úpadku ⇒ omezení
parametrů ve tvaru nerovností.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 37 / 41
Model stochastických hranic
Bayesovský výpočet
Gibbsův vzorkovač: podmíněné hustoty jako v modelu individuálních
vlivů s hierarchickou apriorní hustotou (s výjimkou z a µz).
Parametry hranice výrobních možností:
β|y, h, z, µz ∼ N β, V ,
V = V −1
h
N
i=1
Xi Xi
−1
,
β = V V −1
β + h
N
i=1
Xi [yi + zi ιT ] .
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 38 / 41
Model stochastických hranic
Bayesovský výpočet (pokračování)
Standardní výsledky pro přesnost chyby:
h|y, β, z, µz ∼ G s−2
, ν ,
ν = TN + ν,
s−2
=
N
i−1 (yi + zi ιT − Xi β) (yi zi ιT − Xi β) + νs2
ν
.
Nezávislé podmíněné posteriorní hustoty pro neefektivity odpovídají
normálnímu rozdělení omezenému na kladné hodnoty:
p (zi |yi , Xi , β, h, µz) ∝ fN zi |Xi β − yi − (Thµz)−1
, (Th)−1
1 (zi ≥ 0) .
yi =
T
t=1
yit
T a Xi je matice rozměru (1 × k) obsahující průměrné
hodnoty každé vysvětlující proměnné pro každého jednotlivce i.
1 (zi ≥ 0) je indikační funkce rovna jedničce pokud zi ≥ 0 a nule v
ostatních případech.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 39 / 41
Model stochastických hranic
Bayesovský výpočet (dokončení)
Podmíněná posteriorní hustota pro µ−1
z :
µ−1
z |y, β, z ∼ G (µz, νz) ,
νz = 2N + νz,
µz =
N +
νz
2
N
i=1 zi µz
.
Výběry z omezeného normálního rozdělení (neomezené + vyhození
zi < 0 nebo speciﬁcké algoritmy).
Tradiční způsob predikční analýzy a provedení MCMC diagnostik;
porovnání modelů např. pomocí Chibovy metody.
Metody i pro čistě průřezovou verzi tohoto modelu (tzn. T = 1 ×
nepřijatelné použití určitých nepravých priorů → nepravé posteriory).
Intuitivně: T = 1 ⇒ parametry z, µz, β, h = N + K + 2 parametrů
× jen N pozorování.
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 40 / 41
Model stochastických hranic
Empirická ilustrace
Bude časem doplněno. . .
Bayesiánská analýza (BAAN) VII. Panelová data Podzim 2011 41 / 41