Bayesiánská analýza IX. Modely kvalitativních a omezených vysvětlujících proměnných Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 1 / 40 Obsah tématu 1 Jednorozměrné modely 2 Model omezených dat – tobit 3 Model binární volby – probit 4 Uspořádaný probit 5 Multinomiální probit 6 Rozšíření Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 2 / 40 Úvod Normální lineární regresní model – omezující (předpoklad normality). Kvalitativní vysvětlovaná proměnná. Omezená vysvětlovaná proměnná. Zavedení latentních dat (mají normální rozdělení). Příklady: ekonomie dopravy, ekonomie práce, analýza investiční aktivity firem. Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 3 / 40 Jednorozměrné modely Obsah tématu 1 Jednorozměrné modely 2 Model omezených dat – tobit 3 Model binární volby – probit 4 Uspořádaný probit 5 Multinomiální probit 6 Rozšíření Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 4 / 40 Jednorozměrné modely Značení Vysvětlovaná proměnná y∗ = (y∗ 1 , . . . , y∗ N) . y∗ i = xi β + i . xi = (1, xi2, . . . , xik) . Maticově: y∗ = Xβ + . Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 5 / 40 Jednorozměrné modely Náhodná složka 1 z vícerozměrného normálního rozdělení se střední hodnotou 0N a kovarianční maticí h−1IN, 2 všechny prvky matice X jsou pevná čísla (tj. nenáhodné veličiny). Pro náhodné veličiny jsou prvky X nezávislé na všech prvcích vektoru ; p(X|λ), kde λ neobsahuje β ani h. Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 6 / 40 Jednorozměrné modely Princip odhadu Pokud y∗ pozorovatelné – standardní analýza. y∗ obsahuje latentní data nějak propojena s y. Pro „funkčnost“ metod: p(β, h|y∗, y) = p(β, h|y∗) (v případě přirozeně konjugované apriorní hustoty) resp. p(β|y∗, y, h) = p(β|y∗, h) a p(h|y∗, y, β) = p(h|y∗, β) (nezávislá apriorní hustota). Pokud pozorujeme y∗, nepřinese dodatečné pozorování y žádnou novou informaci. Standardní posteriorní simulace (Gibbsův vzorkovač): výběry z p(β, h|y∗) a p(y∗|y, β, h) resp. p(β|y∗, h), p(h|y∗, β) a p(y∗|y, β, h). Vše kromě p(y∗|y, β, h) umíme generovat. Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 7 / 40 Model omezených dat – tobit Obsah tématu 1 Jednorozměrné modely 2 Model omezených dat – tobit 3 Model binární volby – probit 4 Uspořádaný probit 5 Multinomiální probit 6 Rozšíření Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 8 / 40 Model omezených dat – tobit Vztah nepozorovaných a pozorovaných dat Příklad požadovaných investic. yi = y∗ i pokud y∗ i > 0 yi = 0 pokud y∗ i ≤ 0 Pokud známe y∗, známe y ⇒ p(β, h|y∗) = p(β, h|y, y∗). Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 9 / 40 Model omezených dat – tobit Posteriorní hustota Nezávislost latentních proměnných (stejně jako pozorovaná): yi = y∗ i pokud y∗ i > 0 yi = 0 pokud y∗ i ≤ 0 Využíváme omezené normální rozdělení (vycházíme z předpokladu nepodmíněné normality y∗ i ). y∗ i = yi pokud yi > 0 y∗ i |yi , β, h ∼ N(xi β, h−1)1(y∗ i < 0) pokud yi = 0 Standardní analýza + možnost zobecnění pro omezující bod c (rozšíření i pro neznámý parametr). Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 10 / 40 Model omezených dat – tobit Empirická ilustrace BUDE ČASEM DOPLNĚNO! Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 11 / 40 Model binární volby – probit Obsah tématu 1 Jednorozměrné modely 2 Model omezených dat – tobit 3 Model binární volby – probit 4 Uspořádaný probit 5 Multinomiální probit 6 Rozšíření Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 12 / 40 Model binární volby – probit Úvod Předpoklad rozhodování mezi dvěma alternativami. Uij užitek jednotlivce i (pro i = 1, . . . , N) z volby j (pro j = 0, 1). Pravidlo: volba 1 pokud U1i ≥ U0i a volba 0 jinak. Výběr závisí na rozdílu v užitcích: y∗ i = U1i − U0i . Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 13 / 40 Model binární volby – probit Probit model Diference v užitcí odpovídá normálnímu lineárnímu regresnímu modelu. Závislost na pozorovaných charakteristikách xi . Random utility model. yi = 1 pokud y∗ i ≥ 0 yi = 0 pokud y∗ i < 0 Pokud známe y∗, známe y ⇒ p(β, h|y∗) = p(β, h|y, y∗). Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 14 / 40 Model binární volby – probit Posteriorní hustota Z nezávislosti: p(y∗ |y, β, h) = N i=1 p(y∗ i |yi , β, h) Předpoklad normální lineární regrese → p(y∗ i |β, h) normální. Kombinace s informací o yi → p(y∗ i |yi , β, h): y∗ i |yi , β, h ∼ N(xi β, h−1)1(y∗ i ≥ 0) pokud yi = 1 y∗ i |yi , β, h ∼ N(xi β, h−1)1(y∗ i < 0) pokud yi = 0 Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 15 / 40 Model binární volby – probit Pravděpodobnosti volby Pro dané parametry: Pr(yi = 1|β, h) = Pr(y∗ i ≥ 0|β, h) = Pr(xi β + i ≥ 0|β, h) = Pr( √ h i ≥ − √ hxi β|β, h) Díky normalitě – poslední člen jedna mínus kumulativní distribuční funkce standardního normálního rozdělení (tj. √ h i odpovídá N(0, 1)). Značení Φ(a) pro CDF → 1 − Φ(− √ hxi β). Standardní analýza (funkce parametrů). Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 16 / 40 Model binární volby – probit Identifikační problém Více kombinací hodnot parametrů modelu vede ke stejné hodnotě věrohodnostní funkce. Probit: nekonečný počet hodnot parametrů β a h vede k témuž modelu. Pr(xi β + i ≥ 0|β, h) = Pr(xi cβ + c i ≥ 0|β, h) pro jakoukoli kladnou konstantu c. Transformovaná náhodná veličina c i má rozdělení N(0, c2h−1) → totožné probit modely s jinými koeficienty a přesností chyb. Alternativně: hodnoty věrohodnostní funkce stejné pro (β = β0, h = h0) a (β = cβ0, h = h0 c2 ). Nelze rozlišit odděleně β a h (jenidentifikace β √ h). Řešení: nastavení h = 1 (preferováno) nebo některý z β na 1 (apriorní kladný vliv této proměnné na pravděpodobnost!). Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 17 / 40 Model binární volby – probit Empirická ilustrace BUDE ČASEM DOPLNĚNO! Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 18 / 40 Uspořádaný probit Obsah tématu 1 Jednorozměrné modely 2 Model omezených dat – tobit 3 Model binární volby – probit 4 Uspořádaný probit 5 Multinomiální probit 6 Rozšíření Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 19 / 40 Uspořádaný probit Úvod Vysvětlované proměnné kvalitativní (dobrý, průměrný, slabý), ale uspořádatelné. Klíčový vztah mezi (vektory) y∗ a y (yi má hodnoty j = 1, . . . , J; J je počet uspořádaných alternativ): yi = j pokud γj−1 < y∗ i ≤ γj, γ = (γ0, γ1, . . . , γJ) je vektor parametrů, kde γ0 ≤ . . . ≤ γJ. Normalita regresního modelu pro latentní data: Pr(yi = j|β, γ) = Pr(γj−1 < y∗ i ≤ γj|β, γ) = Pr(γj−1 < xi β + i ≤ γj|β, γ) = Pr(γj−1 − xi β < i ≤ γj − xi β|β, γ). i z N(0, 1) (z důvodu identifikace h = 1): Pr(yi = j|β, γ) = Φ(γj − xi β) − Φ(γj−1 − xi β) Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 20 / 40 Uspořádaný probit Problém identifikace Uspořádaný probit: pravděpodobnosti volby na základě normálního rozdělení a volba γ0, . . . , γJ pro rozdělení pravděpodobností mezi všechny možnosti volby. Potřeba více omezení: např. pro J = 3 máme normální rozdělení s volbou střední hodnoty (xi β) a čtyři body (tj. γ0, γ1, γ2 a γ3). xi jen úrovňová konstanta a chceme Pr(yi = 1|β, γ) = 0.025, Pr(yi = 2|β, γ) = 0.95 a Pr(yi = 3|β, γ) = 0.025. Řešení: β = 0, γ0 = −∞, γ1 = −1.96, γ2 = 1.96 a γ3 = ∞ nebo β = 1, γ0 = −∞, γ1 = −0.96, γ2 = 2.96 a γ3 = ∞ atd. Obvyklé řešení problému identifikace: γ0 = −∞, γ1 = 0 a γJ = ∞. Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 21 / 40 Uspořádaný probit Problém identifikace a další intuice Alternativně: probit model pro J = 2 ⇒ γ0 = −∞, γ1 = 0 a γ2 = ∞. y∗ jako užitek → pravděpodobnosti volby jako integrály na sekvenčních oblastech normálního rozdělení. Při mírném zvýšení užitku možnost přechodu jen do sousední kategorie (předpoklad uspořádání alternativ) × jinak multinomiální probit. Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 22 / 40 Uspořádaný probit Bayesovská analýza I Gibbsův vzorkovač s obohacenými daty: p(β|y∗, γ), p(γ|y∗, y, β) a p(y∗|y, β, γ). Standardní posteriorní hustoty pro β (h = 1), p(y∗ i |yi , β, γ): y∗ i |yi = j, β, γ ∼ N(xi β, 1)1(γj−1 < y∗ i ≤ γj). Podmíněná hustota pro γ, p(γ|y∗ i , yi , β). Nepravá apriorní hustota (možnost i jiných priorů s mírnými modifikacemi výsledku): p(γj) ∝ c (zjednodušuje výběr γ v jednom běhu). Z volby γ0 = −∞, γ1 = 0 a γJ = ∞: p(γj|y∗, y, β, γ(−j)) pro j = 2, . . . , J − 1. Označení γ(−j): vektor γ bez prvku γj. γ(−j) = (γ0, . . . , γj−1, γj+1, . . . , γJ) Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 23 / 40 Uspořádaný probit Bayesovská analýza II p(γj|y∗, y, β, γ(−j)) snadno odvoditelná →. 1 Hustota podmíněna vektorem γ(−j) ⇒ γj musí ležet v [γj−1, γj+1]. 2 Hustota podmíněna vektorem y a y∗ ⇒ lze vyvodit jaké hodnoty latentních dat odpovídají příslušným hodnotám skutečných dat. 3 V argumetnech podmíněné hustoty není přítomna žádná další informace o γj . Rovnoměrné rozdělení: γj|y∗ , y, β, γ(−j) ∼ U(γj−1, γj+1) Pro j = 2, . . . , J − 1, kde γj−1 = max {max {y∗ i : yi = j}, γj−1} γj+1 = min {min {y∗ i : yi = j + 1}, γj+1} max {y∗ i : yi = j} označuje maximální hodnotu latentních dat mezi všemi jednotlivci, kteří si zvolili alternativu j (analogicky min {y∗ i : yi = j + 1}). Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 24 / 40 Multinomiální probit Obsah tématu 1 Jednorozměrné modely 2 Model omezených dat – tobit 3 Model binární volby – probit 4 Uspořádaný probit 5 Multinomiální probit 6 Rozšíření Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 25 / 40 Multinomiální probit Úvod Více alternativ volby. yi pro {j = 0, . . . , J} → J + 1 alternativ, kdy J > 1. Motivace: Uji je užitek i-tého jednotlivce volícího alternativu j (pro i = 1, . . . , N a j = 0, . . . , J). Alternativa 0 jako základní volba a definujeme latentní proměnnou: y∗ ji = Uji − U0i pro j = 1, . . . , J. Multinomiální probit model předpokládá: y∗ ji = xji βj + ji xji je kj-rozměrný vektor obsahující vysvětlující proměnné, které ovlivňují užitek spojený s volbou j (relativně vzhledem k volbě 0), βj je odpovídající vektor regresních koeficientů a ji je chybový člen regrese. Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 26 / 40 Multinomiální probit Značení I J rovnic ⇒ simulátor pro SUR model v kombinaci s metodami poskytujícími výběry pro latentní rozdíly užitků. Přepis do SUR modelu: y∗ i = (y∗ 1i , . . . , y∗ Ji ) , i = ( 1i , . . . , Ji ) , β =      β1 · · βJ      Xi =        x1i 0 · · 0 0 x2i 0 · · · · · · · · · · · 0 0 · · 0 xJi        Definujeme k = J j=1 kj a y∗ i = Xi β + i Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 27 / 40 Multinomiální probit Značení II Dále: y∗ =      y∗ 1 · · y∗ N      =      1 · · N      X =      X1 · · XN      Model: y∗ = Xβ + Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 28 / 40 Multinomiální probit Další předpoklady i nezávisle a stejnoměrně rozděleny, N(0, H−1) pro i = 1, . . . , N, kdy H je matice přesností chyb rozměrů J × J. Alternativně: odpovídá N(0, Ω), kde Ω je blokově diagonální matice rozměru NJ × NJ: Ω =        H−1 0 · · 0 0 H−1 · · · · · · · · · · · · 0 0 · · 0 H−1        Vztah latentních a pozorovaných proměnných: yi = 0 pokud max (y∗ i ) < 0 yi = j pokud max (y∗ i ) = y∗ ji ≥ 0 max (y∗ i ) je maximum J-rozměrného vektoru y∗ i . Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 29 / 40 Multinomiální probit Posteriorní hustota Gibbsův vzorkovač: p(β|y∗, H) a p(H|y∗, β), a jistou podobu vícerozměrného ohraničeného normálního rozdělení pro podmíněnou hustotu p(y∗|y, β, H). Nezávislost chování mezi jendotlivci: p(y∗ |y, β, H) = N i=1 p(y∗ i |yi , β, H) p(y∗ i |β, H) odpovídá normální hustotě pravděpodobnosti + informace i yi : y∗ i |yi , β, H ∼ N(Xi β, H−1)1(max (y∗ i ) < 0) pokud yi = 0 y∗ i |yi , β, H ∼ N(Xi β, H−1)1(max (y∗ i ) = y∗ ji ≥ 0) pokud yi = j Ekonometrická analýza mnoho let mimo oblast hlavního zájmu (jak z hlediska bayesovského, tak i klasického přístupu) ⇔ výpočetní obtíže vztahující se k ohraničenému normálnímu rozdělení. Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 30 / 40 Multinomiální probit Bayesiánská analýza I β a H: nezávislá normální-Wishartova apriorní hustota (využití výsledků pro SUR model). Problém identifikace: jednorozměrný probit model nastavovalh = 1. Multinomiální probit model: složitější. Kovarianční matice chyb Σ = H−1 a σij jako ij-tý prvek matice Σ → standardní způsob řešení identifikovatelnosti volbou σij = 1. Za těchto podmínek p(H|y∗, β) nebude odpovídat Wishartovu rozdělení a nelze tak využít výsledky analýzy SUR modelu. Možnost řešení (viz literatura): ignorovat problém a prezentovat výsledky pro β σ11 . Práce s neidentifikovanými modely záludná → nebezpečná práce s neinformativními apriorními hustotami (výpočetní problémy). Obvyklá bayesovská analýza multinomiálního probit modelu s využitím informativní apriorní hustoty ovšem s ignorováním identifikačních omezení. Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 31 / 40 Multinomiální probit Bayesiánská analýza II McCulloch, Polson, Rossi (2000): i odpovídá N(0, Σ). Rozdělení vektoru i do podoby i = 1i υi kde υi = ( 2i , . . . , Ji ) . Rozdělení matice Σ: Σ = σ11 δ δ Συ Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 32 / 40 Multinomiální probit Bayesiánská analýza III Zákony pravděpodobnosti: p( i ) = p( 1i )p(υi | 1i ). Z vlastností vícerozměrného rozdělení: 1i ∼ N(0, σ11) υi | 1i ∼ N( δ σ11 1i , Φ), Φ = Συ − δδ σ11 . Místo s maticí Σ rozměru J × J pracujeme s parametry σ11, δ a Φ → nastavení σ11 = 1 a volba apriorní hustoty pro δ a Φ. Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 33 / 40 Multinomiální probit Bayesiánská analýza III Obvykle normální apriorní hustota pro δ a Wishartova apriorní hustotu pro Φ−1. p(δ, Φ−1 ) = p(δ)p(Φ−1 ) p(δ) = fN(δ|δ, V δ) p(Φ−1 ) = fW (Φ−1 |νΦ, Φ−1 ) Podmíněné posteriorní hustoty: p(δ|y∗ , Φ, β) = fN(δ|δ, V δ) p(Φ−1 |y∗ , δ, β) = fW (Φ−1 |νΦ, Φ −1 ) Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 34 / 40 Multinomiální probit Bayesiánská analýza III Posteriorní parametry: V δ = V −1 δ + Φ−1 N i=1 2 1i −1 δ = V δ V −1 δ δ + Φ−1 N i=1 υi 1i Φ −1 = Φ + N i=1 (υi − 1i δ)(υi − 1i δ) −1 υΦ = υΦ + N Podmíněné hustoty → i = ( 1i , υi ) známý vektor. Kritika multinomiálního probitu kvůli přeparametrizaci v důsledku mnoha alternativ (Σ) → nepřesné odhady. Informativní priory pro dodatečnou strukturu: např. diagonální Σ (pokud rozumné, zjednodušení výpočtu a řešení přeparametrizace). Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 35 / 40 Multinomiální probit Empirická ilustrace BUDE ČASEM DOPLNĚNO! Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 36 / 40 Rozšíření Obsah tématu 1 Jednorozměrné modely 2 Model omezených dat – tobit 3 Model binární volby – probit 4 Uspořádaný probit 5 Multinomiální probit 6 Rozšíření Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 37 / 40 Rozšíření Varianty probit a tobit Panelová data pro probit: y∗ it = xitβi + it Metody z části věnované panelovým datům. Panelový multiniomiální probit model s náhodnými koeficienty: odvození v rámci multinomiálního probit modelu, modelu náhodných koeficientů a SUR modelu. Multinomiální časový probit model (multinomial multiperiod probit model): řešení problému autokorelace. Modulární podstata nástrojů (kombinovatelnost): nelineárnsot vztahů, heteroskedasticita (jak pro probit tak i pro tobit). Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 38 / 40 Rozšíření Další varianty Lineární regresní modly s jiným rozdělením náhodných chyb. Vysvětlovaná proměnná počet: Poissonovo rozdělení. Vysvětlovaná proměnná doba trvání: Weibullovo rozdělení. Modely volby logit: logistické rozdělení. Řádový uspořádaný logit (rank ordered logit), multinomiální logit (preferován při více alternativách – výpočetní nenáročnost). Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 39 / 40 Rozšíření Nezávislost irelevantních alternativ Předpoklad použití multinomiálního logitu (ne vždy splněná vlasnost)! Podíly šancí se s přidáním alternativy nemění. Dopravní příklad: auto (Y = 0), věřejná doprava (Y = 1), kolo (Y = 2). Porušení: auto (Y = 0), červený autobus (Y = 1), modrý autobus (Y = 2). Řešení skrze vnořený (nested) logit model: nejdříve auto × hromadná doprava → po volbě hromadné dopravy logit pro červený × modrý autobus. Bayesiánská analýza (BAAN) IX. Kvalitativní a omezené proměnné Podzim 2011 40 / 40