Základy ekonometrie VIII. Modely kvalitativních a omezených vysvětlovaných proměnných Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 1 / 62 Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 2 / 62 Úvod Umělé vysvětlující proměnné. Umělé vysvětlované proměnné. Kategoriální vysvětlované proměnné. Omezené vysvětlované proměnné. Vysvětlované proměnné vyjadřující počet. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 3 / 62 Lineární pravděpodobnostní model Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 4 / 62 Lineární pravděpodobnostní model Motivace Lineární regresní model: Yi = α + βXi + i . Y = 1 rodina vlastní dům (0 jinak); X příjem rodiny Podmíněná pravděpodobnost: E(Yi |Xi ) E(Yi |Xi ) = α + βXi . Pi = pravděpodobnost vlastnictví domu (Yi = 1); (1 − Pi ) = pravděpodobnost Yi = 0. E(Yi ) = 0(1 − Pi ) + 1(Pi ) = Pi , E(Yi |Xi ) = α + βXi = Pi . Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 5 / 62 Lineární pravděpodobnostní model Problémy Nenormalita rozdělení i (Bernoulliho rozdělení) → není problém. i prav. Yi = 1 1 − α − βXi Pi Yi = 0 −α − βXi (1 − Pi ) Heteroskedasticita rozptylu náhodných složek: var( i ) = Pi (1 − Pi ) a Pi = E(Yi |Xi ) = α + βXi → WLS s transformací dělením E(Yi |Xi )[1 − E(Yi |Xi )] = Pi (1 − Pi ) = √ wi . (OLS regrese + Yi jako odhad E(Yi |Xi ) → wi = Yi (1 − Yi )) Nesplnění 0 ≤ E(Yi |X) ≤ 1. Zpochybnění R2 jako měřítko kvality vyrovnání (obvykle velmi nízké). Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 6 / 62 Lineární pravděpodobnostní model Neomezený LPM Y 0 X LPM (unconstrained) 1 Zdroj: Gujarati, Porter (2009) – Basic econometrics. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 7 / 62 Lineární pravděpodobnostní model Omezený LPM Y 0 X LPM (constrained)1 Zdroj: Gujarati, Porter (2009) – Basic econometrics. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 8 / 62 Lineární pravděpodobnostní model LPM s vyšším R2 0 X LPM 1 B A Y Zdroj: Gujarati, Porter (2009) – Basic econometrics. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 9 / 62 Lineární pravděpodobnostní model Interpretace a zásadní problém Parametry: marginální vliv závisle proměnné na pravděpodobnost vysvětlované proměnné. Neatraktivní vlastnost: Pi = E(Y = 1|X) roste lineárně s X! Příklad vlastnictví domů: β = 0.10 ⇒ s růstem X o jednotku (1000$) roste pravděpodobnost o 10 %. Rozumné pro důchod: 8000$, 10000$, 18000$, 22000$? Raději Pi nelineárně vztažené k Xi : 1 S růstem Xi růst Pi = E(Y = 1|X) × v hranicích 0 − 1. 2 Nelineární vztah Pi a Xi (zpomalený pokles k nule pro klesající Xi a zpomalený růst k jedničce pro rostoucí Xi ). Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 10 / 62 Lineární pravděpodobnostní model Kumulativní distribuční funkce P 0 X – CDF 1 ∞ ∞ Zdroj: Gujarati, Porter (2009) – Basic econometrics. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 11 / 62 Logit model Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 12 / 62 Logit model Motivace Příklad vlastnictví domu: Pi = E(Y = 1|Xi ) = 1 1 + e−(α+βXi ) (Kumulativní) logistická funkce: Pi = 1 1 + e−Zi = eZi 1 + eZi , kde Zi = α + βXi . Splňuje naše požadavky! × nelze OLS (místo toho ML odhad – logistické rozdělení i ). 1 − Pi = 1 1 + eZi . Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 13 / 62 Logit model Podíl šancí Podíl šancí: Pi 1 − Pi = 1 + eZi 1 + e−Zi = eZi Interpretace pro příklad vlastnictví domů? Přirozený logaritmus: Li = ln Pi 1 − Pi = Zi = α + βXi . L = logit ⇒ logit model. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 14 / 62 Logit model Vlastnosti logitu 1 P mezi 0 a 1 × logit neomezen. 2 L lineární v X × pravděpodobnosti ne! 3 Počet vysvětlujících proměnných dle libosti. 4 Logit zvyšující se hodnotou (záporný) pro klesající podíl šancí z 1 do 0 a růst do nekonečna (kladný) pro růst podílu šancí z 1 do nekonečna. 5 Interpretace β: změna L (logaritmu podílu šancí) pro jednotkovou změnu X. 6 Pro danou úroveň příjmu, X∗, možný výpočet pravděpodobnosti vlastnictví domu (nejen podíl šancí). 7 Oproti LPM: logaritmus podílu šancí lineárně vztažený k Xi . Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 15 / 62 Logit model Logit model – interpretace výsledků Značení Koop (jednoduchá regrese). Mezní vliv X na pravděpodobnost volby 1 (na základě derivace): exp(βXi ) 1 + exp(βXi ) 1 1 + exp(βXi ) β. Podíl šancí: Pr(Yi = 1) Pr(Yi = 0) = exp(βXi ) 1 + exp(βXi ) 1 1 + exp(βXi ) = exp(βXi ). Mezní vliv X na logaritmus podílu šancí: β. Vliv jednotkové změny X na podíl šancí: exp(β). Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 16 / 62 Logit model Maximálně věrohodný odhad Značení Koop (jednoduchá regrese). L(β) = p(Y1, . . . , YN) = N i=1 p (Yi ) . Logit: L(β) = N i=1 exp(βXi ) 1 + exp(βXi ) Yi 1 1 + exp(βXi ) 1−Yi . Robustní odhad rozptylů (možný problém heteroskedasticity). Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 17 / 62 Logit model Příklad – mimomanželské poměry Fair (1978), datový soubor affair.gdt: AFFAIR = 1 pokud měl jednotlivec tento druh poměru (= 0 jinak); MALE = 1 pokud je jednotlivec mužem (= 0 jinak); YEARS je počet let manželství daného jednotlivce; KIDS = 1 pokud má jednotlivec děti z manželství (= 0 jinak); RELIG = 1 pokud se jednotlivec pokládá za nábožensky založeného; EDUC je počet ukončených let vzdělání; HAPPY = 1 pokud se jednotlivec cítí v manželství šťastný (= 0 jinak). Užitečná funkce v gretlu: $coeff (matice koeficientů odhadu). Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 18 / 62 Logit model Logit – mimomanželské poměry Logit Podíl šancí Logit (robust) p-hodn. 95% int. p-hodn. Proměnná Koef. βj = 0 spol. Koef. Koef. βj = 0 Konstanta -1.29 0.07 [-2.71;0.13] — -1.29 0.09 MALE 0.25 0.26 [-0.18;0.67] 1.28 0.25 0.27 YEARS 0.05 0.03 [0.01;0.09] 1.05 0.05 0.03 KIDS 0.44 0.12 [-0.12;1.00] 1.55 0.44 0.13 RELIG -0.89 0.00 [-1.32;-0.47] 0.41 -0.89 0.00 EDUC 0.01 0.75 [-0.07;0.10] 1.01 0.01 0.75 HAPPY -0.87 0.00 [-1.28;-0.46] 0.42 -0.87 0.09 Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 19 / 62 Logit model Skóringové modely Pr(Yi = 1): pravděpodobnost splacení úvěru. Pr(Yi = 0): pravděpodobnost nesplacení úvěru. Logit: charakteristiky žadatelů. Odhad → predikční schopnosti modelu. Rozdělení na dobré a špatné klienty → „cutoff“ hranice (C) + odpovídající skóre . Chyba prvního (α) a druhého druhu (β) → sensitivita a specificita modelu. Diskriminační síla modelu – ROC křivka, Cumulative Accuracy Profile (CAP) křivka, Giniho koeficient, Pietra koeficient, Brier skóre, Kolmogorov-Smirnov test apod. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 20 / 62 Logit model ROC křivka Receiver Operating Characteristic Poměr úspěšnosti (hit rate): HR(C) = H(C) ND . H(C) počet špatných klientů se skóre menším než C; ND celkový počet špatných klientů ⇒ (1 − α). Poměr falešného varování (false alarm rate): FAR(C) = F(C) NND . F(C) počet dobrých klientů se skóre menším než C; NND celkový počet dobrých klientů ⇒ (β). ROC křivka: zobrazení FAR(C) vzhledem k HR(C) pro různá C. Obsah plochy pod ROC křivkou = pravděpodobnost, že špatní klienti mají nižší skóre než dobří klienti. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 21 / 62 Logit model Receiver Operating Characteristic křivka pro umělá data 0 0.25 0.5 0.75 1 0 0.25 0.5 0.75 1 ˆβ 1 − ˆα Area under the ROC curve = 0.7188 Zdroj: Winkelmann, Boes (2006) - Analysis of Microdata. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 22 / 62 Logit model Číselné charakteristiky diskriminační síly modelu Z obrázku: A obsah pod ROC křivkou. Giniho koeficient – poměr plochy mezi ROC křivkou a diagonálou jednotkového čtverce: GC = 2A − 1 GC ∈ (0, 1) → v praxi uspokojivé 0.60 Pietra index – obsah plochy největšího trojúhelníku vepsaného mezi ROC křivku a diagonálu jednotkového čtverce: PI = √ 2 4 max C |HR(C) − FAR(C)|. Kolmogorovův-Smirnovův test distribučních funkcí HR a FAR. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 23 / 62 Probit model Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 24 / 62 Probit model Motivace Příklad vlastnictví domů: rozhodnutí o vlastnictví závisí na nepozorovaném rozdílů užitků (latentní proměnná): Y ∗ i = U1i − U0i ; Y ∗ i = α + β1X1i + β2X2i + . . . + βkXki + i ; Y ∗ i = βXi + i . Pozorujeme rozhodnutí: Yi = 1 pokud Y ∗ i ≥ 0, Yi = 0 pokud Y ∗ i < 0. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 25 / 62 Probit model Probit funkce Pr(Yi = 1) = Pr(Y ∗ i ≥ 0) = Pr(βXi + i ≥ 0) = Pr( i ≥ −βXi ). Normální rozdělení náhodné složky. Kumulativní distribuční funkce: Pr(Z ≤ z). Z standardizovaná normální náhodná veličina (tzn. N(0, 1)): Φ(z). Probit model: Pr(Yi = 1) = Pr( i ≥ −βXi ) = 1 − Φ(−βXi ) = Φ(βXi ). Pr(Yi = 0) = 1 − Pr(Yi = 1) ⇒ Pr(Yi = 0) = Φ(−βXi ). Probit funkce = inverzní funkce k distribuční funkci: Φ−1(pi ). Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 26 / 62 Probit model Funkce pravděpodobnosti v probit modelu 0 0.2 0.4 0.6 0.8 1 −4 −2 0 2 4 x′ iβ πi = Φ(x′ iβ) Zdroj: Winkelmann, Boes (2006) - Analysis of Microdata. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 27 / 62 Probit model Mezní vlivy „Jak se změní pravděpodobnost volby 1, pokud změníme X?“. Mezní vliv X na pravděpodobnost volby 1 → derivace Φ(βX): φ(βX)β φ(·) = funkce hustoty pravděpodobnosti normálního rozdělení Zobecnění pro více regresorů. Mezní vlivy pro průměrné hodnoty vysvětlujících proměnných: φ α + β1X1 + . . . + βkXk βj. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 28 / 62 Probit model Diskrétní a mezní změny v nelineárních modelech x′ iβ πi = G(x′ iβ) x′ iβ x′ iβ + ∆xilβl G(x′ iβ + ∆xilβl) −G(x′ iβ) [g(x′ iβ)βl]∆xil Zdroj: Winkelmann, Boes (2006) - Analysis of Microdata. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 29 / 62 Probit model ML odhad Pro jediný parametr (snadné zobecnění): L(β) = p(Y1, . . . , YN) = N i=1 p (Yi ) . Probit: L(β) = N i=1 p(Yi ) = N i=1 Φ(βXi )Yi Φ(−βXi )1−Yi . Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 30 / 62 Probit model Probit a logit x′ iβ πi 0 0.2 0.4 0.6 0.8 1 −4 −2 0 2 4 normal distribution (σ2 = 1) logistic distribution normal distribution (σ2 = 2.56) Zdroj: Winkelmann, Boes (2006) - Analysis of Microdata. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 31 / 62 Probit model Probit – mimomanželské poměry Probit Mezní ef. Probit (robust) p-hodn. 95% int. p-hodn. Proměnná Koef. βj = 0 spol. Koef. Koef. βj = 0 Konstanta -0.74 0.08 [-1.56;0.09] — -0.74 0.11 MALE 0.15 0.23 [-0.10;0.40] 0.05 0.15 0.24 YEARS 0.03 0.03 [0.00;0.05] 0.01 0.03 0.02 KIDS 0.25 0.12 [-0.07;0.57] 0.07 0.25 0.13 RELIG -0.51 0.00 [-0.75;-0.27] -0.15 -0.51 0.00 EDUC 0.01 0.81 [-0.04;0.06] 0.00 0.01 0.81 HAPPY -0.51 0.00 [-0.76;-0.27] -0.17 -0.51 0.09 Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 32 / 62 Modely multinomiální volby Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 33 / 62 Modely multinomiální volby Motivace Yi hodnoty 0, 1, . . . , J. Volba alternativy s nejvyšším užitkem. Základní alternativa, j = 0 (benchmark) Y ∗ ji = Uji − U0i . Nepozorovaná diference užitků × pozorovaná volba. Y ∗ ji = αj + βj1X1i + βj2X2i + . . . + βjkXki + ji . Vysvětlující proměnné bez indexu j! (variabilita jen mezi jednotlivci + lze „obejít“) Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 34 / 62 Modely multinomiální volby Multinomiální probit Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 35 / 62 Modely multinomiální volby Multinomiální probit Motivace Náhodné složky: normální rozdělení. Problém: ji vzájemně korelované. Potřeba odhadů všech možných korelací. Pokud více alternativ → problém s přesností odhadu. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 36 / 62 Modely multinomiální volby Multinomiální logit Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 37 / 62 Modely multinomiální volby Multinomiální logit Motivace Vhodný i pro více alternativ. Pravděpodobnost i-tého jednotlivce pro volbu j: Pr(Yi = j) = exp(βjXi ) 1 + J s=1 exp(βsXi ) . Zobecnění pro vícenásobnou regresi (v rámci exponentu). Odhad j regresních rovnic. Mezní vliv na základě derivace. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 38 / 62 Modely multinomiální volby Multinomiální logit Nezávislost irelevantních alternativ Předpoklad použití! Podíly šancí se s přidáním alternativy nemění. Dopravní příklad: auto (Y = 0), věřejná doprava (Y = 1), kolo (Y = 2). Porušení: auto (Y = 0), červený autobus (Y = 1), modrý autobus (Y = 2). Řešení skrze vnořený (nested) logit model: nejdříve auto × hromadná doprava → po volbě hromadné dopravy logit pro červený × modrý autobus. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 39 / 62 Modely multinomiální volby Multinomiální logit Příklad – poptávka po crackerech Paap a Franses (2000), datový soubor cracker.gdt: N = 136, domácností, čtyři druhy crackerů. Nezáleží na volbě základní alternativy! Užitečná funkce v gretlu: tvorba matice z vysvětlujících proměnných a maticové násobení → tvorba proměnné z vektoru: v konzoli series promenna=vektor. Pro výpočty jednotlivých pravděpodobností volby a popisných statistik. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 40 / 62 Modely multinomiální volby Multinomiální logit Multinomiální logit – crackery Stř. hodnota p-hodnota pro βj = 0 95% int. spol. Sunshine α1 -10.06 0.15 [-23.59;3.46] β11 -7.98 0.01 [0.77;24.02] β12 12.39 0.04 [0.77;24.02] β13 0.37 0.91 [-5.83;6.57] β14 4.83 0.36 [-5.54;15.20] Keebler α2 -2.53 0.73 [-16.90;11.85] β21 -3.10 0.30 [-9.01;2.81] β22 -0.60 0.92 [-12.99;2.81] β23 1.15 0.70 [-4.67;6.97] β24 5.33 0.25 [-3.66;14.32] Nabisco α3 -7.01 0.09 [-15.09;1.07] β31 -1.38 0.48 [-5.23;2.48] β32 5.57 0.12 [-1.37;12.50] β33 0.86 0.65 [-2.84;4.56] β34 4.72 0.06 [-0.23;9.67] Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 41 / 62 Modely multinomiální volby Multinomiální logit Multinomiální logit – predikované pravděpodobnosti Pravděpodobnost nákupu Stř. hodnota Sm. odch. Min. Max. Sunshine 0.08 0.11 0.01 0.64 Keebler 0.07 0.03 0.02 0.16 Nabisco 0.60 0.10 0.31 0.80 Private label 0.25 0.11 0.02 0.49 Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 42 / 62 Modely multinomiální volby Podmíněný logit Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 43 / 62 Modely multinomiální volby Podmíněný logit Motivace Model: Y ∗ ji = αj + βj1X1i + βj2X2i + . . . + βjkXki + ji . Multinomiální logit a pravděpodobnost: Pr(Yi = j) = exp(βjXi ) 1 + J s=1 exp(βsXi ) . Podmíněný logit a pravděpodobnost: Pr(Yi = j) = exp(βXji ) 1 + J s=1 exp(βXsi ) . Mezní vlivy(efekty): ∂Pr(Yi = j) ∂Xji . Přechod na multinomiální logit: Zi × Dji . Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 44 / 62 Modely multinomiální volby Uspořádaný probit Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 45 / 62 Modely multinomiální volby Uspořádaný probit Motivace Krátce: dotazníková šetření, vysvětlované proměnné kvalitativní (dobrý, průměrný, slabý), ale uspořádatelné. Klíčový vztah mezi (vektory) y∗ a y (yi má hodnoty j = 1, . . . , J; J je počet uspořádaných alternativ): yi = j pokud γj−1 < y∗ i ≤ γj, γ = (γ0, γ1, . . . , γJ) je vektor parametrů, kde γ0 ≤ . . . ≤ γJ. Normalita regresního modelu pro latentní data: Pr(yi = j|β, γ) = Pr(γj−1 < y∗ i ≤ γj|β, γ) = Pr(γj−1 < xi β + i ≤ γj|β, γ) = Pr(γj−1 − xi β < i ≤ γj − xi β|β, γ). i z N(0, 1): Pr(yi = j|β, γ) = Φ(γj − xi β) − Φ(γj−1 − xi β) Obvyklé řešení problému identifikace: γ0 = −∞, γ1 = 0 a γJ = ∞. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 46 / 62 Tobit model Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 47 / 62 Tobit model Motivace Závisle proměnná cenzorovaná na hodnotě nula: Y ∗ i = α + β1X1i + β2X2i + . . . + βkXki + i . Pozorujeme Yi : Yi = Y ∗ i pokud Y ∗ i > 0, Yi = 0 pokud Y ∗ i ≤ 0. Příklad: závislost požadovaných investic na charakteristikách firmy. Obvyklá interpretace výsledků. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 48 / 62 Tobit model Odhady – OLS a tobit -1 -0.5 0 0.5 1 1.5 2 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 Y X pozorovani OLS odhad skutecna primka vyrovnani Umělý datový soubor tobit.gdt. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 49 / 62 Poissonův model Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 50 / 62 Poissonův model Motivace Práce s daty vyjadřujícími počet. Nenormalita rozdělení (není asymptoticky problém) ⇒ LRM a OLS × lepší modely. Poissonův regresní model: klasické předpoklady s Poissonovým rozdělením vysvětlované proměnné. E(Yi ) = λi ; E(Yi ) = λi = βXi ; E(Yi ) = λi = exp(βXi ). Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 51 / 62 Poissonův model Mezní vlivy Vícenásobná regrese: E(Yi ) = λi = exp(α + β1X1i + β2X2i + . . . + βkXki ). Mezní vliv: dE(Yi ) dXji = βj exp(α + β1X1i + β2X2i + . . . + βkXki ). Podíl relativních incidencí: exp(α + β1X1 + . . . + βj(Xj + 1) + . . . + βkXk) exp(α + β1X1 + . . . + βjXj + . . . + βkXk) = exp(βj). Logaritmus vysvětlující proměnné ⇒ mezní vliv je exp(β): E(Yi ) = λi = exp(β ln(Xi )) = Xi exp(β). Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 52 / 62 Poissonův model Testování přerozptýlenosti Pro vhodnost Poissonova modelu × jinak např. negativní binomiální regresní model. Poissonův regresní model: E(Yi ) = λi ; var(Yi ) = λi . H0 : E(Yi ) = var(Yi ) → Cameronův-Trivediho test: 1 Odhad Poissonova modelu; vyrovnané hodnoty λi . 2 Nová proměnná: Zi = Yi − λi 2 − Yi λi √ 2 . 3 Při platnosti H0 má Zi nulovou střední hodnotu. 4 Regrese Z na úrovňovou konstantu + t-test. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 53 / 62 Poissonův model Příklad – poptávka po zdravotní péči Vysvětlení faktorů ovlivňujících poptávku po zdravotní péči mezi seniory. Deb a Trivedi (1987); data o N = 4406 Američanů ve věku 66 a více let; deb_trivedi.gdt. DRVISIT = počet návštěv u lékaře v minulém roce; FAMINC = rodinný příjem (v desítkách tisíc dolarů); MALE = 1 pokud je jednotlivec muž (= 0 jinak); EXCHLTH = 1 pokud osoba cítí, že má výborné zdraví (= 0 jinak); POORHLTH = 1 pokud osoba cítí, že má chatrné zdraví (= 0 jinak); AGE věk respondenta (v letech dělený stovkou); MARRIED = 1 pokud je osoba ženatá nebo vdaná (= 0 jinak); PRIVINS = 1 pokud má osoba soukromé zdravotní pojištění (= 0 jinak). Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 54 / 62 Poissonův model Poissonův model – poptávka po zdravotní péči. Proměnná Koef. p-hodnota pro βj = 0 95% int. spol. IRR* Konstanta 1.78 0.00 [1.62;1.94] — FAMINC 0.004 0.08 [-0.001;0.008] 1.004 MALE -0.09 0.00 [-0.11;-0.06] 0.92 EXCHLTH -0.49 0.00 [-0.54;-0.43] 0.62 POORHLTH 0.53 0.00 [0.49;0.56] 1.69 AGE -0.03 0.00 [-0.05;-0.01] 0.97 MARRIED -0.06 0.00 [-0.03;-0.09] 0.94 PRIVINS 0.29 0.00 [0.26;0.32] 1.33 * Incidence rate ratio – podíl relativních incidencí. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 55 / 62 Modely trvání Obsah tématu 1 Lineární pravděpodobnostní model 2 Logit model 3 Probit model 4 Modely multinomiální volby Multinomiální probit Multinomiální logit Podmíněný logit Uspořádaný probit 5 Tobit model 6 Poissonův model 7 Modely trvání Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 56 / 62 Modely trvání Motivace Duration models – data vyjadřující množství času, který uběhne před tím, než nastane nějaká událost (např. doba než nezaměstnaný nalezne práci popř. samotná doba nezaměstnanosti, čas mezi dvěma nákupy jednoho výrobku, délka stávky). V řadě případů data omezena zprava – v době měření událost ještě nenastala (např. pozorovaná osoba je ještě nezaměstnaná, spotřebitel ještě produkt podruhé nekoupiů, pozorovaná stávka ještě neskončila) → potřeba zakomponovat v rámci odhadové metody. Často data omezena jen na pozorování, kdy událost nastala před dobou měření – potřeba zohlednění tohoto omezení. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 57 / 62 Modely trvání Hazard rate Otázka doba trvání, pokud ještě událost nenanastala → riziková funkce měří šanci (pravděpodobnost), že trvání bude ukončeno nyní, za podmínky, že nebylo ukončeno v minulosti (např. šance nalezení práce, zakoupení produktu, ukončení stávky). Modely trvání vyjádřeny skrze „hazard rate“ → ekonometrická otázka odhadu této rizikové funkce z pozorovaných dat trvání. Data n trvání: y1, . . . , yn; předpoklad, že pocházejí z náhodného výběru z populace s funkcí hustoty f a s odpovídající kumulativní distribuční funkcí F. Funkce přežití (survival function) S(t) a riziková funkce λ(t): S(t) = P[yi > t] = 1 − F(t) λ(t) = lim δ↓0 P[t < yi ≤ t + δ|yi > t] δ . Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 58 / 62 Modely trvání Hazard rate (pokračování) Odhad λ místo f . λ(t) = f (t) S(t) = − d log(S(t)) dt , a lze odvodit f (t) = λ(t)S(t), S(t) = e− t 0 λ(s)ds . Modely rizikové funkce: dle požadavku na konstantnost, růst nebo pokles pravděpodobnosti realizace události v čase. Exponential hazard model: konstantní riziková funkce (pro všechna t) λ(t) = γ odpovídá funkci hustoty f (t) = γe−γt, tedy exp. rozdělení. Weibull hazard model s Weibullovým rozdělením f (t) = αγtα−1e−γtα λ(t) = αγtα−1 . Růst pro α > 1, pokles pro α < 1 a konstantnost pro α = 1. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 59 / 62 Modely trvání Hazard rate (dokončení) Log-normální rozdělení, kde logaritmus trvání log(yi ) má normální rozdělení se střední hodnotou µ a rozptylem σ2 λ(t) = φ log(t)−µ σ σt 1 − Φ log(t)−µ σ Riziková funkce nejdříve roste a následně klesá s bodem obratu daným řešením rovnice tσλ(t) = σ + (log(t) − µ)/σ. Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 60 / 62 Modely trvání Proporční hazard model Riziková funkce různá pro jednotlivce. Předpokládá individuální rizikové funkce jako λi (t) = gi λ(t), kde faktor gi > 0 odpovídá individuálně specifickým vlivům. Pro gi = exi β, kde xi jsou proměnné ovlivňující rizikovou funkci λi (t) = exi β λ(t). Základní riziková funkce λ(t) obvykle obsahuje škálovací parametr, tudíž potřeba mít xi bez úrovňové konstanty. Lineární závislost logaritmu rizikové funkce: log(λi (t)) = xi β + log(λ(t)). Podobné LRM, ale logaritmus základní rizikové funkce je nepozorovatelný; parametr β měří mezní relativní vliv vysvětlující proměnné na rizikovou funkci: β = ∂ log(λi (t)) ∂xi = 1 λi (t) ∂λi (t) ∂xi . Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 61 / 62 Modely trvání Rozšíření Kombinace s modely panelových dat → probit model náhodných vlivů. Varianty obecných logit a probit modelů. Treatment effects models (modely efektů léčby): z medicíny × i v ekonomii (např. efekt programu rekvalifikací či jiných politik). Základy ekonometrie (ZAEK) VIII. Kvalitativní a omezené proměnné Podzim 2015 62 / 62