Základy ekonometrie IV. Model vícenásobné regrese Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 1 / 74 Obsah tématu 1 Základní výsledky 2 Volba vysvětlujících proměnných 3 Testování hypotéz F-test 4 Další otázky Volba funkčního tvaru Další otázky 5 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 2 / 74 Úvod Prohloubení znalostí o modelu vícenásobné regrese. Maticové vyjádření problému. Ilustrativní důkazy. Rozšíření metod pro testování hypotéz. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 3 / 74 Základní výsledky Obsah tématu 1 Základní výsledky 2 Volba vysvětlujících proměnných 3 Testování hypotéz F-test 4 Další otázky Volba funkčního tvaru Další otázky 5 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 4 / 74 Základní výsledky Klasické předpoklady 1 E ( i ) = 0. Nulová střední hodnota náhodných složek. 2 var ( i ) = E 2 i = σ2. Konstantní rozptyl náhodných složek (homoskedasticita). 3 cov ( i , j) = 0 pro i = j. i a j jsou vzájemně nekorelované. 4 i má normální rozdělení. 5 X1i , . . . , Xki jsou pevně daná, jedná se o nenáhodné veličiny. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 5 / 74 Základní výsledky LRM v maticovém vyjádření I k vysvětlujících proměnných xi1, . . . , xik pro i = 1, . . . , N a model: yi = β0 + β1xi1 + . . . + βkxik + i . Úrovňová konstanta: xi0 = 1. Vektory N × 1 a k + 1 × 1: y =        y1 y2 · · yN        =        1 2 · · N        β =        β0 β1 · · βk        Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 6 / 74 Základní výsledky LRM v maticovém vyjádření II Matice vysvětlujících proměnných rozměru N × k + 1 X =        1 x11 · · x1k 1 x21 · · x2k · · ·· · · · ·· · 1 xN1 · · xNk        Lineární regresní model: y = Xβ + . Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 7 / 74 Základní výsledky Odhad parametrů – dvě vysvětlující proměnné Model: Yi = α + β1X1i + β2X2i + i . Minimalizace součtu čtverců reziduí: β1 = ( x1i yi ) x2 2i − ( x2i yi ) ( x1i x2i ) x2 1i x2 2i − ( x1i x2i )2 , β2 = ( x2i yi ) x2 1i − ( x1i yi ) ( x1i x2i ) x2 1i x2 2i − ( x1i x2i )2 , α = Y − β1X1 − β2X2, kde yi = Yi − Y , x1i = X1i − X1, x2i = X2i − X2. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 8 / 74 Základní výsledky OLS estimátor – maticové vyjádření Minimalizace SSR = (y − Xβ) (y − Xβ) = : β = (X X)−1 X y Vlastnosti: lineární, nestranný, vydatný ⇒ BLUE (Gaussův-Markovův teorém). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 9 / 74 Základní výsledky OLS odhad rozptylu náhodných složek Nestranný estimátor pro rozptyl náhodných složek, σ2: s2 = 2 i N − k − 1 , kde i = Yi − α − β1X1i − . . . − βkXki jsou OLS rezidua. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 10 / 74 Základní výsledky OLS odhad rozptylu odhadů parametrů – dva regresory V případě k = 2 je rozptyl OLS odhadů: var β1 = σ2 (1 − r2) x2 1i , var β2 = σ2 (1 − r2) x2 2i , kde r je (výběrový) koeficient korelace mezi X1 a X2. V praxi nahrazujeme σ2 příslušným odhadem, s2. Využití při testování hypotéz. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 11 / 74 Základní výsledky OLS odhad rozptylu odhadů parametrů – obecně Kovarianční matice odhadu vektoru parametrů, β: var(β) = σ2 (X X)−1 . Rozptyl náhodných složek, σ2, nahrazujeme v praxi OLS odhadem. Rozptyly jednotlivých odhadů parametrů – prvky na diagonále kovarianční matice. Důkaz (při splnění klasických předpokladů): var β = E β − β β − β = E X X −1 X X X X −1 = X X −1 X E X X X −1 = X X −1 X σ2 IN X X X −1 = σ2 X X −1 . Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 12 / 74 Základní výsledky Test významnosti při známém σ2 1 Specifikace nulové hypotézy H0 a alternativní hypotézy H1. 2 Specifikace testové statistiky. 3 Specifikace rozdělení testové statistiky za předpokladu platnosti nulové hypotézy. 4 Volba hladiny významnosti. 5 Využitím kroků 3 a 4 získáme kritickou hodnotu. 6 Výpočet testové statistiky z kroku 2 a její porovnání s kritickou hodnotou z kroku 5. H0 zamítáme v případě, kdy je absolutní hodnota testové statistiky větší než kritická hodnota (v opačném případě nezamítáme). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 13 / 74 Základní výsledky Test významnosti při známém σ2 – příklad 1 Regrese se dvěma vysvětlujícími proměnnými; H0 : β2 = 0 a H1 : β2 = 0. 2 Pro hypotézu z kroku 1 je obvyklou testovou statistikou Z = β2 − β2 var β2 = β2 − β2 σ2 (1−r2) x2 2i . 3 Analogická odvození z dřívějška: Z = β2 σ2 (1−r2) x2 2i ∼ N(0, 1). 4 Provedeme obvyklou volbu 5 % (0.05). 5 Z odpovídá N(0, 1) a Pr[−1.96 ≤ Z ≤ 1.96] = 0.95 → kritická hodnota 1.96. 6 V našem příkladu zamítáme H0 pokud |Z| > 1.96. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 14 / 74 Základní výsledky t-test Neznámé σ2 nahrazujeme odhadem (OLS rozptylem reziduí). Testová statistika má Studentovo t-rozdělení s N − k − 1 stupni volnosti (počet pozorování mínus počet odhadovaných parametrů). Pro regresi se dvěma vysvětlujícími proměnnými, H0 : β2 = 0: t = β2 s2 (1−r2) x2 2i ∼ tN−k−1. Výhodné využití p-hodnot. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 15 / 74 Základní výsledky Koeficient determinace Měřítko kvality modelu → soulad modelu s daty. R2 = 1 − SSR TSS = 1 − 2 i Yi − Y 2 . Interpretace: podil variability závisle proměnné, která je vysvětlena (variabilitou či chováním) vysvětlujících proměnných. Interpretace jen v případě přítomnosti úrovňové konstanty!!! (jinak TSS = RSS + SSR) S přidáním další vysvětlující proměnné nikdy neklesne. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 16 / 74 Základní výsledky Korigovaný koeficient determinace Korigovaný koeficient determinace, R 2 : R 2 = 1− SSR N−k−1 TSS N−1 = 1− n − 1 n − k − 1 1 − R2 = 1− s2 1 N−1 Yi − Y 2 . Zohlednění přidání nevýznamných proměnných. Podobná motivace jako R2 × nelze interpretovat tak, že odpovídá podílu variability závisle proměnné, kterou lze vysvětlit chováním vysvětlujících proměnných. Ve vztahu je podíl rozptylu náhodných složek a výběrového rozptylu závisle proměnné. Vždy menší nebo roven R2; s přidáním málo významné proměnné může klesnout × s přidáním významné vysvětlující proměnné může i vzrůst. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 17 / 74 Volba vysvětlujících proměnných Obsah tématu 1 Základní výsledky 2 Volba vysvětlujících proměnných 3 Testování hypotéz F-test 4 Další otázky Volba funkčního tvaru Další otázky 5 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 18 / 74 Volba vysvětlujících proměnných Omitted variable bias – skutečnost Skutečný model: Yi = α + β1X1i + β2X2i + i . Korektní OLS odhad: β1 = ( x1i yi ) x2 2i − ( x2i yi ) ( x1i x2i ) x2 1i x2 2i − ( x1i x2i )2 . Malá písmenka – odpovídající odchylky od průměrů. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 19 / 74 Volba vysvětlujících proměnných Omitted variable bias – opomenutí Model, se kterým pracujeme: Yi = α + β1X1i + i . Odhad parametru β1: ˜β1 = x1i yi x2 1i , ˜β1 je vychýlený estimátor (není již tedy nestranný). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 20 / 74 Volba vysvětlujících proměnných Omitted variable bias – důkaz Lze ukázat: E ˜β1 = E β1 + β2 x1i x2i x2 1i + x1i ( i − ) x2 1i = β1 + β2 x1i x2i x2 1i . ˜β1 je vychýlený estimátor (není již tedy nestranný). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 21 / 74 Volba vysvětlujících proměnných Omitted variable bias – komentář Z předchozího výrazu: zkreslení nenastává v případě, kdy je β2 = 0 nebo x1i x2i x2 1i . První případ nezajímavý (pokud je β2 = 0, potom X2 není ve skutečné regresi a nedošlo k opomenutí). Výraz x1i x2i x2 1i je úzce spojen s korelací mezi X1 a X2, kterou označíme jako r. Zkreslení při nezahrnutí důležité proměnné nenastává v případě, pokud je nezahrnutá vysvětlující proměnná nekorelována se zahrnutou vysvětlující proměnnou. Při znalosti problematiky možno vyslovit soudy o směru zkreslení (např. cena domu a atraktivity oblasti). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 22 / 74 Volba vysvětlujících proměnných Zahrnutí nepodstatné proměnné Skutečný model: Yi = α + β1X1i + i . Chybná specifikace: Yi = α + β1X1i + β2X2i + i . Chybný estimátor: ˜β1 = ( x1i yi ) x2 2i − ( x2i yi ) ( x1i x2i ) x2 1i x2 2i − ( x1i x2i )2 . Korektní estimátor: β1 = x1i yi x2 1i . Pokud ukážeme nestrannost ˜β1, lze s odkazem na Gaussův-Markovův teorém říct, že var ˜β1 > var β1 . Zahrnutí irelevantní vysvětlující proměnné vede k méně přesným odhadům. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 23 / 74 Volba vysvětlujících proměnných Multikolinearita – úvod Vysvětlující proměnné navzájem silně korelovány ⇒ nesou v sobě zhruba tutéž informaci ⇒ OLS estimátor má problém v odhadu oddělených mezních vlivů pro takto silně korelované proměnné. Nepřesný odhad koeficientů i v případě, kdy vysvětlující proměnné mohou mít společně velkou vysvětlující sílu. Obvyklým řešením: vypuštění jedné z vysoce korelovaných vysvětlujících proměnných. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 24 / 74 Volba vysvětlujících proměnných Multikolinearita – detaily Rozptyly OLS estimátorů v modelu vícenásobné regrese se dvěma vysvětlujícími proměnnými: var β1 = σ2 (1 − r2) x2 1i , var β2 = σ2 (1 − r2) x2 2i . Vztahy vstupují do odvození intervalů spolehlivosti a do postupů testování hypotéz. Vystupuje zde korelační koeficient, r ⇒ pokud perfektní multikolinearita (r = 1 nebo r = −1), rozptyly nejsme schopni vypočítat (a stejně tak i odhady). Dokonalá multikolinearita: matice (X X) singulární → neexistuje inverze. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 25 / 74 Volba vysvětlujících proměnných Přibližná multikolinearita Výraz (1 − r2) blízký nule. Obecně kovarianční matice σ2(X X)−1 „velká“ → vysoké směrodatné odchylky ⇒ nepřesné odhady rozptylů odhadů parametrů. Malé t-statistiky, široké intervaly spolehlivosti. Nemá vliv na koeficient determinace → regrese dobře vystihne chování dat (někdy všechny parametry statisticky nevýznamné + vysoký koeficient determinace). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 26 / 74 Volba vysvětlujících proměnných „Testování“ multikolinearity Pro rozptyl odhadu parametru lze ukázat (viz např. Heij et al. (2004), str. 157-159): var βj = σ2 (n − 1)s2 xj 1 − R2 j , pro j = 2, . . . , k, kde R2 j je R2 pomocné regrese j-tého regresoru na zbylých (k − 1) regresorů (vč. konstanty), s2 xj je výběrový rozptyl xj. Faktor zvyšující rozptyl – variance inflation factor (VIF): 1 1−R2 j . Hodnoty VIF větší než 10 mohou indikovat problém. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 27 / 74 Testování hypotéz Obsah tématu 1 Základní výsledky 2 Volba vysvětlujících proměnných 3 Testování hypotéz F-test 4 Další otázky Volba funkčního tvaru Další otázky 5 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 28 / 74 Testování hypotéz Úvod Obecný model: Yi = α + β1X1i + β2X2i + . . . + βkXki + i . Test hypotéz zahrnující více parametrů (jejich kombinaci). F-testy a testy založené na věrohodnostním poměru (širší uplatnitelnost). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 29 / 74 Testování hypotéz F-test Obsah tématu 1 Základní výsledky 2 Volba vysvětlujících proměnných 3 Testování hypotéz F-test 4 Další otázky Volba funkčního tvaru Další otázky 5 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 30 / 74 Testování hypotéz F-test Základní testovaná hypotéza Test R2 = 0 ekvivalentní testu hypotézy: H0 : β1 = . . . = βk = 0. není totožná s testováním k samostatných hypotéz H0 : β1 = 0, H0 : β2 = 0 až H0 : βk = 0. F-statistika pro model vícenásobné regrese s k vysvětlujícími proměnnými a úrovňovou konstantou: F = R2 1 − R2 N − k − 1 k . Při platnosti nulové hypotézy má F-statistika rozdělení Fk,N−k−1. Vyhodnocení testu: kritické hodnoty testové statistiky, p-hodnoty testu. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 31 / 74 Testování hypotéz F-test Rozšíření testů – úvod Příklad modelu vícenásobné regrese se třemi vysvětlujícími proměnnými. Původní regresní modelu: neomezený model (unrestricted model). Regresní model se zahrnutím restrikcí vyplývajících z formulované hypotézy: omezený model (restricted model). Neomezený model: Yi = α + β1X1i + β2X2i + β3X3i + i . Příklad hypotézy: H0 : β1 = β2 = 0. Jakoukoliv lineární funkci regresních koeficientů: aβ1 + bβ2 + cβ3 = d pro nějaké konstanty a, b, c a d. Výsledný omezený model: Yi = α + β3X3i + i . Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 32 / 74 Testování hypotéz F-test Rozšíření testů – příklady Obecnější hypotézy: H0 : β1 = 0, β2 + β3 = 1. Druhé z omezení lze zapsat jako β2 = 1 − β3. Omezený model: Yi − X2i = α + β3 (X3i − X2i ) + i . Odpovídá jednoduchému regresnímu modelu se závisle proměnnou Y − X2, úrovňovou konstantou a vysvětlující proměnnou (X3i − X2i ). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 33 / 74 Testování hypotéz F-test Rozšíření testů – obecně Možno implementovat lineární omezení do nového modelu (jiné proměnné). Testová statistika: F = (SSRR − SSRUR) /q SSRUR/ (N − k − 1) . SSR je součet čtverců reziduí, dolní indexy UR (neomezený model) a R (omezený model). Počet testovaných omezení je q. Intuice: „velké“ hodnoty F naznačují, že H0 není korektní. F má Fischerovo-Snedecerovo rozdělení, Fq,N−k−1. F-statistika pomoci koeficientů determinace (jen pro stejné závisle proměnné): F = R2 UR − R2 R /q 1 − R2 UR / (N − k − 1) . Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 34 / 74 Další otázky Obsah tématu 1 Základní výsledky 2 Volba vysvětlujících proměnných 3 Testování hypotéz F-test 4 Další otázky Volba funkčního tvaru Další otázky 5 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 35 / 74 Další otázky Volba funkčního tvaru Obsah tématu 1 Základní výsledky 2 Volba vysvětlujících proměnných 3 Testování hypotéz F-test 4 Další otázky Volba funkčního tvaru Další otázky 5 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 36 / 74 Další otázky Volba funkčního tvaru Nelinearita v regresi LRM: Yi = α + β1X1i + . . . + βkXki + i . Nelineární model: Yi = f (X1i , . . . , Xki , α, β1, . . . , βk) + i , kde f (·) je nějaká nelineární funkce vysvětlujících proměnných a parametrů. Odlišná interpretace parametrů než u LRM. Odhad metodou maximální věrohodnosti: L (α, β1, . . . , βk) = N i=1 1 √ 2πσ2 exp − 1 2σ2 (Yi − f (X1i , . . . , βk))2 . Obecně nejsou estimátory v algebraické podobě! (numerická optimalizace). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 37 / 74 Další otázky Volba funkčního tvaru Transformace modelu Cobb-Douglasova produkční funkce: Yi = α1Xβ1 1i Xβ2 2i . . . Xβk ki . Logaritmování: ln (Yi ) = α + β1 ln (X1i ) + . . . + βk ln (Xki ) , kde α = ln(α1). Přidáním náhodné složky → LRM (s logaritmy původních proměnných). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 38 / 74 Další otázky Volba funkčního tvaru Interpretace parametrů Původní model (level-level): „jestliže se Xj zvýší o jednotku, potom Y má tendenci zvýšit se o βj jednotek (za předpokladu, že se hodnoty ostatních vysvětlujících proměnných se nemění)“. Interpretace v jednotkách proměnných (dolary, tuny, apod.). Logaritmování = bezrozměrné veličiny. Log-log model: elasticity, tedy „jestliže se Xj zvýší o jedno procento, potom má Y tendenci zvýšit se o βj procent (za předpokladu, že se hodnoty ostatních vysvětlujících proměnných se nemění)“. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 39 / 74 Další otázky Volba funkčního tvaru Otázka logaritmování Pozor na logaritmy nul a záporných čísel! Log-level nebo Level-log model. Část proměnných v logaritmech a část ne. Příklad z ekonomie práce: závisle proměnná (Y ) je logaritmus mzdy každého jednotlivce; vysvětlující proměnné počet let vzdělání (X1) a počet let pracovních zkušeností (X2). ln (Yi ) = α + β1X1i + β2X2i + i . „Jestliže se X1 zvýší o jednotku, zvýší se závisle proměnná o β1 · 100 procent (za předpokladu, že se hodnoty ostatních vysvětlujících proměnných nemění).“ Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 40 / 74 Další otázky Volba funkčního tvaru Příklad mezd – rozšíření Pracovní zkušenosti nemají lineární vliv. Nová vysvětlující proměnná: druhá mocnina zkušeností. ln (Yi ) = α + β1X1i + β2X2i + β3X2 2i + i . Stále LRM! Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 41 / 74 Další otázky Volba funkčního tvaru Interakce proměnných Vztah mezi vysvětlujícími proměnnými. Yi = α + β1X1i + β2X2i + i . Třetí vysvětlující proměnnou X1X2: Yi = α + β1X1i + β2X2i + β3X1i X2i + i . Stále LRM, nekonstantní vliv X1 (a X2) na Y . Yi = α + [β1 + β3X2i ] X1i + β2X2i + i . Mezní vliv X1 na Y : [β1 + β3X2i ]. Mezní vliv X2 na Y : [β2 + β3X1i ]. Obvykle mezní vliv vyhodnocován a prezentován v průměru pozorovaných dat (např. β1 + β3X2i .) Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 42 / 74 Další otázky Volba funkčního tvaru Interakce proměnných – příklad Příklad vlivu vzdělání na mzdu. Y = logaritmus mzdy; X1 = počet let vzdělání; X2 = skóre při testu inteligence. Mezní vliv X1 na Y roven β1: parametr je označován jako „výnosy ze vzdělání (the return to schooling)“. Nová proměnná odpovídající součinu vysvětlujících proměnných → [β1 + β3X2i ]. Analýza jestli se výnosy ze vzdělání liší pro různé skupiny lidí. Mají inteligentní studenti větší užitek ze vzdělání než studenti méně inteligentní? (sledujeme statistickou významnost parametru β3). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 43 / 74 Další otázky Volba funkčního tvaru Rozhodování o nelineární podobě Ekonomická teorie × možno více specifikací. Příklad: Yi = α + β1X1i + i , Yi = α + β1X1i + β2X2i + i . Využijeme t-test pro testování H0 : β2 = 0 nebo alternativně porovnání korigovaných koeficientů determinace, R 2 . Obecně: zkoušet různé specifikace (problém s multikolinearitou a zkreslením při opomenutí důležité vysvětlující proměnné). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 44 / 74 Další otázky Volba funkčního tvaru Rozhodování o nelineární podobě Korigovaný koeficient determinace: modely se stejnou vysvětlovanou proměnnou! Jak rozhodnout mezi modely s různě transformovanými vysvětlovanými proměnnými? → nelehká otázka. Speciální případ: Yi = α + β1X1i + . . . + βkXki + i , ln (Yi ) = α + β1 ln (X1i ) + . . . + βk ln (Xki ) + i . První model – lineární regrese; druhý model – log-lineární regrese (nezáleží jestli jsou všechny nebo jen část vysvětlujících proměnných vyjádřena v podobě logaritmů). Obě vysvětlované proměnné nejsou přímo srovnatelné. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 45 / 74 Další otázky Volba funkčního tvaru Rozhodování o logaritmu vysvětlované proměnné Nová proměnná: Y ∗ i = Yi ˜Y , kde ˜Y je geometrický průměr nelogaritmované závisle proměnné (srovnatelné). SSRLIN a SSRLOG pro lineární a log-lineární regresi s použitím závisle proměnných Y ∗ a ln (Y ∗). Pokud SSRLIN > SSRLOG → testová statistika hypotézy, že lineární a log-lineární regrese vyrovnávají data stejně: LL1 = N ln SSRLIN SSRLOG . Pokud SSRLOG > SSRLIN: LL2 = N ln SSRLOG SSRLIN . Rozdělení χ2 1 (kritická hodnota jednostranného testu na hladině významnosti 5 % je 3.841) → v případě zamítnutí → preference modelu s nižším SSR. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 46 / 74 Další otázky Volba funkčního tvaru Sargan (1964) M1 model lineární a M2 log-lineární. Za předpokladu nezávislých a normálně rozdělených náhodných složek → OLS odhady rozptylů reziduí obou modelů σ2 M1 a σ2 M2 . Sarganovo kritérium: S = σM1 gσM2 N , kde N počet pozorování a g je geometrický průměr vysvětlovaných proměnných y1, . . . , yN. Pokud S < 1, potom data hovoří ve prospěch M1. Pokud S > 1, potom data hovoří ve prospěch M2. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 47 / 74 Další otázky Volba funkčního tvaru BM test Bera a McAleer (1989). log yt = β0 + β1xt + u0t, yt = β0 + β1xt + u1t. 1 Získání vyrovnaných hodnot log yt a ˜yt. Vyrovnaná hodnota yt z log-lineární rovnice je exp(log yt). Predikovaná hodnota log yt z lineární rovnice je log ˜yt. 2 Odhad pomocných regresí a získání reziduí v1t a v0t: exp(log yt) = β0 + β1xt + v1t, log ˜yt = β0 + β1xt + v0t. 3 Standardní t-test parametrů θ0 a θ1 v pomocných regresích: log yt = β0 + β1xt + θ0v1t + w0t, yt = β0 + β1xt + θ1v0t + w1t. 4 Pokud θ0 = 0 není zamítnuta, volíme log-lineární podobu. Pokud θ1 = 0 nezamítnuta, volíme lineární model (problém, pokud současně zamítáme nebo nezamítáme obě hypotézy). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 48 / 74 Další otázky Volba funkčního tvaru PE test MacKinnon, White a Davidson (1983). První krok stejný jako u BM testu. Ve druhém kroku analogický test θ0 = 0 a θ1 = 0 v umělých regresích: log yt = β0 + β1xt + θ0[˜yt − exp(log yt)] + 0t, yt = β0 + β1xt + θ1[log yt − log ˜yt] + 1t. Existence dalších testů (zejména využívajících Box-Coxovu transformaci a metodu maximální věrohodnosti). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 49 / 74 Další otázky Další otázky Obsah tématu 1 Základní výsledky 2 Volba vysvětlujících proměnných 3 Testování hypotéz F-test 4 Další otázky Volba funkčního tvaru Další otázky 5 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 50 / 74 Další otázky Další otázky Změna měřítka závisle proměnné Násobíme vysvětlovanou proměnnou konstantou c (nenulovou): 1 OLS odhady úrovňová konstanta a parametry sklonu násobeny konstantou c. 2 Nemění se koeficient determinace, R2 . 3 Směrodatné odchylky odhadů všech parametrů násobeny c. 4 Součet čtverců reziduí násoben c2 (rezidua se zvyšují c krát). 5 Směrodatná odchylka reziduí násobena c krát. 6 Nemění se výsledky testů statistické významnosti parametrů (t-testy, F-test). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 51 / 74 Další otázky Další otázky Změna měřítka nezávisle proměnné Násobení vysvětlující proměnné konstantou c (nenulovou): 1 OLS odhad parametru sklonu dělen konstantou c (násoben c−1 ). 2 Nemění se koeficient determinace, R2 . 3 Směrodatná odchylka odhadu jen měněného parametru dělena c (násobena c−1 ). 4 Součet čtverců reziduí nezměněn. 5 Směrodatná odchylka reziduí nezměněna. 6 Nemění se výsledky testů statistické významnosti parametrů (t-testy, F-test). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 52 / 74 Další otázky Další otázky RESET test Testování chybné specifikace modelu (Regression Specification Error Test). Detekce opomenutých proměnných a nekorektní funkční podoby. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 53 / 74 Další otázky Další otázky RESET test – modelové vyjádření Princip postupu: Yi = β1 + β2Xi2 + β3Xi3 + i , Yi = β1 + β2Xi2 + β3Xi3. Předpoklad dvou umělých modelů Yi = β1 + β2Xi2 + β3Xi3 + γ1Y 2 i + i , Yi = β1 + β2Xi2 + β3Xi3 + γ1Y 2 i + γ2Y 3 i + i . Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 54 / 74 Další otázky Další otázky RESET test – princip Test chybné specifikace v prvním případě: H0 : γ1 = 0, H1 : γ1 = 0. Test chybné specifikace ve druhém případě: H0 : γ1 = γ2 = 0, H1 : γ1 = 0 a (nebo) γ2 = 0. První případ t-test nebo F-test; druhý případ F-test. Zamítnutí H0 = model neadekvátní a měl by být zlepšen; nezamítnutí H0 = test nebyl schope detekovat chybnou specifikaci. Princip: Y 2 i a Y 3 i jsou polynomiální funkce Xi2 a Xi3 → druhá a třetí mocnina rovnice vyrovnaných hodnot obsahuje mocniny a křížové členy vysvětlujících proměnných → polynomy aproximují různé funkční formy ⇒ nekorektní původní model = zahrnutí Y 2 i a Y 3 i zvýší kvalitu vyrovnání. Podobně problém nezahrnutí proměnných: pokud korelovány s Xi1 a Xi2 = korelovány pravděpodobně i s jejich mocninami (vyřešení zahrnutím Y 2 i a Y 3 i ). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 55 / 74 Další otázky Další otázky RESET test – shrnutí Pokud významně zkvalitníme model zahrnutím umělým zahrnutím predikovaných hodnot modelem, musí být původní model neadekvátně specifikován. Test přímo neříká, co dělat dál. Užitečný pro zjištění slabě specifikovaných modelů. Ne vždy rozhodne mezi alternativními modely (RESET nemusí zamítnout žádnou z alternativ). Zobecnění přidáním vyšších mocnin vyrovnaných hodnot (testování výraznějších nelinearit). Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 56 / 74 Testování hypotéz (pokračování) Obsah tématu 1 Základní výsledky 2 Volba vysvětlujících proměnných 3 Testování hypotéz F-test 4 Další otázky Volba funkčního tvaru Další otázky 5 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 57 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Obsah tématu 1 Základní výsledky 2 Volba vysvětlujících proměnných 3 Testování hypotéz F-test 4 Další otázky Volba funkčního tvaru Další otázky 5 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 58 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Motivace Komplikovanější než F-test × širší uplatnění. Věrohodnostní funkce: L α, β1, . . . , βk, σ2 = N i=1 1 √ 2πσ2 exp − 1 2σ2 (Yi − α − β1X1i − . . . − βkXki )2 = 1 (2πσ2) N 2 exp − 1 2σ2 N i=1 (Yi − α − β1X1i − . . . − βkXki )2 . Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 59 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Východiska ML odhady parametrů odpovídají OLS odhadům: α, β1,. . . , βk. ML odhad rozptylu náhodných složek není nestranný: σ2 = Yi − α − β1X1i . . . βkXki 2 N = 2 i N . Hodnota věrohodnostní funkce pro neomezený model (MLE): L αU , βU 1 , . . . , βU k , σ2U . Věrohodnostní funkce vyhodnocená v odhadech omezeného modelu (MLE): L αR , βR 1 , . . . , βR k , σ2R . Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 60 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Ilustrace Regresní model se třemi vysvětlujícími proměnnými a hypotéza H0 : β1 = 0, β2 + β3 = 1. Zohledněním omezení z nulové hypotézy získáme omezený model Yi − X2i = α + β3 (X3i − X2i ) + i . OLS odhady → αR a βR 3 . Hodnoty βR 1 a βR 2 ? → omezení plynoucí z H0, tedy βR 1 a βR 2 = 1 − βR 3 . Testy věrohodnostního poměru i pro hypotézy zahrnující nelineární restrikce: např. H0 : β1 = β3 2,, β3 = 1 β2 → obecně H0 : g(β1, . . . , βk) = 0, kde g(·) je množina až k nelineárních funkcí. Odhad nelineárních modelů v ekonometrických programech. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 61 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Test věrohodnostního poměru Věrohodnostní poměr: λ = L αR, βR 1 , . . . , βR k , σ2R L αU, βU 1 , . . . , βU k , σ2U . Testová statistika je −2 ln(λ). Rozdělení této statistiky (aproximativně): −2 ln(λ) ∼ χ2 q (q je počet omezení obsažených v H0). Intuice: zavedení restrikcí vede k nižší hodnotě věrohodnostní funkce. Platí: L αR, βR 1 , . . . , βR k , σ2R ≤ L αU, βU 1 , . . . , βU k , σ2U a tedy 0 ≤ λ ≤ 1. H0 pravdivá ⇒ λ bude velmi blízko 1 ⇒ testová statistika −2 ln(λ) malá. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 62 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Příklad 1 Jednoduchý regresní model se známým rozptylem, bez úrovňové konstanty a jediným koeficientem, β. Neomezená věrohodnostní funkce: L (β). Test hypotézy H0 : β = 0 ⇒ omezená věrohodnostní funkce L (β = 0). Obrázek: N(2, 1). Věrohodnostní poměr: λ = L (β = 0) L (β = MLE) . λ = 0.773 a −2 ln(λ) = 0.515 → kritická hodnota pro χ2 1 je 3.84 (jednostranný test a tudíž hodnota 3.84 odpovídá 95% kvantilu daného rozdělení) → nezamítáme nulovou hypotézu, že β = 0. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 63 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Věrohodnostní funkce −6 −4 −2 0 2 4 6 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 β L(β=0) MLE L(β=−2) L(β=MLE) Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 64 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Příklad 2 Hypotéza H0 : β = −2 → L (β = −2) Hodnota věrohodnostní funkce je zde mnohem nižší než hodnota v MLE. Věrohodnostní poměr: λ = L (β = −2) L (β = MLE) = 0.031 0.282 = 0.110. −2 ln(λ) = 4.416 → 5% kritická hodnota 3.84 → zamítáme nulovou hypotézu, že β = −2. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 65 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Alternativa pro LRM Věrohodnostní funkce pro model vícenásobné regrese: L α, β1, . . . , βk, σ2 = 1 (2πσ2) N 2 exp − 1 2σ2 N i=1 Yi − α − β1X1i − . . . − βkXki 2 . Po dosazení výrazu pro odhad rozptylu: L α, β1, . . . , βk, σ2 ∝ 1 (σ2) N 2 ∝ 1 (SSR) N 2 , kde SSR = 2 i . Věrohodnostní poměr: λ = 1 (SSRR) N 2 1 (SSRU) N 2 = SSRU SSRR N 2 . Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 66 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Waldův test a test Lagrangeových multiplikátorů Varianty testů založených na věrohodnostním poměru. Abraham Wald (1902–1950) Joseph-Louis Lagrange (1736–1813) Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 67 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Waldův test Odhad pouze neomezeného modelu. Příklad: hypotéza H0 : g(α, β1, β2, . . . , βk) = c ML odhady αU, βU 1 , . . . , βU k . Idea: v případě správnosti hypotézy H0 odhady v blízkosti hodnot splňujících omezení. Mělo by platit: g(αU, βU 1 , . . . , βU k ) nebude příliš vzdálené od hodnoty c. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 68 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Waldův test – dokončení Waldova statistika: W = g αU, βU 1 , . . . , βU k − c 2 var g αU, βU 1 , . . . , βU k . Jmenovatel někdy snadno spočítatelný, např. pro g(αU, βU 1 , . . . , βU k ) = βU 1 + βU 2 : var βU 1 + βU 2 = var βU 1 + var βU 2 + 2cov βU 1 , βU 2 . Pro případ nelineárních restrikcí nutné komplikovanější statistické metody → dokáží spočítat ekonometrické balíčky. Rozdělení testové statistiky: W ∼ χ2 q, kde q je počet omezení v rámci nulové hypotézy. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 69 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Test Lagrangeových multiplikátorů Odhad pouze omezeného modelu. Příklad: neomezený model jednoduchý regresní model s jediným koeficientem, β; omezený model v rámci hypotézy H0 : β = c. βR = c. Motivace testu: v případě platnosti H0 maximálně věrohodný odhad omezeného modelu by neměl být příliš vzdálen od ML odhadu neomezeného modelu (pro náš příklad by c nemělo být příliš vzdálené od β, tedy OLS (ML) odhadu). Diferenciální počet říká, že v maximu věrohodnostní funkce je první derivace funkce nulová (což odpovídá směrnici tečny v bodě). Pokud je H0 pravdivá, měla by být derivace věrohodnostní funkce vyhodnocená v βR blízko nule. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 70 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Test Lagrangeových multiplikátorů – dokončení Testová statistika: LM = d ln L βR 2 I βR . Intuitivně: jak hodně vzdálený nule je sklon tečny věrohodnostní funkce při zohlednění restrikcí. Čitatel počítá směrnici tečny v tomto bodě × velikost odchylky vyjádřena relativně vzhledem k nejistotě spojenou s tímto odhadem. Jmenovatel LM je vstažen k nejistotě odhadu: I (·) je obecně tzv. informační matice (vyhodnocená v omezeném odhadu, její inverze odpovídá kovarianční matici). LM statistika má rozdělení, aproximativně (asymptoticky) chí-kvadrát: LM ∼ χ2 q, kde q je počet restrikcí v kontextu H0. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 71 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Porovnání testů – obrázek Likelihood ratio (LR) test, Waldův test (W), test Lagrangeových multiplikátorů (LM). Log-likelihood (ln L) jako funkce β; βMLE maximum; omezení g(β) = 0; hodnota βMLE R . Zdroj: Kennedy (2008) – A Guide to Econometrics. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 72 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Porovnání testů LR test: omezení pravdivé ⇒ ln LR (maximum ln L při omezeních) by nemělo být statisticky menší než ln Lmax (neomezené maximum). Test nulovosti vertikální vzdálenosti (ln Lmax − ln LR). W test: omezení g(β) = 0 pravdivé ⇒ g(βMLE ) by nemělo být statisticky menší než 0. Test nulovosti vertikální vzdálenosti g(βMLE ) od nuly (naše omezení) resp. nulovosti horizontální odchylky βMLE od βMLE R . LM test: sklon ln L v maximu (vzhledem k β) nulový → omezení pravdivé ⇒ sklon ln L v omezeném odhadu βMLE R nevýznamně vzdálený od nuly. Statistiky pro test věrohodnostního poměru, Waldův test a test Lagrangeových multiplikátorů jsou asymptoticky ekvivalentní. Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 73 / 74 Testování hypotéz (pokračování) Testy založené na věrohodnostním poměru Konec Základy ekonometrie (ZAEK) IV. Vícenásobná regrese Podzim 2015 74 / 74