Základy ekonometrie II. Netechnický úvod do regrese Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 1 / 67 Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 2 / 67 Regrese Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 3 / 67 Regrese Úvod do regrese Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 4 / 67 Regrese Úvod do regrese Historie pojmu „regrese“? Sir Francis Galton – bratranec Charlese Darwina, školitel Karla Pearsona. Francis Galton (1822–1911) Karl Pearson (1857–1936) Empirické zjištění (1886), potvrzena Pearsonem: tendence vyšších rodičů mít vyšší děti a tendence menších rodičů mít menší děti; v průměru však děti vyšších rodičů jsou menší než jejich rodiče a děti menších rodičů jsou větší než jejich rodiče. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 5 / 67 Regrese Úvod do regrese „Regrese k průměru“ 60 62 64 66 68 70 72 74 64 66 68 70 72 74 Childheight Midparent height Y = 23,9 + 0,646X Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 6 / 67 Regrese Úvod do regrese Pojetí regrese v současnosti Obecně závislost mezi veličinami (lineární, nelineární, dvě i více veličin). Regresní analýza – studium závislosti jedné proměnné, závisle proměnné, na jedné či více ostatních proměnných, vysvětlujících proměnných. Účel – odhad a/nebo predikce populační střední hodnoty či průměrné hodnoty závisle proměnné v závislosti na známých (pevně daných) hodnotách vysvětlujících proměnných (v opakujících se výběrech). E(Y |X) jako funkce x (Y závisle proměnná, X vysvětlující proměnné, x jejich realizace). Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 7 / 67 Regrese Příklady Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 8 / 67 Regrese Příklady Příklad 1 – Galtonova regrese Galton – otázka stability v rozdělení výšky populace. V současném pohledu – otázka jak se např. průměrná výška chlapců mění v závislosti na dané výšce otců. Predikce průměrné výšky (očekávaná výška) synů při znalosti výšky jejich otců. Obrázek – rozdělení výšky synů v hypotetické populaci vzhledem k daným či fixním hodnotám výšky otců. Regresní přímka – ukazuje jak průměrná výška synů roste s výškou otců (obecné tendence). Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 9 / 67 Regrese Příklady Příklad 1 – Galtonova regrese (obrázek s daty) Son'sheight,inches Father's height, inches × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × × 75 70 65 60 60 65 70 75 × × × × × Mean value Zdroj: Gujarati, Porter (2009) – Basic econometrics. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 10 / 67 Regrese Příklady Příklad 2 – Výška a věk chlapců v populaci Obrázek — rozdělení výšky chlapců v hypotetické populaci měřené v pevně daném věku. Ne všichni chlapci v daném věku mají stejnou výšku × v průměru se výška zvyšuje s věkem (do určitého věku). Zobrazení závislosti – odpovídající regresní přímka. Při znalosti věku chlapce, X = x, můžeme predikovat průměrnou (očekávanou) výšku, Y , tedy E(Y |X = x). Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 11 / 67 Regrese Příklady Příklad 2 – Výška a věk chlapců v populaci (obrázek s daty) Height,inches 40 50 60 70 Age, years 10 11 12 13 14 Mean value Zdroj: Gujarati, Porter (2009) – Basic econometrics. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 12 / 67 Regrese Příklady Příklad 3 – Spotřební funkce Analýza závislosti výdajů na osobní spotřebu, Y , na osobním důchodu, X. Ekonomický model (Keynesiánská spotřební funkce): Y = β1 + β2X. Odhad mezního sklonu ke spotřebě (MPC) – odhad parametru β2. MPC = průměrná (očekávaná) změna ve výdajích na osobní spotřebu při změně reálného důchodu o jednotku. Data – roční. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 13 / 67 Regrese Příklady Příklad 3 – Spotřební funkce (model) Consumptionexpenditure X Income 1 β2 = MPCβ β1β Y Zdroj: Gujarati, Porter (2009) – Basic econometrics. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 14 / 67 Regrese Příklady Příklad 3 – Spotřební funkce (obrázek s daty) 700060005000 GDP (X) 4000 3000 3500 4000 4500 PCE(Y) 5000 Zdroj: Gujarati, Porter (2009) – Basic econometrics. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 15 / 67 Regrese Příklady Příklad 4 – Monopol a cenová elasticita Monopol – analýza reakce poptávky na změnu ceny. Experiment pro odhad cenové elasticity poptávky po produktu. Nalezení „nejziskovější“ ceny. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 16 / 67 Regrese Příklady Příklad 5 – Phillipsova křivka Analýza míry změny mezd ve vztahu k míře nezaměstnanosti. Predikce průměrné změny mezd při dané úrovni nezaměstnanosti. Pohled na inflační procesy v ekonomice (mzdová a cenová inflace). Ilustrativní příklad – v realitě komplexnější modely. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 17 / 67 Regrese Příklady Příklad 5 – Phillipsova křivka (obrázek s daty) Unemployment rate, % Rateofchangeofmoneywages 0 – + Zdroj: Gujarati, Porter (2009) – Basic econometrics. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 18 / 67 Regrese Příklady Příklad 6 – Poptávka po penězích Monetární ekonomie – za jinak neměnných podmínek s růstem inflace, π, se snižuje poměr, k, důchodu drženého v podobě peněz. Obrázek – model závislosti. Kvantitativní analýza vztahu → predikce množství peněz (v podílu k důchodu), které lidé chtějí držet při různých mírách inflace. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 19 / 67 Regrese Příklady Příklad 6 – Poptávka po penězích (model) 0 Inflation rate π k = Money Income Zdroj: Gujarati, Porter (2009) – Basic econometrics. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 20 / 67 Regrese Příklady Příklad 7 – Výdaje na reklamu Marketingové oddělení – vztah výdajů na reklamu a poptávky po produktu společnosti. Hledání elasticity poptávky na výdaje na reklamu (procentní změna poptávky v závislosti na jednoprocentní změně výdajů na reklamu). Nalezení „optimálního“ rozpočtu na reklamu. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 21 / 67 Regrese Příklady Příklad 8 – Výnosy v zemědělství Závislost výnosů (např. pšenice nebo jiného obilí) na teplotách, množství srážek, slunečním svitu a hnojivu. Predikce průměrného výnosu při daných informacích o vysvětlujících proměnných. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 22 / 67 Jednoduchý regresní model Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 23 / 67 Jednoduchý regresní model Příklady a základní pojmy Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 24 / 67 Jednoduchý regresní model Příklady a základní pojmy Příklad nákladů produkce v odvětví výroby elektřiny Průřezová data pro 123 společností v USA v roce 1970. Analýza nákladové funkce a faktorů ovlivňujících celkové náklady. Závislost nákladů a výstupu firem. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 25 / 67 Jednoduchý regresní model Příklady a základní pojmy Příklad nákladů produkce – data 0 50 100 150 200 250 300 350 0 10 20 30 40 50 60 70 80 Náklady(mil.$) Výstup (mil. kWh) Obrázek: Bodový graf výstupu vzhledem k nákladům. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 26 / 67 Jednoduchý regresní model Příklady a základní pojmy Lineární regresní model Lineární vztah mezi náklady, Y , a výstupem, X: Y = α + βX. Neznámé koeficienty (parametry) modelu: α . . . úrovňová konstanta, β . . . parametr sklonu (vliv proměnné X na Y ). Náhodná složka (chybový člen), – chyby měření, opomenutí vysvětlující proměnné, neměřitelné veličiny ovlivňující náklady ⇒ pozorování neleží přesně na teoretické přímce. Y = α + βX + Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 27 / 67 Jednoduchý regresní model Příklady a základní pojmy Lineární regresní model – terminologie Tabulka: Popis proměnných v jednoduchém LRM Y X závisle proměnná nezávisle proměnná vysvětlovaná proměnná vysvětlující proměnná kontrolovaná proměnná kontrolní (řídící) proměnná predikovaná proměnná prediktor regresant regresor Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 28 / 67 Jednoduchý regresní model Příklady a základní pojmy Volba směru závislosti Volba závisle proměnné a vysvětlujících proměnných. Problém kauzality a interpretace výsledků. Kauzalita z ekonomické teorie (mikroekonomie a nákladová funkce) nebo intuice (ceny domů a jejich charakteristiky). Nejasná kauzalita – mzdová a cenová inflace (ekonometrický přístup pomocí Grangerovských kauzalit). Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 29 / 67 Jednoduchý regresní model Odhady parametrů modelu Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 30 / 67 Jednoduchý regresní model Odhady parametrů modelu Odhad parametrů a přímka vyrovnání Regresní analýza – odhady neznámých parametrů: α, β. Spousta možností odhadů ⇒ spousta prokládajících přímek. Nejlepší proložení dat? Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 31 / 67 Jednoduchý regresní model Odhady parametrů modelu Příklad nákladů produkce – data a nejlepší vyrovnání 0 50 100 150 200 250 300 350 0 10 20 30 40 50 60 70 80 Náklady(mil.$) Výstup (mil. kWh) Obrázek: Bodový graf výstupu vzhledem k nákladům s regresní přímkou vyrovnání. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 32 / 67 Jednoduchý regresní model Odhady parametrů modelu Náhodná složka a reziduum Jednotlivá pozorování: Yi = α + βXi + i . Náhodná složka: i = Yi − α − βXi . Reziduum: i = Yi − α − βXi . Regresní přímka vyrovnání: Yi = α + βXi . Vyrovnané hodnoty: Yi . Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 33 / 67 Jednoduchý regresní model Odhady parametrů modelu Regrese jako přímka nejlepšího vyrovnání Součet čtverců reziduí (SSR). SSR = N i=1 i 2 = N i=1 Yi − α − βXi 2 = N i=1 Yi − Yi 2 . Odhady minimalizující tento součet: metoda nejmenších čtverců (ordinary least squares – OLS). Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 34 / 67 Jednoduchý regresní model Odhady parametrů modelu Interpretace OLS odhadů Úrovňová konstanta – ne vždy interpretovatelná × informace o efektivitě trhů v modelu CAPM. α = 2.19 . . . odhad fixních nákladů v odvětví. Parametr sklonu: dYi dXi = β. β = 4.79 . . . odhad mezních nákladů v odvětví. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 35 / 67 Jednoduchý regresní model Odhady parametrů modelu Interpretace OLS odhadů – obecný přehled Tabulka: Interpretace parametrů dle funkční podoby proměnných. Model Vysvětlovaná Vysvětlující Interpretace β Level-Level Y X ∆Y = β∆X Level-Log Y ln X ∆Y = (β/100)%∆X Log-Level ln Y X %∆Y = (100β)∆X Log-Log ln Y ln X %∆Y = β%∆X Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 36 / 67 Jednoduchý regresní model Odhady parametrů modelu Problémy interpretace odhadů ekonometrických modelů Interpretovat lze téměř vše × otázka věrohodnosti závěrů a fundovanosti zdůvodnění. Důležité pojmy: gee = jé(žíš), jémine (hovorová am. angličtina) × gee (up) = hot! (příkaz zvířeti zabočit vpravo). alien = mimozemšťan, vetřelec, návštěvník (z vesmíru). abduction = únos. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 37 / 67 Jednoduchý regresní model Odhady parametrů modelu Kvalita vyrovnání – koeficient determinace Celkový součet čtverců: TSS = N i=1 Yi − Y 2 . Regresní součet čtverců: RSS = N i=1 Yi − Y 2 . Celková variabilita Y : TSS = RSS + SSR. Koeficient determinace, R2 (0 ≤ R2 ≤ 1): R2 = RSS TSS = 1 − SSR TSS . Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 38 / 67 Jednoduchý regresní model Statistické aspekty Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 39 / 67 Jednoduchý regresní model Statistické aspekty Intervaly spolehlivosti Intervaly spolehlivosti odhadu parametru – nejistota spojená s bodovým odhadem. Pr(IntD < β < IntH) = 0.95 Hladina spolehlivosti – míra důvěry ke zvolenému intervalu (např. 95 %). Obvykle 0.99 = 99 %, 0.95 = 95 %, 0.90 = 90 %. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 40 / 67 Jednoduchý regresní model Statistické aspekty Testování hypotéz – příklad Ekonometrie jako nástroj k hledání odpovědí na zajímavé otázky života skrze formulaci testovatelných hypotéz. Důležité pojmy: stare = zírat, čučet. cookie = sušenka, keks (hl. am. angličtina). theory = teorie, hypotéza. test = ověřit, testovat (teorie a hypotézy se obvykle ověřují). Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 41 / 67 Jednoduchý regresní model Statistické aspekty Testování hypotéz o parametru – příklady „Zvyšuje úroveň vzdělání jednotlivce jeho potenciál, pokud jde o výši jeho pracovních příjmů?“ „Zvyšuje určitý typ reklamní strategie nebo kampaně celkové tržby?“ „Sníží nový vládní systém rekvalifikačních programů nezaměstnanost?“ Většina otázek typu: „Má vysvětlující proměnná vliv na závisle proměnnou?“, resp. „Je β = 0 v regresi Y na X?“. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 42 / 67 Jednoduchý regresní model Statistické aspekty Testování hypotéz o parametru Nulová a alternativní hypotéza: H0 : β = 0 oproti H1 : β = 0. Testová statistika pro statistickou významnost parametru: t = β sb . Hladina významnosti: obvykle 0.01, 0.05, 0.10 ⇒ (1-hladina spolehlivosti) = pravděpodobnost nutná k nezamítnutí nulové hypotézy (na základě pozorování). Kritická hodnota testu – z tabulek, z počítačového software; na základě zvolené hladiny významnosti definuje oblast zamítnutí nulové hypotézy. p-hodnota: porovnáváme se zvolenou hladinou významnosti; pravděpodobnost získání výsledku stejně extrémního jako pozorujeme v datech (čím nižší, tím méně pravděpodobnější nulová hypotéza). Testování hypotéz možné s využitím intervalu spolehlivosti. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 43 / 67 Jednoduchý regresní model Statistické aspekty Testování hypotéz a typy chyb Rozhodování o zamítnutí a nezamítnutí nulové hypotézy → dva typy chyb: zamítnutí H0, i když je pravdivá – chyba prvního druhu (type I error); nezamítnutí H0 při její nepravdivosti – chyba druhého druhu (type II error). Testování hypotéz – pouze prostředek k rozhodnutí, jestli se „můžeme tvářit“ jakoby nulová hypotéza platila. Pro danou velikost vzorku nelze minimalizovat obě chyby současně ⇒ chyba prvního druhu důležitější (Neyman a Pearson) → chybu prvního druhu volíme na nízké úrovni pravděpodobnosti (0.01, 0.05) a minimalizujeme chybu druhého druhu (síla testu). Hladina významnosti – pravděpodobnost chyby prvního druhu. Síla testu – pravděpodobnost nedopuštění se chyby druhého druhu. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 44 / 67 Jednoduchý regresní model Statistické aspekty Výstup počítačových programů. β: bodový odhad metodou nejmenších čtverců jako nejlepší odhad skutečné hodnoty β. 95% interval spolehlivosti: informace o intervalu, ve kterém s 95% pravděpodobností leží skutečná hodnota parametru β. Směrodatná odchylka (standardní chyba) odhadu parametru (β), sb: měřítko toho, jak přesný náš odhad je. Testová t-statistika pro testování H0 : β = 0. p-hodnota pro testování H0 : β = 0. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 45 / 67 Jednoduchý regresní model Statistické aspekty Výsledky pro model nákladů energetických podniků. Tabulka: Jednoduchý regresní model pro data o spotřebě elektřiny Proměnná Koef. Sm. odch. t-stat. p-hodnota 95% int. spol. Konstanta 2.19 1.88 1.16 0.25 [-1.53;5.91] Výstup 4.79 0.13 36.36 0.00 [4.53;5.05] Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 46 / 67 Jednoduchý regresní model Statistické aspekty Testování hypotézy o R2 . H0 : R2 = 0, H1 : R2 = 0 → má vysvětlující proměnná statisticky významnou sílu k vysvětlení závisle proměnné? F-statistika: F = (N − 2)R2 1 − R2 . Porovnání s kritickou hodnotou nebo p-hodnota a naše hladina významnosti. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 47 / 67 Model vícenásobné regrese Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 48 / 67 Model vícenásobné regrese Odhad a interpretace Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 49 / 67 Model vícenásobné regrese Odhad a interpretace Model a OLS odhad Model: Yi = α + β1X1i + β2X2i + . . . + βkXki + i . Součet čtverců reziduí: SSR = N i=1 Yi − α − β1X1i − β2X2i − . . . − βkXki 2 . Koeficient determinace – vliv všech proměnných. F-test – schopnost všech vysvětlujících proměnných vysvětlit chování vysvětlované proměnné: F = N − k − 1 k R2 1 − R2 . Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 50 / 67 Model vícenásobné regrese Odhad a interpretace Interpretace výsledků OLS odhadů Parametr – mezní vliv vysvětlující proměnné na vysvětlovanou, pokud ostatní proměnné zůstávají neměnné. Tabulka: Regresní model pro data o cenách domů. Proměnná Koef. Sm. odch. t-stat. p-hodnota 95% int. spol. Konstanta -4009.55 3603.11 -1.11 0.27 [-11087.3;3068.25] Rozloha 5.43 0.37 14.70 0.00 [4.70;6.15] Počet ložnic 2824.61 1214.81 2.33 0.02 [438.30;5210.93] koupelen 17105.17 1734.43 9.86 0.00 [13698.12;20512.22] pater 7634.90 1007.97 7.57 0.00 [5654.87;9614.92] Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 51 / 67 Model vícenásobné regrese Specifické problémy vícenásobné regrese Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 52 / 67 Model vícenásobné regrese Specifické problémy vícenásobné regrese Volba vysvětlujících proměnných Dva protichůdné požadavky: 1 Zahrnutí co nejvíce proměnných schopných vysvětlit chování závisle proměnné. 2 Vyhnout se zahrnutí irelevantních proměnných, které snižují statistickou významnost ostatních vysvětlujících proměnných. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 53 / 67 Model vícenásobné regrese Specifické problémy vícenásobné regrese Zkreslení při opomenutí důležité vysvětlující proměnné Omitted (missing) variable bias. Problém hodný pozornosti z důvodů vysoce pravděpodobného zkreslení odhadů parametrů modelu. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 54 / 67 Model vícenásobné regrese Specifické problémy vícenásobné regrese Příklad zkreslení při opomenutí důležité vysvětlující proměnné Původní model (sm. odchylky v závorkách): Y = −4009.55 (−1.11) + 5.43 (14.70) X1 + 2824.61 (2.33) X2 + 17105.17 (9.86) X3 + 7634.90 (7.57) X4. X1 = celková rozloha domu (ve čtverečních stopách), X2 = počet ložnic, X3 = počet koupelen, X4 = počet pater (kromě přízemí). Jednoduché regrese ceny domů (Y ) na počet ložnic (X): Y = 28773.43 + 13269.98X. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 55 / 67 Model vícenásobné regrese Specifické problémy vícenásobné regrese Praktický postup V praxi nemožné zahrnout všechny vlivy (vždy existuje zkreslení při nezahrnutí důležité vysvětlující proměnné) – víra v to, že mají minimální vysvětlující sílu a nejsou korelovány se zahrnutými proměnnými. Začít s co možná největším počtem vysvětlujících proměnných, odstranit statisticky nevýznamné a zkoušet různé varianty modelu. Výsledná regrese – jen statisticky významné proměnné (s výjimkou úrovňové konstanty), případně proměnné u kterých zkoumáme statisticky významný vliv. Kvalita různě specifikovaných modelů – např. dle koeficientu determinace (nemusí být jediným kritériem!). Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 56 / 67 Model vícenásobné regrese Specifické problémy vícenásobné regrese Multikolinearita Problém silné nebo úplné vzájemné korelace dvou nebo více vysvětlujících proměnných. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 57 / 67 Model vícenásobné regrese Specifické problémy vícenásobné regrese Multikolinearita – důsledky Přibližná multikolinearita – vysoké směrodatné odchylky odhadu parametrů (koeficient determinace vysoký × všechny parametry statisticky nevýznamné). Dokonalá multikolinearita – nemožnost odhadu (intuitivně z interpretace regresního koeficientu, tj. jak se změní vysvětlovaná proměnná, pokud se změní vysvětlující proměnná o jednotku, při neměnnosti ostatních vysvětlujících proměnných × nemůže nastat při dokonalé korelaci!). Obvyklé řešení – vypuštění proměnné způsobující multikolinearitu. Jedna z možností „testování“ – korelační matice. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 58 / 67 Umělé proměnné Obsah tématu 1 Regrese Úvod do regrese Příklady 2 Jednoduchý regresní model Příklady a základní pojmy Odhady parametrů modelu Statistické aspekty 3 Model vícenásobné regrese Odhad a interpretace Specifické problémy vícenásobné regrese 4 Umělé proměnné Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 59 / 67 Umělé proměnné Práce s umělými proměnnými Způsob převodu kvalitativní vysvětlující proměnné (pohlaví, členství v odborech) do podoby kvantitativní vysvětlující proměnné (1 nebo 0). Interpretace jako v případě „normálních“ proměnných. Porovnávání se základní skupinou (kategorií) ⇒ potřeba uvědomit si, která to je. Rozdělení pozorování do jednotlivých kategorií (pozor na multikolinearitu). Možnost různých sklonů regresních přímek pro různé kategorie pozorování – nová veličina jako součin umělé a další „normální“ vysvětlující proměnné. Umělé závisle proměnné = jiný typ modelů a odhadových technik (logit, probit)! Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 60 / 67 Umělé proměnné Hodinová mzda vzhledem k rodinnému stavu a regionu (odhad) Vzorek 528 osob z května 1985, příklad z Gujarati, Porter (2009), odhad modelu (R2 = 0.0322): Yi = 8.8148 + 1.0997 D2i - 1.6729 D3i sm. odch. (0.4015) (0.4642) (0.4854) t-stat (21.9528) (2.3688) (-3.4462) p-value (0.0000) (0.0182) (0.0006) Y = hodinová mzda (v dolarech). D2 = rodinný status, (1 = ženatý/vdaná, 0=jiný). D3 = místo rezidence, (1 = Jih, 0=jinak). Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 61 / 67 Umělé proměnné Hodinová mzda vzhledem k rodinnému stavu a regionu (interpretace) Dvě kvalitativní vysvětlující proměnné (každá dvě kategorie). Základní kategorie (srovnávací): neženatá (nevdaná) osoba, nesídlící na Jihu. Veškerá srovnání vzhledem k této základní kategorii (odhady statisticky významné × nízká hodnota R2): Průměrná (očekávaná) hodinová mzda základní kategorie = 8.81. Mzda ženatých: vyšší o 1.10 dolarů. Mzda Jižanů: nižší o 1.67 dolarů. V případě více kvalitativních proměnných nutné chápat výsledky vzhledem k základní kategorii! Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 62 / 67 Umělé proměnné Příklad – prodejní ceny domů Regrese cen domů, Y , na umělou proměnnou označující vybavení klimatizací, D, proměnnou udávající rozlohu domu, X ⇒ model Yi = α + β1Di + β2Xi + i . Odhady: α = 32693, β1 = 20175 a β2 = 5.638. Dvě různé regresní přímky (se stejným sklonem): Yi = α + β1 + β2Xi = 52868 + 5.638Xi , pro Di = 1 (dům s klimatizací) a Yi = α + β2Xi = 32693 + 5.638Xi , pro Di = 0 (dům bez klimatizace). Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 63 / 67 Umělé proměnné Odhad různých mezních efektů pro různé kategorie domů. Regrese cen domů, Y , na umělou proměnnou označující vybavení klimatizací, D, proměnnou udávající rozlohu domu, X, a novou proměnnou Z = DX ⇒ model Yi = α + β1Di + β2Xi + β3Zi + i . Odhady: α = 35684, β1 = 7613 a β2 = 5.02 a β3 = 2.25. Marginální vliv celkové rozlohy domu: 7.27 dolarů pro domy s klimatizací a 5.02 dolarů pro domy bez klimatizace. p-hodnota pro β3 = 0.02 (marginální vliv je statisticky významný). Růst rozlohy domu má tendenci více zhodnocovat dům vybavený klimatizací než dům bez klimatizace. β1 statisticky nevýznamný (p-hodnota 0.17) ⇒ není dodatečná „fixní prémie“ za klimatizaci. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 64 / 67 Umělé proměnné Mezní vliv při logaritmu vysvětlované proměnné. ln Y (logaritmus vysvětlované proměnné). Interpretace koeficientu umělé vysvětlující proměnné (násobeného 100) – procentní změna Y při neměnných ostatních proměnných. Pokud koeficient naznačuje velké procentní změny je dobré získat přesné vyjádření. β (koeficient umělé proměnné X), potom přesná predikovaná hodnota Y pro X = 1 oproti základní skupině X = 0 je 100 · [exp(β) − 1]. Pozor na znaménka parametrů (chápání základní skupiny). Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 65 / 67 Umělé proměnné Vliv počítačů na mzdy (model) Efekt využití počítačů na mzdy. Krueger, A. B. (1993): „How Computers Have Changed the Wage Structure: Evidence from Microdata, 1984–1989,“ Quarterly Journal of Economics 108, 33–60. compwork = 1 pokud využívá osoba počítač v práci (0 jinak) a comphome = 1 pokud osoba používá počítač doma (0 jinak). Standardní zahrnutí dalších faktorů (other factors): vzdělání, zkušenosti, pohlaví apod. Krueger neukazuje odhad úrovňové konstanty (nemá vliv na interpretaci výsledků) ⇒ základní skupina lidé nepoužívající počítač doma ani v práci. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 66 / 67 Umělé proměnné Vliv počítačů na mzdy (odhad a interpretace) Odhad na vzorku 13 379 osob z roku 1989 (Current Population Survey), v závorce sm. odchylky odhadu parametrů: ln(wage) = α + .177 (0.009) compwork + .070 (.019) comphome + .017 (.023) compwork · comphome + other factors. Zisk z využití počítače v práci (ne doma) = 17.7 % (přesnější odhad 19.4 %). Lidé využívající počítač jen doma = mzdová prémie 7 % oproti základní skupině. Rozdíl mezd pracovníků nevyužívajících počítač 26.4 % (přesněji 30.2 %) × člen interakce statisticky (i ekonomicky) nevýznamný ⇒ není zde synergický efekt. Základy ekonometrie (ZAEK) II. Netechnický úvod do regrese Podzim 2015 67 / 67