Link: OLE-Object-Data PROBLÉM NESPRÁVNÉ SPECIFIKACE MODELU Chyby pramenící z nesprávné specifikace modelu (chápané v širokém smyslu slova) mohou mít několik příčin. Nejčastější z nich jsou: A -- nesprávný výběr proměnných zařazených do modelu A1 -- zařazení nepatřičné ( irelevantní, nedůležité ) vysvětlující proměnné A2 -- vynechání patřičné (relevantní, důležité) vysvětlující proměnné B -- nesprávná volba analytického funkčního tvaru: B1 -- v modelu uvažovaný lineární vztah je ve skutečnosti nelineární B2 -- nelinearita má ve skutečnosti jiný tvar než předpokládaný modelem C -- chybný předpoklad o vlastnostech náhodné složky regresní rovnice C1 -- aditivní vs. multiplikativní připojení s vysvětlujícím proměnným C2-- heteroskedasticita, autokorelovanost náhodných složek v realitě, zatímco model uvažuje splnění klasických předpokladů (stejný rozptyl, nezávislost) 1. OBECNÁ FORMULACE Uvažujeme jednorovnicový model v obvyklém maticovém zápisu (1) s obvyklými vlastnostmi LRM. Místo něho však formulujeme (naneštěstí) model v chybné specifikaci (ten bude mít mezi regresory obsaženými v matici jiné proměnné než v matici .[1] Bude to model tvaru (2) . Odhadem parametrů (metodou OLS) bude vektor (chybně) odhadnutých parametrů roven (3) neboli po dosazení za z (1) (3A) . Pro střední hodnotu tohoto vektoru parametrů platí , kde maticí je násoben vektor správných koeficientů , leč Můžeme ji interpretovat jako matici v pomocné regresi správně specifikovaných regresorů na chybně specifikované regresory v modelu (2) V dalším zvlášť pojednáme o situaci, kdy je matice částí matice (tzn. dochází k vynechání jedné nebo více proměnných, které v modelu mají být jako vysvětlující přítomny) a zvlášť o situaci, je matice částí matice(tzn. jde o případ, kdy jsou do modelu zařazeny nadbytečné vysvětlující proměnné) 2. VYNECHÁNÍ RELEVANTNÍCH PROMĚNNÝCH konkrétně (pro 2 vysvětlující proměnné: Předpokládejme, že místo správně specifikovaného modelu (4) uvažujeme a následně odhadujeme nepřesný model (s vynecháním proměnné) : (5) Důsledky vynechání proměnné jsou tyto: 1. Pokud je vynechaná proměnná korelovaná se zařazenou proměnnou , tj , pak budou odhady jak vychýlené[2], tak nekonzistentní, tzn. že platí jak , tak také . Míra nekonzistence nekonverguje k 0, i když rozsah vzorku . 2. I pokud jsou proměnné a nekorelované, tzn. Při , bude stále vychýlený, i když je nyní nestranný. 3. Reziduální rozptyl je odhadnut nepřesně. 4. Obvykle užívané vyjádření pro rozptyl parametru () je vychýleným estimátorem rozptylu správného estimátoru . 5. Jako důsledek předchozího: procedury testování hypotéz a konstrukce intervalů spolehlivosti budou velmi pravděpodobně poskytovat scestné závěry, pokud jde o statistickou významnost odhadovaných parametrů: Lze ukázat, že , kde je koeficient sklonu v regresi vyloučené proměnné na zařazenou proměnnou: . Jestliže je a (pozitivní korelovanost s ), pak odhad bude nadhodnocovat skutečnou hodnotu parametru Obecně (pro k vysvětlujících proměnných): Rozdělíme model na dvě skupiny vysvětlujících proměnných , s celkovým jejich počtem kde v sloupcích submatice jsou patřičné proměnné, zatímco matice obsahuje nepatřičných proměnných. V souladu s tím rozdělíme vektor parametrů na první subvektor o délce a druhý subvektor o délce. Máme tedy přesně specifikovaný model (6) a oproti němu model s nesprávnou specifikací (7) Odhadovou funkcí OLS pro chybně specifikovaný model (7) lze psát jako: takže , kde je matice regresních koeficientů z pomocné regrese proměnných na okruh proměnných v . Velikost vychýlení je zde (8) Odtud plyne, že vychýlení způsobené nezahrnutím některých důležitých vysvětlujících proměnných, je úměrné velikosti vektoru parametrů u vynechaných proměnných a stupni korelace mezi zahrnutými (v ) a nezahrnutými (v ) vysvětlujícími proměnnými. Vychýlení bude konvergovat k 0 jen tehdy, pokud bude platit pro . 3. ZAŘAZENÍ IRELEVANTNÍCH PROMĚNNÝCH konkrétně (pro 2 vysvětlující proměnné: Zde budeme naopak předpokládat, že správná podoba modelu je (9) zatímco my se pokoušíme kvantifikovat nepřesně specifikovaný model (10) Odhady parametrů nepřesně specifikovaného modelu označme jako obvykle . Důsledky zařazení nadbytečné proměnné jsou tyto: 1. Odhady parametrů (pořízené metodou OLS) chybně specifikovaného modelu jsou všechny nestranné a konzistentní. Pokud je vynechaná proměnná korelovaná se zařazenou proměnnou , bude platit , resp. též . 2. Reziduální rozptyl je odhadnut přesně. 3. Konvenční postupy testování hypotéz a konstrukce intervalů spolehlivosti si zachovávají platnost. 4. Odhady parametrů budou zpravidla méně vydatné, tzn. jejich rozptyly budou obecně větší než u srovnatelných odhadů správně specifikovaného modelu. Srovnejme např. a tedy Zařazení nadbytečné proměnné tedy vykazuje znatelně méně slabin než vynechání důležité proměnné. Při větším počtu nadbytečných proměnných však mohou vzniknout problémy s multikolinearitou a ztrátou stupňů volnosti. Obecně (pro k vysvětlujících proměnných): Opět rozdělíme model na dvě skupiny vysvětlujících proměnných , kde celkový počet vysvětlujících proměnných kde v sloupcích submatice jsou řádně zařazené (patřičné) proměnné, zatímco matice obsahuje (omylem doplněných) nepatřičných proměnných. V souladu s tím rozdělíme opět parametrický vektor , kde subvektor má délku , subvektor délku . Máme tedy přesně specifikovaný model (11) a oproti němu model s nesprávnou specifikací (rozšířenou o .nepatřičných proměnných) (12 ) , jinak souhrnně (12A) Odhadovou funkcí OLS aplikovanou na chybně specifikovaný model (12) lze nyní psát jako (13) Porovnejme nyní tu část vektoru , která je společná s prvním modelem (11): K vektoru parametrů se váže jen "horní" část (13) , kde můžeme psát a tedy . Podobně máme pro "dolní úsek": a následně . Dále máme Odtud vyplývá, že A) Odhad vektoru patřičných parametrů je nestranný. B) Střední hodnota odhadu vektoru nepatřičných parametrů je nulový vektor (to je příznivý výsledek, protože k parametrům příslušné proměnné nemají v modelu co dělat). Dále platí, že: - odhadová funkce rozptylu náhodných složek je nestranná - zvětšují se výběrové rozptyly odhadnutých parametrů patřičných nezávisle proměnných.(může to ovlivnit výsledky testování), zhoršuje se tím vydatnost odhadů - přítomnost nepatřičných proměnných zvyšuje riziko multikolinearity (a snižuje se počet stupňů volnosti) ------------------------------- [1] Přirozeně, některé proměnné obsažené ve sloupcích obou matic mohou být (a zopravidla budou) společné. [2] Tedy ne nestranné.