Link: OLE-Object-Data Predikce v normálním lineárním regresním modelu Část 1 -- testy stability Opět přijímáme tyto vlastnosti o veličinách lineárního regresního (jednorovnicového) modelu : 1. Centrovanost náhodných složek 2. Diagonalita kovarianční matice náhod.složek: , tj. (diagonální nestochastická matice ), 2a) homoskedasticita náhodných složek 2b) neautokorelovanost náhodných složek 3. Nekorelovanost náhodných složek s nezávisle proměnnými 4. Plná hodnost matice vysvětlujících proměnných 5. Normalita T-rozměrného vektoru náhodných složek s nulovým vektorem středních hodnot a s diagonální kovarianční maticí , neboli << Výše uvedené předpoklady jsou nezbytné k tomu, abychom uchovali platnost všech dříve získaných poznatků o veličinách lineárního regresního modelu a vztazích mezi nimi, zejména o vývodech, které jsme uvedli ve větách 1 a 2 . Abychom mohli využít znalosti o chování vysvětlujících veličin modelu k predikcím vysvětlované proměnné, je třeba vždy : a) Ověřit, zda vlivy působení vysvětlujících proměnných na závisle proměnnou signalizované v pozorovaném období se přenášejí (stejným způsobem jako dosud) do budoucího (predikovaného) období. Jinými slovy to znamená posoudit, zda se podstatným způsobem nemění hodnoty modelových parametrů. b) Stanovit pro předpovědní období vývoj vysvětlujících veličin, tzn. určit pro každý sloupec matice X jeho "pokračování" pro období T+1,T+2, ...T+m. Predikované hodnoty vysvětlujících proměnných získáme pomocí odhadnutých regresních parametrů a předpovědí vysvětlujících veličin v budoucím období. c) Uvážit, zda v budoucím období nedojde ke změně specifikace modelu, tzn. zda na závisle proměnnou nebudou působit jiné vlivy než dosud (včetně dalších dosud neuvažovaných proměnných), popř. zda se vliv stávajících proměnných neprojeví jiným způsobem než dosud (např. v nelineárním tvaru působení). d) O náhodné složce předpokládáme, že se její vlastnosti v budoucím období (žádným zásadním způsobem) nezmění. Tzn. budeme předpokládat konstantnost rozptylu náhodných složek a jejich nekorelovanost s nezávisle proměnnými během celého predikovaného období. Poznámka 1 Ad a) Porušení podmínky a) znamená, že vliv působení vysvětlujících veličin na závisle proměnnou se podstatným způsobem mění a že znalost (jakkoliv dobře) odhadnutého vektoru b nemá pro předpovídání příliš velký význam. Ad b) Znalost predikcí vysvětlujících veličin je podstatná, neboť (při pevném vektoru parametrů b) na přesnostech těchto předpovědí závisí přesnost předpovědí závisle proměnné. Proto -- ve vztahu k podmínce b) -- usilujeme o co možná nejvěrohodnější předpovědi sloupců matice X : k jejich určení můžeme uplatnit několik způsobů : prostou trendovou extrapolaci, jiný regresní vztah, kde tato proměnná vystupuje jako vysvětlovaná nebo prostě uvážený expertní odhad vývoje. Ad c) Pokud v budoucím období začnou na vysvětlovanou proměnnou působit další vlivové faktory, které se neprojevily v pozorovaném období, znamená to, že dochází ke specifikační chybě, která má vliv na výsledné hodnoty predikcí (Obdobná, byť méně vážná situace, nastane, pokud některá z dosud uvažovaných veličin přestane působit vůbec nebo začne působit s jinou intenzitou vlivu.). Jestliže se změní původně lineární model směrem k nelineárním závislostem, jsou nám jen málo platné dosud získané informace o spočtených hodnotách regresních koeficientů. Ad d) Pokud by se chování náhodné složky významným způsobem změnilo (např. realizace náhodné složky by pocházely z jiného základního statistického rozdělení, než tomu bylo v minulosti) nemohli bychom uplatnit (aspoň ne přesně) např. konstrukce intervalů spolehlivosti. Pokud by došlo ke korelovanosti s některou z vysvětlujících proměnných v budoucnosti, došlo by opět ke zkreslení výsledných odhadů hodnot vysvětlované proměnné v důsledku dopadů na věrohodnost odhadů regresních parametrů, které k predikcím používáme. V podstatě všechny "pasivní" předpovědi chování závisle proměnné do budoucnosti ( tzn. predikce, které jsou založeny na nezměněných regresních koeficientech ) jsou PODMÍNĚNÝMI PŘEDPOVĚĎMI, které závisí na tom, jak dobře určíme hodnoty vysvětlujících veličin v předpovídaném období. Tento náhled na PODMÍNĚNOST PREDIKCÍ se nazývá podmínkou "CETERIS PARIBUS "( tzn. podmínkou o výpovědích učiněných "za jinak nezměněných okolností ") . Předpovědˇ EX ANTE je tedy vždy PODMÍNĚNOU předpovědí. Předpovědˇ EX POST může být výjimečně NEPODMÍNĚNOU předpovědí, pokud bychom s jistotou znali všechny budoucí hodnoty vysvětlujících proměnných. Poznámka 2 Pokud bychom tuto podmínku opustili ( mj. připustili proměnlivost vývoje modelových parametrů v čase), získali bychom sice obecnější a patrně i věrohodnější modelové zobrazení ekonomické reality, na druhé straně bychom však potřebovali podstatně bohatší informace o chování modelových proměnných a jejich očekávaných změnách, abychom mohli tento zvětšený počet parametrů modelu statisticky korektně odhadnout . Pro signalizaci intenzity změn modelových parametrů lze použít několik postupů. Nejčastější je tzv. postupná regrese (výstižnější by byl přívlastek "klouzavá"), kdy celé minulé pozorované období o délce "prokládáme" dílčími regresními vztahy, při kterých bereme "klouzavým způsobem" vždy období o délce . Přitom si všímáme změn modelových parametrů, které postupně získáváme při provádění těchto dílčích regresí. Test stability 1 Nyní formálně vyložíme postup, kterým je možno ověřit, zda jsou parametry [ ]vystupující v regresním modelu spočtené na základě dvou různě dlouhých časových vzorků v obdobích a [ ]v čase stabilní. V dalším přijmeme následující značení : Počet pozorovaní získaných v pozorovaném období ............. Počet pozorování rozšířeného datového vzorku .................... Počet vysvětlujících proměnných regresního vztahu ............. Počet vysvětlujících proměnných nezávisí na počtu pozorování, předpokládáme nicméně, že Na úlohu se můžeme dívat tak, jako bychom k původnímu vzorku o délce připojili dodatečných pozorování, o kterých předpokládáme, že pocházejí z téhož základního souboru: Jako označíme součet . Lineární regresní model nejprve vyjádříme zvlášť pro původní a rozšířený výběr pozorování. Nejdříve dostaneme pro původní model hodnot vyjádření (1A) se součtem čtverců reziduí Dále přejdeme k rozšířenému modelu zahrnujícímu T[1] + T[2] pozorování (1B) se součtem čtverců reziduí V modelu (1B) jsou vektor závisle proměnné, matice vysvětlujících proměnných a vektor náhodných složek sestaveny jako V původním i v rozšířeném vzorku samostatně odhadneme vektor parametrů . V (1A) půjde o odhad ve tvaru s reziduy V (1B) půjde o odhad ve tvaru s reziduy Přidržujeme se značení jako OLS-odhad , jako OLS-odhad . Připomeňme, že všechny vektory , , , mají shodnou délku . Pokud nedojde ke zřetelným rozdílům v získaných hodnotách , , lze soudit na stabilní regresní vztah, v němž přidáním dalších pozorování nedojde ke změně modelové struktury. Nulová hypotéza o shodě vektorů regresních koeficientů spočtených z původního i rozšířeného vzorku má tedy tvar: Test této hypotézy založíme, přirozeně, na rozdílu , resp. na porovnání součtu čtverců reziduí odvozených na základě odhadnutých vektorů , . Pro součty čtverců reziduí získané z původního a rozšířeného regresního modelu platí následující vztahy: (2A) , kde (2B) , kde Na základě dřívějších poznatků lze vyvodit, že kvadratické formy a mají :[ ] - rozdělení o stupních volnosti. :[ ] - rozdělení o [ ]stupních volnosti. Dimenze matice [ ]je [ ], dimenze matice je rovna . Matici [ ]"rozšíříme" na stejnou dimenzi jako má matice přidáním nulových prvků[1]. Takto vzniklou matici označíme . Matici současně rozdělíme na bloky synchronně s maticí : (3) přičemž jednotlivé bloky matice jsou obsazeny těmito maticovými útvary: Jak matice [ ]tak [ ]jsou idempotentní matice hodností resp. . Platí tedy (4) Dále lze snadno dokázat, že platí [2] a že matice je rovněž idempotentní. Proto (připomeňme, že hodnost idempotentní matice je rovna její stopě) platí . Obě kvadratické formy lze nyní vyjádřit ve stejných proměnných e (přirozeně však s různými maticemi -- byť stejných dimenzí - těchto forem): (5A) (5B) Obě tyto kvadratické formy mají - rozdělení: Kvadratická forma (5A) má - rozdělení o stupních volnosti. Kvadratická forma (5B) má - rozdělení o stupních volnosti. Rozdělení obou těchto kvadratických forem jsou v důsledku platnosti vztahu vzájemně nezávislá. Odtud plyne, že příslušná podílová testová statistika má Fisher-Snedecorovo rozdělení o a stupních volnosti. Uvedené zjištění lze nyní užít pro testování hypotézy, že regresní koeficienty jsou pro obě situace (původní i rozšířený výběr) shodné. Reziduální hodnoty, na jejichž základě konstruujeme testovou statistiku, jsou totiž určeny právě v závislosti na odhadnutých regresních koeficientech : - Pokud spočtená testová statistika překročí teoretickou kritickou hodnotu [ ]na zvolené hladině významnosti , mluví to v neprospěch totožnosti odhadnutých parametrů. - Pokud naopak spočtená statistika kritické hodnoty nedosáhne, lze s pravděpodobností usuzovat na shodu modelové podoby pro původní i rozšířený vzorek. Výše popsaný postup je dobrým indikátorem toho, zda si model ponechává i po rozšíření datového vzorku o dalších pozorování původní modelovou strukturu. Zřetelná rozdílnost v hodnotách parametrů , , kterou zaznamenáváme nepřímo právě přes různé chování reziduálních hodnot svědčí o znatelné změně modelové struktury po připojení dalších pozorování. Obdobný postup lze zobecnit také pro případ, že bychom pracovali s více než dvěma náhodnými výběry. Alternativní test stability 2 Tentokrát přistoupíme k testování na základě dvou nepřekrývajících se vzorků pozorování, jednoho o délce , druhého o délce . Regrese mají tvar (11A) pro se součtem čtverců reziduí , resp. (11B) pro se součtem čtverců reziduí Testovaná hypotéza nyní bude mít tvar přičemž pokud nebude tato hypotéza zamítnuta, bude to svědčit o statisticky nevýznamných rozdílech mezi oběma vektory. Testovací statistiku odvodíme následovně: sloučíme oba vzorky dohromady , přičemž model odhadneme jednou s ohledem na omezení (tj. ve znění hypotézy ) , podruhé bez něho. Z obou dílčích modelů vytvoříme jeden společný o pozorováních: (12) , kde [Vektor má délku , matice má rozměry , vektor délku , vektor má délku ] . Odhad vektoru pořízený obyčejnou metodou nejmenších čtverců na základě vzorku o rozsahu [ ]pozorování má tvar , kde s reziduy V (12) půjde o odhad ve tvaru s reziduy Za těchto okolností lze rozdělit celkový součet čtverců reziduí na dvě "disjunktní" části: [neomezený] SSE: Tento výraz (neomezený součet čtverců reziduí) má ^ - rozdělení s stupni volnosti. ( První skalární součin má , druhý stupňů volnosti ) . Dále se odhadne stejný model z téhož počtu pozorování pozorování, avšak při respektování omezení , kde vektor má k parametrů.[3] Příslušný (omezený) součet čtverců reziduí má pak tvar [omezený] SSE: Tento omezený SSE má tentokrát ^ - rozdělení (jen) s stupni volnosti. Počet stupňů volnosti je oproti předchozí situaci větší právě o oněch k omezujících podmínek tvaru [4] Do čitatele výrazu, který tvoří testovou statistiku, musíme nyní dosadit kvadratickou formu, která je nezávislá na [omezeném] SSE: Tuto podmínku splňuje kvadratická forma tvaru , která má --kvadrát-rozdělení o stupních volnosti ( má stupňů volnosti, [ ]má stupňů volnosti) Testovací statistiku získáme tedy jako podíl dvou -- rozdělení dělených příslušnými stupni volnosti: která má opět rozdělení s počtem stupňů volnosti . Síla tohoto testu je větší než předchozího testu, nutnou podmínkou je však, aby . Způsob posuzování testové statistiky je stejný jako u předchozího testu. ------------------------------- [1] Rozšíření je nutné, protože musíme dále porovnávat kvadratické formy, které mají shodné proměnné (prvky vektoru ,a tedy i délku vektoru těchto proměnných . [2] I odtud vyplývá nutnost rozšíření matice na matici. Jinak by násobení a odečtení nešlo provést. [3]/ Výpočet je ovšem nutno provést jiným způsobem než pomocí OLS , a to prostou metodou nejmenších čtverců s dodatečnou informací OLS-AI . Stručný výklad této metody uvedeme v samostatné části. [4] / Tento způsob testování s porovnáváním omezeného a neomezeného SSE je zpravidla spojen s testy založenými na tzv. věrohodnostním poměru ( likelihood ratio)