Link: OLE-Object-Data

   Predikce v normálním lineárním regresním modelu

   Část 1 – testy stability

   

   Opět přijímáme tyto vlastnosti o veličinách lineárního regresního (jednorovnicového) modelu :

   

   1.      Centrovanost náhodných složek                                                

   2.         Diagonalita kovarianční matice  náhod.složek:  , tj.

                                                                                    (diagonální
   nestochastická  matice ),

        2a) homoskedasticita náhodných složek          

        2b) neautokorelovanost náhodných složek

   3.      Nekorelovanost náhodných složek s nezávisle proměnnými      

   4.      Plná hodnost matice vysvětlujících proměnných                         

        5.  Normalita T-rozměrného vektoru náhodných složek  s nulovým vektorem         

              středních  hodnot a s diagonální kovarianční maticí

                                        ,       neboli        »

   Výše uvedené předpoklady jsou nezbytné k tomu, abychom uchovali  platnost všech dříve
   získaných poznatků o veličinách lineárního regresního modelu a vztazích mezi nimi, zejména o
   vývodech, které jsme uvedli ve větách 1 a 2 .

   

   Abychom mohli využít znalosti o chování vysvětlujících veličin modelu k  predikcím
   vysvětlované proměnné, je třeba vždy :

   a)     Ověřit, zda vlivy působení vysvětlujících proměnných na závisle proměnnou signalizované
   v pozorovaném období se přenášejí (stejným způsobem jako dosud) do budoucího (predikovaného)
   období. Jinými slovy to znamená posoudit, zda se podstatným způsobem nemění hodnoty modelových
   parametrů.

   b)     Stanovit pro předpovědní období vývoj vysvětlujících veličin, tzn. určit pro každý
   sloupec matice X jeho „pokračování“ pro období T+1,T+2, …T+m. Predikované hodnoty
   vysvětlujících proměnných získáme pomocí odhadnutých regresních parametrů a předpovědí
   vysvětlujících veličin v budoucím období.

   

   c)      Uvážit, zda v budoucím období nedojde ke změně specifikace modelu, tzn. zda na závisle
   proměnnou nebudou působit jiné vlivy než dosud (včetně dalších dosud neuvažovaných
   proměnných), popř. zda se vliv stávajících proměnných neprojeví jiným způsobem než dosud
   (např. v nelineárním tvaru působení).

   

   d)     O náhodné složce předpokládáme, že se její vlastnosti v budoucím období  (žádným
   zásadním způsobem) nezmění. Tzn. budeme předpokládat konstantnost rozptylu náhodných složek a
   jejich nekorelovanost s nezávisle proměnnými během  celého predikovaného období.

   

   

   Poznámka 1

   Ad a) Porušení podmínky a) znamená, že vliv působení vysvětlujících veličin na závisle
   proměnnou se podstatným způsobem mění a že znalost (jakkoliv dobře) odhadnutého vektoru b nemá
   pro předpovídání příliš velký význam.

   Ad b) Znalost predikcí vysvětlujících veličin je podstatná, neboť (při pevném vektoru
   parametrů b) na přesnostech těchto předpovědí závisí přesnost předpovědí závisle proměnné.
   Proto – ve vztahu k podmínce  b) – usilujeme o co možná nejvěrohodnější předpovědi sloupců
   matice X : k jejich určení můžeme uplatnit několik způsobů : prostou trendovou extrapolaci,
   jiný regresní vztah, kde tato proměnná vystupuje jako vysvětlovaná nebo prostě uvážený
   expertní odhad vývoje.

   Ad c)  Pokud v budoucím období začnou na vysvětlovanou proměnnou působit další vlivové
   faktory, které se neprojevily v pozorovaném období, znamená to, že dochází ke specifikační
   chybě, která má vliv na výsledné hodnoty predikcí (Obdobná, byť méně vážná situace, nastane,
   pokud některá z dosud uvažovaných veličin přestane působit vůbec nebo začne působit s jinou
   intenzitou vlivu.). Jestliže se změní původně lineární model směrem k nelineárním závislostem,
   jsou nám jen málo platné dosud získané informace o spočtených hodnotách regresních
   koeficientů.

   Ad d)  Pokud by se chování náhodné složky významným způsobem změnilo (např. realizace náhodné
   složky by pocházely z jiného základního statistického rozdělení, než tomu bylo v minulosti)
   nemohli bychom uplatnit (aspoň ne přesně) např. konstrukce intervalů spolehlivosti. Pokud by
   došlo ke korelovanosti s některou z vysvětlujících proměnných v budoucnosti, došlo by opět ke
   zkreslení výsledných odhadů hodnot vysvětlované proměnné v důsledku dopadů na věrohodnost
   odhadů regresních parametrů, které k predikcím používáme.

   

   V podstatě všechny „pasivní“ předpovědi chování závisle proměnné do budoucnosti ( tzn.
   predikce, které jsou založeny na nezměněných regresních koeficientech ) jsou PODMÍNĚNÝMI
   PŘEDPOVĚĎMI, které závisí na tom, jak dobře určíme hodnoty vysvětlujících veličin v 
   předpovídaném období. Tento náhled na PODMÍNĚNOST PREDIKCÍ se nazývá podmínkou „CETERIS
   PARIBUS “( tzn. podmínkou o výpovědích  učiněných „za jinak nezměněných okolností “) .

   

   Předpovědˇ EX  ANTE  je tedy vždy PODMÍNĚNOU předpovědí.

   

   Předpovědˇ EX  POST  může být výjimečně NEPODMÍNĚNOU předpovědí, pokud bychom s jistotou znali
   všechny budoucí hodnoty vysvětlujících proměnných.

   

   Poznámka 2 Pokud bychom tuto podmínku opustili ( mj. připustili proměnlivost vývoje modelových
   parametrů v čase), získali bychom sice obecnější a patrně i věrohodnější modelové zobrazení
   ekonomické reality, na druhé straně  bychom však potřebovali podstatně bohatší informace o
   chování modelových proměnných a jejich očekávaných změnách, abychom mohli tento zvětšený počet
   parametrů modelu statisticky korektně odhadnout .

   

   Pro signalizaci intenzity změn modelových parametrů lze použít několik postupů. Nejčastější je
   tzv. postupná regrese (výstižnější by byl přívlastek „klouzavá“), kdy celé minulé pozorované
   období o délce  „prokládáme“ dílčími regresními vztahy, při kterých bereme „klouzavým
   způsobem“  vždy období o délce . Přitom si všímáme změn modelových parametrů, které postupně
   získáváme při provádění těchto dílčích  regresí.

                                          Test stability 1

   Nyní formálně vyložíme postup, kterým je možno ověřit, zda jsou parametry  [ ]vystupující v
   regresním modelu spočtené na základě dvou různě dlouhých časových vzorků v obdobích  a
   [ ]v čase stabilní.

   V dalším přijmeme následující značení :

   

            Počet pozorovaní získaných v pozorovaném období  ….………

            Počet pozorování rozšířeného datového vzorku  ….…..………..

                          Počet vysvětlujících proměnných regresního vztahu  ….……… 

   

   Počet vysvětlujících proměnných  nezávisí na počtu pozorování, předpokládáme nicméně, že  

   Na úlohu se můžeme dívat tak, jako bychom k  původnímu vzorku o  délce  připojili dodatečných
    pozorování, o kterých předpokládáme, že pocházejí z téhož základního souboru:  Jako
     označíme součet  .

   Lineární regresní model nejprve vyjádříme zvlášť pro původní a rozšířený výběr pozorování. 
   Nejdříve dostaneme pro původní model  hodnot vyjádření

   

   (1A)                                                     

   se součtem čtverců  reziduí          

   

   Dále přejdeme k rozšířenému modelu zahrnujícímu T[1] + T[2]  pozorování

   (1B)                                                      

   se součtem čtverců  reziduí            

 V  modelu (1B) jsou vektor závisle proměnné, matice vysvětlujících proměnných a  vektor  náhodných
                                       složek sestaveny  jako

   

                      

   V původním i v rozšířeném vzorku samostatně odhadneme vektor parametrů .

                                  V (1A)  půjde o odhad ve tvaru 

                                           s reziduy             

                                  V (1B)  půjde o odhad ve tvaru 

                                              s reziduy               

Přidržujeme se značení  jako OLS-odhad ,  jako OLS-odhad . Připomeňme,  že všechny  vektory  ,  , ,
                                        mají shodnou délku .

   Pokud nedojde ke zřetelným rozdílům v získaných hodnotách , , lze soudit na stabilní regresní
   vztah, v němž přidáním dalších pozorování nedojde ke změně modelové struktury.

   Nulová hypotéza o shodě vektorů regresních koeficientů spočtených z původního i rozšířeného
   vzorku má tedy tvar:

                                                               

   Test této hypotézy založíme, přirozeně, na rozdílu , resp. na porovnání součtu čtverců reziduí
                           odvozených na základě odhadnutých vektorů ,  .

   Pro součty čtverců reziduí získané z původního a rozšířeného regresního modelu platí
   následující vztahy:

   (2A)                ,        kde       

   (2B)                ,                kde         

             Na základě dřívějších poznatků lze vyvodit, že kvadratické formy  a   mají

                                    :[       ]-   rozdělení  o    stupních volnosti.

                                    :[       ]- rozdělení  o  [   ]stupních volnosti.

   Dimenze matice [ ]je [ ], dimenze matice  je rovna . Matici [ ]“rozšíříme“ na stejnou dimenzi
   jako má matice  přidáním nulových prvků[1]. Takto vzniklou matici označíme . Matici  současně
   rozdělíme na bloky synchronně s maticí :

   (3)                                                 

   přičemž jednotlivé bloky matice   jsou obsazeny těmito maticovými útvary:

                                             

                                             

                                             

                                             

   Jak matice [ ]tak [ ]jsou idempotentní matice hodností  resp. . Platí tedy

   (4)                                                     

   Dále lze snadno dokázat, že platí

                                                           [2]

   a že matice   je rovněž idempotentní. Proto (připomeňme, že hodnost idempotentní matice je
   rovna její stopě) platí

                                                 .

   Obě kvadratické formy lze nyní vyjádřit ve stejných proměnných e (přirozeně však s různými
   maticemi – byť stejných dimenzí - těchto forem):

   (5A)                                    

   (5B)                                         

                           Obě tyto kvadratické formy mají  - rozdělení:

                    Kvadratická forma (5A) má - rozdělení o  stupních volnosti.

                  Kvadratická forma  (5B)  má - rozdělení o     stupních volnosti.

             Rozdělení obou těchto kvadratických forem jsou v důsledku platnosti vztahu

                                                         vzájemně nezávislá. 

                       Odtud plyne, že příslušná podílová testová statistika

                                

   má  Fisher-Snedecorovo   rozdělení o  a    stupních volnosti.

   Uvedené zjištění lze nyní užít pro testování hypotézy, že regresní koeficienty jsou pro obě
   situace (původní i rozšířený výběr) shodné. Reziduální hodnoty, na jejichž základě
   konstruujeme testovou statistiku, jsou totiž určeny právě v závislosti na odhadnutých
   regresních koeficientech :

   -         Pokud spočtená testová statistika překročí teoretickou kritickou hodnotu [ ]na
   zvolené hladině významnosti , mluví to v neprospěch totožnosti odhadnutých parametrů.

   -         Pokud naopak spočtená statistika kritické hodnoty  nedosáhne, lze s pravděpodobností
    usuzovat na shodu modelové podoby pro původní i rozšířený vzorek.

   

   Výše popsaný postup je dobrým indikátorem toho, zda si model ponechává i po rozšíření datového
   vzorku o dalších   pozorování původní modelovou strukturu.

   Zřetelná rozdílnost v hodnotách parametrů  , , kterou zaznamenáváme nepřímo právě přes různé
   chování reziduálních hodnot svědčí o znatelné změně modelové struktury  po připojení dalších 
     pozorování.

   Obdobný postup lze zobecnit také pro případ, že bychom pracovali s více než dvěma náhodnými
   výběry.



                                   Alternativní test stability 2

   

Tentokrát  přistoupíme k testování na základě dvou nepřekrývajících se vzorků pozorování, jednoho o
                          délce  ,  druhého o délce  . Regrese mají tvar 

   

   (11A)                                                                      pro  

    se součtem čtverců  reziduí         ,   resp.

   

    (11B)                                                                  pro  

   

       se součtem čtverců  reziduí        

   

                   Testovaná  hypotéza  nyní  bude  mít  tvar                   

 přičemž pokud nebude tato hypotéza zamítnuta, bude to svědčit o statisticky nevýznamných rozdílech
                                        mezi oběma vektory.

   

  Testovací statistiku odvodíme následovně: sloučíme oba vzorky dohromady , přičemž model odhadneme
  jednou s ohledem na omezení    (tj. ve znění hypotézy ) , podruhé  bez něho. Z obou dílčích modelů
  vytvoříme jeden společný o   pozorováních:

   (12)                                                ,

   

   kde                                          

           [Vektor  má délku , matice  má rozměry , vektor  délku , vektor  má délku  ] .

   

   Odhad vektoru  pořízený obyčejnou metodou nejmenších čtverců na základě vzorku o rozsahu 
   [ ]pozorování má tvar    , kde

                                   s   reziduy       

                                  V (12)  půjde o odhad ve tvaru 

                                       s   reziduy       

   Za těchto okolností lze rozdělit celkový součet čtverců reziduí na dvě „disjunktní“ části:

   [neomezený] SSE:                           

          

   Tento výraz (neomezený součet čtverců reziduí)  má ^ - rozdělení  s  stupni volnosti.  ( První
   skalární součin má  , druhý  stupňů volnosti ) .

   Dále se odhadne stejný model z téhož počtu pozorování  pozorování, avšak  při respektování
   omezení  ,  kde vektor  má k parametrů.[3] Příslušný (omezený) součet čtverců reziduí má pak
   tvar

   [omezený] SSE:                             

   Tento omezený SSE má tentokrát ^ - rozdělení  (jen) s   stupni volnosti. Počet stupňů volnosti
   je oproti předchozí situaci větší právě o oněch k omezujících podmínek tvaru     [4]

   Do  čitatele výrazu, který tvoří testovou statistiku, musíme nyní dosadit kvadratickou formu,
   která je nezávislá na  [omezeném] SSE: Tuto podmínku splňuje kvadratická  forma  tvaru

                                             ,  která  má  –kvadrát-rozdělení o

   stupních volnosti (  má  stupňů volnosti, [ ]má   stupňů volnosti)

   Testovací statistiku získáme tedy jako podíl dvou – rozdělení dělených příslušnými stupni
   volnosti:

                                     

   

   která má opět rozdělení s počtem stupňů volnosti . Síla tohoto testu je větší než předchozího
   testu, nutnou podmínkou je však, aby . Způsob posuzování testové statistiky je stejný jako u
   předchozího testu.

   -------------------------------

   [1] Rozšíření je nutné, protože musíme dále porovnávat kvadratické formy, které mají shodné
   proměnné (prvky vektoru ,a tedy i délku vektoru těchto proměnných .

   [2] I odtud  vyplývá nutnost rozšíření matice  na matici. Jinak by násobení a odečtení nešlo
   provést.

   [3]/  Výpočet je ovšem nutno provést jiným způsobem než pomocí OLS , a to prostou metodou
   nejmenších čtverců s dodatečnou informací OLS-AI . Stručný výklad této metody uvedeme
   v samostatné části.

   [4] / Tento způsob testování s porovnáváním omezeného a neomezeného SSE je zpravidla spojen
   s testy založenými na tzv. věrohodnostním poměru ( likelihood ratio)