Link: OLE-Object-Data

     Normální standardní lineární regresní model

   

   K  dříve vysloveným předpokladům o veličinách standardního lineárního regresního modelu
   připojíme další předpoklad :

   5. Normalita náhodných složek     

   T-rozměrný vektor náhodných složek  má T-rozměrné normální rozdělení s nulovým vektorem
   středních hodnot a s diagonální kovarianční maticí, tzn.

    ,     stručněji zapsáno      <<

   Jak známo, sdružená hustota T-rozměrného normovaného normálního rozdělení má v případě
   nezávislých náhodných veličin tvar:

    

   

   Věta 2  (pro standardní normální lineární regresní model)

   Za podmínek Věty 1 (Gauss-Markovovy)  a dále za dodatečného předpokladu o      T-rozměrném
   rozdělení vektoru  náhodných složek << lze ukázat, že :

   (2A)  Odhadová funkce    je také normálně rozdělena

   s vektorem středních hodnot (rovným skut. parametrům)  a s  kovarianční maticí  .

   (2B)  Náhodná veličina  resp. (jinak zapsaná jako    )  má -rozdělení o  stupních volnosti.
   Počet stupňů volnosti je určen rozdílem mezi počtem pozorování T a  počtem vysvětlujících
   proměnných k .

   

    (2C)  Náhodné veličiny    a   jsou vzájemně nezávislé.

   

   (2D)  Odhady vektoru parametrů b získané metodou nejmenších čtverců  a metodou maximální
   věrohodnosti  jsou identické, tj. platí  

   

   

   Výše uvedená tvrzení postupně dokážeme:

   Tvrzení (2A)   Odhadová funkce    je také normálně rozdělena

   s vektorem středních hodnot (rovným skut. parametrům)  a s  kovarianční maticí  .  

   

   Důkaz tvrzení (2A)    Odhadovou funkci  lze zřejmě vyjádřit ve tvaru

   

                 ,  kde

   

   na  pravé  straně je  nestochastické  povahy pouze vektor náhodných složek   . Odhadová
   funkce     je tedy lineární kombinací složek náhodného vektoru , přičemž tato lineární
   kombinace má nestochastické prvky (a navíc obsahuje nestochastický vektor). Jak známo ze
   statistické teorie, lineární kombinace složek náhodného vektoru s normálním rozdělením má též
   normální rozdělení. Zbývá určit střední hodnotu a kovarianční matici tohoto vektoru . Zřejmě
   platí :

   

   neboť dle předpokladu (a) .     Podobně

    

                                        .                  y.

   

   Poznámka  Kovarianční matice  není na rozdíl od kovarianční matice náhodných odchylek
   diagonální, složky vektoru   tedy zpravidla budou vzájemně zkorelovány.  Rozptyl každé této
   složky je dán součinem  a prvku ležícího  na j-tém místě hlavní diagonály matice  - tento
   prvek označíme v dalším textu jako   .

   Tvrzení (2B)  Náhodná veličina   resp. (jinak zapsaná jako   )  má -rozdělení o  stupních
   volnosti. Počet stupňů volnosti je dán rozdílem mezi počtem pozorování a počtem vysvětlujících
   proměnných.

   

   Důkaz tvrzení (2B)

   a)   Víme, že    představuje součet druhých mocnin T vzájemně nezávislých (tj. zde
   nekorelovaných a normálně rozdělených) náhodných veličin (jmenovitě náhodných složek regresní 
   rovnice) .

   b)   Dále víme, že analogický výraz   pro rezidua lze vyjádřit zápisem

   

   , kde , neboť ¨

   

   c)   Matice  je symetrická a  idempotentní, neboť pro ni platí

   

   Tedy   je kvadratická forma s hodnosti danou hodností matice . Hodnost idempotentní  matice je
   rovna její stopě. Stopa matice  je přitom rovna . Počet stupňů volnosti -rozdělení veličiny
   e´e je určen stopou matice M (je tedy roven T-k).  Podle Cochranovy věty má výraz 
     -rozdělení s tolika stupni volnosti, jaká je hodnost matice  v kvadratické formě . (
   Rozptylem  dělíme proto,  abychom získali součet T nezávislých náhodných veličin s rozdělením
   N(0,1) ).

   

   Zřejmě přitom platí

   .

   

   d)  Konečně je snadné ukázat, že platí

    =

   Výraz    představuje součet čtverců reziduí (též značen ) .  je nestranný odhad rozptylu
   náhodných složek,  jehož tvar je právě

    

                                                           =
                                                              y.

                                                                                                 

   Tvrzení (2C)   Náhodné veličiny    a   jsou  vzájemně nezávislé.

   

   Důkaz tvrzení (2C)  Součet čtverců náhodných odchylek   rozložíme následovně :

     

   

   Poznámka   Matice  i  jsou idempotentní, s hodnostmi   a  .

   -  kvadratická forma  Podle  Cochranovy věty   mají náhodné veličiny --  kvadratické formy ,
    obsahující matice   tato  rozdělení: 

    =  má rozdělení    o   stupních volnosti

   -  kvadratická forma   =   má rozdělení    o       stupních volnosti

   Obě tyto náhodné veličiny jsou vzájemně nezávislé, neboť platí  
   (  stochastická nezávislost je takto "posuzována" ortogonalitou matic   )   

   Dále,   výrazy       a      lze rozepsat následovně :

   

   ,  kde                 

   

   neboť       ,     tzn.      

   Dále, protože podle předpokladu je  (jako momentová matice) pozitivně definitní (a symetrická)
   matice, existuje regulární matice  rozměrů  taková, že platí  . Pak lze psát

   Odtud plyne, že vektor  a tedy též vektor  - protože matice  je nestochastická - nezávislý na
   skaláru  a  též na (o  totiž  předpokládáme, že je nestochastická matice) . 
                                                              y.

   Tvrzení (2D)  Odhady vektoru parametrů   pořízené metodou nejmenších čtverců a metodou
   maximální věrohodnosti jsou identické.

   Důkaz tvrzení (2D)   Již jsme ukázali, že odhad   pořízený metodou OLS má tvar  

                                              

   Zbývá tedy ukázat, že odhad pořízený metodou maximální věrohodnosti má stejný tvar. Při tomto
   ověření vyjdeme ze sdružené hustoty vektoru náhodných složek, která má tvar

             pro  <<

   

   Tato sdružená hustota je současně tzv. věrohodnostní funkcí, v jejímž zápisu se projevuje
   rozdíl v chápání pozic (odhadovaných) parametrů a pozorovaných veličin. Píšeme tedy

                                            

   Zápis sdružené hustoty  (kde se pozorované hodnoty  uvádí před středníkem, zatímco parametry
    za ním) pohlíží na tvar (zde normálního) rozdělení jako na rozdělení náhodného vektoru s 
   pevně danými (známými) určenými parametry  a .  Na hodnoty  zde pohlížíme, jakoby byly
   "generovány mechanismem" , který se řídí rozdělením náhodných složek  (při dané matici
   vysvětlujících proměnných ).

   V zápise věrohodnostní funkce  (kde oba tyto parametry uvádíme v zápise před středníkem) se
   naopak na hledané  parametry pohlíží jako na neznámé, které odhadujeme ze známých 
   pozorovaných veličin regresní rovnice (těmi jsou vektor   a matice  ) . 

   Věrohodnostní funkci, jejíž maximum hledáme, zapíšeme ve tvaru, do něhož zahrneme pozorované
   veličiny ( a  přirozeně  též vektor  a  skalár ) :

   

   Přímá maximalizace této (nelineární) věrohodnostní funkce je komplikovaná. Proto ji
   ekvivalentně maximalizujeme v logaritmovaném tvaru (logaritmus je spojitá rostoucí funkce,
   takže  poloha původního maxima -- ze statistického hlediska jde o modus -- se po této
   transformací nezmění):  

   

   Úkolem je maximalizovat  vzhledem k  a  . Rovnocenným cílem je minimalizace kladně vzatého
   výrazu   (neboť   )

   

    

   Při  této  minimalizaci  postupně dostáváme :

   (A1)     

   (B1)     

   Poznámka   Při derivování podle rozptylu    zacházíme s touto veličinou  jako s

   jediným (nedělitelným) symbolem

   Řešením vztahu (A1)  zřejmě dostaneme vektor odhadnutých parametrů ve tvaru

                                               

   Následně nyní dosazením tohoto odhadu za    do vztahu (B1)  obdržíme [1]

   (B1*)                       

   Po vynásobení dvojnásobkem rozptylu () dostaneme zjednodušení:

                ,  odkud plyne   a  následně    .

   Odhad reziduálního rozptylu získaný metodou maximální věrohodnosti má tedy  tvar

                                                          

   Poznámka  Všimněme si, že k odhadu koeficientů  jsme nepotřebovali operovat se , zatímco
   následný odhad  byl již vázán na předtím pořízený *odhad   (při  jinak odhadnutém  bychom
   mohli získat obecně jiný odhad pro ) .

   Měli bychom ještě ukázat, že získaný výraz pro  dává skutečně minimum (nikoliv maximum nebo
   sedlový bod). To dokážeme, pokud druhý diferenciál vztahu pro vede k matici, která je
   pozitivně definitní. Skutečně lze snadno ověřit, že 

   (B2)                                                      

   protože momentová matice  je sama (za přijatého předpokladu, že  má plnou hodnost )  vždy
   pozitivně definitní.                

   K získání Fisherovy informační matice (čtvercové symetrické matice řádu ) potřebujeme vypočíst
   derivace věrohodnostní funkce podle hledaných neznámých parametrů, tj. všech složek vektoru  a
   skaláru . Vyjdeme-li ze vztahů

   (A1)                        

                     

   (B1)                 

   určíme potřebné druhé parciální derivace pro dosazení do matice

   

   Výpočtem jednotlivých derivací dostáváme

   (A2)                                     

   (B2)       

   (AB2)              ( a pro kontrolu )

   (AB2)           

   Matice  tedy nabude tvaru

   Uplatněním střední hodnoty na   dostaneme

   protože  s ohledem na nestochastičnost  a centrovanost  a

     ,   protože 

   Všimněme si, že tato matice je -- s ohledem na pozitivní definitnost momentové matice  - rovněž
   pozitivně definitní. Tím jsme dokázali, že jde skutečně o minimum (námi záporně vzaté) resp.o
   maximum (původní) věrohodnostní funkce.

   Nyní se můžeme přesvědčit, zda jde skutečně o nejlepší odhady, což zjistíme vyčíslením
   Fisherovy informační matice, jež je inverzní k matici.

                                

    je užito z důvodu úsporného značení, v našem případě .

   Poznámka (a současně definice)

   Odhadová funkce   se nazývá MVB (minimum variance bound) estimátor, jestliže   je nestranná a
   jestliže její kovarianční matice má velikost danou jako

                           ,        kde  

   kde  je sdružená hustota (resp. věrohodnostní funkce) rozdělení náhodného vektoru sdružujícího
   (v našem případě) pozorované hodnoty [2]

   

   Odtud můžeme určit kovarianční matici odhadové funkce .

   Odtud je vidět, že dolní hranice velikosti asymptotické kovarianční matice vektoru
    libovolného estimátoru je dána výrazem

   To však přesně  odpovídá tvaru asymptotické kovarianční matice

   Současně je vidět, že dolní hranice pro rozptyl  (získaná libovolným estimátorem) je dána jako

   Poznámka  Mezi odhady reziduálního rozptylu pořízenými metodou nejmenších čtverců a metodou
   maximální věrohodnosti platí vztah :

   

                                                     

   

   Poznámka  Z předchozího je vidět, že odhad reziduálního rozptylu metodou maximální
   věrohodnosti není nestranný (zůstává však -- stejně jako odhad prostou metodou nemenších
   čtverců OLS -- konzistentní a asymptoticky nestranný )

   Obecněji, ne však zcela univerzálně lze říci, že zatímco OLS-metody inklinují z hlediska svých
   vlastností k nestranným odhadům (které jsou vydatné jen za velmi vzácných okolností) , pak
   ML-techniky poskytují odhady vydatné (obvykle na samé mezi možností daných Cramér-Raovou dolní
   hranicí), avšak nestrannost je vlastností, kterou od nich obvykle nelze očekávat. Ve
   vícerovnicových regresních  modelech ovšem ani simultánní OLS odhadové techniky neposkytují
   nestranné odhady (opět nepočítaje výjimky) , takže tam dvěma aspoň požadovanými statistickými
   vlastnostmi zůstává jen konzistence a asymptotická normalita).

   -------------------------------

   [1] Tvaru, kdy po určení některého parametru (zde  dosadíme získanou hodnotu do původní
   věrohodnostní

   funkce, abychom mohli určit další parametry (zde  se někdy říká koncentrovaná věrohodnostní
   funkce.

   [2]  V našem případě jde o k+1 složkový náhodný vektor.