Link: OLE-Object-Data

   Heteroskedasticita


 Problém heteroskedasticity se vztahuje k nestejné velikosti diagonálních prvků kovarianční matice
   vektoru náhodných složek  jednorovnicového ekonometrického modelu.  Matice  je v tomto případě
 diagonální, avšak její diagonální prvky (rozptyly náhodných složek v jednotlivých obdobích) nemají
   stejnou velikost, nelze tedy psát , což by odpovídalo homoskedasticitě  lineárního regresního
                                              modelu.


      Negativní důsledky heteroskedasticity

   
   V důsledku toho, že rozptyly náhodných složek nejsou stejně velké, nemá v této podobě
   zobecněného lineárního regresního modelu metoda OLS optimální vlastnosti -- přesněji
   neposkytuje vydatné odhady, byť tyto zůstávají nestranné. Abychom získali vydatné odhady, je
   nutno použít váženou metodu nejmenších čtverců  WLS, což je speciální (jednodušší) případ
   zobecněné metody nejmenších čtverců GLS.

   
   Nejčastější příčiny heteroskedasticity

   
   1)         Chybná specifikace modelu, kdy vynecháme některou podstatnou  

               vysvětlující proměnnou.

   2)         Kumulace chyb měření proměnných při rostoucí hodnotě vysvětlované   proměnné mající
   za následek zvětšování rozptylu náhodných složek (následně i  reziduí).

   3)         Značná rozdílnost velikosti dat v rámci jednoho náhodného výběru a odtud
   vyplývající závislost rozptylu vysvětlované proměnné (následně i rozptylu náhodných složek) na
   velikosti hodnot některé z vysvětlujících proměnných

   4)         Použití nikoliv původních pozorování, ale skupinových průměrů 

               spočtených z nějakým způsobem setříděných údajů.

   
   Ad 3)     Heteroskedasticitu lze zaznamenat častěji u modelů založených na průřezových datech
   než u modelů využívajících časových řad. U modelů časových řad jsou totiž zařazené proměnné
   (vysvětlované i vysvětlující) zpravidla hodnotami poměrně blízké, zatímco srovnáváme-li
   průřezová data  (např. firemní v rámci určitého odvětví) budou tato poznamenána (až řádově)
   rozdílnou intenzitou ekonomické činnosti podniku (počet zaměstnanců, objem tržeb, zásoby,
   hospodářský výsledek apod).

   
                                  Vážená metoda nejmenších čtverců

  Odhadová funkce pro vektor parametrů b je dána vztahem

   kde  jednotlivé prvky diagonální matice  jsou reciproké hodnoty původních rozptylů, tj. . 
   Metoda poskytuje (v modelu zatíženém pouze heteroskedasticitou) nestranné a vydatné odhady
   parametrů. V praktické situaci je ovšem nutno nahradit neznámé rozptyly  nějakými jejich
   (nestrannými) odhady .

  Pokud bychom (výjimečně) znali veličiny  , můžeme postupovat tak, že všechny proměnné modelu (tj.
  vysvětlovanou i k vysvětlujících) vydělíme směrodatnými odchylkami . Taková transformace
  modelových veličin  povede k možnosti uplatnění prosté metody OLS na takto transformovaný model,
  přičemž se zachovají všechny příznivé statistické vlastnosti této metody. Pracujeme tedy
  s veličinami:

             ,            , přičemž 

Postupy navržené k indikaci  heteroskedasticity v modelu

   V předchozích desetiletích bylo vyvinuto několik testů, které umožňují indikovat
   heteroskedasticitu, případně odhadnout míru jejího vlivu. V prvních dvou testech se
   předpokládá, že

   a)         Kolísání náhodné složky je spojeno s proměnlivostí určité vysvětlující

               proměnné (a následně též s variabilitou vysvětlované proměnné) .

   b)         Náhodné složky mají normální rozdělení, aby bylo možno formulovat

               příslušné statistické testy.

   
   V některých níže uvedených testovacích prostupech (jmenovitě u Goldfeld-Quandtova a
   Glejserova) se objevuje úvaha spočívající v tom, že variabilita náhodných složek je v nějaké
   formě "spřažena" s proměnlivostí hodnot některé z vysvětlujících proměnných. I když chování
   obou by -- striktně vzato při správné specifikaci modelu -- nemělo být nijak související, často
   se taková vázanost skutečně projevuje.

   Příklad:

   Představme si prostorový statistický vzorek, jehož prvky tvoří soubor firem určitého
   ekonomického odvětví (např. stavebnictví) a v němž jsou zastoupeny jak drobné firmy (s
   desítkami) , tak mamutí firmy ( s tísícovkami) zaměstnanců. Vezměme za vysvětlovanou proměnnou
   veličinu hospodářský výsledek (zisk, případně ztrátu -- bráno před zdaněním). Tato závisle
   proměnná může být vysvětlována řadou "interních" (počet zaměstnanců, rozsah kapitálu: strojní
   vybavení: jeřáby, bagry, dopravní prostředky, zásoby, apod.) indikátorů, jakož i některých
   "externích" (bankovní úvěry, pracovníci subdodavatelů) indikátorů . Je očekávatelné, že
   variabilita zisku (či ztráty) bude souviset (a to i kauzálně) s některou z těchto
   vysvětlujících proměnných (např. počtem zaměstnanců)[1]. Přitom ani tak (z hlediska
   statistického) nerozhoduje, zda se u závisle proměnné pohybujeme v kladných či záporných
   hodnotách, důležitější je jejich absolutní velikost.[2]. V chování závisle proměnné se
   přirozeně musí projevit jak variabilita oné vysvětlující proměnné, tak variabilita náhodné
   složky.[3] Úvaha o souvislosti hodnot  , případně  vůči, řekněme veličině  je proto plně na
   místě.

   1) GOLDFELDův - QUANDTův test[4] 

   Předpoklady

   a)         Kolísání náhodné složky je spojeno s proměnlivostí jedné určité vysvětlující

               proměnné (které se promítá do variability vysvětlované proměnné)

   
   b)         Náhodné složky mají T-rozměrné normální rozdělení

   Předpoklad  Uživatel musí provést úvahu, která vysvětlující proměnná je nejtěsněji svázána
   s variabilitou náhodných složek.

   Provedení testu

   A)  Všech  pozorování se uspořádá podle velikosti domnělé vysvětlující proměnné .[5] Souběžně
   se ze vzorku vynechá určitý počet prostředních  pozorování[6], přičemž hodnota  se volí tak,
   aby počet  zbývajících aktivně uplatněných pozorování byl sudý. Formálně vyjádřeno

   ,

   B) Zbývající pozorování rozdělíme do dvou (stejně početných) skupin o  prvcích. První skupina
   obsahuje vzorek (níže značený ) s nízkými hodnotami proměnné , druhá skupina vzorek (níže
   značený ) vysokými hodnotami .  Schématicky vyjádřeno tedy:

                                                       , kde

   "ovlnkované" symboly u složek vektoru  a submatic matice  označují již datové struktury po
   provedení výše uvedeného přeskupení řádků.

           
   C)  Pro každou z obou skupin zvlášť odhadneme (prostou metodou nejmenších čtverců OLS) vektory
   parametrů  a následně spočteme příslušné vektory reziduí ,   jako ,  resp.  . Spočteme součet
   čtverců reziduí v první skupině (označíme ) i ve druhé  skupině (označíme ), tedy

                                                              
   D)  Ze získaných hodnot vytvoříme statistiku (při vzestupném uspořádání)

   Tato statistika má při splnění homoskedasticity  Fisher-Snedecorovo rozdělení  F o   a opět 
    stupni volnosti.^[7]

   
   Statistikou F lze testovat přítomnost, zčásti i stupeň heteroskedasticity: Pokud hodnota F
   (empirická) < F* (tabulková) akceptujeme nulovou hypotézu o homoskedasticitě (rozptyly ve
   skupinách se liší statisticky nevýznamně)

   
   Pokud naopak hodnota F (empirická) > F* (tabulková) , zamítáme nulovou

   hypotézu ve prospěch alternativní  a vyvodíme odtud, že v modelu je přítomná znatelná
   heteroskedasticita. Míru její síly rámcově posoudíme rozdílem F - F*.

   
   Poznámky a modifikace 

   Počet vynechávaných pozorování  ovlivňuje průkaznost (sílu) testu. Je-li  malé, pak rozdíly
   součtu čtverců reziduí mezi horní a dolní částí vzorku nemusí být výrazné a test k indikaci
   heteroskedasticity nepovede. Naopak, je-li  velké , je rozdíl průkaznější, ale počet stupňů
   volnosti může být (při malém ) nízký a síla testu bude slabá. Proto se pro empirické úlohy
   běžného rozsahu (= 30 až 60) doporučuje jako  vzít něco mezi /4 a /8 (např. /6).

   2)  GLEJSERův test[8]

   
   Předpoklady

   Kolísání náhodné složky je spojeno s proměnlivostí určité vysvětlující

               proměnné (a následně též s variabilitou vysvětlované proměnné

   Motivace testu

   Sílu regresní závislosti mezi absolutními hodnotami reziduí a potenciální vlivovou proměnnou
   ověříme pomocí t-statistiky v jednoduché regresi mezi vektorem absolutizovaných reziduí  a
   touto proměnnou.

   Provedení testu

  A)  Formulujeme výchozí regresní závislost mezi vysvětlovanou proměnnou a maticí vysvětlujících
  proměnných

   
  B)  Určíme odhad parametrů  a následně vektor reziduí

  C)  Formulujeme variantně regresní vztahy mezi vektorem absolutních hodnot reziduí a vektorem
  předpokládané ovlivňující vysvětlující proměnné   Regresní závislosti mohu být např. těchto typů

   1)                    

   2)                     

   3)                    

   4)                    

  D) Spočtou se hodnoty regresních koeficientů v těchto regresích  a zejména hodnoty t-statistik
  příslušných těmto parametrům . Pokud je některá z hodnot  statisticky významná, pak je to indikací
  příslušné (lineární nebo nelineární) korelovanosti vektoru absolutních hodnot reziduí s veličinou
  . Nastane-li to u více formulovaných závislostí, pak vybereme tu závislost, kde jsou regresní
  parametry  "nejvíce" statisticky významné. Ta pak dává podnět pro konkrétní podobu transformace
  modelových veličin.

   Poznámky a modifikace

   a)         Podle toho, zda jsou statisticky významné oba regresní koeficienty  nebo jen jeden
   , rozlišujeme heteroskedasticitu smíšenou nebo čistou.

  b)         Glejserův test má zpravidla vyšší sílu ve srovnání s testem Goldfelda a Quandta.

   
   3. SPEARMANův korelační koeficient (pořadové korelace)[9]

   
   Předpoklady

   a)         Kolísání náhodné složky je spojeno s proměnlivostí určité vysvětlující

               proměnné (a následně též s variabilitou vysvětlované proměnné

   
   b)         Náhodné složky mají T-rozměrné normální rozdělení

   
   Motivace testu

   předpoklad a)       uživatel by měl rozhodnout o tom, která proměnná je nejvíce svázána
   s variabilitou náhodných složek.

   
   Provedení testu

   A)  Seřadíme hodnoty domněle ovlivňující nezávisle proměnné  podle     velikosti (zpravidla od
   nejmenší po největší). Podle tohoto seřazení přeskupíme  též hodnoty pozorování  ostatních  
   vysvětlujících veličin (permutacemi řádků matice) a též hodnoty vysvětlované proměnné ve 
   vektoru .

   B)  Formulujeme regresní závislost  na (přeskupené) vysvětlující proměnné :

   
   a určíme (stejně  jako  v Goldfeld-Quandtově testu bez ohledu na znaménka)  rezidua .

    C)    Vypočteme Spearmanův koeficient pořadové korelace podle vzorce

                                                                  
   kde  jsou diference  v pořadích odpovídajících si (tj. ke stejnému řádku matice  patřících)
   dvojic  a  *

   Hodnoty Spearmanova korelačního koeficientu mají obdobnou interpretaci jako u klasického
   párového korelačního  koeficientu. Hodnoty blízké 0 naznačují nekorelovanost, hodnoty blízké
   krajním bodům intervalu přípustných hodnot   pak udávají silnou zápornou, resp. kladnou
   korelovanost. V tomto druhém případě je patrné, že v modelu je přítomná zřetelná
   heteroskedasticita. U veličiny  lze testovat, zda je hodnota  v základním souboru rovna nule.

   Test významnosti veličiny  je založen na statistice

                                                        
   kde  je počet stupňů volnosti Studentova t-rozdělení, kterou statistika   má při nulové
   hypotéze  , která odpovídá absenci heteroskedasticity.

   
   Poznámka   Často se v praxi zkusmo pro potlačení heteroskedasticity používá logaritmická
   transformace dat (ať už "mírnější" s přirozeným nebo "ostřejší" s dekadickým logaritmem.
   Stejnou úlohu může splnit také např. odmocninná transformace. Postup je obhajitelný, pokud to
   není v rozporu s poznatky ekonomické teorie charakterizujícími povahu závislostí veličin
   v uvažovaném regresním vztahu.

   
   4. WHITEův obecný test [1980][10]

   Abychom mohli formulovat příhodnější (obecněji uplatnitelné testy) testy, je nezbytné
   specifikovat, přinejmenším v hrubé podobě, povahu heteroskedasticity.

   
   Nejlepší by bylo, pokud bychom mohli testovat obecnou hypotézu ve tvaru

   
                                                              pro všechna t               proti
   alternativě

                                                               aspoň pro jedno t

   Protože se však nacházíme v modelu, který má  obecně různých parametrů (rozuměno ), je
   takovýto cíl obecně nedosažitelný.

   
   Nicméně , WHITE [1980] navrhl jisté řešení v podobě obecného testu.

   Jím navržený test je založen na skutečnosti, že OLS estimátor kovarianční matice   je
   v případě výskytu heteroskedasticity nekonzistentní.

   
   Nechť      je vektor OLS reziduí a nechť  OLS estimátor rozptylu je . Při existenci
   homoskedasticity budou estimátory

   
                                       a      

   
   konzistentními  estimátory téže kovarianční matice .

   
   Poznámka        Přesná kovarianční matice estimátoru OLS (prosté metody nejmenších čtverců) 
   v modelu zatíženého (jen) heteroskedasticitou,  má tvar


   přičemž jejíž (konzistentní) odhad lze pořídit pomocí výrazu představujícího tzv.

   WHITEův estimátor

   Konvenční (běžně užívaný) OLS-estimátor  (v tomtéž modelu) však má tvar

   
                                                                                            --- .

                                                                                                 
   Za přítomnosti heteroskedasticity budou mít oba tyto estimátory tendenci se rozcházet vždy,
   kromě jediné zvláštní situace, kdy by heteroskedasticita nebyla nijak závislá na obsahu matice
   (to je však dost neobvyklá situace). Druhý estimátor (OLS) dává totiž konzistentní odhad  jen
   tehdy, když  heteroskedasticita v modelu přítomna není(je-li přítomna, pak je nekonzistentní).

   
   Bude tedy možné založit test na rozdílu obou těchto odhadů kovarianční matice tím, že se bude
   testovat, zda je rozdíl mezi oběma estimátory statisticky významný.

   
   Konkrétní provedení testu

   Prostá operační verze je dána veličinou  , kde  je čtverec koeficientu mnohonásobné korelace
   určený v regresi vektoru  na všechny proměnné v matici ^[11].

   
   Zapíšeme-li matici  ( rozměrů  [k,k] ) strukturně, dostaneme:

   
   (Každý z "prvků" této matice je T-členný vektor).

   
   Matici vysvětlujících proměnných však předtím případně upravíme tak, že

   a)         vyškrtneme z ní všechny proměnné, které jsou redundantní (to jsou ty na
   "symetrických" pozicích)

   b)         zařadíme do ní jedničkový vektor , jestliže tam původně nebyl

   
   Regresní rovnice tedy vypadá takto:

   Z ní  spočteme koeficient determinace obvyklým způsobem:

   
   Za nulové hypotézy (což je však širší situace než heteroskedasticita) má statistika
    asymptoticky normální - rozdělení o tolika stupních volnosti, kolik je počet vysvětlujících
   proměnných v pomocné regresi (avšak po ubrání konstanty). 

   Pokud nejsou žádné redundance v  a   obsahuje konstantu, pak je počet stupňů volnosti  roven .

   Vlastnosti testu

   Whiteův test je mimořádně obecný. Abychom jej mohli provést, nepotřebujeme činit žádné
   speciální předpoklady o tvaru heteroskedasticity. Byť je toto zřejmě předností, je to
   potenciálně i úskalí.

   
   Test sice totiž může odkrýt heteroskedasticitu,  ale může také pouze odkrýt určitou
   specifikační chybu (např. vynechání vysvětlující veličiny  v běžné regresi. Může však také
   indikovat jiné chybné specifikace jako chybná specifikace funkce  nebo korelaci mezi  a
    přítomnou v modelu se stochastickými regresory.

   
   Sílu testu též nelze přesvědčivě vyhodnotit - vůči některým alternativám může být slabá.
   Slabinou je tedy nekonstruktivnost testu - zamítneme-li homoskedasticitu, nedávají výsledky
   testu návod, co učinit dále.

   
   Avšak, pokud je výzkumník dost sebejistý, že se v modelu tyto problémy nevyskytují, může být
   test dostatečně účinný pro detekci heteroskedasticity. Test je podobný jiným testům  jako
   LM-testu.

   
   Modifikace 

   Hsieh [1983] modifikoval tento test pro testy heteroskedasticity a "heterošpičatosti" a
   vyšetřoval jeho sílu při malých výběrech pomocí Monte Carlo experimentů.

   
   5. BREUSCH-PAGANův (též GODFREYho) TEST [1979][12]

   
   Goldfeld--Quandtův test lze pokládat za přiměřeně silný, pokud jsme schopni identifikovat
   proměnnou, podle které lze provést rozdělení datového vzorku (na ony dvě části, které pak
   slouží jako základ testu). Tento aspekt je však poněkud limitující. V některých situacích je
   totiž proměnlivost disturbancí vázána ke skupině více, nejen k jediné vysvětlující proměnné.

   Breusch a Pagan navrhli test založený na principu Lagrangeových multiplikátorů, který testuje
   hypotézu

                                                     ,

   kde  je vektor k-1 nezávisle proměnných (regresorů), .

   Model je zřejmě homoskedastický, jestliže platí  .

   Test lze provést jednoduchou regresí se statistikou Lagrangeových multiplikátorů^[13]

   . vysvětlený součet čtverců v regresi    na    .

   Provedení testu

   Pro výpočetní účely vezmeme  jako matici [T x k]  pozorování proměnných

   a  nechť   je (sloupcový) vektor hodnot ^[14]  . Testová  statistika má tvar

                                           
   Lze ukázat, že za platnosti nulové hypotézy (tj. při dodržení homoskedasticity), je veličina
   LM asymptoticky rozdělena jako  - rozdělení o  stupních volnosti.

   
   Poznámka          Bylo namítáno, že Breusch-Paganův test je příliš citlivý na dodržení
   předpokladu o normalitě náhodných složek

   
   6. KOENKER-BASSETův test

   Proto Koenker [1981][15]  a Koenker/Basset [1982][16] navrhli, aby výpočet veličiny  byl
   založen na robustnějším estimátoru  rozptylu  náhodných složek než je , jmenovitě na
   veličině[17]

                                               
   Není-li vektor náhodných složek  rozdělený normálně, nebude rozptyl  roven . Vezměme tedy
   vektor  a nechť  je Tx1 vektor jedniček. Označme. Po této změně bude výpočet  založen na
   statistice

                                    
   neboli

   
   Za předpokladu normality bude takto modifikovaná statistika mít totéž asymptotické rozdělení
   jako Breusch-Paganova statistika. Při absenci normality jsou náznaky toho, že tento bude test
   silnější. Waldman [1983] ukázal, že pokud naplníme všechny sloupce v matici  stejnými
   regresory jako v případě White-ova testu, budou oba testy obsahem výpočtu shodné.

   
   Jak je patrné, ani Whiteův, ani Breusch-Paganův ani Koenker-Bassetův test nevyžadují
   specifikaci proměnné, na níž domněle závisí variabilita náhodných složek. V tomto směru jsou
   zřetelně obecnější než testy Goldfeldův-Quandův a Glejserův.

   -------------------------------

   [1]   Je nepravděpodobné, že by velká firma měla výši hospodářského výsledku v desetitisících
   korun, resp.je nemožné, aby měla drobná firma zisk či ztrátu ve stamilionech korun.

   [2]   Je současně zřejmé, že těchto indikátorů může být i několik, často se vzájemnou
   závislostí.

   [3]  Na velikost variability náhodné složky usuzujeme přírozeně nepřímo,  z velikosti reziduí.

   [4]   Goldfeld,S., Quandt,R. : Nonlinear Methods in Econometrics. 1972.

   [5]   Znamená to, že přeskupíme příslušné řádky matice X a rovněž stejnolehlé prvky vektorů
   y   tak, aby v j*-tém sloupci

        matice X byly  hodnoty xj* uspořádány vzestupně. 

   [6]    Jde o řádky s pořadovými čísly (T-T[2])/2 +1 až  T-T[2] [ ].

   [7]  Odtud je vidět výhodnost volby stejného počtu pozorování pro horní a dolní část vzorku:
   F-statistika nabývá nejjednoduššího možného tvaru.

   [8]  Glejser, H.: A New test for Heteroscedasticity.

     Journal of the American Statistical Association 64/1969 s.316-323.

   [9] Spearman, Ch.

   [10]  White,H.: A Heteroscedasticity Consistent Covariance Matrix Estimator and a Direct Test
   for Heteroscedasticity. Econometrica  48/1980b, s. 817-838.

   [11]  Jde o Kroneckerův součin matic (zde v kontextu vektorů)          

   [12]  Breusch,T., Pagan A.: A simple test for Heteroscedasticity and Random Coefficient
   Variation.

      Econometrica   47/1979 s.1287-1294

   [13]  Breusch,T., Pagan A.: The LM Test and Its Applications to Model Specification in
   Econometrics.

      Review of Economic Studies   47/1980 s.239-254

   [14]  V podstatě  jde o čtverec konkrétního rezidua od  čtverce." průměrného rezidua".

   [15]   Koenker,R.: A Note on Studentizing a Test of Heteroscedasticity. Journal of
   Econometrics 17/1981 s. 107-112

   [16]   Koenker,R.Basset, G.: Robust Test for Heteroscedasticity Based on Regression Quantiles.
   Econometrica

        50/1982 s.43-61.

   [17]  Jde o (výběrovou) střední kvadratickou odchylku veličin   e [t]^2