Normální standardní lineární regresní model K dříve vysloveným předpokladům o veličinách standardního lineárního regresního modelu připojíme další předpoklad : 5. Normalita náhodných složek T-rozměrný vektor náhodných složek má T-rozměrné normální rozdělení s nulovým vektorem středních hodnot a s diagonální kovarianční maticí, tzn. , stručněji zapsáno » Jak známo, sdružená hustota T-rozměrného normovaného normálního rozdělení má v případě nezávislých náhodných veličin tvar: Věta 2 (pro standardní normální lineární regresní model) Za podmínek Věty 1 (Gauss-Markovovy) a dále za dodatečného předpokladu o T-rozměrném rozdělení vektoru náhodných složek » lze ukázat, že : (2A) Odhadová funkce je také normálně rozdělena s vektorem středních hodnot (rovným skut. parametrům) a s kovarianční maticí . (2B) Náhodná veličina resp. (jinak zapsaná jako ) má -rozdělení o stupních volnosti. Počet stupňů volnosti je určen rozdílem mezi počtem pozorování a počtem vysvětlujících proměnných . (2C) Náhodné veličiny a jsou vzájemně nezávislé. (2D) Odhady vektoru parametrů b získané metodou nejmenších čtverců a metodou maximální věrohodnosti jsou identické, tj. platí Výše uvedená tvrzení postupně dokážeme: Tvrzení (2A) Odhadová funkce je normálně rozdělena s vektorem středních hodnot (rovným skut. parametrům) a s kovarianční maticí . Důkaz tvrzení (2A) Odhadovou funkci lze zřejmě vyjádřit ve tvaru , kde na pravé straně je nestochastické povahy pouze vektor náhodných složek . Odhadová funkce je tedy lineární kombinací složek náhodného vektoru , přičemž tato lineární kombinace má nestochastické prvky (a je k ní přičten nestochastický vektor ). Jak známo ze statistické teorie, lineární kombinace složek náhodného vektoru se sdruženým normálním rozdělením má též sdružené normální rozdělení. Zbývá určit střední hodnotu a kovarianční matici tohoto vektoru. Zřejmě platí : neboť dle předpokladu (a) . Podobně . ÿ. Poznámka Kovarianční matice není na rozdíl od kovarianční matice náhodných odchylek diagonální, složky vektoru tedy zpravidla budou vzájemně zkorelovány. Rozptyl každé této složky je dán součinem a prvku ležícího na j-tém místě hlavní diagonály matice - tento prvek označíme v dalším textu jako . Tvrzení (2B) Náhodná veličina resp. (jinak zapsaná jako ) má -rozdělení o stupních volnosti. Počet stupňů volnosti je dán rozdílem mezi počtem pozorování a počtem vysvětlujících proměnných . Důkaz tvrzení (2B) a) Víme, že skalární součin představuje součet druhých mocnin vzájemně nezávislých (tj. zde nekorelovaných a normálně rozdělených) náhodných veličin (jmenovitě náhodných složek regresní rovnice). b) Dále víme, že analogický výraz pro rezidua lze vyjádřit zápisem , kde , neboť ¨ c) Matice je symetrická a idempotentní, neboť pro ni platí Tedy je kvadratická forma s hodnosti danou hodností matice . Hodnost idempotentní matice je rovna její stopě. Stopa matice je přitom rovna . Počet stupňů volnosti -rozdělení veličiny je určen velikostí stopy matice (je tedy roven ). Podle Cochranovy věty má výraz -rozdělení s tolika stupni volnosti, jaká je hodnost matice v kvadratické formě . (Poznámka: Rozptylem dělíme proto, abychom získali součet nezávislých náhodných veličin s rozdělením ). Samotné mají rozdělení . Zřejmě přitom platí . d) Konečně je snadné ukázat, že platí = Výraz představuje součet čtverců reziduí (obvykle značen ) . je tzv. reziduální rozptyl (mj. nestranný odhad rozptylu náhodných složek), jehož tvar je právě = ÿ. Tvrzení (2C) Náhodné veličiny a jsou vzájemně nezávislé[1]. Důkaz tvrzení (2C) Součet čtverců náhodných odchylek rozložíme následovně : Poznámka Matice i jsou idempotentní, s hodnostmi a . Podle Cochranovy věty mají náhodné veličiny – kvadratické formy obsahující matice i tato rozdělení: - kvadratická forma = má rozdělení o stupních volnosti - kvadratická forma = má rozdělení o stupních volnosti Obě tyto náhodné veličiny jsou vzájemně nezávislé, neboť platí . ( stochastická nezávislost je zde „posuzována“ algebraickou ortogonalitou matic ) Dále, výrazy a lze rozepsat následovně : , kde . neboť , tzn. Dále, protože podle předpokladu je (jako momentová matice) pozitivně definitní (a symetrická) matice, existuje regulární matice rozměrů taková, že platí . Proto lze psát Odtud plyne, že vektor a tedy též vektor - protože matice je nestochastická - nezávislý na skaláru a též na (je-li matice , jak se předpokládá, nestochastická, pak je rovněž nestochastická matice) . ÿ. Tvrzení (2D) Odhady vektoru parametrů pořízené metodou nejmenších čtverců a metodou maximální věrohodnosti jsou identické. Důkaz tvrzení (2D) Již jsme ukázali, že odhad pořízený metodou OLS má tvar Zbývá tedy ukázat, že odhad pořízený metodou maximální věrohodnosti má stejný tvar. Při tomto ověření vyjdeme ze sdružené hustoty vektoru náhodných složek, která má tvar pro » Tato sdružená hustota je současně tzv. věrohodnostní funkcí, v jejímž zápisu se projevuje rozdíl v chápání pozic (odhadovaných) parametrů a pozorovaných veličin. Píšeme tedy Zápis sdružené hustoty (kde se pozorované hodnoty uvádí před středníkem, zatímco parametry za ním) pohlíží na tvar (zde normálního) rozdělení jako na rozdělení náhodného vektoru s pevně danými (známými) určenými parametry a . Na hodnoty zde pohlížíme, jakoby byly „generovány mechanismem“, který se řídí rozdělením náhodných složek (při dané matici vysvětlujících proměnných ). V zápise věrohodnostní funkce (kde oba tyto parametry uvádíme v zápise před středníkem) se naopak na hledané parametry pohlíží jako na neznámé, které odhadujeme ze známých pozorovaných veličin regresní rovnice (těmi jsou vektor a matice ) . Věrohodnostní funkci, jejíž maximum hledáme, zapíšeme ve tvaru, do něhož zahrneme pozorované veličiny ( a přirozeně též vektor a skalár ) : Maximalizaci této (nelineární) věrohodnostní funkce si zjednodušíme tak, že budeme (ekvivalentně uvažovat maximalizaci jejího logaritmu). Tato cesta nevede k žádnému zkreslení původní úlohy: logaritmus je spojitá rostoucí funkce, takže poloha původního maxima – ze statistického hlediska jde o modus – se po této transformací nezmění): Úkolem je maximalizovat vzhledem k a . Rovnocenným cílem je ale minimalizace kladně vzatého výrazu (neboť ) Při této minimalizaci postupně dostáváme (položením parc. derivací rovných 0): (A1) (B1) Poznámka Při derivování podle rozptylu zacházíme s touto veličinou jako s jediným (nedělitelným) symbolem. Proto např. nikoliv Řešením vztahu (A1) zřejmě dostaneme vektor odhadnutých parametrů ve tvaru Následně nyní dosazením tohoto odhadu za do vztahu (B1) obdržíme [2] (B1*) Po vynásobení dvojnásobkem rozptylu ( ) dostaneme zjednodušení: , odkud plyne a následně . Odhad reziduálního rozptylu získaný metodou maximální věrohodnosti má tedy tvar Poznámka Všimněme si, že k odhadu koeficientů jsme nepotřebovali operovat se , zatímco následný odhad byl již vázán na předtím pořízený *odhad (při jinak odhadnutém bychom mohli získat obecně jiný odhad pro ) . Měli bychom ještě ukázat, že získaný výraz pro dává skutečně minimum (nikoliv maximum nebo sedlový bod). To dokážeme, pokud druhý diferenciál vztahu pro vede k matici, která je pozitivně definitní. Skutečně lze snadno ověřit, že (B2) protože momentová matice je sama (za přijatého předpokladu, že má plnou hodnost ) vždy pozitivně definitní. K získání Fisherovy informační matice (čtvercové symetrické matice řádu [3]) potřebujeme vypočíst derivace věrohodnostní funkce podle hledaných neznámých parametrů, tj. všech složek vektoru a skaláru . Vyjdeme-li ze vztahů (A1) (B1) určíme potřebné druhé parciální derivace pro dosazení do matice Výpočtem jednotlivých derivací dostáváme (A2) (B2) (AB2) ( a pro kontrolu ) (BA2) Matice tedy nabude tvaru Uplatněním střední hodnoty na matici dostaneme protože s ohledem na nestochastičnost a centrovanost a , protože Všimněme si, že tato matice je – s ohledem na pozitivní definitnost momentové matice - rovněž pozitivně definitní. Tím jsme dokázali, že jde skutečně o minimum (námi záporně vzaté) resp.o maximum (původní) věrohodnostní funkce. Nyní se můžeme přesvědčit, zda jde skutečně o nejlepší odhady, což zjistíme vyčíslením Fisherovy informační matice, jež je inverzní k matici . je užito z důvodu úsporného značení, v našem případě . Poznámka (a současně definice) Odhadová funkce se nazývá MVB [minimum variance bound] estimátor, jestliže je nestranná a jestliže její kovarianční matice má velikost danou jako , kde kde je sdružená hustota (resp. věrohodnostní funkce ) rozdělení náhodného vektoru sdružujícího (v našem případě) pozorované hodnoty [4] Odtud můžeme určit kovarianční matici odhadové funkce . Odtud je vidět, že dolní hranice velikosti asymptotické kovarianční matice vektoru libovolného estimátoru je dána výrazem To však přesně odpovídá tvaru asymptotické kovarianční matice Současně je vidět, že dolní hranice pro rozptyl (získaná libovolným estimátorem) je dána jako Poznámka Mezi odhady reziduálního rozptylu pořízenými metodou nejmenších čtverců a metodou maximální věrohodnosti platí vztah : Poznámka Z předchozího je vidět, že odhad reziduálního rozptylu metodou maximální věrohodnosti není nestranný (zůstává však – stejně jako odhad prostou metodou nemenších čtverců OLS – konzistentní a asymptoticky nestranný ) Obecněji, ne však zcela univerzálně lze říci, že zatímco OLS-metody inklinují z hlediska svých vlastností k nestranným odhadům (které jsou vydatné jen za velmi vzácných okolností), pak ML-techniky poskytují odhady vydatné (obvykle na samé mezi možností daných Cramér-Raovou dolní hranicí), avšak nestrannost je vlastností, kterou od nich obvykle nelze očekávat. Ve vícerovnicových regresních modelech ovšem ani simultánní OLS-odhadové techniky neposkytují nestranné odhady (opět nepočítaje výjimky), takže tam dvěma aspoň požadovanými statistickými vlastnostmi zůstává jen konzistence a asymptotická normalita). ________________________________ [1] Mějme na paměti, že je nestochastická veličina, zatímco je náhodná veličina. [2] Tvaru, kdy po určení některého parametru (zde dosadíme získanou hodnotu do původní věrohodnostní funkce, abychom mohli určit další parametry (zde se někdy říká koncentrovaná věrohodnostní funkce. [3] Matice má takový řád, kolik je neznámých modelových parametrů, těch je právě k+1: k prvků vektoru a jeden rozptyl . [4] V našem případě jde o k+1 složkový náhodný vektor.