M9750 Robustní a neparametrické statistické metody cvičení 7 - robustní odhady v lineárním regresním modelu 1. Uvažujte data heptathlon z knihovny HSAUR (proměnné hurdles a shot). (a) Pomoci klasické lineární regrese modelujte závislost výsledku vrhu koulí na výsledku z běhu na 100 metrů překážek. (b) Odhadnutou regresní přímku přidejte do grafu. (c) Posuďte vhodnost zvoleného modelu. Obsahují data nějaká vlivná nebo odlehlá pozorování? (d) Odhadněte regresní koeficienty pomocí 50% regresního kvantilu a opět odhadnutou regresní přímku přidejte do grafu. (e) A konečně, uvažujte model bez odlehlého pozorování a proveďte odhad metodou nejmenších čtverců na těchto datech; odhadnutou regresní přímku přidejte do grafu. (f) Všechny tři odhady porovnejte. Který z nich nejlépe popisuje sledovanou závislost? 2. Uvažujte data CYG0B1 z knihovny HSAUR (logaritmus povrchové teploty logst a logaritmus světelné intenzity logli 47 hvězd). (a) Data si nejprve vykreslete a poté pomocí lineární regrese modelujte závislost logaritmu světelné intenzity na logaritmu povrchové teploty. (b) Odhadnutou regresní přímku přidejte do grafu. (c) Posuďte vhodnost zvoleného modelu. Obsahují data nějaká vlivná nebo odlehlá pozorování? (d) Odhadněte regresní koeficienty pomocí 50% regresního kvantilu a opět odhadnutou regresní přímku přidejte do grafu. (e) A konečně, uvažujte model bez odlehlých pozorování a proveďte odhad metodou nejmenších čtverců na těchto datech; odhadnutou regresní přímku přidejte do grafu. (f) Všechny tři odhady porovnejte. Který z nich nejlépe popisuje sledovanou závislost? 3. Do vytvořeného grafu z minulého bodu přidejte další odhady: (a) M-odhad s Huberovou funkcí ip. (b) GM-odhad s Huberovou funkcí ip. (c) nejmenší useknuté čtverce (LTS). (d) nejmenší medián čtverců (LMS). (e) Theilův-Senův odhad. (f) Siegelův opakovaný medián. 4. Porovnání robustních odhadů v regresním modelu. Zkoumejte chování předchozích odhadů v regresním modelu přímky (/3q = fii = 1) na základě náhodného výběru (Yí,Xí) o rozsahu n = 30. Nejprve si nasimulujte realizace regresu x±,... ,x%q (z rovnoměrného spojitého rozdělení Rs(0,10)) a dále je uvažujte pevné. (a) Generujte chyby modelu e1;..., e30 ze standardizovaného normálního rozdělení a spočtěte hodnoty Y i = (30 + fi\Xi + e^. (b) Odhadněte směrnici regresní přímky fli pomocí LSE, LAD a všech odhadů z předchozího bodu. (c) Celý postup opakujte 10 000 krát. Na základě těchto simulací odhadněte střední hodnotu a střední čtvercovou chybu všech odhadů (průměr empirických středních čtvercových chyb). (d) Celý postup opakujte s chybami modelu e« z Cauchyho rozdělení. (e) Celý postup opakujte s daty, kde první pozorování nahradíte hodnotou (Yi,Xi) = (10,0). Funkce, které by se mohly hodit: points, abline, funkce rq z knihovny quantreg, funkce rlm, lqs z knihovny MASS, funkce mblm z knihovny mblm.