Příklady na cvičení Výpočetní statistika, téma Jednoduchá lineární regrese Příklad 1.: U osmi náhodně vybraných firem poskytujících odborné konzultace v oblasti jakosti výroby byly v roce 2008 zjištěny počty zaměstnanců (náhodná veličina X) a roční obraty (náhodná veličina Y, v miliónech Kč), jak je uvedeno v tabulce: Číslo firmy 1 2 3 4 5 6 7 8 X 3 5 5 8 9 11 12 15 Y 0,8 1,2 1,5 1,9 1,8 2,4 2,5 3,1 Předpokládáme, že závislost ročního obratu na počtu zaměstnanců lze popsat regresní přímkou. K dispozici jsou částečné výstupy regresní analýzy ze systému STATISTICA: a) Napište rovnici regresní přímky vyjadřující závislost Y na X. Interpretujte úsek a směrnici regresní přímky. b) Najděte 95% intervaly spolehlivosti pro parametry regresní přímky a s jejich pomocí testujte na hladině významnosti hypotézy o nevýznamnosti úseku a směrnice regresní přímky. c) Vypočtěte index determinace a interpretujte ho. Výsledek: ad a) y = 0,361207 + 0,181034x Pokud firma nebude mít žádné zaměstnance (tzn., že pracují pouze majitelé), bude roční obrat asi 361 000 Kč. Pokud se zvýší počet zaměstnanců o jednoho, vzroste roční obrat asi o 181 000 Kč. ad b) 95% interval spolehlivosti pro β[0]: Znamená to, že 0,06411 < β[0] < 0,65303 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje číslo 0, na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti úseku regresní přímky. 95% interval spolehlivosti pro β[1]: Znamená to, že 0,149137 < β[1] < 0,212932 s pravděpodobností aspoň 0,95. Protože tento interval neobsahuje číslo 0, na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti směrnice regresní přímky. (Tento interval spolehlivosti nám vlastně udává, že při zvýšení počtu zaměstnanců o jednoho se přírůstek ročního obratu firmy bude s pravděpodobností aspoň 0,95 pohybovat v intervalu 149 000 Kč až 213 000 Kč.) ad c) Znamená to, že variabilita ročního obratu je z téměř 97 % vysvětlena regresní přímkou. Příklad 2.: V modelu regresní přímky je index determinace roven 0,8 a reziduální rozptyl je 100. Jaký je rozptyl hodnot závisle proměnné veličiny? Příklad 3.: Určitý lék je přepravován v ampulkách, které jsou baleny po 1000 kusech v jednom kartonu. U 10 náhodně vybraných kartonů bylo zjištěno, kolikrát byl karton překládán (veličina X) a počet poškozených ampulek při převzetí zásilky (veličina Y). X 1 0 2 0 3 1 0 1 2 0 Y 16 9 17 12 22 13 8 15 19 11 Na základě těchto údajů, které považujeme za realizace náhodného výběru z dvourozměrného normálního rozložení, byly vypočteny parametry regresní přímky, která vystihuje závislost počtu poškozených ampulek na počtu překládání: b[0] = 10,2, b[1] = 4. Směrodatné chyby odhadů regresních parametrů jsou: . Na hladině významnosti 0,05 testujte hypotézy o nevýznamnosti parametrů β[0] a β[1]. V obou případech vypočtěte hodnotu testové statistiky, najděte kritický obor a napište rozhodnutí o nulové hypotéze. Výsledek: Na hladině významnosti α = 0,05 testujeme H[0]: β[0] = 0 proti H[1]: β[0] ≠ 0. Testová statistika: , kritický obor: . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[0] (tj. posunutí regresní přímky) zamítáme na hladině významnosti 0,05. Na hladině významnosti α = 0,05 testujeme H[0]: β[1] = 0 proti H[1]: β[1] ≠ 0. Testová statistika: , kritický obor: . Protože se testová statistika realizuje v kritickém oboru, hypotézu o nevýznamnosti regresního parametru β[1] (tj. směrnice regresní přímky) zamítáme na hladině významnosti 0,05. Příklad 4.: Máte k dispozici výstupní tabulku pro model regresní přímky: Pokud se hodnota nezávisle proměnné veličiny X zvýší o 5 jednotek, jak se změní regresní odhad hodnoty závisle proměnné veličiny Y? Výsledek: Zvýší se o 29,775*5 = 148,9 jednotek. Příklad 5.: Máte k dispozici neúplnou tabulku ANOVA pro model regresní přímky: Najděte odhad reziduálního rozptylu. Výsledek: