Statistické metody a zpracování dat 1 (podzim 2016) Klára Čížková •Cvičení 10: • •Konstrukce regresního modelu • Řešený příklad – 1. úkol •Máme soubor průměrných ročních teplot vzduchu ze stanice Nová Ves za období 1961–1990, kde chybějí 4 roky •S využitím údajů z vaší stanice (viz cvičení 3) doplníme chybějící hodnoty • • • •POZOR! Vaše výsledky se budou lišit! •Jako referenční řadu jsem použila řadu průměrných ročních teplot vzduchu ze stanice Praha-Klementinum (1961–1990) Příprava a import dat 1.Otevřeme v Excelu soubor Nova_Ves 2.Do souboru přidáme průměrné roční teploty vzduchu z vaší stanice 3.Rozumně pojmenujeme sloupce, uložíme a zavřeme 4.Importujeme do STATISTICY: Soubor – Otevřít; vybraný list; 1. řádek jako názvy proměnných, 1.sloupec jako názvy případů; OK Ověření korelačního vztahu •Pomocí výpočtu korelačního koeficientu a vykreslením bodového grafu ověříme existenci a těsnost korelačního vztahu mezi průměrnou roční teplotou vzduchu v Nové Vsi a na vaší stanici •Před provedením tohoto kroku by bylo vhodné posoudit normalitu rozdělení! •Grafy – 2D – Bodové grafy Ověření korelačního vztahu •Nastavení bodového grafu: –Vybereme proměnné (X = vaše stanice, Y = Nová Ves), OK –Na záložce Detaily vypneme lineární proložení a zadáme výpočet korelačního koeficientu a p-hodnoty, OK Ověření korelačního vztahu •Interpretace bodového grafu a p-hodnoty •rxy = 0 → neexistuje lineární vztah •rxy > 0 → kladná korelace •rxy < 0 → záporná korelace • •Nulová hypotéza: mezi průměrnou roční teplotou vzduchu v Nové Vsi a na vaší stanici neexistuje statisticky významný lineární vztah. • •Hladina významnosti = 0,05 • •p > 0,05 → H0 platí •p < 0,05 → H0 zamítáme •Ukázka interpretace: Průměrné roční teploty vzduchu z Nové Vsi a Klementina jsou velmi silně/středně silně/slabě pozitivně/negativně korelovány (rxy = ?,??). P-hodnota činí ?,??, takže na hladině významnosti 0,05 zamítáme/přijímáme nulovou hypotézu, že mezi těmito soubory neexistuje lineární vztah. Vytvoření regresního modelu •Obecný tvar rovnice lineární regrese: – y’ = a + bx –(y’ je nejpravděpodobnější teoretická hodnota y odpovídající danému x) •Koeficient a představuje hodnotu y’ při x = 0 •Koeficient b je směrnicí regresní přímky (b > 0 → pozitivní regrese; b < 0 → negativní regrese) •Výpočet pomocí metody nejmenších čtverců (součet druhých mocnin vzdálenosti bodů korelačního pole od regresní přímky je minimální) Vytvoření regresního modelu •Vypočítáme parametry regresní přímky a koeficient determinace r2 –Koeficient determinace r2 je druhou mocninou korelačního koeficientu, nabývá hodnot od 0 do 1 a udává, jakou část variability závisle proměnné lze vysvětlit použitým regresním modelem 1.Statistiky – Vícenásobná regrese – Proměnné: závislá = Nová Ves, nezávislá = vaše stanice – OK Vytvoření regresního modelu •2. Výsledná tabulka udá rxy („vícenásobné R“), koeficient determinace („R2“) a adjustovaný koeficient determinace („upravené R2“), který používáme, pokud chceme porovnat více regresních modelů použitých pro vysvětlení stejné proměnné. •Když vynásobíme koeficient determinace stem, dostaneme procentuální podíl variability vysvětlené daným modelem. • •Čím vyšší je hodnota koeficientu determinace, tím je model vhodnější. •V tomto případě vysvětluje použitý regresní model přibližně 90,3 % variability řady průměrných ročních teplot vzduchu v Nové Vsi. Vytvoření regresního modelu •3. Ve výsledcích najdeme rovněž směrodatnou chybu odhadu, která vyjadřuje směrodatnou odchylku reziduálních hodnot. Slouží k posouzení vhodnosti modelu – čím nižší směrodatná chyba odhadu, tím vhodnější model. •4. Parametry regresní rovnice získáme kliknutím na „Výpočet: Výsledky regrese“. •V tomto případě činí směrodatná chyba odhadu 0,20. •TIP: porovnejte koeficient determinace a směrodatnou chybu odhadu, které jste získali vy, s hodnotami z této prezentace (Klementinum). Je lepší vysvětlující proměnnou pro teplotu vzduchu v Nové Vsi vaše řada, nebo řada z Klementina? Vytvoření regresního modelu •Parametry regresní rovnice: •Parametr a (průsečík regresní přímky s osou Y) je označen modře •Parametr b (směrnice regresní přímky) je označen červeně •y’ = a + bx • •Regresní rovnice má v tomto případě následující tvar: • •T(Nová Ves) = -2,61113 + 0,91340 T(Klementinum) • •V záhlaví tabulky opět najdeme korelační koeficient (R), koeficient determinace (R2) i p-hodnotu určující statistickou významnost vztahu. • Ověření vhodnosti modelu •Testujeme, zda se variabilita vysvětlená modelem statisticky významně liší od reziduální (nevysvětlené) variability. 1.Přepneme zpět na výsledky vícenásobné lineární regrese a zvolíme záložku Detailní výsledky 2.Zvolíme ANOVA – celková vhodnost modelu Ověření vhodnosti modelu •3. Interpretujeme výslednou tabulku. •Nulová hypotéza: mezi reziduální variabilitou a variabilitou vysvětlenou regresním modelem není statisticky významný rozdíl. •Hladina významnosti: 0,05 •p > 0,05 → nulová hypotéza platí, model není vhodný •p < 0,05 → zamítáme nulovou hypotézu, existuje statisticky významný rozdíl, model je vhodný •Ukázka interpretace: Mezi variabilitou vysvětlenou modelem a reziduální variabilitou je/není na hladině významnosti 0,05 statisticky významný rozdíl, použití zvoleného regresního modelu tedy je/není vhodné. Analýza reziduí •Ověří, zda je model regresní přímky vhodný. Rezidua by měla náhodně kolísat kolem nuly (neměla by například růst nebo klesat) 1.Přepneme zpět na výsledky vícenásobné lineární regrese a zvolíme záložku Residua/ Předpoklady/ Předpovědi 2.Zvolíme Reziduální analýza Analýza reziduí •3. V okně reziduální analýzy přepneme na záložku Bodové grafy a vybereme Předpovědi vs. rezidua Analýza reziduí •4. Interpretujeme graf (Kolísají rezidua okolo 0? Pokud ano, vybrali jsme vhodný model). Graf regresního modelu •Vykreslí regresní přímku i s pásy spolehlivosti, které udávají, kde se bude s 95% pravděpodobností regresní přímka nacházet 1.Přepneme zpět na výsledky reziduální analýzy, zůstaneme na kartě Bodové grafy 2.Zvolíme Korelace 2 proměnných Graf regresního modelu •3. Zvolíme proměnné • X = nezávislá proměnná (vaše stanice) • Y = závislá proměnná (Nová Ves) • Potvrdíme OK Graf regresního modelu •4. Interpretujeme graf (zejména si všímáme směru regresní přímky – kladná, nebo záporná závislost proměnných – a šířky pásů spolehlivosti) Odhad chybějících měření •Pomocí regresní rovnice a hodnot z vaší stanice je možné vypočítat chybějící data z Nové Vsi ručně, ale lze to udělat i ve STATISTICE: 1.Vrátíme se zpět k výsledkům vícenásobné regrese (přepneme na okno reziduální analýzy, zadáme Storno) 2.Na kartě Rezidua/předpoklady/předpovědi vybereme Předpověď závislé proměnné Odhad chybějících měření •3. Opíšeme teplotu vzduchu z vaší stanice pro první rok s chybějící teplotou vzduchu z Nové Vsi (1961) a potvrdíme OK Odhad chybějících měření •4. Z výsledné tabulky si zapíšeme teplotu vzduchu včetně intervalů spolehlivosti •5. Postup opakujeme pro všechny ostatní chybějící hodnoty •6. Do výsledné tabulky zapíšeme vždy rok, teplotu vzduchu z vaší stanice, bodový odhad teploty vzduchu v Nové Vsi a intervaly spolehlivosti • •Tip: chcete-li, můžete u prvního odhadu porovnat šířku vašich intervalů spolehlivosti s Klementinem. Spojnicový graf 1.Do datového souboru ve STATISTICE doplníme na základě výpočtů chybějící hodnoty teploty vzduchu z Nové Vsi. –Na záložce Grafy vybereme Spojnice, následně vybereme vícenásobný typ grafu a obě proměnné a potvrdíme (OK – OK) Spojnicový graf •2. Graf můžeme upravit (barva spojnic, popis os, legenda…) a popíšeme Do protokolu – 1. úkol 1.Zadání 2.Tabulka vstupních dat (průměrné roční teploty vzduchu na vaší stanici a v Nové Vsi) 3.Bodový graf s výsledky korelace (rxy, p-hodnota) + interpretace 4.Tabulka s výsledky regresního modelu (vícenásobná regrese) včetně koeficientu determinace a směrodatné chyby odhadu, můžete porovnat vaše výsledky s výsledky z Klementina 5.Regresní rovnice (tabulka z výsledků vícenásobné regrese + vypsat rovnici) 6.Ověření vhodnosti modelu (tabulka ANOVA + interpretace p-hodnoty) 7.Analýza reziduí – graf + jeho popis 8.Graf regresního modelu + jeho popis 9.Tabulka s doplněním chybějících hodnot 10.Spojnicový graf s teplotou vzduchu v Nové Vsi a na vaší stanici + popis 11.Závěr 2. úkol •NEPOVINNÝ •Pokud ho uděláte a budete mít v zápočtovém testu známku na hraně, prof. Dobrovolný se přikloní k té lepší :) •Povinný úkol (bez plus u prof. Dobrovolného) pro všechny, kdo mají 3 absence a nechtějí opakovat předmět •V souboru Uzemni_srovnani.xls najdete údaje porovnávající kraje ČR: • 1.Zvolíme ukazatel, který chceme sledovat (proměnná y) 2.Ve stejné tabulce najdeme jednu vysvětlující proměnnou x, u níž lze logicky předpokládat, že na ní bude sledovaná proměnná závislá 3.Sestavíme lineární regresní model, který zhodnotíme • • • • • • • 2. úkol – regresní model •Postupujeme podobně jako v případě 1. úkolu: • 1.Posoudíme normalitu rozdělení (v tomto případě nemusíte dělat, ale před výpočtem regresního modelu by se normalita ověřovat měla) 2.Zhodnotíme korelační vztah vybraných proměnných pomocí korelačního pole (bodový graf), koeficientu korelace r a jeho statistické významnosti (p-hodnota) 3.Graf charakterizujeme, můžeme se i rozhodnout vyloučit některé případy (kraje), ale vždy musíme rozhodnutí logicky zdůvodnit 4.Vytvoříme regresní model, zhodnotíme koeficient determinace a směrodatnou chybu odhadu, uvedeme i regresní rovnici 5.Ověříme vhodnost modelu pomocí analýzy ANOVA 6.Provedeme analýzu reziduí (graf Předpovědi vs. Rezidua) 7.Vykreslíme graf regresního modelu i s pásy spolehlivosti 8.V závěru zhodnotíme vztah vybraných proměnných 9. 9. 9. • • • • • • • Do protokolu – 2. úkol 1.Zadání 2.Tabulka: zvolené proměnné a vstupní hodnoty + zdůvodnění výběru vysvětlující proměnné 3.Bodový graf s výsledky korelace (rxy, p-hodnota) + interpretace 4.Vyloučené případy a jejich logické zdůvodnění; případně konstatování, že není nutné vyloučit žádný z případů 5.Tabulka s výsledky regresního modelu (vícenásobná regrese) včetně koeficientu determinace a směrodatné chyby odhadu 6.Regresní rovnice (tabulka z výsledků vícenásobné regrese + vypsat rovnici) 7.Ověření vhodnosti modelu (tabulka ANOVA + interpretace p-hodnoty) 8.Analýza reziduí – graf + jeho popis 9.Graf regresního modelu + jeho popis 10.Závěr Zdroje •BUDÍKOVÁ, Marie. Jednoduchá lineární regrese I (přednáška). Brno: Masarykova univerzita, 2016. • •BUDÍKOVÁ, Marie. Jednoduchá lineární regrese II (přednáška). Brno: Masarykova univerzita, 2016. • •DOBROVOLNÝ, Petr. Z1069 Statistické metody a zpracování dat: VII. Regresní počet (přednáška) Brno: Masarykova univerzita, 2016. • • Pár slov ke cvičení 8 •Jak lze krabicový graf využít k hodnocení normality rozdělení? • • • • • • • • •Ukázka krabicového grafu s mediánem a průměrem pro soubor, který nemá normální rozdělení (Prom1) a pro soubor s normálním rozdělením (Prom2).