Regresní analýza Organizačně •přednáška –Co je to regresní analýza? –Kdy se používá? –Na jaké otázky může nabídnout odpověď? –Základní principy •Praktické procvičení • •Pokud něčemu neporozumíte, pak je zde možnost konzultace (po předchozí domluvě, takřka kdykoli) Použití •TESTOVÁNÍ TEORIÍ !!! • •Zjištění vlivu nezávisle proměnné na závisle proměnnou –Při kontrole dalších možných faktorů –(predikce: jakou hodnotu bude mít závisle proměnná při určité kombinaci nezávisle proměnných) • Příklady otázek ze závěrečných prací v ISu •Jak závisí naděje na zvídavosti a přemítání? –H1: Respondenti dosahující vyšší míry zvídavosti vykazují vyšší míru naděje. –H2: Respondenti dosahující vyšší míry přemítání vykazují nižší míru naděje •Jak závisí stupeň glomerulární filtrace na biochemických, demografických a antropometrických údajích pacientů? –Mezi nezávislé faktory asociované s nižší glomerulární filtrací patří vyšší hladina sérového kreatininu, vyšší věk, ženské pohlaví, jiný než Afroamerický etnický původ, vyšší koncentrace sérové urey a nižší koncentrace sérového albuminu •Jak závisí rychlost plavání na stylu? Příklady otázek ze závěrečných politologických prací v ISu •Desítky volebně-geografických prací •Co ovlivňuje jednotu českých poslaneckých klubů? –H1a: Jednotnost hlasování je vyšší u vládních stran. –H1b: Jednotnost hlasování vládní strany je vyšší, čím těsnější je většina, kterou disponuje. •Je míra korupce ovlivněna i používaným volebním systémem? –1) Korupce roste s rostoucími volebními obvody v systémech s oteřevnými kandidátkami. –2) Korupce klesá s rostoucími volebními obvody v systémech s uzavřenými kandidátkami. •Co ovlivňuje (ne)účast poslanců na hlasování v Poslanecké sněmovně PČR? –účast na hlasování se bude zvyšovat s rostoucí pravděpodobností, že daný poslanec, či poslankyně bude pivotálním … hlasem … –poslanci ze vzdálenějších obvodů budou mít vyšší míru absencí při hlasováních ve Sněmovně než poslanci, kteří jsou přímo z Prahy, nebo blízkého okolí – Podmínky •Jedna závisle proměnná –+ Jedna nebo více nezávisle proměnných •Normálně rozdělená závisle proměnná -Nejde o úplně nezbytnou podmínku -Rozdělení a typ nezávisle proměnné může být jakékoli -Několik dalších různě důležitých podmínek -Nezávislost pozorování -Předpoklad lineárního vztahu - -Nezávislost nezávisle proměnných mezi sebou -Homogenní rozptyl reziduí - • Rozhodovací strom Kardinální proměnná (intervalová, poměrová nebo dlouhá ordinální) Normální rozdělení Lineární regrese jiné rozdělení „jiná“ regrese (Poissonova, exponenciální, …) kategorická (nebo krátká ordinální) Nezáleží na rozdělení ale na počtu kategorií a jejich vztahu Logistická regrese (viz příští lekce) Více závisle proměnných Strukturní modelování a příbuzné metody pokud na sobě pozorování nejsou nezávislá – víceúrovňové modelování • • • • • • • Co regrese dělá •Odhad parametrů přímky při 1 nezávisle proměnné (roviny při 2 np či nadroviny při více np) •Parametry: sklon (pro každou proměnnou) a konstanta (jedna pro celý model) •Parametry popisují vztah mezi nezávisle a závisle proměnnou •Parametry tvoří rovnici přímky •Hodnota závisle proměnné = konstanta + sklon*hodnota nezávisle proměnné •y = a + b*x + e •y = a + b1*x + b2*x + b3*x +… + e • • • • Co nám výpočet poskytne? •R-square ( česky index determinace) –Ukazuje jak dobře model sedí na data •Parametry –Unstandardized beta (nestandardizovaný beta koeficient) –Constant (konstanta) •Hodnoty signifikance • Co je to R-square? •Ukazuje, kolik procent rozptylu závisle proměnné je vysvětleno přidáním nezávisle proměnných •Původní rozptyl je vypočten jako suma kvadratických odchylek mezi průměrem a jednotlivými hodnotami závisle proměnné •„nový“ rozptyl je vypočten jako suma odchylek od regresní přímky/roviny •Rozdíl mezi původním a novým rozptylem vydělený původní variabilitou = R-square •Čím víc proměnných, tím nižší R-square –Řešeno pomocí adjusted R-squre Ilustrace toho co je to R-squre • Průměr závisle proměnné Průměr závisle proměnné Konstanta •Jaká je očekávaná hodnota nezávisle proměnné, pokud jsou hodnoty všech nezávisle proměnných 0 •Pro smysluplnou interpretaci je často potřeba rekódovat proměnné –Každý má nějaký věk, pohlaví, výšku, váhu, … konstanta Y X Nestandardizovaný Beta koeficient •„o kolik se změní hodnota závisle proměnné, pokud se hodnota nezávisle proměnné změní o jednotku“ •Různé proměnné se mohou změnit o různý počet jednotek –Pro srovnání síly proměnných v modelu – standardizovaný koeficient beta ( jakou změnu v počtu směrodatných odchylek závisle proměnné způsobí změna o směrodatnou odchylku nezávisle proměnné) X Y Příklad •Téma: Názory na zasahování státu do ekonomiky •Popis problému: –Občané mají různé názory na to, zda a jak by měl stát zasahovat do hospodářství •Otázka: Co způsobuje rozdílné názory na zásahy státu do ekonomiky mezi občany? • Postup •Nadefinování modelu pomocí hypotéz vycházejících z teorie •Sestavení datasetu obsahujícího závisle a nezávisle proměnné dle specifikace •Zkontrolování normality závisle proměnné •Zkontrolování vlastností nezávisle proměnných • • Teorie •Politické hodnoty •Hodnoty jsou preferovanými stavy věcí (svoboda x sociální spravedlnost) •Hodnoty se utváří v průběhu socializace – role věku •Hodnoty jsou ovlivněny aktuální situací jedince (adaptace) - role příjmu •Role vzdělání a třídy • Hypotézy •H1: starší voliči budou preferovat vyšší míru zasahování státu do ekonomiky •H2: s rostoucím příjmem poroste preference vyšší ekonomické svobody. •H3: s vyšším vzděláním poroste preference vyšší ekonomické svobody •H3X: s vyšším vzděláním poroste preference vyšší míry zasahování státu do ekonomiky •H4: lidé se zkušeností s nezaměstnaností budou více preferovat zásahy do ekonomiky než lidé bez takové zkušenosti • •H0 proměnná nemá vliv Data •Naše společnost CVVM –Dataset s baterií otázek na ekonomickou levici/pravici – dataset obsahuje i proměnné věk, vzdělání, příjem a zkušenost s nezaměstnaností – Proměnné •Závisle proměnná: Míra zasahování státu do ekonomiky –Vytvořeno jako faktorové skóre na základě proměnných –Hodnoty 0 – 10 (0 – zasahování, 10 – svoboda) –Ke kterému z každé dvojice následujících výroků byste se spíše přiklonil? –Rozvoj hospodářství má být ponechán vlastnímu vývoji/má být usměrňován státem –Stát má zaručit, aby ten, kdo chce pracovat, dostal práci/ Kdo chce pracovat, musí se o získání práce postarat sám –Velkým hospodářským podnikům má stát umožnit co největší samostatnost/ Na velké hospodářské podniky má stát co nejvíce dohlížet –Velikost soukromého vlastnictví by nijak být omezována neměla/by nějakým způsobem být omezována měla. – Nezávisle proměnné •Nezávisle / kontrolní proměnné •Příjem: čistý příjem domácnosti •Subjektivní hodnocení příjmu (dichotomická proměnná) •Věk •Nespokojenost s vnějšími podmínkami: součet proměnných ptajících se na hodnocení ekonomické a politické situace (od 0 do 10) •Vzdělání: kategorická proměnná rekódovaná na dummy proměnné –ZŠ vzdělání referenční kategorií •Nezaměstnanost: kategorická proměnná rekódovaná na dummy proměnné –Bez zkušenosti s nezaměstnaností jako referenční kategorie – Normalita závisle proměnné •Jinakost rozdělení –ovlivňuje především hodnoty signifikance –Zkresluje odhady parametrů •Prvně vizuální zhodnocení pomocí histogramu •Testy –K-S a S-W –Ve velkých souborech lze brát s rezervou –Šikmost a strmost není větší než 3x SE • •Histogram –Analyze- descriptive stat-frequencies – plots •Kolmogorův-Smirnovův test –Analyze – descriptive stat – explore – plots – normality plots with tests • Test normality závisle proměnné • Odebrání outlierů •Outliery je možné z analýzy vynechat •Jde o přípustnou manipulaci s daty •Nutné reportovat!!! •Vhodné také ukázat rozdíl ve výsledcích analýzy před a po odstranění outlierů • • Další postup •Pokud je závisle proměnná v pořádku –Rekódování nezavisle proměnných –Kontrola multikolinearity nezávisle proměnných •Nezávisle proměnné by mezi sebou neměly příliš souviset •První kontrola pomocí korelačního koeficientu •Další kontrola přímo v modelu –Výpočet – Průzkum souvislosti mezi proměnnými •Crostab •Existuje poměrně silný vztah mezi subjektivní chudobou a zkušeností s nezaměstnaností •Rekódování kombinace proměnných Kontrola multikolinearity •Analyze – correlate - bivariate Naklikání modelu •Analyze – regression – linear • •Dependent: lp_ekonom •Independent: vek, nespokojenost, prijem, chudi_subj, učeň, sš, vš, zkus_nezam, zajem, muž, mesto • •Statistics: colinearity dignostics, casewise diagnistocs >2,5 • •Plots: Y:*ZRESID, X:*ZPRED • •OK Interpretace R2 a adj. R2 • • •Model vysvětluje 9,4 % variability závisle proměnné • • • • •Model je statisticky významný (tj. můžeme jeho výstupy zobecnit na populaci) Interpretace R2 a adj. R2 •neukazuje, nakolik jsou výsledky platné v celém souboru, •neukazuje, pro jaké procento voličů vztah platí •ukazuje jak moc model vysvětluje rozptyl v závisle proměnné. •Jak dobře model popisuje realitu (zaznamenanou v datech) •Když je model nesignifikantní (tj. žádná z proměnných nepřispívá k vysvětlení rozptylu), tak použité proměnné nejsou vhodné, –nikoli, že k analýze proměnné není regrese použitelná •To závisí na naplnění předpokladů Interpretace konstanty •Nesmyslná, protože nikdo ve vzorku nemá věk 0 •Proto proměnnou věk rekódujeme –Odečteme 15 •V novém modelu je konstantu možné interpretovat: • hodnota závisle proměnné očekávaná pro nejmladší občanky, spokojené s podmínkami, bez příjmu, ale subjektivně bohaté, se zš vzděláním, bez zájmu o politiku, a zkušenosti s nezaměstnaností žijící ve vsi (= 5,1) • Interpretace nestandardizovaného beta koeficientu •2 situace •Dummy proměnné x kardinální proměnné • •Interpretace efektu dummy proměnné: –nestandardizovaný koeficient ukazuje rozdíl dané kategorie oproti referenční kategorii •Interpretace efektu kardinální proměnné –Při změně nezávisle proměnné o jednotku se hodnota závisle proměnné změní o hodnotu nestandardizovaného koeficient Interpretace efektu dummy proměnné • Interpretace efektu dummy proměnné •Subjektivně chudý občan preferuje zásahy do ekonomiky více než subjektivně bohatý občan volič (pokud jsou ostatní sledované charakteristiky stejné) a to o 0,36 bodu •Nebo též •Pokud je vše ostatní shodné, pak rozdíl na škále ekonomických hodnot mezi bohatým a chudým občanem je 0,36 bodu . Chudý občan více preferuje zásahy do ekonomiky . • Interpretace efektu kardinální proměnné • Interpretace efektu kardinální proměnné •Pokud má občan A o 1 000 kč vyšší příjem než volič B a vše ostatní je shodné, měl by volič A o preferovat o 0,01 svobodnější ekonomiku •Nebo též •Pokud příjem vzroste o 1000 kč a vše ostatní zůstane shodné, pak preference ekonomické svobody vzroste o 0,01 bodu •Lze násobit –Pokud příjem vzroste o 10 000 kč , pak preference ekonomické svobody vzroste o 0,1 bodu –Pokud příjem vzroste o 100 000 kč , pak preference ekonomické svobody vzroste o 1 bod – • • Hodnocení signifikance •Zobecňování výsledků na populaci •Obvyklá hranice sig. < 0,05 •Potom považujeme efekt za signifikantní na hladině významnosti 95 % •Nic nám nebrání zvolit si jinou hladinu významnosti (např. 90%, 99% nebo 99,99%) •S nižší hladinou roste riziko, že budeme za platný považovat i efekt který v populaci neplatí •S vyšší hladinou vyšší riziko že budeme za neplatný považovat i efekt, který v populaci platí • • Následná kontrola •Outlieři •Homogenita rozptylu reziduí (homoskedascita) •multikolinearita • • • Honocení multikolinearity •VIF •Arbitární hranice: 5 •A zároveň podobné hodnoty v dimenzích • •Proměnné levice a pravice –V pořádku, neboť se jedná o dummy proměnné vytvořené z jedené kategorické proměnné Outlieři •Např. pro případ č. 70 očekáváme, že nebude mít vyhraněný názor, ale přitom reálně jde o velmi levicového občana •Podobně případ 105, ten je ale pravicový •Můžeme vyřadit a zjistit, co to udělá s výsledky Homoskedascita •V reziduích by neměl být žádný zřetelný vzorec heteroskedascita •Příklad situace kdy homoskedascita není v pořádku