Regresní analýza Organizačně •Do 9:30 –Co je to regresní analýza? –Kdy se používá? –Na jaké otázky může nabídnout odpověď? –Základní principy •Přestávka •Praktické procvičení • •KDYŽ NĚČEMU NERPOROZUMÍTE, OZVĚTE SE !!! • Použití •TESTOVÁNÍ TEORIÍ !!! • •Zjištění vlivu nezávisle proměnné na závisle proměnnou –Při kontrole dalších možných faktorů –(predikce: jakou hodnotu bude mít závisle proměnná při určité kombinaci nezávisle proměnných) • Příklady otázek ze závěrečných prací v ISu •Jak souvisí sebepojetí se sense of coherence? –H1a) Vyšší úroveň vědomí vlastní účinnosti souvisí s vyšší úrovní sense of coherence. –H1b) Vyšší úroveň sebehodnocení souvisí s vyšší úrovní sense of coherence. –H1c) Vyšší úroveň jasnosti sebepojetí souvisí s vyšší úrovní sense of coherence. –(Iva Maarová 2015) •Jak souvisí duševní pohoda a její jednotlivé faktory se zvídavostí, nadějí a přemítáním? –H1: Respondenti dosahující vyšší míry zvídavosti vykazují vyšší míru naděje. –H2: Respondenti dosahující vyšší míry přemítání vykazují nižší míru naděje –(Iveta Škárková 2014) •Jak závisí stupeň glomerulární filtrace na biochemických, demografických a antropometrických údajích pacientů? –Mezi nezávislé faktory asociované s nižší glomerulární filtrací patří vyšší hladina sérového kreatininu, vyšší věk, ženské pohlaví, jiný než Afroamerický etnický původ, vyšší koncentrace sérové urey a nižší koncentrace sérového albuminu –(Marie Švomová 2011) •Analýza plavecké techniky na základě analýzy kolísání rychlosti plavce v jednom plaveckém cyklu Příklady otázek ze závěrečných politologických prací v ISu •Desítky volebně-geografických prací •Co ovlivňuje jednotu českých poslaneckých klubů? –H1a: Jednotnost hlasování je vyšší u vládních stran. –H1b: Jednotnost hlasování vládní strany je vyšší, čím těsnější je většina, kterou disponuje. –Martina Götzová 2014 •Je míra korupce ovlivněna i používaným volebním systémem? –1) Korupce roste s rostoucími volebními obvody v systémech s oteřevnými kandidátkami. –2) Korupce klesá s rostoucími volebními obvody v systémech s uzavřenými kandidátkami. –Markéta Havlíková 2014 •Co ovlivňuje (ne)účast poslanců na hlasování v Poslanecké sněmovně PČR? –účast na hlasování se bude zvyšovat s rostoucí pravděpodobností, že daný poslanec, či poslankyně bude pivotálním … hlasem … –poslanci ze vzdálenějších obvodů budou mít vyšší míru absencí při hlasováních ve Sněmovně než poslanci, kteří jsou přímo z Prahy, nebo blízkého okolí –Michal Putna 2014 – Podmínky •Jedna závisle proměnná –+ Jedna nebo více nezávisle proměnných •Normálně rozdělená základní proměnná -Rozdělení a typ nezávisle proměnné může být jakékoli –+ několik dalších různě důležitých podmínek -Nezávislost pozorování -Předpoklad lineárního vztahu - -Nezávislost nezávisle proměnných mezi sebou -Homogenní rozptyl reziduí - • Rozhodovací strom Kardinální proměnná (intervalová, poměrová nebo dlouhá ordinální) Normální rozdělení Lineární regrese jiné rozdělení „jiná“ regrese (Poissonova, exponenciální, …) kategorická (nebo krátká ordinální) Nezáleží na rozdělení ale na počtu kategorií a jejich vztahu Logistická regrese (viz příští lekce) Více závisle proměnných Strukturní modelování a příbuzné metody pokud na sobě pozorování nejsou nezávislá – víceúrovňové modelování • • • Co regrese dělá •Odhad parametrů přímky (při 1 nezávisle proměnné), roviny (při 2) či nadroviny (při více) •Parametry: sklon (pro každou proměnnou) a konstanta (jedna pro celý model) •Parametry popisují vztah mezi nezávisle a závisle proměnnou •Hodnota závisle proměnné = konstanta + sklon*hodnota nezávisle proměnné •y = a + b*x •y = a + b1*x + b2*x + b3*x +… • • • • Postup •Nadefinování modelu pomocí hypotéz vycházejících z teorie •Sestavení datasetu obsahujícího závisle a nezávisle proměnné dle specifikace •Zkontrolování normality závisle proměnné •Zkontrolování vlastností nezávisle proměnných • • Normalita závisle proměnné •Jinakost rozdělení –ovlivňuje především hodnoty signifikance –Zkresluje odhady parametrů •Prvně vizuální zhodnocení pomocí histogramu •Testy –K-S a S-W –Ve velkých souborech lze brát s rezervou –Šikmost a strmost není větší než 3 • Další postup •Pokud je závisle proměnná v pořádku –Rekódování nezavisle proměnných –Kontrola multikolinearity nezávisle proměnných •Nezávisle proměnné by mezi sebou neměly příliš souviset •První kontrola pomocí korelačního koeficientu •Další kontrola přímo v modelu –Výpočet – Co nám výpočet poskytne? •R-square ( česky index determinace) –Ukazuje jak dobře model sedí na data •Parametry –Unstandardized beta (nestandardizovaný beta koeficient) –Constant (konstanta) •Hodnoty signifikance • Co je to R-square? •Ukazuje, kolik procent variability závisle proměnné je vysvětleno přidáním nezávisle proměnných •Původní variabilita je vypočtena jako suma kvadratických odchylek mezi průměrem a jednotlivými hodnotami závisle proměnné •„nová“ variabilita je vypočtena jako suma odchylek od regresní přímky/roviny •Rozdíl mezi původní a novou variabilitou vydělený původní variabilitou = R-square •Čím víc proměnných, tím nižší R-square –Řešeno pomocí adjusted R-squre Ilustrace toho co je to R-squre • Průměr závisle proměnné Průměr závisle proměnné Nestandardizovaný Beta koeficient •„o kolik se změní hodnota závisle proměnné, pokud se hodnota nezávisle proměnné změní o jednotku“ •Různé proměnné se mohou změnit o různý počet jednotek –Pro srovnání síly proměnných v modelu – standardizovaný koeficient beta ( jakou změnu v počtu směrodatných odchylek závisle proměnné způsobí změna o směrodatnou odchylku nezávisle proměnné) Konstanta •Jaká je očekávaná hodnota nezávisle proměnné, pokud jsou hodnoty všech nezávisle proměnných 0 •Pro smysluplnou interpretaci je často potřeba rekódovat proměnné –Každý má nějaký věk, pohlaví, výšku, váhu, … konstanta Následná kontrola •Outlieři •Homogenita rozptylu reziduí (homoskedascita) •multikolinearita • • • Příklad •Téma: Názory na zasahování státu do ekonomiky •Popis problému: –Občané mají různé názory na to, zda a jak by měl stát zasahovat do hospodářství •Otázka: Co způsobuje rozdílné názory na zásahy státu do ekonomiky mezi občany? • Teorie •Politické hodnoty •Hodnoty jsou preferovanými stavy věcí (svoboda x sociální spravedlnost) •Hodnoty se utváří v průběhu socializace – role věku •Hodnoty jsou ovlivněny aktuální situací jedince (adaptace) - role příjmu •Role vzdělání a třídy • Hypotézy •H1: starší voliči budou preferovat vyšší míru zasahování státu do ekonomiky •H2: s rostoucím příjmem poroste preference vyšší ekonomické svobody. •H3: s vyšší vzděláním poroste preference vyšší ekonomické svobody •H3X: s vyšší vzděláním poroste preference vyšší míry zasahování státu do ekonomiky •H4: vyšší třídy a podnikatelé budou více preferovat vyšší svobodu než důchodci a ekonomicky neaktivní • • •H0 proměnná nemá vliv Proměnné •Závisle proměnná: Míra zasahování státu do ekonomiky –Vytvořeno jako faktorové skóre na základě proměnných –Hodnoty 0 – 10 (0 – zasahování, 10 – svoboda) –Ke kterému z každé dvojice následujících výroků byste se spíše přiklonil? –Rozvoj hospodářství má být ponechán vlastnímu vývoji/má být usměrňován státem –Stát má zaručit, aby ten, kdo chce pracovat, dostal práci/ Kdo chce pracovat, musí se o získání práce postarat sám –Velkým hospodářským podnikům má stát umožnit co největší samostatnost/ Na velké hospodářské podniky má stát co nejvíce dohlížet –Velikost soukromého vlastnictví by nijak být omezována neměla/by nějakým způsobem být omezována měla. – •Histogram –Analyze- descriptive stat-frequencies – plots •Kolmogorův-Smirnovův test –Analyze – descriptive stat – explore – plots – normality plots with tests • Test normality závisle proměnné • Odebrání outlierů •Outliery je možné z analýzy vynechat •Jde o přípustnou manipulaci s daty •Nutné reportovat!!! •Vhodné také ukázat rozdíl ve výsledcích analýzy před a po odstranění outlierů • • Nezávisle proměnné •Nezávisle / kontrolní proměnné •Příjem: čistý příjem domácnosti •Subjektivní hodnocení příjmu (dichotomická proměnná) •Věk •Nespokojenost s vnějšími podmínkami: součet proměnných ptajících se na hodnocení ekonomické a politické situace (od 0 do 10) •Vzdělání: kategorická proměnná rekódovaná na dummy proměnné –ZŠ vzdělání referenční kategorií •Třída: kategorická proměnná rekódovaná na dummy proměnné –Důchodci referenční kategorií – •Graphs – legacy dialogs – Scatter/dot Kontrola multikolinearity •Analyze – correlate - bivariate Naklikání modelu •Analyze – regression – linear • •Dependent: lp_ekonom •Independent: vek, nespokojenost, prijem, chudi_subj, učeň, sš, vš, zkus_nezam, zajem, muž, mesto • •Statistics: colinearity dignostics, casewise diagnistocs • •Plots: Y:*ZRESID, X:*ZPRED, produce all partial plots • •OK Interpretace R2 a adj. R2 • • •Model vysvětluje 9,4 % variability závisle proměnné • • • • •Model je statisticky významný (tj. můžeme jeho výstupy zobecnit na populaci) Interpretace R2 a adj. R2 •neukazuje, nakolik jsou výsledky platné v celém souboru, •neukazuje, pro jaké procento voličů vztah platí •ukazuje jak moc model vysvětluje rozptyl v závisle proměnné. •Jak dobře model popisuje realitu (zaznamenanou v datech) •Když je model nesignifikantní (tj. žádná z proměnných nepřispívá k vysvětlení rozptylu), tak použité proměnné nejsou vhodné, –nikoli, že k analýze proměnné není regrese použitelná •To závisí na naplnění předpokladů Interpretace konstanty •Nesmyslná, protože nikdo ve vzorku nemá věk 0 •Proto proměnnou věk rekódujeme –Odečteme 15 •V novém modelu je konstantu možné interpretovat: • hodnota závisle proměnné očekávaná pro nejmladší občanky, spokojené s podmínkami, bez příjmu, ale subjektivně bohaté, se zš vzděláním, bez zájmu o politiku, a zkušenosti s nezaměstnaností žijící ve vsi (= 5,1) • Interpretace nestandardizovaného beta koeficientu •2 situace •Dummy proměnné x kardinální proměnné • •Interpretace efektu dummy proměnné: –nestandardizovaný koeficient ukazuje rozdíl dané kategorie oproti referenční kategorii •Interpretace efektu kardinální proměnné –Při změně nezávisle proměnné o jednotku se hodnota závisle proměnné změní o hodnotu nestandardizovaného koeficient Interpretace efektu dummy proměnné • Interpretace efektu dummy proměnné •Subjektivně chudý občan preferuje zásahy do ekonomiky více než subjektivně bohatý občan volič (pokud jsou ostatní sledované charakteristiky stejné) a to o o 0,36 bodu •Nebo též •Pokud je vše ostatní shodné, pak rozdíl na škále ekonomických hodnot mezi bohatým a chudým občanem je 0,36 bodu . Chudý občan více preferuje zásahy do ekonomiky . • Interpretace efektu kardinální proměnné • Interpretace efektu kardinální proměnné •Pokud má občan A o 1 000 kč vyšší přijem než volič B a vše ostatní je shodné, měl by volič A o preferovat o 0,01 svobodnější ekonomiku •Nebo též •Pokud příjem vzroste o 1000 kč a vše ostatní zůstane shodné, pak preference ekonomické svobody vzroste o 0,01 bodu •Lze násobit –Pokud příjem vzroste o 10 000 kč , pak preference ekonomické svobody vzroste o 0,1 bodu –Pokud příjem vzroste o 100 000 kč , pak preference ekonomické svobody vzroste o 1 bod – • • http://www.statmethods.net/graphs/images/s3d3.png • Hodnocení signifikance •Zobecňování výsledků na populaci •Obvyklá hranice sig. < 0,05 •Potom považujeme efekt za signifikantní na hladině významnosti 95 % •Nic nám nebrání zvolit si jinou hladinu významnosti (např. 90%, 99% nebo 99,99%) •S nižší hladinou roste riziko, že budeme za platný považovat i efekt který v populaci neplatí •S vyšší hladinou vyšší riziko že budeme za neplatný považovat i efekt, který v populaci platí • • Honocení multikolinearity •VIF •Arbitární hranice: 5 •A zároveň podobné hodnoty v dimenzích • •Proměnné levice a pravice –V pořádku, neboť se jedná o dummy proměnné vytvořené z jedené kategorické proměnné Průzkum souvislosti mezi proměnnými •Crostab •Existuje poměrně silný vztah mezi subjektivní chudobou a zkušeností s nezaměstnaností •Rekódování kombinace proměnných Outlieři •Např. pro případ č. 70 očekáváme, že nebude mít vyhraněný názor, ale přitom reálně jde o velmi levicového občana •Podobně případ 105, ten je ale pravicový •Můžeme vyřadit a zjistit, co to udělá s výsledky Homoskedascita •V reziduích by neměl být žádný zřetelný vzorec heteroskedascita •Příklad situace kdy homoskedascita není v pořádku