Regresní analýza Použití •TESTOVÁNÍ TEORIÍ !!! • •Zjištění vlivu nezávisle proměnné na závisle proměnnou –Při kontrole dalších možných faktorů –(predikce: jakou hodnotu bude mít závisle proměnná při určité kombinaci nezávisle proměnných) • Podmínky •Jedna závisle proměnná –+ Jedna nebo více nezávisle proměnných •Normálně rozdělená základní proměnná -Rozdělení a typ nezávisle proměnné může být jakékoli –+ několik dalších různě důležitých podmínek -Nezávislost pozorování -Předpoklad lineárního vztahu - -Nezávislost nezávisle proměnných mezi sebou -Homogenní rozptyl reziduí - • Rozhodovací strom Kardinální proměnná (intervalová, poměrová nebo dlouhá ordinální) Normální rozdělení Lineární regrese jiné rozdělení „jiná“ regrese (Poissonova, exponenciální, …) kategorická (nebo krátká ordinální) Nezáleží na rozdělení ale na počtu kategorií a jejich vztahu Logistická regrese (viz příští lekce) Více závisle proměnných Strukturní modelování a příbuzné metody pokud na sobě pozorování nejsou nezávislá – víceúrovňové modelování • • • Co regrese dělá •Odhad parametrů přímky (při 1 nezávisle proměnné), roviny (při 2) či nadroviny (při více) •Parametry: sklon (pro každou proměnnou) a konstanta (jedna pro celý model) •Parametry popisují vztah mezi nezávisle a závisle proměnnou •Hodnota závisle proměnné = konstanta + sklon*hodnota nezávisle proměnné •y = a + b*x •y = a + b1*x + b2*x + b3*x +… • • • • Postup •Nadefinování modelu pomocí hypotéz vycházejících z teorie •Sestavení datasetu obsahujícího závisle a nezávisle proměnné dle specifikace •Zkontrolování normality závisle proměnné •Zkontrolování vlastností nezávisle proměnných • • Normalita závisle proměnné •Jinakost rozdělení –ovlivňuje především hodnoty signifikance –Zkresluje odhady parametrů •Prvně vizuální zhodnocení pomocí histogramu •Testy –K-S a S-W –Ve velkých souborech lze brát s rezervou –Šikmost a strmost není větší než 3 • Další postup •Pokud je závisle proměnná v pořádku –Rekódování nezavisle proměnných –Kontrola multikolinearity nezávisle proměnných •Nezávisle proměnné by mezi sebou neměly příliš souviset •První kontrola pomocí korelačního koeficientu •Další kontrola přímo v modelu –Výpočet – Co nám výpočet poskytne? •R-square ( česky index determinace) –Ukazuje jak dobře model sedí na data •Parametry –Unstandardized beta (nestandardizovaný beta koeficient) –Constant (konstanta) •Hodnoty signifikance • Co je to R-square? •Ukazuje, kolik procent variability závisle proměnné je vysvětleno přidáním nezávisle proměnných •Původní variabilita je vypočtena jako suma kvadratických odchylek mezi průměrem a jednotlivými hodnotami závisle proměnné •„nová“ variabilita je vypočtena jako suma odchylek od regresní přímky/roviny •Rozdíl mezi původní a novou variabilitou vydělený původní variabilitou = R-square •Čím víc proměnných, tím nižší R-square –Řešeno pomocí adjusted R-squre Ilustrace toho co je to R-squre • Průměr závisle proměnné Průměr závisle proměnné Nestandardizovaný Beta koeficient •„o kolik se změní hodnota závisle proměnné, pokud se hodnota nezávisle proměnné změní o jednotku“ •Různé proměnné se mohou změnit o různý počet jednotek –Pro srovnání síly proměnných v modelu – standardizovaný koeficient beta ( jakou změnu v počtu směrodatných odchylek závisle proměnné způsobí změna o směrodatnou odchylku nezávisle proměnné) Konstanta •Jaká je očekávaná hodnota nezávisle proměnné, pokud jsou hodnoty všech nezávisle proměnných 0 •Pro smysluplnou interpretaci je často potřeba rekódovat proměnné –Každý má nějaký věk, pohlaví, výšku, váhu, … konstanta Následná kontrola •Outlieři •Homogenita rozptylu reziduí (homoskedascita) •multikolinearita • • • Příklad •Téma: Vnímání ideologické homogenity zastupitelstva •Popis problému: –v zastupitelstvu zasedá 8 stran –Voliči mezi respondenty hodnotili pozici stran na škále levice pravice –Někteří voliči si myslí, že strany v zastupitelstvu reprezentují odlišné ideologické pozice, někteří si myslí, že strany jsou nerozlišitelné •Otázka: Co způsobuje rozdílné vnímání ideologických rozdílů mezi stranami? • Teorie •Prostorové modely volebního chování •Občané jsou snáze schopni rozlišit strany blízké jejich pozici a hůře strany jim vzdálené •Více středových stran – voliči umisťující se do středu spektra by měli vnímat strany v zastupitelstvu jako různorodější než levicoví či pravicoví voliči •Voliči s vyšším zájmem o politiku by měli mít lepší informace o stranách a být lépe schopni rozlišit ideologické rozdíly mezi nimi •Role vzdělání a politické znalosti • Průměr KSČM 1.54 ČSSD 3.44 SZ 5.22 KDU-ČSL 5.28 Žít Brno 5.42 ANO 5.83 TOP09 7.58 ODS 7.73 Hypotézy •H1: Pravicoví a levicoví voliči vnímají strany jako méně rozdílné než středoví voliči •H2: S rostoucím zájmem o politiku roste vnímána rozdílnost mezi stranami. •H3: s vyšší vzděláním roste vnímaná rozdílnost mezi stranami •H4: voliči s nějakou politickou znalostí vnímají strany jako více rozdílné než voliči bez znalosti •H5: voliči umisťující se dále od všech stran vnímají strany jako podobnější • •H0 proměnná nemá vliv Proměnné •Závisle proměnná: Homogenita zastupitelstva –Spočítána jako odmocnina sumy odchylek pozice jednotlivých stran na škále levice pravice od průměrné pozice stran dle respondta –COMPUTE zastupitelstvo_lp=(q9_1+q9_2+ q9_3+ q9_4+ q9_5+ q9_6 + q9_8 + q9_7 ) /8. –COMPUTE ideolog_homog= sqrt((abs(q9_1- zastupitelstvo_lp)+ abs(q9_2- zastupitelstvo_lp)+ abs(q9_3- zastupitelstvo_lp)+ abs(q9_4- zastupitelstvo_lp)+ abs(q9_5- zastupitelstvo_lp)+ abs(q9_6- zastupitelstvo_lp)+ abs(q9_8- zastupitelstvo_lp)+ abs(q9_7- zastupitelstvo_lp)) /8). Test normality závisle proměnné •Histogram –Analyze- descriptive stat-frequncies – plots •Kolmogorův-Smirnovův test –Analyze – descriptive stat – explore – plots • • Po odebrání outlierů •Data – select cases – use filter variable – „filtr“ • Nezávisle proměnné •Zájem: součet proměnných ptajících se na zájem (od 0 do 50) •Responsivita: součet rekódovaných proměnných o plnění slibů (od 0 do 11) •Levice- pravice: škála od 0 do 10 •Znalost: zná jméno primátora =1, nezná=0 •Vzdlání: kategorická proměnná rekódovaná na dummy proměnné –VŠ vzdělání referenční kategorií •Graphs – legacy dialogs – Scatter/dot Kontrola linearity • Rekódování levice-pravice •Vytvoření 2 dummy proměnných •0-3 = levice •7-70 =pravice •Středoví voliči jsou referenční kategorií •Efekty levice a pravice se interpretují jako rozdíl oproti středu •(totéž platí pro vzdělání) • Kontrola multikolinearity •Analyze – correlate - bivariate Naklikání modelu •Analyze – regression – linear • •Dependent: ideolog_homog •Independent: responzivita, ucen, maturita, znalost, koalice, levice, pravice, vzdalenost • •Statistics: colinearity dignostics, casewise diagnistocs • •Plots: Y:*ZRESID, X:*ZPRED, produce all partial plots • •OK Interpretace R2 a adj. R2 • • •Model vysvětluje 32 % variability závisle proměnné • • • • •Model je statisticky významný (tj. můžeme jeho výstupy zobecnit na populaci) Interpretace R2 a adj. R2 •neukazuje, nakolik jsou výsledky platné v celém souboru, •neukazuje, pro jaké procento voličů vztah platí •ukazuje jak moc model vysvětluje rozptyl v závisle proměnné. •Jak dobře model popisuje realitu (zaznamenanouv datech) •Když je model nesignifikantní (tj. žádná z proměnných nepřispívá k vysvětlení rozptylu), tak použité proměnné nejsou vhodné, –nikoli, že k analýze proměnné není regrese použitelná •To závisí na naplnění předpokladů Interpretace konstanty •Nesmyslná, protože pokud volič má vzdálenost od stran 0, pak logicky musel sebe a všechny strany umístit na stejné místo na škále levice pravice •Proto proměnnou vzdálenost rekódujeme –Odečteme 0,61 •V novém modelu je konstantu možné interpretovat: • hodnota závisle proměnné očekávaná pro středové voliče s vysokoškolským vzděláním, kteří si myslí, že rada plní všechny své sliby a kteří se cítí relativně blízko všem stranám=0,794 • Interpretace nestandardizovaného beta koeficientu •2 situace •Dummy proměnné x kardinální proměnné • •Interpretace efektu dummy proměnné: –nestandardizovaný koeficient ukazuje rozdíl dané kategorie oproti referenční kategorii •Interpretace efektu kardinální proměnné –Při změně nezávisle proměnné o jednotku se hodnota závisle proměnné změní o hodnotu nestandardizovaného koeficient Interpretace efektu dummy proměnné • Interpretace efektu dummy proměnné •Levicový volič vnímá strany v zastupitelstvu jako ideologicky navzájem bližší než středový volič a to o 0,1 bodu •Nebo též •Rozdíl mezi levicovým a středovým voličem ve vnímání ideologických rozdílů mezi stranami je 0,1. Levicový volič vnímá strany jako ideologicky bližší. • Interpretace efektu kardinální proměnné • Interpretace efektu kardinální proměnné •Pokud je volič A o 1 bod dále od všech stran než volič B, měl by volič A považovat strany o 0,44 ideologicky rozdílnější než volič B •Nebo též •Pokud se vzdálenost od stran zvýší o 1bod, pak vnímaná ideologická různost stran vzroste o 0,44 bodu •Lze násobit –Pokud se vzdálenost od stran zvýší o 10 bodů, pak vnímaná ideologická různost stran vzroste o 4,4 bodu • • Hodnocení signifikance •Zobecňování výsledků na populaci •Obvyklá hranice sig. < 0,05 •Potom považujeme efekt za signifikantní na hladině významnosti 95 % •Nic nám nebrání zvolit si jinou hladinu významnosti (např. 90%, 99% nebo 99,99%) •S nižší hladinou roste riziko, že budeme za platný považovat i efekt který v populaci neplatí •S vyšší hladinou vyšší riziko že budeme za neplatný považovat i efekt, který v populaci platí • • Honocení multikolinearity •VIF •Arbitární hranice: 5 •A zároveň podobné hodnoty v dimenzích • •Proměnné levice a pravice –V pořádku, neboť se jedná o dummy proměnné vytvořené z jedené kategorické proměnné • Outlieři •Pro případy č. 499 a 500 očekáváme, že budou považovat strany za relativně různorodé, ale tito respondeti si myslí, že jsou všechny stejné pozici •Můžeme vyřadit a zjistit, co to udělá s výsledky Homoskedascita •V reziduích by neměl být žádný zřetelný vzorec heteroskedascita •Příklad situace kdy homoskedascita není v pořádku