Stationery anabnr2 1 Asociace / souvislost nHlavním účelem analýzy dat s dvěma proměnnými je zjistit zda je mezi proměnnými souvislost a popsat povahu této souvislosti nSouvislost existuje, pokud nějaká hodnota jedné proměnné se vyskytne pravděpodobněji s určitými hodnotami jinými proměnnými npř. 1. Přežít určité období je pravděpodobnější pro kuřáky než pro nekuřáky. 2. V případě vyššího užití energie, má úroveň CO2 v atmosféře tendenci být vyšší? 3. Daňoví poplatníci vyšší příjmové skupiny mají tendenci být pravděpodobněji kontrolováni než poplatníci nižších příjmových skupin. 4. Pokud dám první koš, mám vyšší pravděpodobnost dát druhý koš, než pokud ho nedám. n2 otázky: nExistuje souvislost? nJak je silná? n n Stationery anabnr2 2 Závislá a nezávislá proměnná nJak výsledek závislé proměnné závisí / je vysvětlen hodnotou nezávisle proměnné nZávislá proměnná = výsledek který je porovnáván nNezávislá nKategorická = definuje skupiny které srovnáváme vzhledem k hodnotám závislé proměnné nKvantitativní = definuje jak změna mezi různými numerickými hodnotami souvisí s hodnotami výsledné proměnné Stationery anabnr2 3 Souvislost podle typu proměnné n3 základní typy situací: nObě proměnné kategorické nZobrazujeme pomocí kontingenčních tabulek a asociaci zkoumáme prostřednictvím podmíněných proporcí/pravděpodobností nKvantitativní a kategorická proměnná nSrovnáváme kategorie nezávisle proměnné (pohlaví) podle velikosti závislé proměnné (př. příjem) na základě měr centrální tendence a variability (např. průměrný příjem) nObě kvantitativní nAnalyzujeme jak se výsledek závisle proměnné mění když se mění hodnota nezávisle proměnné nZobrazujeme bodové rozptýlení (regulujeme extrémní/odlehlé hodnoty) Stationery anabnr2 4 Asociace mezi kategorickými proměnnými nPř. typ jídla (bio/běžné) vs. úroveň pesticidů (vysoká/nízká) nProces: „křížení“ (crosstabulation) / třídění 2. stupně nZpůsob zobrazení (výsledek): kontingenční tabulka nObsahuje kombinace kategorií obou proměnných nKaždá kombinace = buňka nPodmíněné proporce vs. marginální proporce nAsociaci zjistíme srovnáním podmíněných proporcí – je proporce potravin s obsahem pesticidů stejná u bio potravin a běžných potravin? Ano = nezávislost, Ne = souvislost n n Stationery anabnr2 5 nMíra asociace je statistika která sumarizuje sílu závislosti mezi dvěma proměnnými nRozdíl v podmíněných proporcích n(-1 až 1) , 0 = nezávislost (např. 0.6 - 0.6 = 0), 1 a -1 extrémní souvislost (např. 0 - 1) nPoměr podmíněných proporcí (relativní riziko=RR, také „risk ratio“) n(0 až nekonečno), 1 = nezávislost, čím dále od 1 tím větší závislost, nicméně RR = 4 (např. 0.8/0.2) a RR=0.25 (0.2/0.8) představují stejně silný vztah nPoměr šancí (OR, také „odds ratio“) n(0 až nekonečno), 1 = nezávislost nStatistiky založené na chí-kvadrátu (Phí, Cramerovo V)…naučíme se později Míry měření asociace mezi kategorickými proměnnými Stationery anabnr2 nRR = 0,8 / 0,8 = 1 n 6 Příjem Prošlo kontrolou Neprošlo kontrolou Celkem Pod 200tis 0,01 (1260) 0,99 (132147) 1 (133407) 200tis-1mil 0,03 (131) 0,97 (4311) 1 (4442) Více než 1mil 0,07 (22) 0,93 (371) 1 (393) 2koš 2mimo celkem 1koš 0,8 (41) 0,2 (10) 1 (51) 1mimo 0,8 (10) 0,2 (3) 1 (13) nRR (pod 200tis. Vs. 200-1.mil.) = 0,01 / 0,03 = 0,3333 nNebo RR (200-1.mil. Vs. pod 200tis.) = 0,03 / 0,01 = 3 n Relativní riziko Stationery anabnr2 7 nŠance (odds) projít kontrolou spíše než neprojít kontrolou v případě příjmu pod 200tis = 1260 / 132147 = 0,0095348 nŠance (odds) projít kontrolou spíše než neprojít kontrolou v případě příjmu 200tis.-1mil. = 131 / 4311 = 0,030387 nPoměr šancí (OR, odds ratio) = 0,0095348 / 0,030387 = 0,3137 nAlternativní výpočet do kříže (1260*4311)/(131*132147)=5431860/17311257=0,3137 Poměr šancí (odds ratio) Příjem Prošlo kontrolou Neprošlo kontrolou Celkem Pod 200tis 0,0091 (1260) 0,9559 (132147) 0,9650 (133407) 200tis-1mil 0,0009 (131) 0,0312 (4311) 0,0321 (4442) Více než 1mil 0,0002 (22) 0,0027 (371) 0,0029 (393) Celkem 0,0102 (1413) 0,9898 (136829) 1 (138242) Stationery anabnr2 8 Souvislost mezi dvěma kvantitativními proměnnými nProzkoumáme bodové rozptýlení… nBodové rozptýlení: bod = hodnoty na proměnných x a y pro daného člověka nČeho si lze všimnout: nJasný trend: Lidé s vyšší váhou mají obecně vyšší výšku. nRůznost ve výšce v rozsahu cca 10 až 15 cm je relativně konstantní bez ohledu na váhu člověka (homogenní rozptyl) nČlověk s velkou vahou (83kg) a malou výškou (169cm) je relativně neobvyklý případ vzhledem k celkovému trendu n n n n n File:Heteroscedasticity.png Stationery anabnr2 9 nProzkoumáme bodové rozptýlení…(2) nVypadá vztah pozitivně nebo negativně? nPozitivní souvislost=když vysoké hodnoty x mají tendenci vyskytovat se s vysokými hodnotami y (když x jde nahoru, y má tendenci jít také nahoru) nNegativní souvislost=když vysoké hodnoty x mají tendenci vyskytovat se s nízkými hodnotami y (když x jde nahoru, y má tendenci jít dolů) Obrázek7.wmf Obrázek7.wmf Obrázek8.wmf pozitivní souvislost negativní souvislost Stationery anabnr2 10 nProzkoumáme bodové rozptýlení…(3) nJe trend v datech lineární tj. dá se aproximovat přímkou? Pokud ano, jak blízko přímky body leží? n n n n n Obrázek3.emf Obrázek4.emf Obrázek4.emf lineární nelineární Stationery anabnr2 11 nProzkoumáme bodové rozptýlení…(4) nJsou některá pozorování neobvyklá, odporující celkovému trendu? nPř. váha=50kg, výška=215cm n n n n n n Stationery anabnr2 12 Měření síly souvislosti: dvě kvantitativní proměnné nkoeficient korelace r = -1 až 1 nmezní hodnoty -1 a 1 značí absolutní souvislost nhodnota 0 značí absolutní nezávislost nrůzné druhy korelačních koeficientů, použití se liší podle druhu dat, typu závislosti a typu rozložení nnejčastěji používané: nPearsonův koeficient součinové korelace nSpearmanův koeficient pořadové korelace Stationery anabnr2 13 Pearsonův koeficient součinové korelace nIndikuje směr a sílu lineární souvislosti mezi dvěma kvantitativními proměnnými nNabývá hodnot -1 až 1 nNegativní hodnota r indikuje negativní souvislost, pozitivní r značí pozitivní souvislost nČím více se hodnota blíží +-1, tím blíže přímce body přiléhají a tím silnější je souvislost nČím blíže 0, tím slabší souvislost nHodnota koeficientu nezávisí na jednotce měření (např. pokud změníme jednotku z centimetrů na milimetry, korelace se nemění) nDvě proměnné mají stejnou korelaci, bez ohledu na to, kterou z nich vnímáme jako závislou resp. nezávislou n Stationery anabnr2 14 Výpočet Pearsonova korelačního koeficientu nNa pearsonův korelační koeficient lze pohlížet jako na průměrný násobek všech z-skórů pro proměnné x a y nr = Σ (zx*zy) / n – 1 nPři využití hodnot z tabulky: 7,35 / 9 = 0,816 n n n n n n n n n nNásledující snímek nabízí alternativní výpočet se stejným výsledkem… x y 2 0 2 2 3 1 3 3 4 2 4 4 5 3 5 5 6 4 6 6 x y Zx Zy Zx*Zy 2 0 -1,34164 -1,64317 2,205 2 2 -1,34164 -0,54772 0,735 3 1 -0,67082 -1,09545 0,735 3 3 -0,67082 0 0 4 2 0 -0,54772 0 4 4 0 0,54772 0 5 3 0,67082 0 0 5 5 0,67082 1,09545 0,735 6 4 1,34164 0,54772 0,735 6 6 1,34164 1,64317 2,205 suma = 7,35 ANABNR2 15 Korelace výpočet s příkladem x y 2 0 2 2 3 1 3 3 4 2 4 4 5 3 5 5 6 4 6 6 korelace mezi x a y, neboli R xy = cov(x,y) / s(x) * s(y), Cov (x,y) = Σ dx * dy / n -1 = Σ (xi – x)*(yi – y) / n - 1 X = Σ xi / n = 40 / 10 = 4 Y = Σ yi / n = 30 / 10 = 3 Cov (x,y) = Σ dx * dy / n -1 = Σ (xi – x)*(yi – y) / n - 1 = (-2*-3) + (-2*-1) + (-1*-2) + 0 + 0 + 0 + 0 +(1*2) + (2*1) + (2*3) = 20 / 9 = 2,22 s(x) * s(y) = √ var (x) * √ var (y) var (x) = Σ (xi – x )2 / n -1 = 20 / 9 = 2,22 var (y) = Σ (yi – y )2 / n -1 = 30 / 9 = 3,33 R xy= cov(x,y) / s(x) s(y) = 2,22 / √ 2,22 * √ 3,33 = 2,22 / 2,72 = 0,816 kovariance Legenda Xi = hodnota X pro jednotlivá individua X = průměr pro x d = absolutní odchylka var(x)=rozptyl x s(x)=směrodatná odchylka Cov (x,y)=kovariance mezi x a y R (x,y)= korelace mezi x a y (Databáze korelace a regrese.sav) Stationery anabnr2 16 Předpoklady použití Pearsonova korelačního koeficientu n1) nejméně intervalová data n2) normální rozložení v populaci n3) neexistence extrémních případů n4) linearita vztahu n n2, 3 a 4 třeba ověřit / otestovat n nNení-li jeden z předpokladů naplněn a máme-li alespoň ordinální data, používáme Spearmanův koeficient 225px-Karl_Pearson_2 Stationery anabnr2 17 Předpoklad linearity vztahu Obrázek3.emf Obrázek4.emf Obrázek4.emf lineární nelineární Stationery anabnr2 18 Ověřování předpokladu linearity vztahu nNejlépe pomocí bodového rozptýlení (scatterplot) Stationery anabnr2 19 Ověřování předpokladu neexistence extrémních hodnot Např. pomocí krabicového diagramu (boxplot) nebo jiného zobrazení extrémních hodnot… Stationery anabnr2 20 Jak nenaplnění předpokladu neexistence extrémních hodnot ovlivní Pearsonův r? Stationery anabnr2 21 Ověřování předpokladu normality a)Graficky – pozorované hodnoty ve vzorku vs. očekávané hodnoty pokud je populace normálně rozložená b)Kolmogorov-Smirnov test normality rozložení 225px-Kolmogorov-m Smirnov_2 Stationery anabnr2 22 Korelační koeficient a bodové rozptýlení proměnných x a y priklady korelace bodove grafy Stationery anabnr2 23 …další příklady Soubor:Correlation examples.png (zdroj: wikipedia) Stationery anabnr2 24 nÚčel regresní analýzy: Predikce výsledku závislé proměnné na základě nezávisle proměnné nRegresní přímka predikuje (odhaduje) hodnotu závislé proměnné (např. váha) jako lineární funkci hodnoty nezávisle proměnné (např. výška) nPredikovanou hodnotu proměnné y označujeme y^. nRovnice regresní přímky má obecný tvar: y^ = a + bx, n kdy a=úrovňová konstanta a b=sklon nÚrovňová konstanta (a) je predikovaná n (průměrná) hodnota y když x = 0 nSklon (b) představuje množství n o které se změní y ^ n pokud se x zvýší o jednotku regrese a b Úvod do regresní analýzy Stationery anabnr2 25 Výpočet regresních koeficientů nSklon b je roven součinu korelačního koeficientu xy s podílem směrodatných odchylek x a y nb = r (Sy/Sx) = 0,816*(1,826/1,491)=0,816*1,225=1 nÚrovňová konstanta a je rovna rozdílu mezi průměrnou hodnotou y a součinem sklonu s průměrnou hodnotou x na= yprůměr – b(xprůměr) = 3 – 1(4) = -1 x y 2 0 2 2 3 1 3 3 4 2 4 4 5 3 5 5 6 4 6 6 Stationery anabnr2 26 Interpretace regresních koeficientů: příklad fotbalistů (databáze fotbal_korelace.sav) n nPř. Odhadujeme váhu fotbalisty na základě jeho výšky nDostali jsme regresní rovnici y^ = - 65.85 + 0,784x, nkde y^ =odhad váhy (v kg) a x=výška (v cm) nInterpretace úrovňové konstanty a=-65.85: Fotbalisté kteří měří 0 cm váží v průměru -65.85kg nInterpretace sklonu b=0,784: S každým centimetrem navíc roste váha fotbalisty o 0,784kg. Např. fotbalisté, kteří měří 163cm váží v průměru yi = -65.85 + 0,784 *(163) = 62kg n n n n Stationery anabnr2 27 Reziduál a metoda nejmenších čtverců nV reálném světě kde „vše souvisí se vším“ a data tvoří velký počet případů nelze najít takové koeficienty, které by přesně vyhovovaly každému jednotlivému případu – predikce bude zatížena chybou (každý bod leží v různé vertikální vzdálenosti od přímky) nNapř. regresní model predikuje člověku s výškou 163 cm váhu 62kg, ačkoli jeho skutečná váha je 59kg (viz další snímek), neboť váha souvisí kromě výšky i s jinými faktory, které jsme v regresní analýze ignorovali nAbsolutní hodnota reziduálu (e) každého člověka npředstavuje rozdíl mezi skutečnou hodnotou závislé proměnné (např. y = 59kg) a jejím odhadem (např. y^ = 62kg) nIdeální stav: y^ = a + bx nskutečný stav: y = a + bx + e ny - y^ = e nv bodovém rozptýlení se jedná o vertikální vzdálenost mezi bodem a přímkou u každého člověka (viz další snímek) nVolí se takový tvar regresní rovnice, jehož použitím dosáhneme nejmenší celkové chyby tj. nejmenší sumy všech druhých mocnin reziduálů u všech lidí ve vzorku = metoda nejmenších čtverců n n n n n n Stationery anabnr2 28 Stationery anabnr2 29 Regresní přímka a metoda nejmenších čtverců (databáze korelace a regrese.sav) kovariance Regresní přímka je položena tak, aby součet všech čtverců (=součet všech rozdílů mezi odhadovanými y a skutečnými y umocněných na druhou) byl nejmenší možný Regresní rovnice: y = -1 + 1x + e α β Stationery anabnr2 30 Koeficient determinace R2 nJako predikce hodnoty závislé proměnné y by mohl posloužit i průměrná hodnota y nPokud však mezi x a y je souvislost, pak nám regresní přímka umožňuje predikovat y přesněji než za použití pouhého průměru y nSíla vztahu mezi x a y je dána tím, jak moc přesněji můžeme predikovat y použijeme-li regresní rovnici namísto pouhého průměru y nDruhá mocnina korelačního koeficientu udává, o kolik menší je chyba predikce za použití regresní rovnice (y - y^) ve srovnání s použitím průměru (y – yprůměr). nPř. r2 = 0,816*0,816=0,67 udává, že průměrná chyba predikce y použitím regresní rovnice je o 67% menší, než v případě použití průměru nNebo také jinak, že 67% rozptylu v proměnné y je vysvětleno lineárním vztahem mezi x a y (rozptyl predikovaných hodnot y z regresní rovnice představuje 67% rozptylu pozorovaných hodnot y) n n Stationery anabnr2 31 Nepravá korelace Z Y X Počet domácností Počet čápů Počet dětí nKorelace neznamená kauzalitu (příčinný vztah mezi X a Y) nKdykoli pozorujeme vztah mezi X a Y, je možné že existuje třetí proměnná Z která je zodpovědná za tento vztah nPř. znamená vysoká korelace mezi počtem čápů a počtem dětí, že čápi nosí děti? n