Zobrazení dvourozměrných dat, korelační koeficient Zobrazení dvourozměrných dat, korelační koeficient zkoumá vztahy mezi dvěma proměnnými Do jaké míry jedna proměnná ovlivňuje druhou proměnnou? Př. Predikuje intelekt akademický úspěch? Mají dobří češtináři i dobré známky z matematiky I"Jedna proměnná ovlivňuje druhou= • mezi proměnnými existuje vztah, pokud rozložení hodnot jedni proměnné je asociováno s rozložením hodnot druhé proměnné Statistická závislost hodnotě jedné veličiny (proměnné) odpovídá celké množství hodnot jiné veličiny př. výška žáků se s přibývajícím věkem zvětšuje (ale nelze tvrdit, že určitému věku rinalezi urcita vyska) - cílem výzkumu je obvykle prověřovat kauzální vztahy - v humanitních vědách velm ambiciózní Závislá a nezávislá proměnná Nezávislá proměnná - jejím chováním se vysvětluje chování závislé proměnné - příčinná proměnná - v důsledku jejich změny se mění vysvětlovaná proměnná. Závislá proměnná ■její chování se snažíme vysvětlit mění se v důsledku chování nezávislé proměnné Intervenující proměnná - zasahuje do vztahu mezi závislou a nezávislou proměnnou a ovliňuje jej - obvykle není možné identifikovat všechny intervenující proměnné =Ä Prczi Kontingenční tabulka - způsob, jak popsat dvourozměrná rozdělení - dá se použít pro všechny úrovně měření - nejvhodnější pro nominální úroveň (nemá příliš mnoho hodnot) - nevhodná, když máme mnoho hodnot -nepřehlednost známka z čj celkem známka z matematiky 82 158 200 322 109 215 17 68 131 361 213 56 766 Kontingenční tabulk I.tflíllM 1 ffi.H-n ...lil,; Kontingenční tabulka v hlavní diagonále kontingenční tabulky více nakumulované hodnoty než jinde - lineární trend Hodnoty je třeba přehledně uspořádat (stejně jako u tabulky četností) Pro data všech úrovní měření, nejvhodnější pro diskrétní prom. s málo hodnotami Buňky mohou obsahovat absolutní četnosti, rel. četnosti (řádkové, sloupcové, celkové) Poslední sloupec/řádek obsahuje tzv. sloupcové/řádkové marginální (relativní) četnosti Je grafickou podobou je trojrozměrného sloupcový diagramu či histogramu (může tedy obsahovat i intervaly) Relativně vysoké četnosti v jedné z diagonál naznačují lineární provázanost proměnných {ip Prczi rafická zobrazení Ivourozměrného rozdělení CÍP P^ezi Bivartate Histogram of B15 against B16 b_test_akt.sta 149v'3080c Include condition, u 133 = 1 Scalterplol of ZLYING against ZSCHOOL rudý rrien áa 41*i'481c ZLYING - 0.1397+0,0903'i-O.OCI94-x*2 (02] (2;4] X <«;fll >&. (8:6] 1&. (8:10] "O, (10;12J i©. (12;14) (14:16) (16;1S) (18:20) (20:22) (22:24) (24:26) =• 26 erplot Používá se na poměrové úrovni, zobrazuje přesné polohy odpovědi každého respondenta těsně související proměnné obvykle uspořádány do elipsy (čím užší a protáhlejší, tím těsnější vztah) Nahrazuje kontingenční tabulku, jsou-li obě proměnné spojité Pro proměnné s málo body měření nemá smysl • Každá osa reprezentuje jednu proměnnou, každý bod je jedna zkoumaná osoba (jednotka) Poskytuje tím lepší evidenci o vztahu dvou proměnných. ...čím více měření jsme provedli .čím přesnější jednotlivá měření byla ♦ ♦ ♦ ♦ i * . ♦% >*' < ^» U* * ' 1 • ♦ ♦ ♦ i • v * — ♦ i ♦ ♦ * Grafická zobrazení dvourozměrného Různé podoby vztahu mezi dvěma proměnnými f Korelac vztah ch pouze j( Pouze takto vypadající scattery zobrazují vztah mezi 2 proměnnými, který je lineární a dobře (=smysluplně, výstižně) popsatelný pomocí Pearsonova korelačního koeficientu. U ostatních jde buď o vztahy nelineární, nebo je problém v heterogenitě, outlierech... Lineární vztah je to, co se obvykle míní slovem korelace. Je to monotónní vztah, který se dá popsat slovy čím více X, tím více/méně Y. Projevuje se tak, že scatterplot se dá proložit „ideální" přímkou y = ax + b - Tato funkce/přímka popisuje strmost vztahu. - Korelace popisuje těsnost vztahu. • ♦ « ♦ *. ► ► * *:* ♦ * Těsnost vztahu Čím těsnější (intenzivnější, silnějš vztah 2 proměnných jě tím jsou body více nahuštěny okolo nějak přímky Těsnost nesouvisí se sklonem té přímky, ale pouze s tím, jak moc scatterplot podobá přímce. Těsnost se udává bezrozměrným číslem od 0 do 1, kde 0=žádný vztah(těsnost) a 1= maximální vztah (data na diagonále v obrázku napravo) Znaménko udává, zda jde o vztah čím víc, tím víc (+) nebo o vztah čím víc, tím míň (-) Rozsah je tedy od -1 do 1 Standardizovaný sdílený rozptyl _2>. n X- ) Pearsonův součinový, momentový koeficient korelace □ nutná intervalová a vyšší úroveň měření □ velký vliv odlehlých hodnot na výsledek □ je vhodný pro popis normálně rozložených proměnných (alespoň unimodální) □ vyjadřuje pouze síl u (těsnost) lineárního vztahu Nabývá hodnot v rozmezí -1 až 1 0 = žádný vztah !(-!) = dokonalý kladný (záporný) vztah Korelace nepopisuje funkční vztah dvou proměnných, ale pouze jeho směr a těsnost. 1. Kterýž následujících korelačních koeficientů ukazuje na nejtěsnější (nejsilnější) vztah? a) 0,55 b) 0,09 c) -0,77 d) 0,1 e) 1,05 2. Pěti reprezentativním vzorkům lidí ve věku 15, 20, 30, 45 a 60 let jsme dali dotazník na měření politické konzervativnosti. Těmto 5 vzorkům v uvedeném pořadí vyšly následující průměrné hodnoty konzervativnosti: 60, 85, 80, 70, 65. Korelace mezi věkem a politickou konzervativností je a) 1.0 b) -1.0 c) lineární d) nelineární 3. Korelace mezi X a Y je 0,60; korelace mezi X a W je -0,80. Má X těsnější lineární vztah s Y nebo s W? Zobrazení dvourozměrných dat, korelační koeficient