Zobrazení dvourozměrných dat, korelační koeficient Zobrazení dvourozměrných dat, korelační koeficient dvourozměrná ai zkoumá vztahy mezi dvěma proměnnými Do jaké míry jedna proměnná ovlivňuje druhou proměnnou? Př. Predikuje intelekt akademický úspěch? Mají dobří češtináři i dobré známky z matematiky "Jedna proměnná ovlivňuje druhou= • mezi proměnnými existuje vztah, pokud rozložení hodnot jedni proměnné je asociováno s rozložením hodnot druhé proměnné Statistická závislost hodnotě jedné veličiny (proměnné) odpovídá celké množství hodnot jiné veličiny př. výška žáků se s přibývajícím věkem zvětšuje (ale nelze tvrdit, že určitému věku rinalezi urcita vyska) - cílem výzkumu je obvykle prověřovat kauzální vztahy - v humanitních vědách velm ambiciózní Závislá a nezávislá proměnná Nezávislá proměnná - jejím chováním se vysvětluje chování závislé proměnné - příčinná proměnná - v důsledku jejich změny se mění vysvětlovaná proměnná. Závislá proměnná -její chování se snažíme vysvětlit - mění se v důsledku chování nezávislé proměnné Intervenující proměnná - zasahuje do vztahu mezi závislou a nezávislou proměnnou a ovliňuje jej - obvykle není možné identifikovat všechny intervenující proměnné Kontingencní tabulka - způsob, jak popsat dvourozměrná rozdělení - dá se použít pro všechny úrovně měření - nejvhodnější pro nominální úroeň (nemá příli mnoho hodnot) - nevhodná, když máme mnoho hodnot -nepřehlednost známka z čj celkem známka z matematiky 82 158 200 322 109 215 17 24 68 celkem 361 213 56 Kontingencní tabulk Kontingenční tabulka známka z matematiky celkem 82 158 200 322 109 215 17 24 68 131 361 213 56 766 v hlavní diagonále kontingenční tabulky více nakumulované hodnoty než jinde-lineární trend * Hodnoty je třeba přehledně uspořádat (stejně jako u tabulky četností) Pro data všech úrovní měření, nejvhodnější pro diskrétní prom. s málo hodnotami Buňky mohou obsahovat absolutní četnosti, rel. četnosti (řádkové, sloupcové, celkové) Poslední sloupec/řádek obsahuje tzv. sloupcové/řádkové marginální (relativní) četnosti Je grafickou podobou je trojrozměrného sloupcový diagramu či histogramu (může tedy obsahovat i intervaly) Relativně vysoké četnosti v jedné z diagonál naznačují lineární provázanost proměnných lil Prezi Grafická zobrazení dvourozměrného rozdělení (0:2] X <2:4] <4;fl] (6;B] "Sl (8:10| TQk. (10;12] T3l (12:14] (1+;16J (16;1B) (18:20) (20:22] (22:24] (24:26] >26 • Používá se na poměrové úrovni, zobrazuje přesné polohy odpovědi každého respondenta těsně související proměnné obvykle uspořádány do elipsy (čím užší a protáhlejší, tím těsnější vztah) Nahrazuje kontingenční tabulku, jsou-li obě proměnné spojité Pro proměnné s málo body měření nemá smysl Každá osa reprezentuje jednu proměnnou, každý bod je jedna zkoumaná osoba (jednotka) Poskytuje tím lepší evidenci o vztahu dvou proměnných. ...čím více měření jsme provedli .čím přesnější jednotlivá měření byla ♦ ♦ ♦ < * ♦ ♦ ♦ ♦ • o V. ♦1 v ♦ ♦ ♦ *** M « ♦ Různé podoby vztahu mezi dvěma proměnnými f Korelac vztah ch pouze j( mm prczi 096 080 0.40 0.025 ineární vztah j korelace. ■ Je to monotónr čím více X, tím • Projevuje se ta „ideální" přímkc - Tato funkce/přín popisuje strmost - Korelace popisi těsnost vztahu. Pouze takto vypadající scattery zobrazují vztah mezi 2 proměnnými, který je lineární a dobře (=smysluplně, výstižně) popsatelný pomocí Pearsonova korelačního koeficientu. U ostatních jde buď o vztahy nelineární, nebo je problém v heterogenitě, outlierech... imm Prezi Čím těsnější (intenzivnější, vztah 2 promě tím jsou body nahuštěny oko přímky Těsnost nesou sklonem té pří pouze s tím, ja scatterplot pod přímce. Těsnost se kde 0=žádn (data na dia Znaménko u (+) nebo o v Rozsah je ti Lineární souvislost (vztah) Lineární vztah je to, co se obvykle míní slovem korelace. Je to monotónní vztah, který se dá popsat slovy čím více X, tím více/méně Y. Projevuje se tak, že scatterplot se dá proložit „ideální" přímkou y = ax + b - Tato funkce/přímka popisuje strmost vztahu. - Korelace popisuje těsnost vztahu. * ♦ * • ♦ « * ► ♦ • ♦ %SfK /> ► * v ♦ +/* /* s r • * s * Těsnost vztahu Čím těsnější (intenzivnější, silnějš vztah 2 proměnných jě tím jsou body více nahuštěny okolo nějak přímky Těsnost nesouvisí se sklonem té přímky, ale pouze s tím, jak moc scatterplot podobá přímce. Těsnost se udává bezrozměrným číslem od 0 do 1, kde 0=žádný vztah(těsnost) a 1= maximální vztah (data na diagonále v obrázku napravo) Znaménko udává, zda jde o vztah čím víc, tím víc (+) nebo o vztah čím víc, tím míň (-) Rozsah je tedy od -1 do 1 in Prezi Standardizovaný sdílený rozptyl n-\ xy «-ltť y x,-mx\,yx-m ) Pearsonův součinový, momentový koeficient korelace □ nutná intervalová a vyšší úroveň měření □ velký vliv odlehlých hodnot na výsledek □ je vhodný pro popis normálně rozložených proměnných □ vyjadřuje pouze síl u (těsnost) lineárního vztahu Nabývá hodnot v rozmezí -1 až 1 0 = žádný vztah !(-!) = dokonalý kladný (záporný) vztah Korelace nepopisuje funkční vztah dvou proměnných, ale pouze jeho směr a těsnost. tmi .. Který z následujících korelačních koeficientů ukazuje na nejtěsnější (nejsilnější) vztah? a) 0,55 b) 0,09 c) -0,77 d) 0,1 e) 1,05 2. Pěti reprezentativním vzorkům lidí ve věku 15, 20, 30, 45 a 60 let jsme dali dotazník na měření politické konzervativnosti. Těmto 5 vzorkům v uvedeném pořadí vyšly následující průměrné hodnoty konzervativnosti: 60, 85, 80, 70, 65. Korelace mezi věkem a politickou konzervativností je a) 1.0 b) -1.0 c) lineární d) nelineární 3. Korelace mezi X a Y je 0,60; korelace mezi X a W je -0,80. Má X těsnější Zobrazení dvourozměrných dat, korelační koeficient