MÍRY ASOCIACE, KORELACE ZUR357 Statistická analýza dat -- 30. listopadu 2017 KORELACE – MÍRY ASOCIACE - Úkolem dvourozměrné analýzy nebo vícerozměrné analýzy (více proměnných) je zjistit, je-li mezi nimi prokazatelná souvislost (matematická – kterou nelze zaměnit za vztah příčiny a následku). „Osoby s vysokoškolským vzděláním mají vyšší příjmy“. - Prokázání ASOCIACE není důkazem její KAUZALITY. - Souvislost či vztah je vlastně jen pravděpodobnosti uhádnout správně stav (hodnotu) jedné proměnné na základě stavu (hodnoty) druhé proměnné. 3 PODMÍNKY KAUZALITY 1.EXISTUJÍ SOUBĚŽNÉ ZMĚNY V OBOU PROMĚNNÝCH. 2. 2.JE VYLOUČENA EXISTENCE NĚJAKÉ DALŠÍ, VNĚJŠÍ PŘÍČINY. 3. 3.ZMĚNY V OBOU PROMĚNNÝCH SE OBJEVUJÍ V LOGICKÉM POŘADÍ (ROZLIŠENÍ PŘÍČINY A DŮSLEDKU). V PŘÍPADĚ ASOCIACE ŘEŠÍME Zda-li vůbec existuje, či nikoliv. Zda je symetrická či nesymetrická Jaký má směr: je-li pozitivní, či negativní Jakou má sílu (těsnost): Do jaké míry rozložení variant jedné proměnné určuje rozložení variant druhé proměnné (rozdíly párového výskytu jednotlivých variant proměnných). Jakou má povahu: je-li monotónní (lineární) či jiného druhu. + Určujeme i významnost (když máme reprezentativní výběrové soubory). SÍLA ASOCIACE Měří statistické koeficienty asociace. Použití konkrétních koeficientů je určeno: Úrovní měření. Velikostí či tvarem kontingenční tabulky. Linearitou či nelinearitou vztahu. Symetrií či asymetrií vztahu. Pro každou úroveň měření (nominální, ordinální a kardinální) jsou určeny zvláštní koeficienty. Hodnoty koeficientů se většinou pohybují v intervalech: <0;1> Koeficient vypovídá o síle tohoto vztahu, ne o jeho směru (u nominálního znaku nemá směr žádný smysl). <-1;+1> Koeficient vypovídá o síle tohoto vztahu, znaménko o jeho směru (ordinální a kardinální proměnné). Čím vyšší je hodnota koeficientu asociace (v absolutní hodnotě), tím silnější je vztah. Znaménko koeficientu asociace určuje směr (asymetrického) vztahu. Neříká nic o síle vztahu (o té vypovídá absolutní hodnota koeficientu). ukrývá i Spearmanův koeficient HODNOTA KOEFICIENTU ASOCIACE u Nulová hodnota obvykle znamená, že vztah neexistuje. u Někdy ovšem je to jen výraz toho, že vztah není lineární. u Hodnota 1,00 znamená perfektní vztah. KOEFICIENTY PRO NOMINÁLNÍ PROMĚNNÉ ZALOŽENÉ NA CHÍ2 - Phi: Pro tabulky 2x2, u větších může nabývat hodnot nad 1,00. C: Pearsonův koeficient kontingence. Nabývá hodnot <0;1>. Cramer’s V: Pro větší tabulky (u tabulky 2x2 je identický s Phi). KOEFICIENTY PRO NOMINÁLNÍ PROMĚNNÉ ZALOŽENÉ NA PROPORCIÁLNÍ REDUKCI CHYBY Symetrické LAMBDA. Asymetrické LAMBDA. Hodnota závisí na tom, která proměnná predikuje druhou proměnnou. KOEFICIENTY ASOCIACE ORDINÁLNÍCH PROMĚNNÝCH Nabývají hodnot <-1;1> Pro lineární vztahy. U nelineárních vztahů se použije míra asociace pro nominální proměnné. Pro symetrické vztahy Goodman-Kruskalovo Gamma. Kendallovo taub (čtvercová tabulka). Kendallovo tauc (obdélníkové tabulky). Spearmanův koeficient pořadové korelace Pro asymetrické vztahy Somersovo D – jedna z proměnných brána jako závislá. PŘÍKLAD: Předpokládejme, že míra religiozity pozitivně koresponduje s mírou odporu vůči potratům (obě ordinální!). Je-li tedy osoba A religióznější než osoba B, lze předpokládat, že i míra odporu proti potratům u ní bude větší než u osoby B. Porovnáváme všechny páry a GAMA je podílem párových srovnání, která tomuto předpokladu vyhovují. KOEFICIENTY ZALOŽENÉ NA POŘADOVÉ KORELACI SPEARMANŮV koeficient pořadové korelace je neparametrickou metodou a nabývá hodnot <-1;+1>. Je vhodný pro ordinální proměnné s větším počtem hodnot. KOEFICIENTY KOREALCE PRO KARDINÁLNÍ PROMĚNNÉ PEARSONŮV KORELAČNÍ KOEFICIENT r Koeficient nerozlišuje co je příčina a co důsledek (nezávislá a závislá proměnná). PERFEKTNÍ KORELACE PERFEKTNÍ NEZÁVISLOST SILNÁ KORELACE (pozitivní) r = 0 r = 1 (pozitivní) SILNÁ KORELACE (negativní) r = -1 (negativní) r se blíží -1 r se blíží 1 r = 0 (vztah není nebo není lineární). Znalost hodnoty X nezlepší naši schopnost odhadnout správně hodnotu Y. r = 1 (perfektní pozitivní korelace). S rostoucí hodnotou X hodnota Y roste. Hodnotu Y odhadneme na základě znalosti hodnoty X bez jakéhokoliv omylu. r = - 1 (perfektní negativní korelace). S rostoucí hodnotou X hodnota Y klesá. Hodnotu Y odhadneme na základě znalosti hodnoty X bez jakéhokoliv omylu. ETA koeficient - když závisle proměnná je kardinální (měřená na intervalové škále) a - nezávisle proměnná je nominální nebo ordinální (měřená na nominální nebo ordinální škále). TEST LINEARITY ASOCIACE Použít kontingenční tabulku. Porovnat skupinové průměry. Porovnat lineární a nelineární koeficienty. Analyzovat residuály. R2 = KOEFICIENT DETERMINANCE