Analýza kategorických proměnných - crosstabs Vícerozměrná analýza •Jednorozměrná analýza přináší informace o jednotlivých proměnných • •Cílem (nejen) statistiky je identifikovat vztahy mezi proměnnými za účelem lepšího poznání reality • •Praktickým vyjádřením této snahy je vícerozměrná analýza – souhrn postupů, které zahrnují vícero proměnných • • Vícerozměrná analýza •Jaký je vztah mezi vzděláním a výškou příjmu? • •Souvisí čas odevzdání seminární práce s jejím hodnocením? • •Mají starší lidé vyšší pravděpodobnost účasti ve volbách? • •Liší se známky studentů v závislosti na tom, zda výuka probíhá osobně anebo online? • Co je důležité vědět? •Jaké postupy jsou vhodné pro jaká data • •Jaké jsou silné stránky a limity daných postupů • •Jak chápat a interpretovat zjištění daných postupů • •V čem je rozdíl mezi statistickou a věcnou významností • • • • • Vztahy dvou proměnných •Podoba analýzy závisí na typu proměnných • •Kontingenční tabulky (crosstabs): •Dvě kategorické proměnné – nominální, ordinální •Nižší počet kategorií v proměnných (podmínka jsou minimálně dvě) • •Korelace (correlation): •Dvě kardinální proměnné, kardinální a ordinální, dvě ordinální •Specifický případ – kardinální a dichotomická proměnná • Kontingenční tabulky •Cross-tabulation, crosstabs • •Vztah mezi dvěma kategorickými proměnnými •Nominální, ordinální • •Příklady: •pohlaví X účast ve volbách •Sociální třída X vzdělání • • Příklad •Souvislost mezi přežitím (0/1) a cestovní třídou (1-3) mezi účastníky potopení titanicu SPSS •Analyze à Descriptive Statistics à Crosstabs • •Rows: PClass • •Columns: Survived Pozorované četnosti (Observed) SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, Percentages: rows • Pozorované četnosti (Observed) + řádková procenta (Row) Šance •Pojem důležitý později pro logistickou regresi •Poměr pravděpodobností mezi tím, že jev nastane a nenastane •Hod korunou: šance, že padne orel je 1:1 (pravděpodobnost je 0,5) •Hod kostkou: šance, že padne šestka je 1:5 (pravděpodobnost je 0,16) • •Šance na přežití v 1. třidě je 63:37 (cca 1,7) •Šance na přežití ve 3. třidě je 25:75 (cca 0,3) •Šance na přežití v 1. třidě je zhruba 6x větší než ve 3.třídě •Pravděpodobnost přežití v 1. třídě vyšší 2,5x (je vyšší o 40 %) • • • SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, Percentages: columns • •Statistics: Chi-square et al. Pozorované četnosti (Observed) + sloupcová procenta (Column) SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, Percentages: columns, rows, total • •Statistics: Chi-square et al. Otazník Stock Fotka zdarma - Public Domain Pictures Otazník Stock Fotka zdarma - Public Domain Pictures Otazník Stock Fotka zdarma - Public Domain Pictures Otazník Stock Fotka zdarma - Public Domain Pictures Otazník Stock Fotka zdarma - Public Domain Pictures Otazník Stock Fotka zdarma - Public Domain Pictures Crosstab věk x přežití? řešení •Rekódování věku do kategorií •Věcný smysl hranic intervalů (dospělost, důchodový věk,….) •Kvantily (různé možnosti počtu kategorií) •Transform -> recode into different variable •Input: age •Output name: vek_kat, potom change •Old and new values •Range, lowest through values: 20 -> new value 1 -> Add •Range 21 through 30 -> new value 2 -> Add •Range 31 through 40 -> new value 3 -> Add •Range, value through Highest: 41 -> new value 4 -> Add •Continue, ok • Příklad: •Jak spolu souvisí vzdělání s volební účastí? • •Data: reprezentativní vzorek SPSS •Soubor ESS9CZ •Analyze à Descriptive Statistics à Crosstabs •Rows: Vzdelani_4kat •Columns: ucast •Cells: Counts: observed • Existuje vztah mezi vzděláním a volební účastí? SPSS •Soubor ESS9CZ •Analyze à Descriptive Statistics à Crosstabs •Rows: Vzdelani_4kat •Columns: ucast •Cells: Counts: observed, percentages: Rows • Existuje vztah mezi vzděláním a volební účastí? Lidé s vyšším vzděláním se voleb zúčastnili ve vyšší míře. Dá se ale tento závěr uplatnit i na celou populaci ČR? Pozorované vs. očekávané četnosti •Klíčové pro pochopení logiky kontingenčních tabulek • •Pozorované četnosti (Observed) – reálná pozorování spadající do konkrétní kategorie • •Očekávané četnosti (Expected) – četnost, která by se v konkrétní kategorii měla pozorovat za předpokladu nezávislosti obou proměnných • •Základní prvky pro výpočet chí-kvadrátu SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, expected • Pozorované četnosti (Observed) + očekávané četnosti (Expected) Test Chí-kvadrát •Posuzuje, zda jsou rozdíly mezi pozorovanými a očekávanými četnostmi natolik výrazné, aby nebyly pouze výsledkem náhody • •Je nutné si dát pozor na malé počty pozorování: •5 a méně pozorování v méně než 20 % kategorií •Kategorie s nenulovými počty pozorování • •Analyze à Descriptive Statistics à Crosstabs •Statistics: Chi-square, Phi and Cramers V • •Mezi vzděláním a účastí ve volbách existuje signifikantní vztah à platí pro populaci • Cramer’s V (statology.org) Rezidua •Testy závislosti mezi proměnnými ukáží, zda mezi proměnnými existuje anebo neexistuje asociace • •Pro věcné pochopení vztahu je důležité poznat více detailů • •Pro tento účel sledujeme adj. standardizované rezidua: •Vyjadřují standardizovaný rozdíl mezi pozorovanými a očekávanými četnostmi • SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, expectedl • •Statistics: Chi-square et al. Pozorované četnosti (Observed) + očekávané četnosti (Expected) + nestandard. rezidua (Unstandardized) Standard. rezidua SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, expected •Residuals: unstandardized • SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, expected •Residuals: adjusted standardized Pozorované četnosti (Observed) + očekávané četnosti (Expected) + adj. standard. rezidua (Adj. St. Res.) Které skupiny podle vzdělání by volily častěji / méně často oproti předpokladu nezávislosti obou proměnných? Ne každý statisticky významný výsledek má smysl Shrnutí •Kontingenční tabulky jako nástroj pro zobrazení vztahu mezi dvěma kategorickými proměnnými • •Pomocí jednotlivých testů je možné identifikovat existenci a sílu vztahu mezi proměnnými • •Důležité je vnímat věcný rozměr zjištění • •Pozor na příliš obsáhlé kontingenční tabulky •Náročnější na interpretaci •Zbytečné zahlcení publika množstvím údajů (pozorované četnosti, očekávané četnosti, řádková procenta, sĺoupcová procenta, rezidua) •Hrozí, že v části kategorií bude jen malý počet hodnot •Jde jen o souvislost, vliv 3. proměnných dokáže odfiltrovat logistická regrese •