Analýza kategorických proměnných POLb1139 Statistické myšlení v politologii Vícerozměrná analýza •Jednorozměrná analýza přináší informace o jednotlivých proměnných • •Cílem (nejen) statistiky je identifikovat vztahy mezi proměnnými za účelem lepšího poznání reality • •Praktickým vyjádřením této snahy je vícerozměrná analýza – souhrn postupů, které zahrnují vícero proměnných • • Vícerozměrná analýza •Jaký je vztah mezi vzděláním a výškou příjmu? • •Souvisí čas odevzdání seminární práce s jejím hodnocením? • •Mají starší lidé vyšší pravděpodobnost účasti ve volbách? • •Liší se známky studentů v závislosti na tom, zda výuka probíhá osobně anebo online? • Co je důležité vědět? •Jaké postupy jsou vhodné pro jaká data • •Jaké jsou silné stránky a limity daných postupů • •Jak chápat a interpretovat zjištění daných postupů • •V čem je rozdíl mezi statistickou a věcnou významností • • • • • Vztahy dvou proměnných •Podoba analýzy závisí na typu proměnných • •Kontingenční tabulky (crosstabs): •Dvě kategorické proměnné – nominální, ordinální •Nižší počet kategorií v proměnných (podmínka jsou minimálně dvě) •Korelace (correlation): •Dvě kardinální proměnné, kardinální a ordinální, dvě ordinální •Specifický případ – kardinální a dichotomická proměnná •Srovnání průměrů •Kardinální a kategorická proměnná • Kontingenční tabulky •Cross-tabulation, crosstabs • •Vztah mezi dvěma kategorickými proměnnými •Nominální, ordinální • •Příklady: •Věkové skupiny v. účast ve volbách •Pohlaví v. příjmové skupiny • • Navazujeme na: •Četnosti: počet případů náležejících do kategorie proměnné •V crosstabu malá změna: počet případů náležejících do kombinace kategorií proměnných •Složený sloupcový graf: •Vizualizace téhož, co zaznamenává kontingenční tabulka • • • • SPSS •Analyze à Descriptive Statistics à Crosstabs • •Rows: PClass • •Columns: Survived Pozorované četnosti (Observed) SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, Percentages: rows • Pozorované četnosti (Observed) + řádková procenta (Row) SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, Percentages: columns • •Statistics: Chi-square et al. Pozorované četnosti (Observed) + sloupcová procenta (Column) SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, Percentages: columns, rows, total • •Statistics: Chi-square et al. Otazník Stock Fotka zdarma - Public Domain Pictures Otazník Stock Fotka zdarma - Public Domain Pictures Otazník Stock Fotka zdarma - Public Domain Pictures Otazník Stock Fotka zdarma - Public Domain Pictures Otazník Stock Fotka zdarma - Public Domain Pictures Otazník Stock Fotka zdarma - Public Domain Pictures Crosstab věk x přežití? řešení •Rekódování věku do kategorií •Věcný smysl hranic intervalů (dospělost, důchodový věk,….) •Kvantily (různé možnosti počtu kategorií) •Transform -> recode into different variable •Input: age •Output name: vek_kat, potom change •Old and new values •Range, lowest through values: 20 -> new value 1 -> Add •Range 21 through 30 -> new value 2 -> Add •Range 31 through 40 -> new value 3 -> Add •Range, value through Highest: 41 -> new value 4 -> Add •Continue, ok • SPSS •Soubor ESS9CZ •Analyze à Descriptive Statistics à Crosstabs •Rows: Vzdelani_4kat •Columns: ucast •Cells: Counts: observed • Existuje vztah mezi vzděláním a volební účastí? SPSS •Soubor ESS9CZ •Analyze à Descriptive Statistics à Crosstabs •Rows: Vzdelani_4kat •Columns: ucast •Cells: Counts: observed, percentages: Rows • Existuje vztah mezi vzděláním a volební účastí? Lidé s vyšším vzděláním se voleb zúčastnili ve vyšší míře. Dá se ale tento závěr uplatnit i na celou populaci ČR? Pozorované vs. očekávané četnosti •Klíčové pro pochopení logiky kontingenčních tabulek • •Pozorované četnosti (Observed) – reálná pozorování spadající do konkrétní kategorie • •Očekávané četnosti (Expected) – četnost, která by se v konkrétní kategorii měla pozorovat za předpokladu nezávislosti obou proměnných • •Základní prvky pro výpočet chí-kvadrátu SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, expected • Pozorované četnosti (Observed) + očekávané četnosti (Expected) Test Chí-kvadrát •Posuzuje, zda jsou rozdíly mezi pozorovanými a očekávanými četnostmi natolik výrazné, aby nebyly pouze výsledkem náhody • •Je nutné si dát pozor na malé počty pozorování: •5 a méně pozorování v méně než 20 % kategorií •Kategorie s nenulovými pozorováními • •Analyze à Descriptive Statistics à Crosstabs •Statistics: Chi-square, Phi and Cramers V • •Mezi vzděláním a účastí ve volbách existuje signifikantní vztah à platí pro populaci • Cramer’s V (statology.org) =(počet sloupců – 1) X (počet sloupců – 1) Rezidua •Testy závislosti mezi proměnnými ukáží, zda mezi proměnnými existuje anebo neexistuje souvislost • •Pro věcné pochopení vztahu je důležité poznat více detailů • •Pro tento účel sledujeme adj. standardizované rezidua: •Vyjadřují standardizovaný rozdíl mezi pozorovanými a očekávanými četnostmi • SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, expected •Residuals: unstandardized • Pozorované četnosti (Observed) + očekávané četnosti (Expected) + nestandard. rezidua (Unstandardized) Standard. rezidua SPSS •Analyze à Descriptive Statistics à Crosstabs • •Cells: Counts: observed, expected •Residuals: adjusted standardized Pozorované četnosti (Observed) + očekávané četnosti (Expected) + adj. standard. rezidua (Adj. St. Res.) Které skupiny podle vzdělání by volily častěji / méně často oproti předpokladu nezávislosti obou proměnných? Shrnutí •Kontingenční tabulky jako nástroj pro zobrazení vztahu mezi dvěma kategorickými proměnnými • •Pomocí jednotlivých testů je možné identifikovat existenci a sílu vztahu mezi proměnnými • •Důležité je vnímat věcný rozměr zjištění • •Pozor na příliš obsáhlé kontingenční tabulky •Náročnější na interpretaci •Zbytečné zahlcení publika množstvím údajů (pozorované četnosti, očekávané četnosti, řádková procenta, sĺoupcová procenta, rezidua) •Hrozí, že v části kategorií bude jen malý počet hodnot