1 SOC108/708 LEKCE 2: ROZLOŽENÍ KATEGORIZOVANÝCH A SPOJITýCH DAT: ZÁKLADY UNIVARIAČNÍ ANALÝZY (c) Petr Mareš a Ladislav Rabušic 2003 LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT Základní statistickou úlohou je popis stavu základního souboru Východiskem je většinou výběrový soubor (odvozujeme popis základního souboru z popisu souboru výběrového). Statistický popis spočívá ve zjištění statistického rozložení Neboli rozdělení neboli distribuce četností u hodnot proměnné (znaku) Statistické rozložení může být vyjádřeno v: ˙ Absolutních četnostech Kolik případů má danou vlastnost (z těch, jež jsou logicky v proměnné seskupeny) ˙ Např. Kolik je v souboru mužů (žen). ˙ Např. Kolik je v souboru osob s vysokoškolským vzděláním. Součet absolutních četností ve všech kategoriích (včetně chybějících hodnot) je velikostí (rozsahem) souboru. ˙ Relativních četnostech Jaký podíl představují případy mající danou vlastnost (z celku vlastností logicky v proměnné seskupených) ˙ Např. Jaký podíl mužů (a jaký podíl žen) je v souboru. ˙ Např. Jaký podíl osob s vysokoškolským vzděláním je v souboru. Součet relativních četností ve všech kategoriích dává 100%. ˙ Kumulativních relativních četnostech (nemají smysl u nominálních znaků) ˙ Např. Jaký podíl osob alespoň s maturitou je v souboru. Zadání frekvenční tabulky zachycující rozložení dat (NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ). Základním výstupem procedury FREQUENCIES je FREKVENČNÍ TABULKA: Můžeme ovšem zadat i další statistiky, které mají u daného typu proměnné smysl. U nominálních proměnných modus, u ordinálních modus a medián, pouze u kardinálních vedle modusu a mediánu i aritmetický průměr (a samozřejmě odpovídající míry rozptýlenosti) -- ZDE OVŠEM NEMÁ SMYSL FREKVENČNÍ TABULKA A PROTO PRO FREKVENČNÍ ANALÝZU KARDINÁLNÍCH DAT POUŽIJEME RADĚJI PROCEDUR EXPLORE nebo DESCRIPTIVES, popřípadě potlačíme zobrazení frekvenční tabulky (odstranit zaškrtnutí Display frequency tables). Zadat můžeme také jednoduchý graf zobrazující rozložení případů v kategoriích (absolutně či jejich procentuální podíl v celku). Grafy ovšem často zadáváme raději v modulu menu GRAPHS. Je to jednoduché, chce to jen trochu experimentovat. JAK ČÍST FREKVENČNÍ TABULKU Příklad: Když zvážíte všechny okolnosti, řekl/a byste, že jste základem pro výpočet jsou jen ti, kdo odpověděli kódy labels podíl těch, kdo jsou vlastností vlastností alespoň "celkem šťastní" VALIDNÍ RELATIVNÍ ČETNOSTI Někdy nepočítáme podíl dané kategorie z celého souboru. Musíme si například poradit transformací proměnné tam, kde je její součástí kategorie, která nevstupuje do analýzy. Pokud by byla dále odstraněna varianta "ne vím" - získáváme tak podíl postojů jen mezi těmi, kdo měli na věc názor. ZÁKLADNÍ ZOBRAZENÍ ROZLOŽENÍ ČETNOSTÍ KATEGORIZOVANÉ PROMĚNNÉ SLOUPCOVÝ GRAF Lze ho zadat v proceduře FREQUENCIES nebo v proceduře GRAPHS - BAR - SIMPLE KOLÁČOVÝ GRAF Lze ho zadat v proceduře FREQUENCIES nebo v proceduře GRAPHS - BAR - SIMPLE CHARAKTERISTIKY ROZLOŽENÍ NOMINÁLNÍ PROMĚNNÉ Střední hodnota: ˙ MODUS (nejčetněji obsazená kategorie neboli hodnota proměnné Míra variability: četnost modální kategorie ˙ Variační poměr = 1 - velikost souboru CHARAKTERISTIKY ROZLOŽENÍ ORDINÁLNÍ PROMĚNNÉ Střední hodnota: ˙ MODUS ˙ MEDIÁN je číslo mediánové kategorie (MEDIÁNOVÁ KATEGORIE je ta, ve které je dosaženo 50% všech údajů, postupujeme-li od první kategorie výše) Míra variability: ˙ VARIAČNÍ POMĚR ˙ Diskrétní ordinální variance (DORVAR) ˙ Normalizovaná diskrétní ordinální variance (NORM DORVAR) POROVNÁVÁNÍ ROZLOŽENÍ (tables - tables of frequencies) MODUL TABLES dovoluje prezentovat v přehledné podobě frekvenční analýzu více proměnných ANALYZE TABLES TABLES OF FREQUENCIES Frequencies for: ANOMREC In each tables: A75 (subjektivní třída) Zde byl přidán řádek TOTAL (z nabídky STATISTICS) ANALYZE TABLES TABLES OF FREQUENCIES Frequencies for: ANOMREC In each tables: A75 (subjektivní třída) Separate tables: A98 (pohlaví) Objeví se jen tabulka pro 1. variantu znaku zadaného jako "separate tables" (zde pro muži). Klikneme-li 2x na tabulku, lze ji formátovat. Kliknutím na název proměnné vlevo nad tabulkou (A88 POHLAVI 1 MUZ) se objeví roletka s dalšími variantami (zde A88 POHLAVI 2 ZENA). Klikneme-li opět na ni, objeví se tabulka pro podsoubor ženy. LEKCE 02b UNIVARIAČNÍ ANALÝZA SPOJITÝCH PROMĚNNÝCH FREQUENCIES (KARDINÁLNÍ ZNAKY) SPOJITÝ STATISTICKÝ ZNAK (kardinální): ˙ Nabývá všech možných hodnot z daného intervalu. ˙ V tomto případě se příliš nehovoří o četnosti určité hodnoty (je malá pravděpodobnost, že se stejná hodnota v souboru opakuje). ˙ I spojitý znak lze zobrazit a to stanovením intervalů, v nichž jsou určité hodnoty znaku (příjmové, věkové skupiny, ...). Zobrazením není sloupcový diagram, ale HISTOGRAM. Jeho sloupce představují četnosti případů v intervalech. MOŽNOSTI: § Zadat i frekvenční tabulku (mají pouze omezený smysl) nebo jen statistiky § Zadat statistiky (smysl mají všechny nabídnuté možnosti) § Zadat diagram (smysl má histogram) § Uspořádat data FREQUENCIES - STATISTIKY STŘEDNÍ HODNOTY (CENTRAL TENDENCY) Sumární (typické) charakteristiky distribuce. MODUS - (MODE) Střední hodnota pro nominální znaky, ordinální a kardinální znaky: jde o kategorii s nejpočetnějším výskytem (obsahující nejvíce případů). MEDIÁN -- (MEDIAN) Střední hodnota pro ordinální a kardinální znaky. Je to hodnota, dělící rozložení na dvě poloviny (50. percentil nebo též 2. kvartil). Někdy výhodnější než aritmetický průměr, neboť je rezistentní vůči extrémním hodnotám. U souborů, které mají lichý počet prvků je hodnota mediánu rovna hodnotě středního prvku. Při sudém počtu prvků se medián počítá jako aritmetický průměr hodnot dvou středních prvků. U ordinálních proměnných hovoříme o mediánové kategorii (hodnotě proměnné, v níž leží medián). ARITMETICKÝ PRŮMĚR - (MEANS) Střední hodnota pro kardinální znaky. Není vždy nejvhodnější - může se například značně změnit změnou i jen jednoho pozorování (citlivý na extrémní hodnoty). __ 1 __ 1 i=1 X = (X1 +X2 + ... + Xn) neboli X = ? Xi n n n Řada statistických testů slouží k porovnávání průměrů, které získáme v různých podsouborech (sociálních kategoriích). Příklad: Porovnání průměrných platů u osob s různým dosaženým vzděláním. PODOBA DISTRIBUCE DISTRIBUTION) VARIABILITA (DISPERSION) § MINIMUM - Je minimální hodnota rozdělení. § MAXIMUM - Je maximální hodnota rozdělení. § ROZPĚTÍ (RANGE) - Je rozdílem mezi nejvyšší (maximum) a nejnižší (minimum) hodnotou. Nejjednodušší míra variability, která nás upozorňuje na vzdálenost extrémních hodnot, ale nevyjadřuje vůbec koncentraci hodnot proměnné kolem středu rozložení. § MEZIKVARTILOVÉ ROZPĚTÍ (IQR) - rozdíl mezi horním (75) a dolním (25) kvartilem. Lze ho použít (v kombinaci s ostatními charakteristikami) pro rozlišení toho jaká je variabilita (či koncentrace) hodnot proměnné kolem středu a na okrajích (v extrémních hodnotách) rozložení. § ROZPTYL (VARIANCE) -- Vypovídá o tom, jak jsou v rozložení hodnoty rozptýleny kolem aritmetického průměru. Je to průměrná čtvercová chyba (ve čtvercích jednotek původní proměnné) -- součet druhých mocnin odchylek všech jednotlivých hodnot od průměru dělený rozsahem souboru. 1 n s2 = Ó ( xi -- x )2 n i=1 § SMĚRODATNÁ/STANDARDNÍ ODCHYLKA (STDEV) Je druhou odmocninou rozptylu. Poskytuje míru hodnoty jakou má aritmetický průměr pro charakterizaci rozložení (čím je menší, tím lépe aritmetický průměr). Říká také, uvnitř jakého intervalu kolem průměru leží zvolené procento případů. standardní odchylka ˙ KOEFICIENT VARIACE = * 100 aritmetický průměr Lze ho použít, na rozdíl od rozptylu a směrodatné odchylky, i pro porovnávání variability proměnných měřených v odlišných měrných jednotkách. PERCENTILY PERCENTIL (KVANTIL xp ) Hodnota znaku, pro kterou platí, že nejméně p - procent případů má hodnotu menší nebo rovnu xp a (100-p) případů je větších nebo rovno xp. Nejčastěji se používají: § MEDIÁN neboli x50 50% případů má hodnotu menší než x50 a 50% větší než x50. § KVARTILY neboli x25, x50, x75 (nejčastěji dolní a horní kvartil). např. x25 = 25% případů má hodnotu menší než x25 a 75% větší než x25. § DECILY neboli x10, x20, x30, x40, x50, x60, x70, x80, x90. např. x20 = 20% případů má hodnotu menší než x20 a 80% větší než x20. ŠIKMOST (SKEWNESS) Charakteristiky šikmosti udávají, zda jsou hodnoty kolem zvoleného středu rozloženy souměrně, nebo je rozdělení hodnot zešikmeno na jednu stranu. Měří tedy asymetrii v distribuci hodnot: § 0 = symetrické rozložení (modus, medián, aritmetický průměr mají shodné či velmi blízké hodnoty). § Kladná hodnota = šikmé doprava. Aritmetický průměr je větší než medián a ten je větší jako modus (více je případů menších než průměr). § Záporná hodnota = šikmé doleva. Aritmetický průměr je menší než medián a ten je menší jako modus (více je případů větších než průměr) ŠPIČATOST (KURTOSIS) Dána porovnáním s normálním rozložením. Čím je rozdělení špičatější, tím více jsou hodnoty soustředěny kolem jeho středu, čím je méně špičaté, tím častěji obsahuje hodnoty vzdálené od tohoto středu. Kladná hodnota = více případů je mimo normální rozložení (plochá křivka). PROCEDURA EXPLORE Co můžeme říci o datech podíváme-li se na BOXPLOT? § Podle délky boxu můžeme určit šířku nebo variabilitu dat. § Z mediánu můžeme určit centrální tendenci nebo polohu. § Jestliže medián není uprostřed boxu můžeme usuzovat na sešikmení (skew). § Je-li medián blíže hornímu kvartilu jedná se o kladné sešikmení. § Je-li medián blíže dolnímu kvartilu jedná se o záporné sešikmení. E - EXTREMES: hodnota vzdálená více než tři interkvartilová rozpětí od horního kvartilu O - OUTLIERS: hodnota vzdálená více než 1.5 interkvartilového rozpětí od horního kvartilu nejvyšší hodnota výběru, která je menší nebo rovna součtu hodnoty horního kvartilu a 1.5 násobku interkvartilového rozpětí HORNÍ KVARTIL (Tukey's hinges) MEDIÁN (hodnoty 50% případů) jsou uvnitř boxu DOLNÍ KVARTIL (Tukey's hinges) nejnižší hodnota výběru, která je větší nebo rovna rozdílu hodnoty dolního kvartilu a 1.5 násobku interkvartilového rozpětí O - OUTLIERS: hodnota vzdálená více než 1.5 interkvartilového rozpětí od dolního kvartilu E - EXTREMES: hodnota vzdálená více než tři interkvartilová rozpětí od dolního kvartilu BOXPLOT je zvláště užitečný pro porovnávání hodnot v několika skupinách. factor levels together dependents together DESCRIPTIVES Tato procedura dává podobné výsledky jako FREQUENCIES či EXPLORE (spíše chudší). Například při volbě v OPTIONS: To, co jsme zadali, dostaneme v následující tabulce: To ovšem není výsledek, který by nás velmi zajímal. Zajímají nás však nově vytvořené z-skóre, respektive hodnoty této proměnné u jednotlivých případů. Příkazem save standardized values as variables vytvoříme totiž novou proměnnou nazvanou standardně jménem původní proměnné s předponou z (například vek zvek). V matici je přidán sloupec s touto proměnnou (standardně je) a každému případu je přiřazena pro něj vypočítaná hodnota z- skóre. Tyto hodnoty nám říkají o kolik standardních odchylek a jakým směrem se každý z případů odchyluje od průměru rozložení dané proměnné (v tomto případě věk jednotky od věkového průměru souboru - blíže k tomu v příslušné lekci).