Ke zpracování kardinálních proměnných se hodí procedura EXPLORE Lze ji použít pro jednorozměrnou i dvourozměrnou analýzu Nevytváří tabulky hodnot proměnné (jako frequencies) ale zobrazuje souhrnné statistiky a grafy - Zadání: ANALYZE -> DESCRIPTIVE STATISTICS -> EXPLORE V „Plots“ je možné nastavovat další grafy. Standardně je výstupem tzv. Box-plot a Stem and Leaf (ten je ale nepříliš přehledný). Lze také zvolit histogram (není součástí default nastavení) Výstupy z EXPLORE: Tabulka s hlavními statistikami: Pro průměr máme vypočtenou také standardní chybu, která vyjadřuje spolehlivost dat. Za předpokladu prostého náhodného výběru bychom mohli říci, že průměr v základní populaci (z níž je náš soubor vzorkem) by ležel s 95% pravděpodobností v intervalu +- 2 standardní chyby průměru. Tedy zhruba mezi 22,99 a 23,29 roku. Všimněte si, že interval spolehlivosti je velmi úzký – je to tím, že pracujeme s velmi rozsáhlým souborem – při velikosti téměř 3000 respondentů je výběrová chyba poměrně malá. Dále máme tzv. robustní průměr – bez 5 % odlehlých případů. (například onen 100letý šprýmař zde vypadl a průměr se snížil) Vedle tzv. měr centrální tendence (průměr, medián příp. modus) stojí u kardinálních proměnných vždy za povšimnutí míry variability. Rozptyl a směrodatná odchylka poukazují na to, jak moc jsou data rozházená kolem průměru. Malá hodnota = všichni v podobném věku, velká hodnota = velice rozmanité stáří studentů) Explore umí: Krabicový graf - je užitečný: * když chceme rychle identifikovat odlehlé případy (čísla případů jsou přímov grafu – pak by stačilo najít daný řádek v matici a zkontrolovat, zda respondent nevyplnil podivně i jiné otázky, nebo nejde o překlep) * když chceme získat rychlý přehled o rozložení hodnot (ne jen průměr či medián, ale i to, zda je rozložení symetrické, špičaté, šikmé…) * když chceme porovnat více rozložení navzájem (třeba věk podle typu studia) Tady už se jedná o dvourozměrnou analýzu a musíme použít kategorizovanou proměnnou vloženou do „factor list“ Vpravo je tentýž graf s rozumným měřítkem. Tlustá čára uprostřed znázorňuje medián, krabice je definována 25. a 75. percentilem. Uvnitř krabice leží 50 % případů a její výška je dána tzv. interkvartilovým rozpětím. Blíže k tomu viz: http://cs.wikipedia.org/wiki/Boxplot nebo http://www.eistat.cz/popis/boxplot/index.htm Krabicový graf použitý pro srovnání – vidíme nejen vzájemnou pozici mediánů, ale můžeme srovnat i základní charakteristiky rozložení Explore umí: Histogram - je ještě přehlednější a zobrazuje celé rozložení proměnné (zde opět měřítko upraveno na 15 – 40 let). Histogram lze získat také v proceduře Frequencies. (od sloupcového grafu se liší tím, že má lineární osu x - nezkresluje tedy vzdálenosti). Dále je procedura explore užitečná ještě pro zjišťování, zda je proměnná normálně rozložena. K tomu jsou určeny speciální tzv. kvantilové grafy (Q_Q Plot) a testy (kolmogorov-smirnov). Zadat lze v submenu „Plots“ -> „normality plots with tests“ EXPLORE V DVOUROZMĚRNÉ ANALÝZE Kategorizovaná proměnná, podle které třídím výsledky Výsledek: tytéž statistiky spočítané zvlášť pro studenty FF a PřF Jednodušší varianta pro srování průměrů je procedura MEANS: Analyze -> Compare means -> Means Zadání je téměř totožné, terminologie mírně jiná (místo „factor“ „independent“), vždy jde ale o třídění průměrý spojité (kardinální) proměnné podle kategorií kategorizované proměnné. Výsledek obsahuje tři základní věci: průměry (informaci o centrální tendenci), počty případů (informaci o velikosti souboru) a směrodatnou odchylku (informaci o rozmanitosti v dané skupině).