Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 1 Univariační analýza Úvod: Prezenční listina. K testu (pochválit), zda se jim podařilo instalovat SPSS. Zeptat se: Kolik lidí vystudovalo kurz na kvantitativní metody? Kolik analyzovalo kvantitativní data v nějakém úkolu? Kolik v diplomce? Kolik lidí pracovalo v SPSS? Dnes trochu teorie, je třeba zasadit to, co bude dělat v průběhu semestru do širšího rámce, tím bude právě kvantitativní výzkum a analýza kvantitativních dat. Proto dnes se seznámíme se základními koncepty KV a jeho logikou. Příště již praxe a navázat na úkoly, které upřesníme a data set, který nahrajeme do ISu. Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 2 Plán pro dnešek: 1.Otevřete si soubor .sav „univariace“ ve studijních materiálech 2.Postupně si budeme představovat a provádět základní univariaci 3.Dávejte o sobě vědět, pokud budete potřebovat pomoc Studenti humanitně a společensky orientovaných oborů se statistiky obávají, předpokládám, že někteří mohou k ní pociťovat odpor. Proto možná bychom si měli na začátek říci, k čemu to vůbec je? Proč bychom měli trávit čas s kvantitativními daty? Představte si, že pracujete v reklamní agentuře a nadřízený po Vás chce, ať vyberete média, jejichž prostřednictvím oslovíte cílovou skupinu novou řadu oblečení pro těhotné ženy? Co potřebujete udělat? Nebo děláte pro neziskovku a tápete v tom, kde umístit billboardová sdělení, která mají přesvědčit příjemce o prospěšnosti třídění odpadů? Co potřebujete udělat? Představte si, že děláte pro netflix a musíte se rozhodnout, zda má smysl vyložit prachy na další sérií záklinače? Co potřebujete udělat? Zajímá Vás, zda portál Forum 24 není náhodou předpojatý vůči premiérovi? Zajímá Vás, zda byl zpravodajská příspěvek o diskuzi nad daňovou reformou vyvážený? V každém případě potřebujete data a potřebujete je umět vyhodnotit. Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 3 Čištění ̶Ideálně ještě před analýzou (nebo deskripcí) – využívá ale stejné nástroje ̶Proč? ̶Data mohou mít celou řadu chyb – překlepy, špatné kódování, invalid data ze strany respondenta… ̶V základu nejčastěji ̶Minimum a Maximum (kontrola „outlierů“) ̶Zjištění základních četností hodnot proměnné (správnost hodnot, vyplněnost) CTRL+F, případně rekódování (v dalších hodinách) Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 4 Co nám může číselná univariace ukázat? ̶Četnosti (absolutní, relativní, kumulativní) ̶Minimální a maximální hodnoty ̶Percentily ̶Střední hodnoty ̶Míry variability Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 5 ̶Jak na základní univariaci? ̶Analyze – Descriptive Statistics – Frequencies - Statistics ̶ Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 6 Percentily ̶Jaké hodnoty nám rozdělují na X% vzorku? ̶4 stejné díly vzorku – kvartily ̶25%, 50%, 75% ̶10 stejných dílů vzorku – decily ̶10%, 20%, 30%... ̶Různě velké části vzorku, například spodních 17% a vrchních 83% (percentily fungují vzestupně!!) ̶ Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 7 Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 8 Střední hodnoty ̶V širším hledisku obsahuje větší množství ukazatelů – my si budeme povídat o 3: ̶ ̶Modus – nejčastější hodnota ̶ ̶Medián – hodnota, která výběr rozděluje na 2 početně stejné jednotky ̶ ̶Průměr – aritmetický průměr ̶ Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 9 Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 10 Střední hodnoty – stejné X rozdílné Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 11 Míra variability ̶(minimum, maximum, range…) ̶Nominální – koncentrace ̶Ordinální – variační rozpětí, ordinální rozptyl ̶Obvykle nás zajímají pro průměr (tj. kardinální proměnné) ̶Směrodatná odchylka (průměrná odchylka od průměru) ̶Rozptyl (mocnina ze směrodatné odchylky) Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 12 Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 13 Frekvenční tabulka ̶Vhodná jen pro kategorizované data ̶Základní přes Analyze – Desk. Stat. - Frequencies – Display freq. Tables ̶Pokročilé přes Analyze – Tables – Custom tables Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 14 Co ve frekvenční tabulce máme za údaje? ̶Pozorované N (=počet jednotek pro dané hodnoty) ̶Procenta – procentuální vyjádření pozorovaného N k celku ̶(Pozor! U custom tables pozor na řádková/sloupcová procenta) ̶Validní procenta – procenta ke všem validním (nechybějícícm) hodnotám ̶Kumulativní procenta – součet procent této a nižších hodnot Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 15 Grafy ̶Několik základních druhů ̶Sloupcový ̶Výsečový (koláčový) ̶Histogram ̶Boxplot (krabicový) ̶Spojnicový ̶ Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 16 ̶Sloupcový ̶Vhodný pro srovnání kategorických hodnot ̶Výsečový (koláčový) ̶Vhodný pro % ̶Histogram ̶Vhodný pro kardinální položky s velkou řadou hodnot ̶Boxplot ̶Vhodný pro kardinální položky s informacemi o kvartilech ̶Spojnicový ̶Vhodný pro kardinální položky s malou řadou hodnot Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 17 ̶Sloupnicový graf, výsečový graf a histogram ̶Analyze – Descriptive Statistics – Frequencies - Charts ̶ Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 18 ̶Box plot, spojnicový ̶Graphs – Chart Builder (i alternativa k ostatním druhům grafu) ̶Analyze – Descriptive Statistics – Explore – Plots – Boxplots ̶ Adobe Systems Definujte zápatí - název prezentace / pracoviště 19 ̶Poznámka ̶22.10. jsme došli až sem. Normální rozložení a rozdíl mezi deskriptivní a inherenční univariací není součást lekce univariace. Není ani obsahem kurzu, slouží pouze k doplnění. Následující slidy tedy nebudou v úkolu a také nejsou nutné k ukončení kurzu. Zároveň slouží pouze jako pomůcka k prezentaci vyučujícího. Samotné o sobě to nedává smysl. RZ. Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 20 Normální rozdělení ̶Nebo také „Gaussovo rozdělení“ ̶Modelové rozdělení náhodné veličiny ̶V populaci poměrně běžné ̶Rychlý test – šikmost a špičatost ̶Šikmost (skewness) – symetrie rozložení; blízká 0, pokud normální rozdělení ̶Špičatost (kurtosis) – míra soustředění hodnot kolem středu; blízká 0, pokud normální rozdělení ̶ Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 21 Okénko do pravděpodobnosti (navíc) „I cast Fireball!“ „Roll 8d6 for damage“ Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 22 Skidaddle Skidoodle Your Dick Is Now a Noodle | Know Your Meme Paladin Roleplaying Blue Pearl Dice - 8D6 Set - 'Nightfall' Adobe Systems ZURn4108 Deskriptivní analýza kvantitativních dat 23 ̶Cca +/- 2 směrodatné odchylky = 95% případů na normálním rozložení ̶Velké vzorky se chování jako normální rozložení – centrální limitní věta ̶ Explaining the 68-95-99.7 rule for a Normal Distribution | by Michael Galarnyk | Towards Data Science