http://farm1.staticflickr.com/191/498667899_f9fb4af671_b.jpg Metodologie pro ISK 2 Úvod do práce s daty Základní termíny •Proměnná (znak) – měřitelná dimenze pojmu •Hodnota proměnné – vyjádření stavu zkoumané proměnné •3 podmínky: –Rozlišitelnost –Úplnost –Jednoznačnost Základní termíny – druhy proměnných •Nominální proměnné (nelze je uspořádat hierarchicky či podle velikosti) •Ordinální proměnné (jedna hodnota je vyšší než druhá, nemůžeme však s jistotou tvrdit, o kolik je vyšší) •Kardinální proměnné (dokážeme říci, o kolik přesně je jedna hodnota větší, než jiná) Základní termíny – druhy proměnných •Kategorizovaná data: nominální, ordinální i kardinální proměnné s malým počtem variant (pohlaví, vzdělání, počet dětí) •Nekategorizovaná data: kardinální proměnné s velkým počtem variant (plat) • 2. Považujete obor Informační studia a knihovnictví za perspektivní? • •velmi perspektivní 1 •spíše perspektivní 2 •spíše neperspektivní 3 •zcela neperspektivní 4 •nevím, nemohu odpovědět -1 •neodpověděl/a -2 Chybějící hodnoty (missing values) Hodnoty proměnné okódované Kontrola dat: GIGO •„Garbage in, garbage out!“ http://www.national.ca/library/images/efdeea4b-48e2-4a96-b6b3-6daf779194f7.jpg Kontrola dat: GIGO •Chyby při zpracování –Posuny desetinných čárek –Záměna znaků (nepoužívat „0“ pro missing values) –Chyby při přepisování •Kontrola dat –Kontrola okem („vytisknout a řádek po řádku zkontrolovat“ Hendl, 2009) –Předběžné grafické zobrazení dat Chyby v zápisu Co s missing values? •Hodnota „neodpověděl/a“ •Jsou výskyty rozděleny náhodně? •Způsoby kontroly: –rozdělit soubor na skupiny záznamů s missing values a bez nich, porovnat charakteristiky obou souborů –Kontrola korelací vyplnění/nevyplnění s jinou proměnou Co s missing values? •Pokud potřebujeme pracovat jen s úplnými záznamy: –Vymazání jednotky –Vymazání proměnné –Imputace •Odhad scházející hodnoty (regresní analýza) •Nahrazení průměrnou hodnotou subpopulace Základní popis kategorizovaných dat •Absolutní četnost •Relativní četnost •Kumulativní relativní četnost Dává smysl u ordinálních a kardinálních proměnných Základní popis kategorizovaných dat •Tabulky četností – plná verze Základní popis kategorizovaných dat •Tabulky četností – zkrácená verze Zobrazování kategorizovaných dat •Tabulka četností –První přehled výsledků měření –Vhodné pro uvedení přesných čísel –Absolutní / relativní / validní / kumulativní četnosti •Graf četností –Názornější –Používají se validní četnosti –Osa X: hodnoty proměnné –Osa Y: četnosti Zobrazování kategorizovaných dat •Tipy pro výběr grafu: •vždy si vyberte ten nejjednodušší graf •vždy používejte popisek grafu •popište obě osy •vyvarujte se ilustrací a zbytečného používání grafiky na pozadí nebo okrajích grafu •vyvarujte se používání módních piktogramů, které by mohly ztížit čitelnost dat •vertikální osa by měla začínat nulou (pokud nezačíná negativními hodnotami) Základní popis kategorizovaných dat •Míry centrální tendence • •Nominální proměnná: MODUS •Ordinální proměnná: MODUS, MEDIÁN • •MODUS je hodnota, která se v datech vyskytuje nejčastěji. •MEDIÁN dělí řadu výsledků seřazených podle velikosti na dvě stejně početné poloviny •MEDIÁNOVÁ KATEGORIE je ta, ve které je dosaženo 50% všech údajů, postupujeme-li od první kategorie výše. • Základní popis nekategorizovaných dat •Maximum •Minimum •MODUS •MEDIAN •ARITM. PRŮMĚR •Rozptyl a směrodatná odchylka Průměr vs. medián •Průměrná mzda 2013: 26 637 Kč –Muži: –Ženy: •Medián mzdy: 22 288 Kč –Muži: 24 330 Kč –Ženy: 20 029 Kč Rozptyl a směrodatná odchylka •Rozptyl – střední hodnota kvadrátů odchylek od střední hodnoty (průměru) •Směrodatná odchylka – odmocnina z rozptylu Rozptyl a směrodatná odchylka •Směrodatná odchylka nám řekne, jak moc se hodnocení všech respondentů pohybovalo kolem průměru •Příklad: Excel vs. SPSS spss.gif