Zpracování dat S využitím podkladů K. Vlčkové a Jiřího Šafra JEVY TEORIE > > INDUKCE HYPOTÉZY DEDUKCE DATA DATA DATA AJ: phenomena, (empirical) data, facts, induction, theory, deduction, hypotheses, sample, method, design, analysis, exploratory and confirmatory research, statistics Když se řekne… věda Jevy = realita. Teorie = naše konstrukce, reprezentace reality. Je-li konstrukce dobrá, daří se nám lépe využívat reality ku prospěchu svému. Porozumění s tím nemá co dělat. Pravda je filozofický pojem. Analýza – deskriptivní. Statistická indukce již je součástí indukce. Co dělá vědu vědou, je především systematičnost, kontrolovatelnost tvorby dat – objektivita(intersubjektivita). V kval bychom přidali ještě badatelovy hodnoty, čas a místo…. Fakta jsou výsledky analýzy dat, jde o tvrzení o datech. Filozofie vědy se zabývá především vztahem mezi jevy a daty. 3 Zpracování dat jako jedna z fází výzkumu •Následuje nejčastěji po všech přípravných fázích •formulace problému, •studium literatury, •formulování hypotéz, •vymezení základních pojmů, •tvorba výzkumného nástroje, •volba výzkumného vzorku, •ověřování konstrukce a vlastností výzkumného nástroje aj. v předvýzkumu, •sběr dat. • •Následuje fáze zpracování dat – odlišná fáze, dosti mechanická 4 Rozdíl zpracování dat v kvalitativním a kvantitativním výzkumu •O tom, jak bude vypadat zpracování dat rozhoduje to, zda jsme dělali kvalitativní či kvantitativní výzkum: • •u kvalitativního •budeme získaná data třídit, kategorizovat, •kvalitativní analýza (typické, reprezentativní příklady X atypické), •interpretovat, vysvětlovat, • •u kvantitativního výzkumu •bylo o způsobu zpracování dat bylo už rozhodnuto předem, než se začala sbírat data!!!, •způsob zpracování byl také ozkoušen v předvýzkumu •četnosti, statistika. • •u smíšeného designu •kombinace obojího 5 Kvalitně a adekvátně statistice sbíraná data •Problémy •Jednoznačné přiřazení do kategorií. •Dostatečně naplněné kategorie. •Dostatečný počet respondentů. •Otevřené položky a jejich kategorizace. •Moc dlouhé otázky a náročné nebo nesmyslné. •Nečitelné odpovědi. •Zavádějící odpovědi respondentů. •Plán kódování dat. • 6 Předzpracování dat •Nejprve se data předzpracovávají •připravují pro zpracování, •zvažují se možné kategorizace dat, •zadávají se proměnné a jejich hodnoty do hlavičky datové matice, •pak se zadávají data převedená většinou do čísel. • •vše už rovnou psát do počítače •do (nejlépe) statistického programu nebo alespoň do Excelu, •z něj se to dá převést do SPSS, Statistica, PSPP (free ware), R (free ware), aj. 7 Excel •Není statistický program •Mnohé jde zpracovat i v Excelu •Problém, jak pracovat s chybějícími daty •ručně 8 datová matice 9 Data lze filtrovat –vybrat si pro analýzy jen např. dívky 10 Pomocí Excelu lze počítat mnohé statistické funkce 11 Použití funkcí v Excelu 12 Tabulka výsledků 13 Ukázka grafického znázornění dat (Excel, sloupcový graf) Doplnit hodnoty ke sloupcům 14 Ukázka grafického znázornění dat (Excel, histogram) • Statistické softwary umožní protažení linky dle Gaussovy křivky a test normality rozložení dat 15 Ukázka grafického znázornění dat (Excel, pruhový graf) Doplnit hodnoty ke sloupcům 16 Ukázka grafického znázornění dat (Excel, pruhový graf) Lépe dát krabicový graf, kde bude vidět i rozložení dat. 17 Ukázka grafického znázornění dat (Excel) Chyba: znázornění spojnic, nejde o trend, nejde o souvislá data! Viz také klima učitelského sboru aj. 18 Ukázka grafického znázornění dat (Excel, koláčový graf) Pozor na zkreslení koláči, jde dát i poměrový pruhový graf 19 Ukázka grafického znázornění dat (Excel, koláčový graf) Nepostrádá tento graf smysl? Zpracování dat ve statistickém softwaru •Co by měl umět: •vytvoření kódovacího rámce, •zakódování dat, •transformace dat, •statistická analýza dat. Hromadný sběř dat •Dotazníky (ev. jiné nástroje generující množství dat) •Tužka –papír: •Sebereme a očíslujeme (typicky levý horní roh – např. 001 – 999) •Vytvoříme datovou matici („přepis dotazníku do PC“) •Google form či jiný / podobný elektronický sběr dat (předchozí krok odpadá) •Možno v Excelu (či LibreOffice Calculator) ev. rovnou ve statistickém programu •Kde vzít Excel - https://it.muni.cz/sluzby/microsoft-office-365 •Kde vzít statistický software – viz návod doc. Vlčkové… nebo zkuste https://www.gnu.org/software/pspp/ •První sloupec ID (číslo dotazníku/ů) •Další postupně jednotlivé odpovědi (např. „ot_1“ až „ot_99“) •Jednotlivé typy odpovědí kódujeme •Chybějící údaje kódujeme vysokým číslem, které nemůže být v intervalu použitého pro kódování (např. „99“ v případě likertovské škály míry souhlasu s výrokem v dotazníku „1-5“) • SPSS / PSPP •Stat. software 23 Tři typy oken v SPSS / PSPP •Data editor (záložky Variable View a Data View) → správa datového souboru → soubory s koncovkou *.sav • •Output → výstupy analýz • → soubory s koncovkou *.spv (od verze 15) • •Syntax → zadávání pomocí příkazového řádku → soubory s koncovkou *.sps • • Jak to vypadá https://www.gnu.org/software/pspp/images/screenshot.png Proměnné - úpravy https://www.gnu.org/software/pspp/images/variable-sheet.png 26 Tři základní informace o proměnných: •jméno proměnné VARIABLE NAME max. 8 znaků bez diakritiky, mezer; musí začínat písmenem (např. pohlavi) → bezpodmínečně v datech musí být •pro uživatele může být dále užitečná nadstavba: •popiska proměnné VARIABLE LABEL Delší popis názvu znaku, lze s diakritikou, např. (zkrácené) znění otázky v dotazníku, který se bude objevovat ve výstupech (např. Pohlaví respondenta) •popisky kategorií (hodnot) proměnné VALUE LABELS Popis kategorií znaku, které se budou objevovat ve výstupech (např. 1= muž, 2 = žena) 27 Ve Variable View je toho ale více •Nejdůležitější jsou: •Type: druh záznamu dat (v zásadě buď jako číslo = Numeric nebo jako slova = String). Preferujeme Numeric •Decimals: počet desetinných míst, co se bude zobrazovat ve výstupech (samotný záznam dat ale zachovává více desetinných míst) •Measure: typ proměnné (dříve to nevadilo, novější verze vyžadují pro určitý typ analýz) •Missings: uživatelsky definované hodnoty (o tom více jinde) •v novějších verzích (SPSS 22) ještě přibyla role proměnné v analýze (závislá, nezávislá, třídící atd.) • Překódování a transformace https://www.gnu.org/software/pspp/images/recode.png 29 Transformace dat → Transform •Výpočet/vytváření nových (syntetických) znaků → COMPUTE (nebo pro „načítání“ COUNT) •Rekódování → RECODE (do stejné nebo nové proměnné) •Visual Binding – nástroj pro snadné rekódování (pro spojité-kardinální znaky např. dle percentilů) • • 30 Úpravy dat a výstupů → Data •Uspořádání případů → SORT CASES •Rozdělení na podsoubory → SPLIT FILE •Výběr případů (filtrování) → SELECT CASES •Vážení → WEIGHT CASES •Agregace (např. průměry pro skupiny) → AGGREGATE •Spojování souborů dat / přidávání proměnných → MERGE FILES • Typy proměnných Kategorické Ordinální Kardinální Stevensova typologie Nominální Ordinální Intervalová Poměrová Matematické operace =, >,< +,− ×,÷ Statistiky Frekvence, Modus Medián, percentily Průměr, směrodatná odchylka Koeficient variace Příklady Město bydliště, Vystudovaný obor dosažené vzdělání, hodnocení (výroku) na Likertově škále (např. 1-7) Hodiny, IQ skór, Stupně Celsia Věk, Stupně Celsia Další dělení dichotomické vs. polytomické spojité vs. nespojité kombinace úrovní proměnných - test 1 s 1 Kontingenční tabulka s testem chí-kvadrát 1 s 2 Kontingenční tabulka s testem chí-kvadrát 1 s 3 Kontingenční tabulka s testem chí-kvadrát H-test podle Kruskala a Wallise 1 s 4 H-test podle Kruskala a Wallise 1 s 5 Jednofaktorová analýza rozptylu 2 s 2 Kontingenční tabulka s testem chí-kvadrát Přesný test podle Fischera a Yatese Korelace Chí-kvadrát-test podle McNemara* 2 s 3 Kontingenční tabulka s testem chí-kvadrát U-test podle Manna a Whitneyho Pořadová korelace podle Spearmana Pořadová korelace podle Kendalla 2 s 4 U-test podle Manna a Whitneyho Pořadová korelace podle Spearmana Pořadová korelace podle Kendalla 2 s 5 t-test podle Studenta bodová biseriální korelace 3 s 3 Kontingenční tabulka s testem chí-kvadrát H-test podle Kruskala a Wallise Pořadová korelace podle Spearmana Pořadová korelace podle Kendalla Wilcoxonův test* *nelze je provést ve všech situacích, resp. nejsou smysluplné 34 Analýzy → příkazy v sekci hlavního menu Analyze Popisné statistiky: Descriptive statistics → Frequencies / Descriptives / Explore 35 Analýzy → Analyze •Descriptive statistics •Tables •Compare means •Correlate •Data Reduction •Nonparametric Tests •Missing Value Analysis •Multiple Response • • • 36 Grafy → Graphs