1 Zpracování a interpretace dat v empirickém kvantitativním výzkumu Kateřina Vlčková Institut výzkumu školního vzdělávání Pedagogická fakulta Masarykovy univerzity 2 Zpracování dat jako jedna z fází výzkumu •Následuje nejčastěji po všech přípravných fázích –formulace problému, –studium literatury, –formulování hypotéz, –vymezení základních pojmů, –tvorba výzkumného nástroje, –volba výzkumného vzorku, –ověřování konstrukce a vlastností výzkumného nástroje aj. v předvýzkumu, –sběr dat. • •Následuje fáze zpracování dat – odlišná fáze, dosti mechanická 3 Rozdíl zpracování dat v kvalitativním a kvantitativním výzkumu •O tom, jak bude vypadat zpracování dat rozhoduje to, zda jsme dělali kvalitativní či kvantitativní výzkum: • •u kvalitativního –budeme získaná data třídit, kategorizovat, –kvalitativní analýza (typické, reprezentativní příklady X atypické), –interpretovat, vysvětlovat, – •u kvantitativního výzkumu –bylo o způsobu zpracování dat bylo už rozhodnuto předem, než se začala sbírat data!!!, –způsob zpracování byl také ozkoušen v předvýzkumu –četnosti, statistika. – •u smíšeného designu –kombinace obojího 4 Kvalitně a adekvátně statistice sbíraná data •Problémy •Jednoznačné přiřazení do kategorií. •Dostatečně naplněné kategorie. •Dostatečný počet respondentů. •Otevřené položky a jejich kategorizace. •Moc dlouhé otázky a náročné nebo nesmyslné. •Nečitelné odpovědi. •Zavádějící odpovědi respondentů. •Plán kódování dat. • 5 Předzpracování dat •Nejprve se data předzpracovávají –připravují pro zpracování, –zvažují se možné kategorizace dat, –zadávají se proměnné a jejich hodnoty do hlavičky datové matice, –pak se zadávají data převedená většinou do čísel. – •vše už rovnou psát do počítače –do (nejlépe) statistického programu nebo alespoň do Excelu, –z něj se to dá převést do SPSS, Statistica, PSPP (free ware), R (free ware), aj. 6 datová matice 7 Datová matice •Datová matice je uspořádaný soubor dat •uzavřený soubor dat •u longitudinálního výzkumu – otevřený • •utřídění dat do datové matice lépe umožňuje výsledky statisticky zpracovat • •datovou matici zkontrolovat •bude tam dost chyb •např. vytisknout (záloha dat) 8 Typy proměnných 9 Typy proměnných •je důležité znát, o jaký typ proměnné se jedná, • •zda je kategoriální či měřitelná, • •ve statistických programech se to zadává, • •ovlivňuje to naše možnosti jaké stat. metody můžeme použít 10 Nominální proměnné •Nejméně „kvalitní“, počítají se jen četnosti, •nejjednodušší forma přiřazení čísla charakteristikám proměnných –=> přinese nejméně informací, •je to jen kategorizace – jednoduchá třídění do vzájemně se vylučujících kategorií •př. typ školy, pohlaví, vzdělání, druh motivace, •číselné označení kategorií muž 2, žena 1 •neznamená určitou měřitelnou hodnotu, •napomáhá pouze klasifikaci dat, •místo 1, 2 jsi lze dát do databáze Ž,M •v dosti omezené míře lze statisticky zpracovávat –lze spočítat absolutní četnosti a relativní četnosti (% zastoupení jednotl. kategorií v celku) –nelze počítat průměry, SD, korelace –lze použít analýzy rozptylu, výpočtů chí-kvadrátu 11 Ukázka zpracování nominálních dat Koláčový graf pro vyjádření poměru Koláčový graf zkresluje výsledky opticky, používat raději pruhové či sloupcové grafy nebo prostě tabulku Ukázka zpracování nominálních dat •Úspěšnost v testu KET (nominální proměnná) – uspěl/neuspěl 12 13 Ordinální proměnné •pořadí prvků je známo (př. pořadí v běhu) •nevím ale nic o rozdílech v jednotlivcích •nelze sčítat, odčítat, lze jen porovnávat rozdíl, co je víc a co míň •v pedagogice často nelze určit přesné hodnoty –píle žáků, snaha, míra spolupráce •=> jen se relativním způsobem posoudí daná hodnota ve srovnání s jejich výskytem u jiných jedinců •=> nejde o měření absolutních hodnot • •př. snahu 1 žáka srovnáme se snahou dalších, •dostaneme škálu od min. po max. a seřadíme žáky do pořadí, •známe jejich pořadovou hodnotu, •intervaly mohou být různé, ale to pořadové měření nezjistí •př. známky, výkon sportovců • •více možností pro stat. zprac. dat –Medián, kvartil –můžeme zjišťovat těsnost vztahů mezi růz, proměnnými •používá se postupů adaptovaných pro tuto úroveň měření –Spearmanův pořadový korelační koeficient Ukázka prezentace ordinálních dat •Spearmanův koeficient pořadové korelace •ChD párově vyřazena •Červeně označené korelace jsou statisticky významné na p < 0,05. 14 Korelace výsledků testu KET a jeho částí se známkou 15 Intervalové proměnné •lze sčítat i odčítat, víme, zda je to vetší či menší a o kolik, známe rozdíly mezi sousedními body + jsou konstantní • •př. teplota na Celsiově stupnici –má 0 (ale jen dohodnutou – teplota 0°C neznamená, že není teplota –0 bodů v testu neznamená, že nemá žádné vědomosti, jen to, že nestačily na ten test – •nesmí se dělit (př. byl 2x lepší), násobit • •lze počítat průměry, směrod. odchylky, parametrické testy rozdílů, Pearsonův korelační koeficient, regrese atd., pak i faktorová analýza ad. Ukázka prezentace ordinálních/intervalových dat 16 Krabicový graf: Medián a rozložení dat na škále 1 až 5 (míra souhlasu). Báze moci studenta učitelství (2014). Ukázka prezentace intervalových dat •Skóre z jazykového testu KET z anglického jazyka 17 18 Ukázka prezentace výsledků intervalových dat 19 Poměrové proměnné •číslo, které jev zastupuje se mu blíží tak dokonale, že vyjadřuje míru vlastnosti, kt. měří • •poměr intevalů mezi 2 sousedními body škály je stejný jako mezi dalšími • •lze násobit i dělit • •u ped. jevů téměř nikdy •(max. jen měření výšky, váhy) • •má to reálnou nulu, byť by v praxi byla nedosažitelná •(el. odpor, teplota) • •geometrický průměr, variační koeficient atd. - všechny stat. m. pro intervalové měření 20 Pozor •Známky ve škole jsou v podstatě nominální –max. ordinální – mezi stupni není stejná vzdálenost –(NE intervalové) Volba statistického testu •Závisí na hypotéze •Na úrovni měření •Na rozložení dat •Na dalších požadavcích daných statistických technik 21 Volba statistického testu •1 … nominální s více než 2 kategoriemi •2 … nominální se 2 kategoriemi •3 … ordinální •4 … intervalová a ne-normálně rozložená •5 … intervalová a normálně rozložená • 22 1 s 1 Kontingenční tabulka s testem chí-kvadrát 1 s 2 Kontingenční tabulka s testem chí-kvadrát 1 s 3 Kontingenční tabulka s testem chí-kvadrát H-test podle Kruskala a Wallise 1 s 4 H-test podle Kruskala a Wallise 1 s 5 Jednofaktorová analýza rozptylu Volba statistického testu •1 … nominální s více než 2 kategoriemi •2 … nominální se 2 kategoriemi •3 … ordinální •4 … intervalová a ne-normálně rozložená •5 … intervalová a normálně rozložená • 23 2 s 2 Kontingenční tabulka s testem chí-kvadrát (Kreuztabelle mit chi-kvadrat-Vielfeldertest) Přesný test podle Fischera a Yatese Korelace (Vielfelderkorelation) Chí-kvadrát-test podle McNemara* 2 s 3 Kontingenční tabulka s testem chí-kvadrát U-test podle Manna a Whitneyho Pořadová korelace podle Spearmana Pořadová korelace podle Kendalla 2 s 4 U-test podle Manna a Whitneyho Pořadová korelace podle Spearmana Pořadová korelace podle Kendalla 2 s 5 t-test podle Studenta bodová biseriální korelace Volba statistického testu •1 … nominální s více než 2 kategoriemi •2 … nominální se 2 kategoriemi •3 … ordinální •4 … intervalová a ne-normálně rozložená •5 … intervalová a normálně rozložená • 24 3 s 3 Kontingenční tabulka s testem chí-kvadrát H-test podle Kruskala a Wallise Pořadová korelace podle Spearmana Pořadová korelace podle Kendalla Wilcoxonův test* 3 s 4 H-test podle Kruskala a Wallise Pořadová korelace podle Spearmana Pořadová korelace podle Kendalla 3 s 5 Jednofaktorová analýza rozptylu Pořadová korelace podle Spearmana Pořadová korelace podle Kendalla Volba statistického testu •1 … nominální s více než 2 kategoriemi •2 … nominální se 2 kategoriemi •3 … ordinální •4 … intervalová a ne-normálně rozložená •5 … intervalová a normálně rozložená • 25 4 s 4 Pořadová korelace podle Spearmana Pořadová korelace podle Kendalla Wilcoxonův test* 4 s 5 Pořadová korelace podle Spearmana Pořadová korelace podle Kendalla Wilcoxonův test* 5 s 5 Produkt-moment korelace Parciální korelace t-test pro nezávislé výběry 26 Statistické programy pro zpracování dat 27 Zpracování údajů statistickými postupy •zpracování utříděných dat sám nebo se statistikem – statistická analýza • •1/ primární zpracování dat (třídění 1. stupně) –zpracování skupin dat, zjišťujeme absolutní a relativní četnosti, průměr, Me , směrodatné odchylky u jednotl. proměnných • •2/ sekundární zpracování dat (třídění 2. stupně) –zjišťují se vazby mezi jednotlivými proměnnými, příp. jejich skupinami –=> výpočty korelací, regresí, použití růz. variant neparametrických výpočtů, faktorovou analýzu, trsovou analýzu atd., –testují se rozdíly mezi proměnnými, skupinami apod. (Studentův t-test nebo testem chí-kvadrát), uvede se, zda výsledky jsou nebo nejsou statisticky významné 28 Statistické programy •Excel (je v balíku Microsoft Office), •statistické softwary – SPSS, PSPP, Statistica, Stata, Statgraphic, R, Origin aj. –=> vypočítají výsledky –a umožňují i grafické znázornění výsledků, –po zacvičení je práce s nimi velmi jednoduchá a rychlá, –umožňuje zkoušet různé možnosti výpočtů a vytěžit z údajů maximum •pozor: –počítač nebude protestovat, když ho budete nutit zpracovat údaje pro daný účel naprosto nevhodnou statistickou metodou, za výběr metod a interpretaci ručí výzkumník, lze požádat o pomoc matematika, statistika, sociology aj. •nepsát si údaje prve na papír, ale rovnou např. do Excelu 29 Excel •Není statistický program •Mnohé jde zpracovat i v Excelu •Problém, jak pracovat s chybějícími daty •ručně 30 datová matice 31 Data lze filtrovat –vybrat si pro analýzy jen např. dívky 32 Pomocí Excelu lze počítat mnohé statistické funkce 33 Použití funkcí v Excelu 34 Tabulka výsledků 35 Ukázka grafického znázornění dat (Excel, sloupcový graf) Doplnit hodnoty ke sloupcům 36 Ukázka grafického znázornění dat (Excel, histogram) • Statistické softwary umožní protažení linky dle Gaussovy křivky a test normality rozložení dat 37 Ukázka grafického znázornění dat (Excel, pruhový graf) Doplnit hodnoty ke sloupcům 38 Ukázka grafického znázornění dat (Excel, pruhový graf) Lépe dát krabicový graf, kde bude vidět i rozložení dat. 39 Ukázka grafického znázornění dat (Excel) Chyba: znázornění spojnic, nejde o trend, nejde o souvislá data! Viz také klima učitelského sboru aj. 40 Ukázka grafického znázornění dat (Excel, koláčový graf) Pozor na zkreslení koláči, jde dát i poměrový pruhový graf 41 Ukázka grafického znázornění dat (Excel, koláčový graf) Nepostrádá tento graf smysl? 42 IBM Statistica •MU má licenci –Lze stáhnout v inet.muni – nabídka softwaru 43 datová matice 44 • Vytvoření proměnných 45 Statistické analýzy Deskriptivní statistika 46 • 47 • Deskriptivní statistiky Výběr proměnné Rychlý souhrn 48 • Statistické analýzy Deskriptivní statistiky –nastavení výpočtů 49 • Statistické analýzy Deskriptivní statistiky Tabulky četností histogram 50 • Výsledky - deskriptivní statistika 51 Ukázka tabulky z programu Statistica 52 Ukázka tabulky z programu Statistica Pozor na ukrojení hodnot a sražení čísla 53 Ukázka histogramu (Statistica) 54 Ukázka krabicového grafu (Statistica) Krabicový graf = lepší, přesnější znázornění dat, více údajů 55 Ukázka tabulky s výsledky testu (Statistica) Testování rozdílů v efektivitě učení dle pohlaví Pozor: T-test vyžaduje mimo jiné normálně rozložená data. Efektivita vzbuzuje vždy otázku, jak byla operacionalizována. 56 Ukázka tabulky s výsledky testu (Statistica) Testování vztahů efektivity učení a používání strategií 57 SPSS •Nejvíce používaný statistický program v sociálních vědách 58 Datová matice 59 Datová matice 60 Okno s proměnnými 61 • Syntax Příkazové okno 62 Výstupy (output) 63 Amos 6 •Program pro strukturální modelování • •http://amosdevelopment.com/index.htm •http://www.washington.edu/ •book help amos 6 64 Amos Zadávání vztahů a proměnných 65 Výsledky přímo ve schématu 66 Výstupy (output) 67 Prezentace dat v práci 68 Prezentace dat v práci Zpracování dat •uspořádání a shrnutí dat, jejich transformace do grafů a tabulek • •přehledná, úsporná forma prezentování údajů, • •je třeba zdůraznit důležitá zjištění –ta, kt. podporují očekávané trendy nebo naopak údaje, kt. nebyly očekávány 69 Prezentace dat v práci •údaje lze různě přeskupovat a kombinovat, •lze vyrobit velké množství tabulek a grafů •=> vybrat jen rozumné množství, –ve zprávě z výzkumu uvést jen podstatné výsledky vzhledem k cíli výzkumu 70 Prezentace dat v práci •příliš velké množství tabulek ukazuje, že se výzkumník v datech ztratil, –neumí najít správnou hierarchii, a proto uvedl vše, co měl k dispozici – •výzkumy z větším množstvím proměnných obyčejně vyžadují větší počet tabulek než jednodušší výzkumy 71 Prezentace dat v práci •úlohu hraje i žánr textu, v němž se výsledky publikují –do článku se vejde méně tabulek a grafů než do výzkumné práce – •disertační, diplomové práce –hlavní tabulky jsou v příslušné části o zpracování údajů, –doplňující tabulky jsou v příloze 72 Prezentace dat v práci Pořadí tabulek a grafů •A/ nejprve ty, kt. obsahují hlavní a souhrnné informace •čtenář získá globální přehled o výsledcích, pak se hlavní výsledky přeměňují na drobné • •B/ tematické řazení • – dle výzkumného problému a hypotéz, •má-li výzkum 4 hypotézy, výsledky budou seřazeny do 4 okruhů 73 Prezentace dat v práci Styl psaní •odborný, dosti suchý, neosobní, •pro účely zábavného čtení jsou populárně-vědecké publikace, •psát srozumitelně, s ohledem na čtenáře, nikoli komplikovaně, •inspirovat se autory, kt. mají vhodný styl –i složité teoretické věci řeknou jasně a jednoduše •Průcha, Gavora, Jan Slavík, Jiří Mareš •psát v první osobě mn.č. a v minulém čase –př. mezi žáky nebyl žádný rozdíl –X není = neomezená platnost, té ale nelze dosáhnout 74 Prezentace dat v práci Kritéria dobré prezentace •přehlednost grafů a tabulek •srovnávání vhodných skupin v komentáři ke grafům •komentář není převod čísel do slov, je třeba uplatnit nadhled •vyjádřit se ke svým hypotézám (očekávám, předpokládám…) •tematicky řadit údaje, tabulky a grafy •rozlišit jasně samotné údaje a svou interpretaci údajů – jde o vhodné formulace –srovnat své závěry s údaji z předcházejících výzkumů 75 Interpretace dat v práci 76 Úmrtnost zapříčiněná motorovými vozidly Můžeme následující výroky prostřednictvím údajů z tabulky A) potvrdit, B) nemůžeme je potvrdit nebo C) je nemůžeme popřít ani potvrdit? *Úmrtnost zapříčiněná motorovými vozidly je vyšší u mužů než u žen. *Nehody zapříčiněné motorovými vozidly jsou hlavní příčinou úmrtí lidí ve věku 20 až 24 let. *Muži nad 65 let jezdí bezpečněji než mládež ve věku 15 – 19 let. *Největší počet úmrtí zapříčiněných motorovými vozidly je ve věku 65 let a starších. *U celkového součtu jen asi 11% úmrtí žen zavinila motorová vozidla. 77 Úmrtnost zapříčiněná motorovými vozidly Můžeme následující výroky prostřednictvím údajů z tabulky A) potvrdit, B) nemůžeme je potvrdit nebo C) je nemůžeme popřít ani potvrdit? *Úmrtnost zapříčiněná motorovými vozidly je vyšší u mužů než u žen. A *Nehody zapříčiněné motorovými vozidly jsou hlavní příčinou úmrtí lidí ve věku 20 až 24 let. B - ženy i muži dohromady? X u žen může být ale nějaká jiná hlavní příčina *Muži nad 65 let jezdí bezpečněji než mládež ve věku 15 – 19 let. C *Největší počet úmrtí zapříčiněných motorovými vozidly je ve věku 65 let a starších. B *U celkového součtu jen asi 11% úmrtí žen zavinila motorová vozidla. A 78 Interpretace dat •zpracované údaje jsou jen holými čísly, sama o sobě moc neznamenají • •interpretace = vysvětlení a vyhodnocení –hlavním výstupem výzkumu nejsou údaje, ale jejich interpretace –slovní popis není interpretace –v kapitole „výsledky a interpretace“, „diskuse a závěry“ – •po zapracování údajů je na chvíli odložit, –interpretace vyžaduje nadhled, –je to jiný druh činnosti než zpracovávání, –vyžaduje jiné naladění, hluboké zažití výsledků, jinak se člověk mezi čísly ztrácí 79 Interpretace dat •vyžaduje pochopení číselných údajů získaných z matematicko-statistických výpočtů –a zároveň velký přehled a dobrou orientaci ve zkoumané problematice • •začátečníci mívají s interpretací velké problémy, –často je to nejtěžší etapa výzkumu •někdy důsledek zanedbání studia problematiky na začátku výzkumu •jsou-li výzkumné hypotézy postaveny špatně, potom se i obtížně interpretují (jdou-li vůbec zpracovat) a naopak. 80 Interpretace •interpretace – srovnávat údaje mezi sebou a ptát se např. –Vyplývají z tohoto srovnání nějaké souvislosti? Jsou v údajích nějaké diskrepance? Jak se dají vysvětlit? – –Vyjadřují údaje nějaký trend, směřování, linii, anebo jsou spíše rozházené? – –Jsou údaje v souladu s existující teorií o zkoumaném jevu? – –Jsou údaje v souladu s údaji z jiných výzkumů? •Nejsou-li, proč? –Bylo to proto, že šlo o jinou populaci, jiné období, nebo proto, že výsledky byly zpracovány jiným způsobem? –Anebo to bylo proto, že z údajů „vystoupily“ neznámé, nekontrolované proměnné? 81 Interpretace •naše zjištění konfrontujeme se stanovenými hypotézami a komentujeme • •opíráme se o existující ped. teorii + své zkušenosti (viz hypotézy), –na základě nových zjištění hypotézy přehodnocujeme a dále rozvíjíme – •vyjádřit se o podmínkách a rozsahu platnosti hypotéz • •vyjádřit se k tomu, zda se dají závěry široce zevšeobecňovat, nebo platí jen pro určitou omezenou populaci 82 Chyby u začínajících •vedle legitimních, vytváří nelegitimní závěry –neopírající se o předcházející zjištění – •přílišná zevšeobecnění •(na základě zjištění o parciálních nedostatcích učitele, udělají urychlený závěr o celkově špatné práci učitele, školy) • •moralizování –dávají tam svůj světový názor, působí originálně X je to projev nedisciplinovanosti v myšlení 83 Zásady interpretace údajů •Udělejte zřejmé zřejmým. •Udělejte zřejmé pochybným. •Udělejte skryté zřejmým. Literatura •Gavora, P. (2002). Úvod do pedagogického výzkumu. Brno: Paido. • •Gall, M. D., Borg, W. R., & GALL, J. P. (1999). Educational Research. An introduction. N. Y.: Longman. • 84