Kvantitativní výzkum SZc033, SZ6031 Petr Květon JEVY TEORIE INDUKCE HYPOTÉZY DEDUKCE DATADATADATA AJ: phenomena, (empirical) data, facts, induction, theory, deduction, hypotheses, sample, method, design, analysis, exploratory and confirmatory research, statistics Když se řekne… věda 4 Fáze výzkumu • Následuje nejčastěji po všech přípravných fázích • Vymezení tématu • studium literatury (rešerše) • formulování výzkumné otázky a hypotéz • nastavení výzkumného designu • Výběr či tvorba výzkumného nástroje (operacionalizace) • volba výzkumného vzorku • ověřování konstrukce a vlastností výzkumného nástroje aj. v předvýzkumu • sběr dat • Následuje fáze zpracování dat Strategie a taktiky • Strategie – výzkumný design • Taktika – výzkumný nástroj Kvantitativní výzkumné designy (strategie) • Experiment • Systematická výzkumná strategie manipulace s určitým jevem/jevy – NP • kontrola jiných jevů (udržení na konstantní úrovni) - IP • pozorování/měření výsledků – ZP • explanační funkce experimentu umožňuje (za předpokladu, že jsme výzkum dobře naplánovali a provedli) určit příčinný vztah mezi jevy Stanfordský vězeňský experiment Kvantitativní výzkumné designy • Korelační studie • zabývá se zkoumáním vztahů mezi přirozeně se objevujícími proměnnými a studiem individuálních rozdílů; založena na měření proměnných a zjišťování vztahů mezi nimi • úvaha o příčinných vztazích je vždy problematická – problém direkcionality zjištěn vztah mezi jevy A a B, je A příčinou B, nebo je tomu naopak? • specifickým problémem je tzv. problém třetí proměnné jev C je společnou příčinnou jevu A a B • přes uvedené problémy mohou výsledky korelačních studií sloužit k predikci jevů Specifické výzkumné strategie • Longitudinální studie • Sledování stejné skupiny osob po delší dobu (v extrémních případech po celou dobu života) – technické obtíže • Umožňuje vysoudit kauzalitu Výzkumné nástroje (taktiky) Pozorování Rozhovor Analýza produktů činnosti Dotazník Test Nástroje produkují data… Hromadný sběr dat • Dotazníky (ev. jiné nástroje generující množství dat) • Tužka –papír: • Sebereme a očíslujeme (typicky levý horní roh – např. 001 – 999) • Vytvoříme datovou matici („přepis dotazníku do PC“) • Google form či jiný / podobný elektronický sběr dat (předchozí krok odpadá) • Možno v Excelu (či LibreOffice Calculator) ev. rovnou ve statistickém programu • Kde vzít Excel - https://it.muni.cz/sluzby/microsoft-office-365 • Kde vzít statistický software – viz návod doc. Vlčkové… nebo zkuste https://www.gnu.org/software/pspp/ • První sloupec ID (číslo dotazníku/ů) • Další postupně jednotlivé odpovědi (např. „ot_1“ až „ot_99“) • Jednotlivé typy odpovědí kódujeme • Chybějící údaje kódujeme vysokým číslem, které nemůže být v intervalu použitého pro kódování (např. „99“ v případě likertovské škály míry souhlasu s výrokem v dotazníku „1-5“) Typy dat(proměnných) Kategoriální - Diskrétní - Kvalitativní • Binární / Nominální (kategoriální) • Binární: Pohlaví (m/ž), stav (ženatý/svobodný), kuřák/nekuřák • Nominální – obsahují více kategorií, které nelze vzájemně seřadit: krevní skupina, stav (ženatý/svobodný/rozvedený/ovdovělý), národnost (čech/slovák/vietnamec/rom), typ školy • Ordinální (pořadová data) • Obsahují více kategorií, ale lze říci, která kategorie je vyšší, která nižší – např. dosažené vzdělání, pořadí na matematické olympiádě, školní známky, Likertovy škály • Možné statistické postupy: medián, kvantily; můžeme zjišťovat těsnost vztahů mezi proměnnými (používá se postupů adaptovaných pro tuto úroveň měření, např. Spearmanův pořadový korelační koeficient) Typy dat(proměnných) Spojité – Kvantitativní proměnné – Kardinální • Intervalové a poměrové (kardinální) • Intervalové - známe rozdíly mezi sousedními body, jsou konstantní; nemají nulu (např. teplota na Celsiové nebo Fahrenheit stupnici) • Poměrové – stejné jako intervalové, ale mají stanovenou nulu (výška, váha, stupně Kelvina) • Možné statistické postupy: • Nejvyšší úroveň měření – je možné počítat průměr, SD, a navazující postupy (parametrické porovnávání skupin, aj.) Zvláštnosti v klasifikaci proměnných • Často jsou v praxi ordinální data ve výpočtech používána jako by byla spojitá, např. Likertovy škály (většinou od 7 bodů) • Snížení úrovně měření, pokud je to užitečné a opodstatněné (většinou se nedoporučuje) • kardinální proměnná (inteligence) • -> ordinální (kategorie - slabomyslnost, podprůměr, průměr, nadprůměr, genialita) • -> dichotomická (geniální vs. zbytek) ➢Q1: Jaký je Tvůj oblíbený předmět? •Q2: Pohlaví: •Q3: Počet hodin strávených přípravou na zkoušku •Q4: Myslím si, že jsem dobrý v matematice: Jaký typ proměnné vznikne z každé položky dotazníku? Zcela souhlasím Souhlasím Ani jedno ani druhé Nesouhlasím Zcela nesouhlasím Muž Žena Vypsat číslem Matematika Angličtina Tělocvik Fyzika Biologie ➢Q1: Jaký je Tvůj oblíbený předmět? •Q2: Pohlaví: •Q3: Počet hodin strávených přípravou na zkoušku •Q4: Myslím si, že jsem dobrý v matematice: Jaký typ proměnné vznikne z každé položky dotazníku? Zcela souhlasím Souhlasím Ani jedno ani druhé Nesouhlasím Zcela nesouhlasím Muž Žena Vypsat číslem Matematika Angličtina Tělocvik Fyzika Biologie Nominalní Nominalní (dichotomická) Ordinální poměrová Popisná statistika • rozdělení hodnot • míry centrální tendence • míry variability • grafické zobrazení Popisná statistika - Úvod • užívá se k popisu základních vlastností dat • poskytuje jednoduché shrnutí hodnot proměnných ve výběrovém souboru • předchází induktivní statistiku (která odvozuje zjištění ze vzorku na populaci) • techniky deskriptivní statistiky pomáhají redukovat větší množství dat do zvládnutelné podoby • touto redukcí např. údajů o rychlosti čtení u 200 žáků na jeden ukazatel, např. na hodnotu průměru, samozřejmě část informací ztratíme Popisná statistika • pro každou proměnnou obvykle popisujeme 3 charakteristiky • rozdělení hodnot (i graficky), středovou hodnotu a míru rozptýlení hodnot kolem tohoto středu Rozdělení hodnot • rozdělení (distribuce) hodnot - souhrn četností jednotlivých kategorií nebo intervalů hodnot proměnné • kromě grafů je základní možností, jak zobrazit rozložení hodnot proměnné tabulka četností – seznam kategorií proměnné a u nich počet osob, které do každé kategorie spadají Rozdělení hodnot – tabulka četností počet osob % Sangvinik 118 28 Flegmatik 86 20 Melancholik 89 21 Cholerik 130 31 celkem 423 100 Rozdělení hodnot • vždy je třeba uvést celkový počet osob (N) • relativní četnosti mohou být uvedeny buď jako procenta (8%) nebo podíly (0.08) • může jít rovněž o poměr (ratio) dvou kategorií (např. poměr dívek a chlapců s ADHD 1:4 (nebo 0,25)) Rozdělení hodnot • stejná data je možno zobrazit i graficky (v příkladu sloupcový diagram – barchart) Počet osob 0 20 40 60 80 100 120 140 Sangvinik Flegmatik Melancholik Cholerik Počet osob Rozdělení hodnot • pokud proměnná nabývá mnoha hodnot, je vhodnější je sloučit do kategorií (intervalů) • počet intervalů by měl být přiměřený počtu hodnot • někdy se používá tzv. Sturgesovo pravidlo k = 1 + 3,3 log10(n) • podle něj by pro 200 hodnot byl vhodný počet intervalů 9 Rozdělení hodnot IQ počet % kumul.% méně než 86 11 10 10 86 – 100 36 34 44 101 – 115 34 32 76 116 - 130 20 19 95 131 a více 5 5 100 celkem 106 100 Míry centrální tendence • míry centrální tendence (středu, polohy) jsou výsledkem snahy najít typickou hodnotu pro daný znak • nejčastěji používané modus, medián, aritmetický průměr, méně často harmonický a geometrický průměr Míry centrální tendence • modus – nejčastěji se vyskytující hodnota (např. u příkladu s temperamentem to byl cholerik) • jediná použitelná charakteristika polohy pro nominální data; u pořadových a kardinálních (intervalových nebo poměrových) jsou většinou více typickými charakteristikami medián nebo průměr Míry centrální tendence • medián - prostřední hodnota v řadě hodnot uspořádaných podle velikosti (50. percentil) • je jen pro data, která je možno podle velikosti uspořádat, tj. pořadová a kardinální • dělí soubor na dvě poloviny (pro sudý počet hodnot je medián průměrem dvou prostředních pozorování) Míry centrální tendence Medián • používá se především, pokud chceme eliminovat vliv extrémních hodnot • příklad – průměrný plat 20 tisíc může u 10 osob znamenat, že 9 z nich má 10 tisíc a jedna 110 tisíc; použijeme-li medián – 10 tisíc, získáme více typickou hodnotu • můžeme ho vyčíst z tabulky četností, pokud jsou uvedeny kumulativní četnosti • https://www.czso.cz/csu/czso/cri/prumerne-mzdy- 2-ctvrtleti-2019 Míry centrální tendence • aritmetický průměr – součet všech hodnot znaku dělený jejich počtem • lze použít u kardinálních proměnných • vzorec: m = SX/N (pro populaci) • nebo m = Sx/n (pro výběr) Míry centrální tendence • průměr zahrnuje každou hodnotu znaku – což je jak výhoda, tak nevýhoda (citlivý na extrémní hodnoty) • to je možno vyřešit použitím tzv. useknutého průměru (trimmed mean), který se počítá tak, že se vynechá určité % hodnot z obou stran rozdělení, např. 5% nejnižších a 5% nejvyšších (běžná praxe v hodnocení na ZŠ – škrtne se nejhorší známka). • průměr špatně reprezentuje nehomogenní skupiny • příklad – 30 osob v parku, průměrný věk 12.5 roku, průměrná výška 130 cm: nemusí jít o školní děti, ale o 15 matek se 4-letými dětmi Míry centrální tendence • porovnáním hodnoty průměru a mediánu získáme představu o šikmosti rozdělení hodnot • pokud je průměr větší než medián – kladně (doprava) zešikmeno • průměr menší než medián – záporně (doleva) zešikmeno • průměr = medián – symetrické rozdělení Míry centrální tendence Míry centrální tendence • pro znaky s normálním rozdělením hodnot je průměr nejúčinnější charakteristikou (tj. nejvíce stabilní pro různé výběrové soubory) – dá se nejlépe použít pro odhad parametru populace z charakteristik výběru • je nejčastěji užívanou mírou centrální tendence Míry centrální tendence • kterou statistiku uvádět v případě, že se můžete rozhodnout? • průměr – pokud může být spočítán a pokud není rozdělení příliš šikmé • modus – pokud je rozdělení multimodální (neexistuje jediná typická hodnota) • medián – pokud je rozdělení šikmé a unimodální Míry centrální tendence • příklad – určete modus, medián 18 5 128 2 14 87 50 87 70 Míry centrální tendence • modus = 87 (2x) • medián = 2 5 14 18 50 70 87 87 128 • průměr = 461/9 = 51,22 Míry variability • míry variability popisují kolísání v rozdělení hodnot • užívá se rozpětí, mezikvartilové rozpětí, rozptyl, směrodatná odchylka Míry variability • rozpětí (variační šíře, variační rozpětí) – rozdíl mezi nejvyšší a nejnižší hodnotou • značně ovlivněno extrémními hodnotami, není dobrým odhadem parametru populace Míry variability • mezikvartilové rozpětí (interkvartilová odchylka) – rozdíl mezi hodnotou horního kvartilu a dolního kvartilu • kvartily – dělí soubor na 4 stejné části; horní kvartil odděluje 25% nejvyšších hodnot (75. percentil), dolní 25% nejnižších (25. percentil) • mezikvartilové rozpětí udává rozpětí pro středních 50% hodnot (=délka obdélníku v krabicovém diagramu) • není (podobně jako medián) citlivé na extrémní hodnoty Míry variability • rozptyl (střední kvadratická odchylka průměru) ukazuje, jak jsou hodnoty rozptýleny kolem průměru • v populaci • ve výběru 2 1 2 )( 1 m −= = N i iX N 2 1 2 )( 1 1 mx n s n i i − − = = Míry variability • více než rozptyl se používá jeho odmocnina – směrodatná odchylka průměru • oba ukazatele slouží jako vhodné doplnění průměru – získáme představu o jeho věrohodnosti, tj. jak dobře reprezentuje všechny hodnoty Míry variability • příklad – porovnejte variabilitu u těchto dvou rozložení hodnot (jde o počet správně vyřešených úloh v didaktickém testu u výběru osob ze dvou tříd ZŠ) a) 4 5 4 3 5 5 3 4 3 b) 8 2 12 1 4 3 5 0 1 Míry variability • řešení příkladu • ma = 4, sa = 0.87 • mb = 4, sb = 3.87 • u prvního rozdělení je průměr lepší reprezentací hodnot; u druhého jsou hodnoty kolem průměru hodně rozptýleny Grafy • pouze základní typy • pro kategoriální data - sloupcový diagram, výsečový graf • pro intervalová data – histogram, krabicový diagram • grafy je možno znázornit v kategorizované formě – pro jednotlivé kategorie další proměnné (např. pro muže a ženy) • grafy pro vztah dvou a více proměnných budou probrány později Výsečový graf • koláčový diagram, pie chart – užívá se více v populárních publikacích než v odborných Sangvinik Flegmatik Melancholik Cholerik Výsečový graf • každá výseč by měla být označena % a uveden celkový počet případů • ideální pro 3-7 kategorií • výhody: srozumitelný • nevýhody: jen pro kategoriální data; neukazuje přesné údaje (pokud nejsou vyznačeny); srovnání více skupin osob problematické Sangvinik Flegmatik Melancholik Cholerik Sloupcový diagram • bar chart Počet osob 0 20 40 60 80 100 120 140 Sangvinik Flegmatik Melancholik Cholerik Počet osob Sloupcový diagram • pro kategoriální data, může být orientován horizontálně či vertikálně • jednotlivé sloupce odděleny mezerou • výhody: srozumitelný, je možno v jednom grafu porovnat četnosti pro více skupin osob Počet osob 0 20 40 60 80 100 120 140 Sangvinik Flegmatik Melancholik Cholerik Počet osob Histogram • často užívaný • podobný sloupcovému diagramu, ale je pro intervalová data • jednotlivé sloupce reprezentují nikoliv jednotlivé kategorie, ale intervaly hodnot (sloupce jsou bez mezer) • tvar histogramu závisí také na šířce intervalů • výhody: umožňuje detekovat odlehlá pozorování, srovnání s normálním rozdělením • nevýhody: nezjistíte přesné hodnoty jednotlivých případů, obvykle se nezobrazují data pro více skupin případů Histogram Krabicový diagram • boxplot, vousatá krabička • poskytuje bohaté zobrazení důležitých aspektů rozdělení hodnot • délka krabice odpovídá interkvartilové odchylce; uvnitř krabice je vyznačen medián • v některých variantách grafu jde např. o směrodatnou odchylku a průměr • „vousy“ je ohraničeno rozmezí hodnot Krabicový diagram Induktivní statistika • Deskriptivní statistika se týká výhradně výběrového souboru (vzorku) • Induktivní statistika se snaží zobecnit zjištěné údaje na celou uvažovanou populaci. • Základním nástrojem je tzv. testování hypotéz • Většinou vychází z předpokladu, že neexistuje vztah mezi jevy nebo není rozdíl mezi skupinami • Statistická významnost – umožňuje rozhodnout, zda lze přijmout postulovanou hypotézu Testování hypotéz • Test chí-kvadrát: doplněk kontingenční tabulky – vztah dvou kategoriálních proměnných. Existuje rozdíl mezi chlapci a dívkami v oblíbenosti učebních předmětů? • Porovnání průměrů: T-test či analýza rozptylu (experimentální vs. Kontrolní skupina) • Korelační koeficient: Existence vztahu mezi jevy • Rozsah -1 až 1 (0 = žádný vztah) • A jiné… Pearsonův korelační koeficient • u intervalových a poměrových dat můžeme jako míru asociace - vztahu mezi proměnnými - použít Pearsonův korelační koeficient • korelace • ko = s, spolu, vzájemně • relace = vztah • korelace = vzájemný vztah proměnných Pearsonův korelační koeficient • absolutní hodnota koeficientu vyjadřuje sílu (těsnost) vztahu • znaménko (+ nebo -) směr vztahu • rozsah -1 až +1 • označuje se r Pearsonův korelační koeficient • sám o sobě je deskriptivní statistikou, ale podobně jako u ostatních měr asociace je možno spočíst statistickou významnost (=zda se se významně liší od nuly, tj. zda nějaký vztah mezi proměnnými vůbec existuje) • závisí na velikosti výběru – čím vyšší, tím nižší koeficient vychází průkazný • je mírou pouze pro lineární vztahy • před výpočtem je vhodné zobrazit vztah mezi proměnnými graficky – tzv. scatter (dvourozměrný bodový diagram) Interpretace r • není shoda v tom, jaká hodnota r je považována za těsný vztah • interpretace navržená Guilfordem: • <0.20 zanedbatelný vztah • 0.20-0.40 nepříliš těsný vztah • 0.40-0.70 středně těsný vztah • 0.70-0.90 velmi těsný vztah • >0.90 extrémně těsný vztah Scatter • nelineární vztah • r = 0 62 Excel • Není statistický program • Mnohé jde zpracovat i v Excelu • Problém, jak pracovat s chybějícími daty • ručně 63 datová matice 64 Data lze filtrovat –vybrat si pro analýzy jen např. dívky 65 Pomocí Excelu lze počítat mnohé statistické funkce 66 Použití funkcí v Excelu 67 Tabulka výsledků 68 Ukázka grafického znázornění dat (Excel, sloupcový graf) Motivace k učení CJ 0 10 20 30 40 50 60 70 80 90 100 kariéra maturita cestování uspět baví absolvovat zájemopref.CJ zájemoCJ přátelé kultura rodiče učitel další býtlepší partnerskáškola %studentůuvádějícíchdanýmotivátor. Doplnit hodnoty ke sloupcům 69 Ukázka grafického znázornění dat (Excel, histogram) Používání metakognitivních strategií 0 37 79 04 23 4 82 0 10 20 30 40 50 60 70 80 90 1