Statistická analýza dat o Kontakt na vyučující: Mgr. Helena Klimusová Psychologický ústav FF MU A. Nováka 1, Brno budova C -- 5. patro o tel. 549494035 o e-mail klimusov@fss.muni.cz o konzultační hodiny v JS 2005: středa 16.00-17.00 Statistická analýza dat o cíl kurzu o organizace výuky o osnova kurzu o doporučená literatura o hodnocení Cíl kurzu o obeznámit se s metodami a základními postupy statistické analýzy o naučit se používat statistický software SPSS o získat znalosti potřebné pro popis, analýzu a interpretaci výsledků kvantitativního výzkumu o tyto znalosti aplikovat při analýze dat bakalářských a diplomových prací o naučit se číst a porozumět metodám a výsledkům statistické analýzy ve výzkumných zprávách publikovaných v odborném tisku Organizace výuky o každý týden 1 hodina přednáška + 1 hodina cvičení o cvičení děleno do dvou skupin (od 10.00 a od 10.50); koná se v počítačové učebně o rozdělení do seminárních skupin v IS Osnova o 1/3 Úvod podstata statistiky, základní pojmy; úloha statistiky v psychologickém výzkumu, popisná a inferenční statistika, diskrétní a spojité proměnné, úroveň měření o 8/3 Popisná statistika základní pojmy, četnostní tabulky, grafická zobrazení, bivariační tabulky, míry centrální tendence, míry rozptýlení, normální rozdělení o 15/3 Inferenční statistika, odhady parametrů úvod do inferenční statistiky, pravděpodobnost, výběrové soubory, metody získávání reprezentativních vzorků, bodové a intervalové odhady parametrů, požadovaný rozsah výběru Osnova o 22/3 Testování hypotéz princip, formulace hypotéz, pětistupňový model testování hypotéz, chyby I. a II. druhu, jednovýběrové testy hypotéz o průměru a podílu o 29/3 Testování hypotéz dvouvýběrové testy hypotéz o průměru a podílu o 5/4 Testování hypotéz analýza rozptylu o 12/4 Testování hypotéz neparametrické pořadové testy, test Chí kvadrát Osnova o 19/4 Vztahy mezi proměnnými základní pojmy, vztahy mezi proměnnými na nominální a ordinální úrovni měření - míry asociace založené na Chí kvadrátu, PRE míry, Spearmanův koeficient pořadové korelace o 26/4 Vztahy mezi proměnnými, korelační a regresní analýza vztahy mezi proměnnými na intervalové a poměrové úrovni, grafické zobrazení, Pearsonův koeficient korelace, jednoduchá lineární regresní analýza Osnova o 3/5 Multivariační techniky bivariační tabulky - kontrola pro další faktor; parciální korelace, mnohonásobná lineární regrese o 10/5 Multivariační techniky; analýza reliability nástin dalších technik (faktorová analýza, shluková analýza); analýza reliability o 17/5 Prezentace výsledků statistické analýzy ve výzkumné zprávě Doporučená literatura o Hendl, Jan: Přehled statistických metod zpracování dat. Praha: Portál 2004. o Healey, Joseph F. Statistics: A Tool for Social Research. 3. vyd. Belmont, California: Wadsworth, 1993. o Swoboda, Helmut. Moderní statistika. 1. vyd. Praha: Svoboda, 1977. o Gregor, Miroslav, Přadková, Svatomíra, Spěšná, Daniela. Statistika pro sociology. 2. vyd. Brno MU 1993. Hodnocení o kurz je ukončen zkouškou o do celkového hodnocení (max. 70 bodů) se započítává i výsledek průběžného testu a body za domácí úkol Hodnocení o průběžný test bude písemný, cca 10 min, možno získat max. 15 bodů; plánován na 19. dubna 2005 o domácí úkol -- zpracování dat z projektu z Metodologie; možno získat max. 15 bodů; termín odevzdání 24.5. (vložit do odevzdávárny v IS) Hodnocení o zkouška sestává z praktické části - vyřešení zadaných příkladů a sepsání výsledků; a ústní části - interpretace výsledků, vysvětlení statistických pojmů atd. o celkem max. 40 bodů o hodnotí se především schopnost vybrat a správně použít adekvátní postup statistické analýzy (15 bodů) a schopnost interpretovat získané výsledky (20 bodů), mnohem méně podstatná je zdatnost v ovládání SPSS (5 bodů) Hodnocení o známka se odvozuje z celkového počtu bodů (úkol + průběžný test + zkouška) n A: 61-70 bodů n B: 56-60 bodů n C: 51-55 bodů n D: 46-50 bodů n E: 41-45 bodů n F: 0-40 bodů Statistika - úvod o vymezení statistiky o úloha statistiky v psychologickém výzkumu o základní pojmy - měření, proměnné (diskrétní a spojité proměnné; podle úrovně měření); popisná a induktivní statistika; populace a vzorek o příprava dat před analýzou Definice statistiky o Statistika je naukou o tom, jak získat informace z numerických dat. o Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter. o Statistika je soubor metod, které nám umožňují rozhodnutí v případě nejistoty. Definice statistiky o Analýza dat náhodného charakteru, která předpokládá použití pokročilejšího aparátu matematiky a určitého matematického modelu (teorie pravděpodobnosti). Definice statistiky o Statistická analýza jsou záhadné, někdy až prapodivné manipulace s daty získanými pomocí experimentu, jejichž cílem je zastřít ten fakt, že výsledky nemají pro lidstvo žádný zobecnitelný význam. Obvykle jsou při ní používány počítače, což této proceduře propůjčuje další auru nereálnosti. Role statistiky ve výzkumu o při výzkumu v sociálních vědách jsou střídavě používány deduktivní a induktivní postupy o statistika se uplatňuje především u induktivních postupů o (deduktivní postupy -- z teorie jsou odvozeny hypotézy a z nich postup pozorování/měření; induktivní postupy: z pozorování jsou odvozeny obecné závěry, které mohou modifikovat teorii atd.) Proměnné o při výzkumu psychologvé získávají, měří a analyzují proměnné o proměnná je objekt, který může nabývat různých hodnot (na rozdíl od konstanty) Proměnné o jsou rozlišovány různé typy proměnných Proměnné o podle jejich role ve výzkumném plánu -závislé, nezávislé, intervenující o diskrétní a spojité proměnné o podle úrovně měření -- nominální, pořadové, intervalové a poměrové Závislé a nezávislé proměnné o příklad experimentu: chceme zjistit účinnost prostředku na zlepšení paměti u seniorů ve srovnání s placebem Závislé a nezávislé proměnné o nezávislá proměnná -- podávaný prostředek (testovaný lék x placebo) o závislá proměnná -- výkon v testu paměti (např. počet vybavených slov) o možné intervenující proměnné -- ochota užívat léky, podmínky při testu, věk... Závislé a nezávislé proměnné o jiný příklad: Milgramův experiment s poslušností vůči autoritě Závislé a nezávislé proměnné o nezávislá proměnná -- viditelnost a slyšitelnost žáka a přítomnost autority o závislá proměnná -- nejvyšší hodnota uděleného šoku o možné intervenující proměnné --pohlaví učitele/žáka atd. Závislé a nezávislé proměnné o nezávislá proměnná -- ta, se kterou experimentátor manipuluje (independent variable) o závislá proměnná -- proměnná měřená experimentátorem (dependent variable) o intervenující proměnná -- e. se snaží její vliv eliminovat (znáhodňováním, vyrovnáváním) (intervening variable) Kvalitativní a kvantitativní data o kvalitativní (kategoriální) -- zjišťujeme hodnotu znaku -- kategorii (např. pohlaví, náboženské vyznání, rodinný stav, barva očí, vzdělání); často fungují jako nezávislé proměnné (faktory); (categorial data) o kvantitativní (metrická) data -- zjištěná měřením pomocí nějakého nástroje (v širším smyslu); skór v testu, tělesná váha...; obvykle závislé proměnné (measurement data) Úroveň měření o kategoriální proměnné jsou měřeny buď na nominální nebo pořadové úrovni o nominální -- čísla jsou hodnotám proměnné přiřazena náhodně; pouze hodnoty označují, ale nelze s nimi jako s čísly zacházet (jediné operace jsou = a ') (nominal scales) Úroveň měření o pořadová (ordinální) -- hodnoty je možno uspořádat podle velikosti (např. pořadí v závodu, postojové škály), ale není možno stanovit, o kolik se liší (ordinal scales) o možné početní operace jsou stále = a ', ale také < a > Úroveň měření o intervalová -- hodnoty je možno uspořádat a vzdálenosti mezi nimi (intervaly) jsou shodné (např. rok narození, teplota) (interval scales) o možné početní operace: = a ', < a >, + a - Úroveň měření o poměrová -- stejné vlastnosti jako intervalová a navíc se mezi hodnotami vyskytuje přirozená 0 (indikující absenci znaku) -- tj. má smysl se ptát, kolikrát je hodnota větší než jiná hodnota (ratio scales) o např. věk, počet správně řešených úloh, počet dětí o kromě předchozích početních operací je možné také násobení a dělení Úroveň měření o kvantitativní data je možno zredukovat na kategoriální (např. místo hodnoty krevního tlaku údaj normotenze x hypertenze) o někdy je obtížné stanovit hraniční hodnoty (cut-off scores) Účel typologie proměnných o má pomoci při rozhodování o tom, jak nejlépe zobrazit, shrnout či analyzovat data Populace a výběr o data mohou být získávána na populaci (cenzus) nebo na vzorku populace (výběrové šetření) Populace a výběr o populace (základní soubor) - úplný souhrn lidí, objektů nebo věcí, které jsou předmětem našeho zkoumání o je dána přesným stanovením jeho prvků o prvky mohou být určeny buď jejich výčtem nebo vymezením některých společných vlastností (např. územní příslušnost, věk atd. -- např. všechny děti s diagnostikovanou poruchou pozornosti a trvalým bydlištěm v JM kraji) Populace a výběr o výběr (výběrový soubor, vzorek) -- výzkumníci se snaží, aby byl reprezentativní vůči příslušné populaci (pomocí postupů náhodného výběru) o stejný soubor objektů může za určitých okolností představovat jednou populaci a jindy výběr Parametry a statistiky o pokud provádíme měření na celé populaci, jsou výsledky nazývány parametry populace o bývají označovány řeckými písmeny (např. průměr m) Parametry a statistiky o výsledky z měření na vzorku se nazývají (výběrové) statistiky o většinou jsou užívány k odhadu populačních parametrů pomocí postupů statistického usuzování (inference) Popisná a induktivní statistika o popisná (deskriptivní, explorační) statistika -- třída technik, které slouží k popisu proměnných (např. typická hodnota proměnné, distribuce hodnot atd.) o inferenční statistika -- umožňuje rozhodnutí, zda zjištění ze vzorku platí i na populaci (a s jakou pravděpodobností) -- odhady intervalu spolehlivosti, testování hypotéz Popisná a induktivní statistika o inferenční statistika se dále dělí na parametrické a neparametrické postupy o parametrickými testy ověřujeme platnost hypotézy o parametrech základního souboru (např. průměr) -- vyžadují měření na intervalové úrovni Příprava dat před analýzou o uspořádání dat o kontrola přesnosti dat o vytvoření struktury databáze o vkládání dat do PC o transformace dat Uspořádání dat o výzkumná data mohou pocházet z různých zdrojů: dotazníky, rozhovory, měření při experimentech (pretest, posttest), pozorování o je třeba všechny formuláře, dotazníky, záznamové archy atd. řádně označit, aby je vždy bylo možno i zpětně dohledat Uspořádání dat o původní data se u profesionálních výzkumů po určitou dobu archivují (min. 5-7 let) o je vhodné vytvořit si databázi -- přehled všech použitých zdrojů dat (např. v MS Access nebo Excel, Statistica, SPSS) Kontrola přesnosti dat o někdy vhodné provést již při sběru dat -- pak je možno příp. chybějící nebo jinak problematické odpovědi vyřešit na místě o kontrola: čitelnosti odpovědí, úplnosti odpovědí, důležitých informací (datum, jméno výzkumníka atp.) o je vhodné z dalších kroků vyloučit nevalidní odpovědi (na všechny otázky stejné atd.) Vytvoření struktury databáze o data je možno vkládat přímo do statistických programů nebo do databázových programů (a potom je převést) o rozsáhlé výzkumné projekty mají vytištěnu podrobnou kódovací příručku (codebook) s popisem proměnných Vytvoření struktury databáze pro každou proměnnou: o jméno proměnné (např. pohlaví) o popis proměnné (např. celkový skór dotazníku deprese) o popis hodnot proměnné (např. 1=chlapci, 2=dívky) o způsob kódování chybějících hodnot (např. 9) o formát proměnné (numerický, textový, datum...) Vkládání dat do PC o pro kontrolu přesnosti vkládání existují nejrůznější postupy o např. dvojité vkládání (double entry) -- speciální program, který při druhém vkládání porovnává data s původním údajem a upozorní na chyby; není příliš rozšířeno Vkládání dat do PC o jednodušší je náhodně zkontrolovat určitý počet případů (při velkém procentu chyb kódovat znovu a porovnat) o vždy je nutno alespoň zkontrolovat, zda rozsah zadaných hodnot odpovídá předpokladům Transformace dat o obrácení položek -- některé položky bývají formulovány v opačném směru než zbytek škály; o jejich hodnoty je třeba překódovat (např. u 5 bodové škály se bude 1 rovnat 5, 2 bude 4 atd. až 5 bude 1) Transformace dat o vzorec pro obrácení škály nová hodnota = nejvyšší hodnota +1 -- stará hodnota o v SPSS je možno provést pomocí příkazů COMPUTE nebo RECODE Transformace dat o výpočet celkových skórů -- většinou součtem hodnot několika proměnných (příp. průměr atp.) o v příkazu COMPUTE se zadá příslušný vzorec, např. pro součet celk = p1 + p2 + p3 o nebo rovnou funkce (sum, mean) celk = sum (p1 TO p3) Transformace dat o sloučení hodnot proměnných -- např. ze 7 bodové škály chceme udělat 3 bodovou; nebo z věku zadaného v letech vytvořit 3 věkové skupiny o příkaz RECODE Kontrolní otázky o klasifikace proměnných podle jejich role ve výzkumném plánu o rozdíly mezi nominální, ordinální, intervalovou a poměrovou úrovní měření; možné početní operace o vymezení populace a výběru, parametrů a statistik o vymezení popisné a inferenční statistiky o postup přípravy dat před analýzou Zopakovat z kurzu metodologie o výzkumný projekt o měření, objektivita, reliabilita, validita o výzkumné plány o výběr (postupy) Literatura o Hendl -- kapitoly 1 a 2 o doplňující (v IS): n Gaito, J. (1980). Measurement scales and statistics: Resurgence of an old misconception. Psychological Bulletin, 87, 564-567 n Velleman, P. F. & Wilkinson, L. (1993). Nominal, ordinal, interval, and ratio typologies are misleading. The American Statistician, 47(1), 65-72. n Lord, F. (1953). The Statistical treatment of football numbers. The American Psychologist, 8, 750-751.