Radoslav Škapa •Redukce počtu pozorovaných proměnných •Redukce počtu analyzovaných vztahů mezi proměnnými. •Redukce populace na vzorek. •Redukce časového kontinua na jeden bod – naprostá většina sociálních jevů se mění s časem, což je zásadní, usilujeme-li o kauzální vysvětlení. • •http://www.jakubholy.net/humanities/disman-soc_znalost.html •Kvalita výzkumu je vedle použitých metod vyhodnocení, jasné definice cíle, fundované interpretace odvislá zejména kvalitě dat, která má dvě klíčové složky: ▫reprezentativitu (externí validita) ▫a kvalitu měření (interní validita) • •Validita (platnost) – zda test skutečně měří to, co chceme měřit •Reliabilita (spolehlivost) ▫Reliabilita je předpokladem, aby byl test validní! ▫složky reliablity: stabilita v čase, ekvivalenci (různý postup měření – stejný výsledek) a vnitřní konzistenci (Split-Half metoda) ▫ •Měření reliablity ▫Měří se snadněji než validita ▫Opakované měření v čase (v krátkém čase se jev nemění) ▫mezi-položková reliabilita (konzistence v odpovědích na baterii otázek) ▫alternativní forma jedné otázky (např. různé pořadí nabízených odpovědí ▫Více hodnotitelů hodnotí jednu věc – zkoumá se shoda •Kriteriální validita – výsledek se porovnává s validizovaným kritériem (současně, retrospektivně). Kde takové kritéria vzít? ▫Příklad: prediktivní modely se porovnaní se skutečností, která nastane (retrospektivní hodnocení). •Konstruktová validita – zjišťuje zvolený nástroj (ukazatel) to, co mě zajímá? •Obsahová validita – soulad mezi tím co jsme testovali a tím co jsme testovat měli. Např. Obsahuje zkouškový test otázky na podstatné znalosti z celého učiva? (předpokladem je existence teorie, průzkumu, názory expertů). •Míra shody mezi základním a výběrovým souborem z hlediska kvantity i kvality •Předpokladem zobecnitelnosti výsledků výzkumu Zdroj: http://www.uta.fi/~tero.mamia/opetus/luennot/lecture1.pdf •Míra spolehlivosti zobecňování dána kvalitou výběrového vzorku. •Vždy ale existuje jistá chybovost! •Větší vzorek vždy lepší než menší (Kdo to zaplatí? Čas?) •Ideálně zkoumat celý základní soubor – pak netřeba provádět statistické testování testování výsledků • http://www.lsvv.eu/workshop/katrnak/katrnak_prezentace_1.pdf •Míra návratnosti (final sample)? ▫Při písemném dotazování či kontaktování vybraných osob (podniků) běžně 10% ▫Ideálně víc než 65%* ▫Nedošlo díky tomu k pokřivení výpovědí? (tzv. non-response bias) – porovnat se znaky základního souboru, které jsou známé + další postupy • •Více: Jindřich Krejčí: Chyba plynoucí z výpadků návratnosti výběrových šetření a statistické dokazování http://www.socioweb.cz/index.php?disp=teorie&shw=368&lst=105 •* Smith, Fletcher: The Art & Science of Interpreting Market Research Evidence. • • http://www.lsvv.eu/workshop/krejci/krejci_prezentace.pdf • http://www.lsvv.eu/workshop/krejci/krejci_prezentace.pdf http://www.lsvv.eu/workshop/krejci/krejci_prezentace.pdf •strategie vysvětlení účelu a prospěšnosti výzkumu •rozesílání kontaktních dopisů předem •zajištění maximální důvěryhodnosti výzkumné agentury a jejích tazatelů •techniky odvracení odmítnutí •peněžní a nepeněžní odměny respondentům (pobídky, incentivy) •vhodně zvolená náročnost tazatelských úkolů •vyšší počet pokusů o kontakt •strategie v načasování, sběru dat a pokusů o kontakt s ohledem na životní styly potenciálních respondentů •konstrukce dotazníků s ohledem na zatížení respondentů a předpokládanou zajímavost jednotlivých témat výzkumu •výběr tazatelů a způsoby jejich vyškolení •použití více modů dotazování •vhodné strategie odměňování tazatelů •průběžné vyhodnocování úspěšnosti sběru dat a následná opatření, jako je zadávání méně striktních odmítnutí k dotazování jiným tazatelům, použití vhodných metod sběru dat, případně jejich kombinací atp. http://www.lsvv.eu/workshop/krejci/krejci_prezentace.pdf •Výzkumník: ▫Chybný či nedostatečný popis základního soboru ▫Chybný výběrový soubor (např. nereprezentativní vzorek, chybná metoda tvorby výběrového souboru). ▫Chybně formulované otázky, chybné pořadí otázek •Tazatel: ▫Chování vůči respondentům ▫Nedodržení postupu dotazování/podvody ▫Omyly •Respondenti: ▫Neschopnost odpovědět (neznalost, složitá formulace otázek ▫Neochota odpovědět ▫Neochota odpovědět správně • •Podrobněji např.: http://www.lsvv.eu/workshop/krejci/krejci_prezentace.pdf C:\Users\user_skapa\Pictures\Galerie médií\j0431608.png •Jedna z cest jak eliminovat rizika je triangulace ▫triangulace dat – použití více zdrojů dat ▫triangulace výzkumníků – zkušenosti, intersubjektivita ▫triangulace teorií – více způsobů jak data a jevy interpretovat ▫triangulace metod – více metod na zkoumání jednoho jevu • •Editace a kódování •struktura datového souboru – značení proměnných, jejich charakter •i samotné dotazníky je třeba označit, aby byly dohledatelné. •Přepisování dat •patrně tabulkový procesor (většinou data ve sloupcích) •kontrola přepisovaných dat – podezřelé hodnoty, či celý dotazník •Kontrola dat •Jsou hodnoty jednotlivých proměnných smysluplné? Např. extrémní hodnoty, chybějící hodnoty, podezřelé hodnoty (věk 15 let + stav: ženatý) • • C:\Users\user_skapa\Pictures\Galerie médií\j0441540.png pwp_novy.jpg Procesy kontroly dat •KONTROLA DOTAZNÍKŮ: qOptická (formální) kontrola üKontrola vyplněnosti dotazníků üEvidence průběžného stavu üPočty dotazníků od jednotlivých tazatelů üPočty dotazníků v jednotlivých krajích, respektive výběrových jednotkách üČíslování dotazníků üČíslování je nutné v celém procesu od evidence dotazníků pro zpracování dat üUmožňuje zpětně dohledat papírový (zdrojový) dotazník, tazatele, který jej vyplňoval, i respondenta qLogická (obsahová) kontrola üV případě komplikovaných a dlouhých dotazníků, kde by bylo problematické a zdlouhavé kontrolovat data až po uložení a dohledávat zdrojové dotazníky üKontrola logických souvislostí, součtů apod. q q www.lsvv.eu/workshop/focus/focus_2010_03_15.ppt pwp_novy.jpg KONTROLA DATOVÉ MATICE qprvní pohled na data – třídění prvního stupně üpomocí frequencies si udělat základní přehled o proměnných a distribuci dat üzda nejsou v některých případech uváděny extrémní hodnoty (zejm. kardinální proměnné, např. cena/ks) üzda nejsou uváděny hodnoty mimo definovaný rámec („out of range“) ükontrola použitých jednotek - kódování času (roky, měsíce, hodiny, minuty) ü qkontrola vazeb mezi proměnnými – třídění druhého stupně ücrosstabs – vazby mezi dvěma proměnnými; odhalení nelogických odpovědí (samostatná osoba v domácnosti x počet dětí v domácnosti 3; Zlín, kraj Karlovarský; Praha, velikost obce do 4999 ….) – odhalí často chyby v kódování i „nepoctivé tazatele“ üprvní analytický pohled – můžeme při té příležitosti najít či ověřit korelace mezi proměnnými q q q www.lsvv.eu/workshop/focus/focus_2010_04_06.ppt pwp_novy.jpg Procesy kontroly dat •PŘÍKLAD LOGICKÉ KONTROLY DATOVÉ MATICE – Evropský průzkum pracovních podmínek (EWCS 2010) qKontrola souladu uvedeného počtu členů domácnosti se součtem výčtu jednotlivých osob qKontrola věku ukončení studia s dosaženým vzděláním qVěk ukončení studia nesmí být vyšší než současný věk respondenta qPočet podřízených by neměl být vyšší než celkový počet spolupracovníků qPočet dní pracovní neschopnosti z důvodu pracovního úrazu nesmí být vyšší než celkový počet dní pracovní neschopnosti v daném časovém období qapod. q www.lsvv.eu/workshop/focus/focus_2010_03_15.ppt pwp_novy.jpg Procesy kontroly dat •ČIŠTĚNÍ DAT: qBěhem čištění se odstraňují či napravují nesrovnalosti a nekonzistence v datech (mezi proměnnými, které spolu souvisí) qNejčastěji jde o: üNedodržení filtrů a přeskoků oŘešení: vymazání odpovědí v otázce, která měla být přeskočena üRozpor v odpovědích oŘešení: na základě kontextu ostatních odpovědí zvolíme nadřazenou proměnnou (odpověď), kterou považujeme za platnou; můžeme také kontaktovat tazatele a ověřit, zda správně zaznamenal respondentovu odpověď üChybějící odpovědi oŘešení: dohledání dotazníku na základě jeho ID, ověření, zda nedošlo ke ztrátě během ukládání; pokud ne, je nutné zpětně kontaktovat respondenta a doptat se na odpověď www.lsvv.eu/workshop/focus/focus_2010_03_15.ppt pwp_novy.jpg Procesy kontroly dat •NEJSOU-LI DATA SEBRÁNA SPRÁVNĚ… (aneb řešení problémů způsobených selháním lidského faktoru) q qNedůsledné/nekompletní vyplnění dotazníku üŘešení: oPreventivní 10% navýšení výběrového souboru oOpětovné kontaktování respondentů q qNedodržení kvóty, nedodržení zadaného počtu realizovaných rozhovorů, podvodně vyplněné dotazníky üŘešení: oPreventivní 10% navýšení výběrového souboru oDosběr, umožňuje-li to časový harmonogram projektu (je vždy lepší mít časovou rezervu v timingu) www.lsvv.eu/workshop/focus/focus_2010_03_15.ppt pwp_novy.jpg Literatura •Miroslav Disman: Jak se vyrábí sociologická znalost •http://www.jakubholy.net/humanities/disman-soc_znalost.html •Martin Kreidl: Metody měření reliability a validity. http://www.socioweb.cz/index.php?disp=teorie&shw=153&lst=106 •StatSoft, Inc. (2010). Elementary Statistics Concepts. Electronic Statistics Textbook. •http://www.statsoft.com/textbook/elementary-statistics-concepts/button/1/