Dříve, než se začneme bavit o výběru vzorku z populace, připomeňme si, že každý výzkum provádí vlastně mnoho typů výběrů (redukce) z širšího spektra: Čas - pro jaký čas platí výsledky našeho výzkumu? Pro jaké životní období? Pro jakou kohortu? Výběry a typy redukce průřezové strategie kohortní studie studie trendů panelové studie + longitudinální výzkum Časová dimenze dat průřezové strategie kohortní studie studie trendů panelová studie + longitudinální výzkum Dříve, než se začneme bavit o výběru vzorku z populace, připomeňme si, že každý výzkum provádí vlastně mnoho typů výběrů (redukce) z širšího spektra: Komplexnost systému - počet sledovaných jevů a souvislostí mezi nimi liší se kvali/kvanti přístup – vždy však redukujeme (v kvali. méně) Výběry a typy redukce Understanding the Causes of Social Anxiety Disorder 03 Causes of Anxiety - OSFC OCR SPORT U14&18 W.HUSSAIN Operationalization of variables To Realize a Strategy, You First Need to Reduce Complexity Dříve, než se začneme bavit o výběru vzorku z populace, připomeňme si, že každý výzkum provádí vlastně mnoho typů výběrů (redukce) z širšího spektra: Rozsah zkoumaných jednotek -Počet případů (jednotek), které jsme schopni zkoumat v kvalitativním výzkumu omezen intenzitou interakce (nejsme schopni analyzovat stovky rozhovorů) v kvantitativním výzkumu rozpočtem (technicky vzato jsme schopni analyzovat celé populace) Výběry a typy redukce Difference Between Population and Sample (With Table) Sampling Terminology | Research Methods Knowledge Base > Další typy redukce: prostor, etnicita, třída… Výběry a typy redukce 7 Striking Maps that Visualize the Human Footprint Tak zaprvé: Počet není to nejdůležitější! V kvalitativním výzkumu pracujeme s jiným pojetím reprezentativity – zde počet případů hraje roli v tzv. teoretickém nasycení (saturaci): Jakmile získáváme informaci, která se začíná opakovat, zapadá do vytyčených kategorií, je výběr případů nasycený. Zde nepoužíváme pravděpodobnostní (náhodné) výběry. V kvantitativním výzkumu je počet případů jednoznačně spjat s rozsahem výběrové chyby jen pokud je výběr náhodný: V náhodném (pravděpodobnostním) výběru klesá výběrová chyba (zkreslení) s velikostí vzorku. Věnujme tedy pozornost spíše principu výběru, než počtu samotnému! Je náš výběr náhodný? Nejčastější otázka – kolik lidí potřebuji, aby to bylo reprezentativní? „convenience sample“ Výběr 20 lidí 2 muži 18 žen > Jak poznáte, že to není pravá kamarádka? - iDNES.cz „random sample“ Výběr 10 lidí 4 muži 6 žen > PRO VÝZKUM | Rozhovor s tazatelkou paní Venuší Růdlovou. VZOREK/ sample/ výběrový soubor Výsledky analýz = STATISTIKY POPULACE/population základní soubor Neznámé vlastnosti = PARAMETRY CÍLOVÁ POPULACE (též základní soubor, základní populace) – soubor jednotek pro něž předpokládáme platnost našich výsledků VÝZKUMNÁ POPULACE – soubor jednotek teoreticky dostupných pro výběr (oba pojmy se v praxi často používají synonymicky) VZOREK (sample, výběrový soubor) – soubor jednotek, které zkoumáme OPORA VÝBĚRU – seznam jednotek, umožňující náhodný výběr (např. seznam žáků školy, seznam adres s byty) VÝBĚR – proces redukce počtu zkoumaných jednotek Jednotky: osoby, místa, texty, obrazy, časy, události, kontexty… ZÁKLADNÍ POJMY Target Population differs from an Accessible Population | ELITE Institute TAKŽE NAPŘÍKLAD: Populace: ŽÁCI PRVNÍCH ROČNÍKŮ ZÁKLADNÍCH ŠKOL V ČR Cca 80 000 Dostupná populace: ČESKY HOVOŘÍCÍ ŽÁCI PRVNÍCH ROČNÍKŮ ZÁKLADNÍCH ŠKOL V ČR Cca 72 000 Výběr NÁHODNÝ VÝBĚR ŽÁKŮ 1500 Vzorek pro výzkum ŽÁCI, KTEŘÍ VYPLNILI DOTAZNÍK 900 Validní data ŽÁCI, KTEŘÍ SMYSLUPLNĚ VYPLNILI DOTAZNÍK 750 Liší se pro kvalitativní a kvantitativní výzkum U kvalitativního výzkumu je výběr veden logikou reprezentativity pro výzkumný problém Jednotky reprezentují jednotlivé dimenze problému Výběr vzorku je veden pravidlem teoretické saturace Prakticky to znamená nenáhodný výběr vedený snahou po rozmanitosti, odlišných úhlech pohledu, konfrontace různých typů expertního vědění (expertem není tazatel, ale komunikační partner) TYPY VÝBĚRŮ I Sampling Methods | Types and Techniques Explained https://www.scribbr.com/methodology/sampling-methods/ Sample Types and Errors in Research v kvantitativním výzkumu má vzorek reprezentovat populaci existuje několik technik výběru: náhodný výběr (pravděpodobnostní) dále se rozlišuje: - prostý náhodný - systematický náhodný - stratifikovaný náhodný kvótní výběr anketa (samovýběr) Složitější typy výběrů – víceúrovňová struktura (reprezentativita v různých úrovních) Např. škola – třída - žák – párované výběry Např. žák - rodič - TYPY VÝBĚRŮ II každá jednotka základní populace musí mít stejnou pravděpodobnost dostat se do výběru pokud je tato podmínka dodržena, data reprezentují cílovou populaci s chybou, která je odhadnutelná a závislá na velikosti vzorku reprezentuje známé i neznámé vlastnosti populace je třeba opory výběru – seznam jednotek cílové populace z níž je vybírán vzorek (např. seznam obyvatel ČR, seznam domácností) prostý náhodný výběr Obsah obrázku mapa, text Popis byl vytvořen automaticky stratifikovaný náhodný výběr prostý náhodný výběr je organizačně velmi náročný, proto se náhodný výběr většinou provádí v několika krocích např. výběr z okresů v rámci ČR výběr sídel v rámci okresů výběr škol v rámci sídel výběr žáků v rámci školy stratifikovaný náhodný výběr je reprezentativní, je však třeba vhodně zvolit kroky, aby nedošlo ke zkreslení pro agentury náhodný výběr = stratifikovaný kvótní výběr stanovuje kvóty – vyjádření základních parametrů populace, které mají být ve výběru dodržěny kvóty jsou stanoveny na základě sčítání lidu, podle pohybu obyvatelstva, či jiných vyčerpávajících šetření obvykle je použito několik málo charakteristik: např. pohlaví, věk, vzdělání, velikost místa bydliště z ortodoxního hlediska neplatí pro kvótní výběr pravděpodobnostní statistika (inferenční statistika) – o tom dále srovnání výběrů Náhodný výběr Kvótní výběr + Kontrolovatelná reprezentativita Kontrola tazatelů + Rychlost Pružnost Láce - Náročnost Nízká návratnost Nutnost opory výběru - Nekontrolovatelné odchylky od reprezentativnosti Obtížná kontrola tazatelů Velký vliv tazatelů > VÝZKUMNÉ „PANELY“ – PROFESIONÁLNÍ RESPONDENTI J NEPLÉST S PANELOVÝM ŠETŘENÍM Rozhodování o konstrukci vzorku Chci-li dosáhnout reprezentativity s danou mírou chyby, musím splnit dvě podmínky: 1) Pravděpodobnostní výběr (paradoxně pouze u náhodného výběru lze stanovit pravděpodobnost chyby, zatímco u systematických výběrů ne) -(o tom jsme mluvili výše – typy výběrů) (tady je na místě rozhodování do jaké míry jsem schopen docílit pravděpodobnostního výběru, nebo do jaké míry se uchýlit ke kvótnímu) 2) Velikost výběrového souboru (při pravděpodobnostním výběru je dosažení dané míry přesnosti jen otázkou velikosti souboru) -(tím se nyní budeme zabývat) - Jak velký vzorek potřebuji? Kritéria rozhodování: Zvolená přesnost chyba 3 % = 1000 lidí, chyba 6 % = 300 lidí, atd. Nutná třídění do podskupin dvojrozměrná, třírozměrná, x-rozměrná třídění typy použitých proměnných a počty kategorií Non-response Dostupnost a heterogenita cílové populace Velikost cílové populace (hraje roli pouze u malých populací) výběrová chyba zdroj: http://people-press.org/methodology/sampling/ Non-response Při plánování vzorku je třeba počítat s neochotou odpovídat 2 aspekty problému: Navýšení velikosti o předpokládaný „odpad“ -Např. on-line survey má návratnost mezi 20 – 40 %, potřebuji-li vzorek 100 lidí, obešlu 500 -Např. longitudinální výzkum má úmrtnost 30 % ročně. Potřebuji.li 100 lidí za 5 let, musím začínat s vzorkem cca 370 lidí - Sledování struktury odmítnutí Čím vyšší je míra odmítnutí, tím více se výběr blíží anketě Je-li odmítnutí rozloženo náhodně, není to takový problém jako když systematicky odmítají konkrétní skupiny -> zkreslení výsledků -Alespoň sledovat návratnost (mít přehled kolik jednotek jsme oslovili) -Screening před dotazováním – získáváme základní údaje i o těch, kteří nespolupracují (např. tazatel může zaznamenat pohlaví, odhad věku bydliště…) Vedle toho se samozřejmě snažíme zavést motivační prvky!! Důsledky pro analýzu Pro koho je vzorek reprezentativní? Jedná se o vzorek, nebo vyčerpávající výběr? -> Aplikace inferenční statistiky Inference: usuzování ze vzorku na základní populaci Statistická významnost: pravděpodobnost, že statistiky vypočtené na vzorku platí také pro populaci Takže například Potřebuji srovnat školní výkon dětí z rozvedených a intaktních rodin Zvolená přesnost analýzy pro daný problém: +- 5 % (cca 500 případů) Počet skupin, jež potřebuji srovnávat: Děti z rozvedených a intaktních rodin (500+500) + Kontrolní proměnné – elaborace? Např. vzdělání rodin – alespoň třídění nižší/vyšší Nižší vzdělání rodičů – rozvedení (500) Nižší vzdělání rodičů – intaktní (500) Vyšší vzdělání rodičů – rozvedení (500) Vyšší vzdělání rodičů – intaktní (500) Celkem 2000 Non-response/návratnost? (počítejme např. 50 %) à Oslovit vzorek 4000 dětí