Inferenční statistika


Populace
•Množina všech prvků, kterých se týká náš výzkum
•Základní soubor
•Politické strany, kandidáti, plakáty v kampaních, země světa
•Voliči/lidé

Vzorek
•Případy z populace, které jsou zahrnuty v našem výzkumu
•Někdy může vzorek zahrnovat celou populaci
•Nejlepší možná situace
•Výsledky analýz platí pro celou populaci
•Není nutné dělat výběry, jen abychom mohli mít inferenční statistiku
•Pokud ne, tak máme výběrový soubor
•Vzorek je zatížen řadou chyb
•Výběrovou chybu můžeme spočítat
•Otázka, zda naše výsledky platí pro celou populaci
•=> inferenční statistika

Jak může vzorek vzniknout?
•Vezme co je po ruce
•Dotazníky distribuované po sociálních sítích
•„Sněhová koule“
•Zvířata v zoo
•
•Náhodný (pravděpodobnostní) výběr
•Každý člen populace má stejnou pravděpodobnost, že se dostane do vzorku
•reprezentativita
•

Problémy s populací
•Známe populaci?
•Bez znalosti populace je těžké vytvořit výběr
•Je dostupný seznam všech členů populace?
•Např. registr obyvatelstva (v čr existuje, ale není dostupný)
•Je možné všechny členy populace „kontaktovat“/zjistit o nich údaje?
•Exit-poll při možnosti poštovní volby
•

Jak velký by měl být vzorek
•Jaké máme k dispozici prostředky?
•Větší vzorek stojí více peněz a/nebo času
•Jak velkou přesnost požadujeme?
•Velký vzorek umožňuje mít spolehlivější výsledky
•Jaké bude chtít dělat analýzy?
•Různé typy analýz potřebují různě velké vzorky
•Jak běžný/raritní je jev, který chceme zkoumat?
•Pokud chceme zkoumat něco, co se děje vzácně, potřebujeme hodně velký vzorek

Proč je velikost vzorku důležitá
•Čím větší vzorek, tím jistější výsledek
•Od velikosti cca 2000 už jistota příliš neroste
•Velký skok mezi 2 - 30
•

Inferenční statistika
•Můžeme to, co jsme zjistili na vzorku, zobecnit na celou populaci?
•Má to, co jsme zjistili, nějaký smysl
•Jen v případě pravděpodobnostních výběrových souborů
•Jak moc si můžeme být jisti výsledkem
•Spolehlivost, signifikance

Odhady
•Jaká je průměrná ideologická pozice voličů?
•Pokud pracujeme se vzorkem, tak získaný průměr je jen odhad (bodový odhad)
•Lepší je poskytovat intervalový odhad
•V jakém rozmezí se „pravděpodobně“ pohybuje skutečný průměr v populaci
•Skutečný průměr obvykle neznáme
•

Výpočet odhadu průměru
•95% interval spolehlivosti průměru
•Průměr ± 1.96xSE (SE – Standard error, česky směrodatná chyba)
•SE= směrodatná odchylka/√počet případů
•
•Pokud je vypočtený průměr 100, sm.odch. 10 a N (počet případů) 100
•100 ± 1.96x(10/√100)
•=98 – 102
•

Výpočet odhadu četnosti (procent)
•C.I. 95% = p ± 1,96 × √p(1−p) / n
•P je relativní četnost před vynásobením 100

Příklad exitpoll
•Chceme zjistit, jak dopadnou volby, ještě než budou sečtené výsledky
•Ptát se všech voličů by bylo velice nákladné a trvalo by to
•Ptáme se jen některých voličů – náhodný výběr
•Každý 5 odcházející od voleb
•Z vytvořeného vzorku můžeme odhadnout podporu stran nebo průměrnou ideologickou pozici
•


strana
realný výsledek
odhad
dolní hranice
horní hranice
odhad - realita
Spolu
34.5
34.8
32.7
36.9
0.4
PirSTAN
18.6
21.6
19.7
23.4
3.0
ANO
21.5
16.8
15.1
18.5
-4.7
SPD
7.4
7.6
6.4
8.8
0.2
Přísaha
4.9
5.4
4.4
6.4
0.5
ČSSD
4.1
4.6
3.6
5.5
0.5
KSČM
2.4
2.6
1.9
3.3
0.2
TSS
2.7
2.5
1.8
3.2
-0.2
SZ
1.3
1.3
0.8
1.8
0.0
VB
1.1
1.2
0.7
1.7
0.1