Metodologie pro Informační studia a knihovnictví 2 Modul 9: Úvod do induktivní statistiky Obsah Induktivní statistika................................................................................................................................. 2 Kdy můžeme zobecňovat? ..................................................................................................................... 2 Logika statistické indukce ...................................................................................................................... 3 Proč nelze jednoduše zobecnit ze vzorku na populaci aneb zobecňování průměrů .......................... 4 Výpočet intervalu spolehlivost v Excelu.................................................................................................... 5 Výpočet intervalu spolehlivost v SPSS ...................................................................................................... 5 Zobecňování výsledků třídění druhého stupně (kontingenčních tabulek).......................................... 9 Induktivní statistika Dostáváme se nyní k nové kapitole statistického zpracování dat – k zobecňování na populaci. Dosud naše výpočty vypovídaly vždy jen o našich respondentech – vzorku, který neodpověděl na naše otázky. Cílem výzkumů je ale často vztáhnout výsledky na celou výzkumnou populaci, kterou vzorek zastupuje Připomeňme si rozdíly mezi deskriptivní a induktivní statistikou:  Deskriptivní statistika: popisuje rozložení četností naměřených proměnných.  Statistická indukce: umožňuje zkoumat vztahy mezi proměnnými a zobecňovat výsledky na základní populaci. Zdroj obrázku: http://new.euromise.org/czech/tajne/ucebnice/html/html/node3.html Kdy můžeme zobecňovat? Na úvod je důležité si říci, že zobecňování na populaci si nemůžeme automaticky dovolit v každém výzkumu. Vzorek totiž musí být reprezentativní vzhledem k populaci. Toho lze docílit různými způsoby, základním způsobem, se kterým ale počítá statistická indukce je prostý náhodný výběr. Teorie statistické indukce – tedy zobecňování formou zjišťování statistické významnosti - je vyvinuta pro případy velkých reprezentativních náhodných výběrů z velkých základních souborů. Rabušic a Soukup (2007) říkají: „Značná část českých sociálních vědců, nemluvě o značné proporci studentů, je posedlá statistickou významností. Testy statistické signifikance v jejich povědomí (neboť tak „pochopili“ smysl testováni v kurzech statistiky) slouží jako všemocné zaklinadlo. Jsou přesvědčeni, že bez testů statistických hypotéz není možné získat vědecky relevantní poznatky. Domnívají se, že tyto testy musí aplikovat na všechny výsledky bez ohledu na to, zdali jejich data pocházejí z pravděpodobnostního (náhodného) výběru, vyčerpávajícího zjišťováni (z cenzu) nebo výběru nenáhodného (kvótního, záměrného, samovýběru). Jsou přesvědčeni, že testy významnosti jim řeknou, co je v datech důležitého, prostřednictvím nalezené statistické signifikance se snaží prokazovat těsnost vztahu dvou proměnných. Nic z toho ovšem statistická významnost neumí.“ Logika statistické indukce Přestože z úvodních řádků vyplývá, že statistickou indukci není možné aplikovat na značnou část výzkumů, které se v praxi realizují, je přesto dobré seznámit se s její logikou. Základem statistické indukce je testování statistických hypotéz, přesněji řečeno zejména testování tzv. nulové hypotézy. Hypotéza je výrok o vztahu proměnných.  Nulová hypotéza předpokládá stav neexistence rozdílu (tj. předpokládá stav shody) mezi proměnnými/skupinami v populaci. (Arbuthnott, 1710)  Alternativní hypotéza předpokládá existenci rozdílu (na základě teorie definujeme předpoklady o rozdílech mezi jednotlivými skupinami v populaci) Příklady nulových hypotéz:  H0: Neexistuje rozdíl mezi rozložením proměnných ve vzorku a v populaci.  H0: Neexistuje vztah mezi časem věnovaným internetu a pohlavím.  Ho: Neexistuje rozdíl mezi průměrným příjmem mužů a žen zaměstnaných v knihovnách. Příklady alternativních hypotéz:  H0: Existuje rozdíl mezi rozložením proměnných ve vzorku a v populaci.  H1: Neexistuje vztah mezi časem věnovaným internetu a pohlavím. H1a: Muži tráví na internetu více času než ženy. (Abychom si mohli dovolit formulovat takto orientovanou hypotézu, měli bychom mít podklady v předchozích výzkumech). NEBO H2b: Ženy tráví na internetu více času než muži. (Abychom si mohli dovolit formulovat takto orientovanou hypotézu, měli bychom mít podklady v předchozích výzkumech). H0: Neexistuje rozdíl mezi průměrným příjmem mužů a žen zaměstnaných v knihovnách. H1a: Muži zaměstnaní v knihovnách mají vyšší příjem než ženy. (Abychom si mohli dovolit formulovat takto orientovanou hypotézu, měli bychom mít podklady v předchozích výzkumech). Pokud data neodpovídají H0, nulovou hypotézu zamítáme. Zamítnutí nulové hypotézy ovšem samo o sobě většinou nestačí k přijetí hypotézy alternativní. Pro přijetí či zamítnutí nulové hypotézy je klíčová hladina statistické významnosti. Statistická významnost je pravděpodobnost, s jakou bychom – za předpokladu platnosti nulové hypotézy – mohli obdržet data odporující nulové hypotéze. (Soukup 2010)  Je-li statistická významnost nízká, nulová hypotéza nejspíš neplatí. Zlaté pravidlo pro induktivní statistiku:  Vysoká hodnota testu statistické významnosti (tj. α > 0,05)  rozdíl není statisticky významný  držíme nulovou hypotézu.  Nízká hodnota testu statistické významnosti (tj. α ≤ 0,05)  rozdíl je statisticky významný  zamítáme nulovou hypotézu. Princip většiny statistických testů spočívá v tom, že se výsledky naměřených hodnot porovnávají s teoretickým modelem jejich rozložení – z něj jsou odvozeny tzv. kritické hodnoty testu (Reichel 2009). Pro různé druhy hypotéz existuje řada testovacích kritérií. Proč nelze jednoduše zobecnit ze vzorku na populaci aneb zobecňování průměrů Představte si, že zkoumáme populaci magisterských studentů knihovnictví. Chceme vidět, jak se měnil nějaký konkrétní ukazatel – třeba jejich váhu v kilogramech. Dejme tomu, že je studentů celkem 200. Náš vzorek je 15 studentů (víme už, že takový vzorek by byl velmi malý, ale pro tento příklad si jej ponechme). Populační průměr sledované vlastnosti je 69,63. Pokaždé, kdy náhodně vybereme nějaký vzorek 15 studentů, dostaneme poněkud odlišné výsledky: Číslo měření Průměr St. odchylka Minimum Medián Maximum Rozpětí 1. 66,12 9,21 47,2 65 87 39,8 2. 73,3 12,48 52,4 71,1 101,1 48,7 3. 68,67 10,78 54 69,1 85,4 31,4 4. 69,95 10,57 54,5 68 87,8 33,3 Takto bychom mohli pokračovat a při každém výběru bychom dostali poněkud jiné výsledky. Nyní vidíme, že z jednoho měření nelze jednoduše zobecnit průměr – každý výběr je zatížen tzv. výběrovou chybou. Výběrová chyba je chyba, která vyplývá z faktu, že neměříme populaci, ale vzorek. Velikost výběrové chyby vychází především z distribuce vlastnosti v populaci. Pokud je populace homogenní vzhledem k vybranému kritériu, výběrová chyba bude pravděpodobně menší. Výběrová chyba také bude klesat s velikostí vzorku. Vzorek 50 studentů bude mít pravděpodobně nižší výběrovou chybu než vzorek 15 studentů. Jak se vypořádat s výběrovou chybou? Musíme pochopit, že ze vzorku nemůžeme se 100%pravděpodobností usuzovat na výsledek (průměr) celé populace. O výsledku tedy můžeme hovořit jen jako o odhadu v rámci určitého intervalu a s určitou mírou jistoty. Je jasné, že čím nižší míra jistoty, tím menší může být interval, ve kterém se spolehlivě průměr nachází v populaci, a naopak: pokud chceme mít vysokou míru jistoty, interval bude větší. Nejčastěji volíme interval spolehlivosti 95 % nebo 99 %. To znamená, že o naměřeném výsledku můžeme s 95% (respektive 99%) spolehlivostí tvrdit, že se nachází v daném intervalu. K výpočtu horní a spodní hranice interval spolehlivosti nám pomůže znalost velikosti směrodatné odchylky. Na obrázku vidíme normální rozložení hodnot v populaci. V intervalu jedné směrodatné odchylky od průměru na obou stranách leží 68,2 % všech naměřených hodnot. V intervalu dvou směrodatných odchylek už leží 95 % a v intervalu tří směrodatných odchylek leží 99 % naměřených hodnot. Výpočet intervalu spolehlivost v Excelu V Excelu pro výpočet intervalu spolehlivosti používáme příkaz CONFIDENCE. Podrobný popis použití příkazu najdete zde. K výpočtu potřebujeme znát:  koeficient spolehlivosti (0,05 pro 95% interval spolehlivosti a 0,01 pro 99% interval spolehlivosti),  směrodatnou odchylku v populaci,  velikost výběrového souboru. V praxi ale většinou neznáme hodnoty průměru v populaci či výši směrodatné odchylky. Proto byly vyvinuty postupy realizovatelné při využití standardní odchylky naměřeného průměru – tzv. Trozložení a T-test. Výpočet intervalu spolehlivost v SPSS V SPSS používáme záložku Explore, kde si na kartě Statistics upravíme velikost intervalu spolehlivosti: SPSS vrátí informace o horní a spodní hranici intervalu spolehlivosti. Hypotézy o shodě dvou populačních průměrů Pro vyhodnocování hypotézy o shodě dvou průměrů používáme tzv. T-test.  Studentův t-test (William Gosset)  směrodatná odchylka (s), která sama podléhá variabilitě výběru, již nemusí být spolehlivým odhadem populační směrodatné odchylky (zdroj)  Pro nás relevantní: Independent Samples T-test Např. zkoumáme vztah mezi pohlavím a počtem dětí (v populaci třicátníků) – příklad pracuje s daty z výzkumu Distinkce a hodnoty 2008 (viz Studijní materiály v ISu). Nulová a alternativní hypotéza:  H0: Neexistuje rozdíl mezi počtem dětí u skupin podle pohlaví.  Ha: Existuje rozdíl mezi počtem dětí u skupin podle pohlaví. Postup v SPSS: Analyze – Compare Means – Independent Samples T-test Podíváme se, jaké rozdíly jsme naměřili na vzorku: Interpretujeme test ve dvou krocích: 1. podíváme se na výsledky F testu o shodě variací ▪ Signifikance u F > 0,05  použijeme T-testu pro případ EQUAL VARIANCES ASSUMED ▪ Signifikance u F < 0,05  použijeme T-testu pro případ EQUAL VARIANCES NOT ASSUMED 2. v příslušném sloupci čteme významnost Porovnávání více populačních průměrů Opět si vše ukážeme na příkladu z výzkumu Distinkce a hodnoty 2008. Např. zkoumáme vztah mezi vzděláním a počtem dětí Nulová a alternativní hypotéza:  H0: Neexistuje rozdíl mezi počtem dětí u jednotlivých vzdělanostních skupin.  Ha: Existuje rozdíl mezi počtem dětí u jednotlivých vzdělanostních skupin. Nejprve si zjistíme rozdíly v naměřených průměrech: Analyze – Compare Means  1. krok: Analyze – One way ANOVA  Options: Descriptives  2. krok: statistika F a její signifikance  3. krok: Chceme vědět, mezi kterými skupinami statisticky významný rozdíl existuje Zobecňování výsledků třídění druhého stupně (kontingenčních tabulek) Druhým příkladem zobecňování z naměřených hodnot na populaci je zobecňování výsledků třídění druhého stupně kategorizovaných dat. Příklad: Chceme vědět, jak se liší frekvence čtení u skupin podle vzdělání. Formulujeme nulovou a alternativní hypotézu:  H0: Neexistuje rozdíl ve frekvenci čtení mezi skupinami třicátníků s různým vzděláním.  Ha: Existuje rozdíl ve frekvenci čtení mezi skupinami třicátníků s různým vzděláním. Uděláme si kontingenční tabulku (už ji umíme od modulu 7): Vidíme poměrně zajímavé rozdíly! Můžeme je zobecnit? Pro zobecňování rozdílů u kategorizovaných proměnných se používá jako testovací kritérium tzv. test nezávislosti chí kvadrát (χ2). Chí-kvadrát je založený na srovnávání naměřených a očekávaných proměnných • Očekávaná četnost: počet jednotek, který by do dané kategorie spadl při náhodném rozložení • Naměřená četnost: počet jednotek, které jsme v dané kategorii ve vzorku naměřili • Reziduál: rozdíl mezi OČ a NČ • Adjustované reziduály: koeficient determinace (AR mají přibližně normální rozložení s průměrem 0 a standardní odchylkou 1) Chí kvadrát v SPSS Chí-kvadrát – Analyze – Crosstabs: Statistics Literatura: Reichel, J. 2009. Kapitoly metodologie sociálních výzkumů. Praha: Grada. Soukup, P. 2010. „Nesprávné užívání statistické významnosti a jejich možná řešení.“ Data a výzkum – SDA Info 4(2): 77–104. SOUKUP, Petr - RABUŠIC, Ladislav. Několik poznámek k jedné obsesi českých sociálních věd statistické významnosti. Sociologický časopis. 2007, roč. 43, č. 2, s. 379-395. ISSN 0038-0288.