INFERENČNÍ STATISTIKA SOUBOR STATISTICKÝCH METOD PRO ODVOZENÍ CHARAKTERISTIK POPULACE Z CHARAKTERISTIK VÝBĚROVÉHO SOUBORU • •ODHADY PARAMETRŮ TESTOVÁNÍ HYPOTÉZ INFERENČNÍ STATISTIKA SOUBOR STATISTICKÝCH METOD PRO ODVOZENÍ CHARAKTERISTIK POPULACE Z CHARAKTERISTIK VÝBĚROVÉHO SOUBORU • •ODHADY PARAMETRŮ JEN PRO PŘIPOMENUTÍ: ODHADY PARAMETRŮ SE TÝKAJÍ JEDNOROZMĚRNÝCH ANALÝZ NAPŘ. SPOČÍTÁME PRŮMĚR JEDNÉ PROMĚNNÉ A ZJIŠŤUJEME, V JAKÉM INTERVALU SE BUDE POHYBOVAT V POPULACI -> USUZUJEME NA HODNOTU PARAMETRU INFERENČNÍ STATISTIKA SOUBOR STATISTICKÝCH METOD PRO ODVOZENÍ CHARAKTERISTIK POPULACE Z CHARAKTERISTIK VÝBĚROVÉHO SOUBORU TESTOVÁNÍ HYPOTÉZ … A TÍM SE BUDEME ZABÝVAT DNES TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ •VĚCNÉ HYPOTÉZY •(Falzifikace teorie – deduktivní odvozování: usuzování z indikátorů na teorie) • • STATISTICKÉ HYPOTÉZY •(Lze výsledky zobecnit? Odpovídají předpokladům? – inference: usuzování ze vzorku na populaci) NÁPOVĚDA • „Srovnej vždy své získané výsledky s tím, co se dá čekat od náhody". • • F. N. Kerlinger: Základy výzkumu chování. Praha, Academia, 1972, str. 152. • NULOVÁ HYPOTÉZA (H0) je specifickým modelem statistické hypotézy, která PŘEDPOKLÁDÁ: • • STAV NEEXISTENCE • (mezi rozloženími není rozdíl, mezi proměnnými není vztah, průměry se neliší…) • • …V POPULACI!!! • I když pracujeme s výběry, • NULOVÉ HYPOTÉZY • se týkají parametrů • (tedy situace v cílové populaci /základním souboru) • •Tj. testujeme na statistikách, ale vyjadřujeme se o parametrech. VÝBĚR INFERENČNÍ STATISTIKY KONTINUUM VS KONTINUUM KORELACE, REGRESE KATEGORIE VS KONTINUUM SROVNÁVÁNÍ PRŮMĚRŮ KATEGORIE VS KATEGORIE KONTINGENČNÍ TABULKA …A ZDE JE TO SLOŽITĚJŠÍ VIZ DÁLE: INFERENČNÍ STATISTIKY PRO PRŮMĚRY DVĚ SKUPINY (muži/ženy pre-test/post-test) VÍCE SKUPIN (ZŠ/VYU/SŠ/VŠ) NEZÁVISLÉ VÝBĚRY (muži/ženy) ZÁVISLÉ VÝBĚRY (PÁROVÁ DATA) (pre-test/post-test) •TERMÍNY: • •NEZÁVISLÉ/ZÁVISLÉ VÝBĚRY: •ZDE SE VÝBĚREM ROZUMÍ KAŽDÁ SROVNÁVANÁ SKUPINA V RÁMCI NAŠEHO VZORKU – NAPŘ MUŽI/ŽENY •JE NÁHODNÝ VÝBĚR ŽEN VE VZORKU NEZÁVISLÝ NA VÝBĚRU MUŽŮ? – PAK JDE O DVA NEZÁVISLÉ VÝBĚRY. • •POKUD BYCHOM NÁHODNĚ VYBÍRALI NAPŘ. MUŽE A ZÁROVEŇ DOTAZOVALI JEJICH PARTNERKY, PAK JDE O ZÁVISLÝ VÝBĚR – PÁROVÁ DATA • •TYPICKÁ PÁROVÁ DATA: •PRE-TEST, POST-TEST. VÝBĚR PRO POST-TEST JE DANÝ VÝBĚREM PRO PRE-TEST, DATA JSOU PROPOJENA – KE KONKRÉTNÍ HODNOTĚ PRE-TESTU EXISTUJE KONKRÉTNÍ HODNOTA POST-TESTU • • •TERMÍNY: • •NORMÁLNÍ/NE-NORMÁLNÍ ROZLOŽENÍ • •JE OBECNĚ NEJČASTĚJŠÍM KRITÉRIEM ROZHODOVÁNÍ MEZI TZV. PARAMETRICKÝMI A NEPARAMETRICKÝMI TESTY • •PARAMETRICKÉ - data splňují určité předpoklady (zejména tedy tvar rozložení) Obvykle známější testy (t-test, ANOVA), citlivější a s více možnostmi (post-hoc testy). • • •NEPARAMETRICKÉ – bez předpokladů. Obvykle méně známé, méně citlivé, s méně možnostmi dodatečných analýz. (Mann-Whitney, Kruskal-Wallis) • •Citlivost – kdy už test dovoluje zamítnout H0 • PŘÍKLADY NULOVÝCH HYPOTÉZ • Mezi DVĚMA (nebo VÍCE) PARAMETRY, např. mezi průměrným příjmem mužů a žen, není v ZÁKLADNÍM souboru rozdíl, •(tj. výběr pochází ze souboru, kde je příjem obou pohlaví shodný) • •Příklad NULOVÉ HYPOTÉZY: •Předpokládáme, že průměrný příjem •mužů a žen je v POPULACI stejný, •ale v našem výběru se liší o 560 Kč. Jsou 2 možnosti: • Data našeho výběru jsou chybná (rozdíl mohl být způsoben výběrovou chybou, neexistuje v POPULACI (ZÁKLADNÍM SOUBORU). • Původní předpoklad je chybný, rozdíl existuje i v POPULACI (ZÁKLADNÍM SOUBORU). VÝPOČET TESTOVACÍHO KRITÉRIA ZJIŠTĚNÍ KRITICKÉ HODNOTY SIGNIFIKANCE H0 JAK SOFTWARE TESTUJE – BLOKOVÉ SCHÉMA ROZHODNUTÍ PLATÍ H0 ? INTERPRETACE Všechny výpočty nám řekly pouze to, že daný výsledek můžeme s vysokou pravděpodobností očekávat i v populaci. Jaký je jeho význam? Je signifikantní rozdíl o pět bodů na stobodové stupnici věcně důležitý? TAKŽE CO DĚLÁME MY? TESTOVACÍ KRITÉRIUM – PŘÍKLAD SROVNÁNÍ ROZDÍL MEZI MUŽI A ŽENAMI VE VZORKU INTERVAL SPOLEHLIVOSTI = ZDE LEŽÍ PRŮMĚR V POPULACI (S PRAVDĚPODOBNOSTÍ 95 %) JE ROZDÍL VĚTŠÍ, NEŽ CHYBA MĚŘENÍ? Chyba 1. a 2. druhu CO JE TEDY VÝSLEDKEM TESTŮ? JEDNODUŠE: RIZIKO CHYBY, KTERÉ SE DOPUSTÍME, POKUD ZAMÍTNEME NULOVOU HYPOTÉZU 0=ŽÁDNÉ RIZIKO 1=100% RIZIKO ARBITRÁRNÍ HRANICE: 0,05 NEBO 0,01 TEDY SPOLEHLIVOST 95 % NEBO 99 % • HO se přijímá HO se zamítá Jestliže HO je pravdivá Správné rozhodnutí Chyba I (alfa) Tvrdíme, že je rozdíl významný, ale on je dán náhodou (chybně zamítnutá H0) Jestliže HO je nepravdivá Chyba II (beta) Tvrdíme, že je rozdíl dán náhodou, ale on existuje (chybně neodmítnutá H0) Správné rozhodnutí • STATISTICKÁ VÝZNAMNOST neznamená nutně významnost věcnou (praktickou, substantivní)! • I malé rozdíly mohou být statisticky významné. • Neříká nic o důležitosti výsledků, vypovídá pouze o tom, jak jsou výsledky pravděpodobné. •CHYBY PRÁCE SE STATISTICKOU •VÝZNAMNOSTÍ: • •POUŽITÍ TESTŮ TAM, KDE NEMAJÍ SMYSL: •Vyčerpávající výběr, nepravděpodobnostní výběr, situace, kdy nechci ze vzorku zobecňovat • •AUTOMATISMUS SIGNIFIKANTNÍ = VÝZNAMNÝ •Spolehlivost výsledku je zaměňována s jeho věcnou významností. Hypotézy jsou automaticky testovány jen statistickými testy •Viz: • •Viz např: •Soukup, P., Rabušic, L. Několik poznámek k jedné obsesi českých sociálních věd – statistické významnosti. In Sociologický časopis/Czech Sociological Review. Praha: Sociologický ústav AV ČR, 2007, vol. 43, 2: 379-395. ISSN 0038-0288. • http://sreview.soc.cas.cz/upl/archiv/files/644_07-2%20SoukupRabusic.pdf • •Soukup, Petr. 2010. “Nesprávná užívání statistické významnosti a jejich možná řešení”. Data a výzkum - SDA Info 4(2): 77-104. •http://archiv.soc.cas.cz/download/1082/DaV10_2_s77_104.pdf Grafická prezentace výsledků – intervaly spolehlivosti Graf intervalů spolehlivosti (error bar) Všimněte si měřítka Dvojrozměrná analýza Třírozměrná analýza