HYPOTÉZY Výsledek obrázku pro causality PROČ TO DĚLÁME? DVOUROZMĚRNÁ ANALÝZA JE VSTUPEM NA POLE KAUZÁLNÍCH ÚSUDKŮ KAŽDÁ VĚDA ASPIRUJE NA VÝPOVĚDI O KAUZALITĚ HLEDÁME TEDY PŘÍČINY ČI DŮSLEDKY JEVŮ, KTERÉ STUDUJEME PŘIPOMENUTÍ: KRITÉRIA KAUZÁLNÍHO USUZOVÁNÍ: 1) SOUBĚŽNÉ ZMĚNY V PROMĚNNÝCH 2) ČASOVÁ NÁSLEDNOST PŘÍČINY ADŮSLEDKU 3) VYLOUČENÍ VNĚJŠÍHO (JINÉHO VLIVU) TEDY NAPŘ: STUDUJI VLIV ROZVODU RODIČŮ NA ŠKOLNÍ PROSPĚCH DĚTÍ MĚNÍ SE STRUKTURA RODINY -> MĚNÍ SE PROSPĚCH (TO JSME SCHOPNI CELKEM SNADNO STATISTICKY MĚŘIT) NEJPRVE ROZVOD RODIČŮ, POTOM ZMĚNY PROSPĚCHU (ZDE UŽ BYCHOM POTŘEBOVALI DLOUHODOBÁ DATA – OBVYKLE NEMÁME) ROZVOD RODIČŮ JE HLAVNÍM FAKTOREM ZMĚNY PROSPĚCHU (ZDE UŽ JE TO VELMI SLOŽITÉ… OBVYKLE ALESPOŇ NĚKOLIK KONTROLNÍCH PROMĚNNÝCH)) Výsledek obrázku pro children grades Výsledek obrázku pro child grades F Jak testovat hypotézy na datech VŠEOBECNĚ PLATNÝ ZÁKON GIGO: garbage in garbage out Problém nejasnosti testování hypotéz často netkví v tom, že neznáme nějakou zázračnou techniku analýzy, ale v celém řetězci výzkumný problém – analýza. Důležité je kladení korektních hypotéz, z nichž lze mnoho vytěžit . Hypotéza musí nabízet co nejširší pohyb mezi úrovněmi abstrakce od teorie až k indikátorům. Musíme být schopni formulovat vějíř hypotéz na různé úrovni abstrakce a uvědomovat si hierarchický vztah mezi nimi. (pokud nelze, bude někde chyba) Princip falzifikace v testování hypotéz Formulace nulových hypotéz: Nulová hypotéza – neexistence vztahu/rozdílu, nevhodnost modelu (negace našeho předpokladu – snaha vyvrátit jej) Alternativní hypotéza – vztah/rozdíl existuje, model je vhodný -> falzifikovatelnost (alespoň v principu) – hlavní kritérium použitelnosti hypotéz Do statistické analýzy vstupujeme vždy s nulovou hypotézou (netřeba ji však formulovat přímo v textu, je to samozřejmé) Neexistuje rozdíl v průměrech -> t-test Neexistuje rozdíl v distribucích -> chí-kvadrát Model není vhodný -> F-test, Anova, chí-kvadrát (podle povahy modelu) Dvě roviny testování hypotéz Na úrovni výzkumného vzorku: Vyvrácení H0 na základě rozdílu Věcný význam velikosti rozdílu -> vyhněme se mechanickému zamítání/přijímání hypotéz na základě testů Na úrovni cílové populace (statistická inference): Vyvrácení H0 na základě statistických testů Statistická významnost (lze rozdíl dané velikosti s danou pravděpodobností nalézt v cílové populaci, nebo vznikl náhodným rozptylem – výběrovou chybou?) Statistická významnost nevypovídá vždy o věcné významnosti – Je závislá na velikosti vzorku DVOUROZMĚRNÁ A VÍCEROZMĚRNÁ ANALÝZA JE NÁSTROJEM, JEHOŽ PROSTŘEDNICTVÍM SE KVANTITATIVNÍ VÝZKUM SNAŽÍ POUKAZOVAT NA KAUZÁLNÍ VZTAHY ČINÍ TAK VŽDY NA ZÁKLADĚ SROVNÁNÍ VARIABILITY PROMĚNNÝCH TEDY SROVNÁVÁ, ZDA ROZLOŽENÍ HODNOT JEDNÉ PROMĚNNÉ JE ODLIŠNÉ, POKUD JE TŘÍDÍME PODLE DRUHÉ PROMĚNNÉ -> ODLIŠNÝ PRŮMĚR -> ODLIŠNÝ ROZPTYL -> ODLIŠNÉ ROZLOŽENÍ HODNOT Převzato z: DeVaus, D.A. 2002. Surveys in Social Research. (5th. Ed.) Crows Nest: Allen & Unwin DVOUROZMĚRNÁ ANALÝZA KONTINUUM VS KONTINUUM KORELACE, REGRESE (např. příjem podle věku) KATEGORIE VS KATEGORIE KONTINGENČNÍ TABULKA (např. vzdělanostní kategorie podle pohlaví) KATEGORIE VS KONTINUUM SROVNÁVÁNÍ PRŮMĚRŮ (např. příjem podle pohlaví) Výsledek obrázku pro correlation DVOUROZMĚNÁ ANALÝZA KATEGORIE VS KATEGORIE KATEGORIE VS KONTINUUM KONTINUUM VS KONTINUUM A KONKRÉTNÍ VOLBA PROCEDUR V SPSS… DVOUROZMĚRNÁ ANALÝZA KONTINUUM VS KONTINUUM KORELACE, REGRESE (např. příjem podle věku) KATEGORIE VS KATEGORIE KONTINGENČNÍ TABULKA (např. vzdělanostní kategorie podle pohlaví) KATEGORIE VS KONTINUUM SROVNÁVÁNÍ PRŮMĚRŮ (např. příjem podle pohlaví) Výsledek obrázku pro correlation … TAKŽE KONKRÉTNĚ BYCHOM MOHLI POSTUPOVAT NAPŘÍKLAD TAKTO: X = NEZÁVISLE PROMĚNNÁ = ROZVEDLI SE RODIČE? (2 kategorie) Y = ZÁVISLE PROMĚNNÁ = VÝSLEDEK V TESTU PISA (škála) (obvykle bychom do výzkumu zavedli také kontrolní proměnné např. dobu uplynulou od rozvodu rodičů, s kým nyní žije, nové partnerství rodiče, ekonomickou situaci domácnosti… ale o tom až v lekci „elaborace“) Výsledek obrázku pro children grades Výsledek obrázku pro child grades F Výsledek obrázku pro intact vs divorced http://worldfamilymap.ifstudies.org/2013/wp-content/uploads/2012/11/WFM-Figure151.jpg Převzato z: http://worldfamilymap.ifstudies.org/2013/articles/essay/two-one-or-no-parents SROVNÁNÍ NA ZÁKLADĚ PRŮMĚRŮ REFERENČNÍ ÚROVEŇ = RODINY SE DVĚMA RODIČI = V MĚŘÍTKU ŠKÁLY „0“ http://worldfamilymap.ifstudies.org/2013/wp-content/uploads/2012/11/WFM-Figure151.jpg Pozor ale na důležité okolnosti: •A) Věnujme pozornost rozložení závisle proměnné v daných skupinách • • • • •B) Zvažme, jak veliký rozdíl v průměrech je věcně důležitý Výsledek obrázku pro different distributions Výsledek obrázku pro different distributions Výsledek obrázku pro different distributions http://worldfamilymap.ifstudies.org/2013/wp-content/uploads/2012/11/WFM-Figure151.jpg Např. 100bodová škála, rozdíl 5 bodů vs. 10bodová škála, rozdíl 5 bodů DVOUROZMĚRNÁ ANALÝZA KONTINUUM VS KONTINUUM KORELACE, REGRESE (např. příjem podle věku) KATEGORIE VS KATEGORIE KONTINGENČNÍ TABULKA (např. vzdělanostní kategorie podle pohlaví) KATEGORIE VS KONTINUUM SROVNÁVÁNÍ PRŮMĚRŮ (např. příjem podle pohlaví) Výsledek obrázku pro correlation Výsledek obrázku pro RMS TITANIC KONTINGENČNÍ TABULKA: ROZDĚLENÍ ČETNOSTÍ JEDNOTLIVÝCH KATEGORIÍ PODLE DALŠÍ PROMĚNNÉ Terminologie: Řádková proměnná (row) Sloupcová proměnná (column) Buňka (cell) Obsah buňky: Četnost (může být procento atd.) Marginální četnosti: Totéž jako jednorozměrná analýza Celková četnost: Počet případů s platnou hodnotou obou proměnných TYPY RELATIVNÍCH ČETNOSTÍ (PROCENTA) SLOUPCOVÁ PROCENTA Jaký podíl z celku mužů přežil? Jaký podíl z celku žen přežil? … ŘÁDKOVÁ PROCENTA Jaký podíl z přeživších byli muži? Jaký podíl z přeživších byly ženy? … CELKOVÁ PROCENTA Jaký podíl z celku tvoří muži, kteří přežili? Jaký podíl z celku tvoří ženy, které přežily? … V České republice je dnes příliš mnoho přistěhovalců. Věková kategorie 18-29 30-44 45-59 60 + Celkem Rozhodně souhlasím 10,7 14,7 16,1 17,6 14,8 Souhlasím 26,3 29,2 30,8 34,1 30,1 Ani souhlas ani nesouhlas 38,2 27,7 26,8 24,0 29,2 Nesouhlasím 20,3 22,3 21,4 21,2 21,3 Rozhodně nesouhlasím 4,4 6,1 4,9 3,1 4,6 Celkem 100,0 100,0 100,0 100,0 100,0 DVOUROZMĚRNÁ ANALÝZA KONTINUUM VS KONTINUUM KORELACE, REGRESE (např. příjem podle věku) KATEGORIE VS KATEGORIE KONTINGENČNÍ TABULKA (např. vzdělanostní kategorie podle pohlaví) KATEGORIE VS KONTINUUM SROVNÁVÁNÍ PRŮMĚRŮ (např. příjem podle pohlaví) Výsledek obrázku pro correlation Osa X Osa Y Výsledek obrázku pro global warming correlation ELABORACE (prostředky běžných analýz – bez vícerozměrných modelů) KATEGORIE VS KATEGORIE KONTINGENČNÍ TABULKA KATEGORIE VS KONTINUUM KONTINUUM VS KONTINUUM SROVNÁVÁNÍ PRŮMĚRŮ KORELACE PŘIDAT DALŠÍ VRSTVY TABULKY (např. vzdělanostní kategorie podle pohlaví a věkové kat.) PŘIDAT DALŠÍ VRSTVU TŘÍDĚNÍ PRŮMĚRŮ (např. příjem podle pohlaví a vzdělání) PARCIÁLNÍ KORELACE (např. příjem podle věku a délky praxe v dané pozici) Testování modelů Z matematického hlediska je model rovnice, která vystihuje určitý princip v realitě a umožňuje ho popsat a predikovat výsledky Např. vztah mezi léty vzdělání a dosaženým příjmem Obecná rovnice regresního modelu Y= a + bX a = konstanta b = směrnice – regresní koeficient X, Y = nezávisle a závisle proměnná Regresní rovnice může vypadat takto: PLAT = 8772 + 329*věk, kdy dokončil vzdělání