Instatní statistika v jedné hodině (pro metodologii III) o přehled metod o kontingenční tabulky o porovnávání průměrů o korelace, regrese o faktorová analýza o shluková analýza Přehled metod o obě proměnné kategoriální: kontingenční tabulka + Chí-kvadrát o nezávislá proměnná kategoriální, závislá kardinální: porovnávání průměrů o obě proměnné kardinální: korelace, regrese Test Chí-kvadrát o chí-kvadrát pro testování nezávislosti proměnných se používá pro nominální nebo ordinální proměnné o data jsou uspořádána do tzv. kontingenční tabulky (viz příklad) Příklad o zajímá nás, jak souvisí model manželství s jeho vydařeností n model manželství má kategorie: dominance žena, dominance muž, kooperace n vydařenost má 3 kategorie -- vydařené, průměrné, nevydařené o pozn.: jde o manželství rodičů respondentů, tak jak je posuzují oni (zdroj dat -- výzkum doc. Plaňavy) Příklad o otázka zní: liší se podíl vydařených, průměrných a nevydařených manželství u rodin, kde dominovala matka, rodin, kde dominoval otec a u rodin, kde nedominoval ani jeden z nich? Kontingenční tabulka (SPSS) Test Chí-kvadrát o chí-kvadrát porovnává očekávané a pozorované četnosti o očekávané jsou četnosti za předpokladu, že proměnné jsou nezávislé Příklad o v našem příkladu bylo 42,2% vydařených manželství o pokud by proměnné (model a vydařenost manželství) byly vzájemně nezávislé, poměr vydařených manželství v jednotlivých modelech manželství by měl být přibližně stejný (a odrážet celkový podíl) -- 42% o podobně ostatní kategorie... Test Chí-kvadrát o očekávané četnosti -- výpočet: Oij = (ři sj )/ N (pro každé políčko tabulky se vynásobí celkové četnosti z příslušného řádku se sloupcovými četnostmi a vydělí celkovým počtem osob) Příklad Očekávané četnosti Test Chí-kvadrát o chí-kvadrát porovná očekávané četnosti s pozorovanými c2 = S [(pozor. četnosti -- oček.)2/oček.] Test Chí-kvadrát v SPSS Porovnávání průměrů o Možné typy problémů: n porovnáváme průměr vzorku s průměrem populace jednovýběrový t-test n porovnáváme průměry dvou vzorků t-test pro nezávislé výběry n porovnáváme dva průměry jednoho vzorku t-test pro závislé výběry (tzv. párový t-test) n porovnáváme více průměrů analýza rozptylu T-test pro nezávislé výběry o tento test používáme, pokud chceme porovnat průměry dvou skupin případů o např. n průměrné skóre v neurocitismu u mužů a žen n průměr v indexu životní spokojenosti u extravertů a introvertů atd. T-test pro závislé výběry o označuje se někdy také jako t-test pro párované výběry o v naprosté většině případů se používá pro porovnání dvou měření u stejných osob (tj. páru měření u jedné skupiny osob) o někdy také pro porovnání průměrů u dvou skupin osob, které tvoří páry (např. manželské či podle jiného klíče -- věku, pohlaví, nemoci atd.) T-test pro závislé výběry - příklad o Psychiatr chce vyhodnotit úspěšnost určitého způsobu terapie poruch příjmu potravy. Terapie se účastnilo 10 dívek. U každé z nich byla zaznamenána váha před a po terapii. Psychiatr si chce ověřit, zda jejich hmotnost průkazně vzrostla. Porovnání výzkumných plánů o t-test pro nezávislé výběry se používá většinou u výzkumných plánů s výzkumnou a kontrolní skupinou o zatímco t-test pro závislé výběry většinou u výzkumných plánů s opakovaným měřením u stejných osob Porovnávání průměrů o t-testy jsou určeny pouze pro porovnávání dvojice průměrů o v mnoha výzkumných plánech je však více skupin než dvě Analýza rozptylu o proto je vhodnější místo mnoha t-testů použít jinou statistickou techniku -- analýzu rozptylu o analysis of variance --ANOVA o umožňuje otestovat rozdíly mezi průměry více skupin najednou Analýza rozptylu o logika analýzy rozptylu o výpočetní postup o mnohonásobná porovnávání o opakovaná měření o faktoriální analýza rozptylu o analýza kovariance o vícerozměrná analýza rozptylu Logika analýzy rozptylu o analýza rozptylu nevyužívá pro testování rozdílu mezi průměry samotné průměry, ale rozptyly o počítají se dva odhady: n rozptyl uvnitř skupin (within-groups nebo within-subjects variance) n rozptyl mezi skupinami (between-groups nebo between-subjects variance) Logika analýzy rozptylu o rozptyl uvnitř skupin je ukazatel celkové variability uvnitř skupin -- tj. jak se od sebe vzájemně liší osoby v rámci jednotlivých skupin o rozptyl mezi skupinami je měřítkem variability mezi skupinami -- tj. jak se od sebe liší skupiny osob Logika analýzy rozptylu o poměr těchto dvou rozptylů je statistika F rozptyl mezi skupinami F = rozptyl uvnitř skupin Logika analýzy rozptylu o pokud nejsou mezi skupinami rozdíly, pak by měl být rozptyl mezi skupinami a uvnitř skupin velmi podobný (teoreticky shodný - F=1) o pokud jsou mezi skupinami rozdíly, pak budou tyto rozdíly (between)větší než vzájemné rozdíly mezi osobami uvnitř skupin (within) Logika analýzy rozptylu o je-li F>1, pak kromě F musíme ještě spočítat pravděpodobnost, že bychom takto vysoké získali náhodou (tj. statistickou významnost) o tabulka F rozdělení je vždy pro konkrétní hodnotu alfa; má v řádcích počet stupňů volnosti pro rozptyl uvnitř skupin a ve sloupcích pro rozptyl mezi skupinami Výstup v SPSS rozptyl mezi skupinami rozptyl uvnitř skupin hladina významnosti Mnohonásobná porovnávání o průkaznost F nám řekne, zda existují průkazné rozdíly mezi průměry o ale nedozvíme se tak, mezi kterými skupinami je průkazný rozdíl (která skupina se liší od které) o je třeba provést tzv. mnohonásobná porovnání (multiple comparisons nebo post-hoc comparisons) Mnohonásobná porovnávání o jde vpodstatě o upravené t-testy n upravené vzhledem k počtu porovnávání o existuje více různých typů mnohonásobných porovnávání, např. Fisherův LSD test, Bonferroniho test, Tukeyho test, Scheffeho test atd. Opakovaná měření o analýza rozptylu může být aplikována také na data z opakovaných měření n podobně jako t-test pro závislé výběry; analýza rozptylu se použije v případě, máme-li více než dvě měření o např. v příkladu u t-testu -- změna hmotnosti u dívek s PPP po terapii -- hmotnost by mohla být měřena i několikrát v průběhu terapie Opakovaná měření o procedura se nazývá Analýza rozptylu pro opakovaná měření (Repeated measures) o logika výpočtu je obdobná jako u analýzy rozptylu pro nezávislá data Faktoriální analýza rozptylu o faktor je v analýze rozptylu nezávislá proměnná o máme-li faktorů (nezávislých proměnných) více, použijeme faktoriální ANOVu o může jít o porovnání nezávislých výběrů, o opakovaná měření nebo obojí najednou (tzv. mixed design -- se smíšenými efekty) Faktoriální analýza rozptylu o příklad: neuropsycholog zkoumá oblasti mozku odpovídající za tvorbu a porozumění řeči o vyšetří speciálním testem 24 náhodně vybraných pacientů s poškozenou levou hemisférou mozku -- polovina z nich jsou muži a polovina ženy o kromě mezipohlavních rozdílů ho zajímá rovněž, zda bude rozdíl mezi praváky a leváky (těch je rovněž 12 a 12) Faktoriální analýza rozptylu o tento design se zapisuje 2x2 ANOVA n 2 kategorie pohlaví (muži x ženy) n 2 kategorie laterality (leváci x praváci) Faktoriální analýza rozptylu o faktoriální analýza rozptylu testuje n hlavní efekty n interakce Faktoriální analýza rozptylu o hlavní efekt (main effect) -- vliv jedné nezávislé proměnné zprůměrovaný pro všechny úrovně ostatních nezávislých proměnných o u faktoriální ANOVy jsou testovány hlavní efekty pro všechny faktory o v příkladu testujeme hlavní efekt pro pohlaví a lateralitu Faktoriální analýza rozptylu o průkazný (na hladině 1%) hlavní efekt pro faktor pohlaví o ženy mají celkově vyšší skóry než muži (16,2 a 11,0) Faktoriální analýza rozptylu o průkazný (na hladině 1%) hlavní efekt pro faktor lateralita o leváci mají celkově vyšší skóry než praváci (15,3 a 11,9) Faktoriální analýza rozptylu o interakce se projeví v případě, kdy vliv jedné nezávislé proměnné není stejný na všech úrovních druhé nezávislé proměnné o v příkladu -- je vliv laterality stejný u mužů a žen? n pokud ano, není zde interakce n pokud ne, je zde interakce Faktoriální analýza rozptylu o interakce mezi pohlavím a lateralitou je průkazná (na 5% hladině významnosti) o u žen nehraje lateralita pro výkon v testu roli -- levačky a pravačky se neliší, zatímco u mužů leváci a praváci ano Faktoriální analýza rozptylu o bez interakce -- pouze hlavní efekty Faktoriální analýza rozptylu o interakce Opakovaná měření s další nezávislou proměnnou o faktoriální design je možno uplatnit i u analýzy opakovaných měření o interakce zde znamená, že jsou různě velké rozdíly mezi měřeními u jednotlivých kategorií nezávislé proměnné Opakovaná měření s další nezávislou proměnnou o příklad: psychiatr testující léčbu anorexie by mohl soubor rozdělit na dívky podstupující terapii dobrovolně a nedobrovolně n interakce by mohla vypadat třeba tak, že u motivovaných dívek by došlo k nárůstu hmotnosti, zatímco u nedobrovolných pacientek ke stagnaci Opakovaná měření s další nezávislou proměnnou Analýza kovariance o kromě kategoriálních faktorů je možno do analýzy zařadit také spojitou nezávislou proměnnou -- tzv. kovariát o pak jde o analýzu kovariance (ANCOVA) Analýza kovariance o příklad: šéf firmy obdrží stížnost od zaměstnankyň, že ženy mají nižší platy než muži o podle porovnání průměrů to tak vypadá, ale co kdybychom do analýzy zařadili jako další faktor (kovariát) délku praxe? Multivariační analýza rozptylu o ve všech předchozích příkladech jsme měli pouze jednu závislou proměnnou o je však možno testovat také vliv jednoho či více faktorů na několik závislých proměnných najednou o tato analýza se označuje jako MANOVA (multivariate analysis of variance) Multivariační analýza rozptylu o příklad: reklamní psycholog chce porovnat účinnost dvou typů TV reklam (emocionální x informativní) o nechá respondenty hodnotit na 7-ti stupňové škále 3 aspekty zhinnosti reklamy: zda je reklama zaujala, zda se jim líbí a jestli by uvažovali o koupi inzerovaného výrobku o tyto 3 závislé proměnné pak porovná pro typ reklamy jako faktor Vztahy mezi proměnnými o obecná definice -- síla a směr vztahu o míry asociace pro nominální data n založené na chí-kvadrátu n PRE míry o míry asociace pro ordinální data Míry asociace o míry asociace vyjadřují těsnost vztahu proměnných (a případně směr vztahu) o z chí-kvadrátu se dozvíme pouze, zda nějaký vztah mezi proměnnými existuje (tj. zda se liší četnosti pozorované a četnosti očekávané za předpokladu, že proměnné jsou nezávislé) Míry asociace o těsnost (síla) vztahu -- vyjádřena absolutní hodnotou koeficientu o není shoda v tom, od jaké hodnoty je vztah považován za těsný (někdy uváděno >0.70, jindy >0.30), středně těsný či slabý Míry asociace o směr vztahu -- pouze u ordinálních a kardinálních proměnných o pozitivní vztah -- čím vyšší hodnoty jedné proměnné, tím vyšší hodnoty druhé proměnné o negativní vztah - čím vyšší hodnoty jedné proměnné, tím nižší hodnoty druhé proměnné Míry asociace pro nominální data o míry asociace pro nominální data ukazují pouze sílu vztahu dvou proměnných, nikoli směr či jiné informace o povaze vztahu o rozlišujeme míry založené na chí-kvadrátu a míry PRE Míry založené na chí-kvadrátu o velikost hodnoty chí-kvadrát je ovlivněna velikostí výběru a počtem kategorií tabulky o účelem koeficientů založených na chí-kvadrátu je eliminovat tyto vlivy Míry založené na chí-kvadrátu o rozsah koeficientů je obvykle mezi 0 a 1 n čím vyšší hodnota, tím těsnější vztah n 0 -- žádný vztah n 1 -- absolutní vztah (z hodnot jedné proměnné můžeme předpovědět hodnoty druhé proměnné) o pro koeficienty je možno spočítat statistickou významnost Míry založené na chí-kvadrátu o mezi nejčastěji užívané míry asociace založené na chí- kvadrátu patří koeficienty n Fí (Phi) n Cramerovo V (Cramer's V) n koeficient kontingence (Contingency Coefficient) Míry založené na chí-kvadrátu o Fí koeficient - užívá se pro tabulky 2x2 (tj. pro dichotomické proměnné, např. pohlaví) o vypočte se tak, že se hodnota chí-kvadrátu vydělí počtem osob a výsledek se odmocní Míry založené na chí-kvadrátu o koeficient kontingence -- užívá se někdy místo Fí pro tabulky větší než 2x2 o bohužel jeho max. hodnota je nižší než 1 (závisí na počtu políček tabulky) o neužívá se proto příliš často Míry založené na chí-kvadrátu o Cramerovo V -- podobný výpočet jako Fí; počet osob se navíc násobí počtem řádků - 1 n (pokud je počet řádků menší než počet sloupců, jinak počtem sloupců -- 1) o používá se pro tabulky větší než 2x2 Míry PRE o PRE je zkratka pro Proportional Reduction in Error (poměrná redukce chyby odhadu) o princip PRE: porovnání odhadu hodnot závislé proměnné bez znalosti hodnot nezávislé proměnné a s její znalostí (o kolik se sníží chyba odhadu?) Míry PRE o příklad -- jaký je vztah mezi pohlavím a užíváním rtěnky?* o vypočítáme koeficient lambda o pokud bychom měli odhadnout, zda náhodně vybraný respondent používá rtěnku: jaká je pravděpodobnost chybného odhadu? o *převzat z Disman: Jak se vyrábí sociologická znalost Míry PRE o můžeme očekávat, že více lidí rtěnku nepoužívá než používá (naprostá většina mužů + některé ženy) o takže bude výhodnější odhadnout, že náhodně vybraný respondent rtěnku nepoužívá o pravděpodobnost chyby závisí na podílu lidí užívajících rtěnku Míry PRE Míry PRE o při tomto podílu osob je pravděpobnost chyby asi 40% (když budeme odhadovat, že nádodný respondent rtěnku neužívá) o ze 160 případů bychom se zmýlili 63x Míry PRE o o kolik by se chyba zmenšila, kdybychom znali pohlaví respondenta? o pro muže bychom odhadovali, že rtěnku nepoužívá, pro ženu naopak - že ji používá Míry PRE Míry PRE o pokud bychom znali pohlaví respondenta, zmýlili bychom se ve svém odhadu 21x (2 x u muže a 19x u ženy) o o kolik by se náš odhad zlepšil? Míry PRE o chyby předtím -- chyby teď = 63-21 = 42 o poměrná redukce chyby (tj. vzhledem k předchozím chybám) = lambda = 42/63 = 0,667 o chyba v odhadu užívání rtěnky se sníží asi o 67%, pokud známe pohlaví respondenta Míry PRE o rozsah koeficientu lambda je od 0 do 1 o 0 znamená, že znalost hodnoty nezávislé proměnné vůbec nesníží chybu v odhadu hodnot závislé proměnné; proměnné jsou vzájemně nezávislé o čím blíže 1, tím lépe můžeme z hodnot nezávislé proměnné předpovědět hodnoty závislé proměnné Míry PRE pro nominální data o kromě koeficientu lambda se užívají také n Goodmanovo a Kruskalovo tau (nevyužívá při predikci nejčastější kategorii závislé proměnné jako lambda, ale rozdělení ve všech kategoriích závisle proměnné) n Cohenova Kappa -- pro měření shody dvou posuzovatelů Míry asociace pro ordinální data o u ordinálních dat je výpočet založen na poměru souhlasných a nesouhlasných párů případů o souhlasný pár případů -- hodnota obou proměnných je vyšší (nebo nižší) u jednoho člena páru o nesouhlasný pár případů -- hodnota jedné proměnné je u jednoho člena páru vyšší a hodnota druhé proměnné je nižší Míry asociace pro ordinální data o koeficient gamma = počet souhlasných mínus počet nesouhlasných párů, tento rozdíl vzhledm k celkovému počtu souhlasných a nesouhlasných párů o nerozhodné páry nebere gamma v úvahu Míry asociace pro ordinální data o pokud je většina párů souhlasných, je hodnota gamma kladná -- tj. pozitivní vztah (až +1) o pokud je většina párů nesouhlasných, je hodnota gamma záporná -- tj. negativní vztah (až -1) o pokud je počet souhlasných a nesouhlasných párů vyrovnán -- gamma kolem 0 Míry asociace pro ordinální data o gamma je symetrická míra -- nedělá rozdíly mezi závislou a nezávislou proměnnou o asymetrická varianta koeficientu gamma -- Somersovo D o Kendallovo tau b-- bere v úvahu i nerozhodné páry (tzv. ties); ale hodnoty v rozsahu -1 až +1 mohou být získány pouze pro čtvercové tabulky (tj. stejný počet kategorií obou proměnných) Shrnutí o u nominálních dat hodnota míry asociace proměnných indikuje sílu vztahu -- rozsah od 0 do 1 n nejužívanější Fí nebo Cramerovo V; když víme, která proměnná nezávislá - lambda o u ordinálních dat míry asociace indikují jak sílu vztahu (abs. hodnota koeficientu), tak směr vztahu Korelační a regresní analýza o Pearsonův korelační koeficient o jednoduchá regresní analýza o vícenásobná regresní analýza Pearsonův korelační koeficient o u intervalových a poměrových dat můžeme jako míru asociace -- vztahu mezi proměnnými použít Pearsonův korelační koeficient o korelace n ko = s, spolu, vzájemně n relace = vztah n korelace = vzájemný vztah proměnných Pearsonův korelační koeficient o absolutní hodnota koeficientu vyjadřuje sílu (těsnost) vztahu o znaménko (+ nebo -) směr vztahu o rozsah -1 až +1 o označuje se r Pearsonův korelační koeficient o sám o sobě je deskriptivní statistikou, ale podobně jako u ostatních měr asociace je možno spočíst statistickou významnost o závisí na velikosti výběru -- čím vyšší, tím nižší koeficient vychází průkazný Pearsonův korelační koeficient o je mírou pouze pro lineární vztahy o před výpočtem je vhodné zobrazit vztah mezi proměnnými také graficky -- tzv. scatter (dvourozměrný tečkový diagram) Scatter o pozitivní vztah (přímá úměra) -- čím vyšší hodnoty proměnné X, tím vyšší hodnoty proměnné Y o r > 0 Scatter o negativní vztah (nepřímá úměra) -- čím vyšší hodnoty proměnné X, tím nižší hodnoty proměnné Y o r < 0 Scatter o žádný vztah - hodnoty proměnné X nesouvisí s hodnotami proměnné Y o r = 0 Scatter o nelineární vztah o r = 0 Interpretace r o není shoda v tom, jaká hodnota r je považována za těsný vztah o interpretace navržená Guilfordem: n <0.20 zanedbatelný vztah n 0.20-0.40 nepříliš těsný vztah n 0.40-0.70 středně těsný vztah n 0.70-0.90 velmi těsný vztah n >0.90 extrémně těsný vztah Interpretace r o pro lepší interpretaci je vhodné převést koeficient korelace na koeficient determinace (r2) o ukazuje, kolik rozptylu v jedné proměnné může být vysvětleno rozptylem ve druhé proměnné Interpretace r o korelace neznamená příčinný vztah mezi proměnnými!! n ten můžeme ověřovat pouze experimentem, kdy jsou všechny ostatní proměnné udržovány konstatní, proměnná X předchází Y v čase atd. Faktory ovlivňující r o omezený rozsah hodnot proměnné o použití extrémních skupin o nehomogenní soubor o extrémní hodnoty (outliers) o nelineární vztahy o reliabilita použitých nástrojů Omezený rozsah hodnot o omezený rozsah hodnot jedné nebo obou proměnných snižuje hodnotu r o stejně tak nízká variabilita (extrémní případ:pokud by všechny hodnoty 1 proměnné byly stejné, zákonitě r=0) Použití extrémních skupin o použití extrémních skupin (např. jen osob s vysokým IQ) vede k vyššímu r Nehomogenní soubor o může zkreslit r jak směrem nahoru, tak dolů Extrémní hodnoty o extrémní hodnoty v jedné nebo obou proměnných mohou r výrazně zkreslit (nejen hodnotu, ale i směr), zvláště když je počet osob v souboru nízký Extrémní hodnoty o r= 0,606 o r= 0,766 Neparametrický koeficient o pro ordinální data je možno spočítat Spearmanův koeficient pořadové korelace (r) o počítá se tak, že n hodnoty obou proměnných se seřadí od nejnižší po nejvyšší a přidělí se jim pořadí n z pořadí se pak počítá Pearsonův koeficient korelace Parciální korelace o parciální korelace je taková korelace mezi dvěma proměnnými, kdy kontrolujeme vliv třetí proměnné na obě z nich o např. chceme zjistit, jaký je vztah mezi prospěchem na SŠ a prospěchem na VŠ; obě proměnné jsou nejspíš ovlivněny IQ Regresní analýza o výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými o snažíme se z jedné proměnné nebo lineární kombinace více proměnných predikovat hodnoty další proměnné Regresní analýza o dva typy proměnných: predikovaná (závislá) proměnná a prediktory (nezávisle proměnné) o predikovaná proměnná se označuje Y, prediktory X1, X2 ...Xn o pouze 1 prediktor -- jednoduchá regrese o více prediktorů -- vícenásobná regrese Regresní analýza o regresní analýza umožňuje n porozumět vztahům mezi proměnnými, n predikovat hodnoty proměnné Y z hodnot proměnné X (s určitou přesností) -- např. z hodnot známek na střední škole nebo z počtu bodů u přijímacího testu předpovědět úspěšnost na VŠ Jednoduchá regresní analýza o příklad -- Jak souvisí vzdělání respondenta se vzděláním otce? o tj. jak dobře můžeme předpovědět počet let formálního vzdělání respondenta z údaje o počtu let vzdělání jeho otce? Jednoduchá regresní analýza Jednoduchá regresní analýza o snažíme se najít rovnici tzv. regresní přímky o regresní přímka je taková přímka, od které je vzdálenost bodů (představujících naměřená data) co nejménší o taková přímka, která nejlépe vystihuje data Jednoduchá regresní analýza Jednoduchá regresní analýza o jednou z metod, jak regresní přímku nalézt, je metoda nejmenších čtverců o je zvolena taková přímka, kdy platí, že součet čtverců vzdáleností jednotlivých bodů od přímky je minimální Jednoduchá regresní analýza o obecná rovnice regresní přímky Y' = a + bX o a je konstanta (predikovaná hodnota Y, když hodnota X je 0) o b je směrnice regresní přímky (úhel přímky vzhledem k ose; kolikrát se Y zvětší s každou jednotkou X); Jednoduchá regresní analýza o v příkladu vychází rovnice regresní přímky Y' = 9,93 + 0,32*X o pro děti otců s 0 lety vzdělání předpovídáme necelých 10 let vzdělání o s každým dalším rokem otcova vzdělání předpovídáme o 0,32 roku vzdělání respondenta více n např. pro děti otců s 12 lety vzdělání je predikovaná hodnota jejich vlastního vzdělání 13,8 let Výstup v SPSS Vícenásobná regresní analýza o predikujeme závislou proměnnou z více prediktorů o vliv každého z prediktorů na závislou proměnnou je kontrolován pro vliv všech ostatních prediktorů (jde tedy o vliv "očištěný od vlivů ostatních proměnných a tudíž počítáme parciální koeficienty) Vícenásobná regresní analýza o příklad -- kromě vzdělání otce (X1) může mít na dosažené vzdělání vliv také počet dětí v rodině (X2) o rovnice regresní přímky je Y' = a + b1X1 + b2X2 Vícenásobná regresní analýza o Y' = 10,68 + 0,30*X1 -- 0,13*X2 o vliv vzdělání otce (b=0,30) je o něco menší než u jednoduché regresní analýzy (b=0,32) -- je kontrolován pro počet dětí v rodině, který je zřejmě ovlivněn také vzděláním otce o vliv počtu dětí v rodině je záporný -- tj. čím více dětí, tím nižší vzdělání Vícenásobná regresní analýza o vícenásobná regresní analýza nám umožní srovnat vliv všech prediktorů na závislou proměnnou o můžeme dojít k závěru, že větší vliv na vzdělání respondenta má vzdělání otce než počet dětí v rodině? Vícenásobná regresní analýza o pokud chceme srovnávat vliv prediktorů měřených v různých jednotkách, je nutné použít tzv. standardizované regresní koeficienty o ukazují, kolikrát vzroste hodnota závislé proměnné, pokud se změní hodnota prediktoru o 1 směrodatnou odchylku a hodnoty ostatních prediktorů přitom zůstanou konstatní Výstup v SPSS Vícenásobná regresní analýza o beta pro vzdělání otce je 0,43 o pro počet dětí v rodině -0,13 o větší vliv má tedy vzdělání otce než počet dětí v rodině Vícenásobná regresní analýza o kromě regresních koeficientů je počítán také tzv. koeficient vícenásobné korelace -- korelace všech prediktorů se závislou proměnnou; ozn. R o jde vlastně o korelaci mezi pozorovanými hodnotami závislé proměnné a hodnotami predikovanými na základě regresního modelu Vícenásobná regresní analýza o koeficient vícenásobné determinace -- tzv. % vysvětleného rozptylu (závislé proměnné) lineární kombinací prediktorů; ozn. R2 Výstup v SPSS Vícenásobná regresní analýza o u jednoduché regresní analýzy je koeficient vícenásobné korelace roven korelaci mezi oběma proměnnými Testování hypotéz v regresní analýze o jsou testovány 2 typy hypotéz o 1) zda se R průkazně liší od 0 n testuje se analýzou rozptylu (porovnává rozptyl vysvětlený regresním modelem a reziduální rozptyl) o 2) zda se regresní koeficienty průkazně liší od 0 n testuje se t-testem Výstup v SPSS Výstup v SPSS Předpoklady regresní analýzy o skóry v proměnných jsou nezávislé (nejde např. o opakovaná měření) o dostatečná variabilita všech proměnných o rozdělení hodnot proměnných je normální n u malých výběrů zkontrolovat extrémní hodnoty Předpoklady regresní analýzy o vztahy mezi Y a každou X jsou lineární n zkontrolovat scatterem o vzájemné korelace mezi prediktory nejsou příliš vysoké (tzv. problém mulikolinearity) n pokud ano, je vhodné buď některou z nich vyřadit, nebo z nich vytvořit např. faktorovou analýzou jeden skór Předpoklady regresní analýzy o dostatečně velký počet osob ve výběru vzhledem k počtu prediktorů v modelu Vybrané multivariační techniky o faktorová analýza o shluková analýza Faktorová analýza o cílem faktorové analýzy (exploratorní) je n 1) redukce dat -- zmenšení počtu proměnných odstraněním nadbytečných proměnných (tj. těsně korelujících s ostatními proměnnými) n 2) idetifikace struktury dat -- prozkoumat vztahy mezi proměnnými Faktorová analýza o výsledkem faktorové analýzy (exploratorní) je vytvoření několika hypotetických proměnných -- faktorů n někdy bývají nazývány latentní proměnné o faktory jsou lineárními kombinacemi původních proměnných o vysvětlují vztahy mezi původními proměnnými Faktorová analýza o extrakce faktorů -- na základě matice vztahů mezi proměnnými (např. korelační matice) o počet extrahovaných faktorů -- do značné míry závisí na rozhodnutí výzkumníka n cílem je vysvětlit co největší množství společného rozptylu co nejmenším počtem faktorů Faktorová analýza o interpretace faktorů -- faktorová analýza sama o sobě nenabídne označení faktorů (to je opět na výzkumníkovi) o faktor bývá označen na základě proměnných, které k němu mají nejtěsnější vztah (nejvyšší tzv. faktorové náboje) Faktorová analýza o rotace faktorového řešení -- usnadní interpretaci faktorů o rotace může být ortogonální (tj. předpokládá, že faktory jsou nezávislé) nebo šikmá (předpoklad korelace mezi faktory) Faktorová analýza - příklad o příklad aplikace FA: o Osecká, L., Řehulková, O., Macek, P. (1998). Zdravotní stesky adolescentů: struktura a rozdíly mezi pohlavím. Sborník konference Sociální procesy a osobnost, MU Brno. Faktorová analýza - příklad o cílem studie bylo mj.vytvořit typologii adolescentů na základě jejich zdravotních obtíží o adolescenti v dotazníku označili, jak často trpí každou z 18 nabídnutých zdravotních obtíží Faktorová analýza - příklad o bolesti hlavy o dýchací potíže o žaludeční potíže o závratě o nechutenství o nervozita, neklid o nespavost o noční můry o nesoustředěnost o nevolnosti o silný tlukot srdce o třesení rukou o náhlé zpocení o průjem, zácpa o bolesti v zádech o krční bolesti o bolesti na prsou o bolesti v pánvi Faktorová analýza - příklad o typologie na základě 18 proměnných by byla příliš složitá -- je třeba tento počet snížit o autoři spočítali faktorovou analýzu a extrahovali 3 faktory (vysvětlovaly celkem 48% společného rozptylu) Faktorová analýza - příklad Faktorová analýza - příklad o první faktor nazvali nevolnosti -- sytily ho především tyto potíže: n nevolnosti n nechutenství n závratě n žaludeční potíže n bolesti hlavy n nervozita, neklid Faktorová analýza - příklad o druhý faktor označili vegetativní obtíže -- sytily ho především položky: n třesení rukou n nespavost n náhlé zpocení n silný tlukot srdce n nesoustředěnost n noční můry Faktorová analýza - příklad o třetí faktor označili bolesti -- sytily ho především tyto potíže: n bolesti v pánvi n průjem, zácpa n bolesti na prsou n krční bolesti n bolesti v zádech Faktorová analýza - příklad o místo původních 18 proměnných indikujících frekvenci zdravostních potíží měli nyní 3 proměnné (lineární kombinace původních proměnných) -- nevolnosti, vegetativní potíže a bolesti o s nimi pak pracovali při typologii (viz dále) Shluková analýza o slouží ke klasifikaci velkého počtu osob (na základě jejich dat v určitých proměnných) do několika málo shluků n anglické označení cluster analysis se někdy v českých textech překládá také jako clusterová analýza Shluková analýza o pro zájemce o podrobnosti o využití metod shlukové analýzy v psychologii doporučujeme publikaci: Osecká, L. (2001). Typologie v psychologii. Praha, Academia. Shluková analýza - příklad o navazuje na příklad aplikace faktorové analýzy o autoři se snažili identifikovat skupiny (shluky) adolescentů, kteří jsou si podobní ve svých zdravotních obtížích o použili 3 proměnné vytvořené na základě FA -- nevolnosti, vegetativní potíže a bolesti Shluková analýza - příklad o bude uveden výsledek pro 4 shluky - v grafu na následujícím snímku jsou průměrná faktorová skóre v použitých 3 proměnných pro osoby klasifikované do daného shluku n výsledky pro vyšší počty shluků viz citovaná publikace Osecké, kapitola 14 Shluková analýza - příklad Shluková analýza - příklad o osoby v prvním shluku si stěžují především na bolesti, zčásti také na vegetativní potíže o adolescenty ve druhém shluku trápí hlavně nevolnosti o osoby ve třetím shluku trpí vegetativními obtížemi o osoby ve čtvrtém shluku tvořily největší část souboru -- trpěly pouze do určité míry bolestmi (průměrně), úroveň ostatních zdravotních stesků u nich byla podprůměrná