PSY117/454 Statistická analýza dat v psychologii Přednáška 13Přednáška 13Přednáška 13Přednáška 13 Vícerozměrné metodyVícerozměrné metodyVícerozměrné metodyVícerozměrné metody Schematický úvodSchematický úvodSchematický úvodSchematický úvod Co je na slově statistika tak divného, že jeho vyslovení tak často způsobuje napjaté ticho? William Kruskal Přehled vícerozměrných metod Analýza závislostíAnalýza závislostíAnalýza závislostíAnalýza závislostí ...externální, strukturní Modelujeme vliv nezávislých proměnných na závislé Vícerozměrná lineární regrese a strukturní modelování Faktoriální ANOVA a MANOVA Diskriminační analýza (Logistická regrese) Klasifikace a struktura datKlasifikace a struktura datKlasifikace a struktura datKlasifikace a struktura dat ...internální Hledáme strukturu vzájemných vztahů mezi proměnnými či jedinci s cílem je klasifikovat popř. redukovat složitost Explorační faktorová analýza Shluková analýza AJ: multivariate techniques ZÁVISLOSTI 1ZÁVISLOSTI 1ZÁVISLOSTI 1ZÁVISLOSTI 1 ­­­­ Vícerozměrná lineární regrese Jak dobře lze předpovědět inteligenci dítěte z inteligence otce, matky, vzdělání otce a vzdělání matky? Který z uvedených prediktorů má nejvyšší predikční sílu? Y = a + b1X1 + b2X2 + ... + bnXn 1111 intervalová závislá nnnn intervalových nezávislých ­ prediktorů Oproti jednoduché lineární regresi je zde novinkou nutnost vypořádat se se vztahy mezi prediktory (čím menší tím lépe). Pro možnost srovnávání predikční síly prediktorů zavedena standardizovaná verze koreficientu bn: nnnn (beta) AJ: multiple regression ZÁVISLOSTI 1ZÁVISLOSTI 1ZÁVISLOSTI 1ZÁVISLOSTI 1 ­­­­ Vícerozměrná lineární regrese IQ otecIQ otecIQ otecIQ otec IQ matkaIQ matkaIQ matkaIQ matka Vzdělání OVzdělání OVzdělání OVzdělání O Vzdělání MVzdělání MVzdělání MVzdělání M IQ dítěIQ dítěIQ dítěIQ dítě b1 b2 b3 b4 ZÁVISLOSTI 2ZÁVISLOSTI 2ZÁVISLOSTI 2ZÁVISLOSTI 2 ­­­­ Strukturní modelování SEM, LISRELSEM, LISRELSEM, LISRELSEM, LISREL Velmi obecné rozšíření regresního modelu o více závislých včetně vztahů mezi nimi zohlednění vztahů (korelací) mezi prediktory latentní (neměřené) proměnné Y1 = a + b11X1 + b12X2 + ... + b1nXn +cY2 Y2 = a + b21X1 + b22X2 + ... + b2nXn +cY1 ... až Ym mmmm intervalových závislých nnnn intervalových prediktorů Ověřují se jím složité hypotézy, které mají obecný tvar: ,,Odpovídají vztahy mezi daty specifikovanému modelu?" AJ: structural equation modeling, latent variables ZÁVISLOSTI 2ZÁVISLOSTI 2ZÁVISLOSTI 2ZÁVISLOSTI 2 ­­­­ Strukturní modelování SEM, LISRELSEM, LISRELSEM, LISRELSEM, LISREL Vzdělání a socioekonomický index predikují stabilitu anomie a bezmoci mezi lety 1967 a 1971. Vážený součet vzdělání a socioekonomického indexu dává SESSESSESSES ­ latentní proměnnou. Podobně anomie a bezmoc jsou složkami latentní proměnné pocit odcizenípocit odcizenípocit odcizenípocit odcizení. ZÁVISLOSTI 3ZÁVISLOSTI 3ZÁVISLOSTI 3ZÁVISLOSTI 3 ­­­­ Faktoriální ANOVA Jak ovlivňují inteligenci dítěte jeho pohlaví, etnická příslušnost otce, matky, vzdělání otce a vzdělání matky? Který z uvedených faktorů má největší vliv na inteligenci dítěte? Y = X1 + X2 + ... + Xn + interakce 1111 intervalová závislá nnnn kategoriálních nezávislých ­ faktorů Lze zde uvažovat o kombinovaném vlivu 2(či více) faktorů - interakceinterakceinterakceinterakce Pro možnost srovnávání velikosti vlivu faktorů používáme ukazatel velikosti účinku ­ 2,2. ZÁVISLOSTI 4ZÁVISLOSTI 4ZÁVISLOSTI 4ZÁVISLOSTI 4 ­­­­ Vícerozm. ANOVA: MANOVAMANOVAMANOVAMANOVA Jak ovlivňují inteligenci a školní výkon dítěte jeho pohlaví, etnická příslušnost otce, matky, vzdělání otce a vzdělání matky? Který z uvedených faktorů má největší vliv na inteligenci dítěte? Y1 + Y2 +...+ Ym = X1 + X2 +...+ Xn + interakce mmmm intervalových závislých nnnn kategoriálních nezávislých ­ faktorů Jde o rozšíření faktoriální ANOVY, testuje, zda se skupiny dané nezávislými proměnnými liší u alespoň jedné závislé (H0). ZÁVISLOSTI 5ZÁVISLOSTI 5ZÁVISLOSTI 5ZÁVISLOSTI 5 ­­­­ Diskriminační analýza Známe-li schopnost rodičů intonovat, vzdělání rodičů a příjem rodičů, dokážeme predikovat, zda je jejich 15letý syn diskant, hoper, technař, nebo goth? Který z uvedených prediktorů má největší predikční sílu? Y = b1X1 + b2X2 + ... + bnXn 1111 kategoriální závislá s 2 a více hodnotami nnnn intervalových nezávislých ­ prediktorů Má-li závislá pouze 2 hodnoty, jde o logistickou regresi. AJ: discriminant analysis, logistic regression Účelem FA je redukce většího množství proměnných na menší množství proměnných ­ faktorůfaktorůfaktorůfaktorů nesoucích podstatné množství informace (varibility). Umožňuje tedy zredukovat počet proměnných v analýze. Typickým nasazením je analýza dotazníkových položek s cílem zjistit, které lze sečíst do jednoho skóru. Kromě explorační FAexplorační FAexplorační FAexplorační FA existuje i konfirmační FAkonfirmační FAkonfirmační FAkonfirmační FA (součást SEM) Předpoklady FA Proměnné měřené minimálně na intervalové škále Rozložení proměnných symetrické, blízké normálnímu Velikost vzorku N > 20 * počet položek Věcně významné korelace v matici KLASIFIKACE 1KLASIFIKACE 1KLASIFIKACE 1KLASIFIKACE 1 ­­­­ Faktorová analýza I. - Použití AJ: factor analysis, factor, exploratory FA (=FA), confirmatory FA (=CFA) KLASIFIKACE 1KLASIFIKACE 1KLASIFIKACE 1KLASIFIKACE 1 ­­­­ Faktorová analýza II. - Princip Jde o analýzu korelačníkorelačníkorelačníkorelační matice. Proměnné, které spolu vysoce korelují, pravděpodobně měří totéž. Mohou tedy být nahrazeny jedinou proměnnou, která je jejich lineární kombinací (váženým součtem) ­ faktoremfaktoremfaktoremfaktorem. Váhy v tom váženém součtu jsou faktorové nábojenábojenábojenáboje. ,,Dobrá struktura",,Dobrá struktura",,Dobrá struktura",,Dobrá struktura" je požadavek na jasnost faktorové matice. Každá položka by měla vysoko (více než -+0,7) skórovat v právě jednom faktoru, každý faktor by měl obsahovat dva nebo více vysokých faktorových nábojů. 1,17,59,08P4 ,171,19,74P3 ,59,191-,14P2 ,08,74-,141P1 P4P3P2P1Korelač ní matice ,77,66,58P4 ,87-,35,87P3 ,81,77,47P2 ,89-,60,73P1 h2F2F1Faktorová matice AJ: correlation matrix, factor loading, good structure KLASIFIKACE 2 Shluková analýza I. - Použití Účelem shlukové analýzy je kategorizovat objekty typicky respondenty (za objekty lze považovat po transpozici datové matice i proměnné) výsledkem je empirická typologie, nejistá zobecnitelnost Objekty kategorizujeme podle jejich vlastností - hodnot ve vstupních proměnných např. kategorizujeme lidi podle věku a pohlaví v takovém případě bychom měli získat 4 kategorie (shluky) ­ chlapce, muže, dívky a ženy Objekty jsou kategorizovány na základě podobnostipodobnostipodobnostipodobnosti existují různé ukazatele podobnostiukazatele podobnostiukazatele podobnostiukazatele podobnosti (např. vzdálenost v n- rozměrném prostoru, kde n = počet vstupních proměnných) maximem podobnosti je ,,stejnost" - identita AJ: cluster analysis, similarity indices (measures), KLASIFIKACE 2 Shluková analýza II. - Princip Analýza se skládá z neustálého opakování následujícího kroku: Najdi 2 nejpodobnější objekty a vytvoř z nich shluk ,,vytvoř shluk" = utvoř z nich skupinu, kt. bude dále vystupovat jako pomyslný průměrný objekt vytvořený ze 2 původních objektů po několika opakováních již budou shlukovány shluky vytvořené v předchozích krocích (do větších shluků) Postup končí, když jsou všechny případy v jednom velkém shluku Takto vzniká hierarchická struktura připomínající strom na jedné straně n objektů, které se postupným slučováním nakonec slučují až do jednoho velkého shluku grafickou podobou této struktury je dendrogramdendrogramdendrogramdendrogram Na základě výsledků se rozhodujeme, které shluky jsou smysluplné a které ne pro posouzení používáme běžná kategorizační pravidla, tj. chceme aby objekty ve shluku si byly velmi (kvalitativně) podobné a co nejvíce se odlišovaly od objektů v ostatních shlucích KLASIFIKACE 2 Shluková analýza III. - Praktické 1. Jaký ukazatel podobnosti objektů využít? musí odpovídat úrovni měření dat 2. Jak definovat podobnost shluků (cluster method) např. vzdálenost ,,průměrů"(středů) shluků (centroid), nebo vzdálenost nejbližších prvků... často se používá tzv. Wardova metoda 3. Kolik shluků chceme? jen málo formálních pravidel a i ta jsou přibližná rozhodnutí je dáno ,,smysluplností" shluků 4. Jaká data potřebujeme na velikosti vzorku příliš nezáleží (záleží na účelu klasifikace) počet vstupních proměnných (vlastností) držíme na minimu (<10) vstupní proměnné by spolu ideálně neměly moc korelovat Shrnutí Vícerozměrné analýzy jsou realističtější můžeme zařadit do analýzy vše, co je relevantní realističnost = složitost vztahy mezi nezávislými ­ co má vlastně vliv? mnoho možností při specifikování modelu Velmi obecné hypotézy. Více proměnných vyžaduje větší vzorkyvětší vzorkyvětší vzorkyvětší vzorky a obvykle i lepší měřenílepší měřenílepší měřenílepší měření (více prostoru pro to, aby se projevil každý defekt) Je dobré vyhledat pomoc zkušenějších.