logo-IBA logo-MU © Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ logo-MU ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. logo-IBA logo-MU © Institut biostatistiky a analýz XI. FAKTOROVÁ ANALÝZA levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þFaktorová analýza je (statistická) metoda používaná k popisu variability známých (pozorovaných, naměřených) proměnných pomocí nejlépe menšího (určitě ne většího) počtu skrytých (latentních) proměnných, zvaných faktory. þ þZřejmě nediskutovanější multivariační analytická metoda. Nejvýznamnější kritika vychází ze subjektivity, která je nezbytná při interpretaci jejích výsledků. CO TO JE? levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz CO TO JE? skenování0008.jpg levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz DEFINICE þpředpokládejme, že známe hodnoty m proměnných x1, …, xm se středními hodnotami μ1, …, μm. Dále předpokládejme, že pro neznámé konstanty aij a n skrytých proměnných fj, i=1, 2, .., m a j=1,…,n platí þxi - μi= λi1f1 + … + λinfn + εi þkoeficienty λij nazýváme faktorové zátěže (faktor loadings) i-tého obrazu u k-tého společného faktoru þεi jsou statisticky nezávislé chybové členy (chybové, specifické faktory) s nulovým průměrem a konečným rozptylem (var(εi)=ψi) þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz DEFINICE þ þcov(ε) = diag(ψ1, …, ψm) = Ψ a E(ε) = 0 þ þmaticově: þx – μ = Λ.f + ε þdalší předpoklady (pro F): þf a ε jsou nekorelované (nezávislé); þE(f) =0 þcov(f)=I þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz DEFINICE þpokud cov(x) označíme Σ, pak za uvedených podmínek máme: þcov(x – μ) = cov(Λ.f + ε) nebo þΣ = Λ.cov(f).ΛT + cov(ε) nebo Σ = Λ.ΛT + Ψ þzákladní faktorová věta þv praxi je matice Σ nahrazována výběrovou korelační R, resp. kovarianční maticí; þΛ je matice faktorových zátěží þΛ.ΛT představuje kovariační matici vektoru Λ.f þΨ = Γ2 matice jedinečností – kovarianční matice chybových faktorů – je diagonální, protože předpokládáme nekorelované chyby (diagonální prvky matice Γ2 jsou rozptyly jednotlivých sloupců zdrojové matice þ levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz DEFINICE þS2 = H2 + Γ2 þS2 je diagonální matice rozptylů faktorů; þproměnlivost každého faktoru vyjádřenou sloupci zdrojové matice můžeme rozdělit do dvou složek þH2 – komunalita – představuje proměnlivost společnou všem faktorům; váha s jakou jednotlivé faktory přispívají k rozptylu odpovídající proměnné, čtverec komunality je suma faktorových zátěží faktorů þΓ2 – jedinečnost – část variability nevysvětlenou faktory, bývá dále rozdělena na část specificity (ta část proměnlivosti, kterou nelze vysvětlit ani chybou experiemntu, ani společnými faktory) a část nespolehlivosti (experimentální chyba při měření faktorů) levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz DEFINICE þfaktorizace určená základní faktorovou větou nemusí existovat a pokud ano nemusí být řešení jednoznačné þpokud je T ortogonální matice o rozměru n x n, pak (ΛT).(ΛT)T = Λ.ΛT þto znamená, že pokud je Λ určená matice faktorových zátěží, pak ΛT je jí také, a i když jsou to různé matice, mohou generovat tutéž kovarianční strukturu – můžeme tedy otáčet původní řešení a hledat alternativní lepší řešení levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz CÍLE þzákladním cílem je samozřejmě redukce dat þv případě PCA promítneme původní data na vlastní vektory autokorelační (autokovarianční) matice tak, abychom získali skóre složek þξr = ArT.x, resp. ξr = ArT.(x – μ) þ(neúplná komponentní analýza) levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz CÍLE þzákladním cílem je samozřejmě redukce dat þv případě faktorové analýzy je to jinak, základní vztah mezi pozorovanými x a skrytými ξ proměnnými je þx = Λ.ξ + ε þ(úplná komponentní analýza) þkdyž m