Kanonická korelační analýza (Canonical correlation analysis) Kanonická korelační analýza patří mezi metody vícerozměrné analýzy dat. Jejím cílem je nalézt vztahy mezi dvěma skupinami proměnných. Z určitého pohledu se jedná o rozšíření vícenásobné lineární regrese, při níž se hledá vztah jedné (tzv. vysvětlované) proměnné se skupinou (tzv. vysvětlujících) proměnných. Kanonická korelační analýza byla navržena v roce 1935 Hotellingem a jejím principem je hledání lineární kombinace jedné skupiny p proměnných, která nejlépe koreluje s lineární kombinací druhé skupiny q proměnných. Příkladem může být hledání vztahů mezi proměnnými popisujícími vlohy studentů a proměnnými odrážejícími výsledky v jednotlivých předmětech nebo zjišťování, jak souvisí parametry počasí (průměrné denní srážky, vlhkost, počet hodin slunečního záření) s výnosem plodin (výška rostlin, hmotnost po usušení, počet listů). V průběhu kanonické korelační analýzy se postupně hledají lineární kombinace proměnných z každé skupiny (podobně jako u analýzy hlavních komponent – principal component analysis – PCA), tedy vytváří se nové proměnné, tzv. kanonické proměnné (canonical variables), které vedou k maximálním vzájemným korelacím mezi skupinami (na rozdíl od PCA, kde se vytváří nové proměnné za účelem vysvětlení co nejvíce variability původních dat, která se uvažují jako celek). Jedná se o krokový proces, kdy se v prvním kroku hledá lineární kombinace první skupiny proměnných a lineární kombinace druhé skupiny proměnných, jejichž korelace je maximální. Tyto lineární kombinace tvoří první pár kanonických proměnných, které jsou základem nového souřadnicového systému. Jejich korelaci označujeme jako tzv. první kanonickou korelaci (canonical correlation). V dalších krocích se hledají další lineární kombinace skupin proměnných, tedy další kanonické proměnné, tak, aby měly co největší vzájemnou druhou, třetí, ... korelaci a přitom byly nekorelované s kanonickými proměnnými získanými v předchozích krocích. Kanonická korelační analýza je zvláště užitečná v situacích, kdy jsou proměnné uvnitř skupin korelované, takže nemá smysl vyhodnocovat korelace jednotlivých proměnných odděleně, protože by se zanedbala jejich vzájemná vnitřní korelace. Kromě nalezení vztahů v datech se tato metoda využívá i při snižování dimenze dat, pokud jsou skupiny původních proměnných velké a účelem je nalézt malý počet nových kanonických proměnných, které postihují v maximální míře korelace mezi původními skupinami proměnných. Předpoklady kanonické korelační analýzy Kanonická korelační analýza předpokládá pouze lineární závislost mezi proměnnými i mezi skupinami proměnných. Je tudíž nutné vyšetřit grafy každého páru proměnných a prověřit linearitu a odlehlé hodnoty. Nápomocný může být např. maticový graf, jenž slouží ke znázornění závislostí dvojic proměnných pomocí bodových (tečkových) grafů, které jsou uspořádány do matice (Obr. 1). Při nelineárním vztahu by měla být jedna nebo obě proměnné vhodně transformovány. Kanonická korelační analýza nevyžaduje předpoklad normality proměnných, normalita je požadována pouze pro provedení testů statistické významnosti kanonických korelací. Tato metoda tedy může být použita i pro nenormálně rozdělené proměnné, pokud forma rozdělení (např. silně zešikmená) nezkresluje korelaci s ostatními proměnnými. Vzhledem k tomu, že je metoda založena na výpočtu korelací, není tudíž vhodné ji aplikovat na kategoriální data s malým počtem kategorií. Dalším důležitým předpokladem je dostatečně velký soubor vstupních dat, abychom zabránili problémům příliš malého výběru a z toho plynoucího možného zkreslení výsledků analýzy. Ideálně by mělo být alespoň 10 pozorování (subjektů či objektů) na 1 proměnnou. Rovněž je nutné předem ověřit, zda nejsou v datech chybějící hodnoty, protože většina implementací metody CCA ve statistických softwarech vyřadí z analýzy všechny subjekty, u nichž je alespoň jedna chybějící hodnota, což může vést k velkému snížení velikosti souboru a případně i zkreslení analýzy, pokud data nechybí náhodně. Obr. 1. Ukázka maticového grafu. Výpočet kanonické korelační analýzy Označme první skupinu p proměnných jako a druhou skupinu q proměnných jako . V kanonické korelační analýze se tvoří první dvojice kanonických proměnných a tak, že se vytvoří jako lineární kombinace proměnných a se vytvoří z proměnných : Koeficienty a , tzv. kanonické váhy (canonical coefficients), se vyhledávají tak, aby kanonické proměnné a byly maximálně korelované. Korelaci mezi a nazýváme první kanonickou korelací a je to nejsilnější možná korelace mezi lineárními kombinacemi obou skupin proměnných. Druhá dvojice kanonických proměnných a se obdobně tvoří jako lineární kombinace proměnných resp. tak, aby měly opět co největší korelaci, tzv. druhou kanonickou korelaci , a přitom splňovaly podmínku, že i jsou nekorelované s a . Druhá kanonická korelace je vždy menší nebo rovna první kanonické korelaci. Dále se obdobně vytváří další dvojice kanonických proměnných a atd. s co největší třetí atd. kanonickou korelací a které jsou nekorelované se všemi ostatními kanonickými proměnnými. Maximální počet dvojic kanonických proměnných a jim odpovídajících kanonických korelací je roven menšímu z čísel p a q (tzn. menšímu z počtu proměnných ve skupinách). Pro určení koeficientů a jednotlivých dvojic kanonických proměnných, se maximalizuje korelační koeficient: kde je kovarianční matice proměnných , které jsou centrované (tzn. je u nich odečten průměr) a jsou uspořádané do matice rozměru , přičemž n je počet subjektů či objektů; je kovarianční matice centrovaných proměnných uspořádaných do matice rozměru ; a je matice kovariancí centrovaných proměnných a . Pro maximalizaci korelačních koeficientů se využívá metoda tzv. Lagrangeových součinitelů. Postupným odvozováním se dospěje k tomu, že pokud provedeme rozklad matice na vlastní čísla a vlastní vektory, získáme matici , která na diagonále obsahuje vlastní čísla odpovídající čtvercům kanonických korelací. Dále získáme matici , jejíž sloupce jsou vlastní vektory, přičemž první sloupec odpovídá hodnotám koeficientů první kanonické proměnné , druhý sloupec koeficientům druhé kanonické proměnné atd. Koeficienty , , ... kanonických proměnných , , ... se pak určí ze vztahu . Souřadnice subjektů v novém prostoru, tzv. kanonická skóre (canonical scores), lze vypočítat jako a , kde obsahuje jako sloupce koeficienty a je tvořena sloupcovými vektory koeficientů . Dále lze vypočítat tzv. matice zátěží a , což jsou ve skutečnosti korelace mezi kanonickými proměnnými a původními proměnnými. Pro ověření výsledků kanonické korelační analýzy je vhodné vytvořit dva dílčí podsoubory subjektů či objektů, provést analýzu s každým podsouborem odděleně a následně porovnat zátěže kanonických proměnných atd. Když je nalezen velký rozdíl, je nutno analyzovat, čím je způsoben. Interpretace kanonických proměnných Kanonické proměnné jsou uměle vytvořené proměnné, které zpravidla nemají přímé vysvětlení a je nutno je interpretovat (obdobně jako u PCA). Důležitost každé proměnné se vyhodnocuje ze dvou hledisek. Určujeme intenzitu vztahu mezi kanonickou proměnnou a původními proměnnými a rovněž kanonickou proměnnou a původními proměnnými . Dále také vyjadřujeme sílu vztahu mezi oběma kanonickými proměnnými a . Intenzita vztahu mezi oběma kanonickými proměnnými je vyjádřena prostřednictvím kanonické korelace. Čtverec kanonických korelací (čili koeficient determinace) představuje velikost sdíleného rozptylu mezi kanonickými proměnnými. Zpravidla se analyzují pouze ty dvojice kanonických proměnných, jejichž kanonické korelace jsou statisticky významné. Pro určení statistické významnosti je možno použít např. Wilkovo lambda, k němuž lze vypočítat p-hodnotu. P-hodnota menší než 0,05 pak ukazuje na statistickou významnost kanonické korelace. Wilkovo lambda je interpretováno opačně než koeficient determinace (tzn. hodnota blízká 0 ukazuje na silný vztah, zatímco hodnota blízká 1 na slabý vztah). Kromě statistické významnosti je nutné se dívat i na samotnou velikost kanonické korelace. Obecně přijatelný návod o vhodné velikosti kanonických korelací však bohužel neexistuje. Sílu vztahu mezi kanonickou proměnnou a původními proměnnými můžeme posuzovat pomocí kanonických vah či kanonických zátěží: · U kanonických vah vyšetřujeme znaménko a velikost váhy. Původní proměnné s váhami stejného znaménka vykazují přímý vztah, zatímco proměnné, jejichž váhy mají opačné znaménko, vykazují inverzní vztah. Proměnné s relativně velkými váhami přispívají více do kanonických proměnných a naopak. Malá váha tedy zpravidla znamená, že odpovídající původní proměnná je v určování kanonické proměnné nevýznamná. Další možností však je, že je nízká váha způsobena tím, že je mezi původními proměnnými vysoká multikolinearita. · Kanonické zátěže měří lineární korelaci mezi původní proměnnou a kanonickou proměnnou, tzn. odrážejí rozptyl, který sdílejí původní proměnné s kanonickou proměnnou. Multikolinearita tedy kanonické zátěže nijak nezkresluje. Je-li skupina proměnných v jedné kanonické proměnné nekorelovaná, kanonické zátěže jsou rovny standardizovaným kanonickým vahám. Jsou-li však některé z původních proměnných v dané skupině silně korelovány, pak jsou zátěže a váhy zcela rozličné. Např. pokud jsou dvě proměnné a silně kladně korelovány a každá je pozitivně korelována s kanonickou proměnnou, může se stát, že jedna kanonická váha bude kladná a jedna záporná, zatímco kanonické zátěže budou obě kladné, jak by se dalo očekávat. Pokud se takto podstatně liší kanonické váhy od kanonických zátěží, je nutné zjistit příčinu. Příklad Chceme zjistit, zda a jak souvisí charakteristiky práce (5 proměnných: zpětná vazba, významnost úkolu, variabilita úkolů, provedení celého úkolu, autonomie) se spokojeností s prací (7 proměnných: spokojenost nadřízeného, spokojenost s budoucností práce, finanční spokojenost, spokojenost s pracovní zátěží, prestiž firmy, spokojenost s druhem práce, všeobecná spokojenost) u 784 zaměstnanců (Dunham 1997). Z dat byla vypočítána korelační matice všech proměnných: Dále bylo vypočítáno 5 kanonických korelací (protože minimum z 5 a 7 je 5) a kanonické proměnné: Například první kanonická korelace je 0,55, což je vcelku silná korelace, která ukazuje na to, že existuje vztah mezi spokojeností s prací a charakteristikami práce. První pár kanonických proměnných je: Z hodnot kanonických vah je patrné, že kanonická proměnná je založena především na 1. a 5. původní proměnné, tzn. na zpětné vazbě a autonomii. Kanonická proměnná je reprezentována 1., 2., 5. a 6. původní proměnnou, tedy prestiží firmy, spokojeností nadřízeného a spokojeností s budoucností a druhem práce. Dále byly vypočteny kanonické zátěže: Z hodnot zátěží vyplývá, že všech 5 charakteristik práce má vysoké a vcelku obdobné korelace s kanonickou proměnnou , tedy tato proměnná může být interpretována jako „index charakteristiky práce“. Je tu tedy rozdíl v interpretaci pomocí kanonických vah a zátěží způsobený vcelku vysokými korelacemi mezi původními proměnnými. Zatímco interpretace kanonické proměnné zůstává stejná jako při použití kanonických vah, protože korelace jsou nejvyšší u stejných čtyř původních proměnných. Literatura Dunham R.B., Reactions to Job Characteristics: Moderating Effects of the Organization, Academy of Management Journal, Vol. 20, No. 1, pp. 42-65, 1977. Everitt B. & Hothorn T., An Introduction to Applied Multivariate Analysis with R, 2011. Johnson R. A. & Wichern D. W., Applied Multivariate Statistical Analysis, 6th Edition, 2008. Meloun M. & Militký M., Interaktivní statistická analýza dat, 2012.