Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarko vský, Simona Littnerová Vícerozměrné statistické metody Vícerozměrné statistické rozdelenia testy Význam rozdělení ve vícerozměrném prostoru • Použitelnost mnohých klasických statistických metod a postupů vyžaduje předpoklad o normálním rozdělení sledovaných proměnných. • Podmínka normality vyplývá z toho, že metody založené na tomto předpokladu mohou využít kompletní matematickýaparát schovanýza danou statistickou metodou. Tyto metody jsou také relativněsnadno pochopitelnéa se získanými řešeními se dobře pracuje. • Ovšem v reálném světě bývá obtížné předpoklad o normálním rozložení dodržet, v mnohých oblastech přírodních a mnohdy i technických oborů není tento předpoklad samozřejmostí. • Předpokládejme však normalitu a předpoklad o jedné normálně rozložené náhodné proměnné můžeme rozšířit na předpoklad simultánního normálního rozložení dvou a více náhodných proměnných. Některé vícerozměrné postupy a metody vycházejí z předpokladu vícerozměrného normálního rozdělení. Vícerozměrné normální rozdělení může být také velmi užitečnou aproximací různých jiných simultánních rozdělení. IBA lul 1 JiříJarkovský, Simona Littnerová: Vícerozměrnéstatistické metody Rozdělení dat ve vícerozměrném prostoru • Klasická jednorozměrná rozdelenia testy mají svůj protějšek ve vícerozměrném prostoru; analogii lze nalézt v podstatě ke každému z nich • Obrázky zobrazují ID, 2D a 3D normální rozdělení Při popisu vícerozměrných dat se uplatňují stejné charakteristikyjako při popisu dat jednorozměrných, nicméně nyní již ne jako jedno číslo, ale jako vektor Pojmy popisu vícerozměrných rozdělení Centroid - průměr nebo medián nebo jiná charakteristika středu spočtená pro všechny dimenze - Je popsán vektorem charakteristik středu - Používán jako popisná statistika nebo i jako součást výpočtu shlukovacích metod - „virtuální střed vícerozměrného shluku" • Medoid - Medoid je reprezentativní objekt datového souboru nebo shluku v datech, jehož průměr podobnosti od všech ostatních objektů v datech nebo ve shluku je minimální. - Medoid má podobný význam jako průměr nebo centroid, jen je vždy reprezentován reálným objektem z datového souboru. - Medoid bývá nejčastěji používán tam, kde není definován průměr nebo centroid (např. tří a vícerozměrný prostor). Tento termín se používá při shlukové analýze. IBA lul 1 JiříJarkovský, Simona Littnerová: Vícerozměrnéstatistické metody Vícerozměrné charakteristiky rozdělení Základnícharakteristikou vícerozměrného rozdělení je vektor středních hodnot (vektor průměrů) E(X) = E(X,) E(X2) E(XJ a kovariačnímatice 2 = var(X) = cov(X) ^p^l GpG2 °2°p P J kde je °v kovariancedvou náhodných veličin, tj. Gy = covfo,X.) = E(XI - E(XI ))(X. - E(X.)) MU IBA í(y|| JiříJarkovský, /, Simona Littnerová: Vícerozměrnéstatistické metody Příklady vícerozměrného rozdělení R- knihovna MSBVAR IBA IMJ 1 Jiří Jarkovský, Simona Littnerová: Vícerozměrnéstatistické metody Příklad vícerozměrného rozdělení I vmatl=matrix(c(l,0,0, 0,1,0, 0,0,1),3,3) xl<-rmultnorm(1000,c(10,10, 10), vmatl, tol = le-10) write.table(xl,"xl.txť') IBA I ß JiříJarkovský,Simona Littnerová: Vícerozměrnéstatistickémetody Příklad vícerozměrného rozdělení II vmat2=matrix(c(l,0.5,0.5, 0.5,1,0.5, 0.5,0.5,1),3,3) x2<-rmultnorm(1000,c(10,10, 10), vmat2, tol = le-10) write.table(x2,,,x2.txť,) Příklad vícerozměrného rozdělení III vmat4=matrix(c(l,0.7,0.7, 0.7,1,0.7, 0.7,0.1,1),3,3) x4<-rmultnorm(1000,c(10,10, 10), vmat4, tol = le-10) write.table(x4,,,x4.txtM) Příklad vícerozměrného rozdělení IV vmat3=matrix(c(l/l,l, 1,1,1, 1,1,1),3,3) x3<-rmultnorm(1000,c(10,10, 10), vmat3, tol = le-10) write.table(x3,"x3.txt") Wishartovo rozdělení • Wishartovo rozdělení je vícerozměrným zobecněním chi-square rozdělení • Při odvození některých důležitých algoritmů ve vícerozměrné statistické analýze se uplatňuje dále uvedená vlastnost Wishartova rozdělení. • Součet nezávislých náhodných matic s Wishartovým rozdělením se shodnou střední hodnotou je rovněž Wishartovo rozdělení se stejnou střední hodnotou, přičemž stupně volnosti se sčítají. JiříJarkovský,S imona Littnerová: Více rozměrnéstatistické metody 12 Hotellingovo rozdělení • Jedná se o zobecnění t- rozdělení pro p-rozměrný prostor • Uvažujme regulární čtvercovou matici Ap-tého řádu a rozdělením wp(v,s) a na A nezávislý p-položkový vektor a s rozdělením np(op,^/) Potom kvadratická forma Qi =cvaTA *a má Hotellingovo rozdělení T2 (p, v - p+1). • V jednorozměrném normálním rozdělení se při testování hypotéz o střední hodnotě používá statistika (jednovýběrový t-test) x _ N(„ c2\_ t/ ^ Pil • Druhou mocninu této statistiky můžeme upravit a zapsat ve tvaru t2 =n(x-njs2(x)]"1(x-n) Tento výraz odpovídá p-rozměrné statistice, vhodné k úsudku o \x, která má Hotellingovo rozdělení T2 s p a n-p stupni volnosti, jedná se tedy o zobecnění t- rozdělení pro p-rozměrný prostor. Můžeme tedy psát X-Np(n,s)-mi(x-h)ts ' ~T2(p.n-P) Normalita ve vícerozměrném prostoru . Normalit.™ vfcerorměrrtém prostoru Nenormální rozložení ve vícerozměrném prostoru Nenormální rozložení ve vícerozměrném prostoru 450 i—i-1-1-1-1-1-1-1-1-1-1-1—i Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 200 180 160 140 120 100 80 60 40 20 0 i-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-r ku 6.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0 14.0 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 + 200 180 160 140 120 100 80 60 40 20 0 i-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-r ii S _l_I_ 6.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0 14.0 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 v ----------------r> v •v i . . . . . . . . . . . . i . . . . . . . . . 10 11 12 13 14 IBA IMI JiříJarkovský, Simona Littnerová: Více rozměrnéstatistické metody 19 Vícerozměrný outlier ani průměrů ve vícerozměrném prostoru Pro zobecnění t-testu pro p rozměrů se využívá Hottelingovo rozdělení kde 6 = n!-n2 (nejčastěji 6 = 0), má opět Hotellingovo rozdělení s parametry p, n - p -1 19 ... . *»ť -i-. Variable T-tests; G Group 1: 1 Hotelling " rouping: group (vicero ; Group 2: 2 "2=23280.9 F[3,199G] zmemejnodelove} =7752.5 p<0.0000 Meain 1 Mean 2 t-value ď P Valid N 1 Valid N 2 Std.Dev. 1 Std.Dev. 2 F-ratio Variances P Variances V1 10.00063 14.00068 -87.3755 1998 0.00 1000 1000 1.023659 1.023659 1.000000 1.000000 V2 9.96685 13.96685 -89.5768 1998 0.00 1000 1000 0.998503 0.998503 1.000000 1.000000 V3 10.00140 14.00140 -88.5272 1998 0.00 1000 1000 1.010342 1.000000 1.000000 IBA IUI 1 Jiří Jarkovský, Simona Littnerová: Vícerozměrnéstatistické metody 21 Vícerozměrné statistické metody Operace s vektory a maticemi Pojmy vícerozměrných analýz Vícerozměrné metody: Název vícerozměrné vychází z typu vstupních dat, tato data jsou tvořena jednotlivými objekty (i.e. klienti) a každý z nich je charakterizován svými parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz. Asociační matice: Na základětěchto matic jsou počítány matice asociační na nichž pak probíhajídalší výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q. mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. IBA IMI ! JiříJarkovský, Simona Littnerová: Vícerozměrnéstatistickémetody 23 Vstupní matice vícerozměrných analýz NxP MATICE ASOCIAČNÍ MATICE t- cn co i_ i_ i— -t—i -i—t -i—i (d (d (u E E E nj ní ní i_ i_ i_ ní ní ní q_ o_ o. Výpočet metriky podobností/ vzdáleností objekt 1 objekt 2 objekt 3 objekt 4 objekt 5 objekt 6 Hodnoty parametrů pro jednotlivé objekty > t— oj co ^ lo co 2 2 2 2 2 2