PA055 Vizualizace komplexních dat - Týden 2 PA055 Vizualizace komplexních dat Týden 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady Katedra informačních technologií Masarykova Univerzita Brno Podzim 2020 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. EVROPSKÁ UNIE INVESTICE DO ROZVOJE VZDELÁVANÍ Outline PA055 Vizualizace komplexních dat - Týden 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady Souřadnice a vzdálenosti Kostra grafu Substrát Příklady Souřadnicová (mnohorozměrná) data - X = [x1 ,x2] PA055 Vizualizace komplexních dat - Týden 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady CoM Col2 Col3 E.coli 24.7 26.0 13.2 S.lutea 13.4 37.1 12.1 S.cerevisae 31.3 18.7 17.4 H.sapiens 30.9 19.9 20.0 sloupce - proměnné řádky - pozorování Vzdálenostní data - D = d(X,Y) E.coli S.lutea S.cerevisiae E.coli 24.7 26.0 13.2 S.lutea 13.4 37.1 12.1 S.cerevisae 31.3 18.7 17.4 matice číselné hodnoty vyjadřují podobnost □ s Zjednodušení vzdálenostních dat shlukování True Groups PA055 Vizualizace komplexních dat - Týden 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady *° St* 9 o o □ o o □ 9 0 O o o v£ V o o o o o o0o _ £ o 0° o -5 lů Zjednodušení vzdálenostních dat shlukování True Groups hcfusl Euclidean wäret PA055 Vizualizace komplexních dat - Týden 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady 10 kmMns hchisl Euclidean compium -5 0 5 10 -5 0 5 10 Zjednodušení vzdálenostních dat shlukování PA055 Vizualizace komplexních dat - Týden 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady Divisive Agglomerative Převzato z https://towardsdatascience.com/hierarchical-clustering-explained-e58d2f936323 Zjednodušení vzdálenostních dat -shlukování Example: Hierarchical Agglomerate ve Clustering A 0 1 C I T" A B C D E F A B C D E F A B G D E F A B G D E F (a) (c) (d) Převzato z http://machinelearningstories.blogspot.com/2017/09/hierarchical-clustering-bottom-up.html Zjednodušení vzdálenostních dat shlukování ■■ ■. * 1 _l #."_ ť ř. step fi 1 -l H*_ PA055 Vizualizace komplexních dat - Týden 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady Převzato z http://sherrytowers.com/2013/10/24/k-means-clustering/ Zjednodušení souřadnicových dat - PCA, LDA Principal component analysis - používá se pro mnohorozměrná data obsahující vzájemně korelované proměnné. Nalezne takovou transformaci dat do nového ortogonálního systému souřadnic, že první souřadnice vysvětluje nejvíce rozptylu dat, druhá nejvíce reziduálního rozptylu, atd. Jde o nejinformativnější průmět dat. PA055 Vizualizace komplexních dat - Týden 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady PCA PA055 Vizualizace komplexních dat - Týden 2 LDA PA055 Vizualizace komplexních dat - Týden 2 Linear discriminant analysis - příbuzná metoda PCA, hledá lineární kombinaci proměnných, která co nejlépe separuje data do skupin. Často se používá jako příprava ke shlukování za účelem snížení počtu rozměrů. T - fflSft* V- -2 2 -2 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady Převod d(x,y) -> [x1 ,x2] - multidimensional scaling PA055 Vizualizace komplexních dat - Týden 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady Vychází ze známých vzdáleností a nalézá reprezentaci dat, která tyto vzdálenosti co nejlépe respektuje. Jedná se vesměs o hledání minima nějaké funkce popisující odchylku dané reprezentace dat od ideálních vzdáleností Převod d(x,y) -> [x1 ,x2] - MDS PA055 Vizualizace komplexních dat - Týden 2 Příklad efektivního nasazení MDS PA055 Vizualizace komplexních dat - Týden 2 Souřadnice a vzdálenosti CM 1 Axi • * • * Axis 1 « * f * c 1 o i j "(e) d -s n (f) —.........................................DiPMipse m 10 15 -------.......--------..................---------,14Th3'63 Vizualizace síťových dat Kostra grafu Substrát Příklady D4Pi>:a»S4 Převzato z https://onlinelibrary.wiley.eom/doi/full/10.1111/1755-0998.12676 Převod [x1 ,x2] -> d(x,y) - shlukování ► přístup ► dělící ► aglomerativní ► vzorec ► Euklidovská vzdálenost ► Manhattan ► skalární součin (data jako vektory) ► Hammingova vzdálenost (počet rozdílů) ► grafová ► data ► střed zhluku ► nejbližší ► nejvzdálenější ► suma všech vzdáleností Outline PA055 Vizualizace komplexních dat - Týden 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady Vizualizace síťových dat Kostra grafu Substrát Příklady Definice PA055 Vizualizace komplexních dat - Týden 2 Souřadnice a vzdálenosti Vizualizace síťových dat Kostra grafu Substrát Příklady Outline PA055 Vizualizace komplexních dat - Týden 2 Příloha For Further Reading Příloha For Further Reading PA055 Vizualizace komplexních dat - Týden 2 Příloha For Further Reading X