© Institut biostatistiky a analýz Vícerozměrné metody - cvičení RNDr. Eva Koriťáková, Ph.D. Příklad 1 – Vzdálenosti • Zadání: Zjistěte, zda má subjekt 𝐱0 = 3,5 9 kratší vzdálenost k subjektu 𝐱1 = 3 8 či k subjektu 𝐱2 = 4 10 pomocí Euklidovy, Hammingovy (manhattanské), Čebyševovy a Canberrské metriky. 2 • Vizualizace: 1 2 3 4 5 6 7891011 x1 x2 x1 x0 x2 3 Euklidova metrika Koriťáková: Analýza a klasifikace dat 𝐷 𝐸 𝐱1, 𝐱2 = ෍ 𝑖=1 𝑛 x1𝑖 − x2𝑖 2 2 3 4 5 7891011 x1 x2 2 3 4 5 7891011 x1 x2 𝑑 𝐸 𝐱1, 𝐱0 = 𝐱0 = 3,5 9 𝐱1 = 3 8 𝐱2 = 4 10 3 − 3,5 2 + 8 − 9 2 =x11 − x01 2 + x12 − x02 2 = 𝑑 𝐸 𝐱2, 𝐱0 = 0,25 + 1 = = 1,12 x21 − x01 2 + x22 − x02 2 = 4 − 3,5 2 + 10 − 9 2 = 0,25 + 1 = Závěr: Vzdálenost je stejná. = 1,12 2 3 4 5 7891011 x1 x2 2 3 4 5 7891011 x1 x2 x1 x0 x2 4 Hammingova (manhattanská) m. Koriťáková: Analýza a klasifikace dat 𝐷 𝐻 𝐱1, 𝐱2 = ෍ 𝑖=1 𝑛 x1𝑖 − x2𝑖 2 3 4 5 7891011 x1 x2 2 3 4 5 7891011 x1 x2 𝐱0 = 3,5 9 𝐱1 = 3 8 𝐱2 = 4 10 𝑑 𝐻 𝐱1, 𝐱0 = x11 − x01 + x12 − x02 = 0,5 + 1 =3 − 3,5 + 8 − 9 = 1,5 𝑑 𝐻 𝐱2, 𝐱0 = x21 − x01 + x22 − x02 = 4 − 3,5 + 10 − 9 = 0,5 + 1 = 1,5 Závěr: Vzdálenost je stejná. 2 3 4 5 7891011 x1 x2 2 3 4 5 7891011 x1 x2 x1 x0 x2 5 Čebyševova metrika Koriťáková: Analýza a klasifikace dat 𝐷 𝐶 𝐱1, 𝐱2 = max ∀𝒊 x1𝑖 − x2𝑖 2 3 4 5 7891011 x1 x2 2 3 4 5 7891011 x1 x2 𝐱0 = 3,5 9 𝐱1 = 3 8 𝐱2 = 4 10 𝑑 𝐶 𝐱1, 𝐱0 = max x11 − x01 ; x12 − x02 = max 3 − 3,5 ; 8 − 9 = max 0,5; 1 = 1 𝑑 𝐶 𝐱2, 𝐱0 = max x21 − x01 ; x22 − x02 = max 4 − 3,5 ; 10 − 9 = max 0,5; 1 = 1 Závěr: Vzdálenost je stejná. 2 3 4 5 7891011 x1 x2 2 3 4 5 7891011 x1 x2 x1 x0 x2 6 Srovnání metrik Koriťáková: Analýza a klasifikace dat 2 3 4 5 7891011 x1 x2 2 3 4 5 7891011 x1 x2 Canberrská metrika 7 𝐷 𝐶𝐴 𝐱1, 𝐱2 = ෍ 𝑖=1 𝑛 x1𝑖 − x2𝑖 x1𝑖 + x2𝑖 𝐱0 = 3,5 9 𝐱1 = 3 8 𝐱2 = 4 10 𝑑 𝐶𝐴 𝐱1, 𝐱0 = x11 − x01 x11 + x01 + x12 − x02 x12 + x02 = 3 − 3,5 3 + 3,5 + 8 − 9 8 + 9 = 0,5 6,5 + 1 17 = 0,14 𝑑 𝐶𝐴 𝐱2, 𝐱0 = x21 − x01 x21 + x01 + x22 − x02 x22 + x02 = 4 − 3,5 4 + 3,5 + 10 − 9 10 + 9 = 0,5 7,5 + 1 19 = 0,12 Závěr: Subjekt 𝐱0 má kratší vzdálenost od subjektu 𝐱2 než od subjektu 𝐱1. 1 2 3 4 5 6 6789101112 x0[1, 1] x0[2,1] x1 x0 x2 8 Asociační koeficienty CBA A SJT  ),( yx Jaccardův – Tanimotův asociační koeficient Sokalův – Michenerův asociační koeficient DCBA DA SSM   ),( yx Koriťáková: Analýza a klasifikace dat Příklad 2 – Podobnosti Zadání: Byla provedena segmentace bílé hmoty v obrazu mozku z magnetické rezonance pomocí dvou segmentačních metod (viz Obrázek 1). Chceme výsledky segmentace srovnat s maskou bílé hmoty, která byla získána z atlasu mozku. Zajímá nás tedy překryv s maskou, na základě čehož budeme moci usoudit, která metoda segmentuje obraz lépe. 9 Vizualizace: A B C D E F G Obrázek 1 Vizualizace segmentace bílé hmoty pomocí dvou segmentačních metod a jejich srovnání s atlasem mozku. A) původní obraz mozku z magnetické rezonance; B) segmentovaný obraz pomocí metody k-průměrů; C) segmentovaný obraz pomocí metody knejbližších sousedů (k-NN); D) obraz segmentovaný na základě atlasu mozku; E) obraz bílé hmoty vzniklý prahováním obrazu B (tzn. na základě metody k-průměrů); F) obraz bílé hmoty mozkové vzniklý prahováním obrazu C (tzn. na základě metody k-NN); G) obraz bílé hmoty mozkové vzniklý prahováním obrazu D (tzn. na základě atlasu mozku). V obrazech B až D tmavě červená barva značí bílou hmotu, žlutá značí šedou hmotu, světle modrá značí mozkomíšní mok a tmavě modrá značí pozadí. Příklad 2 – Podobnosti – řešení Počty voxelů označených jako bílá hmota pomocí segmentačních metod a jejich srovnání s maskou sumarizujeme: 10 Tabulka 1. Sumarizace počtu voxelů označených a neoznačených jako bílá hmota na základě segmentace metodou k-průměrů a na základě masky. 𝐲 0 1 Celkem 𝐱1 0 28 453 (D1) 477 (C1) 28 930 1 1406 (B1) 8 941 (A1) 10 347 Celkem 29 859 9 418 39 277 (N) Tabulka 2. Sumarizace počtu voxelů označených a neoznačených jako bílá hmota na základě segmentace metodou k-nejbližších sousedů a na základě masky. 𝐲 0 1 Celkem 𝐱2 0 29 046 (D2) 284 (C2) 29 330 1 813 (B2) 9 134 (A2) 9 947 Celkem 29 859 9 418 39 277 (N) E F G 𝐱1 - vektor počtu voxelů neoznačených jako bílá hmota (0) a počtu voxelů označených jako bílá hmota (1) na základě segmentace metodou k-průměrů; 𝐱2 - vektor počtu voxelů neoznačených a označených jako bílá hmota na základě segmentace metodou k-nejbližších sousedů; 𝐲 je vektor počtu voxelů neoznačených a označených jako bílá hmota na základě masky. Příklad 2 – Jaccardův-Tanimotův asociační koef. 11 Tabulka 1. Metoda k-průměrů 𝐲 0 1 Celkem 𝐱1 0 28 453 (D1) 477 (C1) 28 930 1 1406 (B1) 8 941 (A1) 10 347 Celkem 29 859 9 418 39 277 (N) Tabulka 2. Metoda k-nejbližších sousedů 𝐲 0 1 Celkem 𝐱2 0 29 046 (D2) 284 (C2) 29 330 1 813 (B2) 9 134 (A2) 9 947 Celkem 29 859 9 418 39 277 (N) 𝐱1 - vektor počtu voxelů neoznačených jako bílá hmota (0) a počtu voxelů označených jako bílá hmota (1) na základě segmentace metodou k-průměrů; 𝐱2 - vektor počtu voxelů neoznačených a označených jako bílá hmota na základě segmentace metodou k-nejbližších sousedů; 𝐲 je vektor počtu voxelů neoznačených a označených jako bílá hmota na základě masky. Výpočet podobnosti mezi osegmentovanými obrazy a maskou: Jaccardův-Tanimotův asociační koeficient: 𝑠𝐽𝑇 𝐱1, 𝐲 = A1 A1+B1+C1 = 8 941 8 941 + 1 406 + 477 = 0,826 𝑠𝐽𝑇 𝐱2, 𝐲 = A2 A2+B2+C2 = 9 134 9 134 + 813 + 284 = 0,893 Větší podobnost s maskou má obraz segmentovaný metodou k-nejbližších sousedů, metoda k-nejbližších sousedů tedy osegmentovala obraz lépe než metoda k-průměrů. Příklad 2 – Sokalův-Michenerův asociační koef. 12 Tabulka 1. Metoda k-průměrů 𝐲 0 1 Celkem 𝐱1 0 28 453 (D1) 477 (C1) 28 930 1 1406 (B1) 8 941 (A1) 10 347 Celkem 29 859 9 418 39 277 (N) Tabulka 2. Metoda k-nejbližších sousedů 𝐲 0 1 Celkem 𝐱2 0 29 046 (D2) 284 (C2) 29 330 1 813 (B2) 9 134 (A2) 9 947 Celkem 29 859 9 418 39 277 (N) 𝐱1 - vektor počtu voxelů neoznačených jako bílá hmota (0) a počtu voxelů označených jako bílá hmota (1) na základě segmentace metodou k-průměrů; 𝐱2 - vektor počtu voxelů neoznačených a označených jako bílá hmota na základě segmentace metodou k-nejbližších sousedů; 𝐲 je vektor počtu voxelů neoznačených a označených jako bílá hmota na základě masky. Výpočet podobnosti mezi osegmentovanými obrazy a maskou: Sokalův-Michenerův (simple matching = jednoduchý srovnávací) asoc. koeficient: 𝑠𝑆𝑀 𝐱1, 𝐲 = A1+D1 A1+B1+C1+D1 = 8 941 + 28 453 8 941 + 1 406 + 477 + 28 453 = 0,952 𝑠𝑆𝑀 𝐱2, 𝐲 = A2+D2 A2+B2+C2+D2 = 9 134 + 29 046 9 134 + 813 + 284+ 29 046 = 0,972 Větší podobnost s maskou má obraz segmentovaný metodou k-nejbližších sousedů, metoda k-nejbližších sousedů tedy osegmentovala obraz lépe než metoda k-průměrů. Příklad 2 – Srovnání koeficientů 13 Sokalův-Michenerův (simple matching = jednoduchý srovnávací) asoc. koeficient: 𝑠𝑆𝑀 𝐱1, 𝐲 = A1+D1 A1+B1+C1+D1 = 8 941 + 28 453 8 941 + 1 406 + 477 + 28 453 = 0,952 𝑠𝑆𝑀 𝐱2, 𝐲 = A2+D2 A2+B2+C2+D2 = 9 134 + 29 046 9 134 + 813 + 284+ 29 046 = 0,972 Jaccardův-Tanimotův asociační koeficient: 𝑠𝐽𝑇 𝐱1, 𝐲 = A1 A1+B1+C1 = 8 941 8 941 + 1 406 + 477 = 0,826 𝑠𝐽𝑇 𝐱2, 𝐲 = A2 A2+B2+C2 = 9 134 9 134 + 813 + 284 = 0,893 Závěr: - Oba koeficienty dokázaly určit, že větší podobnost s maskou má obraz segmentovaný metodou k-nejbližších sousedů, metoda k-nejbližších sousedů tedy osegmentovala obraz lépe než metoda k-průměrů. - Protože Jaccardův-Tanimotův asociační koeficient nezahrnuje negativní shody (tzn. voxely pozadí), umožňuje lépe postihnout rozdíl v úspěšnosti mezi segmentačními metodami.