Masarykova univerzita v Brně Lékařská fakulta – Biofyzikální ústav Získávání a analýza obrazové informace Jaromír Šrámek Ondřej Ráček Martin Sedlář Vojtěch Mornstein Obsah Předmluva 8 1 Získávání obrazu 9 1.1 Barva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.1 Černobílý obraz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.1.2 Barevný obraz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.1.2.1 Barevný model CIE . . . . . . . . . . . . . . . . . . . . . 10 1.1.2.2 Barevný model RGB . . . . . . . . . . . . . . . . . . . . . 13 1.1.2.3 Barevný model CMY a CMYK . . . . . . . . . . . . . . . 14 1.1.2.4 Barevný model HSV a HSL . . . . . . . . . . . . . . . . . 15 1.2 Detekce obrazu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.2.1 Sejmutí fyzicky existujícího obrazu . . . . . . . . . . . . . . . . . . 16 1.2.2 Vizualizace prostorového rozložení fyzikální veličiny jako obrazu . . 20 1.2.3 Vizualizace dat jako umělého obrazu . . . . . . . . . . . . . . . . . 22 1.3 Datové formáty pro obrazová data . . . . . . . . . . . . . . . . . . . . . . . 23 1.3.1 Datový formát BMP . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.3.2 Datový formát GIF . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.3.3 Datový formát PNG . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.3.4 Datový formát JPEG . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.3.5 Datový formát TIFF . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.3.6 Datový formát DICOM . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2 Charakteristiky obrazu 31 2.1 Globální charakteristiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.1.1 Hloubka obrazu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1.2 Dynamický rozsah . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1.3 Jas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1.4 Kontrast . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1.5 Histogram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2 Lokální charakteristiky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2.1 Textura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2.1.1 Statistické míry prvního řádu . . . . . . . . . . . . . . . . 36 2.2.1.2 Texturní míry odvozené z koincidenční matice stupňů šedi 38 1 2.2.2 Texturní míry odvozené z run-length matice . . . . . . . . . . . . . 42 2.2.3 Lawsovy filtry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.2.4 Spektrální vlastnosti . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.2.5 Fraktální dimenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2.6 Tvar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.2.6.1 Detekce hranice . . . . . . . . . . . . . . . . . . . . . . . . 52 2.2.6.2 Popis tvaru . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.2.7 Analýza opakujících se motivů . . . . . . . . . . . . . . . . . . . . . 56 2.2.7.1 Voronoiův diagram . . . . . . . . . . . . . . . . . . . . . . 58 2.2.7.2 Delaunayova triangulace . . . . . . . . . . . . . . . . . . . 58 2.2.7.3 Použití . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3 Operace s obrazem 60 3.1 Manipulace s histogramem . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.1.1 Změna jasu a kontrastu . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.1.1.1 Změna jasu . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.1.1.2 Změna kontrastu . . . . . . . . . . . . . . . . . . . . . . . 63 3.1.1.3 S-křivky . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.1.2 Prahování . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.1.3 Ekvalizace histogramu . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.1.4 Gama korekce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.2 Lineární filtry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.2.1 Konvoluce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.2.2 Filtr typu průměr . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2.3 Hranové detektory . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.2.3.1 Laplaceův operátor . . . . . . . . . . . . . . . . . . . . . . 74 3.2.3.2 Prewittové operátor . . . . . . . . . . . . . . . . . . . . . 75 3.2.3.3 Sobelův operátor . . . . . . . . . . . . . . . . . . . . . . . 75 3.2.3.4 LoG operátor . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.2.3.5 Cannyho hranový detektor . . . . . . . . . . . . . . . . . . 76 3.3 Nelineární filtry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.3.1 Filtr typu rozptyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.3.2 Mediánový filtr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.3.3 Filtry minimum a maximum . . . . . . . . . . . . . . . . . . . . . . 79 3.4 Matematická morfologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 3.4.1 Binární matematická morfologie . . . . . . . . . . . . . . . . . . . . 80 3.4.2 Šedotónová matematická morfologie . . . . . . . . . . . . . . . . . . 83 3.4.3 Granulometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 3.5 Zpracování ve frekvenční oblasti . . . . . . . . . . . . . . . . . . . . . . . . 87 3.5.1 Vzorkování . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 3.5.2 Fourierova transformace . . . . . . . . . . . . . . . . . . . . . . . . 88 3.5.2.1 Komplexní čísla . . . . . . . . . . . . . . . . . . . . . . . . 88 3.5.2.2 Jednorozměrná Fourierova transformace . . . . . . . . . . 89 2 3.5.2.3 Fourierova transformace diskrétního signálu . . . . . . . . 89 3.5.2.4 Diskrétní Fourierova transformace (DFT) . . . . . . . . . 90 3.5.2.5 Funkce okna . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.5.2.6 Diskrétní Fourierova transformace digitálního obrazu . . . 92 4 Biomedicínské obrazy 95 4.1 Úpravy biomedicínských obrazů . . . . . . . . . . . . . . . . . . . . . . . . 95 4.1.1 Korekce šumu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.1.2 Zvyšování kontrastu . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.1.2.1 Zvýšení kontrastu detekcí hran . . . . . . . . . . . . . . . 96 4.1.2.2 Zvýšení kontrastu analýzou textury . . . . . . . . . . . . . 96 4.1.3 Použití nepravých barev . . . . . . . . . . . . . . . . . . . . . . . . 98 4.1.4 Fúze obrazů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.2 Hodnocení kvality zobrazovacích metod . . . . . . . . . . . . . . . . . . . . 101 4.2.1 Prostorové rozlišení . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.2.2 Časové rozlišení . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 4.2.3 Energetické rozlišení . . . . . . . . . . . . . . . . . . . . . . . . . . 102 4.2.4 Linearita převodu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 4.2.5 Homogenita procesu zobrazení . . . . . . . . . . . . . . . . . . . . . 103 4.3 Počítačová podpora diagnostiky . . . . . . . . . . . . . . . . . . . . . . . . 103 4.3.1 Volba příznakový vektorů . . . . . . . . . . . . . . . . . . . . . . . 103 4.3.2 Expertní a konzultační systémy . . . . . . . . . . . . . . . . . . . . 105 5 Software 107 5.1 GIMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.2 ImageJ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.3 Octave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 3 Seznam obrázků 1.1 Spektrální citlivost fotoreceptorů předpokládaná v modelu CIE 1931 . . . . 11 1.2 Chromatický diagram v modelu CIE 1931. . . . . . . . . . . . . . . . . . . 12 1.3 Detail stínítka barevné obrazovky . . . . . . . . . . . . . . . . . . . . . . . 13 1.4 Kožní léze při leishmanióze . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.5 Obrovský lipom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.6 Zpracování obrazu cervikální biopsie . . . . . . . . . . . . . . . . . . . . . 18 1.7 Analýza barevného obrazu kožních afekcí . . . . . . . . . . . . . . . . . . . 19 1.8 Chernoffovy tváře . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.9 Ultrazvukový snímek fantomu, Q = 100 . . . . . . . . . . . . . . . . . . . . 26 1.10 Ultrazvukový snímek fantomu, Q = 75 . . . . . . . . . . . . . . . . . . . . 26 1.11 Ultrazvukový snímek fantomu, Q = 50 . . . . . . . . . . . . . . . . . . . . 27 1.12 Ultrazvukový snímek fantomu, Q = 25 . . . . . . . . . . . . . . . . . . . . 27 1.13 Ultrazvukový snímek fantomu, Q = 1 . . . . . . . . . . . . . . . . . . . . . 28 1.14 Závislost Haralickový měr na koeficientu kvality Q . . . . . . . . . . . . . . 29 2.1 Histogram stupňů šedi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2 Noční hlídka (Rembrandt) a její barevný histogram . . . . . . . . . . . . . 34 2.3 Dva obrázky se shodným histogramem . . . . . . . . . . . . . . . . . . . . 35 2.4 Surface plot sonogramu jater . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.5 Aplikace Lawsova filtru S5E5 . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.6 Cirrus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.7 Jedna hrana Kochovy vločky, čtyři iterace konstrukce. . . . . . . . . . . . . 48 2.8 Odhad fraktální dimenze na fantomu . . . . . . . . . . . . . . . . . . . . . 50 2.9 Odhad fraktální dimenze chromatinu melanomu . . . . . . . . . . . . . . . 51 2.10 Obraz sítnice z funduskamery . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.11 Maligní lymfatická uzlina – ultrasonografie . . . . . . . . . . . . . . . . . . 57 2.12 Epidemie cholery v Londýně, 1854 . . . . . . . . . . . . . . . . . . . . . . . 59 3.1 Jednoduchá manipulace s jasem a kontrastem . . . . . . . . . . . . . . . . 64 3.2 Nastavení s-křivky v programu GIMP . . . . . . . . . . . . . . . . . . . . . 65 3.3 Příklady s-křivek pro manipulaci s jasem . . . . . . . . . . . . . . . . . . . 66 3.4 Příklady s-křivek pro manipulaci s kontrastem . . . . . . . . . . . . . . . . 67 3.5 Tkáňová okna (CT Window) . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.6 Ekvalizace histogramu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4 3.7 Grafický průběh gama korekce pro některé hodnoty parametru γ . . . . . . 71 3.8 Manuální sestavení konvoluční matice v progamu GIMP. . . . . . . . . . . 73 3.9 Aplikace průměrového filtru. . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.10 Příklady použití hranových detektorů . . . . . . . . . . . . . . . . . . . . . 76 3.11 Příklady použití filtru typu rozptyl . . . . . . . . . . . . . . . . . . . . . . 78 3.12 Aplikace mediánového filtru. . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.13 Aplikace binární morfologie – měření zloušťky podkoží. . . . . . . . . . . . 86 3.14 Amplitudové spektrum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.1 Vyhlazení ploch pomocí morfologických operátorů. . . . . . . . . . . . . . 97 4.2 Příklady použití nepravých barev. . . . . . . . . . . . . . . . . . . . . . . . 98 4.3 Morphing, jehož mezikroky zjevně nemají biologický smysl . . . . . . . . . 99 4.4 DSA lebky – aneurysma jako projev Takayasuovy arteritidy. . . . . . . . . 100 5 Seznam tabulek 1.1 Haralickovy texturní míry fantomů . . . . . . . . . . . . . . . . . . . . . . 28 1.2 Přehled vlastností obrazových formátů . . . . . . . . . . . . . . . . . . . . 30 2.1 Vektory pro konstrukci Lawsových filtrů . . . . . . . . . . . . . . . . . . . 44 2.2 Počty Lawsových filtrů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6 Tento text vznikl s podporou projektu FRVŠ č.2487/2011 Tento text je uvolněn pod licencí CC BY-NC-SA 3.0 Česko 7 Předmluva Předkládaný text vznikl jako výstup projektu Fondu rozvoje vysokých škol FRVS 2487/2011, který byl řešen na Biofyzikálním ústavu Lékařské fakulty Masarykovy univerzity v Brně. Cílem bylo vytvořit text, který poskytne především motivovanému studentovi medicínského a případně i biologického oboru přehled toho, jakým způsobem jsou prováděny běžné operace s obrazovými daty. Znalosti, které by si měl čtenář osvojit, poslouží nikoliv k samostatné práci, ale především k tomu, aby byl schopen účelně využívat základní funkce nabízené v běžně dostupném software a aby byl v případě potřeby schopen komunikace s informatikem zabývajícím se analýzou obrazu. Text je záměrně licencován jako Creative Commons – na jedné straně totiž autoři přejímají řadu snímků z internetových projektů pracujících právě s touto licencí, zejména pak Wikimedia a Radiopaedia, na straně druhé pak nechtějí bránit tomu, aby byla alespoň část tohoto textu šířena tak, aby byla užitečná, tedy především na projektech WikiSkripta a na české mutaci Wikipedie. Přáním autorského kolektivu je i to, aby si čtenář po dočtení textu sám uvědomil, že nejen o ohni lze prohlásit, že je dobrým sluhou ale špatným pánem. Manipulace s obrazovými daty vede pouze ke změně předkládané informace, v nejlepším případě se žádná informace neztrácí. Bohužel ve filmové tvorbě jsme někdy konfrontováni s tím, že se filmovému hrdinovi podaří provést takovou manipulaci s obrazem, že v obraze vzniká nová informace. Takovéto vzory mohou někdy vést k nereálným očekáváním od uživatelů obrazové analýzy a následnému zklamání nad reálnými možnostmi, které může vyústit do opačného extrému, tedy do přemrštěné skepse. J.Š., Střelice u Brna prosinec 2011 8 Kapitola 1 Získávání obrazu Položme si nejprve jednoduchou otázku: Co je obraz? Jednou z možných odpovědí je to, že obraz je zrakový vjem. Zrakový vjem vzniká zhruba tak, že vnímáme vlastnosti dopadajícího světla na jednotlivé body sítnice. Těmi vlastnostmi jsou především intenzita a spektrální složení. Zobecněním tého představy se dostaneme k tomu, že se takto mohla na sítnici promítnout nějaká rovina pokrytá bodovými zdroji světla. Za obraz pak můžeme pokládat právě takovou rovinu. Výše uvedenou úvahu lze matematicky formalizovat. Za obraz budeme pokládat funkci dvou proměnných, která každému bodu z roviny obrazu přiřadí nějakou hodnotu, kterou kódujeme její barevné vlastnosti1 . Protože se nadále omezíme pouze na digitální obrazy, můžeme rovinu obrazu pokládat za matici, jejíž prvek určuje barevné vlastnosti. Dále se ukáže, že je tato představa velmi užitečná. 1.1 Barva Barva je kvalitou záření, která má vztah ke spektrálním vlastnostem záření. Barvu můžeme vnímat díky tomu, že v naší sítnici se nacházejí tři populace čípků s různým maximem citlivosti2 . Z uvedného je zřejmé, že pro věrohodnou reprezentaci barvy bude nejspíše třeba nejméně trojice čísel. Ve skutečnosti tomu tak skutečně je a k záznamu barevné informace se používají různé systémy. Každý z takových systémů má své výhody i nevýhody, proto se nepoužívá jen jeden. 1 K reprezentaci barevných vlastností nepostačuje jen jedno číslo, proto se hovoří o barevném prostoru. 2 Gen zodpovědný za funkci čípků s citlivostí pro červenou barvu se vyskytuje v populaci ve dvou variantách s mírně posunutou maximální citlivostí. Protože se tento gen nachází na X chromosomu, mohou se v populaci vyskytovat ženy, které dokáží rozlišit více barev. 9 1.1.1 Černobílý obraz Nejjednodušším přístupem k záznamu barevné informace je na barvu prostě zapomenout. Lidský mozek vnímá barvu a jas jako dvě různé informace, takže obraz obsahující pouze informaci o jasu nebudeme pokládat za obraz poškozený nebo neúplný. Výhodou černobílého – přesněji šedotónového – obrazu je to, že k reprezentaci jasu postačuje jedno jediné číslo. Protože počítače pracují nejlépe s celými čísly, je jas reprezentován jako celé číslo. Obvyklou konvencí je použití čísla 0 jako kódu pro nejtmavší odstín, tedy pro černou barvu, a maximální použitelnou hodnotu pro barvu bílou. Černobílý obraz je vlastním výstupem většiny zobrazovacích metod, tedy má mimořádnou důležitost. Navíc většina algoritmů zpracování a analýzy obrazu pracuje s černobílým obrazem, vnesením informace o barvě se výpočet obvykle podstatným způsobem kompli- kuje. 1.1.2 Barevný obraz Barevný obraz obsahuje informaci nejen o jasu ale i o barevných vlastnostech obrazu. K reprezentaci barev se používá několik přístupů, hovoříme o barevných modelech. Společným rysem všech moderních barevných modelů je to, že k určení barvy používají nejméně tři parametry. Barevné modely využívané především k analogovému vysílání barevné televize zde zmíněny nebudou. 1.1.2.1 Barevný model CIE CIE je akronym označující organizaci Commission internationale de l’éclairage (Mezinárodní organizaci pro osvětlování) založenou v roce 1913. CIE je mezinárodní organizací, která určuje standardy v oblastech týkajících se světla a barev. CIE vydala několik standardů barevného vnímání založených na hodnocení fyziologického vnímání. Výchozím barevným modelem je model CIE 1931. Pro model CIE 1931 jsou výchozí tři empiricky získané křivky spektrální citlivosti jednotlivých barevných receptorů (viz obr.1.1). Studované záření je určené spektrální hustotou výkonu I(λ), což je veličina, která udává, jaká část energie z celkové intenzity záření I je nesena zářením o vlnové délce λ. Barevnou kvalitu záření pak určuje trojice parametrů3 X, Y a Z definovaných následujícím způsobem: 3 Čtenáři doporučujeme důsledně rozslišovat mezi malými a velkými písmeny, jinak hrozí riziko ztráty stopy v textu. 10 Obrázek 1.1: Spektrální citlivost fotoreceptorů předpokládaná v modelu CIE 1931 zdroj: http://commons.wikimedia.org, File:CIE 1931 XYZ Color Matching Functions.svg X = ∞ 0 I(λ) x(λ) dλ (1.1) Y = ∞ 0 I(λ) y(λ) dλ (1.2) Z = ∞ 0 I(λ) z(λ) dλ (1.3) Parametry lze „normovat tak, že se podělí svým součtem. Tímto způsobem lze získat odvozené parametry: x = X X + Y + Z (1.4) y = Y X + Y + Z (1.5) z = Z X + Y + Z (1.6) Není obtížné ukázat, že platí: z = 1 − x − y To tedy znamená, že postačuje znát pouze dvě hodnoty parametrů odvozených a třetí parametr je již těmito hodnotami plně určen. Parametr Y byl zvolen tak, aby jeho hodnota odpovídala jasu barevného bodu, odvozené parametry x a y pak obsahují veškerou informaci o barevné kvalitě bodu. Při pevně zvoleném jasu, tedy parametru Y tak lze vytvořit 11 Obrázek 1.2: Chromatický diagram zahrnuje barvy určené odvozenými parametry x a y při pevně daném jasu v modelu CIE 1931. zdroj: http://commons.wikimedia.org, File:CIExy1931.png rovinný obrazec, jehož každý bod bude mít barevné vlastnosti určené pouze souřadnicemi (tedy odvozenými parametry) x a y (viz obr.1.2). Chromatický diagram je zajímavý tím, že na jeho obvodu se nalézají všechny čisté barvy, na spojnici dvou bodů se pak nacházejí všechny barvy, které lze získat míšením příslušných barev. CIE barevný model i veškeré jeho aktualizace se používají především k teoretickému studiu vnímání barev a k měření barev (kolorimetrii). V počítačové grafice se používají spíše jiné modely, které mají některé technicky nebo uživatelsky vhodnější vlastnosti – CIE model je však jejich teoretickým základem. 12 1.1.2.2 Barevný model RGB Barevný model RGB je zřejmě nejčastěji používaným barevným modelem. Pro vyjádření barvy i jasu je využita trojice čísel odpovídající množství jednotlivé barevné složky. Model je založen na lidském vnímání barev, jeho jednotlivé složky odpovídají citlivostli jednotlivých čípků lidského oka: R (red) – červená složka G (green) – zelená složka B (blue) – modrá složka RGB je model aditivní, to znamená, že výsledná barva vzniká „sčítáním jednotlivých složek. Černá barva tedy znamená, že není přidána žádná barva, bílá naopak znamená, že jsou přidány všechny tři barvy v maximálním možném množství. Asi nejvíce názornou představu o tom, jak se v modelu RGB reprezentuje barva, poskytne detailní pohled na stínítko barevné obrazovky (obr.1.3), na kterém jsou různým způsobem uspořádané tečky luminoforu, tedy látky, která po dopadu elektronů emituje viditelné světlo příslušné vlnové délky. Obrázek 1.3: Detail stínítka barevné obrazovky. Podle konkrétního technického uspořádání se lze setkat s několika možnými uspořádání teček luminoforů. modifikováno podle: http://commons.wikimedia.org/wiki/File:CRT mask types en-de.svg Jestliže se rozzáří všechny body maximální možnou intenzitou, uvidíme bílou barvu, naopak jestliže nezáří, vnímáme obrazovku jako černou. Veškeré barvy jsou pak vytvořeny jako kombinace jasu jednotlivých červených, zelených a modrých bodů. Právě pro svoji přirozenost týkající se vnímání má model RGB poměrně dlouhou his- torii4 a široké využití. Protože je základním barevným modelem, který využívají barevné obrazovky, stal se RGB model základním modelem pro reprezentaci barev v paměti po- čítače5 . Vlastní technické parametry, tedy především definice základních barev (červené, 4 Teorie vnímání barev odpovídající modelu RGB se pojí především se jménem skotského fyzika a matematika Jamese Clarka Maxwella (1831 – 1879). Svůj objev demonstroval tak, že v roce 1861 vytvořit barevnou fotografii, ovšem díky problémům zejména s různou citlivostí fotografického materiálu na různé barvy byl jeho objev zapomenut a znovuobjeven až o třicet let později. 5 Mezi jednotlivými barevnými modely lze sice přepočítávat, obvykle jde dokonce o jednoduché lineární transformace, ovšem vzhledem k rozsahu obrazových dat i v tom nejmenším rozlišení umožňujícím seriózní 13 zelené a modré) jsou určeny technickými normami ve vztahu k modelu CIE. Důsledkem pro uživatele je především to, že na správně fungujícím výstupním zařízení by nemělo docházet ke zkreslení barev. Hodnoty parametrů R, G a B, které určují výslednou barvu, se nacházejí v intervalu [0, 1]. Protože pro počítačové zpracování jsou reálná čísla nedosažitelná a racionální výpočetně náročná, ukládají se v paměti hodnoty parametrů jako celá čísla. Pokud je pro každou složku v paměti určen jeden byte, používá se pro takový obraz označení true color. Protože lidské oko není ke všem barvám stejně citlivé, může být pro každou složku v paměti vyhražen jiný počet bitů. Toho využívá např. systém používající dva byte6 pro všechny tři parametry označovaný obvykle high color. Parametrům R a B je v tomto případě přiděleno 5 bitů a parametru G je přiděleno 6 bitů.7 Největší nevýhodou pro koncového uživatele je to, že RGB model sice poměrně věrně zachycuje to, jak barvy vnímá lidské oko, ovšem lidský mozek vnímá barevnou informaci nejspíš tak, že hodnotí jas, převažující vlnovou délku (barva) a energii nesenou zářením na ostatních vlnových délkách (sytost). Pokud chce například grafik měnit barevné vlastnosti nějakého povrchu, uvažuje právě v těchto parametrech. Naopak při změnách barevných vlastností manipulacemi s jednotlivými parametry RGB je výsledek takového zásahu značně neintuitivní a málo očekávatelný. 1.1.2.3 Barevný model CMY a CMYK Barevný model CMYK (Cyan, Magenta, Yellow, blacK) je běžným modelem používaným při tisku. Jde o model subtraktivní, tedy základní barvy (modrozelená, fialová a žlutá) se od původně bílého odkladu „odečítají . Přidáním všech těchto barev by měla vzniknout barva černá. K tomu však z technických důvodů nemusí dojít, navíc v případě tisku by byl tento postup málo hospodárný, takže se ke trojici barev přidává ještě barva černá. Model bez černé barvy se obvykle označuje jako model CMY. Pro přepočet mezi modelem RGB a CMY platí jednoduchý vztah: C = 1 − R (1.7) M = 1 − G (1.8) Y = 1 − B (1.9) práci by představovala transformace obrazových dat do RGB buď nepřijatelnou výpočetní zátež navíc, nebo přidání další komponenty do počítače a tím navýšení jeho ceny. 6 Jen pro připomenutí – jeden byte („bajt ) je osm bitů 7 Vyšší citlivosti lidského oka na zelenou barvu je využito i v řadě dalších případů. Za pozornost stojí zejména barevná CCD kamera, která může být uspořádána tak, že polovina plochy je citlivá na zelenou barvu a jen polovina stačí ke snímání modré a červené složky. 14 K převodu do modelu CMYK může posloužit poměrně jednoduchý vztah: K = min {R, G, B} (1.10) C = C − K (1.11) M = M − K (1.12) Y = Y − K (1.13) V praxi je však algoritmus převodu složitější, protože je třeba respektovat omezení zapříčiněná např. tím, že výsledný obraz nevzniká míšením ale vrstvením jednotlivých barev. 1.1.2.4 Barevný model HSV a HSL Modely HSV (Hue, Saturation, Value) a HSL (Hue, Saturation, Lightness) jsou modely používané zejména v počítačové grafice k intuitivnímu míchání barev. Barevná informace není kódována tak, aby byla snadno zobrazitelná nebo vnímatelná okem, ale tak, jak je barevná kvalita zpracovávána lidským vědomím. I když totiž oko pracuje trichromaticky, výslednou barevnou kvalitu vnímáme tak, že hodnotíme následující kvality: 1. barevný tón 2. sytost barvy 3. jas 1.1.2.4.1 Barevný tón fyzikálně odpovídá převažující vlnové délce v daném barevném podnětu. Barvy ve stupních šedi, tedy i černou a bílou, považujeme za barvy, které mají vyrovnané zastoupení všech vlnových délek. V modelu HSV i HSL barevnému tónu odpovídá parametr H. U stupňů šedi není parametr H definován. 1.1.2.4.2 Sytost barvy fyzikálně odpovídá energii, jaká je nesena zářením mimo dominantní vlnovou délku určující barevný tón. Lze jej také chápat jako příměs bílého světla k základnímu barevnému tónu. V modelu HSV i HSL odpovídá sytosti parametr S. 1.1.2.4.3 Jas fyzikálně odpovídá celkové energii záření nesené všemi vlnovými délkami viditelného světla. Jasu odpovídají parametry V resp. L u obou modelů. Rozdíl mezi oběma modely tkví především v tom, že HSL více odpovídá intuitivnímu očekávání toho, jak se budou barvy v závislosti na změnách jasu chovat. 15 1.2 Detekce obrazu Detekcí obrazu je myšlen převod obrazu do nějaké jiné formy signálu, která má pro další zpracování výhodnější vlastnosti. Takovou detekcí obrazu je i klasická fotografie, která převede obraz na chemické změny ve filmu. Pro naše potřeby je však nejdůležitější detekce spojená s digitalizací, tedy pořízení digitálního obrazu do paměti počítače. V zásadě jsou možné tři způsoby, které lze pokládat za detekci digitálního obrazu: 1. sejmutí fyzicky existujícího obrazu 2. vizualizace prostorového rozložení fyzikální veličiny jako obrazu 3. vizualizace dat jako umělého obrazu 1.2.1 Sejmutí fyzicky existujícího obrazu Sejmutím fyzicky existujícího obrazu se myslí pořízení snímku běžným zařízením, tedy především digitálním fotoaparátem nebo kamerou. I když jsou činěny pokusy o pokročilejší analýzu klinické fotografie, naráží realizace těchto snah na problematiku standardizace podmínek, za kterých je fotografie pořízena. Pro odborníka stačí prostý snímek (např. obr.1.4) nebo snímek doplněný o měřítko (např. obr.1.5), ovšem při počítačovém zpracování takových obrazových dat je vnesená nejistota velkou překážkou precizní analýzy. Poněkud jiná je situace v oblasti zpracování snímků pořízených světelným mikroskopem. Sama konstrukce mikroskopu zajišťuje, že podmínky pořízení snímku jsou relativně stálé – jedniným faktorem, který lze na běžném mikroskopu měnit, je clona kondenzoru, ovšem takto definované změny osvětlení zde korekcí obrazu na konkrétní celkový jas poměrně dobře korigovatelné. Mikroskopické snímky lze obvykle doplnit měřítkem velikosti, ať již explicitně zobrazeným nebo předpokládaným ze zvětšení, a tak lze v obrazu např. automaticky měřit velikost objektů, vyhledávat konkrétní objekty nebo analyzovat tvarové či texturní charakteristiky konkrétních útvarů. Příklad takové pokročilé analýzy mikroskopického obrazu je na obr.1.6. Navzdory poněkud problematické standardizaci podmínek je častou oblastí, ve které se nasazují metody analýzy obrazu, endoskopie. Zejména endoskopie kapsulová, při které se získá poměrně dlouhý záznam, je cílem snahy omezení práce specialisty při hodnocení léze. Nosnou myšlenkou je to, že algoritmus klasifikuje snímky do kategorie „normální a „suspektní , přičemž hodnocení suspektního snímku je přenecháno specialistovi. V případě kožních lézí slouží dermatologům k vyšetření speciální lupa nazývaná dermatoskop. Zvětšuje obvykle 10×, má vlastní osvětlení vyšetřovaného pole, definovanou vzdálenost od léze a obvykle je spojena s videokamerou. Jsou tedy splněny podmínky pro reprodukovatelnost snímků a tak lze při aplikaci metod analýzy obrazu očekávat, že výsledek bude aplikovatelný. Příklad analýzy dermatoskopického snímku je na obrázku 1.7 16 Obrázek 1.4: Kožní léze na levé ruce mladého muže způsobená parazitickým prvoky rodu Leishmania. Prostá fotografie má pro další analýzu jen omezený význam, protože podmínky pořízení obrazových dat nejsou standardizovány a chybí i přesné měřítko. zdroj: Centers for Disease Control and Prevention’s Public Health Image Library, obrázek č.352 Obrázek 1.5: Obrovský nezhoubný nádor z tukové tkáně (lipom). Fotografie je doplněná měřítkem, takže si lze udělat představu velikosti tumoru. Nejsou však zaručeny standardní podmínky osvětlení ani umístění fotoaparátu. Pro ilustraci je uveden i rentgenový snímek předloktí, na kterém se lipom nacházel. zdroj: [18] 17 Obrázek 1.6: Histopatologický obraz cervikální biopsie a jeho další analýza. (1) Výchozí šedotónový snímek, modifikované Weigertovo barvení, ze kterého byly ručně odstraněny všechny neepiteliální struktury. (2) Segmentace podle jader. (3) Voronoiovo dláždění. (4) Delaunayova triangulce. Parametry zpracovaných obrazů posloužily autorům jako parametry, podle kterých bylo možno provést automatický grading cervikálního nálezu. Výše uvedené postupy jsou příkladem matematické morfologie, tedy nelineárních operací s obrazem založených na přístupu k obrazovým datům jako k množinám. Jde o operace, jejichž teoretický základ je poměrně komplikovaný, vlastní výpočet obvykle trvá delší dobu, ovšem díky tomu, že jde o nelineární operace, jsou možnosti jejich využití mnohem širší. zdroj: [10] 18 Obrázek 1.7: Analýza barevného dermatoskopického snímku melanomu, benigního névu a benigního névu smíšeného s angiomem. Přístup k analýze vlastností povrchu byl založen na analýze barevné textury. Autoři práce, ze která tento obrázek pochází, rozdělili obraz na jednotlivé kanály (složky barevného modelu) R, G a B a na následnou analýzu vztahů mezi nimi. Výsledek je přínosem pro objektivizaci posuzování rozdílů mezi jednotlivými nálezy. zdroj: [4] 19 1.2.2 Vizualizace prostorového rozložení fyzikální veličiny jako obrazu Vizualizace prostorového rozložení nějaké fyzikální veličiny je cílem lékařských zobrazovacích metod používaných zejména v radiologii a nukleární medicíně. Bez nároku na úplnost uvedeme přehled běžných i méně běžných technik doplněný o údaj o tom, čeho je vlastně měřena prostorová distribuce8 . • skiagrafie – útlum rentgenového záření • počítačová tomografie (CT) – útlum rentgenového záření • magnetická rezonanční tomografie (MRI) – kvantové chování atomových jader v magnetickém poli • ultrasonografie – odrazivost ultrazvukového vlnění • scintigrafie – aktivita podaného nuklidu • pozitronová emisní tomografie – aktivita podaného nuklidu • elastografie – Youngův modul pružnosti • termografie – teplota • spektroskopie v blízké infračervené oblasti (NIRS) – útlum infračerveného záření • mikrovlnná spektroskopie – útlum mikrovlnného záření • elektroimpedanční tomografie – vodivost a permitivita • optická koherenční tomografie – útlum viditelného světla • laser-CT – útlum záření na hemu Protože v počítačové analýze nelze pracovat se spojitými změnami, je třeba definovat nejmenší prvek prostoru, který budeme brát jako základní homogenní oblast, ve které příslušnou fyzikální charakteristiku měříme. V paměti počítače chápané jako data trojrozměrného obrazu tomuto nejmenšímu prvku říkáme voxel (Volumetric Picture Element)). O odpovídajícím objemovém elementu ve tkáni obvykle předpokládáme, že je homogenní. Velmi podstatnou informací pro úvahy o další analýze obrazových dat je to, jakým způsobem byl vytvořený obraz rekonstruován. Pokud jde totiž o obraz do jisté míry přirozený, tedy dobře definovaný a vlastní měření je dobře reprodukovatelné, pak mají metody analýzy obrazu mnohem větší šanci na úspěšné nasazení. Vždy je však třeba mít na mysli 8 Namísto prostorové distribuce by bylo jistě vhodnější hovořit o poli, ovšem autoři se obávají, že např. pojem „pole Youngova modulu pružnosti by byl pro typického čtenáře poněkud matoucí. 20 to, že prezentovaný obraz je před vlastním zobrazením více nebo méně zpracován tak, aby byl lidským okem snáze vnímatelný. Tím pochopitelně dochází ke zkreslení některých jeho vlastností, takže při analýze obrazu je třeba důsledně dbát na to, aby byly srovnávány stejně zpracované obrazy. Nejjednodušší na pochopení je situace u počítačové tomografie (CT). Výstupem měření na CT je matice Hounsfieldových čísel (HU). Hounsfieldovo číslo konkrétního voxelu je jednoznačně určeno lineárním koeficientem zeslabení µ příslušného voxelu. Referenční látkou je destilovaná voda při standardní teplotě a tlaku, jejíž lineární koeficient zeslabení µw má význam konstatny v definičním vztahu: HU = µ − µw µw · 1000 (1.14) Běžné hodnoty Hounsfieldových čísel se pohybují od −1000 u vzduchu až po 3000 u kompaktní kosti. Kdyby se měla každá hodnota kódovat jedním stupněm šedi, dynamický rozsah výsledného obrazu by dalece přesahoval možnosti lidského zraku. Proto se používají tzv. okna – v obraze se prahováním potlačí hodnoty nižší než referenční hodnota (Level) a na rozsah povolených stupňů šedi se rozprostře pásmo jen pásmo o určité šířce (Width). Pixely odpovídající tkáni, jejíž radiodenzita je nižší než Level, se tedy zobrazí černě, pixely odpovídající tkáni, jejíž radiodenzita je vyšší než Level + Width, se zobrazí bíle. V takto upraveném obraze dochází k obrovské ztrátě informace, ovšem vybraná informace je vnímatelná lidským okem. Metody zpracování obrazu je výhodnější aplikovat na obraz, který není zobrazen v žádném okně, protože obsahuje podstatně větší množství informace. Vzhledem k tomu, že jsou parametry běžných oken ustáleny, lze však metody zpracování obrazu aplikovat i na snímky pořízené v konkrétním okně, protože i poté bude výsledek reprodukovatelný. Podstatně složitější je situace u modalit, kde je vlastní obraz získán náročnější manipulací s měřenými veličinami (MRI) nebo kde je vlastní obraz určen řadou parametrů a nelze zcela bezpečně vyloučit ani to, že se na zejména texturních vlastnostech nemalou měrou podílí i vlastní přístroj (ultrasonografie). V takových případech je třeba přistupovat k nasazení metod počítačové analýzy obrazu s rozmyslem a vždy dbát na důsledné ověřování výsledků. Zvláštní pozornost si zaslouží zejména ultrasonografie. Svým charakterem si ultrazvukové snímky získaly pozornost již v dobách pionýrských pokusů s počítačovou analýzou biomedicínských obrazů. Vždy je u nich třeba mít na paměti to, že přístroj data před poměrně sofistikovaným způsobem zpracovává zejména za účelem zlepšení subjektivně vnímaného kontrastu mezi jednotlivými strukturami. Informace o textuře příslušného orgánu tak může bývá změněna a při analýze informací o textuře je třeba být velmi opatrný. 21 1.2.3 Vizualizace dat jako umělého obrazu Konečně jako obraz mohou být prezentovány i některé komplexní nebo příliš rozsáhlé informace. Klasickým příkladem jsou Chernoffovy tváře (viz obr.1.8), pomůcky při explorativní analýze mnohorozměrných dat, nicméně mohou se vyskytnout i složitější struktury. Nasazování metod počítačové analýzy obrazu by bylo v tomto případě obvykle chybou, protože takovýto arteficiální obraz slouží jako reprezentace nějakých konkrétních a obvykle i dostupných dat. Při vizualizaci se obvykle část informace ztratí, takže je mnohem vhodnější používat k analýze přímo výchozí data. Obrázek 1.8: Chernoffovy tváře generované ve statistickém programu R pomocí funkce z knihovny TeachingDemos. Jedna tvář reprezentuje mnohorozměrný datový vektor. Každé složce vektoru je přiřažen jeden „rys tváře a do jeho rozměrů je zakódována konkrétní hodnota. Jednotlivým prvkům tak odpovídá např. tvar a délka úst, velikost nosu nebo vzdálenost očí. Využití má takováto vizualizace např. v tzv. explorativní analýze dat, při které lze při troše cviku vizuálně odhadnout, jestli ve výsledkcích není několik skupin poměrně podobných vektorů. 22 1.3 Datové formáty pro obrazová data Pro ukládání obrazových dat se používá několik datových formátů. Obecně lze obrazové datové formáty rozdělit podle na nekomprimované a komprimované. Komprimované obrazy mohou být komprimovány bezeztrátovými a ztrátovými algoritmy. Nekomprimované formáty jsou obvykle poměrně velké, ale zejména ve starších počítačích bylo jejich velkou výhodou okamžité načtení a zobrazení bez nutnosti další manipulace s daty. V nekomprimovaných datových formátech totiž odpovídá jednomu pixelu jeden datový úsek9 . Snad nejrozšířenějším příkladem nekomprimovaného datového formátu je BMP (Windows Bitmap), byť novější modifikace již kompresi dat umožňují. Přesto je však tento formát pokládán za málo vhodný zejména pro sdílení a zasílání dat. Komprimované formáty mají menší velikost, ale na starších počítačích trvalo zobrazení déle, protože musela proběhnout dekomprese dat. Vzhledem k tomu, že typický obraz je tvořen různě velkými plochami, u kterých lze předpokládat homogenitu, bývá kompresí dosaženo poměrně velké datové úspory. Bezeztrátová komprese je obvykle založena na tom, že se hodnoty jednotlivých barev pixelů opakují, a proto lze vhodným matematickým postupem snížit počet čísel nutných k reprezentaci všech informací v obraze. Snad nejrozšířenějším formátem dat s bezeztrátovou kompresí je PNG (Portable Network Graphics). Ztrátová komprese je založena na záměrné ztrátě té části informace, kterou lidské oko nevnímá, nebo ji vnímá jen velmi slabě a nemá velký vliv na celkový vjem. Nejznámějším a daleko nejrozšířenějším formátem využívajícím ztrátové komprese je JPEG (Joint Photographic Experts Group). V případě ztrátové komprese dochází ke ztrátě informace, tedy obraz je oproti originálu změněn. Na to je třeba myslet vždy, když se analyzují obrazová data, protože různá míra komprese může hrát roli nevítaného faktoru zkreslující výsledky. Pro sdílení obrazových informací v biomedicíně byl vytvořen standard DICOM. Jde vlastně o datový rámec obsahující především obrazy a videosekvence v některých běžných datových formátech a doplňující textové informace. Všechny výše uvedené informace se týkaly tzv. rastrových formátů, tedy formátů, ve kterých je obraz reprezentován jako množina pixelů. Vedle toho však existují tzv. vektorové formáty. V těchto formátech je obraz reprezentován jako množina křivek a parametrů těchto křivek, tedy matematickým popisem. Takovéto formáty mají řadu výhod při manipulaci s měřítkem, ovšem jsou obvykle výstupem grafických editorů a jejich použití k uchovávání obrazových dat získaných jako záznam fyzikální reality je v rámci současných možností prakticky nemožné. 1.3.1 Datový formát BMP Datový formát BMP (Windows Bitmap) je velmi rozšířený rastrový formát. I když umožňuje jednoduchou kompresi dat, tak obvyklé je to, že data jsou ukládána v nekomprimované 9 Podle konkrétního obrazu může být ten datový úsek různě velký. Typicky jeden bite (černobílý obraz), polovina byte (šesnáctibarevný obraz), jeden byte (256 barev) ale třeba i 3 byte (true color) 23 formě. Toto představovalo výhodu v tom, že obraz bylo možné snadno zobrazit. Tento formát je nativním datovým formátem řady grafických editorů. V současné době je použití tohoto formátu neopodstatněné, pokud je třeba uchovat obrazovou informaci bez ztráty jakékoliv informace, vhodnější jsou formáty PNG nebo TIFF, pokud je ztráta informace přijatelná, vhodnější je formát JPEG. Toto je třeba mít na mysli zejména v případě zasílání obrazové dokumentace e-mailem, protože kapacita poštovních schránek nebývá neomezená a zejména při větším počtu zasílaných obrazů může být schránka zaplněna. 1.3.2 Datový formát GIF Datový formát GIF (Graphics Interchange Format) je rastrový komprimovaný formát s bezeztrátovou kompresí. Jeden pixel je reprezentován jedním byte. Tento byte neobsahuje přímo informaci o barvě pixelu, ale jde pouze o index v tabulce (paletě) definovaných barev. Obrázek tak může obsahovat pouze 256 libovolných ale pevně daných barev. Takovýto formát se příliš nehodí pro reprezentaci komplexních obrazových dat, ve kterých je třeba uchovávat více informací o barevných vlastnostech (fotografie, medicíncké obrazy), je však dobře uzpůsoben k prezentaci na Internetu, především jako formát pomocných grafických elementů v dokumentech HTML. Mimo jiné umožňuje nastavit jednu barvu jako průhlednou (tzv. α-kanál) nebo může obsahovat sekvenci obrázků a zobrazit je jako animaci. 1.3.3 Datový formát PNG Datový formát PNG (Portable Graphics Network) je rastrový komprimovaný formát s bezeztrátovou kompresí. Formát umožňuje uchovávat obrazová data i ve velmi vysokém počtu rozlišených barev10 . Formát PNG používá ke kódování barev model RGBA, což je barevný model RGB doplněný o α-kanál, tedy informaci o průhlednosti. Podle hodnoty parametru α bude daný pixel více či méně transparentní a ve výsledném zobrazení bude více či méně spojen s barvou podkladu. Formát PNG primárně slouží ke zobrazování grafických prvků v prostředí Internetu jako modernější náhrada formátu GIF, s oblibou je však využíván v řadě aplikací počítačové grafiky11 . Pro archivaci biomedicínských dat by bylo možné jej použít, nehrozí riziko ztráty informace. 1.3.4 Datový formát JPEG Datový formát JPEG je rastrový komprimovaný formát se ztrátovou kompresí obrazových dat. Jedná se o běžný formát sloužící k archivaci a přenosu komplexních obrazových dat, tedy např. biomedicínských obrazů. Naopak se nehodí jako formát pro ukládání malých 10 Lze vyhradit až 2 byte na jednu barevnou složku, tedy 6 byte na informaci o barvě pixelu. Další až 2 byte lze vyhradit na α-kanál, tedy celkem může jeden pixel reprezentovat až 8 byte. 11 Například řada ilustrací v tomto textu byla vytvořena nebo převedena na obrázek ve formátu PNG 24 grafických prvků internetových stránek, výrazně nevhodný je pak pro ukládání schématických náčrtků. Míru ztráty informace lze volit, takže uživatel může ovlivnit velikost a kvalitu uloženého snímku. Komprese je založena na diskrétní kosinové transformaci12 , která, velmi hrubě řečeno, určí nejméně významné rysy obrazu, které pak lze jen z malou ztrátou kvality obrazu vypustit. Vlastní matematické detaily jsou velmi zajímavé, nicméně pro potřeby očekávaného čtenáře jde skutečně o detaily nepodstatné. Z průběhu komprese lze snad za důležité považovat především následující body: • Vlastní komprese a následné uložení do paměti probíhá v barevném modelu Y CBCR, ve kterém je explicitně vyjádřen jas a doplněk k modré a k červené barevné složce. • Dochází k redukci počtu barev. • Vlastní redukce informace probíhá tak, že se vypočítá obraz v diskrétní kosinové transformaci ve čtverci 8 × 8 pixelů. Zaokrouhlení určuje uživatel volbou koeficientu kvality Q z intervalu 1 až 100, toto zaokrouhlení se podílí i na velikosti výsledného souboru. • Data jsou uložena v podobě dat transformovaných. Před zobrazením je tedy třeba provést zejména inverzní diskrétní kosinovou transformaci. Zobrazení zejména rozsáhlých obrázků tak může na běžném počítači trvat delší dobu než zobrazení jiných formátů. • Transformovaná data mají formu vhodnější pro bezeztrátovou kompresi, takže je dosaženo výrazné komprese. • Způsob, jakým jsou data uložena, umožňuje generovat náhled obrazu. Datový formát JPEG je běžným formátem, ve kterém se ukládají biomedicínská data. Pro klinické potřeby a hodnocení lékařem jde o velmi vhodný formát, při použití metod pokročilejší analýzy obrazu je však třeba mít na mysli to, že při kompresi dat dochází ke ztrátě informace. Toto může hrát roli zejména tehdy, je-li použita velmi citlivá analýza textury. Texturní míry téže oblasti se na snímcích uložených s různým koeficientem kvality mohlou lišit. Situaci ilustrují obrázky 1.9, 1.10, 1.11, 1.12 a 1.13, na kterých je jednak identický snímek uložený při různém koeficientu kvality a jednak hodnoty pěti Haralickových texturních měr (viz tab.1.1 a obr.1.14). Klesající kvalita reprodukce je zpočátku jen málo zřetelná, nicméně s klesající hodnotou koeficientu kvality klesá kvalita dramatickým způsobem. 12 Název této integrální transformace je uveden záměrně. Pokud by totiž někdy laskavého čtenáře napadlo využít této transformace např. k analýze textury nebo ke zlepšení subjektivní kvality obrazu, může být velmi nepříjemným způsobem překvapen tím, jak jeho odladěný postup tragicky selhává na snímcích, které dodal kolega sídlící v jiné budově a používající jiný software s jinou mírou komprese. 25 ASM = 0.018 • CON = 5.308 • COR = 0.025 • IDM = 0.452 • ENT = 4.632 Obrázek 1.9: Ultrazvukový snímek fantomu (klasická mycí houbička zalitá v želatině) uložený jako soubor JPEG s koeficientem kvality Q = 100. ASM = 0.006 • CON = 5.115 • COR = 0.024 • IDM = 0.446 • ENT = 5.408 Obrázek 1.10: Ultrazvukový snímek fantomu (klasická mycí houbička zalitá v želatině) uložený jako soubor JPEG s koeficientem kvality Q = 75. 26 ASM = 0.008 • CON = 5.106 • COR = 0.026 • IDM = 0.497 • ENT = 5.280 Obrázek 1.11: Ultrazvukový snímek fantomu (klasická mycí houbička zalitá v želatině) uložený jako soubor JPEG s koeficientem kvality Q = 50. ASM = 0.024 • CON = 5.602 • COR = 0.023 • IDM = 0.651 • ENT = 4.858 Obrázek 1.12: Ultrazvukový snímek fantomu (klasická mycí houbička zalitá v želatině) uložený jako soubor JPEG s koeficientem kvality Q = 25. 27 ASM = 1 • CON = 0 • COR = — • IDM = 1 • ENT = 0 Obrázek 1.13: Ultrazvukový snímek fantomu (klasická mycí houbička zalitá v želatině) uložený jako soubor JPEG s koeficientem kvality Q = 1. Q 100 75 50 25 1 ASM 0.018 0.006 0.008 0.024 1 CON 5.308 5.115 5.106 5.602 0 COR 0.025 0.024 0.026 0.023 — IDM 0.452 0.446 0.497 0.651 1 ENT 4.632 5.408 5.280 4.858 0 Tabulka 1.1: Haralickovy texturní míry horního fantomu na obrázcích 1.9, 1.10, 1.11, 1.12 a 1.13. Výpočet pro vzdálenost 1px a směr O◦ v prostředí ImageJ. 28 -2 -1 0 1 2 25 50 75 100 koeficient kvality Q ASM × × × × × CON COR IDM ++ + + + ENT e e e e e Obrázek 1.14: Závislost Haralickových texturních měr stanovených v obrázcích 1.9, 1.10, 1.11, 1.12 a 1.13 na koeficientu kvality Q formátu JPEG. Aby bylo možno jednotlivé hodnoty srovnat, jsou hodnoty uvedené v tabulce 1.1 standardizovány. 1.3.5 Datový formát TIFF Datový formát TIFF (Tag Image File Format) představuje datový formát, který prodělal dramatický vývoj. Původně se jednalo datový formát pro přenos černobílých dokumentů faxem, nicméně dalším vývojem se z něj stal datový formát pro ukládání barevných obrazů ve velkém rozlišení. Barevná informace může být nesena jedním bitem (černá/bílá), šedotónová nebo v modelu RGB. Možné je i použití barevné palety. Výchozí komprese používá stejná jako u formátu JPEG, tedy komprese je ztrátová. V nových verzích formátu TIFF je možné snadno získávat náhledy dílčích regionů – tato vlastnost jej předurčuje především k práci s velkoplošnou grafikou. Použití tohoto formátu pro archivaci medicínských obrazů tedy není navzdory možným obavám plynoucím z toho, že se dříve jednalo o formát určený pouze pro černobílé dokumenty, vůbec chybou. Protože může být zvolena bezeztrátová komprese, může být dokonce formát TIFF vhodnější než obvyklý formát JPEG. 1.3.6 Datový formát DICOM DICOM (Digital Imaging and Communications in Medicine) je označení datového formátu a současně i síťového komunikačního protokolu, který slouží k ukládání a přenosu biomedicínských obrazových dat. DICOM by vyvinut v polovině 80. let za spolupráce American College of Radiology (ACR) a National Electrical Manufacturers Association (NEMA). Na vývoji aktuální verze 3.0 se podílela především Radiological Society of North America (RSNA), konkrétně její Electronic Communications Committee, technicky pak především NEMA. 29 NEMA vyčlenila sekci Medical Imaging & Technology Alliance (MITA), která spravuje vývoj formátu DICOM. DICOM jako datový formát zapouzdřuje informace jednak o vlastním obrazu nebo videosekvenci a jednak řada popisných informací obsahujících jak informace o datech vč. diagnostické modality, která byla použita, tak i informace o pacientovi. Obrazová data mohou být komprimována řadou algoritmů, je podporována ztrátová komprese (JPEG) i komprese bezeztrátová. Zajímavostí je, že z důvodů historické kompatibility by měl mít datový soubor jméno dlouhé maximálně osm znaků a není povolena přípona. Někdy se vyskytující přípony jako např. ∗.DCM jsou sice v rozporu se specifikací, nicméně v nových systémech obvykle nepředstavují problém. formát komprese barvy vhodnost pro biomedicínské obrazy BMP ne model RGB ne GIF bezeztrátová paleta ne PNG bezeztrátová model RGB ano JPEG ztrátová model Y CBCR podmíněně TIFF volitelné volitelné ano Tabulka 1.2: Přehled vlastností obrazových formátů 30 Kapitola 2 Charakteristiky obrazu Obrazovou informaci lze chápat jako soubor pixelů a pokusit se o interpretaci tak, že se na pixely budeme dívat jako na statistický soubor. Pokud vůbec nezohledníme vzájemnou polohu pixelů, můžeme snadnou statistickou analýzou dostat základní informace o obraze, ovšem ztratíme většinu informací. Pro preciznější charatrerizaci obrazu je tedy třeba zohlednit i vzájemné polohy pixelů. Celou za toto je jednak obtížnější výpočet a jednak ztráta jasného významu takto vypočítaných parametrů. Níže uvedené dělení charakteristik na globální a lokální je především didaktické. Po prostudování kapitoly by měl čtenář sám nahlédnout, že globální charakteristiky lze použít k analýze vybraného regionu a naopak některé lokální charakteristiky charakteristiky mohou dát nějaký výsledek i při aplikaci na celý obraz. Jisté upřesnění si zaslouží i pojem charakteristika. Charakteristikou je zde míněn údaj charakteru čísla, vektoru nebo i matice, který v sobě nese nějakou informaci o vlastnostech obrazu. Pro číselnou charakteristiku v případě kvantifikace textury použijeme pojem míra resp. texturní míra. Jde o jeden z používaných překladů anglického texture feature, ze sporadického českého odborného písemnictví na toto téma podle našeho názoru působí nejlibozvučněji. V případě kvantifikace tvarových vlastností regionu se obvykle používá pojem tvarový deskriptor. 2.1 Globální charakteristiky Globální charakteristiky obrazu v pojetí, kterého se přidržíme, představují takové charakteristiky, které charakterizují obraz jako celek a ignorují detailní informace např. o poloze jednotlivých pixelů. Jejich výpočet je poměrně snadný a jejich význam je obvykle zřejmý. Jedná se o charakteristiky související s takovými vlastnostmi obrazu, jakými je především barevný rozsah nebo jasové poměry obrazu. 31 2.1.1 Hloubka obrazu Hloubka obrazu, též bitová hloubka, je počet bitů, které jsou vyhrazeny pro jeden pixel. Udává se obvykle jako počet bitů přiřazených k vyjádření jasu jednoho pixelu. Tedy např. černobílý obraz o hloubce 8 bitů může obsahovat až 256 různých odstínů šedi. V případě barevných obrazů je situace nepatrně složitější, protože je třeba reprezentovat informaci o třech barevných kanálech. Informaci o hloubce obrazu lze vyjádřit buď jako hloubku každého kanálu nebo jako celkový počet bitů nebo i bytů vyhrazených jednomu pixelu. 2.1.2 Dynamický rozsah Dynamický rozsah je charakteristika doplňující hloubkou obrazu. Zatímco hloubka obrazu ukazuje nejvyšší dosažitelný počet jasů v aktuální reprezentaci obrazu v počítači, dynamický rozsah charakterizuje skutečné zobrazení jasových poměrů. K vyjádření se používají dva přístupy, oba využívají jasu nejtmavšího pixelu amin a jasu nejsvětlejšího pixelu amax. Dynamický rozsah lze vyjádřit jako poměr těchto dvou hodnot: DRR = amax : amin (2.1) Výsledný dynamický rozsah se obvykle upravuje tak, aby měl tvar N : 1. Alternativně lze použít i logaritmického vyjádření, potom bude mít dynamický rozsah hodnotu v decibelech (dB): DRL = 20 log amax amin (2.2) 2.1.3 Jas Jas obrazu je středním jasem všech pixelů v obraze obsažených. Ke kvantifikaci jasu může posloužit aritmetický průměr jasu všech pixelů. Někdy může být vhodnější medián jasu, například pokud celkově tmavý obraz obsahuje pouze několik málo velmi jasných bodů. V případě barevných obrazů hraje v subjektivním vnímání jasu velkou roli rozdílná citlivost lidského oka na jednotlivé barvy. K vyjádření jasu barevného obrazu v modelu RGB při znalosti jasu jednotlivých složek lze použít empirického vztahu: I = 0.299R + 0.587G + 0.114B (2.3) 2.1.4 Kontrast Kontrast obrazu má vztah k dynamickému rozsahu i k hloubce obrazu. Nepřihlíží však ani tak k extrémním hodnotám jasu, jako spíše ke vztahu extrémních hodnot k hodnotě typické či průměrné nebo k tomu, jak se od sebe jednotlivé pixely liší svým jasem. V literatuře lze najít několik vztahů pro výpočet, poměrně dobrou představu o kontrastu obrazu si můžeme udělat například te směrodatné odchylky nebo z mezikvartilového rozpětí stupňů šedi jednotlivých pixelů. 32 2.1.5 Histogram Základním zdrojem informace o poměrech jasu a kontrastu v obraze je histogram stupňů šedi. Nejde o nic jiného, než o vyjádření relativní četnosti všech stupňů jasu. Z matematického pohledu je vlastně histogram odhadem pravděpodobnostní funkce popisující jas jednotlivých pixelů za předpokladu, že zcela zanedbáme informaci o souřadnicích každého pixelu. Histogram je tedy vektor, jehož délka je totožná s počtem všech zobrazitelných stupňů šedi. Pokud bychom uvažovali šedotónový obraz, jehož hloubka by byla 8 bit˚u, byla by délka vektoru 28 tedy 256. Takový vektor je pro vizuální hodnocení prakticky nepoužitelný, existuje však celkem jednoduchý způsob, histogram zobrazit. Díky tomu se z histogramu stal jeden z nejpoužívanějších nástrojů pro vizuální hodnocení technické kvality snímku. Vlastní vizualizace histogramu nepotřebuje bližšího komentáře, obrázek 2.1 je samovysvětlující. Obrázek 2.1: T1 vážený snímek z magnetické rezonance hlavy. Hypersignální léze v pravé dolní čásky snímku je hemoragický (prokrvácený) maligní nádor glioblastoma multiforme. Histogram v je vlastně sloupcový graf, kde na vodorovné ose jsou hodnoty jasu jednotlivých pixelů, výška sloupce pak odpovídá relativní četnosti pixelů o daném jasu. zdroj: Dr. Frank Gaillard: Glioblastoma multiforme -- haemorrhagicRadiopaedia.org, histogram byl vytvořen pomocí programu ImageJ V případě, že je obraz barevný, lze jasy jednotlivých barevných složek pixelu transformovat v jas pomocí jednoduchého vztahu: I = 0.299R + 0.587G + 0.114B (2.4) Pokud je třeba posuzovaz i barevnou vyváženost obrazu, lze zcela analogicky sestrojit i histogram pro každou složku barevnou složku zvlášť a hodnotit tak trojici histogramů. Příklad takového histogramu je na obrázku 2.2. Z histogramu lze na první pohled snadno zhodnotit poměry obrazu týkající se jasu a kontrastu. Je-li histogram poměrně úzký, znamená to, že je obraz málo kontrastní. Naopak široký histogram znamená, že je obraz výrazně kontrastní. Je-li maximum histogramu posunuto výrazně doleva, indikuje to poměrně tmavý snímek, ve fotografické terminologii by se hovořilo o podexponovaném snímku. Je-li naopak maximum posunuto výrazně vpravo, 33 Obrázek 2.2: Obraz Noční hlídka od nizozemského malíře Rembrandta van Rijna (1606– 1669) je příkladem obrazu, který je mimořádně tmavý. Toto je patrné i na histogramu kanálů barevného modelu RGB. Je historickou zajímavostí, že tmavý nádech získal obraz až dodatečným nátěrem, ve skutečnosti zachycuje denní výjev. Proto byl také tmavý nátěr v polovině 20. století odstraněn a dnes je obraz již jasný jako v době, kdy byl namalován. Ke získání histogramu byl použit program ImageJ. je obraz příliš jasný, ve fotografické terminologii přeexponovaný. Pokud jsou v histogramu patrná výrazná a od sebe oddělená maxima, znamená to, že na obrázku je nejspíš několik ploch o různém jasu. Je třeba zdůraznit, že identický histogram mohou mít i dva naprosto odlišné obrazy. Tuto skutečnost demonstruje obrázek 2.3. 34 Obrázek 2.3: I dva různě vypadající obrazy mohou mít shodný histogram. Na levém snímku je standartní testovací obrázek – tvář švédské modelky Leny Söderberg (1951). Na pravém snímku je tentýž snímek, ovšem jsou „popřehazovány jeho části. Uprostřed je jejich společný histogram vytvořený pomocí programu ImageJ. 2.2 Lokální charakteristiky 2.2.1 Textura Textura je vlastností plochy v obraze, vlastně jde o strukturu výplně této plochy. Zcela neformálně lze na texturu pohlížet jako na charakteristiku např. hladkosti, hrubosti nebo nepravidelnosti vzoru v dané ploše. Důležitou intuitivně očekávanou vlastností textury je její jistá pravidelnost, tedy představa jakéhosi elementárního prvku nebo elementárních prvků, které nějakým pravidelným způsobem vyplňují plochu. Elementární prvek takto chápané textury se nazývá texon. Nicméně na textury nelze nahlížet ani jako na vzor složený podle nějakého jednoduchého a jasného pravidla z texonů, protože přirozené textury sice vykazují jistou pravidelnost, ovšem tato pravidelnost se projevuje spíše v jisté podobnosti opakujících se míst než v jejich úplné identitě. Například kresba na dřevě je obvykle pokládána za texturu, nicméně nelze v ní žádnou pravidelnou strukturu odpovídající texonu nalézt. Výše uvedené pojetí pojmu textura je používané spíše v počítačové grafice, protože je svým způsobem konstruktivní, poskytuje návod, jak takovou texturu na ploše grafického objektu vytvořit. V analýze textury však představuje problém již například identifikace texonu a dále jeho rozumný popis. Proto se preferuje definice, která sice neposkytuje návod na pokrytí objektu texturou, ale poskytuje návod na konstrukci rozhodovacího pravidla o shodnosti textur: Řekneme, že dva regiony jsou pokryty stejnou texturou, mají-li shodné statistické a strukturná vlastnosti. Statistickými vlastnostmi jsou míněny v zásadě veškeré myslitelné postupy statistické charakterizaze souboru pixelů podle jejich jasu, strukturními vlastnostmi jsou pak myšleny vzájemné prostorové vztahy pixelů. Velmi užitečný a intuitivní je náhled na texturu jako na jistou „zrnitost . Představme si na chvíli, že informace o jasu pixelu je informací o výšce bodu nad rovinou obrazu. Plošný obraz tedy převedeme na prostorový obraz jakési virtuální krajiny plné hor a údolí, ukázka je na obrázku 2.4. 35 Obrázek 2.4: Tzv. surface plot vizualizuje texturu jako virtuální krajinu. Na levém obrázku je výřez sonogramu zdravých jater, na pravém pak výřez sonogramu jater steatotických. Surface plot byl vytvořem pomocí programu ImageJ. zdroj: Dr. Frank Gaillard, Radiopaedia.org K analýze textury, tedy především k její kvantifikaci, se používá řada přístupů. Obecně je lze rozdělit do tří skupin: 1. statistický přístup 2. strukturní přístup 3. spektrální přístup Výstupem analýzy textury může být konkrétní číslo anglicky zvané texture feature. Český překlad není ustálený, nadále bude používáno označení texturní míra. Výstupem ale může být i vektor nebo matice, tedy struktura, která se bezprostředně nehodí k vnímání člověkem. Právě informace o textuře bývá poměrně často vstupem expertních a konzultačních systémů, takže toto nepředstavuje velký problém. 2.2.1.1 Statistické míry prvního řádu Statistickou mírou prvního řádu se myslí taková texturní míra, která je odvozena od histogramu. K obrazu tedy přistupuje jako ke statistickému souboru pixelů, zcela ignoruje jejich vzájemnou pozici. Stupeň šedi resp. hodnota jasu jednotlivých složek v barevném modelu je chápána jako jediná hodnota znaku neseného příslušným objektem. Základním prvkem pro konstrukci takovýchto ukazatelů jsou tedy statistické momenty a samozřejmě histogram. Pro další úvahy týkající se nejen této kapitoly se domluvme na označení. Stupeň šedi pixelu na pozici (i, j) budeme značit pi,j, relativní četnost stupně šedi c v histogramu relativních četností budeme značit h(c). 36 Jako n-tý centrální moment označíme číslo Mn definované vztahem: Mn = Colors−1 i=0 i · (i − m)n · h(i) (2.5) Nultý centrální moment má vždy hodnotu jedna, první centrální moment má vždy hodnotu nula. Druhý centrální moment se označuje jako rozptyl. Je texturní mírou úzce související s kontrastem dané plochy. Odvozují se od něj dvě častěji používané míry, směrodatná odchylka a relativní hladkost: Směrodatná odchylka S je definována vztahem: S = M2 (2.6) Relativní hladkost R je definována vztahem: R = 1 − 1 1 + M2 (2.7) Relativní hladkost nabývá hodnot od nuly do jedničky. Nulovou hodnotu relativní hladkosti má homogenní plocha, protože rozptyl (M2) je nulový. S rostoucím rozptylem se hodnota relativní hladkosti blíží jedničce, protože hodnota zlomku se postupně snižuje. Z vyšších statistických momentů se používají především koeficient šikmosti a koeficient špičatosti: Koeficient šikmosti SKW je definován vztahem: SKW = M3 S3 (2.8) Koeficient špičatosti CRT je definován vztahem: CRT = M4 S4 − 3 (2.9) Statistické míry prvního řádu odvozené z histogramu jsou především kvantily (zejm. medián) a mezikvantilová rozpětí. Výhodou ve srovnání s měrami odvozenými od statistických momentů je jejich větší robustnost, tedy malá citlivost na vychýlení v důsledku několika málo odlehlých hodnot. K charakterizaci textury používají i další hodnoty, zejména informační entropie a uni- formita. Informační entropie H, též entropie či průměrná entropie, obrazu s histogramem relativních četností h(i) je definována vztahem: H = − Colors−1 i=0 h(i) log2 h(i) (2.10) 37 Pro praktické výpočty není logaritmus o základu 2 příliš vhodný, lze však nahradit logaritmem přirozeným: H = − 1 ln 2 Colors−1 i=0 h(i) ln h(i) (2.11) Uniformita U je definována vztahem: U = Colors−1 i=0 h2 (i) (2.12) 2.2.1.2 Texturní míry odvozené z koincidenční matice stupňů šedi Koincidenční matice stupňů šedi (GLCM, z anglického Gray Level Co-occurence Matrix) se používá při výpočtu texturních měr respektujících alespoň částečně vzájemnou polohu pixelů. Koincidenční matice stupňů šedi obsahuje informaci o vzájemném vztahu jasu definované dvojice pixelů. Koincidenční matice stupňů šedi na volbě této dvojice závisí, proto je třeba uvádět, pro jakou dvojici pixelů byla matice počítána. Dvojice se udává buď jako relativní souřadnice druhého pixelu vzhledem k prvnímu, např. pixel ležící těsně vpravo od prvního pixelu má souřadnice (1, 0), nebo jako vzdálenost dvou pixelů a orientovaný úhel, jaký svírá jejich spojnice s jednou osou souřadnicového systému. Koincidenční matice je čtercová matice o rozměrech n × n, kde n je počet stupňů šedi v obraze. Při výpočtu se postupuje tak, že se vezme definovaná dvojice pixelů z obrazu. Hodnoty jasu těchto pixelů představují indexy prvku v matici, jehož hodnota se zvýší o jedničku. Když se vyčerpají všechny dostupné dvojice, každý prvek matice se vydělí součtem všech prvků. Tím dostane prvek aij význam pravděpodobnosti, s jakou se v daném obrázku vyskytuje dvojice pixelů určená zadaným vektorem taková, že jas prvního je i a druhého je j. Vlastní výpočet si přiblížíme na příkladu – máme určit koincidenční matici stupňů šedi pro vektor (1, 1) na následujícím „obrázku : Stupně šedi jsou v tomto obrázku čtyři (A,B,C a D), vektor (1, 1) znamená, že budeme hodnotit dvojici pixel a pixel ležící pravo dole1 od prvního pixelu. Počty jednotlivých dvojic udává následující tabulka (ve sloupci je jas prvního pixelu, v řádku jas druhého pixelu): 1 V počítačové grafice má osa x obvyklou orientaci, osa y má orientaci opačnou než jakou má v geometrii. 38 A B C D A 3 3 1 1 B 1 0 2 0 C 2 1 0 0 D 0 0 0 1 Po vydělení této matice součtem všech prvků v matici získáme frekvence (odhady pravděpodobnosti výskytu) jednotlivých dvojic pixelů, tedy vlastní koincidenční matici stupňů šedi: GLCM =     0.200 0.200 0.067 0.067 0.067 0.000 0.133 0.000 0.133 0.067 0.000 0.000 0.000 0.000 0.000 0.067     Matematicky rigorózním způsobem lze koincidenční matici stupňů šedi pro směrový vektor d = (∆x, ∆y) a obraz o rozměrech (m + ∆x, n + ∆y) a o hloubce Colors zavést následujícím vztahem: GLCMd[i, j] = n p=1 m q=1 1 : f(p, q) = i a současně f(p + ∆x, q + ∆y) = j 0 : jinak (2.13) Takto definovaná matice je maticí absolutních četností, přepočet na matici relativních četností je snadný, pouze jeho zápis by byl komplikovaný. Koincidenční matice stupňů šedi (GLCM, Gray Level Co-occurrence Matrix) představuje způsob zohlednění nejen pravděpodobnostího charakteru obrazu jako množiny pixelů, ale, na rozdíl od histogramu, částečně zohledňuje i vzájemnou polohu pixelů. Koincidenční matice stupňů šedi je závislá nejen na vlastnostech obrazu, ale i na volbě směrového vektoru d, není tedy rotačně invariantní. Typickým použitím GLCM je výpočet texturních měr při segmentaci a klasifikaci obrazových dat. Protože jde o výpočet poměrně náročný, často se, zejména je-li cílem segmentace podle dostatečně odlišitelných textur, uměle snižuje bitová hloubka segmentovaného obrazu např. na pouhé 4 bity. Pro výpočet Haralickových měr se používá matice relativních četností. V dalším textu bude značena (π) a její prvky obvyklou maticovou notací πij. Na matici (π) se lze dívat jako na dvojrozměrnou diskrétní pravděpodobnostní funkci. K té lze zavést marginální pravděpodobnostní funkce πx a πy a k nim marginální střední hodnoty µx a µy a marginální rozptyly σx a σy: πx(i) = Colors j=1 πi,j (2.14) µx = 1 Colors Colors i=1 πx(i) (2.15) σx = 1 Colors − 1 Colors i=1 (πx(i) − µx)2 (2.16) 39 Dále se zavádí pravděpodobnostní funkce πx+y a πx−y: πx+y(k) = i+j=k πi,j (2.17) a πx−y(k) = |i−j|=k πi,j (2.18) Ve své práci Haralick míry jednak pojmenoval a jednak očísloval, třípísmenné zkratky zde použité nejsou kodifikovány, lze se setkat i s jiným značením. Angular second moment (ASM, f1): ASM = Colors i=1 Colors j=1 π2 i,j (2.19) Contrast (CON, f2): CON = Colors−1 n=0 n2   |i−j|=n πi,j   (2.20) Correlation (COR, f3): COR = Colors i=1 Colors j=1 ijπi,j − µxµy σxσy (2.21) Sum of Squres (Variance, V AR, f4): V AR = Colors i=1 Colors j=1 (i − µ)2 πi,j (2.22) Inverse Difference Moment (IDM, f5): IDM = Colors i=1 Colors j=1 1 1 + (i − j)2 πi,j (2.23) Sum Average (SAV , f6): SAV = 2Colors i=2 iπx+y(i) (2.24) Sum Variance (SV R, f7): SV R = 2Colors i=2 (i − SEN)2 πx+y(i) (2.25) 40 Sum Entropy (SEN, f8): SEN = − 2Colors i=2 px+y(i) ln(πx+y(i) + ε) (2.26) Konstanta ε je malé kladné číslo, které se volí arbitrálně pro konkrétní úlohu. Důvodem pro použití této konstanty je to, že logaritmus nuly není definován. Entropy (ENT, f9): ENT = Colors i=1 Colors j=1 πij ln(πij + ε) (2.27) Difference Variance (DV R, f10): DV R = D(πx−y(i)) (2.28) Difference Entropy (DEN, f11): DEN = − Colors−1 i=0 πx−y(i) ln(πx−y(i) + ε) (2.29) Information Measure of Correlation (IMC1, IMC2, f12, f13): IMC1 = ENT − HXY 1 max {HX, HY } (2.30) IMC2 = 1 − exp (−2(HXY 2 − ENT)) (2.31) Kde symboly HY , HY , HXY 1, HXY 2 jsou informační entropie: HX = − Colors i=1 πx(i) ln(πx(i) + ε) (2.32) HY = − Colors i=1 πy(i) ln(πy(i) + ε) (2.33) HXY 1 = Colors i=1 Colors j=1 πi,j ln(πx(i)πy(j) + ε) (2.34) HXY 2 = Colors i=1 Colors j=1 πx(i)πy(j) ln(πx(i)πy(j) + ε) (2.35) Maximal Correlation Coefficient (MCC, f14) je definován jako druhá odmocnina druhého největšího vlastního čísla matice (q): qi,j = k πi,kπj,k πx(i)πy(k) (2.36) Protože výpočet vlastních čísel zejména velkých matic představuje problém, který není obecně řešitelný jinak než numericky, tato poslední texturní míra se příliš nepoužívá. 41 2.2.2 Texturní míry odvozené z run-length matice Texturní analýza založená na run-length2 matici představuje statistický přístup vyššího řádu, protože při vlastní analýze je zohledněna vzájemná poloha většího množství pixelů. Metodu publikoval Galloway v roce 1975. Koncept run-length matice, přesněji šedotónové run-length matice (anglicky Gray Level Run-Length Matrix, zkratka GLRLM nebo RLM), je založen na poměrně jednoduché úvaze, totiž že texturu mohou charakterizovat četnosti a velikosti ploch stejné barvy. Velikost těchto ploch se v tomto případě odhaduje tak, že se přes obraz postupně kladou přímky se směrnicí θ, obvykle se používají pouze rovnoběžky se souřadnicovými osami a někdy i s osami kvadrantů. Podél těchto přímek se počítá délka úseků3 stejné barvy. Výsledky se vynášejí do matice typu i × j, kde i je počet stupňů šedi v analyzovaném obraze a j je nejdelší souvislý úsek jedné barvy. Pro daný směr θ je v prvku Πi,j(θ) matice Π(θ) počet souvislých intervalů barvy i a délky j, které jsou v daném obraze zachyceny při jeho úplném pokrytí přímkami o směrnici θ. V praxi se obvykle před výpočtem GLRLM snižuje počet stupňů šedi, protože běžná hodnota, tedy 256 nebo víc by u běžných ploch vedla na příliš řídkou matici, její výpočet by však vyžadoval mnohem více paměti i strojového času. Ze stejného důvodu se analogickým způsobem snižuje i počet délek běhů. Protože je matice absolutních četností Π(θ) závislá na velikosti plochy, přechází se obvykle k matici relativních četností π(θ). Počet řádků matice se značí G, jedná se vlastně o počet stupňů šedi v analyzovaném obraze. Počet sloupců matice R označuje délku nejdelšího souvislého úseku. Pro počet všech pixelů v analyzovaném obraze se zavání označení N. Protože má matice relativních četností vlastně pravděpodobnostní funkcí diskrétního dvojrozměrného náhodného rozdělení, lze zavést marginální pravděpodobnostní funkce4 : rj(θ) = G i=1 πi,j(θ) (2.37) a gi(θ) = R j=1 πi,j(θ) (2.38) Význam marginálních pravděpodobností je odlišný než u GLCM. Zatímco u GLCM sloužily marginální pravděpodobnosti jako prostředek k výpočtu některých texturních měr, lze všechny texturní míry počítané z GLRLM vyjádřit výhradně pomocí jedné nebo druhé marginální pravděpodobnostní funkce. To představuje značnou výhodu, neboť paměťová náročnost R · G tak vlastně klesá na paměťovou náročnosti R + G a zcela analogicky klesá i výpočetní náročnost výpočtu jednotlivých texturních měr. 2 český překlad run-length jako např. délka běhu se příliš nepoužívá 3 Kvůli šikmým přímkám se uvažuje 8-konektivita, tedy za sousedy pixelu je považováno všech osm pixelů v jeho nejbližším okolí 4 Značení jsem se pokusil sjednotit s výše uvedeným značením použitým u koincidenční matice stupňů šedi. Obvyklé značení je totiž π(i, j|θ), tedy explicitní zdůraznění, že GLRLM má charakter podmíněné pravděpodobnosti. 42 Short Run Emphasis (SRE) SRE = 1 S G i=1 R j=1 πi,j(θ) j2 = 1 S G j=1 rj(θ) j2 (2.39) Long Run Emphasis (LRE) LRE = 1 S G i=1 R j=1 j2 πi,j(θ) = 1 S G j=1 j2 rj(θ) (2.40) Gray Level Non-uniformity (GLN) GLN = 1 S G i=1 R j=1 πi,j(θ) 2 = 1 S G i=1 (gi(θ))2 (2.41) Run Length Non-uniformity (RLN) RLN = 1 S R j=1 G i=1 πi,j(θ) 2 = 1 S j=1 R (rj(θ))2 (2.42) Run Percentage (RP) RP = S N (2.43) Low Gray Level Run Emphasis (LGRE) LGRE = 1 S G i=1 R j=1 πi,j(θ) i2 = 1 S G i=1 gi(θ) i2 (2.44) High Gray Level Run Emphasis (HGRE) HGRE = 1 S G i=1 R j=1 i2 πi,j(θ) = 1 S G i=1 i2 gi(θ) (2.45) 2.2.3 Lawsovy filtry Lawsův přístup k textuře je založen na filtraci5 obrazu pomocí speciálních filtrů vytvořených nikoliv na základě rigorózní matematické analýzy problému, ale na základě intuitivního přístupu k tomu, jaké parametry textury hodnotí při vnímání člověk. Výsledné texturní míry jsou pak získány jako jednoduché statistické míry filtrovaných obrazů, tedy zejména průměr a směrodatná odchylka. Lawsovy filtry mají jednu vlastnost usnadňující 5 Pojmy filtr a filtrace a také související pojem konvoluce budou vyloženy v kapitole 3 43 jejich výpočet, totiž jde o filtry separabilní. Tato vlastnost znamená, že je lze vyjádřit jako součin dvou vektorů a výsledkou konvoluci se čtvercovou maskou lze nahradit početně méně náročnou řádkovou a sloupcovou konvolucí nejprve s jedním a poté s druhým vektorem. Běžně se používají vektory délky 3, 5 a 7, jejich zkratky jsou mnemotechnickými popisy jejich grafického znároznění: L (Level), E (Edge), S (Spot), W (Wave), R (Ripple) a O (Oscilation). Tyto vektory jsou definovány následujícím způsobem: L3 = (1, 2, 1) L5 = (1, 4, 6, 4, 1) L7 = (1, 6, 15, 20, 15, 6, 1) E3 = (−1, 0, 1) E5 = (−1, −2, 0, 2, 1) E7 = (−1, −4, −5, 0, 5, 4, 1) S3 = (−1, 2, −1) S5 = (−1, 0, 2, 0, −1) S7 = (−1, −2, 1, 4, 1, −2, −1) W5 = (−1, 2, 0, −2, 1) W7 = (−1, 0, 3, 0, −3, 0, 1) R5 = (1, −4, 6, −4, 1) R7 = (1, −2, −1, 4, −1, −2, 1) O7 = (−1, 6, −15, 20, −15, 6, −1) Tabulka 2.1: Vektory pro konstrukci Lawsových filtrů velikosti 3 × 3, 5 × 5 a 7 × 7 Vlastní filtr se pak značí podle dvojice použitých vektorů. Například filtr S5E5 je definován jako součin vektorů: S5E5 := ST 5 · E5 =       −1 0 2 0 −1       · (−1 − 2 0 2 1) =       1 2 0 −2 −1 0 0 0 0 0 −2 −4 0 4 2 0 0 0 0 0 1 2 0 −2 −1       (2.46) Za povšimnutí stojí skutečnost, že filtr S5E5 není totožný s filtrem E5S5. Když nás tedy bude zajímat, jaký počet filtrů nakonec bude k dispozici, musíme toto zohlednit. Konkrétní hodnoty jsou v tabulce 2.2 délka vektoru počet vektorů počet filtrů 3 3 6 5 5 20 6 6 35 Tabulka 2.2: Počty Lawsových filtrů pro jednotlivé délky generujících vektorů. Pro další zpracování obrazu je výhodné, aby byl součet všech koeficientů filtru roven jedné nebo nule. To je splněno u všech filtrů, které nejsou zkonstruovány pomocí vektorů L. V praxi se proto obvykle výsledek konvoluce s vektorem L3 dělí číslem 4, výsledek konvoluce s vektorem L5 číslem 16 a výsledek konvoluce s vektorem L7 číslem 64. Texturní míra se pak zjistí jako jednoduchá statistická texturní míra filtrovaného regionu. Obvykle se používá aritmetický průměr a rozptyl nebo směrodatná odchylka, protože jsou snadno implementovatelné. Příklad analýzy textury pomocí Lawsova filtru S5E5 je na obrázku 2.5. 44 Obrázek 2.5: Aplikace Lawsova filtru S5E5. V levém sloupci je ultrazvukový obraz zdravé jaterní tkáně, v pravém obraz steatotické tkáně. V prvním řádku je výřez ze sonogramu, ve druhém je tentýž obraz po aplikaci Lawsova filtru S5E5. Jako vlastní texturní míry slouží průměrný stupeň šedi ¯X a rozptyl S2: obraz zdravých jater obraz steatotických jater ¯X = 4.023 ¯X = 12.243 S2 = 31.047 S2 = 316.982 zdroj: Dr. Frank Gaillard, Radiopaedia.org. Filtrace vzorku byla provedena manuálně v programu gimp. 45 2.2.4 Spektrální vlastnosti K analýze textury lze využít i jejích spektrálních vlastností. Mezi nejobvyklejší přístupy patří dvojrozměrná Fourierova transformace (viz kapitola 3.5.2). Zajímavým ale výpočetně poměrně náročným přístupem je analýza granulometrického spektra. Granulometrické spektrum je jednou z aplikací metod spadajících do oblasti matematické morfologie (viz kapitola 3.4). Obecně lze konstovat, že spektrální přístup je zejména u textur vykazujících značnou a přitom podle typu objektu proměnlivou periodicitu poměrně účinný, nicméně výstupem je obvykle vektor nebo matice hodnot, takže se hodí spíše jako vstup pro expertní systém než jako hodnoty vhodné k přímé vizualizaci. Protože je však zejména vektor obsahující spektrální vlastnosti přirozeným způsobem uspořádaný, má smysl jej zobrazit jako histo- gram. 46 2.2.5 Fraktální dimenze V klasické euklidovské geometrii se pracuje s ideálními útvary – bodem, úsečkou nebo třeba koulí. Stačí letmý pohled z okna a je zřejmé, že jde o idealizace přírodních útvarů. Od reálných objeků se objekty euklidovské geometrie odlišují především hladkostí (viz obr.2.6). Obrázek 2.6: Typ oblaku zvaný Cirrus (řasa) je esteticky hezkou ukázkou objektu, který lze jen obtížně popsat pomocí objektů klasické geometrie, ovšem fraktální geometrie poskytuje dostatek nástrojů k jeho popisu. zdroj: http://commons.wikimedia.org, File:Cirrusclouds-Georgia-Oct1st.jpg Na fraktály lze skutečně nahlížet jako na objekty, které jsou výrazně členité. Toto však nepostačuje a obvykle se doplňuje, že fraktálem je jen soběpodobný výrazně členitý útvar. Vlastnost soběpodobnosti znamená, že když se podíváme na oblast fraktálu a porovnáme ji s její vhodně zvětšenou částí, uvidíme stejný obraz. Toto možná lépe pochopíme, když si předsravíme konstrukci jedné hrany fraktálního útvaru nazývaného Kochova vločka – obr.2.7. Vedle soběpodobných fraktálů existují ještě fraktály soběpříbuzné. Zatímco opakování pravidla ke konstrukci soběpodobných fraktálů, které je naznačeno na obr.2.7, je přísně pravidelné, v konstrukci soběpříbuzných fraktálů hraje jistou roli i náhoda – v každé iteraci je konstrukční pravidlo lehce ovlivněno malou náhodou fluktuací. Uplatněním náhody se při změně měřítka pohled liší, ovšem je patrná příbuznost. Fraktály mají své místo v počítačové grafice i v řadě oblastí matematiky a fyziky. V případě analýzy obrazových dat se využívá především odhadu fraktální dimenze. Pokud si představíme objekty klasické geometrie, můžeme si jejich dimenzi představit jako počet parametrů, které nám postačují k jednoznačnému určení polohy bodu v daném objektu. Tak například přímka nebo úsečka mají topologickou dimenzi jedna, plocha, čtverec nebo třeba kružnice mají dimenzi dva a krychle nebo dvanáctistěn mají dimenzi tři. Takováto dimenze se nazývá topologická dimenze. 47 Obrázek 2.7: Kochova vločka je útvar vzniklý tak, že se na na strany rovnostranného trojúhelníka aplikuje postup, jaký je zde naznačen pouze pro úsečku. V prvním kroku se úsečka rozdělí na třetiny. Ve druhém kroku se prostřední třetina úsečky doplní na rovnostranný trojúhelník a strana ležící na původní úsečce se vypustí. Postup se opakuje na všechny nově vzniklé úsečky, protože jde o matematickou abstrakci, můžeme prohlásit, že se postup opakuje nekonečněkrát. Na obrázku jsou první čtyři iterace tohoto postupu. zdroj: http://commons.wikimedia.org, File:Koch snowflake0192.png 48 Vedle topologické dimenze lze zavést dimenzi Hausdorffovu, někdy nazývanou dimenzí Hausdorfovou Besicovitchovou, v počítačové grafice se pak obvykle hovoří o fraktální dimenzi. Její rigorózní definice je pro nematematiky poměrně komplikovaná, proto se v nematematických textech obvykle uvádí pouze volná formulace, která říká, že Hausdorfova dimenze udává, s jakou rychlostí roste míra6 útvaru při změně měřítka. Představme si opět Kochovu vločku (obr. 2.7. Před první iterací máme úsečku délky d. Po první iteraci se prostřední třetina vyjme a přidají se dvě úsečky délky třetina d, takže úsečka má délku 4 3 d. Není obtížné ukázat, že po nekonečném počtu iterací bude mít vzniklý útvar nekonečnou délku. Toto je obecnou vlastností fraktálních objektů. Představme si, že r× zmenšíme měřítko, tedy r× provedeme iteraci pravidla pro konstrukci fraktálu. Soběpodobný fraktál se pak bude skládat z N identických kopií „podjednotek . Pro výpočet fraktální dimenze D se zavádí následucící vztah: D = − lim r→∞ log N log r (2.47) Rovnice 2.47 je základem numerických metod odhadu. Aplikace odhadu fraktální dimenze jako texturní míry je naznačena na obrázku 2.8. Příklad aplikace stanovení fraktální dimenze k využití obrazové informace jako prediktivního faktoru je na obrázku 2.9. 6 Pojem míra je zobecněním pojmů délka, plocha, objem,. . . 49 Obrázek 2.8: Odhad fraktální dimenze textury ultrazvukového snímku fantomu – suspenze koňských erytrocytů v želatině. Na prvním obrázku je ultrazvukový snímek fantomu. Na druhém je prahovaný obrázek, práh byl zvolen jako modus v histogramu. Důvodem pro prahování je to, že je výpočetně snazší počítat odhad fraktální dimenze útvaru v rovině, stejně tak by bylo možné počítat fraktální dimenzi trojrozměrného útvaru, jehož třetím rozměrem by byl stupeň šedi. Na grafech je naznačen princip odhadu fraktální dimenze pomocí mřížkové metody. Metoda spočívá v tom, že se těleso pokryje mřížkou stejně velkých buněk (boxů), podle topologické dimenze jsou buňkami úsečky, čtverce nebo krychle. Úpravou rovnice 2.47 se získá vztah: N(r) = k r−D Parametr r označuje velikost boxu, parametr N označuje počet boxů, které byly třeba k pokrytí tělesa. Na obou grafech jsou vyneseny hodnoty r (vodorovná osa) a N (svislá osa) pro prahovaný obrázek. Protože počet boxů může být pro malou velikost několikanásobně vyšší, je použito zobrazení jak v lineární tak i v logaritmické škále. Hodnota fraktální dimenze D se pak zjistí tak, že se zjištěné hodnoty aproximují vhodnou křivkou (zde naznačeno červeně), která umožní snadné určení limity pro nekonečně veliké r. Fraktální dimenze vypočítaná pomocí programu ImageJ je D = 1.861. 50 Obrázek 2.9: Poměrně typickou aplikací odhdu fraktální dimenze je použití fraktální dimenze jako markeru malignity. Podle názoru autora J.Š. jde spíše o fascinaci fraktály jako „patologickým jevem v geometrii a vyvozování chybné analogie, nicméně i tento přístup k analýze obrazu má své výsledky a proto není důvod jej zavrhovat. Příkladem je práce autorů Bedin a kol., ve které se zaměřili na analýzu odhadu fraktální dimenze histopatologického obrazu jádra jako prognostického markeru melanomu. Za přesně definovaných podmínek pořídili snímek tkáně, za zmínku stojí především to, že své snažení neznehodnotili technickou chybou a obrazová data ukládali bez použití ztrátové komprese, tedy nepoužili obvyklý formát JPEG. Na prvním obrázku je výřez jádra v barvení hematoxylinem po převedení do stupňů šedi. Na druhém obrázku je tentýž útvar, ovšem převeden na surface plot, tedy na objemová data. Na třetím je naznačen výpočet fraktální dimenze mřížkovou metodou, fraktální dimenze je směrnicí přímky v logaritmické škále. Statistickou analýzou autoři zjistili, že lze takto spočítanou fraktální dimenzi pokládat za negativní prognostický faktor, tedy čím je hodnota vyšší, tím méně příznivá je prognóza. Tento závěr není překvapující. Vyšší fraktální dimenze neznamená nic jiného než vyšší členitost hranice. V pojetí autorů je tou hranicí surface plot, tedy vyšší fraktální dimenze znamená, že se častěji a výrazněji střídají okrsky více a méně barvitelné. Poruchy a atypie v barvitelnosti jader jsou však jedním k klasických mikroskopických znaků malignity. Jejich molekulárním korelátem je zřejmě poměrně náhodná aktivace a deaktivace transkripce a translace v rámci celého genomu nádorové buňky. Přirozený lidský jazyk však nemá prostředky pro kvantifikaci toho, jak moc je chromatin členitý, takže kvantifikace třeba i cestou fraktální dimenze představuje získání další informace. zdroj: [5] 51 2.2.6 Tvar Tvar je vlastnost obrazového objektu, která je intuitivně uchopilená podstatně snáze než textura. Tvar objektů známých z klasické geometrie je jasnou záležitostí, obšem problém nastává u velmi členitých objektů. U nich se uplatní opět fraktální geometrie, takže záleží jen na uspořádání úlohy, zda se na fraktální dimenti odvozenou od konkrétního objektu budeme dívat jako na míru textury nebo míru tvaru. Analýza tvaru má v biomedicínských aplikacích obvykle menší význam než analýza textury, protože řada lézí má víceméně oválný tvar s pravidelnou a málo členitou hranicí, veškerou dostupnou informaci o charakteru léze lze získat tak, že porovnáme délky nejvetšího a nejkratšího rozměru a případně úhel, jaký tyto dvě úsečky svírají. Přesto však existuje řada klinicky významných situací, kdy je právě pravidelnost nebo členitost léze diagnosticky významná, řada dalších lézí se šíří difúzně, takže nelze zcela korektně hovořit o málo členité hranici. Pro ilustraci uvádíme vybrané léze podle jejich tvarové charakteristiky. Je třeba zdůraznit, že je míněna obvyklá situace, existují výjimky, jejichž četnost není zanedbatelná. • pravidelný víceméně oválný tvar – lymfatická uzliny vyplněná zánětlivým infiltrátem – lymfatická uzliny vyplněná nádorovým infiltrátem – expanzivně rostoucí nádor – aneurysma – absces • nepravidelný či difúzní tvar – infiltrativně rostoucí nádor – infiltrativně rostoucí metastáza – flegmóna – okraje ran vzniklých při některých úrazových dějích V analýze mikroskopického obrazu je důležitý tvar buněk a buněčných organel. Jejich tvar nemusí být podle typu tkáně oválný, nicméně obvykle je geometricky poměrně jednoduchý – vřetenitý, válcovitý nebo blízký hranolu s jednoduchou základnou. Dalším zajímavým tvarem, jehož analýza může mít klinický význam, je analýza tvaru krevního řečiště. Například diabetická retinopatie se projeví i změnami na cévách sítnice, viz obr. 2.10. 2.2.6.1 Detekce hranice K detekci hranice objektů existuje řada algoritmů. Jako hranice, obvykle však spíše hrana, se označuje takové místo v obraze, ve kterém se výrazně mění lokální charakteristiky obrazu. Obecně lze k detekci hranic přistoupit buď jako k detekci maximální změny nebo 52 Obrázek 2.10: Obraz sítnice z funduskamery. Na levém snímku je obrázek zdravé sítnice, na pravém je snímek chorioretinitidy při AIDS. Analýza takového obrazu může být diagnosticky užitečná při hodnocení závažnosti poškození. zdroj: http://commons.wikimedia.org, File:Fundus of eye normal.jpg, File:Chorioretinitis AIDS nci-vol-2169-300.jpg jako k rozdělování obrazu na podobné regiony. V prvním případě se hovoří o detekci hran, ve druhém pak o segmentaci obrazu. Detekce hran je založena na pohledu na obraz jako na funkci dvou proměnných. Za hranu je pokládáno místo, ve kterém je maximální změna, tedy maximální první derivace7 , popř. se studují změny druhé derivace (diference). K takovéto detekci hran slouží řada operátorů, za zmínku stojí zejména operátory (filtry, hranové detektory): • Laplaceův operátor • Prewittové operátor • Sobelův operátor • LoG operátor • Cannyho hranový detektor Rozdíl je především v tom, zda aproximují první nebo druhou derivaci, ve způsovu aproximace této derivace a v dalších operacích zajišťujících např. menší citlivost na šum. Tedy zatímco např. Robertsonův operátor je realizován jako přímočarý odhad gradientu8 a výpočetně je realizován jako konvoluce (viz kapitola 3.2.1) s jednoduchou maticí 2 × 2, Prewittové operátor je již realizován konvolucí s maticí 5 × 5 a Cannyho hranový detektor je již celým algoritmem, jehož součástí je i výpočet gradientu obrazové funkce. 7 U digitálních obrazů pochopitelně nemá pojem derivace, který je založen na spojitosti nezávisle proměnné, velkého významu. Ovšem ve stejném významu jsou použity direfence, tedy rozdíly sousedních hodnot, rozdíly rozdílů hrají roli druhých derivací atd. 8 Gradient je vektor ve směru největšího spádu, tedy nejrychlejšího poklesu. V diferenciálním počtu funkcí více proměnných je zaváděn z toho důvodu, že samotná derivace nepostačuje například k hledání lokálních extrémů. 53 Tento způsob detekce hran je použitelný tam, kde se hledají hranice mezi dvěmi víceméně homogenními plochami. Jakmile je ale hledána hranice mezi plochami, které mají výraznou texturní kresbu, operátory založené na aproximaci derivace selhávají. Jedním z řešením je to, že se obraz nejprve upraví filtrací, která texturu „rozmaže tak, že se stane více homogenní. Další možností je provést kvantifikaci textury v okolí každého bodu a získat tak tzv. texturální obraz, tedy obraz, jehož intenzita v každém pixelu odpovídá nějaké texturní míře v okolí pixelu původního obraru. Hrana se pak nalezne v texturním obraze. Zcela jiný přístup k problematice nastíněné v předešlém odstavci nabízí přístup založený na segmentaci obrazu. Vlastní formulace cíle segmentace obrazu je jiná, totiž rozdělení obrazu na plochy se stejnými barevnými nebo texturními charakteristikami. Segmentací se obraz rozdělí do definovaných oblastí, poloha hranic je spíše vedlejším výstupem. Při segmentaci se obvykle jedna oblast pokládá za pozadí, ve které jsou rozptýleny objekty o relativně menší ploše. Pricnip segmentace lze pochopit na nejjednodušší metodě, tedy na prahování. Mechanicky se stanoví nějaké hranice, například medián histogramu ˜h, každý pixel se upraví podle vztahu: ci,j = Black ci,j ≤ ˜h White ci,j > ˜h (2.48) Cokoliv je po prahování černé (Black), je pokládáno za pozadí, cokoliv je bílé (White), je pokládáno za popředí. Většina metod pracuje podstatně sofistikovaněji, leč jejich výpočet je mnohem náročnější. Základní myšlenkou, která je využita při aplikaci, je to, že do jednoho segmentu patří pixely, které mají podobné vlastnosti. Pro princip realizace pak není podstatné, zda je touto vlastností myšlen jas, barva nebo třeba statistické vlastnosti jistého okolí pixelu, tedy textura v okolí pixelu. Vlastní segmentace může být realizována buď jako slučování nebo rozdělování oblastí. Segmentace slučováním probíhá v principu tak, že na počátku je považován každý pixel za segment. Ze všech segmentů jsou vybrány dva nejpodobnější a jsou sloučeny do jednoho segmentu. Postup se opakuje, dokud není splněno nějaké zastavovací pravidlo, protože po dostatečně velkém počtu kroků by tento algoritmus vedl ke sloučení všech pixelů do jediného segmentu. Jiný přístup může spočívat v rozdělování. Původní obraz je rozdělen na nějaké segmenty a mezi segmenty probíhá výměna hraničních pixelů podle toho, kterému segmentu jsou podobnější. Oproti předešlému má tento přístup nevýhodu v tom, že již na začátku musí být z vnějšku zadán počet segmentů, který se během výpočtu nezvýší. Rychlost výpočtu je pak někdy až dramaticky ovlivněna počáteční volbou segmentů. Na druhou stranu vynikajících výsledků je dosahováno tehdy, pokud je přibližná hranice segmentu zadána uživatelem a počítač hranici pouze upřesní. Pokud je třeba přesně stanovit hranice jediného segmentu, lze použít i jiný přístup, dokonce přístup poměrně populární. Přístup se obvykle nazývá snake segmentation nebo active adaptive contour. Metoda vychází z fyzikální analogie, která hledí na hranici jako 54 na pružnou smyčku, která každým rozepětím nebo ohnutím zvyšuje svoji energii (vnitřní energie). Na smyčce je řada bodů, jejichž energii určuje stav pixelu (jas, okolí), ve kterém se právě nacházejí. Jako energie smyčky (hada, snake) pak vystupuje součet těchto dvou energií. Vlastní upřesnění hranice pak spočívá v minimalizaci celkové energie. 2.2.6.2 Popis tvaru Tvar objektu lze kvantifikovat několika způsoby lišících se teoretickým východiskem a složitostí výpočtu. Číslo nebo vektor, kterým se tvar popíše, se obvykle nazývá tvarový deskriptor (shape descriptor). Významné jsou zejména následující tvarové deskriptory: 2.2.6.2.1 Obecné tvarové deskriptory Plocha S objektu bývá udána jako počet pixelů náležejících do příslušného regionu. Pokud známe rozměry fyzického pixelu, jde údaj přepočítat na plochu ve fyzikálních veli- činách. Obvod o objektu představuje počet pixelů ležících na hranici objektu. Cirkularita C objektu udává, nakolik se liší jeho obsah od obsahu kružnice o stejném obvodu: C = o2 4πS (2.49) Je-li cirkularita rovna jedné, jde o kružnici, všechny ostatní tvary mají cirkularitu větší než jedna. Někdy se ve vztahu neobjevuje výraz 4π. Fourierovské tvarové deskriptory využívají popisu hranice objektu jako komplexní řady tvořené x-ovými a y-ovými souřadnicemi jednotlivých bodů hranice: s(k) = x(k) + i y(k) Vlastná Fourierovské deskriptory se pak získají Fourierovou transformací řady s(k). Statistické momenty jsou v teorii pravděpodobnosti nejčastěji používanými charakteristikami náhodné veličiny. Jejich odhady se dobře uplatňují i při popisu tvaru. Představme si, že objekt resp. region Θ je tvořen N pixely. Protože nás zajímá pouze tvar, přiřadíme pixelům náležejícím do objektu váhu 1 a pixelům ležícím vně objektu váhu 0. Potom můžeme obecný p-tý a q-tý smíšený moment zapsat jako: mpq = 1 N k∈Θ x(k)p y(k)q (2.50) 55 Zavedením průměrných hodnot, přesněji odhadů střední hodnoty, pro jednotlivé souřadnicové osy ¯x a ¯y se lze dostat k centrálním momentům. ¯x = 1 N k∈Θ x (2.51) ¯y = 1 N k∈Θ y (2.52) Potom můžeme centrální p-tý a q-tý smíšený moment zapsat jako: µpq = 1 N k∈Θ (x(k) − ¯x)p (y(k) − ¯y)q (2.53) Centrální momenty se obvykle normují vzhledem k nultému centrálnímu momentu: ηpq = µpq µ (p+q)/2+1 00 (2.54) Centrováním a normalizací se momenty stávají invariantními vůči změně měřítka a vůči posuvu. Aby bylo dosaženo i invariantnosti vůči rotaci, definují se momentové invarianty: Φ1 = η20 + η02 (2.55) Φ2 = (η20 + η02)2 + 4η2 11 (2.56) Φ3 = (η30 − 3η12)2 + (3η21 − η03)2 (2.57) Φ4 = (η03 + η12)2 + (η21 + η02)2 (2.58) 2.2.6.2.2 Ad hoc tvarové deskriptory Jako d hoc tvarové deskriptory můžeme označit takové tvarové deskriptory, které nelze použít obecně, ale v řadě aplikací mají dobrý smysl. Příklad takového deskriptoru, který se běžně používá při diferenciaci mezi maligním a benigním charakterem ultrazvukového snímku zvětšené lymfatické uzliny, je na obrázku 2.11. 2.2.7 Analýza opakujících se motivů Řada biomedicínských obrazů má charakter opakujících se motivů, přičemž toto opakování má charakter spíše statistický než zcela deterministický. Příkladem takového opakování se může být například histologický obraz tkáně, na kterém jsou oněmi opakujícími se prvky jednotlivá buněčná jádra. Analýza opakujících se prvků má blízko k analýze textury, v řadě situací lze použít jako jeden z přístupů k její analýze. Použití je však poměrně širší, takže považovat analýzu opakujících se motivů pouze za jeden z možných přístupů k textuře by bylo chybou. Nejběžnějším přístupem k analýze opakujících se motivů je Voronoiův diagram9 a Delaunayova triangulace. 9 V českém písemnictví se lze setkat se tvary Voronoiův/Voroného diagram/dláždění/teselace. Nejednoznačnost přepisu jména plyne z transkripce z ukrajinského Voronoi˘i přímo nebo přes anglický přepis Voronoy. Teselace je počeštělý tvar slova tessellation. 56 Obrázek 2.11: Diferenciální diagnostika lymfadenopatií patří mezi obtížnější úkoly ultrasonografisty. Lymfadenopatie je totiž poměrně běžná a je třeba určit, zda je důvodem změn lymfatické uzliny pouze reakce na zánět probíhající ve spádové oblasti příslušné lymfatické uzliny, nebo zda je příčinou infiltrace lymfatické uzliny metastatickými nádorovými buňkami. K odlišení benigního a maligního původu se používá celá řada popisných znaků: • velikost uzliny • tvar uliny • heterogenita textury • změny v hilu uzliny • ztlušťení kůry • mikrokalcifikace • nekrózy • poruchy pouzdra Protože má lymfatická uzlina víceméně eliptický tvar, ukazuje se, že poměrně dobrým parametrem s výrazným vztahem k charakteru uzliny je poměr délek dlouhé a krátké osy. zdroj: Dr Charudutt Jayant Sambhaji: Malignant lymph node morphology and doppler analysis. Radiopaedia.org 57 2.2.7.1 Voronoiův diagram Představme si situaci, kdy rovina obsahuje několik bodů. Voronoiův diagram není nic jiného, než rozdělení roviny na nepřekrývající se mnohoúhelníky tak, aby byl v každém mnohoúhelníku obsažen právě jeden bod. Požaduje se přitom to, aby pro každý bod mnohoúhelníku platilo, že je nejblíže tomu z bodů generujících diagram, který leží uvnitř daného mnohoúhleníku. Toto lze formulovat i jinak – totiž ke každému z předem zadaných bodů přiřadíme všechny body roviny, které k němu mají blíže než ke všem ostatním. 2.2.7.2 Delaunayova triangulace Jestliže se na Voronoiův diagram budeme dívat jako na graf v tom smyslu, v jakém se slovo graf používá v informatice nebo v diskrétní matematice, pak není Delaunayova triangulace nic jiného než graf duální v Voronoiovu diagramu. Delaunayova triangulace je zavedena tak, že se předpokládá, že je v rovidě konečně mnoho diskrétních bodů. Cílem triangulace je nalézt rozdělení roviny na trojúhelníky takové, že mají své vrcholy v jednotlivých bodech. Hlavním požadavkem je to, aby byl maximalizován nejmenší vnitřní úhel ze všech trojúhelníků, které tvoří triangulaci. 2.2.7.3 Použití Typickým použitím je rozdělení obrazu na jednotlivé oblasti odpovídající jedlotlivým stavebním prvkům. Voronoiův diagram lze tak například použít ke zvýraznění předpokládaných buněčných membrán v histologických preparátech. Přímočarou aplikací je kvantifikace rovnoměrnosti distribuce nějakých útvarů v rovině. Těmi útvary v rovině mohou být například jádra buněk na histologickém snímku z optického mikroskopu nebo jaderné póry na elektronmikroskopickém snímku buněčného jádra. Aplikací Voronoiova diagramu nebo Delaunayovy triangulace získáme intuitivně poměrně zřejmý nástroj popisu homogenity distribuce těchto struktur (viz obr. 1.6). Výše popsané metody mají své uplatnění i v epidemiologii. Pokud máme k dispozici pouze údaje o nákazách pouze z nerovnoměrně vybraných vzorků10 nebo pokud hledáme nakupení případů, lze použít postup podobný konstrukci Voronoiova diagramu (viz obr. 2.12). 10 Důvodem takové nerovnoměrnosti může být apříklad namátkové měření u nepříliš závažných infekcí nebo odběry vzorků v případě antropozoonóz. 58 Obrázek 2.12: Práce anglickoho lékaře Johna Snowa (1813–1858) bývá uváděna jako jedno z klíčových děl stojících u zrodu epidemiologie. V roce 1854 se v Londýně v okolí Broad Street vypukla epidemie cholery. John Snow, který byl skeptický vůči tehdy převládající teorii miasmat, podle které je příčinou chorob „špatný vzduch , konkurenční teorie choroboplodných zárodků byla stále pouze hypotézou bez bezpečného a jen obtížně zpochybnitelného důkazu platnosti (ten je spojen až se jménem Roberta Kocha, kterému bylo v době Londýnské epidemie deset let). Rozborem výskytu případů dospěl k přesvědčení, že příčinou cholery je je vody z pumpy na Broad Street. Nicméně chemickou a mikroskopickou analýzou vody se mu nepodařilo prokázat, že by se ve vodě nacházelo něco, co by mohlo být původcem cholery. Proto se rozhodl získat důkaz nepřímo analýzou výskytu případů. Ukázalo se, že až na několik případů všichni mrtví měli ze svého bytu k inkriminované pumpě blíže než ke všem ostatním pumpám. U zbývajících případů se mu podařilo bezpečně prokázat, že vodu z pumpy také pili. Snowův postup, při kterém rozdělil kritickou oblast na regiony podle vzdálenosti od jednotlivých pump, je stejný jako důvod zavedení Voronoiova diagramu. Dodnes se v epidemiologii Voronoiových digramů stále používá, například při pátrání po zdroji znečištění. zdroj: John Snow: Výskyt případů cholery v okolí Broad Street 59 Kapitola 3 Operace s obrazem Operace s obrazem1 jsou takové manipulace s obrazem, při kterých se část informace obsažené v obrazových datech zdůrazní. Může se tak dít na úkor ztráty jiné části informace, ovšem pokud je operace provedena dobře, tak můžeme subjektivně vnímat zlepšení obrazu. Slůvko subjektivně je mimořádně důležité, protože úpravy jsou obvykle prováděny právě s cílem zlepšit subjektivní vjem, méně pak s cílem obraz standardizovat pro počítačovou analýzu. Je třeba zdůraznit, že při operacích s obrazem v nejlepším případě nedochází ke ztrátě informace, obvykle se však informace ztrácí.2 Naprosto obecný přístup je ten, že operace s obrazem je nějaké zobrazení, které jednomu obrazu přiřazuje jiný obraz. Toto se může zdát jako příliš matematické, ovšem pro naše potřeby stačí, když se omezíme na digitální obraz. Ten si můžeme představit jako matici čísel. Zobrazení si pak můžeme představit jak řadu funkcí, které jednomu pixelu výstupního obrazu přiřadí nějakou kombinaci nějak matematicky upravených hodnot všech pixelů obrazu vstupního. Malinko precizněji lze toto tvrzení formulovat následujícím způsobem. Nechť A a B jsou dva obrazy, tedy matice typu m × n3 . Maticovou funkci f, která reprezentuje operaci s obrazem, zapíšeme formálně takto: f : A → B (3.1) 1 Pojem operace vychází spíše z rigorózního matematického přístupu k obrazům a operacím nad nimi jako k matematickým strukturám. Přístup technický je konkrétnější, je založen na tom, že obraz je dvojrozměrným diskrétním signálem. Výsledky obou přístupů jsou pro bezprostřední aplikace stejné, výrazně se neliší ani použitý formalizmus. Z hlediska uživatele je asi tím nejpodstatnějším rozdílem to, že se pro označení operace s obrazem používá označení filtrace obrazu. 2 Vedle podstatně známějšího CSI syndromu, by se dalo hovořit i o „Image processing syndromu , tedy o deformaci profesionálů využívajících služeb odborníků v oblasti zpracování obrazu seriálovou produkcí tak, že požadují činnosti, které jsou z principu např. diskrétního charakteru digitálního obrazu nemožné. Takovým nejobvyklejším prohřeškem je požadavek na ostření poměrně komplexního detailu, který je díky kvalitě pořízení snímku reprezentován jen několika pixely a jeho „rozmazání je způsobeno pouze ztrátovou kompresí obrazu. 3 Matice typu m × n je matice, která má m řádků a n sloupců. 60 Tedy zápis je zcela prostý: B = f(A) (3.2) Pro prvek bij obrazu B platí, že je kombinací všech pixelů obrazu A a případně i souřadnic (i, j): bij = m k=1 n l=1 fijkl(akl) (3.3) Symbol fijkl znamená libovolnou funkci. Čtveřice indexů znamená, že je pro každou dvojici pixelů bij a akl může být zadána individuální funkce. Takto obecně je tedy operací s obrazem zadáno mimořádně velké množství – např. při definice operace s obrazem o rozměrech 256 × 256 pixelů lze zadat až 4.294.967.296 různých funkcí. Toto pochopitelně přesahuje meze dostupné výpočetní techniky a tak se většina těchto funkcí stanovuje identicky rovna nule4 nebo se použije jiný a podstatně úspornější zápis operace s obrazem. Lze si totiž snadno představit, že hodnoty jednotlivých funkcí fijkl musí být velmi silně provázány, jinak by neměla výsledná operace s obrazem smysluplný význam. Podle charakteru operace f můžeme operace s obrazem klasifikovat. Tato klasifikace není samoúčelná, obvykle má velký význam při hodnocení výpočetní náročnosti příslušné operace. • Podle matametických vlastností lineární nelinerární • Podle rozsahu nenulových funkcí fijkl bodové operace lokální operace globální operace Lineární operace jsou takové operace, ve kterých pro operaci platí linearita v algebraickém slova smyslu. Funkce fijkl jsou jenom konstantami a platí tedy: bij = m k=1 n l=1 fijkl · akl (3.4) Matematicky triviální důsledek, který je obvykle uváděn jako vlastní definice linearity operace nad obrazem, je ten, že pro dva obrazy A1 a A2 a dvě konstanty c1 a c2 platí: f(c1A1 + c2A2) = c1f(A1) + c2f(A2) (3.5) 4 Je-li funkce fijkl(x) = 0 pro libovolné x, znamená to, že hodnota pixelu ve výstupním obrazu ležícím na souřadnicích (i, j) není nikterak ovlivněna hodnotou pixelu ležícího ve vstupním obraze na souřadnicích (k, l). 61 Slovně to znamená, že je jedno, jestli se dva obrazy nejprve sečtou a až poté se na ně aplikuje příslušná operace, nebo jestli se na ně nejprve aplikuje operaci a teprve poté se oba výsledné obrazy sečtou. Hlavní výhodou lineárních operací je jejich výpočetní rychlost. Nevýhodou pak to, že v některých aplikacích lineární přístup selhává. Nelineární operací je pak jakákoliv operace, která není lineární. Bodové operace lze formálně definovat tak, že operace f bude bodová tehdy a jen tehdy, jestliže pro její skupinu funkcí fijkl platí: fijkl = 0 (i, j) = (k, l) gij (i, j) = (k, l) (3.6) Bodové operace jsou tedy operacemi, které mění hodnotu pixelu bez ohledu hodnoty pixelů ležících v jeho okolí. Pokud navíc platí, že hodnoty funkcí gij jsou stejné, tedy že výsledek operace nezávisí na tom, kde daný pixel leží, nazýváme takovou operaci manipulace s histogramem. Lokální operace jsou takové operace, kde je hodnota pixelu ve výstupním obrazu určena pouze hodnotami korespondujícího pixelu ve vstupním obrazu a hodnotami pixelů ležících v jeho blízkém okolí. Lokální operace, zejména pak lokální lineární operace, jsou efektivně popisovány pomocí konvoluce. Pro svoji blízkost přístupu ke zpracování signálů se tyto operace obvykle označují jako filtrace. Bodové operace jsou vlastně „degenerovanými operacemi lokálními, nicméně z důvodu operací typu manipulace s histogramem je užitečné je vyčlenit. Zdaleka nejčastěji se lze setkat s manipulacemi s histogramem a s lokálními operacemi, z globálních operací pak především s Fourierovou transformací. Většina používaných operací je lineárních, z nelineárních se lze setkat především s lokálními, např. mediánový filtr pro korekci šumu typu pepř a sůl5 . Velmi zajímavou skupinou lokálních nelineárních operací jsou operace založené na matematické morfologii. 3.1 Manipulace s histogramem Manipulace s histogramem (viz kapitola 2.1.5 na straně 33) představují v principu nejjednodušší operace s obrazem, lze si je představit tak, že mění charakter konkrétního pixelu bez ohledu na jeho okolí. Matematicky tedy představují operace s histogramem pouze jednu jedinou funkci jedné proměnné, která transformuje jeden pixel vstupního obrazu na jeden obraz výstupního obrazu. Název manipulace s histogramem se používá spíše z toho důvodu, že v řadě grafických programů je tato operace vizualizována tak, že uživatel zdánlivě skutečně manipuluje s histogramem. 5 Šum typu pepř a sůl je označení pro takový typ šumu, kdy jsou k obrazu náhodně přidány výhradně černé a bílé body, tedy body o minimálním a maximálním možném jasu. 62 Z širokého spektra možných manipulací s histogramem se v praxi používají následující operace: • změny jasu • změny kontrastu • prahování • ekvalizace histogramu • gama korekce 3.1.1 Změna jasu a kontrastu 3.1.1.1 Změna jasu Změna jasu (viz kapitola 2.1.3 na straně 32) patří mezi základní operace s obrazem, snad každý se s ní setkal například v podobě nastavení jasu u televizoru. Její matematický zápis je velmi snadný: f(i) = i + c (3.7) Nevýhodou takovéhoto přístupu je především to, že jakmile dosáhne nejjasnější pixel v obraze maximální hodnoty, je další zvyšování jasu operací, při které se ztrácí informace. Při zvyšování jasu tímto způsobem se tvar histogramu posunuje doprava, při snižování pak doleva. Tvar histogramu se, pokud nedojde k překročení maxima, nemění. Výsledek je demonstrován na horní části obrázku 3.1. 3.1.1.2 Změna kontrastu Změna kontrastu (viz kapitola 2.1.4 na straně 32) představuje manipulaci, při které by měl být zvýšen rozdíl v jasu mezi jednotlivými pixely. Zdánlivě nejjednoduším řešením by byla následující funkce: f(i) = d · i (3.8) Takové řešení by ovšem v praxi velmi rychle narazilo na dva problémy. Tím prvním je to, že takovýmto prostým zvýšením kontrastu se zároveň zvyšuje jas obrazu a snížením kontrastu se jas obrazu snižuje. Druhým problémem je omezená hodnota nejvyššího jasu v reprezentaci obrazu v paměti počítače, takže velmi snadno by došlo k situaci, kdy dojde k vyčerpání všech dostupných barev a detaily odpovídající jasnějším bodům se slijí do jedné homogenní plochy. Při manipulaci s kontrastem pomocí násobení se histogram zužuje resp. roztahuje. Jako vedlejší efekt se i posouvá. Pokud je konstanta d větší než jedna, posouvá se doprava, pokud je menší než jedna, posouvá se doleva. Vzhledem k diskrétnímu charakteru obrazu, tedy k nezanedbatelnému vlivu zaokrouhlování, se mohou dva různé stupně jasu zobrazit na stejný jas. Při manipulaci s kontrastem tak může docházet ke ztrátě informace. Výsledek je demonstrován na dolní části obrázku 3.1. 63 Obrázek 3.1: Horní dvojice snímků demonstruje zvýšení jasu prostým přičtením konstanty ke stupni jasu. Na histogramu je patrné, že je pouze posunut doleva, hodnoty, které by byly vyšší než je jas bílého bodu, jsou oříznuty a zobrazeny jako bílý bod. Na dolní dvojici snímků je demonstrováno zvýšení kontrastu vynásobení konstantou. protože by se tím histogram posunul na vyšší hodnoty, je současně vhodná konstanta odečtena. I zde bylo nutné ořezat nejvyšší a nejnižší hodnoty. 64 3.1.1.3 S-křivky Řešením nedostatků přímočarým způsobem prováděných manipulací s jasem a kontrastem jsou tzv. s-křivky (s-shaped curve), které vhodným způsobem definují funkci bodové operace. V případě manipulace s jasem jde o vhodně definovanou konvexní resp. konkávní funkci, v případě manipulace s kontrastem je třeba, aby měla taková křivka inflexní bod (viz obr. 3.3 a 3.4). Protože s-křivky mají nelineární průběh, dojde poměrně snadno k tomu, že se se na jednu úroveň jasu ve výstupu zobrazí několik různých hodnot jasu na vstupu. Manipulace s jasem a kontrastem pomocí s-křivek tedy, i když vede k subjektivně lepším výsledkům, představuje operaci, při které dochází ke ztrátě informace. Subjektivně je tato změna obvykle nepostřehnutelná, ale v případě, že bude obraz použit např. jako vstup pro expertní systém, může se tato ztráta informace stát zdrojem chyby6 , zejména je-li tato úprava provedena několikrát a je-li pokaždé ukládána. Obrázek 3.2: Nastavení s-křivky v programu GIMP lze provést manuálně pomocí myší zvolených kontrolních bodů. Lze zvolit i velmi neobvyklý tvar, jehož faktická smysluplnost není veliká. Snímek je z editace barevné fotografie, takže je vidět i možnost volby kanálu – vedle zde zvoleného kanálu jas, kterým se manipuluje s jasem a kontrastem barevného obrazu zřejmě nejlépe, lze editovat i jednotlivé kanály v barevném modelu RGB. Takovou manipulací však dochází ke změně barevné informace. Za zmínku stojí i to, že zde prezentovaná s-křivka vedla taktéž ke změně barevné informace. Budiž to varováním, že jakékoliv manipulace s barevnými obrazy mohou ze své podstaty nebo vlivem zaokrouhlovacích chyb nebo ořezávání vést ke změně barevné informace. Dlužno podotknout, že křivky demonstrované na obrázcích 3.3 a 3.4 barevnou informaci v maximální možné míře zachovávají a lze je proto pokládat za bezpečné pro barevné snímky. 6 Chybou je myšleno to, že expertní systém špatně vyhodnotí situaci nikoliv pro vlastní nedostatečnost, ale pro špatná data. Na druhou stranu je třeba zdůraznit, že expertní systém, který by byl citlivý na tak malou odchylku ve vstupních datech, není příliš obvyklý. S tak málo robustním expertním systémem by se neměl setkat jiný uživatel, než vyučující na technické vysoké škole hodnotící semestrální projekty studentů – v tomto případě známkou pro studenta velmi nepříznivou. 65 Obrázek 3.3: Příklad manipulace s jasem pomocí s-křivek. V levé části je černobílý snímek Leny, pod ním jeho histogram. Uprostřed je s-křivka, pomocí které byla vlastní manipulace s histgramem provedena. V pravé části je výsledek manipulace. Pokud je s-křivka monotónní bez inflexního bodu, je výsledkem manipulace především změna jasu obrazu. S-křivka v horní části přiřazuje pixelům s výjimkou pixelů hraničních nižší jas, s-křivka v dolní části přiřazuje pixelům vyšší jas. Pozorovatelná změna tvaru histogramu jde částečně na vrub s-křivce a částečně na vrub zaokrouhlování. 66 Obrázek 3.4: Příklad manipulace s jasem pomocí s-křivek. V levé části je černobílý snímek Leny, pod ním jeho histogram. Uprostřed je s-křivka, pomocí které byla vlastní manipulace s histgramem provedena. V pravé části je výsledek manipulace. Pokud je s-křivka monotónní s inflexním bodem, je výsledkem manipulace především změna kontrastu obrazu. Leží-li inflexní bod v blízkosti přímky spojující černý a bílý bod, jas pixelů ležících v okolí inflexního bodu se prakticky nemění a mění se jen jas pixelů od inflexního bodu vzdálených. S-křivka na prvním snímku přiřazuje pixelům s jasem nižším než má inflexní bod hodnoty ještě nižší a pixelům s jasem vyššímá než má inflexní bod hodnoty ještě vyšší, tedy jasnější. Výsledkem je zvýšení kontrastu. V dolním snímku je situace opačná, výsledkem je snížení kontrastu. 67 3.1.2 Prahování Prahování patří mezi velmi jednoduché manipulace s histogramem. Základní provedení prahování s prahem T je velmi jednoduché: f(i) = Black i ≤ T White i > T (3.9) Tedy ve výstupním obrazu jsou všechny jasy menší nebo rovny než prahová hodnota T nastaveny na černou barvu a hodnoty vyšší než prahová hodnota nastaveny na bílou barvu. Výsledkem prahování je tedy obraz, ve kterém jsou pixely jen ve dvou barvách, tzv. binární obraz. Prahování může být využito jako nejjednodušší metoda segmentace, tedy jako rozdělení obrazu na popředí a pozadí. Výhodou binárních obrazů je i to, že operace nad nimi mohou probíhat rychleji. Týká se to zejména operací matematické morfologie, která je i v binární podobě poměrně výpočetně náročná, v šedotónové podobě pak přibývají problémy s nárůstem výpočetní složitosti a s interpretací stupně šedi jako dalšího rozměru. Prahování může být však použito i poněkud složitějším způsobem, takže jako prahování se mohou označovat postupy, kterými se z obrazu selektivně vypouštějí určité intervaly jasů. Může se jednat o oříznutí nejvyšších a nejnižších stupňů šedi nebo naopak o vypuštění středních hodnot. Z tohoto pohledu je jistou formou prahování i použití oken při zobrazování CT (viz obr. 3.5). 3.1.3 Ekvalizace histogramu Histogram charakterizuje jasové poměry obrazu. Podle pouhého posouzení histogramu lze rozdělit obrazy do čtyř skupin. Tyto skupiny se obvykle pojmenovávají podle analogie s klasickou fotografií, protože snímky vznikly obvykle v důsledku stejné chyby, jaké se mohl dopustit fotograf: 1. přeexponovaný snímek – výrazně převažují jasné tóny 2. podexponovaný snímek – výrazně převažují tmavé tóny 3. nevyvážený snímek – většina pixelů má podobný jas, jas není rozložen rovnoměrně 4. vyvážený snímek – jednotlivé stupně šedi jsou využity stejně, kvalitní snímek Cílem ekvalizace histogramu je převést jednu z možností 1 až 3 na vyvážený snímek. Postup má charakter algoritmu. Výsledek takové ekvalizace včetně histogramů je na obrázku 3.6. 68 Obrázek 3.5: Tkáňové okno (CT Window) je bodová transformace nativních obrazových dat z výpočetní tomografie založená na prahování. Lidské oko je schopno rozlišit v jednom obraze jen poměrně malý počet stupňů šedi, zatímco běžný rozsah Hounsfieldových jednotek se pohybuje v tisících, takže při přímém mapování jedné hodnoty HU a jednoho stupně šedi by byl výsledným vjemem poměrně nekontrastní obraz. Řešením je sloučení části stupňů šedi do jedné barvy a prahování černé i bílé barvy. Graf takové mapovací funkce je na dolním obrázku. Hodnoty nižší než jistý práh jsou mapovány na černou barvu, hodnoty vyšší než jistý jiný práh jsou pamovány na bílou barvu a hodnoty ležící mezi těmito prahovými hodnotami jsou rovnoměrně mapovány na celý barevný rozsah. V praxi se okno zadává nikoliv pomocí prahových hodnot, ale pomocí šířky intervalu hodnot, které se mapují na jiné barvy než je černá a bílá (Width, na obrázku označeno jako W), a pomocí středu tohoto intervalu (Level, na obrázku označeno jako L). Volbou konkrétní dvojice L a W lze v obrázku zobrazit detaily odpovídající různým tkáním, používá se např. kostní okno nebo okno pro měkké tkáně. Na horním obrázku je demonstrován pohled ve dvou oknech na tutéž oblast těla, totiž transverzální řez hrudníkem zachycující plicní parenchym. Na snímku vlevo jsou parametry okna L = −600 a W = 1700. Poměrně dobře je vykreslena struktura vzdušných plic, nicnémě již u měkkých tkání se struktura stírá. Volbou parametrů L = −60 a W = 400 se již plicní struktura ztrácí, zvýrazněné bílé body jsou uzlíky kompaktní tkáně, zde konkrétně plicní metastázy. zdroj: http://commons.wikimedia.org, File:NM19 122.jpg 69 Obrázek 3.6: Ukázka ekvalizace histogramu na transverzálního řezu CT snímku břišní dutiny, na kterém je mimo fyziologických orgánů zachycen i nezhoubný nádor (adenom) levé nadledviny. Na horním snímku je CT tak, jak bylo pořízeno, na dolním pak CT s ekvalizovaným histogramem. U obou snímků jsou pro názornost uvedeny i jejich histogramy. Cílem je demonstrovat výsledný efekt ekvalizace, tedy rovnoměrnější rozprostření histogramu přes celý dynamický rozsah. Zároveň je demonstrována jedna ze slabin nativního přístupu – poměrně velká plocha pozadí výrazně interferuje s algoritmem ekvalizace, takže snímek, který je podle jednoduchého hodnocení analogického klasické fotografii „technicky kvalitnější , je ve skutečnosti méně kvalitní. Ve skutečnosti je k subjektivnímu zvyšování kontrastu v biomedicínských obrazech třeba použít sofistikovanějších metod vyvinutých podle charakteristických vlastností té konkrétní zobrazovací modality. Tak například u řezu celým tělem je více než žádoucí vyloučit z dalších úprav pozadí, tedy plochy snímku odpovídající oblasti vně lidského těla. zdroj: Dr. Frank Gaillard: Adrenal Adenoma. Radiopaedia.org 70 3.1.4 Gama korekce Gama korekce je záležitostí spíše technického než grafického charakteru, byla vynucena vlastnostmi běžných monitorů7 , především tím, že závislost intenzity jasu luminoforu na světélkující vrstvě není přímo úměrná intenzitě dopadajícího proudu elektronů, ale závislost je přibližně exponenciální. Gama korekce byla zavedena právě jako korekce této nelinearity výstupního zařízení. Gama korekcí se jas bodově transformuje funkcí: f(i) = γ √ i (3.10) Parametr γ vyjadřuje míru nelinearity, jeho obvyklá hodnota se příliš neliší od čísla 2.5. 0 0.5 1 1.5 2 2.5 0 1 2 3 4 5 γ = 2.0 γ = 2.5 γ = 3.0 Obrázek 3.7: Grafický průběh gama korekce pro některé hodnoty parametru γ 7 Klasické monitory se označují zkratkou CRT (Cathode Ray Tube), v principu jde o běžné barevné obrazovky podobné klasickým obrazovkám televizním. Dnes jsou nahrazovány monitory fungujícími na jiném principu, protože jsou v řadě ohledů výhodnější. 71 3.2 Lineární filtry 3.2.1 Konvoluce Konvoluce je matematická operace, která spojuje dvě funkce f(t) a g(t) reálné proměnné t. Definována je jako8 : (f ∗ g)(t) = +∞ −∞ f(τ)g(t − τ) dτ (3.11) Konvoluce má velký význam mimo jiné v teorii pravděpodobnosti a v teorii signálů. Protože je obraz vlastně také dvojrozměrným signálem, nabízí se myšlenka, že by byla konvoluce nějakým způsobem užitečná i při analýze a zpracování obrazů. Ukazuje se, že tomu tak skutečně je. Matematicky velmi snadným postupem9 lze přejít k definici konvoluce dvou principiálně nekonečných digitálních obrazů f a g, tedy vlastně matic: (f ∗ g)(i, j) = +∞ k=−∞ +∞ l=−∞ f(k, l)g(i − k, j − l) (3.12) Představme si, že obraz g je podstatně menší, tj. s výjimkou velmi malé oblasti obsahuje jen nuly, než obraz f. Takovému malému obrazu g říkáme konvoluční jádro. Pro usnadnění výpočtu se předpokládá, že střed obrazu g má souřadnice (0, 0). Dále předpokládejme, že obraz g má tvar čtverce o straně délky 2n + 1. Potom bude mít konvoluce tvar: (f ∗ g)(i, j) = n k=−n n l=−n f(k, l)g(i − k, j − l) (3.13) Z tohoto tvaru je patrný vlastní význam takovéto konvoluce. Hodnota pixelu výstupního obrazu na souřadnicích (i, j) je součtem násobků pixelů ležících v obdélníku ležícím mezi body (i − n, j + n) a bodem (j + n, j − n). Každý pixel je násoben příslušným koeficientem v konvoluční masce. Toto však není nic jiného, než lokální lineární operace (filtrace). Není těžké ukázat, že všechny lokální lineární operace lze popsat pomocí konvolučního jádra. Protože jde v případě obrazů o diskrétní operace, hovoří se spíše o konvoluční masce nebo konvoluční matici. Například konvoluční maska zadávající výpočet průměru z okolních pixelů (průměrový filtr) vypadá takto:    1 9 1 9 1 9 1 9 1 9 1 9 1 9 1 9 1 9    (3.14) Z praktických důvodů se často zadává maska pro výpočet konvoluce s celočíselnými koeficienty, zlomky jsou vytknuty před matici: 1 9   1 1 1 1 1 1 1 1 1   (3.15) 8 Proměnná τ v definičním vztahu je pouze parametrem integrace 9 Velmi snadným při znalosti integrálního počtu funkcí více proměnných. 72 Další praktickou modifikací je připojení posunu. Konvolucí se totiž může změnit průměrný jas modifikovaného obrazu. Návrat jasu na původní hodnotu lze realizovat zavedením další konstanty, která se po výpočtu konvoluce odečte od výsledného pixelu. Není příliš obtížné dokázat, že jde pouze o formální změny usnadňující intuitivní zadávání konvoluční matice, její podstata se nijak nemění a stále jde o lokální lineární operaci. Obrázek 3.8 ilustruje manuální zadání konvoluční matice v programu GIMP. Obrázek 3.8: Manuální sestavení konvoluční matice v progamu GIMP. Matice je celočíselná, dokonce i násobek matice je zadáván jako jeho celočíselná převrácená hodnota (dělitel). Vedle výše uvedeného stojí za pozornost zejména možnost volby konvoluce pouze u jednotlivých barevných kanálů. Naznačená konvoluční matice počítá průměrný jas z pixelů ležících v bezprostředním sousedství a dále pixelů ležících ve vzdálenosti 2 na obou hlavních osách od středu. Konvoluční matice představuje univerzální a přitom obvykle poměrně úsporný způsob, jakým lze lineární operaci zadat. Proto v dalším textu uvedeme i jejich konvoluční matici. 3.2.2 Filtr typu průměr Filtr typu průměr (průměrový filtr) je nejjednodušší lineární operací. Konvoluční maticí je matice obsahující samé jedničky a dělitelem je součet všech prvků. Filtrace s takovýmto konvolučním jádrem vede k potlačování detailů a stírání ostrých hran. Filtrace vede k částečnému potlačení bodového šumu. Výsledek (viz obr. 3.9) však není příliš uspokojivý, podstatně lepších výsledků dosahuje mediánový filtr. 73 Obrázek 3.9: Na levém obrázku je koronárně vedený CT řez lidským břichem pacienta trpícího polycystickou chorobou ledvin (masy v dutině břišní jsou cystické ledviny). Uprostřed je tentýř obraz, doplněný o arteficiální gaussovský šum. Zašumělý obraz je pak filtrován filtrem typu průměr, výsledek filtrace je na pravém obrázku. Je vidět, že sice došlo k subjektivnímu zlepšení kvality obrazu orgánů, ale zároveň se výrazně setřely a rozostřily hrany. Zde stojí za povšimnutí to, že černá plocha v pozadí zůstává nekvalitní a tím výrazně zhoršuje subjektivní vjem z celého obrazu. Doporučujeme srovnat s výsledkem aplikace nelineárního mediánového filtru, který je prezentován na obrázku 3.12. zdroj: Dr. Erik Ranschaert: Adult polycystic kidney disease (ADPKD) with hepatic involvement. Radiopaedia.org 3.2.3 Hranové detektory Hranové detektory jsou filtry – obvykle lineární – jejichž výsledkem je především zdůraznění těch míst v obraze, ve kterých dochází k velké a prudké změně intenzity. Základní myšlenka, na které jsou hranové detektory postaveny, je velmi jednoduchá. Když se na obraz díváme jako na funkci dvou proměnných (obrazovou funkci), je místo největší změny intenzity místem maximální první derivace10 . Jako vhodnější se někdy ukazuje odhadovat až druhou derivaci. 3.2.3.1 Laplaceův operátor Laplaceův operátor je disktérní aproximací operátoru 2 nazývaného Laplacián: 2 f(x, y) = ∂2 f(x, y) ∂x2 + ∂2 f(x, y) ∂y2 (3.16) Hodnota Laplaciánu nabývá nuly v těch bodech, kde se maximálně mění hodnota obrazové funkce a samozřejmě v bodech, v jejichž okolí je hodnota obrazová funkce konstantní. 10 Derivací je myšlena podle okolností derivace funkce jedné (řez po řádku či sloupci) i dvou proměnných. 74 Diskrétní verze Laplaciánu je reprezentována konvoluční maticí 3 × 3. Matice L4 (3.17) reprezentuje odhad Laplaciánu pomocí čtyř nejbližších pixelů ležících ve směru hlavních os. Matice L8 (3.18) reprezentuje odhad Laplaciánu pomocí všech osmi pixelů dotýkajících se pixelu, ve kterém se Laplacián počítá. L4 =   0 1 0 1 −4 1 0 1 0   (3.17) L8 =   1 1 1 1 −8 1 1 1 1   (3.18) Laplaceův operátor je poměrně citlivý na šum. Jeho další nevýhodou je to, že tenké linie zdvojí. Laplaceův operátor se někdy modifikuje tak, že se všem pixelům nepřiřadí stejná váha. 3.2.3.2 Prewittové operátor Prewittové operátor je odhadem první derivace. Vlastní odhad probíhá tak že se provede konvoluce s osmi různými maskami lišícími se jen tím, že jsou pootočeny o 45◦ . Jako výsledná hodnota se vybere ten výsledek, který má největší absolutní hodnotu. Pro ilustraci první dvě konvoluční matice jsou: P1 =   1 1 1 0 0 0 −1 −1 −1   (3.19) P2 =   0 1 1 −1 0 1 −1 −1 0   (3.20) 3.2.3.3 Sobelův operátor Sobelův operátor je jiným odhadem první derivace. Pixelům ležícím na ose operátoru je přiřazena vyšší váha. Užití operátoru je stejné jako užití operátoru Prewittové, tedy vybírá se největší výsledek aplikace všech osmi navzájem pootočených filtrů. S1 =   1 2 1 0 0 0 −1 −2 −1   (3.21) S2 =   0 1 2 −1 0 1 −2 −1 0   (3.22) 75 3.2.3.4 LoG operátor LoG operátor (LoG je zkratka Laplacian of Gaussian) je odvozen z neurofyziologických studií vnímání hran lidským okem. Vlastní filtrace je vlastně dvoukroková. Nejprve se Gaussovým filtrem omezí nejvyšší frekvence, tedy obraz se vyhladí, a poté se Laplaceovým filtrem detekují hrany. Filtr může být realizován v různě velké konvoluční matici. S využitím vlastností konvoluce lze získat předpis pro výpočet konvoluční matice operátoru LoG libovolné velikosti: LoG(i, j) = c i2 + j2 − σ2 σ4 e−i2+j2 2σ2 (3.23) Parametr σ se volí podle velikosti masky, ve vzdálenosti 3σ od středu masky by již měla být hodnota Gaussiánu zanedbatelná. Paramter c se volí tak, aby byl součet všech prvků v masce roven jedné. 3.2.3.5 Cannyho hranový detektor Cannyho hranový detektor zmiňujeme v této části pro úplnost, protože nejde o lineární detektor. Jde však o jeden z nejlepších hranových detektorů a proto je vhodné jej zmínit. Cannyho detektor má vlastně charakter algoritmu, jehož základním krokem je odhad první derivace, obvykle pomocí Sobelova operátru. Obrázek 3.10: Příklady použití hranových detektorů. Obrázek Leny a jeho filtrace postupně Laplaceovým operátor, Robertsovým operátorem a Sobelovým operátorem. Filtrované obraz mají dále upraven jas a kontrast pro zvýraznění detekovaných hran. 3.3 Nelineární filtry Nelineární filtry nebo také nelineární operace jsou všechny takové operace, které nejsou lineární z matematického hlediska, tedy nesplňují rovnici 3.4 ev. rovnici 3.5. Hlavním důvodem pro použití obecně výpočetně náročnějších nelineárních filtrů je to, že některých efektů nelze s pomocí lineárních filtrů dosáhnout. Nelineární filtry nelze obecně zadat tak jednoduše jako filtry lineární. Běžně užívané nelineárních filtry realizují nelineární operace na okolí bodu tak, že je výsledká operace dána nějakou funkční kombinací hodnot pixelů v daném okolí jistého 76 bodu. Například se nabízí otázka, zda by se k filtru typu průměr nemohl použít i filtr typu rozptyl resp. směrodatná odchylka, minimum, maximum nebo třeba medián. Vedle těchto nelineárních filtrů existují i složitější koncepty nelineárních filtrů. Podle subjektivního názoru autorů je tou nejzajímavější oblastí matematická morfololgie. 3.3.1 Filtr typu rozptyl Filtr typu rozptyl realizuje výslednou hodnotu jasu jako odhad rozptylu jasu pixelů v nějakém pevně daném okolí. Zvolíme-li čtvercové okolí o „poloměru n11 , potom je filtr D definován takto: D(i, j) = 1 (2n + 1)2 − 1 n p=−n n q=−n ( ¯f(i, j)n − f(i + p, j + q)2 (3.24) Symbol ¯f(i, j)n označuje průměrný jas definovaný jako, tedy aplikaci filtru typu průměr. Bez konvoluce s příslušnou maticí jej můžeme zapsat takto: ¯f(i, j)n = 1 (2n + 1)2 n p=−n n q=−n f(i + p, j + q) (3.25) Filtr typu rozptyl může být zajímavý, pokud chceme nějakým způsobem zdůraznit nehomogenitu obrazu. Příklad aplikace filtru typu rozptyl je na obrázku 3.11. 11 tedy maskou bude matice o rozměrech 2n + 1 × 2n + 1 77 Obrázek 3.11: Filtr typu rozptyl zvýrazní ty části obrazu, které se liší tím, že jsou výrazně nehomogenní na úrovni masky pixelu. Na ultrazvukový snímek jaterní metastázy (vlevo nahoře) byl aplikován filtr typu rozptyl o průměru 1 pixel. Výsledek filtrace je vpravo nahoře. Aby bylo dosaženo interpretovatelného výsledku, byl filtrovaný obraz upraven výrazným snížením jasu, které eliminovalo vliv drobných nehomogenit detekovanch např. na speklích. Takto upravený snímek byl sloučen se snímkem původním tak, že se sečetly hodnoty jasu odpovídajících pixelů a ve výsledném obrázku se snížil jas tak, aby jasem odpovídal vstupnímu obrázku (vlevo dole). Zajímavou a mnohdy i vizuálně působivou alternativou je přidání výsledku filtrace do původního obrazu jako jednoho barevného kanálu. Protože byl původní obraz příliš tvrdý, byl v tomto případě obraz ještě rozostřen Gaussovským filtrem o průměru 4 pixely. 78 3.3.2 Mediánový filtr Mediánový filtr přiřazuje pixelu ve výstupním obrazu medián z okolí daného maskou. Jen pro úplnost si dovolujeme uvést, že medián n čísel se zjistí tak, že se čísla uspořádají od nejmenšího po největší. V případě, že je n liché, je mediánem prvek ležící právě uprostřed této posloupnosti. V případě, že je n sudé, je mediánem aritmetický průměr dvou prostředních prvků. Mediánový filtr představuje velmi efektivní nástroj korekce šumu. Velmi efektně vypadá filtrace šumu typu pepř a sůl12 . Na obrázku 3.12 je demonstrováno užití mediánového filtru na mnohem běžnějším Gaussovském šumu. Obrázek 3.12: Na levém obrázku je koronárně vedený CT řez lidským břichem pacienta trpícího polycystickou chorobou ledvin (masy v dutině břišní jsou cystické ledviny). Uprostřed je tentýř obraz, doplněný o arteficiální gaussovský šum. Zašumělý obraz je pak filtrován mediánovým filtrem, výsledek filtrace je na pravém obrázku. Je vidět, že sice došlo k subjektivnímu zlepšení kvality obrazu orgánů a tkání, ale zároveň se výrazně setřely a rozostřily hrany. Podobně jako u průměrového filtru (obr. 3.9) i zde platí, že homogenní černé pozadí celkový subjektivní dojem zhoršuje.//[5px] Doporučujeme srovnat s výsledkem aplikace lineárního průměrového filtru, který je prezentován na obrázku 3.9. zdroj: Dr. Erik Ranschaert: Adult polycystic kidney disease (ADPKD) with hepatic involvement. Radiopaedia.org 3.3.3 Filtry minimum a maximum Filtry minimum a maximum fungují velmi jednoduchým způsobem – za výstup vyberou minimum resp. maximum z okolí bodu. Zmíněny jsou hlavně z toho důvodu, že jsou běžně implementovány. Jejich hlavní použití je při manipulaci s měřítkem. Filtr typu maximum způsobuje zvětšování bílých bodů a tím zamezí jejich ztrátě při zmenšení měřítka. Naopak filtr typu minimum bílé body zmenšuje a tím zamezí ztrátě informace o přítomnosti „otvorů . 12 Šum typu pepř a sůl vzniká tím, že se do obrazu náhodně přidají černé a bílé body. Vzniká v souvislosti s analogovým přenosem, v biomedicíně se může objevit nejvýše při zpracování starších digitalizovaných snímků. 79 3.4 Matematická morfologie Matematická morfologie je oblast zpracování obrazů, která se do značné míry odlišuje od ostatních běžných přístupů založených na běžných poznatcích lineární algebry a matematické analýzy. Matematická morfologie je totiž založena především na teorii množin a na topologii, na objekty se pak pohlíží jako na množiny. Text této kapitoly je mnohem formálnější, než je tomu ve zbytku této práce. Důvodem je to, že zatímco teoretické základy stojící např. za obecným pojmem filtrace13 mohou být nahrazeny celkem intuitivním vhledem bez malého rizika omylů, v případě matematické morfologie je situace odlišná. Příliš intuitivní přístup při budování základních binárních morfologických operátorů naopak snadno zavede na zcestí chybných analogií. Budiž tedy autorům odpuštěno, že tato část textu určeného primárně pro studenty lékařských oborů připomíná spíše kapitolu z učebnice matematiky. Jedinou útěchou pro čtenáře může být to, že bude ušetřen důkazů předkládaných tvrzení. 3.4.1 Binární matematická morfologie Binární matematická morfologie je nejjednodušším příkladem matematické morfologie, přesto jde o poměrně silný nástroj. Vlastně jde o ryze černobílé obrazy, jejichž obrazovou funkcí je funkce: f : Z × Z → {Black, White} (3.26) Definice 3.4.1. Množinové univerzum binární matematické morfologie je množina Ω: Ω = {(x, y)|x ∈ Z, x ∈ Z} (3.27) Definice 3.4.2. Grafickými prvky (resp. grafickými objekty) jsou z hlediska matematické morfologie všechny podmnožiny množiny Ω z definice 3.4.1. Za objekt se tedy pokládá taková množina bodů, kterým obrazová funkce f přiřazuje hodnotu White. Např. čtverec 3 × 3 se středem v počátku je množina: A =    (−1, −1), (0, −1), (1, −1), (−1, 0), (0, 0), (1, 0), (−1, 1), (0, 1), (1, 1)    (3.28) Podle předchozí definice lze za grafické prvky i poměrně „netypické množiny. Grafickým prvkem může být třeba i množina B: B = {b = (x, y) ∈ Ω|x = 2m, y = 2n + 1, m, n ∈ Z} (3.29) , tedy množina všech bodů, jejichž první souřadnice je sudé číslo a druhá souřadnice je liché číslo. Na první pohled se snad může zdát taková definice příliš obecná; její nespornou 13 Takovými teoretickými poznatky stojícími za obecným pojmem filtrace je myšlena například algebraická struktura prostoru barev jednotlivých barevných modelů, vlastnosti vektorového prostoru všech obrazů nebo třeba vlastnosti tenzorového prostoru všech operací nad tímto vektorovým prostorem. 80 výhodou je však to, že jako grafické objekty pojme nejen obvyklé geometrické objekty, ale třeba i texturu. Nad podmnožinami Ω je definována celá řada operací (transformací), které umožňují provádět operace s obrazem. Zdaleka nejčastějším použitím je transformace všech množin v daném binárním obraze s jednou pevně danou relativně malou množinou nazývanou obvykle strukturní element. Definice 3.4.3. Reflexe ˆA množiny A ⊆ Ω je definována jako množina: ˆA = {p|p = −a, a ∈ A } (3.30) Význam opačného prvku −a je intuitivní, obě souřadnice vznikly tak, že se vynásobily číslem (−1) souřadnice prvku a. Geometrickým významem reflexe libovolné množiny je středová symetrie podle počátku. Definice 3.4.4. Translace (A)z množiny A ⊆ Ω o bod z ∈ Ω je definována jako: (A)z = {p|p = a + z, a ∈ A } (3.31) Translace je nejjednodušší binární operací. Sčítání uvedené v množinové podmínce má význam sčítání po složkách (souřadnicích). Geometrický význam translace je posun každého bodu množiny A o bod z. Definice 3.4.5. Eroze X A množiny X ⊆ Ω strukturním elementem A ⊆ Ω je definována jako: X A = {p|a ∈ A : p + a ∈ X} (3.32) Výsledek eroze obrazu je v případě jednoduchých strukturních elementů odpovídající erozi fyzikální, tedy zmenšování množin od jejich hraničních bodů a mizení detailů. Malé množiny mohou zcela zaniknout. Erodoval-li by se obraz iterativně smysluplným strukturním elementem, dříve či později by došlo k destrukci všech množin. Definice 3.4.6. Dilatace X ⊕ A množiny X ⊆ Ω strukturním elementem A ⊆ Ω je definována jako: X ⊕ A = {p|p = x + a, x ∈ X, a ∈ A } (3.33) Dilatace je transformací do jisté míry opačnou k erozi. Zatímco eroze obrazové elementy zmenšuje, dilatace je podobným způsobem zvětšuje – z toho důvodu se o dilataci a erozi hovoří jako o duálních operacích. Rozhodně však nejde o inverzní operace, až na výjimky14 totiž platí vztahy analogické následujícím nerovnicím: (A B) ⊕ B = A (3.34) (A ⊕ B) B = A (3.35) 14 Takovou výjimkou může být např. morfologická transformace se strukturním elementem {(0, 0)} – tato transformace se chová jako identita. 81 Definice 3.4.7. Otevření (opening) X◦A množiny X ⊆ Ω strukturním elementem A ⊆ Ω je definované: X ◦ A = (X A) ⊕ A (3.36) V případě jednoduchého strukturního elementu má otevření význam odstranění detailů bez porušení celkového tvaru obrazu, konkrétně se jedná o přerušení úzkých spojů. To může v řadě situací usnadnit např. popis tvaru objektu. Definice 3.4.8. Uzavření (closing) X • A množiny X ⊆ Ω strukturním elementem A ⊆ Ω je definované: X • A = (X ⊕ A) A (3.37) V případě jednoduchého strukturního elementu má i uzavření význam odstranění detailů bez porušení celkového tvaru obrazu. Výsledkem uzavření je však vyplnění malých15 děr a spojení blízko sebe ležících objektů. Definice 3.4.9. Morfologická transformace hit-or-miss16 X ∗ A je transformace množiny X ⊆ Ω složeným strukturním elementem A ⊆ Ω × Ω, pro který platí: A = (A1, A2), A1 ∩ A2 = ∅ (3.38) Vlastní transformace je pak definována vztahem: X ∗ A = (X A1) ∩ (XC A2) (3.39) Věta 3.4.1. Nechť X ⊆ Ω a A ⊆ Ω × Ω, taková, že: A = (A1, A2), A1 ∩ A2 = ∅ (3.40) Potom pro hit-or-miss transformaci platí: X ∗ A = (X A1) − (XC ⊕ ˆA2) (3.41) Transformace hit-or-miss představuje ověření přesné lokální shody obrazu se zadaným vzorem. Výstupem transformace je obraz obsahující samé nuly s výjimkou bodů přesné shody. Definice 3.4.10. Hranice oblasti X ⊆ Ω zjištěná pomocí jednoduchého izotropního strukturního elementu A ⊆ Ω17 je transformace definovaná jako: β(X) = X − (X A) (3.42) Definice 3.4.11. Ztenčení (thinning) X ⊗ A množniny X ⊆ Ω strukturním elementem A ⊆ Ω je definováno: X ⊗ A = A − (X ∗ A) (3.43) Zajímavou vlastností ztenčování je to, že pro každou množinu X a pro jisté strukturní elementy Ai aplikované sekvenčně je po několika iteracích dosaženo idempotence. Ztenčení (sekvenční ztenčování) je tak jedním z postupů, který umožní převézt obraz na kostru18 . 15 „malých a „blízko znamená malý a blízko vzhledem k rozměru použitého strukturního elementu 16 český ekvivalent „zasáhni nebo miň se mi zná příliš kostrbatý a proto se výjimečně kloním spíše k anglickému pojmenování 17 Takovým elementem může být např. množina 3.28 18 kostra je reprezentace obvykle podlouhlého objektu. Hledání kostry se obecně nazývá skeletonizace 82 Definice 3.4.12. Ztluštění (thickening) X A množniny X ⊆ Ω strukturním elementem A ⊆ Ω je definováno: X A = A ∪ (X ∗ A) (3.44) 3.4.2 Šedotónová matematická morfologie Šedotónová matematická morfologie nabízí prostředky pro manipulaci s obrazy ve stupních šedi, obrazová funkce f má tvar: f : Z × Z → Z (3.45) Poměrně přirozeným množinovým pohledem na objekty takového obrazu je pohled na obraz jako na množinu všech uspořádaných trojic, tedy množinovým univerzem Ω je množina: Ω = {(x, y, c)|x ∈ Z, y ∈ Z, c ∈ Z} (3.46) V souvislosti s šedotónovou morfologií se zavádějí další pojmy: Definice 3.4.13. Buď A ⊆ Ω množina uspořádaných trojic celých čísel. Buď F ⊆ Z2 množina: F = u ∈ Z2 |∃v ∈ Z : (u, v) ∈ A (3.47) Buď T zobrazení T : Z2 → Z. Toto zobrazení se nazývá vršek nebo povrchová plocha množiny A, jestliže pro všechny prvky u ∈ F platí: T [A] (u) = max {v|(u, v) ∈ A, } (3.48) Definice 3.4.14. Buď F ⊆ Z2 a E ⊆ Z. Buď f obrazová funkce f : F → E. Buď U zobrazení U : Φ → Z2 , kde Φ je množina všech obrazových funkcí ϕ : Z2 → Z. Potom se zobrazení U nazývá stín obrazové funkce f, jesltiže platí: U [f] = {(u, v) ∈ F × E|v ≤ f(u)} (3.49) Pomocí povrchu a stínu a pomocí binárních operací jsou definovány šedotónové morfologické operace eroze a dilatace. Definice 3.4.15. Nechť F, G ⊆ Z2 a nechť f, g jsou odpovídající obrazové funkce f : F → Z resp. g : G → Z. Potom šedotónová eroze obrazů daných obrazovými funkcemi f a g je množina: f g g = T [U [f] U [g]] (3.50) Definice 3.4.16. Nechť F, G ⊆ Z2 a nechť f, g jsou odpovídající obrazové funkce f : F → Z resp. g : G → Z. Potom šedotónová dilatace obrazů daných obrazovými funkcemi f a g je množina: f ⊕g g = T [U [f] ⊕ U [g]] (3.51) 83 Pro výpočetně jednodušší stanovení eroze a dilatace lze použít následující vztahy19 . Věta 3.4.2. Nechť F, G ⊆ Z2 a nechť f, g jsou odpovídající obrazové funkce f : F → Z resp. g : G → Z. Potom pro výpočet obrazové funkce šedotónové eroze lze použít vztah: (f g g) (x, y) = min {f(x − u, y − v) − g(u, v), (x − u, y − v) ∈ F, (u, v) ∈ G} (3.52) Věta 3.4.3. Nechť F, G ⊆ Z2 a nechť f, g jsou odpovídající obrazové funkce f : F → Z resp. g : G → Z. Potom pro výpočet obrazové funkce šedotónové dilatace lze použít vztah: (f ⊕g g) (x, y) = max {f(x − u, y − v) − g(u, v), (x − u, y − v) ∈ F, (u, v) ∈ G, } (3.53) Souvislost binární eroze resp. dilatace s šedotónovou erozí resp. dilatací udává věta o homeomorfismu stínů: Věta 3.4.4. Nechť F, G ⊆ Z2 a nechť f, g jsou odpovídající obrazové funkce f : F → Z resp. g : G → Z. Nechť U : Φ → Z2 , kde Φ je množina všech obrazových funkcí ϕ : Z2 → Z, je stín. Potom je toto zobrazení homeomorfismem vzhledem k operacím eroze resp. dilatace, tedy platí: U [f ⊕ g] = U [f] ⊕ U [g] (3.54) U [f g] = U [f] U [g] (3.55) Pomocí šedotónové dilatace a eroze definovány další operace formálně naprosto stejný způsobem jako operátory binární. Týká se to zejména opetací otevření (viz definice 3.4.7 na straně 82), uzavření (viz definice 3.4.8 na straně 82), hit-or-miss (viz definice 3.4.9 na straně 82), hranice (viz definice 3.4.10 na straně 82), ztenčení (viz definice 3.4.11 na straně 82) a ztluštění (viz definice 3.4.12 na straně 83). Formálně shodným způsobem jsou však definovány i další operace nad binárními i šedotónovými obrazy, takže v praxi je hlavním rozdílem mezi binární a šedotónovou morfologií výpočetní náročnost. 3.4.3 Granulometrie Granulometrie je jednou z důležitých aplikací matematické morfologie ve zpracování obrazů. Jedná se vlastně o hodnocení velikosti objektů obsažených v obraze, ovšem na nízké úrovni, obrazová data nejsou nijak interpretována. Definice 3.4.17. Buď B ⊆ Ω strukturní element. Potom jeho opakovanou dilataci Br definujeme vztahem: Br = B ⊕ . . . ⊕ B r-krát (3.56) Alternativně se Br zavádí jako strukturní element s exlicitně určenou závislostí velikosti na parametru r, např. jako kružnice o poloměru r. Výhodou takové explicitní definice může být vyšší výpočetní rychlost, nevýhodou je menší obecnost. 19 Rigoróznější a na matematickou morfologii zaměřená práce Shihova [17] uvádí tyto vztahy jako věty odvozené z výše uvedených definic, aplikačně zaměřená práce Gonzalese a Woodse [7] uvádí tyto vztahy jako definice 84 Definice 3.4.18. Buď B ⊆ Ω strukturní element. Pak definujeme morfologickou operaci Gr(f) nad obrazem A ⊆ Ω s obrazovou funkcí fA, která přiřazuje témuž nosiči jinou obrazovou funkci, předpisem: Gr(fA) := A ◦ Br (3.57) Definice 3.4.19. Buď A ⊆ Ω obraz, NA ⊆ Z2 jeho nosič a fA jeho obrazová funkce. Potom sumu (resp. integrál) obrazu definujeme jako: fA := (x,y)∈NA fA(x, y) (3.58) Definice 3.4.20. Buď A ⊆ Ω obraz a B ⊆ Ω strukturní element. Potom funkci g : Z → Z definovanou pro r = 1, 2, 3 . . . , R vztahem: g(r) = fA − Gr(fA) (3.59) nazveme granulometrické spektrum obrazu A. Takto zavedená funkce g(r) bude nabývat lokálních maxim právě tehdy, když bude strukturní element Br svými rozměry odpovídat detailům v měřeném obraze. Granulometrické spektrum tedy obsahuje informaci o velikosti opakujících se objektů, které se vyskytují v obraze. Hodnota R, kterou končí řada možných hodnot parametru r, má význam meze idempotence. Jakmile totiž dosáhle strukturní element velikosti srovnatelné s největším detailem obrazu, stane se granulometrické spektrum konstantním. Obvykle se používá šedotónové granulometrické spektrum, strukturní element B se však z důvodů výpočetní náročnosti volí binární. Granulometrické spektrum obsahuje informaci o velikosti částic v analyzovaném obrazu, tedy obsahuje informaci do jisté míry podobnou např. informaci obsažené ve Fourierovském spektru. 85 Obrázek 3.13: Aplikace binární morfologie – měření zloušťky podkoží. Obrázek demonstruje možnosti využití metod matematické morfologie pro analýzu ob- razu. Na snímku A je výchozí ultrazvukový řez gluteální krajinou mladé zdravé ženy. Výška snímku je 50 mm. Na snímku B je výsledek prahování. Jako prahovací hodnota byla zvolena hodnota mediánu. Na snímku jsou v oblasti odpovídající podkožnímu tuku patrny fragmenty odpovídající vazivovým septům. Přímočaře byl odstraněn horní pruh odpovídající jednak epidermis a jednak odrazům na rozhraní sondy a kůže. Na snímku C je výsledek aplikace morfologických operátorů dilatace a eroze s asymetrickými strukturními elementy. Na snímku D je plocha odpovídající podkožnímu tuku vyplněna šedou barvou. Změření hloubky šedé barvy je pak triviální záležitostí. Průměrná tloušťka kůže a podkoží je ve vyšetřované oblasti 324 px, což odpovídá 32.1 mm. 86 3.5 Zpracování ve frekvenční oblasti Zejména v teorii jednorozměrných signálů hraje velkou roli Fourierova transformace. Protože na obraz lze nahlížet jako na vícerozměrný signál, nachází i ve zpracování obrazů svoji úlohu vícerozměrná Fourierova transformace. Obvykle je však před uživatelem ukryta ve vlastní realici výpočtu, takže na rozdíl od předešlé kapitoly bude tato část pojata podstatně stručněji. Případný zájemce o problematiku nalezne dostatek literatury i v českém jazyce, zejména učební texty pro předmět Signály a soustavy elektrotechnických fakult bývají budovány tak, že by měl být matematický aparát srozumitelný čtenáři s matematickými znalostmi odpovídajícími znalostem z kvalitní střední školy. Běžný obraz se někdy nazývá prostorovým obrazem, hodnoty jasu jeho pixelů pak hodnotami v prostorové doméně (angl. spatial domain). Podobně jako jednorozměrné signály lze i vícerozměrné signály vyjádřit jako součet harmonických funkcí. Parametry harmonických funkcí představují vyjádření obrazu ve frekvenční doméně (angl. frequency domain). Některé operace lze snáze realizovat ve frekvenční oblasti, proto má tato oblast pro zpracování a analýzu obrazů mimořádnou důležitost. 3.5.1 Vzorkování Mimo filtraci má pohled ve frekvenční doméně mimořádnou důležitost v teoretických úvahách o vzorkování, tedy rozdělení spojité obrazové funkce na konečněrozměrnou matici pixelů. V případě biomedicínských obrazů je obvykle vzorkování, jež pro naše potřeby můžeme zredukovat na úvahy o fyzických rozměrech pixelu a o vztahu těchto rozměrů k rozměrům nejmenších detailů vyskytují se ve snímané scéně. I z této představy lze dospět k náhledu na nejběžnější problémy související se vzorkováním. Jistě si lze snadno představit, že detaily menší než je rozměr fyzického pixelu se ve výsledném obrazu ztratí. Mnohem zajímavější situace nastane v případě, kdy budou mít detaily velikost srovnatelnou s velikostí fyzického pixelu, tedy jejich prostorová frekvence bude srovnatelná s prostorovou frekvencí vzorkování. V tomto případě bude docházet k tomu, že se v navzorkovaném obraze objeví jako artefakt nová informace, která může vést ke zkreslení informace původní. Tomuto jevu se říká aliasing20 . Lze ukázat, že aby k aliasingu nedocházelo, musí být splněna podmínka, zvaná vzorkovací věta (vzorkovací teorém), která nese řadu jmen podle souběžných objevitelů (Claude Shannon, Vladimír Alexandrovič Kotelnikov, Harry Nyquist, Edmund Taylor Whittaker). V jednorozměrném případě je její formulace jednoduchá: fs > 2fmax (3.60) Tato věta vlastně říká, že vzorkovací frekvence fs musí být alespoň dvojnásobkem maximální frekvence ve vzorkovaném signálu. Za dodržení této podmínky obsahují vzorky 20 Snad nejznámějším projevem aliasingu je tzv. časový aliasing ve videosekvencí. Obvykle se označuje jako loukoťový efekt, protože jeho nejpatrnějším projevem je to, že se v historických filmech mohou kola kočárů otáčet zdánlivě proti směru jízdy. Vysvětlením je to, že vzorkování vyjádené počtem snímků za sekundu nepostačuje k zachycení děje s tak vysokou frekvencí. 87 veškerou informaci o vzorkovaném signálu. Nicméně aby bylo možno rekonstruovat vzorkovaný signál reálnými prostředky, musí být vzorkovací frekvence mnohem vyšší.21 V obecnějším pohledu se používá kruhová frekvence ω, pro kterou platí: ω = 2πf (3.61) Kruhová frekvence sice nemá tak intuitivní fyzikální význam, ovšem protože má význam parametrů Fourierova spektra, bývá běžné operovat právě s touto frekvencí. V případě vzorkování obrazů platí, že tato podmínka musí být splněna pro obě souřadnicové osy. Ve vyjádření pomocí maximálních kruhových frekvencí ve směru jednotlivých souřadnicových os (ωmax,x a ωmax,y) má věta pro rozměry fyzického pixelu ∆x a ∆y tvar: ∆x = π ωmax,x (3.62) ∆y = π ωmax,y (3.63) Aliasingu lze v principu zabránit tak, že se ve vzorkovaném signálu (obraze) frekvence, které nevyhovují vzorkovací věte, potlačí. Hrubě a ne zcela přesně si to můžeme představit tak, že se detaily, které by byly zodpovědné za vznik vzorkovacích artefaktů, „rozmazají . 3.5.2 Fourierova transformace Fourierova transformace je základní nástroj, který umožňuje rozložit signál na součet navzájem posunutých sinusovek. Řada operací lze snáze provádět na transformovaném sig- nálu. Před vlastním zavedením Fourierovy transformace je třeba připomenout komplexní čísla, protože se předpokládá, že typický čtenář tento pojem znát nemusí. 3.5.2.1 Komplexní čísla Komplexní čísla jsou rozšířením (doplněním) čísel reálných tak, aby měla každá kvadratická rovnice řešení. Významnou roli hraje číslo i22 , kterému se říká imaginární jednotka. Toto číslo je kladným řešením rovnice: x2 + 1 = 0 (3.64) Pro imaginární jednotku i tedy platí: i = √ −1 (3.65) Komplexní číslo z si lze představit jako dvojici reálných čísel a a b: z = a + bi (3.66) 21 Z toho důvodu není nikterak samoúčelné např. to, že digitalizované zvuky jsou vzorkovány s frekvencí podstatně vyšší než je 40 kHz. 22 Označení i je běžné v matematice a ve fyzice. V elektrotechnice se obvykle označuje jako j, údajně aby nehrozila záměna z elektrickým proudem. 88 Tvar komplexního čísla v rovnici 3.66 se nazývá algebraický nebo také složkový. Číslo a nazýváme reálnou částí a číslo b imaginární částí komplexního čísla z. Obě složky si lze představit i jako souřadnice bodu [a, b] v rovině23 . Pokud si představíme bod [a, b] jako koncový bod vektoru (a, b) s počátkem na souřadnicích [0, 0]. Takový vektor můžeme zadat i jeho modulem A a orientovaným úhlem ϕ, který svírá s osou x. Komplexní číslo lze pomocí těchto parametrů vyjádřit ve tvaru, kterému se říká tvar exponenciální: z = Ae−iϕ (3.67) Kladné reálné číslo A se v analýze signálů obvykle nazývá amplituda, reálné číslo ϕ ležící v nějakém předem pevně zvoleném intervalu < ζ, ζ + 2π > se nazývá fáze. 3.5.2.2 Jednorozměrná Fourierova transformace Fourierova transformace signálu f(t) je definována předpisem: F(u) = ∞ −∞ f(t)e−2πiu t dt (3.68) Výsledkem transformace je komplexní funkce F reálné proměnné u, která se nazývá Fourierův obraz funkce f. Za povšimnutí stojí především fakt, že proměnná u má význam kruhové frekvence. Fourierův obraz má řadu zajímavých vlastností. Zejména pak platí, že jde o sudou funkci, tedy že pro všechna u platí: F(−u) = F(u) (3.69) Pokud existuje nejaké ωmax takové, že pro všechna u > ωmax platí: F(u) = 0 (3.70) Od Fourierova obrazu, tedy obrazu ve frekvenční doméně, se k obrazu v prostorové doméně dostaneme pomocí inverzní Fourierovy transformace: f(t) = ∞ −∞ F(u)e2πiu t du (3.71) 3.5.2.3 Fourierova transformace diskrétního signálu Fourierova transformace posloupnosti (fn) je definována pomocí sumy: F(u) = 1 N ∞ n=−∞ fne−iu nT (3.72) 23 Tato rovina se nazývá Gaussova rovina a je asi nejběžnější názornou představou o tom, co vlastně jsou komplexní čísla. 89 Posloupnost komplexních čísel (Fn) je frekvenční reprezentací posloupnosti (ak). Zpět do prostorové domény se přejde inverzní transformací: fn = 1 2π π T − π T F(u)eiu nT du (3.73) 3.5.2.4 Diskrétní Fourierova transformace (DFT) Fourierova transformace diskrétního signálu je vlastně teoretickým východiskem k realizaci Fourierovy transformace vzorkovaného signálu. Vzorkování vlastně není nic jiného než náhrada spojité funkce, jejíž Fourierova transformace je popsána v odstavci 3.5.2.2, řadou, jejíž Fourierova transformace je popsána v odstavci 3.5.2.3. Navíc je požadováno, aby byl počet vzorků konečný, tedy aby byl výpočetně realizovatelný. Protože však vlastní výběr vzorků ovlivňuje charakter řady minimálně tím, že do řady vnáší periodicitu vzorkování, musí vlastní transformace toto reflektovat. K vlastnímu výpočtu je třeba matematicky modelovat vzorkování. K tomu slouží Diracova distribuce24 δ definovaná předpisem: δ(t) = +∞, t = 0 0, t = 0 (3.74) Výběr vzorku v čase τ je pak vlastně konvolucí (viz 3.2.1) signálu f(t) a Diracovy distribuce δ(t): f(τ) = ∞ −∞ f(t)δ(τ − t) dt = (f ∗ δ)(τ) (3.75) Pomocí Diracovy distribuce lze definovat vzorkovací signál v(t) s periodou T: v(t) = ∞ k=−∞ δ(t − kT) (3.76) Pomocí vzorkovacího signálu v(t) lze vyjádřit řadu vzorků fn signálu f(t) následujícím způsobem: fn = f(nT) = f(t)v(t) = ∞ k=−∞ f(kT)δ(nT − kT) (3.77) Z vlastností Fourierovy transformace plyne pro obraz vzorkované funkce FV (u): FV (u) = F {f(t)v(t)} = 1 2π F(u) ∗ V (u) (3.78) Kde F(u) a V (u) jsou Fourierovy obrazy původního spojitého signálu a vzorkovací funkce. 24 Distribuce jsou jistým rozšířením pojmu funkce. Vedle aplikace v teorii diskrétních signálů mají distribuce četné aplikace v řadě partií fyziky. 90 S přihlédnutím ke všemu výše uvedenému lze diskrétní Fourierovu transformaci vzorkovanou s periodou T a vzorkem délky N definovat následujícím vztahem: F(kΩ) = DFT {f(kT)} = N−1 n=0 f(nT)e−ikΩnT (3.79) Inverzní transformace je pak definována následujícím vztahem: f(nT) = DFT −1 {F(kΩ)} = 1 N N−1 k=0 F(kΩ)eikΩnT (3.80) Velmi důležitou vlastností Fourierovy transformace, která se přenáší i na diskrétní Fourierovu transformace, je linearita: DFT {k1f1(t) + k2f2(t)} = k1DFT {f1(t)} + k2DFT {f2(t)} (3.81) Při praktické realizaci je ovšem třeba brát na zřetel, že v důsledku zaokrouhlovacích chyb se může levá a pravá strana této rovnice nepatrně lišit. K vlastnímu výpočtu diskrétní Fourierovy transformace se obvykle používá algoritmu, který se označuje jako FFT (Fast Fourier Transform). Pro realizaci tohoto výpočtu je třeba, aby měl vzorek délky N, pro kterou platí následující podmínku: N = 2m m ∈ N (3.82) 3.5.2.5 Funkce okna Protože diskrétní Fourierova transformace pracuje pouze ze vzorkem konecné délky. Vzorek se může dále upravit tak, že se vynásobí oknem, které může např. snížit vliv vzorků ležících dále od středu výběru. Oken se používá řada typů, například následující: • obdélníkové okno – vzorek se vlastně nijak neupravuje • Hannovo okno – často používané okno, jeho aplikace se nazývá hanning. Okenní funkce je definována vztahem: wHann(n) = 1 2 1 − cos( 2πn N ) (3.83) • Hammingovo okno: wHamming(n) = 0.54 − 0.46 cos( 2πn N ) (3.84) • Lanczosovo okno: wLanczos(n) = sin(2n N ) 2n N (3.85) 91 3.5.2.6 Diskrétní Fourierova transformace digitálního obrazu Digitální obraz je vlastně matice s prvky (amn) a o rozměrech M ×N. Diskrétní Fourierovu transformací je matice komplexních čísel F(u, v) o rozměrech M ×N definovaná předpisem: F(u, v) = 1 MN M−1 m=0 N−1 n=0 amne−i2π(um M +v n N ) (3.86) Inverzní Fourierova transformace je definována vztahem: amn = M−1 m=0 N−1 v=0 F(u, v)ei2π( um M +v n N ) (3.87) Fourierův obraz je maticí komplexních čísel, i o této matici se hovoří jako o spektru. Pokud chceme vizuálně hodnotit Fourierovské spektrum obrazu, dostáváme se do svízelné situace. Komplexní číslo totiž lze jen velmi obtížně zobrazit jako jednu vlastnost bodu, která by byla dobře vnímatelná. Proto se obvykle zobrazuje jen část informace: • spektrum reálných složek • spektrum imaginárních složek • spektrum amplitudové • spektrum fázové • spektrum výkonové Grafické programy obvykle zobrazují spektrum amplitudové (viz obr. 3.14), byť i ve fázovém spektru mohou být ukryty zajímavé informace o obraze. Z výše uvedeného vyplývá, že i když např. ImageJ umožňuje manuální zásahy do amplitudového spektra, není tato cesta ke zpracování obrazu zcela optimální. Skutečný význam mají pouze programově realizované frekvenční filtry. Rozlišujeme čtyři základní typy frekvenčních filtrů: • horní propusť • dolní propusť • pásmová propusť • pásmová zádrž 3.5.2.6.1 Horní propusť je filtrem, který selektivně potlačuje nízkofrekvenční informace. Protože na vysokých frekvencích je nesena především informace o detailech, znamená filtrace horní propustí zvýraznění detailů. 92 3.5.2.6.2 Dolní propusť je filtrem, který selektivně potlačuje vysokofrekvenční informace. Vedle detailů je na vysokých frekvencích nesen především šum. Potlačením vysokých frekvencí tedy dochází jednak ke korekci šumu a jednak k setření drobných detailů. 3.5.2.6.3 Pásmová propusť je filtr, který z obrazu odstraní všechny informace, které nejsou obsaženy v úzkém frekvenčním pásmu. Toho může být využito například v analýze textury. 3.5.2.6.4 Pásmová zádrž je filtr, který z obrazu odstraní právě ty informace, které jsou neseny frekvencemi z určitého pásma. Filtr má význam především při redukci konkrétní frekvence, o které víme, že je především artefaktem. 93 Obrázek 3.14: Amplitudové spektrum. Na prvním řádku je amplitudové spektrum a jemu odpovídající obraz ultrazvukového snímku fantomu. Na dalších snímcích jsou ze spekter odstraněny vysoké (střední řádek) resp. nízké frekvence (dolní řádek). Jedná se o manuální zásahy do spektra pomocí programu ImageJ. 94 Kapitola 4 Biomedicínské obrazy V této kapitole na několika příkladech demonstrujeme, jak konkrétně lze v biomedicíně využít analýzu nebo zpracování obrazové informace ke zlepšení diagnostického procesu. Jedná se pouze o letmý výběr zajímavých aplikací, protože se jedná o dynamicky se rozvíjející oblast, není je výběr proveden pouze podle subjektivního klíče zajímavosti a snadné pochopitelnosti vlastní myšlenky. 4.1 Úpravy biomedicínských obrazů 4.1.1 Korekce šumu Korekce šumu patří mezi základní úlohy ze zpracování obrazu. Šum je vlastně nežádoucí informace, která se k obrazu přidala během přenostu nebo zpracování vlivem náhodných poruch. Důležité je uvědomit si to, že obecně nemůžeme rozlišit užitečnou informaci od šumu, takže je správné hovořit o korekci šumu, protože obvyklým výsledkem korekce je i jisté poškození původního obrazu. V ideálním případě má šum normální nebo alespoň symetrické rozdělení s nulovou střední hodnotou. Potom lze takový šum snadno potlačit tím, že přijmeme tentýž obraz, o kterém předpokládáme, že byl vysílán bez poruch, několikrát. Jako přijatý obraz pak prezentujeme vhodný průměr všech přijatých obrazů. Nevýhodou takového přistupu je jeho nehospodárnost a někdy i rizikovost. Není třeba možné provádět 100× CT hlavy jen aby byl korigován šum. Proto je většina metod korekce šumu postavena na statistické analýze jednoho jedniného obrazu. Šum se vyznačuje tím, že jde o vysokofrekvenční signál, takže lze eliminovat vhodným filtrem typu dolní propust. Toto ovšem vede k porušení detaitů v obraze a tím i k jistému „rozmazání obrazu. Zvláštním typem šumu je šum typu pepř a sůl. Ten vzniká tak, že jsou do obrazu náhodně přimíchány pouze černé a bílé pixely. Takovýto šum mohl vzniknout např. tím, že se digitalizuje fotografický snímek, na němž během zpracování (vyvíjení a ustalování) ulpěly drobné nečistoty. Takovéto poruchy imponují jako drobné bílé nebo černé skvrnky. 95 Mediánový filtr takovéto poruchy eliminuje, přičemž jen poměrně málo poškodí hrany. Vizuální vylepšení takovéhoto obrazu může být někdy značné, protože šum typu pepř a sůl je subjektivně vnímán jako velmi rušivý. 4.1.2 Zvyšování kontrastu Subjektivní zvyšování kontrastu je jednou z technik, které umožňují lepší vnímání obrazu. Ke zvýšení kontrastu lze použít dvou cest: 1. detekce hran 2. analýza textury 4.1.2.1 Zvýšení kontrastu detekcí hran Zvýšení kontrastu pomocí detekce hran je obvyklým způsobem. Princip je velmi jednoduchý. Hranovým detektorem si získám obraz obsahující zdůrazněné hrany a tento obraz pak sloučím s obrazem původním. Vyšší jas v místech hran způsobí, že lidské oko bude hrany vnímat jako ostřejší a výraznější. Nevýhodou tohoto přístupu je to, že obraz již musí hrany obsahovat. Obraz, ve kterém se plochy liší složitějším texturním vzorem, bude takto jen obtížně zpracovatelný. 4.1.2.2 Zvýšení kontrastu analýzou textury Některé modality neposkytují obraz s poměrně homogenními plochami, ale jednotlivé tkáně se liší především texturou. Klasickým příkladem je ultrazvukový obraz, který homogenní plochy s výjimkou ploch anechogenních prakticky neposkytuje. V takovém případě lze k subjektivnímu zesílení kontrastu použít několika přístupů využívajících analýzy textury. Principiálně nejjednodušším přístupem je segmentace obrazu podle podobnosti textury. Jako hrany, které se vloží do původního obrazu, se pak použijí hranice mezi jednotlivými oblastmi. Tento přístup poskynuje jasné a ostré hranice umožňující snadnou biometrii sledovaných orgánů nebo lézí. Jeho snad jedinou nevýhodou je to, že takto vložené hrany jsou poměrně tvrdé a mohou působit subjektivně rušivým dojmem. Alternativní přístupy jsou méně obvyklé a mají charater spíše výsledků jednotlivých publikací než klinicky široce používaného přístupu. Jednou z možností je použití je podbarvení vhodné oblasti vyšším jasem nebo barvou, která se v daném obraze nemůže vyskytnout, na ultrazvukovém snímku je toto demonstrováno na obrázku 3.11. Další a ještě méně obvyklou možností je homogenizace oblasti obvykle pomocí šedotónových morfologických operátorů kombinovaných případně s dalšími filtry. Tento přístup však představuje tak hrubý zásah do vlastního snímku, že většina klinických pracovníků nebude takovému snímku příliš důvěřovat. Příklad takto upraveného snímku je na obrázku 4.1. 96 Obrázek 4.1: Vyhlazení ploch pomocí morfologických operátorů. Na prvním snímku je ultrazvukový obraz fantomu – koagulované koňské krve v želatině. Na tento snímek byla aplikována řada šedotónových dilatací a erozí, obraz byl několikrát rozostřen Gaussovským filtrem a následně byl upraven jas a kontrast tak, aby dynamický rozsah snímku odpovídal bitové hloubce obrazu. Cílem všeho byla přijatelná homogenizace textury (vpravo nahoře). Snímek homogenizované textury byl dále upraven hranovým detektorem (snímek vlevo ve střední řadě). Sloučením snímku obsahujícího hrany a snímku původního vznikl snímek, který by měl zdůrazňovat hrany (snímek vpravo ve střední řadě). Za povšimnutí stojí především fakt, že tento přístup sice zdůraznil hrany, ale vnesl řadu artefaktů a výsledek není navzdory výpočetní náročnosti subjektivně příliš uspokojivý. V dolní řadě je výchozí snímek filtrovaný běžným průměrovým filtrem o větším průměru masky (vlevo dole) a sloučení výchozího snímku s hranami detekovanými v tomto snímku (vpravo dole). Výsledek je subjektivně mnohem lepší. Toto je hezkou ukázkou toho, že v řadě případů představuje příliš sofistikovaný přístup pouze náročnější výpočet a kvalita výsledku neodpovídá snaze. Je obšem třeba zdůraznit, že náročnost výpočtu si v některých případech vynucuje to, že jednoduché lineární metody nemusí být natolik robustní. 97 4.1.3 Použití nepravých barev Nepravé barvy představují jeden z pokusů, jak obejít omezení lidského oka, které nám umožňuje rozlišit v jednom obraze pouze omezený počet stupňů jasu jedné barvy. Celá myšlenka je taková, že se podle vhodného klíče převedou stupně šedi na barvy tak, aby byly vnímány alespoň přibližně jako jedna uspořádaná řada jdoucí od barev „tmavších k barvám „světlejším . Klíč k převodu se obvylke nazývá LUT (zkratka z LookUp Table). Obrázek 4.2: Příklady použití nepravých barev. Na prvním snímku je ultrazvukový obraz fantomu – koagulované koňské krve v želatině. Tento snímek byl postupně zobrazen pomocí LUT integrovaných do ImageJ a pojmenovaných spectrum, fire a Rainbow RGB. 98 4.1.4 Fúze obrazů Fúze neboli spojení obrazů je další z řady principiálně jednoduchých operací s obrazem, které mají mimořádně široké použití. Matematicky se fúze obrazů f a g provede následujícím způsobem: (f + g)(x, y) := αf(x, y) + βg(x, y) (4.1) Váhy α a β definují chování výsledného obrazu. Obvyklým požadavkem je, aby byl jejich součet jedna, potom je totiž nižší riziko, že dojde k tomu, že výsledný obraz bude obsahovat pixely, u kterých došlo k ořezání hodnoty jejich jasu. Pokud chceme obrazy spojit rovným dílem, volíme obvykle obě váhy rovné jedné polovině. Pokud je jeden obraz důležitější a druhý méně, tedy např. pokud spojujeme obraz a výsledek filtrace hranovým detektorem, volíme u důležitějšího obrazu přiměřeně vyšší honotu váhy. Mimořádně důležitou volbou je volba α = 1 a β = −1, tedy vlastně odečítání obrazů. Tohoto se využívá zejména v digitální subtrakční angiografii (DSA), díky které lze získat rentgenový snímek cév i při relativně nízké zátěži pacienta jak ionizujícím zářením tak i kontrastní látkou (viz obr. 4.4). Zvláštním způsobem fúze obrazů je morphing. Vychází z warphingu, tedy cílených deformací obrazu podle uživatelem zadaných parametrů. Morphing je vlastně hledání cesty mezi dvěma obrazy, přižemž kroky na jednotlivé cestě jdou cíleně warphované obrazy. Zatímco v počítačové grafice zaměřené spíše na zábavní průmysl má toto poměrně široké uplatnění, v biomedicíně je uplatnění sporadické. Nabízí se sice možnost hledání pravděpodobných mezistavů mezi např. zdravým a patologicky změněným orgánem, ale zde je výraznou limitací to, že jde pouze o manipulaci s obrazem, která ve svém základním provedení nezohledňuje fyzikální ani biologická omezení, takže se lze velmi snadno dostat na zcestí, jak demonstruje obrázek 4.3. Obrázek 4.3: Morphing, jehož mezikroky zjevně nemají biologický smysl zdroj: http://commons.wikimedia.org, File:Bush-Arnie-morph.jpg 99 Obrázek 4.4: DSA lebky – aneurysma jako projev Takayasuovy arteritidy. Digitální subtrakční angiografie se běžně používá ke získání informací o průběhu cévního řečiště v lebce. I při použití kontrastní látky je denzita cév stále podstatně nižší než denzita kostí lebky a proto by lidské oko nedokázalo postřehnout výraznější rozdíl mezi zastíněním lebky a zastíněním způsobeným lebkou a cévou naplněnou kontrastní látky. Řešením může být použití jiné modality schopné zachytit cévu, tedy CR nebo MRI, ovšem nevýhodou je vyšší cena a v případě CT i podstatně vyšší radiační zátěž. Proto se problém řeší pomocí zpracování obrazů. Za stejných podmínek se pořídí snímek lebky nativní a snímek lebky po podání kontrastní látky do cévního řečiště. Lidské oko rozdíl prakticky nepostřehne, ale pokud se tyto obrazy odečtou a upraví se jas a kontrast, je cévní řečiště patrné na první pohled. Na snímku je patrné aneurysma (vakovité rozšíření) na pravé arteria cerebralis anterior. Mozkové krvácení představovalo první projev Takayasuovy arteritidy u osmnáct měsíců staré dívky. Neobvykle časný začátek choroby (obvykle se Takayasuova arteritida objevuje u žen ve věku kolem 40 let) vedl k tomu, že definitivně byla diagnóza stanovena až autoptickým vyšetřením, když pacientka ve věku dvou let chorobě podlehla. zdroj: [20]. 100 4.2 Hodnocení kvality zobrazovacích metod Kvalita zobrazení konkrétní zobrazovací metodou je vyjádřením rozdílu mezi výsledkem zobrazení a očekávaným stavem. Tento rozdíl můžeme hodnotit subjektivně nebo objek- tivně. Subjektivní hodnocení znamená, že hodnotíme pouze subjektivně vnímanou odchylku výsledného obrazu od nějakého víceméně „intuitivního očekávání. Pokud hodnotí zkušený pozorovatel, může být subjektivní hodnocení uspokojivé, ovšem pokud hodnotící pozorovatel postrádá zkušenosti, může být jeho hodnocení krajně zavádějící. Například ultrazvuku neznalý hodnotitel by mohl pokládat upravený obraz na obrázku 4.1 za kvalitnější, ač došlo úpravou k poškození a snadno by se podobnou úpravou ztratila i diagnosticky cenná informace. Objektivní hodnocení je takové hodnocení, které je jen minimálně závislé na osobě hodnotitele. Pro úplnost je třeba zdůraznit, že ideální stav, který porovnáváme ze získaným obrazem, může být také do jisté míry subjektivní informací, ale vliv subjektu lze poměrně úspěšně eliminovat např. použitím fantomu. Objektivní analýza je založena na analýze dílčích aspektů zobrazení. Obvykle se hodnotí následující parametry: • prostorové rozlišení • časové rozlišení • energetické rozlišení • linearita převodu zobrazovaného parametru • linearita převodu poziční souřadnice • homogenita procesu zobrazení 4.2.1 Prostorové rozlišení Prostorové rozlišení udává schopnost zobrazovacího systému rozlišit nejmenší detail scény. Prakticky se prostorové rozlišení stanovuje tak, že se pořídí obraz fantomu, jehož rozměry umožňují pokládat jej za bod nebo přímku. Obraz fantomu se nazývá Point Spread Function1 (PSF) v případě bodového fantomu a Line Spread Function (LSF) v případě přímkového fantomu. Point spread function je v běžných případech symetrická podle svého středu, uprostřed má globální maximum. Jako koeficient prostorového rozlišení se pak zavádí vzdálenost mezi body, kde nabývá point spread function právě poloviny svého globálního maxima. Koeficient prostorového rozlišení se označuje zkratkou FWHM (Full Width at Half Maximum). 1 K anglickému pojmu Point spread function se, alespoň podle znalostí autorů, nepoužívá žádný český ekvivalent, snad jedině česky hláskovaná zkratka, tedy „pé–es–ef . 101 V případě tomografických systémů, tedy např. CT nebo konfokální mikroskop, je důležitým parametrem i tloušťka jednoho tomografického řezu (tomovrstvy). Tloušťka tomovrstvy může být výrazně odlišná od koeficientu prostorového rozlišení, protože může záviset i na jiných fyzikálních a technických parametrech zobrazovacího systému. 4.2.2 Časové rozlišení Časové rozlišení je důležitým parametrem v případě, že jsou zobrazovány pohybující se struktury. K hodnocení časového rozlišení se používá obvykle frekvence snímků. Někdy lze využít ke zlepšení časového rozlišení toho, že řada biologických dějů vykazuje značnou periodicitu a tu lze měřit. Nejlépe to lze demonstrovat na radioizotopovém vyšetření plnění komor myokardu. Pokud bychom podali pacientovi takové množství radiofarmaka, aby bylo možno získat videosekvenci, jejíž jeden snímek by odpovídal desítkám milisekund, byla by radiační zátež neúměrně vysoká. Jestliže však detekci synchronizujeme s EKG, pak lze získat řadu snímků. Obsah jednoho jediného takového snímku může být neinterpretovatelný z důvodu malého počtu detekovaných rozpadů, ale protože získáme řadu snímků ve stejné fázi srdečního cyklu, můžeme jejich sumací získat věrohodný obraz aktivity v srdeční dutině v daném okamžiku. 4.2.3 Energetické rozlišení Energetické rozlišení je parametrem charakterizujícím citlivost detektrou. Nejjednodušším vyjádřením energetického rozlišení je minimální citlivost detektoru (práh detektoru), tedy nejmenší relevantní signál na vstupu, který vyvolá měřitelnou odezvu. Použitelnost tohoto parametru limituje množství šumu přítomné za běžných podmínek. Proto je třeba stanovit i úroveň šumu a hodnotit poměr signálu a šumu. 4.2.4 Linearita převodu V ideálním případě by mělo být zobrazení lineární z hlediska zobrazovaného parametru i z hlediska souřadnic. Linearitu z hlediska parametru lze demonstrovat na termografii. Je-li termografie linerární z hlediska teploty, znamená to, že mají-li dva libovolné body teplotu T a αT, pak jsou tyto body zobrazeny na body o jasu J a αJ. Ze zvoleného příkladu je jasné, že v libovolném rozsahu nemůže být lineární žádná metoda, proto je požadavek linearity z hlediska zobrazovaného parametru celkem logicky omezen pouze na užitečný rozsah vstupních hodnot. Linearita z hlediska parametru je tedy důležitá z hlediska posuzování rozdílného charakteru dvou bodů. V praxi není třeba linearitu vzhledem k parametru striktně vyžadovat, byť nelinearita může komplikovat interpretaci výsledků některých dalších operací s obrazem. Linearita z hlediska souřadnic představuje totéž, ovšem ve více rozměrech. Názorně si lze linearitu z hlediska souřednic představit tak, že mají-li dvě libovolně orientované úsečky délku d a βd, pak jejich obrazy mají délky ∂ a β∂. Protože takové úsečky mohou 102 být orientovány skutečně libovolně, zaručuje linearita z hlediska souřadnic i zachování vzájemného úhlu. Nelinearita vzhledem k souřadnicím znamená, že se obraz rozložení oproti skutečnosti deformuje. To může představovat bezprostřední problém pro využití informací a proto je třeba tuto nelinearitu řešit. Ke kvantifikaci nelinearity lze použít několik přístupů. Z teoretického hlediska jsou nejběžnějšími maximální a integrální odchylka od ideálního lineárního průběhu. Prakticky lze použít například reziduální odchylku získanou statistickou analýzou naměřených vzorků. 4.2.5 Homogenita procesu zobrazení Homogenita procesu zobrazení znamená, že parametry jako citlivost jsou v celém zobrazovaném prostoru stejné. Homogenita může být narušena buď samotným principem zobrazovací metody nebo stárnutím detektoru. Například ultrazvukové zobrazení pomocí konvexní nebo sektorové sondy je z principu nehomogenní, protože dochází k útlumu procházejícího ultrazvuku a k jeho divergenci. Nicméně tyto faktory jsou známy a jsou kompenzovány tak, že výsledný uživatel je od této nehomogenitky prakticky odstíněn. Na druhou stranu vlivem stárnutí ultrazvukové sondy může docházet k výpadkům nebo ke změnám parametrů jednotlivých elektroakustických měničů a tím dochází ke zkreslování obrazu. Protože poruchy elektroakustických měničů mají náhodný charakter, dochází ke vzniku nehomogenity, kterou nelze bezpečně predikovat. Při vhodném proměření sondy však lze tuto nehomogenitu taktéž popsat a v některých případech taktéž kompenzovat. 4.3 Počítačová podpora diagnostiky Mezi jednu z nejzajímavějších aplikací metod analýzy obrazové informace patří počítačová podpora diagnostiky. Záměrně píšeme o počítačové podpoře diagnostiky a nikoliv o počítačové diagnostice nebo o automatizované diagnostice, protože mezi těmito pojmy je jistý nikoliv nepatrný rozdíl. Zatímco počítačová diagnostika je postup, kdy počítač, tedy počítačový program, je černou skříňkou, která na vstupu dostane data o pacientovi a na výstupu prezentuje nejpravděpodobnější diagnózu, počítačem podporovaná diagnostika je rozšířením předešlého o schopnost vysvětlit příslušný výsledek. Jiný pohled je takový, že počítačová diagnostika stanoví direktivně diagnózu, zatímco počítačem podporovaná diagnostika navrhuje možnosti, zdůvodňuje je, ale konečná diagnóza je plně v rukou obsluhy, tedy lékaře. Vlastní princip počítačové podpory diagnostiky si demonstrujeme tak, že si hrubě popíšeme kroky, v jakých by probíhalo sestavení. 4.3.1 Volba příznakový vektorů Vstupem programu, který provede diagnózu, je řada znaků a čísel popisujících příslušný stav pacienta. V našem případě jde o digitalizovaný obraz nějaké léze, u které nás zajímá 103 její biologický význam. Digitalizovaný obraz je vlastně maticí čísel, takže by se mohlo zdát, že postačuje na vstup vložit tento obraz. Ovšem toto není zcela správná myšlenka, protože jde o poměrně rozsáhlý počet čísel a vztahů mezi nimi, takže obsluha by byla výpočetně velmi náročná. Proto se počet vstupních dat redukuje tím, že se léze popíše několika čísly, které by měly charakterizovat její obraz a přitom být pokud možno invariantní vůči běžně proměnlivým technickým parametrům. Obraz léze obvykle nejlépe charakterizuje její tvar a textura lézi vyplňující. Pro ilustraci takového parametru si můžeme představit útvar podobný elipse, což může být v praxi řez žlučníkem nebo lymfatickou uzlinou. Takovýto útvar lze popsat například pomocí délek poloos, ovšem tyto parametry budou závislé na zvětšení – tedy např. v ultrazvukovém obraze bude hodnota záviset na nastavení hloubky. Pokud však vezmeme jako parametr popisující tvar poměr délek obou poloos nebo třeba poměr obvodu a obsahu (tzv. cirkularitu), nebude hodnota parametru záviset na zvětšení. Podobně konkrétně u ultrazvuku řada texturních měr závisí na nastavení zisku. Zde je situace poněkud složitější, protože výpočet řady texturních měr postrádá snadno uchopitelný intuitivní smysl. Pro případné aplikace je tedy nejlepším řešením experimentální ověření toho, v jakém rozsahu nezávisí používané texturní míry na nastavení zisku. Situaci komplikuje i to, že ultrazvukový obraz může být předzpracován řadou filtrů tak, aby subjektivně lépe vypadal, takže výsledek se může mezi jednotlivými přístroji poněkud lišit. Z výše uvedeného vyplývá, že i samotná volba parametrů popisujících tvar a texturu není triviální záležitostí. V ideálním případě by měla být prováděna za koordinace klinika, který nejlépe posoudí, co má smysl hodnotit, informatika, který nejlépe posoudí, které parametry budou v rámci daných podmínek invariantní, a biomedicínského technika, který nejlépe posoudí, zda nebude problémem variabilita mezi jednotlivými přístroji. V některých případech se tímto způsobem dospěje k poměrně malému počtu příznaků. Na tyto příznaky se lze dívat jako na souřadnice vektoru z vektorového prostoru vyšší dimenze. Nejde o samoúčelnou hříčku, řada metod využívajících příznakového vektoru je založena na metodách lineární algebry. V jiných případech je počet příznaků stále neúměrně vysoký a tak je třeba provést nějakou formu redukce příznaků. K redukci příznaků lze použít několika přístupů, volba konkrétního přístupu je dána spíše zvyklostmi a zkušeností. Při redukci parametrů je ovšem třeba mít k dispozici vzorky možných výsledků. K redukci počtu proměnných se používají především metody matematické statistiky, jakou je např. analýza hlavních komponent (Principal Component Analysis – PCA). PCA je založena na tom, že se z původních parametrů vypočítají parametry nové tak, že dokáží stejně rozlišit vstupní data. Nových parametrů je ovšem podstatně méně. Velkou výhodou PCA je i to, že je implementována v běžném statistickém software, tedy je běžně dostupná na každém pracovišti2 . Méně obvyklé postupy redukce parametrů jsou založeny např. na použití genetických algoritmů, tedy počítačové simulace evoluce. Parametry jsou voleny tak, aby byl evolucí optimalizován počet parametrů. 2 Jeden z nejlepších statistických programů R je k dispozici pod licencí GNU-GPL, tedy jej lze používat bezplatně. 104 4.3.2 Expertní a konzultační systémy Přesná definice expertního systému nejspíše neexistuje. V literatuře se lze setkat jak s pojetím poměrně volným, tedy pojetím jakéhokoliv programu, který netriviálním způsobem napodobuje činnost experta napříkad v diagnostice nebo v plánování, tak i pojetím striktním, které nápodobu (simulaci) činnosti experta spojuje pouze s konkrétní architekturou. Příznakový vektor zavedený v předešlém odstavci je vhodným vstupem pro expertní systém, který se pokusí podle příznaků určit pravděpodobnou diagnózu. Takováto informace samozřejmě v praxi představuje problém. Za konečnou diagnózu je totiž plně odpovědný lékař, takže se jen s obtížemi může spolehnout na výstup počítačového programu. Z toho důvodu se na expertní systém nahlíží spíše jako na názor kolegy. Aby byl takový názor vůbec akceptovatelný, musí být podložen argumenty. To znamená, že expertní systém by měl být schopen zdůvodnit, na základě jakých procesů dospěl k tomu, že příznakový vektor odpovídá s největší pravděpodobností dané diagnóze. Vzhledem k architektuře řady expertních systémů toto není až tak samozřejmou vlastností, jak by se možná na první pohled zdálo. Pro označení expertních systémů, které mají schopnost zdůvodnit své závěry, se tedy někdy používá systém konzultační systémy. Diagnostický expertní systém v úzce pojaté architektuře se skládá z následujících prvků: • báze znalostí • báze dat • inferenční mechanismus Báze znalostí představuje soubor základních znalostí a pravidel obecného charakteru především z dané oblasti. Tyto znalosti nemusí být nezbytně přesné, báze znalostí může obsahovat i neurčité znalosti a pravděpodobnostní pravidla. Báze dat obsahuje informace o aktuálně řešeném problému. Inferenční mechanismus zajišťuje nalezení vlastního řešení tím, že využívá informace z báze znalostí i báze dat. Vlastní realizace báze znalostí může být založena na několika principech. Nejčastěji používanými principy jsou: • predikátová logika – automatické odvozování z axiomů, realizováno obvykle v jazyce Prolog • produkční pravidla – speciální tvar logických pravidel ve tvaru: p1 ∧ p2 ∧ . . . ∧ pn → d (4.2) • asociativní sítě – jednotlivé poznatky jsou uzly v grafu, ohodnocené hrany pak představují vztahy • rámce – složité datové struktury sdružující informace o objektech a vzájemných vztazích mezi objekty 105 Počítatová podpora diagnostiky představuje oblast, kde se stýká medicína, umělá inteligence a analýza obrazu. Širokého uplatnění zde nacházejí metody známé jako počítačové vidění. Většina výsledků je prozatím na úrovni experimentů, nicméně je publikováno velké množství výsledků, takže lze předpokládat, že se čtenář-student s problematikou během své profesní dráhy setká. Problematika však dalece překračuje rámec tohoto textu a proto lze případého zájemce o technické detaily odkázat na vynikající pentalogii Umělá inteligence, jejímiž editory jsou Vladimír Mařík, Olga Štěpánková a Jiří Lažanský. 106 Kapitola 5 Software V této kapitole podáme stručný přehled vybraných programů, které si může čtenář beplatně pořídit a vyzkoušet si tak analýzu a zpracování obrazových dat v praxi. 5.1 GIMP GIMP je program sloužící především k vytváření a editaci rastrových obrazů. Je volně dostupný pod licencí GNU GPL, je běžnou součástí nejrozšířenější Linuxové distribuce Ubuntu, ovšem existují porty i pro jiné operační systémy. Z hlediska analýzy a zpracování obrazu je zajímavé především to, že umožňuje provádět konvoluci s uživatelsky definovaným jádrem a umí základní operace matematické morfologie. • Domovská stránka: http://www.gimp.org/ • Česká stránka: http://www.gimp.cz/ 5.2 ImageJ ImageJ je program pro analýzu a zpracování vědeckých obrazových dat, který byl vyvinut na National Institutes of Health (USA). Je volně dostupný pod licencí Public Domain. Používá se především při analýze mikroskopických obrazů, ovšem jeho použití je mnohem širší. Jeho obrovskou výhodou je to, že je napsán v jazyce Java, který umožňuje bezproblémové spouštění pod prakticky všemi používanými operačními systémy. Další výhodou je otevřenost a modularita kódu, díky které může kdokoliv vytvářet nové moduly – pluginy – doplňující funkcionalitu. Široká komunita uživatelů pak znamená, že v případě problémů lze vznést na příslušných diskuzních serverech dotaz a je velká pravděpodobnost, že se tazatel v krátké době dočká užitečné odpovědi. • Domovská stránka: http://rsb.info.nih.gov/ij/ • Dokumentační Wiki: http://imagejdocu.tudor.lu/ 107 5.3 Octave Octave, přesněji GNU Octave, je matematický programovací jazyk vysoké úrovně. Vysokou úrovní je myšleno to, že jeden příkaz jazyka představuje poměrně komplexní činnost, například výpočet diskrétní Fourierovy transformace nebo vyřešení soustavy rovnic. Šířen je pod licencí GNU GPL, tedy je volně dostupný každému. Octave není primárně určen ke zpracování obrazů, pro použití je třeba přidat balík image. • Domovská stránka: http://www.gnu.org/software/octave/ • Česká stránka: http://www.octave.cz/ • Balík image: http://octave.sourceforge.net/image/index.html Pravdou je, že ovládání z příkazové řádky a potřeba ovládat alespoň základní principy procedurálního programování může představovat pro většinu čtenářů jistou komplikaci. Ovšem pokud se laskavý čtenář pohrouží do studia analýzy obrazu hlouběji, tak zjistí, že pokud bude chtít pracovat s analýzou obrazu samostatným a přitom dostatečně tvořivým způsobem, je velmi pravděpodobné, že dříve či později dostane k problému, na jehož řešení nenalezne vhodný plugin do ImageJ a nebude mít k dispozici informatika, který by mu jej v Javě napsal. Pak přijde ke slovu právě nějaký vysokoúrovňový jazyk schopný provádět i manipulace s obrazy. Po překonání prvotních obav a nejistoty je totiž práce s takovým jazykem z jistého úhlu pohledu snazší než práce s plně grafickým prostředím. 108 Literatura [1] Radiopaedia.org. http://radiopaedia.org/. [2] Wikimedia Commons. http://commons.wikimedia.org/. [3] Haim Azhari. Basics of Biomedical Ultrasound for Engineers. John Wiley & Sons, 2010. [4] Alfonso Baldi, Raffaele Murace, Emanuele Dragonetti, Mario Manganaro, Oscar Guerra, Stefano Bizzi, and Luca Galli. Definition of an automated content-based image retrieval (cbir) system for the comparison of dermoscopic images of pigmented skin lesions. BioMedical Engineering OnLine, 8(1):18, 2009. [5] Valcinir Bedin, Randall Adam, Bianca de Sa, Gilles Landman, and Konradin Metze. Fractal dimension of chromatin is an independent prognostic factor for survival in melanoma. BMC Cancer, 10(1):260, 2010. [6] Geoff Dougherty. Digital Image Processing for Medical Applications. Cambridge University Press, 2009. [7] Rafael C. Gonzalez and Richard E. Woods. Digital Image Processing. Pearson Prentice Hall / Pearson Education Inc., 3 edition, 2008. [8] Václav Hlavá´c and Miloš Sedláček. Zpracování signálů a obrazů. Nakladatelství ČVUT, 2 edition, 2007. [9] Jiří Jan. Číslicová filtrace, analýza a restaurace signálů. John Wiley & Sons, 2 edition, 2002. [10] Michel Jondet, Regis Agoli-Agbo, and Louis Dehennin. Automatic measurement of epithelium differentiation and classification of cervical intraneoplasia by computerized image analysis. Diagnostic Pathology, 5(1):7, 2010. [11] Petr Králíček. Úvod do speciální neurofyziologie. Galen, 3 edition, 2011. [12] Vladimír Mařík, Olga Štěpánková, et al. Umělá inleligence 1. Academia, 1993. [13] Vladimír Mařík, Olga Štěpánková, et al. Umělá inleligence 2. Academia, 1997. 109 [14] Radiological Society of North America. Dicom: The value and importance of an imaging standard. http://www.rsna.org/Technology/DICOM/index.cfm, 2011. [15] Radiological Society of North America. Dicom: The value and importance of an imaging standard. http://dicom.nema.org/, 2011. [16] Lawrence O’Gorman, Michael J. Sammon, and Michael Seul. Practical Algorithms for Image Analysis with CD-ROM. 2 edition, 2007. [17] Frank Y. Shih. Image Processing and Mathematical Morphology: Fundamentals and Applications. CRC Press, 2009. [18] Sebastian Valbuena, Greg O’Toole, and Eric Roulot. Compression of the median nerve in the proximal forearm by a giant lipoma: A case report. Journal of Brachial Plexus and Peripheral Nerve Injury, 3(1):17, 2008. [19] Luiz Velho, Alejandro C. Frery, and Jonas Gomes. Image Processing for Computer Graphics and Vision. Springer Publishing Company, Incorporated, 2nd edition, 2008. [20] Pamela Weiss, Diana Corao, Avrum Pollock, Terri Finkel, and Sabrina Smith. Takayasu arteritis presenting as cerebral aneurysms in an 18 month old: A case report. Pediatric Rheumatology, 6(1):4, 2008. [21] Jiří Žára, Bedřich Beneš, Jiří Sochor, and Petr Fekel. Moderní počítačová grafika. Computer Press, 2 edition, 2004. [22] Ivan Zelinka, František Včelař, and Marek Čandík. Fraktální geometrie: Principy a aplikace. BEN – technická literatura, 2006. [23] Karel Zvára and Josef Štěpán. Pravděpodobnost a matematická statistika. MATFYZPRESS, 4 edition, 2006. 110