Geoinformatika III. Rastrový datový model jaro 2023 Petr Kubíček kubicek@geogr.muni.cz Laboratory on Geoinformatics and Cartography (LGC) Institute of Geography Masaryk University Czech Republic ArcGIS Shapefile ESRI formát pro netopologický zápis GIS vektorového formátu. • Jeden soubor obvykle reprezentuje jeden typ mapového prvku, např. silnice, jezera, obce • Shapefile specifikuje i další pomocné soubory. • „Jméno.přípona“ prefix zůstává stejný, přípona se mění: • Povinné – .shp – samotný hlavní soubor s geodaty (geometrie). – .shx – indexový soubor (posun vůči počátku souboru, délka záznamu). – .dbf – soubor s atributy resp. popisné data. • Nepovinné – .prj – zdrojový souřadnicový systém. – WKT-string – (Well Known Text) – .cpg – specifikuje kódování v dbf souboru. – UTF-8. Struktura *.SHP • Geometrický prvek v záznamu - shape • Samotnou geometrii shape ukládá jako sekvenci bodů (např. GPS souřadnic). • Nedefinuje topologickou strukturu. • Jeden záznam shape – jeden řádek v atributech. Hlavička souboru *.SHP Z; M – odpovídají 3D (X,Y,Z) případně 4D (čas) Hlavička/obsah záznamu Atributová data *. dbf • Standartní DBF soubor (tabulka) • Ke každému záznamu existuje právě jeden řádek v tabulce ve stejném pořadí jako ve zdrojovém shapefile. • Stejný prefix jako zdrojový shapefile. • Kódování uloženo v .cfg souboru. • Velké množství dat, redundance. Shapefile - shrnutí + výhody • Neukládá topologii dat • Snadná editace bodů • Rychlá vizualizace geodat • Jednoduše pochopitelná struktura • Podpora v GIS softwarech • Snadná projekce do jiných souřadnicových systémů - nevýhody • Neukládá topologii dat • Redundance dat (např. body sousedících polygonů) • Manipulace s detailní shapefile (až 100MB soubor, max 2GB) je pomalá. • Špatná podpora Unicode (kódování češtiny). Vektorová data Výhody • lze pracovat s jednotlivými objekty jako se samostatnými celky; • menší náročnost na paměť; • dobrá reprezentace jevové struktury dat; • vysoká geometrická přesnost • kvalitní grafika, přesné kreslení, znázornění blízké mapám; • jednoduché vyhledávání, úpravy a generalizace objektů a jejich atributů. Nevýhody • výpočtová náročnost (problémy při náročných analytických operacích); • komplikovanost datové struktury; • složitější odpovědi na polohové dotazy; • obtížná tvorba překryvů vektorových vrstev (overlay) ; • problémy při modelování a simulaci jevů. Rastrová reprezentace • Zaměřuje se na lokalitu jako na celek • Používá se pro reprezentaci jevů, které plošně pokrývají celou oblast, případně se i spojitě mění. • Používá se i pro rasterizované vektorové vrstvy, pokud je následná analýza jednodušší nad rastrem. • RAVE - VERA Vektor vs. rastr Rastrová reprezentace • Základním stavebním prvkem je u rastrové struktury tzv. buňka (cell, pixel). • Buňky jsou organizovány do mozaiky. • Jednotlivé buňky obsahují hodnoty (values). • Typy tvarů buněk: – čtvercová buňka (lattice, grid) – trojúhelníková buňka, – hexagonální buňka. Topologie v rastru • Topologie je v rastrovém modelu definována implicitně (je jasné, kdo je čí soused), tudíž není nutné ji explicitně ukládat jako pro vektorový model! Reprezentace geometrie v rastru • rastrová datová struktura může nést informace o bodech, liniích a plochách. • Odlišné možnosti převodu mezi vektorem a rastrem. Faktory ovlivňující vyjádření v rastru - rozlišení • Vliv velikosti buňky (~ rozlišení) na tvar objektů (+ a -) PRO PROTI PROTI PRO Faktory ovlivňující vyjádření v rastru – datové rozlišení datové rozlišení („barevná hloubka“ rastru) - popisuje počet bitů použitých k popisu určité barvy pixelu v bitmapovém obrázku : • binární rastr (0x1, výskyt x nevýskyt) – záznam 1 bitem. • 8bitový rastr (28 )– 256 různých celočíselných hodnot, záznam 1 bajtem. • 24bitový rastr – 1,6 milionu různých celočíselných hodnot, 3 bajty. • kontinuální rastr – hodnoty v reálných číslech, záznam 4 nebo 6 bajty. Tvorba rastru z vektorového modelu způsob přiřazení hodnot zobrazovaného atributu (kvantitativní data) – při tvorbě modelu: • jako bodová hodnota změřená kdekoli v ploše buňky • jako aritmetický průměr u několika bodových měření • jako vážený aritmetický průměr, kde váhou je plošný rozsah jednotlivých hodnot • jako maximální nebo minimální hodnota atributu v ploše buňky • jako hodnota atributu s největší váhou (i pro kvalitativní). Řešení konfliktů Problém - jedna výsledná buňka obsahuje více různých objektů. Pro řešení této se používají 3 základní metody, z čehož první dvě se používají pro převod bodů, linií i polygonů a zbývající jen pro převod polygonů: • Metoda dominantního typu vychází z principu, že u buňky, do které zasahuje více objektů, se vyjádří podíl její plochy, zabíraný každým z objektů a hodnota objektu s největším podílem je pak buňce přiřazena (u bodů a linií se podíl plochy nahrazuje počtem a příp. délkou objektů, které buňka obsahuje). • Metoda nejdůležitějšího typu buňce přiřadí hodnotu, která je považovaná za nejdůležitější z hlediska aplikace. • Metoda centroidu, buňka má přiřazenou hodnotu definovanou polohou jejího středu při průmětu do vektorové reprezentace. Příklady – pravidla pro rasterizaci bodů v ArcGIS Prázdné buňky • Pokud je hodnota buňky definována jako prázdná (NoData), znamená to, že tato buňka nenese žádnou informaci o prostoru, který reprezentuje. • 0 je validní hodnota! • 999 obvykle použito pro No data Metrika čtvercové mřížky • V geometrii nastává problém metriky (způsob definice vzdálenosti dvou buněk) – odlišná vzdálenost středu čtverců. • Euklidovská metrika Rastrová data výhody a nevýhody výhody • jednoduchost datové struktury • snadné překrývání a kombinace obrazů s různým obsahem • rychlé dotazování • snadná tvorba uživatelských nadstaveb • jednoduchá kombinace s jinými daty rastrové povahy (DPZ) • snadné provádění analytických operací nevýhody • značná paměťová náročnost (velký objem dat) • omezená přesnost, daná rozlišením rastru a orientací rastru (výpočty délek, vzdáleností, ploch ...) • kvalita výstupů závislá na rozlišení rastru (nižší vizuální kvalita rastrových výstupů) • nevhodnost pro síťové analýzy Kompresní techniky pro rastry • Ztrátové – komprimují lépe než neztrátové – dochází ke ztrátě informace => někdy nevhodné! • Neztrátové – Run Length Codes – RLC – Run Length Encoding – RLE – Čtyřstrom – QuadTree – Adaptivní komprese Run Length Codes • Definuje příslušnost buněk rastru k objektu po řádcích nebo sloupcích, přičemž udává jen začátek a konec úseku buněk v řádku či sloupci. • Pro černobílé/binární rastry Run Length Encoding • Využití maticového zápisu dat. • Efektivní při rozsáhlých homogenních oblastech dat 1 1 1 1 5 5 9 9 9 9 9 9 9 2 9 9 9 (4 1)(2 5)(7 9)(1 2)(3 9) • Heterogenní  0 1 0 1 2 3 5 2 1 4 (1 0)(1 1)(1 0)(1 1)(1 2)(1 3)(1 5)(1 2)(1 1)(1 4) Jak zefektivnit kompresi? Způsob procházení rastru • A) a B) - alternativy postupného procházení. • C) a D) – prostor vyplňující křivky (space-fill). • B) a D) jsou více efektivní – souvislost s Toblerovým zákonem (First law of Geography, autokorelace). Everything is related with everything else, but near things are more related than distant things. Quad tree - čtyřstrom • Hierarchické uložení • Dělení kvadrantů až do doby, kdy jsou homogenní. Adaptivní • Rozdělení dat do bloků využívajících metodu s nejvyšší účinností. • Kombinace více metod v jedné datové sadě. • Příklad – LZW(Lempel-Ziv-Welch) obecná komprese i pro neobrazové formáty. – Princip spočívá v nahrazení vzorků vstupních dat binárními kódy proměnné (postupně rostoucí) délky. – Vstupní vzorky se překládají pomocí slovníku, který je průběžně doplňován o nové vzorky. – Délka slovníku je dána aktuálním počtem bitů použitých pro kódování. – Slovník přitom není zapisován do výstupních dat. Hlavička rastru • NCOLS xxx • NROWS xxx • XLLCORNER xxx • YLLCORNER xxx • CELLSIZE xxx • NODATA_VALUE xxx • row 1 • row 2 • . • . • row n Příklady rastrových formátů