Geoinformatika III. Rastrový datový model jaro 2018 Petr Kubíček kubicek@geogr.muni.cz Laboratory on Geoinformatics and Cartography (LGC) Institute of Geography Masaryk University Czech Republic Vektor – špagetový model Topologický datový model • V tomto modelu každá linie začíná a končí v bodě nazývaném uzel - node. • Dvě linie se mohou protínat opět jenom v uzlu. Každá část linie je uložena s odkazem na uzly a ty jsou uloženy jako soubor souřadnic x,y. Ve struktuře jsou ještě uloženy identifikátory označující pravý a levý polygon vzhledem k linii. Tímto způsobem jsou zachovány základní prostorové vztahy •Použitelné pro analýzy. Navíc tato topologická informace umožňuje body, linie a polygony uložit v neredundantní podobě (bez opakovaného zápisu). Vektorová reprezentace - topologie • Topologie je matematický způsob, jak explicitně vyjádřit prostorové vztahy mezi jednotlivými geometrickými objekty. • Proč vůbec topologie? Má jisté výhody, například: – Umožní ukládat data efektivněji. – Mnoho analýz v GIS využívá pouze topologické a nikoli geometrické vztahy. • Důvod pro využívání topologie (ESRI 1995): • "Topology is useful in GIS because many spatial modeling operations don't require coordinates, only topological information. For example, to find an optimal path between two points requires a list of the arcs that connect to each other and the cost to traverse each arc in each direction. Coordinates are only needed for drawing the path after it is calculated." Tři základní topologické koncepty • Konektivita – dvě linie se na sebe napojují v uzlech. • Definice plochy – linie, které uzavírají nějakou plochu, definují polygon. • Sousednost - linie mají směr a nesou informaci o objektech nalevo a napravo od nich. GIS ve veřejné správě Kahoot  DÚ=ArcGIS Shapefile • Jeden soubor obvykle reprezentuje jeden typ mapového prvku, např. silnice, jezera, obce • Shapefile specifikuje i další pomocné soubory. • „Jméno.přípona“ prefix zůstává stejný, přípona se mění: • Povinné – .shp – samotný hlavní soubor s geodaty (geometrie). – .shx – indexový soubor (posun vůči počátku souboru, délka záznamu). – .dbf – soubor s atributy resp. popisné data. • Nepovinné – .prj – zdrojový souřadnicový systém. – WKT-string GEOGCS["GCS_WGS_1984",DATUM["D_WGS_1984",SPHER OID[„WGS_1984",6378137,298.257223563]],PRIMEM["Gre enwich",0],UNIT ["Degree",0.017453292519943295]] – .cpg – specifikuje kódování v dbf souboru. – UTF-8. Struktura *.SHP • Geometrický prvek v záznamu - shape • Samotnou geometrii shape ukládá jako sekvenci bodů (např. GPS souřadnic). • Nedefinuje topologickou strukturu. • Jeden záznam shape – jeden řádek v atributech. Hlavička souboru *.SHP Hlavička/obsah záznamu Atributová data *. dbf • Standartní DBF soubor (tabulka) • Ke každému záznamu existuje právě jeden řádek v tabulce ve stejném pořadí jako ve zdrojovém shapefile. • Stejný prefix jako zdrojový shapefile. • Kódování uloženo v .cfg souboru. • Velké množství dat, redundance. Shapefile - shrnutí + výhody • Neukládá topologii dat • Snadná editace bodů • Rychlá vizualizace geodat • Jednoduše pochopitelná struktura • Podpora v GIS softwarech • Snadná projekce do jiných souřadnicových systémů - výhody • Neukládá topologii dat • Redundance dat (např. body sousedících polygonů) • Manipulace s detailní shapefile (až 100MB soubor) je pomalá. • Špatná podpora Unicode. Vektorová data Výhody • lze pracovat s jednotlivými objekty jako se samostatnými celky; • menší náročnost na paměť; • dobrá reprezentace jevové struktury dat; • vysoká geometrická přesnost • kvalitní grafika, přesné kreslení, znázornění blízké mapám; • jednoduché vyhledávání, úpravy a generalizace objektů a jejich atributů. Nevýhody • výpočtová náročnost (problémy při náročných analytických operacích); • komplikovanost datové struktury; • složitější odpovědi na polohové dotazy; • obtížná tvorba překryvů vektorových vrstev (overlay) • problémy při modelování a simulaci jevů. Vektor vs. rastr Rastrová reprezentace • Zaměřuje se na lokalitu jako na celek • Používá se pro reprezentaci jevů, které plošně pokrývají celou oblast, případně se i spojitě mění. • Používá se i pro rasterizované vektorové vrstvy, pokud je následná analýza jednodušší nad rastrem. • RAVE - VERA Rastrová reprezentace • Základním stavebním prvkem je u rastrové struktury tzv. buňka (cell, pixel). • Buňky jsou organizovány do mozaiky. • Jednotlivé buňky obsahují hodnoty (values). • Typy tvarů buněk: – čtvercová buňka (lattice, grid) – trojúhelníková buňka, – hexagonální buňka. Typy rastrové reprezentace Rastrovou reprezentaci můžeme rozlišit podle způsobu dělení prostoru na: • pravidelné (regular) - všechny buňky mají stejnou velikost a tvar. – jednodušší pro ukládání a zpracování údajů, zabírají ovšem na disku mnoho místa. • nepravidelné (irregular) - velikost i tvar jednotlivých buněk se liší. – mohou mnohem lépe reprezentovat danou lokalitu (příklad roviny + zvlněná krajina), – zpracovávání je algoritmicky i výpočetně náročné. Hlavně pro DMR. Typy mřížky Nejčastěji se používá čtvercová mřížka: • je kompatibilní s datovými strukturami programovacích jazyků používaných pro tvorbu GIS software, • je kompatibilní s mnoha zařízeními pro vstup a výstup dat (monitory, scannery, plottery), • je kompatibilní s kartézským (pravoúhlým) souřadnicovým systémem. Trojúhelníková mozaika • jednotlivé buňky nemají stejnou orientaci – výhoda při reprezentování digitálního modelu reliéfu (terénu), kde je každému vrcholu o souřadnicích x,y přiřazena funkční hodnota z (výška z = f (x,y)). • Jednotlivé trojúhelníky pak implicitně obsahují údaje o svém sklonu a směru tohoto sklonu. Hexagonální mozaika • středy všech sousedních buněk jsou ekvidistantní (stejně od sebe vzdálené), což je výhodné pro některé analytické funkce (např.: paprskové vyhledávání). Topologie v rastru • Topologie je v rastrovém modelu definována implicitně (je jasné, kdo je čí soused), tudíž není nutné ji explicitně ukládat jako pro vektorový model! Reprezentace geometrie v rastru • rastrová datová struktura může nést informace o bodech, liniích a plochách. • Odlišné možnosti převodu mezi vektorem a rastrem. Faktory ovlivňující vyjádření v rastru - rozlišení • Vliv velikosti buňky (~ rozlišení) na tvar objektů (+ a -) PRO PROTI PROTI PRO Faktory ovlivňující vyjádření v rastru způsob přiřazení hodnot zobrazovaného atributu (kvantitativní data) – při tvorbě modelu: • jako bodová hodnota změřená kdekoli v ploše buňky • jako aritmetický průměr u několika bodových měření • jako vážený aritmetický průměr, kde váhou je plošný rozsah jednotlivých hodnot • jako maximální nebo minimální hodnota atributu v ploše buňky • jako hodnota atributu s největší váhou (i pro kvalitativní). datové rozlišení („barevná hloubka“ rastru): • binární rastr (0x1, výskyt x nevýskyt) – záznam 1 bitem. • 8bitový rastr – 256 různých celočíselných hodnot, záznam 1 bajtem. • 24bitový rastr – 1,6 milionu různých celočíselných hodnot, 3 bajty. • kontinuální rastr – hodnoty v reálných číslech, záznam 4 nebo 6 bajty. Řešení konfliktů Problém - jedna výsledná buňka obsahuje více různých objektů. Pro řešení této se používají 3 základní metody, z čehož první dvě se používají pro převod bodů, linií i polygonů a zbývající jen pro převod polygonů: • Metoda dominantního typu vychází z principu, že u buňky, do které zasahuje více objektů, se vyjádří podíl její plochy, zabíraný každým z objektů a hodnota objektu s největším podílem je pak buňce přiřazena (u bodů a linií se podíl plochy nahrazuje počtem a příp. délkou objektů, které buňka obsahuje). • Metoda nejdůležitějšího typu buňce přiřadí hodnotu, která je považovaná za nejdůležitější z hlediska aplikace. • Metoda centroidu, buňka má přiřazenou hodnotu definovanou polohou jejího středu při průmětu do vektorové reprezentace. Příklady – pravidla pro rasterizaci bodů v ArcGIS Prázdné buňky • Pokud je hodnota buňky definována jako prázdná (NoData), znamená to, že tato buňka nenese žádnou informaci o prostoru, který reprezentuje. • 0 je validní hodnota! • 999 obvykle použito pro No data Metrika čtvercové mřížky • V geometrii nastává problém metriky (způsob definice vzdálenosti dvou buněk) – odlišná vzdálenost středu čtverců. • Euklidovská metrika Rastrová data výhody a nevýhody výhody • jednoduchost datové struktury • snadné překrývání a kombinace obrazů s různým obsahem • rychlé dotazování • snadná tvorba uživatelských nadstaveb • jednoduchá kombinace s jinými daty rastrové povahy (DPZ) • snadné provádění analytických operací nevýhody • značná paměťová náročnost (velký objem dat) • omezená přesnost, daná rozlišením rastru a orientací rastru (výpočty délek, vzdáleností, ploch ...) • kvalita výstupů závislá na rozlišení rastru (nižší vizuální kvalita rastrových výstupů) • nevhodnost pro síťové analýzy Kompresní techniky pro rastry • Ztrátové – komprimují lépe než neztrátové – dochází ke ztrátě informace => někdy nevhodné! • Neztrátové – Run Length Codes – RLC – Run Length Encoding – RLE – Čtyřstrom – QuadTree – Adaptivní komprese Run Length Codes • Definuje příslušnost buněk rastru k objektu po řádcích nebo sloupcích, přičemž udává jen začátek a konec úseku buněk v řádku či sloupci. • Pro černobíle rastry Run Length Encoding • Využití maticového zápisu dat. • Efektivní při rozsáhlých homogenních oblastech dat 1 1 1 1 5 5 9 9 9 9 9 9 9 2 9 9 9 (4 1)(2 5)(7 9)(1 2)(3 9) • Heterogenní  0 1 0 1 2 3 5 2 1 4 (1 0)(1 1)(1 0)(1 1)(1 2)(1 3)(1 5)(1 2)(1 1)(1 4) Jak zefektivnit kompresi? Způsob procházení rastru • A) a B) - alternativy postupného procházení. • C) a D) – prostor vyplňující křivky (space-fill). • B) a D) jsou více efektivní – souvislost s Toblerovým zákonem (First law of Geography, autokorelace). Everything is related with everything else, but near things are more related than distant things. Quad tree - čtyřstrom • Hierarchické uložení • Dělení kvadrantů až do doby, kdy jsou homogenní. Adaptivní • Rozdělení dat do bloků využívajících metodu s nejvyšší účinností. • Kombinace více metod v jedné datové sadě. • Příklad – LZW(Lempel-Ziv-Welch) obecná komprese i pro neobrazové formáty. – Princip spočívá v nahrazení vzorků vstupních dat binárními kódy proměnné (postupně rostoucí) délky. – Vstupní vzorky se překládají pomocí slovníku, který je průběžně doplňován o nové vzorky. – Délka slovníku je dána aktuálním počtem bitů použitých pro kódování. – Slovník přitom není zapisován do výstupních dat.