. xíS>K RESTRUKTURALIZACE Íl GEODÄT KVALITA DAT f Mapové zdroje, 29. 9. 2008 RNDr. Tomáš Řezník, Ph.D. Restrukturalizace dat • systémové konverze geodat • konverze datových formátů • převod datových reprezentací • převod typu geometrie • prostorové operace • reklasifikace geodat • kartografické transformace = veškeré přípravné práce nezbytné pro vytvoření modelu, provádění analýz a rozhodovacích úloh r Konverze datových formátů geodat Získal jsem data, jsou v nevhodném formátu, datové reprezentaci, mají špatný typ geometrie, jsou v jiném souřadnicovém systému... Snaha o převod dat do formy vyhovující použití v projektu se zachováním maxima informace. shapefile, CAD soubory, coverage, geodatabase, tabulková data, výstupy z databází, rastrová data v nejrůznějších formátech,... ... to vše (a často ještě více) je nutné dostat do GIS ... převod speciálně vektorových dat často složitý, pracný, ztrátový... jednoúčelové nástroje: obvykle pouze pro transformaci do firemního proprietárního software, opačně nikoliv... univerzální nástroje: GDAL, OGR, FME Suite, ArcGIS Interoperability Extension ... Konverze datových formátů geodat různých vektorových i rastrových formátů jsou doslova stovky, od nepsaných standardů až po naprosto exotické-bohužel toto je i případ různých formátů vyvinutých pro použití ve státní správě a rozpočtových organizacích v extrémním případě nutnost vytvoření vlastního konverzního software *5ř "'—'— U W** Převod datových reprezentací Základní typy datových reprezentací v GIS jsou v současné době rastrový a vektorový datový model. Základní úlohouje vzájemný převod mezi oběma datovými modely. vektor—► rastr (rasterizace) jednodušší úloha, jednoznačná tvar vektorové geometrie se aproximuje buňkami o zvolené hodnotě umístěné v pravidelné mřížce různé prvky mohou být odlišeny zvolenou hodnotou pixelu odpovídající vybranému atributu oblasti bez dat reprezentovány smluvenou hodnotou (0,-1) nebo logickou nulou (Null) Převod datových reprezentací Základní typy datových reprezentací v GIS jsou v současné době rastrový a vektorový datový model. Základní úlohouje vzájemný převod mezi oběma datovými modely. rastr —► vektor (vektorizace) složitější algoritmy, často nejednoznačná složitá detekce hran, uzlů použitelný výsledek pouze s kvalitními vstupními daty použitelné například pro výsledky klasifikace, různých rastrových analýz omezeně použitelné pro skenované podklady automatická, poloautomatická, ruční 1 Převod datových reprezentací Další méně obvyklé úlohy: • TIN -> rastr, vektor • voxel (= 3D rastr) -> 3D vektor, 2D rastr • převod rastrů s nepravoúhlým gridem • převody orientovaných sítí, Vektorová data - převod typu geometrie Základní typy: bod, linie, polygon + mnoho odvozených typů přesná terminologie a výčet typů geometrie závisí na konkrétním GIS software F ... L Vektorová data - převod typu geometrie obecné charakteristiky: bod - OD, žádná měřitelná délka a plocha linie - ID, měřitelná délka, žádná plocha polygon - 2D, délka i plocha povrch - 3D, plocha včetně třetího rozmění ... nutné mít atributy, které určí příslušnost bodu k linii, pořadí vrstvu s centroidy ze kterých lze potom převzít také atributy ä oo polygon -> povrch ... TIN, interpolace, atd... Vektorová data - generalizace bohužel, obvykle řešíme přesně opačný problém - data nemají potřebnou přesnost výhody generalizace: zmenšení datového objemu rychlejší výpočty složitých prostorových úloh prezentace v menších měřítkách nevýhody generalizace v datových sadách s pokročilými topologickými pravidly možnost porušení těchto pravidel v případě špatné metody nevyhovující výsledek Iteug :i~ =:: ki-r Onn ^^■-n^ /á*--/^ / . Vektorová data - zhuštění bodů, vyhlazení V některých případech (nevyhovující SW, různé typy prostorových úloh) je nutné nahradit spojité křivky lomenými čarami, dále například doplnit lomové body v průsečících linií, polygonů, spojit liniové úseky, které nekončí v uzlu, provést rozpad polygonů na elementy, Polyli no $impli f* Pro kartografické účely, potřeby prezentace se může hodit opačný postup: Smooth Vektorová data - konvexní obálka, ohrada Pro různé úlohy může být potřeba řešit prostorové vztahy geoprvků, u složitých geometrií, pň vytváření prostorových indexuje výhodnější v pivním kroku vyloučit zcela nepravděpodobné případy, kdy dva prvky nemohou mít žádný prostorový vztah, porovnají se pouze obálky (ohrada/bounding box nebo konvexní obal). Další využití konvexních obalů -jiný způsob generalizace. C % ;::) Topologické překrytí, geoprocessing, Podle složky geodat ve které dochází ke změnám • mění se pouze geometrická data • mění se pouze popisná data • dochází ke změnám v obou složkách Podle počtu vrstev, které vstupují do úlohy • jedna vrstva • dvě nebo více vrstev oříznutí, překrytí, sloučení, rozdíl, průnik,.... Oříznutí (Clip, Crop) H-o-w Na základě určené vrstvy obsahující hranice zájmového území se ořízne jiná vektorová vrstva. Př.: Zájmové území je definováno 4 okresy, zajímají mne pouze data ze zájmového území. Vrstvou definující ořez musí být geometrie typu polygon, ořezávaná vrstva může být jakéhokoliv typu, oříznout lze i rastr. Plochy ležící uvnitř zájmového území zůstanou beze změny, plochy zcela mimo zmizí, u ploch na hranici oříznutí se změní geometrie, doplní o lomové body průsečíků s hranicí a lomové body hranice. Atributy se nemění. Výhody: úspora ve velikosti dat, kompaktní tvar zpracovávané oblasti, konzistentní data pro porovnávání ploch,.... ggf?- 4P Spojení (Merge, Append) Spojení několika datových vrstev do jedné Př.: Mám k dispozici vektorová data rozdělená po okresech, potřebuji zpracovat úlohu z území, které leží v několika okresech. Spojovat lze obvykle pouze vrstvy obsahující geometrii stejného typu, záleží na možnostech software. Mírně se liší funkce Append a Merge, Append obvykle dokáže spojit přilehlé linie a polygony do jednoho geoprvku na základě vybraného atributu. Hodnoty atributů pole se převezmou např. podle největšího spojovaného fragmentu nebo nějakou z agregačních funkcí. Výhody: konzistentní data pro celou zpracovávanou oblast. INPUT j "'J'-. CI XI frÜlWI \ L s: sS ISíVU 23^ Rozpuštění (Dissolve) Sloučení několika prvků do jednoho na základě shodných hodnot některého z atributů. = rozpuštění vnitrních hranic, ponechání vnějších Př.: Mám k dispozici mapu hydrologických povodí se členěním polygonů na oblasti IV. řádu, potřebuji pracovat s hydrologickými povodími vyšších řádů. Spojovat lze obvykle pouze vrstvy obsahující geometrii stejného typu, záleží na možnostech software. Mírně se liší funkce Append a Merge, Append obvykle dokáže spojit navazující linie a polygony do jednoho geoprvku na základě vybraného atributu. Atributová pole se přebírají podle vybraného prvku nebo se použije např. sumace, průměr... Výhody: konzistentní data, jednodušší pro celou zpracovávanou oblast. * Průnik, rozdíl, spojení (Intersection, Difference, Union) • funguje na základě množinových operátorů Qriůirtol Union liricnreFion OiFtuviHK» Qnůirtol Union 12? Z? Ty některé operace jsou symetrické (nezáleží na pořadí vrstev), jiné ne Rozdělení (Split) hodí se například pro distribuci dat, jejich rozdělení na správní oblasti, po mapových listech... často provádíme pro snížení výpočetních nároků, rozdělení práce mezi členy týmu, zajištění důvěrnosti dat (každý zpracovává dílčí část), ... Prostorová spojení (Union, Identity, Intersection) "šššľľľľl------------ geometricky může jít o •průnik vrstev ÍZC^*"" •sloučení vrstev •doplnění jedné vrstvy druhou t^mwm Prostorové spojení - manipulace s atributy atributy mohou být převzaty z %£££££££„ •první z vrstev •kombinace obou vrstev ®- O >■■-: Spojení jak geometrie tak atributů dvou původně nezávislých datových vrstev Př.: Mám k dispozici vrstvu obsahující jednotlivé půdní typy včetně průměrné hodnoty pH, vrstvu s klasifikací vegetačního pokryvu, zajímají mne všechny listnaté lesy, které rostou na silně kyselých půdách Spojovat lze obvykle pouze vrstvy obsahující geometrii stejného typu, záleží na možnostech software. Výhody: Společná analýza území na základě dvou původně nezávislých faktorů. IDF.MT1TT ĽtJVtKJiji Ow-1 " L.-A- l«'ť mm: i.:)vim.i,f CWtnřtCŮir(hAGt I ".I'll I '.:..'Vl HAfil cin Transformace mezi souřadnicovými systémy Při současném zobrazení dat z různých souřadnicových systémů se interně tyto transformace provádějí. Pro většinu běžných úloh přesnost dostačuje, pro přesnější práce j e nutné data nejprve převést do společného souřadnicového systému přesnější metodou, provést --. topologickou kontrolu, teprve potom pracovat. ^-, Explicitní datové konverze jsou nutné pň předávání dat v rámci týmů nebo spolupracujících organizací, při spojování dat získaných v různých souřadnicových systémech atd... ^J Chyba při transformaci [cm] z WGS84 do S-JTSK i při použiti jedné z nejvhodnějších metod transformace. 4 REKLASIFIKACE RASTROVÝCH DAT Manipulace s rastrovými geodaty Většina systémových konverzí je shodná nebo analogická jako u vektorových dat. • změna formátu uložení dat • změny rozlišení - převzorkování • změna datové hloubky • u vektorových dat analogie například generalizace • rastrová algebra • plní podobnou rUnkci jako topologická překrytí u vektorových dat • reklasifikace • podobné principyjako u vektorových dat, bude probráno společně • filtrování rastrových dat • specifické pro rastrová data • zvýrazňovaní obsahu, metody vizualizace • v některých ohledech shodné s vektorovými daty, v některých odlišné Převzorkování Při práci s několika rastry v různých souřadnicových systémech nebo v různém rozlišení je nutné interně nebo na vyžádání provést převzorkování dat na stejné rozlišení ve stejném gridu, abyje bylo možné použít pro společnou analýzu. Měnit rozlišení lze oběma směry - zvyšovat i snižovat. • zvýšením rozlišení převzorkováním nezískáme více informací o území, pouze zvýšíme objem dat • snížením rozlišení dokonce část informace o území ztratíme. Několik různých metod pro převzorkování, výběr vhodné metody závisí na charakteru dat a dalším plánovaném postupu. Stejně tak j e vhodné zvážit ve které etapě projektu převzorkování provedeme (klíčové analýzy j e vhodnej ší provádět na originálních datech) Základní metody: • metoda nejbližšího souseda (nearest neighbour) • bilineární • bikubická Převzorkování metoda nejbližšího souseda je nejjednodušší, nejrychlejší aje vhodná pro rastrová data diskrétního typu - přesně ohraničené oblasti s buňkami stejného typu Převzorkování Převzorkování diskrétních rastrových dat jinou metodou než pomocí nejbližšího souseda by bylo chybou - zanikly by původně j ednoznačné hranice mezi plochami různých tříd Převzorkování spojitých dat metodou nejbližšího souseda není vyloženě chybné, ale v případě velkých změn ve velikosti rozlišení vstupních a převzorkovaných dat by výsledek nebyl optimální. Proto se hodnota každého elementu počítá jako vážený průměr s přmlédnutím k okolí každé elementární plochy => bilineární nebo bikubická interpolace příklad spojitých dat: Převzorkování bilineární interpolace -(bilinear interpolation) nejbližší body v bikubická interpolace -(cubic convolution) nejbližší body v okolí + jejich Převzorkování další metody - složitější, výpočetně pomalejší, pro specializované využití: •cubic spline •přímá •FFT •radiální funkce ------------------------------- •Gaussovská i. s použitím FFT Reklasifikace Reklasifikační funkce mění hodnoty buněk na alternativní za použiti řady metod. •záměna konkrétních hodnot •klasifikací hodnot do tříd •změna hodnot funkčním vztahem Všechny reklasifikační metody zpracovávají na základě jednotných pravidel každý pixel celé plochy rastru. Wé Hnl»iir> Kcriii ■■■.□ Reklasifikace - Záměna konkrétních hodnot •přiřazení na základě reklasifikační tabulky •vytvoření tabulky obvykle ručně •jedné hodnotě vstupního rastru přiřadíme právě jednu hodnotu výsledného rastru •tabulku lze uložit pro případné další použiti v ■■• & V ■,', \ ■v 1 li ■• 1 ID l>, ■' 1 SLJX i ■ * I i t n tni li 1 U IH * u « 1 * 1 í •t- M 1 " ■ ■i J 11 Reklasifikace - Klasifikací hodnot do tříd •přiřazení na základě reklasifikační tabulky •vytvoření tabulky obvykle ručně nebo poloautomaticky s využitím základních statistických metod (automatické rozdělení do intervalů na základě četnosti, rozptylu, ...) •tabulku lze uložit pro případné další použití pouze pokud bude mít další překlasifikovávaný rastr obdobné rozdělení četností hodnot •jedné hodnotě ve výsledném rastru odpovídá jedna nebo více hodnot vstupního rastru -;~-~--;'-: ■' ; 2 2 2 ■l!!í!! 2 2 2 ' -U - -T . » ic m n h. í :j - mm ^■H >-- -, Z .1^1^ »T(KT('*,í^TTtř - -■Dg manaua ac a Reklasifikace - Změna hodnot funkčním vztahem • předchozí dva typy reklasifikace vyžadují specializovaný nástroj, který pracuje s reklasifikační tabulkou, reklasifikace změnou hodnoty funkčním vztahem je záležitost nástroje pro rastrovou algebru • stejné použiti jako v přednášce o rastrové algebře, s jediným rozdílem zeje zde pouze jeden vstupní rastr [vystup] = 10*[vsrup] [vystup] = [vsrup]*[vstirp] [vystup] = sin([vstup]) [vystup] =abs([vsrup]-avg([vstirp])) G 3 0 Ü Jů C 0 Q COO COO 0 0 Změna datové hloubky Rastrová data mohou obsahovat jedno pásmo, případně více pásem analogie: • černobílý snímek —jedno pásmo • barevný snímek ~ tři pásma • multispektrální snímek V každé buňce může být uložena hodnota v různé číselné reprezentaci o různé přesnosti •celočíselné datové typy - diskrétní hodnoty, kategorie, ... •INTEGER (obvykle 32 bitů) •LONG (obvykle 64 bitů) •datové typy s plovoucí desetinnou tečkou - spojité hodnoty, výšky, teploty, •FLOAT (REAL) (obvykle 32 bitů) •DOUBLE (obvykle 64 bitů) Nelze bez ztráty informace vzájemně převádět. * Každý typ datové reprezentace má své jasné využiti. 6 Filtrování rastrových dat Doposud probírané metody pracovaly vždy s hodnotou konkrétní elementární plochy, respektive s hodnotami elementárních ploch různých datových vrstev se stejným prostorovým umístěním. Filtrace obrazu = operace s digitálním obrazem, které slouží ke zvýraznění určité informace. • prumerovam • vyhlazení obrazu • potlačení šumu • zvýraznění kontrastu • detekce hran • postklasifikačnl zpracování obrazu Vzhledem k rozsahu většiny digitálních dat j e z technického hlediska nevhodné řešit podobné úlohy najednou v celém obrazu. Daný filtr je tak definován jako šablona rastrové matice (tzv. "moving window", v české literatuře se často využívá termín "kernel") - tedy pohybující se (plovoucí) okno. Má obvykle rozměry (px) 3x3, 5x5, 7x7, ... Filtrování rastrových dat - vyhlazení dat (low pass fitry) • medián (střední hodnota z okolí) • mód (nejčastější hodnota z okolí) prumer, medián, mód rozdíl původního I filtrovaného rastru-irS r Vizualizace a zvýraznění rastrových dat Aniž bychom měnili obsah dat, můžeme jednoduchými prostředky změnit jejich vzhled a usnadnit si tak práci. Lze potom snáze identifikovat jevy na snímku nebo rastrová data lépe prezentovat. Úpravy se mohou týkat: •výběru barevné škály •roztažení histogramu => zvýšení/snížení kontrastu a jasu •nastavení průhlednosti •nastavení transparentního okolí Vizualizace a zvýraznění rastrových dat - multispektrální U multispektrálnlch rastrových dat (obsahují více než j eden barevný kanál) musíme zvolit pro každý ze 3 (vybraných) kanálů (pásem) odpovídající základní barevnou složku (R G B). Multispektrální snímek je potom zobrazen v nepravých barvách. Volba kanálů a přiřazení některého ze 3 základních barevných kanálů se řídí obecnými zvyklostmi, spektrálními charakteristikami pásem nebo požadavkem na zvýrazněný j ev. Vizualizace a zvýraznění rastrových dat - monochromatická data Obsahují pouze jeden barevný kanál. V některých rysech podobné reklasifikaci, na rozdíl od reklasifikace nedochází k faktickým změnám v rastrových datech, mění se j en způsob zobrazení dat, data zůstávaj i stále stejná. (Stejný postup zvýraznění lze použít nezávisle na každém barevném kanále a zvýraznit tak i data multispektrální.) Histogram udává četnost každé hodnoty v rastru. Je vidět že není dostatečně využito celého dynamického rozsahu zvolené barevné škály. Vizualizace a zvýraznění rastrových dat - monochromatická data 7 Vizualizace a zvýraznění rastrových dat •neroztažený histogram •lineárně roztažený histogram •vyrovnaný histogram m J •nelineárně roztažený histogram Pyramidy vytvoření pyramid • pro běžné zobrazování v řádově menším rozlišení se použije pyramidový náhled • náhledy jsou zapouzdřeny uvnitř rastrových dat • objem dat se zvětší o třetinu (1 +1/4 +1/16 + 1/64+...) • metoda vytváření náhledů: • nejbližší soused • bilineární • bikubická 3 hivri k i;i ;i nyi,i— í: Plně se překryjí pouze oblasti s daty, oblasti bez dat (hodnota Null, NoData) jsou brány jako transparentní. Záleží na pořadí překrytí. zcela shodné s vektorovými daty • v případě pravoúhelníkové oblasti rovnoběžné se souř. s. prostý ořez • v případě nepravidelné oblasti se rozdíl mezi ohradou a polygonem pro ořez vyplní hodnotou NoData (Null) Prostorové operace s rastry - změny prostorového umístění v odůvodněných případech B možné použít obvykle není při kvalitně provedeném georeferencování I rastru není potřeba KVALITA DAT 8 Kvalita dat • nepodložená očekávání - „digitální data jsou kvalitnější než analogová" • ne vždy, pouze intuitivní spojení kvality dat s pokročilejší technologií jejich uložení a zpracování • digitální systémy pouze umožňují presnej ší zpracování, uložení a kontrolu • jsou limitovány úrovní kvalifikace obsluhy, kvalitou zdrojových dat • digitální data musí být použita pouze pro předpokládaný účel pokud nemá uživatel zkušenosti a znalosti s posouzením vhodnosti pro účely jiné Přesnost - čím vyšší přesnost dat, tím větší důvěra k nim • míra pravděpodobnosti s j akou lze charakterizovaný číselný údaj považovat za správný • polohová přesnost • atributová přesnost Kvalita dat - polohová přesnost pravděpodobnost že poloha bodu určená jeho polohovými datyje „skutečná" • odchylka - rozdíl mezi udávanou a skutečnou hodnotou • rozptyl odchylek - chyby jednotlivých naměřených hodnot • směrodatná odchylka (= střední chyba) -jednotný ukazatel chyb • prakticky každý soubor geodat je zatížený chybou (výjimky: např. klady mapových listů, souřadnicová síť, ...) => můžeme hovořit o přesnosti • matematický model - stanovení předpovědi odchylky určité velikosti • zvolí se empiricky, na základě zkušenosti nebo statistickými metodami • nejčastěji normální rozdělení - u prostorových dat mnohonásobně ověřeno • hladina spolehlivosti - stanovení míry jistoty pro určité tvrzení „80% hodnot souboru má odchylku menší než..." • v praxi obvykle násobek (2x 2,5x 3x) směrodatné odchylky -> polohová přesnost geodatabáze Kvalita dat - polohová přesnost • dodržení předpokladů daného modelu (např. u normálního rozdělení) rozdělení chyb j e zcela náhodné vybraný vzorek dat tvoří reprezentativní soubor není zatíženo systematickou chybou nevhodně provedená transformace souřadnicových systémů část dat pořízená jinou technologií, • částdatzpracovánajinoumetodikou,. Kvalita dat - polohová přesnost • ověření polohové přesnosti • srovnání vzorku dat s přesnějšími daty (například nákupem vzorku geodat vyšší přesnosti nebo vyžádáním vzorku) • přímé měřeni v terénu (i řádově) přesnější metodou • mírou polohové přesnosti j e univerzálně platná střední kvadratická chyba (RMS - Root Mean Square) = součet čtverců (druhých mocnin) odchylek vydělený počtem měřeni • přesnost analogových podkladů je nepřímo úměrná mapovému měřítku „mapa 1 : 1 000 je přesnější než mapav měřítku 1 : 10000" • u digitálních dat je hodnocení složitější - data jsou fakticky uložena v měřítku 1:1 a lze z nich vytvořit mapy j akéhokoliv měřítka (což neznamená zeje to vhodné) • použití dat neodpovídající kvality může stát v důsledku víc než pořízení kvalitnějších dat - zavádějící výsledky, špatná rozhodnutí, ... Kvalita dat - atributová přesnost • oproti geometrické (polohové) přesnosti bývá zanedbávána, přitom je stejně důležitá • špatně definované popisné údaje mohou způsobit chyby při klasifikaci, tedy i při následné analýze • atributy jsou vyjádřeny diskrétní nebo spojitou veličinou-diskrétní nabývají konečného počtu, typicky z číselníku, spojité mohou nabývat hodnot jakýchkoliv • metodika hodnocení přesností je víceméně shodná jako hodnocení polohové přesnosti • určení přesnosti diskrétních atributů = ohodnocení přesnosti klasifikace objektivita ovlivněna • počtem tříd • typickým tvarem a velikostí oblastí • způsobem výběru testovacích ploch • vzájemnou podobností tříd Kvalita dat - atributová přesnost •př.: kroviny podél potoků jsou typicky dlouhé úzké polygony, zabírajíi méně než 1% plochy, při náhodně vybraných souvislé oblasti testovacích dat se do výběru nedostanou • velikost ploch jednotlivých tříd může kolidovat s prostorovou přesností • ostré hranice v geodatech nemusí korespondovat s typicky nejednoznačnými rozhraními (les x louka, jehličnatý x listnatý les) => velký podíl individuální interpretace při klasifikaci • náhodné chyby - určení rozhraní, omyl v klasifikaci, omyl při vkládání dat... • systematické chyby - chyba metodiky, přístroje (kyselost půdy, intenzita odraženého záření, ...) • ohodnocení přesnosti atributů by mělo vyjadřovat obsah správně nebo nesprávně zadaných atr. dat, např. „95% všech atributů je správných" - tento údaj často z neznalosti postupu nebo z důvodů dalších nákladů chybí 9 Kvalita dat - vnitřní provázanost • udává kvalitu logických vztahů mezi j ednotlivými obj ekty v geodatabázi topologická kvalita dat • sousedící polygony mají společnou hranici • linie se spojují v uzlech • polygony j sou uzavřené => kontroly, automatické opravy provázanost prostorové a atributové složky • atributová data jsou vztažena ke správnému geom. objektu • př.: výsledky rozboru vody ve studni odpovídají konkrétní studni v mapě • při aktualizaci aktualizovat obě složky geodat najednou ^důsledná kontrola například při vkládání dat z ručních vstupů -kontrolní součty, identifikační kódy... Kvalita dat - vnitřní provázanost • zdánlivě levná geodata (i pokud mají vyhovující polohovou a atributovou přesnost) mohou v důsledku špatné vnitřní provázanosti vyjít v konečném důsledku velmi draho • neexistuje objektivní veličina pro posouzení vnitřní provázanosti, omezeně je možné použít různé kontroly topologie a testy na dodaném vzorku dat před jejich pořízením například použitím nástrojů, u nichž je předpoklad že budou v projektu použity (topologická překrytí, síťové analýzy, ...) Kvalita dat - rozlišení • rozlišení = prostorově nejmenší jednotka, ke které jsou vztaženy prostorové informace • u rastru velikost buňky (pixelu) • u vektoru maximální přesnost uložení souřadnic lomového bodu (nepřímo úměrné rozsahu zájmové oblasti) • odpovídá pojmu nejmenší mapovaná jednotka u tematických map Kvalita dat - shrnutí • technická snadnost s jakou lze použít geodat v libovolném vztažném měřítku zvyšuje potřebu objektivního určení přesnosti a kvality dat •digitalizací geologické mapy 1: 500 000 lze vytvořit digitální mapu ve vztažném měřítku 1 : 50 000, ta ovšem nebude mít takové kvality jaké bychom od mapy v takovém měřítku očekávali •typicky: - „V jaké přesnosti chcete data dodat?" - „V té největší možné." Cena geodat a (klesající) měřítko mají obvykle kvadratickou (nebo dokonce exponenciální) funkční závislost. Databázová úroveň dat používaných v GIS • kvalitativní standardy na úrovni databáze se týkají datového souboru jako celku • nelze je zjistit testováním vzorkům jejich hodnota se stanoví subjektivním posouzením nebo pomocí doprovodných údajů (metadata) • úplnost databáze = stav kdy všechny objekty reálného světa dané třídy z daného zájmového území jsou obsaženy j ako objekty v příslušné třídě geodatabáze • úplnost územního pokrytí = jaká část polohových dat v geodatabázi se týká zájmového území • úplnost obsahového pokrytí = vhodnost mapové legendy, posouzení, zda příslušný číselník pokrývá všechny objekty reálného světa Databázová úroveň dat používaných v GIS problémy: • hierarchický strom není vyvážený př.: • jehličnatý les' ■ • smrk • jedle • borovice • ostatní • listnatý les • smíšený les • definice tříd se překrývají • definice tříd z různých zdrojů jsou nejednoznačné, neporovnatelné • některé třídy nejsou definovány - obvykle „sběrný koš" nerozlišeno, ostatní, ... Databázová úroveň dat používaných v GIS • stáří dat časový faktor je pro řadu aplikací životně důležitý změna polohových a popisných dat stávajících objektu vznik nových a zánik stávajících objektů kvalitativní parametr, záleží na typech objektů - např. klimatické oblasti, hranice států se budou měnit podstatně pomaleji než například infrastruktura, výstavba zastaralé údaje způsobují potíže - nutnost dodatečných měření, často duplicitních, protože uživatelé stejných dat dělají paralelně totéž na stáří dat se často nebere zřetel - spojování různě starých dat z několika databází - problémy srovnávací analýzy - nutno zachovávat časovou j ednotu pro celé území - raději starší, ale konzistentní data než novej ši a různě kombinovaná Databázová úroveň dat používaných v GIS • původ dat • toto kriterium hodnotí historii databáze • zdroje dat • zpracovatelské postupy • každý datový zdroj a každý postup vnáší do dat jisté chyby • původ databáze rozhodující pro výběr dat pro danou aplikaci • nejen z těchto důvodů je nutné trvat na co nejobsáhlejších metadatech • všechny údaje by měly obsahovat ukazatele správnosti • uživatelská úroveň • cena dat - pro různé uživatele relativní • specializovaná data obvykle dražší než univerzální (základna uživatelů, distribuce výrobních nákladů) • přístupnost dat - utaj ení (z hlediska bezpečnosti státu, z hlediska konkurence) r Databázová úroveň dat používaných v GIS přímé x nepřímé náklady • nákupní cena • + čas, materiál vynaložený na práci s daty - prohlížení a seznamování s daty, převod formátů, reklasifikace, transformace, v extrémních případech i vývoj sw pro tyto úlohy • přístupnost - bezpečnost, ochrana osobních údajů - RC, příjmy, další citlivé údaje využitelné například pro marketing • umělá degradace atributových dat, například náhodným rozdělením jednotlivých identifikátorů, pronásobení náhodným koeficientem, ... • u geometrických dat warping, translace, rotace, ... Zdroje chyb v datech GIS • chyba je neodstranitelnou součástí výsledku každého měření • velikost může být zásadní nebo zcela zanedbatelná • určující faktor kvality • chyby nezávislé na operacích GIS • měření původních dat • nepřesnost přístroje • měření různými přístroji • chyby vzniklé pň vytváření převzatých databází • tvorba databáze (chyby výpočtů, chyby v geodetických základech,. • editace dat • změny v krajině • nedostatečné pokrytí území Zdroje chyb v datech GIS • chyby vznikající při práci v GIS chyby pň pořizováni dat • nepřesnost digitalizace (chyby zařízení, chyby operátora) • nepřesnost při ukládání atributů (chyba operátora, nedostatečná kontrola) chyby pň ukládání dat • nedostatečná numerická přesnost formátu dat • chyby média, hardware chyby pň manipulaci • konverze rastr <-> vektor • generalizace • spojování tříd • překrytí vrstev • interpolace • klasifikace satelitních snímků chyby pň prezentaci dat (v současnosti zanedbatelné - minimum výskytu) • nepřesnost kreslícího zařízení • nepřesnost vlivem změn papíru, fólie Zdroje chyb v datech GIS • chyby metodické chyba metodiky použité pro sběr dat (např. nevhodný počet vzorků) chybně definované obj ekty a tňdy nesprávně použitá komprese dat neurčité hraniční linie datově ztrátové operace v nevhodném pořadí degradující výsledek • chyby převzatých dat • generalizace, odsazení liniových tvarů (železnice, řeka, silnice, ...) • kartografická reprezentace - silnice svou osou, plošný objekt bodovou značkou 11 Zdroje chyb v datech GIS • nesprávné použití výsledku nedodržení kvalitativních standardů zanedbání omezení určeného přesností dat nevhodné použití některé metody, nástroje nekompetentní rozhodnutí na základě správného výsledku - interpretace chyby v rozhodování j sou součástí celého procesu využití prostorové informace nutné provést obj ektivnl rozbor, protože snáze se chyba přisoudí zařízení, metodice než například obsluze nebo zdrojovým datům Sledování kvality dat v GIS • stanovení kvality často problematické • často pravidlo ,.zlaté střední cesty" • vždy posoudit efekt navýšení nákladů oproti výhodám dat vyšší kvality • některé metody kontroly dat příhš nákladné vzhledem k rozpočtu projektu nebo ceně kontrolovaných dat - kontrolu dat s menší důležitostí v terénu lze například nahradit interpretací leteckých fotografií, porovnáním se vzorkem dat pořízených nezávislým postupem, ... • snažit se vyhnout tradičním argumentům • „takhle se data pořizovala vždycky" • „všechny třídy na mapě musejí mít stejnou presnosť' • technicky lze hranici přesnosti stále posouvat, pragmaticky je ale omezena cenou pořízeni • čím jsou požadavky na přesnost a kontrolu vyšší, tím je získání dat časově náročnější, tím je obtížnější zajistit aktuálnost dat, ...