GIS4SG Metoda jádrových odhadů (Kernel Density) Prostorové analýzy liniových dat a síťové analýzy podzim 2024 Lukáš Herman herman.lu@mail.muni.cz Metoda jádrových odhadů Metoda jádrových odhadů ̶ Je metodou pro identifikaci anomálních lokalit, které bývají často nazývány jako hot spots, je metoda jádrových odhadů (Kernel Density Estimation) či metoda jádrového vyhlazení. ̶ Jaká je hlavní nevýhoda?? ̶ Základním nedostatkem je subjektivita v intepretaci výsledků. ̶ Protože je to primárně vizuální analýza ̶ Stejná vstupní data mohou být zobrazena značně rozdílně jen s využitím rozdílného nastavení metody a způsobu zobrazení. ̶ Použité parametry je vhodné uvést. ̶ Z tohoto důvodu je potřeba zvýraznit statisticky významné výsledky. Metoda jádrových odhadů Předpoklady užití metody ̶ Není vhodná pro zobrazení rozsáhlých území (celý svět, kontinenty) ̶ Vhodná pro mapy větších měřítek (obce či jejich části) ̶ Není doporučena pro větší územní celky (okres, kraj, ČR) → toto ale záleží na zobrazovaném jevu ̶ Neexistuje také žádná hranice pro minimální počet událostí v zobrazované oblasti. ̶ Doporučuje se však brát v potaz počet bodů a plochu analyzované oblasti. Pokud je oblast menší, je možné pracovat i s menším počtem událostí. ̶ V případě malých počtů na větší ploše použití jádrového vyhlazení není doporučeno → zobrazují se samotné body. Krok I – PŘEDZPRACOVÁNÍ DAT ̶ Základní podmínkou jsou kvalitní data. ̶ Nutné se zaměřit na: ̶ správnost a přesnost souřadnicového určení polohy, ̶ časové určení, ̶ tematické určení. ̶ Rozlišit případy, kdy již záznam daného jevu obsahuje souřadnice, od těch, kde je poloha vyjádřena pouze adresou či jiným referencováním. ̶ Pokud jsou body lokalizovány na jedno místo, tak zde vznikají umělé shluky, které mylně identifikují lokalitu jako anomální. ̶ Řešení – náhodné rozmístění událostí podél/uvnitř lokalizovaného objektu. Krok II – VOLBA METODY ̶ Kde dochází k výskytu? ̶ Celé ploše území versus výskyt omezen pouze na jisté části území (krádeže vs. jízda na černo v MHD). ̶ Jádrové odhady plošné (2D) a jednorozměrné (1D), modelující výskyt pouze na liniích. ̶ Obecně metoda jádrových odhadů přiřazuje každému bodu v mapě odhad intenzity na základě vzdálenosti k ostatním událostem. ̶ Nemůžeme však tuto intenzitu počítat pro každý bod, jelikož těch je nekonečně mnoho, a tak je analyzované území proloženo čtvercovým gridem a intenzity jsou počítány pro centroidy jednotlivých buněk. ̶ V prvním kroku je potřeba vybrat metodu jádrového odhadu: ̶ Jednoduchý ̶ Duální ̶ Dále je nutné volit mezi jádrovým odhadem s dosahem: ̶ Fixní ̶ Adaptivní Krok III – NASTAVENÍ VYHLAZOVACÍ FUNKCE ̶ Obvykle 6 různých vyhlazovacích funkcí: ̶ normální, rovnoměrná, kvartická, kuželová, kvadratická a záporná exponenciální. ̶ nejčastěji se využívá kvartická funkce Závislost výsledku na zvolené vyhlazovací funkci Trojúhelníková vs. Gausova (normální) Závislost výsledku na zvolené vyhlazovací funkci Velikost buňky ̶ GRID = nezbytné správně zvolit jeho prostorové rozlišení. ̶ Velikost buňky tohoto GRIDu ovlivňuje získané výsledky z pohledu detailnosti a také velikosti souboru. ̶ Neovlivňuje přesnost výsledků tak výrazně, jako další dva parametry. ̶ Jak stanovit? ̶ MBR (kratší strana / 150). ̶ ČR – města a obce velikost buňky 50 m, minimálně 10 m. ̶ Výjimky? Dosah (šířka pásma) ̶ Pro výsledky jádrových odhadů je klíčová především volba dosahu vyhlazovací funkce. Neexistuje žádné obecné pravidlo, jak určit nejvhodnější hodnotu dosahu. ̶ Vždy záleží na prostorové distribuci bodů, typu události a měřítku – závislost dosahu konkrétního trestného činu. ̶ Explorace (vývoj území) vs. Identifikace anomálií (hot spots). 50 – 200 – 400 m dosah Nebo tzv. adaptivní dosah Adaptivní dosah Pro většinu situací je vhodnější a plně dostačující použití fixního dosahu. Krok IV – PROVĚŘENÍ STATISTICKÉ VÝZNAMNOSTI ̶ Výstup = grid s intenzitami událostí, sám o sobě neposkytuje informaci o výskytu statisticky významných oblastí a jeho interpretace je velmi subjektivní. ̶ Nejpoužívanějším postupem pro hodnocení výsledků jádrových odhadů je Getis-Ord Gi* index. ̶ Pro výpočet Gi* doporučeno použít topologické okolí definované pohybem královny prvního řádu. Doporučujeme zobrazit jen statisticky významné výsledky na hladině významnosti nejméně 95 %. ̶ Následně hranici těchto významných shluků zobrazit spolu s výsledky jádrového vyhlazení a vyznačit v tomto výstupu hranice těchto statisticky významných anomálních oblastí. Getis-Ord GI* ̶ Ukazatel významnosti shluku. ̶ Gi* statistika vrací pro každý prvek v datové sadě tzv. Z skóre (z-score). ̶ Statisticky významné pozitivní z-score = čím větší, tím je intenzivnější shluk vysokých hodnot (hot spot). ̶ Statisticky významné negativní Z skóre = čím menší Z skóre, tím intenzivnější shluk nízkých hodnot (cold spot). GI a GI* statistika ̶ Každá buňka má jednoznačnou hodnotu ̶ Nulová hypotéza: ̶ Není žádný vztah mezi hodnotami v buňce a v jejím okolí, a to až do vzdálenosti d měřené ve všech směrech. ̶ Srovnáno se sumou hodnot na celém studovaném území. GI a GI* statistika Srovnání lokálního s globálním ̶ Existuje lokální prostorová asociace? ̶ Hodně vysokých hodnot v blízkosti buňky. ̶ Gi* hodnoty budou pozitivní pro všechny buňky ̶ Hodně nízkých hodnot pohromadě ̶ Gi* hodnoty budou negativní pro všechny buňky ̶ Příklad: Pro hodnotu 9 v centru vzorku platí: ̶ Gi* value = 4.1785 ̶ Gi* hodnota je pozitivní ̶ V relativním porovnání (lokální vs. globální) se jedná o hodně buněk s vysokou hodnotou jevu. GI a GI* statistika ̶ Gi* výsledky jsou Z skóre ̶ Z skóre indikují umístění dané hodnoty v datové sadě vzhledem k průměru, standardizované s ohledem na směrodatnou odchylku (standard deviation). ̶ Z = 0 odpovídá průměru ̶ Z < 0 méně než průměr ̶ Z > 0 ̶ Z skóre používáno pro určení prahu spolehlivosti a zhodnocení statistické významnosti. GI a GI* statistika Statistická významnost Z-skóre hodnoty pro úrovně (hladiny) statistické významnosti: ̶ 90% >= 1.645 ̶ 95% >= 1.960 ̶ 99% >= 2.576 ̶ 99.9% >= 3.291 ̶ Univerzální Z skóre bez ohledu na jevu, umístění, velikosti území… ̶ Příklad: ̶ Gi* hodnota = 4.1785 ̶ Větší než 99.9% významnost! Statistická významnost ̶ Finální výsledky zobrazující statistické výsledky na hladině významnosti 95 % (vlevo) a 99 % (vpravo). Jak to udělat prakticky? ̶ Conversion Tools > From Raster > Raster to Point ̶ Data Management Tools > Sampling > Create Fishnet ̶ Vlastnosti identické jako v rastru (velikost buněk, rozsah)! ̶ Data Management Tools > Analysis Tools > Overlay > Spatial Join ̶ Spatial Statistics > … > Hot Spot Analysis (Getis-Ord Gi*) Jak to udělat prakticky? Je velmi vhodné mít vstupní data v metrickém souřadnicovém systému, zde použit UTM 33N https://pro.arcgis.com/en/pro-app/latest/tool- reference/spatial-analyst/kernel-density.htm Jak to udělat prakticky? Velikost buňky: 100 m Dosah: 500 m Velikost buňky: 50 m Dosah: 250 m Dopravní nehody cyklistů v Brně Jak to udělat prakticky? Statistická významnost – vylepšení ̶ Jak zlepšit zacílení na významné oblasti? ̶ Testovat statistickou významnost jen na nejvyšších hodnotách. ̶ Kombinovaný postup, z výsledku jádrového vyhlazení vybereme jen 20 % nejvyšších hodnot a z těchto hodnot vybereme jen statisticky významné výsledky metodou Gi*. POSTPROCESSING A VIZUALIZACE ̶ Vizuální omezení – podpora rozhodování dle zadání a uživatelské skupině. Plná data 10% nejvyšších hodnot Vizualizace – „alternativní“ ̶ Metody zobrazení ̶ Vícebarevné ̶ 3D ̶ Izolinie ̶ Škály? ̶ Podklad ̶ Topografická mapa ̶ Ortofoto ̶ … Vizualizace – empirické testování ̶ Nétek, Pour & Slezáková (2018): Implementation of Heat Maps in Geographical Information System – Exploratory Study on Trafic Accident Data. https://doi.org/10.1515/geo-2018-0029 ̶ Most of the users chose bright colors with a negative feeling, such as red, for traffic accident visualization. ̶ The best settings for transparency was identified to be around 50%. ̶ The final questions were about map readability based on radius. This setting is tied to mapscale but follows a common trend throughout the research. Zdroje − https://gistbok-topics.ucgis.org/AM-03-008 − IVAN, I., HORÁK, J. (2015): Metodika identifikace anomálních lokalit kriminality pomocí jádrových odhadů. Dostupné z: http://gisak.vsb.cz/GIS_Ostrava/GIS_Ova_2016/sbornik/papers/gis2016568b7fa9bf44 2.pdf − NÉTEK, R., POUR, T., SLEZÁKOVÁ, R. (2018): Implementation of Heat Maps in Geographical Information System – Exploratory Study on Trafic Accident Data. Open Geosciences. https://doi.org/10.1515/geo-2018-0029 − HORÁK, Jiří. Prostorové analýzy dat. Ostrava: VŠB - Technická univerzita Ostrava, 2012. ISBN 978-80-248-4368-1. https://homel.vsb.cz/~hor10/Vyuka/PAD/PAD_skripta2022.pdf PROSTOROVÉ ANALÝZY LINIOVÝCH DAT − Statistický popis sítí − Síťová analýza – zde pouze „stručně“ a „motivačně“ – více viz Aplikovaná geoinformatika − Velmi často používáno v dopravě − mapování silničních a uličních sítí, − Logistika, − navigační systémy, − inteligentní mobilita, atd. − … GEOINFORMATIKA V DOPRAVĚ Statistický popis sítí − Síť, hrany a uzly (nódy) − Deskriptory: − sítě jako celku: Gama index, Alfa index − relací jednotlivých segmentů sítě: stupeň uzlu (nodalita), acccessibility (dostupnost hran) − Základním topologickým aspektem sítě je způsob propojení jednotlivých segmentů – konektivita − Matice konektivity Konektivita − Matice konektivity shrnuje informaci o tom, které segmenty sítě spolu souvisí (jsou bezprostředně spojeny). − Lze však charakterizovat i úroveň konektivity sítě jako celku. − Pro fixní počet vrcholů má síť s větším počtem spojů lepší konektivitu. Dále existuje minimální počet spojů, který zajišťuje spojení všech vrcholů. − v – počet vrcholů sítě, e – počet hran sítě potom: − Minimálně propojená síť (Minimally conneted network – MCN): odstraníme–li jakoukoliv jednu hranu, síť se rozpadne na dvě části (subsystémy). − Beta index: podíl počtu hran a počtu vrcholů − Jednoduché sítě a stromy mají hodnotu menší než 1, komplexní sítě mají hodnotu vyšší než 1. Gamma index − Poměr aktuálního a maximálního počtu vrcholů sítě − Maximální počet hran lze vypočítat pro zadaný počet vrcholů, které spojují všechny vrcholy. Tedy maximální počet hran v síti o v vrcholech: − Hodnoty gama indexu jsou mezi 0 a 1, kde hodnota 1 označuje zcela propojenou síť je velmi nepravděpodobná. − Gama index je efektivní hodnota pro popis vývoje sítě v čase. Alfa index − Další jednoduchou charakteristikou konektivity sítě je počet okruhů. Výskyt okruhů v síti značí možnost dostat se z jednoho místa do jiného alternativními cestami. − Síť s minimální konektivitou nemá žádný okruh. − Počet okruhů lze zjistit tak, že od aktuálního počtu hran v síti odečteme počet hran potřebný pro minimálně propojenou síť (MCN), tedy e-(v-1) nebo e-v+1. − Obdobně pro daný počet vrcholů je maximální počet okruhů roven 2v-5. − S oběma uvedenými počty okruhů lze vytvořit poměr aktuálního počtu k počtu maximálnímu – tedy tzv. alfa index − Stromy a jednoduché sítě budou mít hodnotu indexu 0. Hodnota 1 značí kompletně propojenou síť. − Alfa index měří úroveň konektivity sítě nezávisle na počtu uzlů. Křivolakost − Skutečná délka linie dělena vzdáleností počátečního a koncového bodu − ENG: Detour index = actual route distance / straight line distance × 100/1 − Lze aplikovat jak na jednotlivé linie (silnice, železnice), tak na celé sítě − Prakticky např. zde: https://www.youtube.com/watch?app=desktop&v=a-pn6ud7lfI Hustota sítě − L: Délka linií (km), − S: plochu (km2). − Čím je síť hustší, tím je území rozvinutější. https://doi.org/10.1016/j.jum.2015.10.001 Nodalita, dostupnost hran − Jedná se o charakteristiku jednotlivých vrcholů či hran sítě. − Popisuje jejich dostupnost v rámci sítě. − Jednoduchým ukazatelem dostupnosti hrany v rámci sítě je, s kolika jinými hranami daná linie přímo souvisí. − Tuto informaci lze vyčíst z binární matice konektivity, pokud tuto doplníme řádkovým součtem. Geografický ústav, Přírodovědecká fakulta, Masarykova Univerzita39 − HORÁK, Jiří. Prostorové analýzy dat. Ostrava: VŠB - Technická univerzita Ostrava, 2012. ISBN 978-80-248-4368-1. https://homel.vsb.cz/~hor10/Vyuka/PAD/PAD_skripta2022.pdf − https://transportgeography.org/contents/chapter2/geography-of-transportation-networks/ − https://transportgeography.org/contents/methods/graph-theory-measures-indices/ − https://www.geographynotes.com/articles/4-important-measures-of-transport-networks-with- diagram/165 − Materiály předmětu Z6101 Základy geostatistiky ZDROJE Síťové analýzy − hledání nejkratší – viz Aplikovaná geoinformatika − optimální trasy − stanovení obsluhovaných oblastí − analýza nejbližšího střediska obsluhy či zařízení − matice nákladů – náklady pro přesun zboží mezi dvojicí bodů − obslužnost bodů více auty − vytvoření cestovního itineráře Síťový dataset − uzly, hrany − hranově / uzlově ohodnocený graf − orientovaný graf, planární graf − pravidla konektivity (propojení) − atributy síťového datasetu: − Usage Type (role atributu): − Cost – náklad (časová délka) − descriptors – vlastnost hrany (počet jízdních pruhů) − restrictions – omezení směru (jednosměrka) − hierarchy – priority hrany (třída silnice) − Units, Data Type, Use by Default Tvorba síťového datasetu − kontrola a oprava topologie − Must Not Have Pseudonodes − Must Not Overlap, Must Not Self-Overlap − File database > New… > Network dataset > Network dataset wizard − politika propojení hran (Endpoint Connectivity) − pravidla odbočování (Global Turns) − přidání a nastavení parametrů (Evaluators) − Lze využít existující (př.: ArcGIS Pro), ale …. − Návod pro ArcGIS Pro např. zde: https://www.youtube.com/watch?v=1gxGBIsiWsw Tvorba síťového datasetu − Rychlost = náhrada (doplněk, povinný atribut) za(ke) vzdálenost(i) při tvorbě analýz − Slouží k výpočtu časové zátěže pro dané úseky a posléze také časové dostupnosti − Často se vychází z limitů (doporučených/průměrných…) rychlostí na jednotlivých třídách komunikací Hranově a uzlově ohodnocený graf Optimální cesta − úloha obchodního cestujícího (úloha minimálního Steinerova stromu) − rozšíření nejkratší/nejrychlejší cesty, spojení více bodů – hledá se nejvýhodnější pořadí Obsluhované oblasti − vytváří areály dané potřebnými náklady na cestu ze střediska služeb (Facilities) Obsluhované oblasti Obsluhované oblasti https://is.muni.cz/auth/th/aujpp/ Nebližší středisko obsluhy − hledá cestu mezi místem (Incident) a servisními středisky (Facilities) − opačný přístup než předcházející obsluhované oblasti „OD“ matice − Origin – Destination Cost Matrix − Vytváří matici nákladů na cestu z bodu do ostatních bodů (Facilities) Obslužnost bodů více auty − „Rozvozní problém“, stanovení optimálních tras pro jednotlivé auta − výpočetně nejnáročnější „Loccation – allocation“ − Řešíme vhodné umístění různých zařízení − Minimalizování impedance (zátěže), maximalizování pokrytí, minimalizování zařízení, maximalizování návštěvnosti, maximalizování podílu na trhu, cílový podíl na trhu Zdroje − https://desktop.arcgis.com/en/arcmap/latest/extensions/network- analyst/types-of-network-analyses.htm − SLADKÝ, J. (2009. Síťové analýzy v GIS pro složky IZS. http://geomatika.kma.zcu.cz/studium/dp/2009/Sladky__Sitove_analy zy_v_GIS_pro_slozky_IZS__DP.pdf − VRÁNA, M. (2015) Ta zastávka je ale daleko... https://is.muni.cz/auth/th/aujpp/ − ZBRANEK, R. (2010): Logistika svozu odpadů v Olomouci. http://theses.cz/id/emr5ky/