I.1UIII SCI GIS4SG Popisná statistika bodových dat Statistický popis prostorového uspořádání bodů podzim 2024 Lukáš Herman hermanJu@mail.muni.cz Prostorová statistiky bodových dat Popisná statistika _I- Charakteristiky polohy I I Charakteristiky rozptylu I Charakteristiky asymetrie 1 Charakteristiky špičatosti Prostorová data Analýza kvadrátů Prostorové uspořádání Metoda nejbližšího souseda Prostorová autokorelace 1 Plochy Prostorová autokorelace X I Globální míry 1 Lokální míry — Průměrný střed Vážený průměrný střed Mediánový střed Agregovaný průměrný střed Směrodatná vzdálenost Vážená směrodatná vzdálenost Koeficient relativního rozptylu Směrodatná elipsa odchylek — Moranův index I Gearyho poměr C — Moranův index I Joint Count Statistics Lokální verze G statistiky Gearyho poměr C G statistika Popisná statistika bodových objektů - Charakteristiky polohy - Charakteristiky rozptylu - Charakteristiky asymetrie = šikmosti - Charakteristiky špičatosti Pozitivní šikmost: negativní šikmost: Charakteristiky polohy - Průměrný střed (mean center) - Vážený průměrný střed (weighted mean center) - Agregovaný průměrný střed - Mediánový střed (median center) Průměrný střed Průměrný střed leží na průměru souřadnic X a Y. Vzorec: - x = Součet hodnot X souřadnic všech bodů / počet bodů - Ypmměr= Součet hodnot Y souřadnic všech bodů / počet bodů prumer Injut Má stejné nevýhody jako aritmetický průměr - je to především citlivost na extrémní hodnoty. - Například v případě shlukového uspořádání bodů průměrný střed dobře nereprezentuje množinu bodů Geoprocessing © Mean Center Parameters Environments * Input Feature Class Output Rozčlenění bodu na kategorie © ® v B Output Feature Class i Weight Field 1 Case Field I- 1 Dimension Field Příklad The mean center and media center of fire stations in Austin, Texas. Note that some fire stations are in the Austin extraterritorial jurisdiction (ETJ) area, and therefore are located outside of the city boundary. Data source: data. Austin Texas, go v Legend + Median Center -f- Mean Center * Fire Stations Major Roads Austin City Boundary Vážený průměrný střed Používá se v případě výskytu více událostí/objektů na stejném místě. Pak má každý bod váhu přímo úměrnou počtu událostí/objektů na tomto místě. Např: při výpočtu prostorového průměru několika měst bude průměrný střed dávat realističtější představu o centrální tendenci, jestliže ho budeme vážit Geoprocessing počtem obyvatel © Mean Center jednotlivých měst Parameters Environments * Input Feature Class * Output Feature Class © ® Příklad Mean Center of Population for the United States: 1790 to 2000 Mediánový střed a) najdeme medián na ose X a Y a vedeme z nich linie kolmé na směr osy. Takto definovaný „medián ze souřadnic" ale nemusí odpovídat mediánu souboru bodů, protože distribuce nemusí být mezi kvadranty vyrovnaná. b) (UK): Mediánový střed je střed, kterým se studovaná plocha dělí do čtyř kvadrantů, z nichž každý obsahuje stejný počet bodů. c) (US): Mediánový střed jako střed vyžadující minimální (nejkratší) cestu. Tj. celková vzdálenost z mediánového středu do každého z bodů je minimální. Jinak řečeno - cesta z jakéhokoliv jiného místa do všech bodů oblasti bude delší než cesta z mediánového středu. Input Output ArcGIS Pro: Identifies the location that minimizes overall Euclidean distance to the features in a dataset. Geoprocessing Median Center Parameters Environments ? X © ® * nput Feature Class * Output Feature Class Weight Field Case Field Attribute Field Vlastnosti charakteristik polohy - Průměrný střed minimalizuje sumu čtverců vzdáleností - Mediánový střed minimalizuje sumu vzdáleností - jeho interpretace je jednodušší - Nejčastěji se využívá váženého mediánového středu (demografie) - Př.: srovnání vývoje osídlení v čase - Charakteristiky polohy bez uvedení charakteristik rozptylu maj malou vypovídací schopnost a mohou být zavádějící Charakteristiky rozptylu - Směrodatná vzdálenost (standard distance circle) - Vážená směrodatná vzdálenost (weighted standard distance) - Koeficient relativního rozptylu (coefficient of relative dispersion) - Směrodatná elipsa odchylek (standard deviational ellipse) Směrodatná vzdálenost - Směrodatná vzdálenost je nejčastěji používána ve formě kružnice kolem průměrného středu (Standarddistance circle), jejíž poloměr je právě hodnota směrodatné vzdálenosti. - Tyto kružnice nám dávají představu o rozptylu hodnot kolem střední hodnoty pro jednotlivé typy jevů. Standard Distance Parameters Environments * Input Feature Class A polygon feature class that will contain a circle polygon for each * Output Standard Distance Feature Class input center. These circle polygons Circle Size graphically portray the standard distance at each center point. 1 standard deviation Weight Field Směrodatná vzdálenost - Mohou být použity i pro studium dynamiky jevů - př.: různé kružnice pro jeden jev v různých časových horizontech - Směrodatná vzdálenost (standard distance) je absolutní mírou -je problematické její použití k porovnání několika souborů - Vhodnější jsou míry relativní (viz další slajdy) Vážená směrodatná vzdálenost * Output Standard Distance Feature Class Circle Size deviation Weight Field Koeficient relativního rozptylu - Poměr směrodatné vzdálenosti a poloměru kruhu se stejnou plochou jakou má studovaná oblast. - Řeší problém použití absolutní míry směrodatné vzdálenosti. - Je-li oblast různě velká (ohraničená), vznikají zavádějící hodnoty. - K získání relativní míry při studiu variability obyvatelstva se někdy používá poloměr země nebo státu místo poloměru kruhu se stejnou plochou jakou má studovaná oblast. Geoprocessing © Minimum Bounding Geometry Parameters Environments © * nput Features B * Output Feature Class a Geometry Type Circle J Mone Add geometry characteristics as attributes to output CRD = 100* —= 100* ^= = 100* S * 71 A, ci R polomer z plochy kruhu: R = V (P/71) Směrodatná elipsa odchylek - V mnoha případech může vykazovat prostorové rozdělení jevů určité rysy směrovosti (directional bias), např.: - rozdělení míst nejčastějších dopravních nehod podél dálnice. - V tomto případě se použití kružnice jako míry rozptylu hodnot jeví jako nevhodné. - Jako logické rozšíření směrodatné kružnice odchylek se může jevit použití směrodatné elipsy odchylek. Tuto elipsu popisují tři atributy: - úhel rotace - směrodatná odchylka podél hlavní osy elipsy - směrodatná odchylka podél vedlejší osy elipsy - Maximální rozptyl bude orientován v souladu s hlavní osou elipsy. Směrodatná elipsa odchylek - Př. - Množství kontaminující látky ve vzorku studní může indikovat trend jejích šíření - Porovnání velikosti, tvaru resp. překryvu elips k porovnání změn v rozšiřování etnik či rostlinných resp. živočišných společenstev - Epidemiologie - vystižení hlavního trendu šíření onemocnění v populaci Geoprocessing v í x © Directional Distribution (Standard Deviation... © INPUT OUTPUT Parameters Environments * Input Feature Class * Output Ellipse Feature Class Ellipse Size 1 standard deviation Weight Field Příklad Standard deviation ellipse created based on Austin fire station locations Data source: data. Austin Texas, gov Legend ■ ■ ■■■■■■ Standard Deviation Ellipse Fire Stations Major Roads Austin City Boundary Další příklad Hladík etal. (2022) Poznámky k deskripci bodů hustota bodů v ploše (počet/plocha = n/R), charakteristiky založené na vzdálenosti mezi body či na relativních vzdálenostech jako je např. di/dmax. použití - porovnávání (např. v čase) při výpočtech v relativně malých oblastech používáme euklidovskou geometrii, protože se v nich neprojeví zakřivení Země. uvedené míry mohou být aplikovány i na plochy. - Jakým způsobem? Rastr Databáze Web Síť (mesh) 23 Cartogram Shape Tools fy Zkontrolovat geometrie... Kontrola topologie QGIS- několik zásuvných modulů Standard deviational ellipse Nástroje geoprocessingu Geometrické nástroje Analytické nástroje Výzkumné nástroje Nástroje práce s daty SpatialAnalyzer - Spatial Analysis Toolbox ► Clustering ► Gravity Model T Spatial Central Tendency 0 Centers(Mean Center, Median Center, Central Feature) Central Feature Tracker V Mean Center Tracker ^ Median Center Tracker T Spatial Dispersion (y Standard Deviation Ellipse 0 Standard Distance Základní metody statistického popisu prostorového uspořádání bodů - Analýza kvadrátů - testujeme, zda rozmístění bodů v ploše je náhodné či nikoliv. - Metoda nejbližšího souseda - porovnává průměrnou vzdálenost mezi nejbližšími sousedy pole bodů k teoretickému rozmístění. Ftegular Random Clustered :::::::::: - Prostorová autokorelace - měří jak podobné či nepodobné jsou hodnoty atributů sousedních bodů. .1 ■i. 1» Metody statistického popisu bodů - obecně - Rozmístění bodů v prostoru je výsledkem určitých procesů či vhodných podmínek (lokace měst je výsledkem působení faktorů jako reliéf, přírodní zdroje, komunikace, atd.) - Cílem studia prostorového rozmístění bodů je zjistit: - jak daleko má konkrétní rozmístění objektů k rozmístění teoretickému - jak se liší rozmístění bodů ve dvou různých oblastech - jak se mění rozmístění bodů v rámci jedné oblasti v čase. - Statisticky prokázaný výskyt určitého prostorového uspořádání může být základem pro zjišťování příčin, které vedly k pozorovanému uspořádání. - Problémy: - měřítko - rozsah studované oblasti - kartografická projekce Analýza kvadrátů - Je založena na hodnocení změn hustoty bodů v prostoru. - Je porovnáváno, zda rozmístění bodů v prostoru je náhodné, či má blíže k uspořádání shlukovému či pravidelnému. - Studovaná plocha je rozdělena pravidelnou sítí na buňky a je zjištěn počet bodů v každé buňce. '>.' Viewl □SE Vt OhcMes.shp i É" í . m ■ K: j ji —i - M- 3 L p • j— ■ J m r- Analýza kvadrátů - Je analyzováno rozdělení četností buněk s určitým počtem bodů. - Toto rozdělení je porovnáváno s náhodným rozdělením četností. - Extrémně shlukové uspořádání - většina bodů v jedné či několika málo buňkách. - Extrémně pravidelné - ve všech buňkách přibližně stejně - Buňky se označují jako kvadráty a nemusí jít o čtverce, ale např. i o kruhy či šestiúhelníky - je to dáno empirií. - V rámci jedné analýzy však tvar a velikost buněk musí být konstantní. Analýza kvadrátů Optimální velikost kvadrátů (QS) - QS = (2*A)/n - A: plocha studované oblasti - n: počet analyzovaných bodů. Velikost strany vhodného kvadrátu - V(2A/n) Study area has been divided into 4*5 uniformly shaped quadrats of 81 km2, and the top left quadrat has a density of 1/81. Quadrats Fire Stations Major Roads City Boundary Praktický postup testování výsledků analýzy kvadrátů 1. (HO) - neexistuje statistiky významný rozdíl {je-li rozdíl malý, může být výsledkem náhody, čím je větší, s tím větší pravděpodobností náhodný není, ale je statistiky významný). 2. Zvolíme hladinu významnosti a = 0,05 3. Vypočteme kumulované četnosti 4. Vypočteme testovací kritérium: D = max|0ŕ - £ŕ| 5. Vypočteme kritickou hodnotu: Da = — 1,36 6. Je-li vypočtená hodnota D větší než kritická hodnota Da, potom rozdíl mezi oběma uspořádáními je statisticky významný. Materiály předmětu Z6101 Základy geostatistiky Testování výsledků analýzy kvadrátů K-S testem Počet měst v Zjištěné Relativní Kumulativní Pravidelné Relativní Kumulativní Absolútni každém čtverci rozdělení četnosti četnosti rozdělení četnosti četnosti diference 0 36 0:450 0,450 0 0,000 0,00 0,45 1 17 0,213 0,663 26 0,325 0.33 0.34 2 10 0:125 0,788 26 0,325 0,65 0,14 3 3 0,038 0,825 26 0,325 0,98 0,15 4 2 0,025 0,850 2 0,025 1,00 0.15 5 2 0,025 0,875 0 0,000 1,00 0,13 6 1 0,013 0,888 0 0,000 1,00 0,11 7 1 0,013 0,900 0 0,000 1,00 0,10 8 1 0,013 0,913 0 0,000 1,00 0,09 9 1 0,013 0,925 0 0,000 1,00 0.08 10 1 0,013 0,938 0 0,000 1,00 0.06 11 1 0,013 0,950 0 0,000 1,00 0,05 12 1 0,013 0,963 0 0,000 1,00 0,04 13 1 0,013 0,975 0 0,000 1,00 0.03 14 1 0,013 0,988 0 0,000 1,00 0,01 28 1 0,013 1,000 0 0,000 1,00 0,00 164 0 0,000 1,000 0 0,000 1,00 0,00 Testovací kritérium: Kritická hodnota pro a = 0,05: D D 0,45 = 0,2115 Zamítáme nulovou hypotézu - rozdělení měst se statisticky významně liší od rozdělení pravidelného Metoda nejbližšího souseda - NEAREST NEIGHBOUR ANALYSIS - Metoda analýzy kvadrátů je založena na konceptu hustoty (počet bodů v ploše) - Metoda analýzy nejbližšího souseda je naopak založena na konceptu vzdálenosti (spacing - plocha připadající na bod). - Metoda analýzy nejbližšího souseda je založena na porovnání pozorované průměrné vzdálenosti mezi nejbližšími sousedy a této průměrné vzdálenosti u známého (teoretického) prostorového uspořádání (pravidelného či náhodného). - K testováni, zda má určité rozloženi bodů v ploše jistý vzorek lze využit R statistiku (R - randomnesš). Metoda nej bližšího souseda Distribution of mean NND Clustered Random (CSR) Uniform (dispersed) Metoda nej bližšího souseda R statistika Určí se jako poměr mezi pozorovanou a očekávanou průměrnou vzdáleností nejbližších sousedů v určité oblasti: R = obs r exp Hodnotu robs zjistíme tak, že určíme vzdálenost mezi daným bodem a všemi jeho sousedy. Dále najdeme nejkratší vzdálenost - tedy nejbližšího souseda. Tento proces se opakuje pro všechny body. Ze všech nej kratších vzdáleností se vypočte průměr. Hodnotu r___zjistíme ze vztahu: exp r = exp Interpretace hodnot R statistiky Čím je hodnota R < 1, tím více se prostorové rozložení bodů blíží rozložení shlukovému (rob< rexf). Čím je hodnota R > 1, tím více se prostorové rozložení bodů blíží rozložení pravidelnému {robs > rexp). R = 0 R = 0 R = 1 R = 2,149 R = 0.51 SHLUKOVÉ R= 1.0 R=1.48 PRAVIDELNÉ R= 1.90 zcela shlukové uspořádání náhodné uspořádání zcela pravidelné uspořádání Geoprocessing © Average Nearest Neighbor Parameters Environments ® ® * Input Feature Class Distance Method Euclidean t/j Generate Report Area Metoda nejbližšího souseda ArcGIS Pro Average Nearest Neighbor Summary Nearest Neighbor Ratio 0,398885 z-score -42,190160 p-value 0,000000 Significance Level \ p ■ v a I u e ) 0.01 H 0.05 I I 0.10 CD Mok-i net H c Critical Value (z-score) < -2.58 -2.58 - -1.96 -1.96 - -1.65 -1.65 - 1.65 1.65-1.96 1.96 - 2.58 > 2.58 TV* W * *» . * " •*' . Clustered Random Dispersed Average Nearest Neighbor Summary Observed Mean Distance 98,193552 Expected Mean Distance 246,170249 Nearest Neighbor Ratio 0,398885 z-score -42,190160 p-value 0,000000 Given the z-score of -42.19016, there is a less than 1% likelihood that this clustered pattern could be the result of random chance, Average Nearest Neighbor Summary Observed Mean Distance 98,1936 Meters Expected Mean Distance 246,1702 Meters Nearest Neighbor Ratio 0,398885 z-score -42,190160 p-value 0,000000 Vektor Rastr Databáze Web Síť (mesh) Zpracování Nápověda Cartogram Shape Tools (j^ Zkontrolovat geometrie... Kontrola topologie * Standard deviational ellipse Nástroje geoprocessingu Geometrické nástroje Analytické nástroje Výzkumné nástroje Nástroje práce s daty Parametry Záznam Vstupní vrstva Metoda nejbližšího souseda _ QGIS Pozorovaná průměrná vzdálenost: 100.81213357850 Předpokládaná průměrná vzdálenost: 0.00289503177 <§^ Spočítat body v polygonu.. Průsečíky čar... Prúměrná/é souřadnice... Analýza nejbližšího souseda, Index nejbližšího souseda: 34822.46197885036 Počet bodů: 1346 Z-Score: 2443995.56696692947 Součet délek linií... QGIS verze: 3.34.11-Prizren 2-.,.. , QGIS revize kódu: 2904bcec Základní statistiky pro po c Hir H„ ' ^ r Qt verze: 5.15.13 Vzdálenostní matice... cy klo_ne hody_cykl Lne h_xyta bl etopoi nt_spa 1 [E PSG:4326] I I Pouze vybrané prvky Nejbližší soused [volitelný] [Uložit do dočasného souboru] Verze Pythonu: 3.12.6 GDAL verze: 3.9.2 Výpis jedinečných hodnot GEOS verze: 3.12.2-CAPI-1.1B.2 PROJ verze: Rel. 9.4.0, March 1st, 2024 Verze PDAL: 2.6.3 (git-version: b5523a) Algoritmus spuštěn v: 2024-10-21T10:37:47 Algoritmus 'Analýza nejbližšího souseda' se spouští... Vstupní parametr/: { 1 INPUT1 : 'D:/zaloha_2Q24_3_5/_výuka_/GIS4SG_2023jaro/GIS4SG - přiklad analýzy bodu - Bike_accidents/cyklo_nehody_cykll_neh_xytabletopoi:nt_spal. shp", 'OUTPUT_HTML_FILE' : 'TEMPOPJffiY_OUŤPUT' I Execution completed in 0.11 sekund Výsledky: {1EXPECT E D_MD': 0.002 8950317654084746, 1NN_IKDEX1: 34822.461978850355, 'OBSERVED_MD" : 100.81213357850064, 'OUTPUT_HTML_FILE1: 1 C:/Users/herma/AppData/Lacal/Temp/processing_dElikwt/ 5400cd0b637740b4bd0ea3cbc5c61a77/OOTPUT HTML FILE.htmľ, Metoda nejbližšího souseda - Nelze spoléhat na vizuální srovnání prostorového rozložení ani na vypočtenou hodnotu R. Ta by měla byt doplněna hodnotou ZR (Z skóre) pro ověřeni statistické významnosti pozorovaného rozdílu. - Výsledky jsou vysoce citlivé k měřítku (lokální vs. regionální) - V závislosti na studovaném jevu musi byt věnovaná pozornost vymezeni studované plochy (administrativní či přirozené hranice). Pomocí směrodatné chyby lze vypočítat standardizovanou hodnotu (Z-score): Metoda nejbližšího souseda - příklad Národní obrození další významné osobnosti české historie první světová válka druhá světová válka první i druhá světová válka komunistický režim náboženské památníky ostatní katastrální hranice hranice Velké Prahy Kobližková, A., Hána. D. (2023): Memorials as a part of the political symbolic space in Prague. Geografie. Kategorie pomníků Počet pomníků R-statistika Místa koncentrace Národní obrození 26 1,074 Karlovo náměstí, Petřín Další významné osobnosti české historie 37 0,983 Staré Město, Hradčany Náboženství 32 0,994 Staré Město, Malá Strana První světová válka 26 1,275 — Druhá světová válka 93 0,830 Pankrác, Dejvice, Bubeneč, Holešovice Komunismus 16 1,219 — Ostatní 50 0,745 — Interpretace hodnot R statistiky Čím je hodnota R < 1, tím více se prostorové rozložení bodů blíží rozložení shlukovému (rob< rexp). Čím je hodnota R > 1, tím více se prostorové rozložení bodů blíží rozložení pravidelnému {robs > rexp). R = 0 zcela shlukové uspořádání R = 1 náhodné uspořádání R = 2,149 zcela pravidelné uspořádání Kobližková, A., Hána. D. (2023): Memorials as a part of the political symbolic space in Prague. Geografie. omníků Počet pomníků R-stati štika Místa koncentrace rozeni 26 1,074 Karlovo náměstí, Petřín Další významné osobnosti české historie 37 0,983 Staré Město, Hradčany Náboženství 32 0,994 Staré Město, Malá Strana První světová válka 26 1,275 — Druhá světová válka 93 0,830 Pankrác, Dejvice, Bubeneč, Holešovice Komunismus 16 1,219 — Ostatní 50 0,745 — Prostorová autokorelace - koncepce - Jak analýza kvadrátů tak analýza vzdálenosti nejbližšího souseda pracují pouze s polohou bodů. - Nerozlišují body podle hodnot jejich atributů. - Oba parametry (polohu i atributy) hodnotí prostorová autokorelace (SA) - je tedy metodou vhodnější. - Východiska prostorové autokorelace: Většina jevů se v prostoru mění spojitě. Blízké body budou mít i podobné hodnoty studovaného jevu a naopak. - First law of geography - Tobler (1970) Prostorová auto korelace - Mezi nejpoužívanější koeficienty prostorové autokorelace naleží: - Gearyho poměr C (Geary's Ratio) - Moranův index I (Moran's I) - Lze jich využít pro intervalová a poměrová data. Rozdíly mezi oběma indexy jsou dány způsobem výpočtu rozdílů mezi hodnotami atributu. Obor hodnot, kterých mohu oba indexy nabývat se tedy také liší, jak uvádí následující tabulka: Prostorové uspořádání Gearyho poměr C Moranův index I Shlukové uspořádání, sousední body vykazují podobné hodnoty 0 < C <1 1 >E(I) Náhodné uspořádání, body nevykazují znaky podobnosti C ~ 1 1 - E(l) Pravidelné uspořádání, sousední body vykazují rozdílné charakteristiky 1 2.58 —r^i |%* -«r I I- Dispersed Random Clustered Given the z-score of 1.974404, there is a less than 5% likelihood that this clustered pattern could be the result of random chance. Global Moran's I Summary Z Geoprocessing v P x ochoz © Spatial Autocorrelation (Global Moran's I) © Parameters Environments Input Feature Class 5laPa[=l I Ks na mesic_t denj 11 zäfi pätel. Moran's Index 0,069576 Expected Index -0,000851 Variance 0,001272 z-score 1,974404 p-value 0,048336 | cyklo_nehody_cykll_neh_xytabletopoint_spa1_*J E 0 The input has a selection. Records to be processed: 1,176 Input Field Ještě jeden příklad z historie ... John Snow(1812- 1858) - Syn farmáře, asistent chirurga a lékárník - 1854 - mapa Londýna - Výskyt cholery = úmrtí - Měřítko 1:2000 - Pomocí prostorové analýzy došlo k identifikaci ohniska nákazy které bylo možné následně omezit Ještě jeden příklad z historie ... Legend X Pumps • Cholera Death ■fr Mean Center -fr Median Center 1 Standard Deviation N A ] 2 Standard Deviation Streets 50 100 200 Meters H—I—i—|—I—I—i—| Ještě jeden příklad z historie Clustered Random Dispersed Ještě jeden příklad z historie ... Ještě jeden příklad z historie ... N Legend A K Pumps • Cholera Death # Mean Center Kernel Density Very Low Low Medium High Very High 50 100 200 Meters H—I—I—I—I—I—I—I OFFENCES CAUSED BY CYCLISTS IN CITY OF PARDUBICE IN 2014 Number of offences caused by cyclists per square kilometer Cyclist offence | 250.1 and more offences | 100.1-150 ] 200.1 -250 | | 50.1 -100 | | 150.1 -200 | | 0 - 50 Semi-automatically calculated cluster of offences caused by cyclists source: Municipal police of Pardubice, ESRI Basemap Zdroje https://aistbok-topics.ucais.org/AM-03-007 Horák, J. (2022): PROSTOROVÉ ANALÝZY DAT. https://homel.vsb.cz/-hor10/Vvuka/PAD/PAD skripta2022.pdf Materiály předmětu Z6101 Základy geostatistiky A odkazy přímo na slajdech