GIS4SG Kartogramy – normalizace, klasifikace podzim 2024 Lukáš Herman herman.lu@mail.muni.cz − Čím se řídit? − Charakter zobrazovaných dat − Účel mapy − Uživatel − … Volba metody Kartogram = choropletová mapa z ruštiny a z angličtiny Volba metody https://www.linkedin.com/feed/update/urn:li:activity:7034157417185595392?updateEntityUrn=urn%3Ali%3Afs_feedUpd ate%3A%28V2%2Curn%3Ali%3Aactivity%3A7034157417185595392%29 Kartogram, choropletová mapa ̶ Kartogram je mapa s dílčími územními celky, do kterých jsou plošným způsobem znázorněna statistická data (jedná se o relativní hodnoty) většinou geografického charakteru (Kaňok, 1999). ̶ Vyjadřuje hodnotu jevu barvou (respektive odstínem šedé, rastrem, šrafováním), přičemž tyto barvy jsou uspořádány do stupnice ̶ Výše uvedené se týká areálových/plošných dat, ale metoda intenzitních barev může být aplikována i na body nebo linie → ̶ Nepravý kartogram ̶ Tzv. kartogramy bez prostorového základu ̶ Nepoužívají se data přepočtená na jednotku plochy ̶ V praxi častější než běžný kartogram Měřítko a vymezení areálů Modifiable areal unit problem (MAUP) Relativní a absolutní data ̶ Můžu zobrazovat i absolutní data? ̶ Jen když jsou použity jednotky stejného velikosti a tvaru ̶ Jak je získat data relativní? ̶ Už je stáhnu, dostanu, …. ̶ Můžu je vypočítat z absolutních! ̶ Normalizace, standardizace Normalizace ̶ Dva obecné typy normalizace: ̶ statistická normalizace – prostřednictvím dat ̶ vizuální normalizace – s využitím grafických proměnných ̶ úpravou sytosti (nebo průhlednosti) = „value-by-alpha“ mapa ̶ úpravou velikosti jednotky = anamorfóza Bivariantní kartogram ̶ Zobrazuje dvě charakteristiky Bivariantní kartogram – ArcGIS Pro Ke statistické normalizaci můžeme použít: 1) Plochu 2) Souhrnnou hodnotou za jednotku 3) Souhrnnou (průměr, modus, medián) hodnotou za všechny jednotky 4) Relevantní populaci 5) Předchozí časové období – viz vizualizace změn Normalizace plochou • Pravý kartogram • Vzniká hustota • Nejznámější příklad: hustota zalidnění (obyv./km2) Normalizace souhrnnou hodnotou za jednotku • Spočítám průměr/medián v jednotce • Je to sice průměr, ale nejsou to zase absolutní data?!? Normalizace souhrnnou hodnotou za všechny jednotky • Vypočítám průměr, modus, medián … za všechny územní celky • Dílčí jednotky pak znázorňují odchylku od „střední“ hodnoty Normalizace relevantní populací • „Per capita“ (na hlavu), na 1000 obyvatel, … • Počet obyvatel, počet nemocných, počet ekonomicky aktivních, počet domácností, … Normalizace předchozím časovým obdobím • Viz časové indexy Normalizace – závěr ̶ Při normalizaci je nezbytně nutné, aby byla data normalizována vůči stejnému univerzu hodnot, ve kterých byly naměřeny dané jevy. ̶ Podíl musí dávat smysl! ̶ Př.: zastoupení nízkopříjmových domácnosti by měly být normalizovány vůči celkovému počtu domácností, nikoli vůči celkovému počtu obyvatel. ̶ Pro pravdivou a efektivní kartografickou komunikaci dat je důležitá normalizace, a to jak statistická tak i vizuální. Normalizace – prakticky ̶ Jak realizovat v ArcGISu Pro? Klasifikace Klasifikace – příklad • Percentage of residents over the age of 25 in Wisconsin that possess a Bachelor's degree or higher in Wisconsin in 2016 by county • There are 72 values in the dataset representing one for each county, and the range is from a minimum of 10% and a maximum of 50%. • The data is based on the American Community Survey 5-year Estimates for educational achievement from 2012-2016 . • Data is modified very slightly for simplicity of illustration (the highest value, Dane County, rounded up to 50% from 49%, and lowest value, Clark County, rounded down to 10% from 11%). • The data is not heavily skewed, although there is a slight positive skew with some outliers. Klasifikace – metody 1) Stejné intervaly 2) Kvantily 3) Průměr a násobky směrodatné odchylky 4) Metoda maximálních zlomů (Maximum breaks) 5) Metoda přirozených zlomů 6) Vlastní • Jenks Stejné intervaly ̶ Zadavá se počet intervalů a data jsou rozdělena do intervalů o stejném rozsahu (ArcGIS Pro: Equal Interval → počet; Defined Interval → šířka) ̶ Mohou nastat připady, kdy v danem rozsahu třidy bude nula prvků! ̶ Vzhledem k tomu, že v hraničních třidách se vyskytuji většinou málo četné odlehlé hodnoty, je toto rozděleni vhodné pro zvýraznění extrémů. ̶ Není vhodné, pokud je rozděleni dat zešikmené nebo existuji v něm příliš odlehlé hodnoty. • Částečně související metodou jsou geometrické intervaly • Metoda definuje nejužší třídu a šířky ostatních tříd odvozuje pomocí proměnlivého násobného faktoru Kvantily • Kvartily, pentily, decily, percentily… • ArcGIS Pro: Quantile • Metoda rozděluje data do nerovnoměrně velkých tříd, ale se stejným počtem prvků ve třídách. • Metodu je vhodné použít v případě, kdy jsou data lineárně distribuována s přiměřeným počtem prvků s podobnými hodnotami nebo pokud se vyskytují extrémní hodnoty. • Metoda je nevhodná v případech velkého množství prvků s podobnými hodnotami Průměr a násobky směrodatné odchylky • Metoda vytváří třídy jako podíly směrodatné odchylky nad a pod průměrem dat, neboli ukazuje, jak moc se data odchylují od průměru • Ideální pro data kterém mají normální rozdělení • Není vhodná v případě velkého počtu extrémních hodnot. Metoda maximálních zlomů • Hledají se největší mezery v histogramu • Hranice se tříd se umístí do největších „mezer“ • Nevhodné v případě dat s několika odlehlými hodnotami Metoda přirozených zlomů • Natural breaks • Vychází z analýzy histogramu • Hledají se lokální minima (zlomy) • Subjektivní Vlastní klasifikace ̶ Manuální zadání ̶ Např. pokud jsou předem dány klíčové hodnoty ̶ Při nevhodném zvolení šířky třídy se může stát, že poslední třída nesoucí maximální hodnoty může zůstat z velké části prázdná Jenks ̶ Metoda hledá přirozené zákonitosti a seskupení v datech a vytváří třídy na základě těchto přirozených skupin. ̶ Hranice jsou definovány v místech s relativně velkými rozdíly v datech ̶ ArcGIS Pro: Natural Breaks (Jenks), v QGISu stejný název ̶ Jedná se o univerzální klasifikační metodu, vhodnou pro většinu dat a začátečníky bez hlubší znalosti klasifikačních metod. ̶ Vždy je však vhodné hranice intervalů manuálně upravit (zaokrouhlit) na „rozumné hodnoty“. Je klasifikace nutná? ̶ Klasifikace usnadňuje a zrychluje čtení mapy = identifikaci prostorového vzoru Někdy to ale jde i bez klasifikace, ale … ̶ Kontinuální barevná škála → obtížné porovnávání i odhad hodnoty ̶ Výšky extrudovaných areálů („3D“) nejsou ovlivněny klasifikaci do konečného počtu třid. V podstatě zobrazuji surová data a výška může napomoci například při volbě klasifikace. ̶ Př.: výška areálu s dvojnásobnou hodnou zpracovávaného atributu je zobrazena jako dvojnásobná. ̶ Funguje především v případě interaktivní 3D vizualizace Lze vyzkoušet zde: https://olli.wz.cz/3d_traffic_offences/speed-districts.html Co v ArcGIS Pro … Zdroje: ̶ Miklín, J., Dušek, R., Krtička, L., Kaláb, O. (2018). Tvorba map. Ostrava: Ostravská univerzita. ISBN: 978-80-7599-017-4, 302 s. https://tvorbamap.osu.cz/ke-stazeni/ ̶ Kaňok, J. (1999). Tematická kartografie. Ostrava: Ostravská univerzita Přírodovědecká fakulta Ostravské univerzity. ISBN: 80-7042-781-7, 318 s. ̶ https://gistbok-topics.ucgis.org/CV-03-005 ̶ https://gistbok-topics.ucgis.org/CV-04-011 ̶ https://gistbok-topics.ucgis.org/FC-07-026 ̶ A odkazy přímo na slajdech GIS4SG Prostorová autokorelace Statistická analýza plošných jevů podzim 2024 Lukáš Herman herman.lu@mail.muni.cz Prostorová autokorelace ̶ Hodnoty atributů spolu korelují v závislosti na jejich vzajemné poloze. ̶ To může být v důsledku podobných přirozených (přírodních) podmínek (např. produkce zemědělských podniků) či v důsledku přirozené spojitosti jevů. ̶ Příklad – okresy Jihomoravského kraje: pozitivní prostorové autokorelace (shlukové uspořádání – vlevo) a negativní prostorové autokorelace (disperzní uspořádání – vpravo) Prostorová autokorelace Statistická analýza plošných jevů ̶ porovnáni prostorového uspořádání studovaného jevu s uspořádáním teoretickým (shlukovým, pravidelným či náhodným) ̶ typologie prostorového uspořádání jevů (bez uzemní souvislosti) ̶ regionalizace – seskupování jednotek (polygonů) do vyšších územně souvisejících celků ̶ interpolace a vyhlazování areálových dat Jak uchopit „sousedství“? ̶ Prostorová autokorelace měří stupeň podobnosti atributů mezi danou plochou a plochami sousedními. Nejprve proto musí být vztahy sousedství jistým způsobem kvantifikovány. ̶ Způsoby definováni sousedství (Rook’s case – věž, Queen’s case – Dáma) ̶ Binární matice konektivity (sousedí – 1, nesousedí – 0) ̶ Stochastická matice = matice se standardizovanými řádkovými vahami (RSWM) – záleží na počtu sousedů (př.: 4 → 0,25) ̶ Vedle sousedství je další běžně užívanou mírou prostorové relace objektů jejich vzdálenost (v případě polygonů např. vzdálenost centroidů) Míry prostorové autokorelace areálů ̶ Globální míry prostorové autokorelace: ̶ Data nominální ̶ Joint Count Statistics (JSC) – Statistika charakteru sousedství ̶ Data intervalová a poměrová ̶ Moranův index I ̶ Gearyho poměr C ̶ G statistika ̶ Prostorová autokorelace se může měnit v rámci studované oblasti → Lokální míry prostorové autokorelace: ̶ Local Indicator of Saptial Association (LISA) ̶ Lokální verze G statistiky (local G-statistics). ̶ Ke grafickým prostředkům hodnotícím prostorovou autokorelaci patří také Moranův scatterplot diagram. Joint count statistics (JCS) ̶ Touto metodou lze zjistit, zda uspořádání ploch, které mohou nabývat binárních hodnot vykazuje prvky náhodnosti. ̶ Tedy zda existuje pozitivní (clustered pattern) či negativní (random pattern) prostorová autokorelace. ̶ Podstata metody: ̶ U – zástavba, R – volná krajina. ̶ Čtyři typy sousedství: UU, RR, UR, RU. ̶ UR + RU < 50% → pozitivní prostorová autokorelace. ̶ UR + RU > 50% → negativní prostorová autokorelace U U R R R Joint count statistics (JCS) Počet pozorovaných AA sousedů = 40 Počet pozorovaných BB sousedů = 0 Počet pozorovaných AB sousedů = 2 Očekávaní AB sousedé = 37.905 Očekávaní BB sousedé = 0.105 Očekávaní AB sousedé = 3.99 Variance AA sousedů = 16.6421 Variance BB sousedů = 0.1406 Variance AB sousedů = 22.8314 Z skóre pro AA sousedy = 0.513547 Z skóre pro BB sousedy = -0.280025 Z skóre pro AB sousedy = -0.416473 V našem případě: A = nadprůměrný podíl občanů starších 64 let k celkovému počtu obyvatel B = podprůměrný podíl občanů starších 64 let k celkovému počtu obyvatel Indexy pro hodnocení prostorové autokorelace plošných jevů ̶ Moranův (I) index a Gearyho (C) index ̶ Jsou využitelné pro intervalová a poměrová data ̶ Jsou založeny na porovnávání hodnot atributů sousedních ploch ̶ Mají-li tyto sousední plochy v celé studované oblasti podobné hodnoty, potom obě statistiky budou svědčit o silné pozitivní prostorové autokorelaci a naopak. ̶ Obě statistiky využívají odlišný přístup k porovnávání hodnot sousedních ploch ̶ Vhodnější vlastnosti vzhledem k rozdělení hodnot má Moranův index Moranův (I) index ̶ Hodnota indexu kolísá od -1 pro negativní prostorovou autokorelaci do +1 pro pozitivní prostorovou autokorelaci. ̶ Vypočteme hodnoty I a E(I) a následně musíme zjistit, zda rozdíl mezi nimi je statisticky významný. ̶ Tento rozdíl je opět nutné vztáhnout k míře variability (např. rozptylu) a pomocí ní odvodit standardizovanou hodnotu z-skóre ̶ Pokud je hodnota Zn(I) menší (resp. větší) než -1,96 (resp. 1,96) je hodnota indexu I statisticky významně negativní (resp. pozitivní) na hladině významnosti α=0,05. Moranův index = -0,144 Očekávaný Moranův index = -0,053 Variance/rozptyl = 0,001 Z skóre = -2,727 Moranův (I) index ̶ ArcGIS pPo: Spatial Statistics Tools Gearyho poměr C ̶ Pro hodnotu indexu není rozhodující, která z hodnot je větší či menší, ale jaký je jejich absolutní rozdíl – jejich nepodobnost (ve výrazu je druhá mocnina jejich rozdílu). ̶ Gearyho index nabývá hodnot v intervalu 0 až 2. ̶ Hodnota 0 indikuje dokonalou pozitivní autokorelaci (všechny sousední hodnoty atributů jsou stejné). Naopak hodnota 2 indikuje dokonalou negativní prostorovou autokorelaci. Hodnota 1 znamená nulovou prostorovou autokorelaci – náhodné uspořádání ̶ Očekávaná hodnota Gearyho poměru nezávisí na počtu posuzovaných ploch, ale má vždy hodnotu 1. ̶ Pro prokázání statisticky významného rozdílu je nutné vypočítat hodnotu rozptylu a Z-skóre. ̶ Hodnota rozptylu se opět vypočte rozdílně v závislosti na předpokladu normality či náhodnosti. ̶ Z výše uvedeného plyne, že negativní hodnota Z-skóre značí pozitivní prostorovou autokorelaci a kladná hodnota Z-skóre značí negativní. Porovnání ̶ … https://www.researchgate.net/public ation/226212823_Geographical_dist ribution_of_crime_in_Italian_provinc es_A_spatial_econometric_analysis /figures?lo=1 Omezení globálních měr I, C ̶ Pouze řeší, zda: ̶ Podobné blízko sebe – pozitivní prostorová autokorelace ̶ Nepodobné blízko sebe – negativní prostorová autokorelace ̶ V realitě hrají roli také: ̶ Rozsah studované oblasti ̶ Počet objektů (ploch) ̶ Nevýhody: ̶ Nejsou však efektivní k identifikaci rozdílných shluků prostorového uspořádání uvnitř oblasti. ̶ Identifikují oblasti s podobnými hodnotami atributů, nerozlišují však, zda podobné hodnoty nabývají vysokých či nízkých hodnot. Obecná G statistika ̶ Před výpočtem G(d) je nutné určit vzdálenost d (např.: 30km), která definuje plochy, které budou považovány za sousedy plochy posuzované. Musí být vhodně zvolena (aby posuzovaná plocha měla 1+ souseda). ̶ K interpretaci G(d) je nutné vyčíslit očekávanou hodnotu E(G) a následně standardizovanou hodnotu z-skóre a tedy i rozptyl hodnoty G(d). ̶ Např. je-li vypočtená hodnota G(d) větší než očekávaná E(G), můžeme říci, že pozorované uspořádání vykazuje pozitivní prostorovou asociaci. ̶ Statistickou významnost tohoto tvrzení je opět nutné testovat výpočtem hodnoty rozptylu a Z-skóre. Hodnota Z-skóre menší než 1,96 indikuje statisticky nevýznamný výsledek na hladině α=0,05. Lokální statistiky prostorové autokorelace ̶ Předešlé zmiňované indexy jsou příkladem indexů globálních. ̶ Hodnoty prostorové autokorelace se mohou v různých suboblastech měnit. ̶ Navíc můžeme očekávat, že pozitivní autokorelaci lze nalézt v jednom subregionu a negativní v jiném. ̶ LISA (Local Indicators of Spatial Association) – lokální verze Moranova a Gearyho indexu. ̶ Ke zjištění úrovně prostorové autokorelace na lokální úrovni se vypočte hodnota indexu pro každou plochu zpracovávaného území. ̶ Lokální Moranův index: ̶ Vysoké hodnoty indexu I mají ty areály, jejichž sousedé mají velmi podobné hodnoty studované charakteristiky. Lokální Moranův index ̶ …Barevná škála by mohla být lepší ☺ Podíl Lokální statistiky prostorové autokorelace https://www.researchgate.net/public ation/226212823_Geographical_dist ribution_of_crime_in_Italian_provinc es_A_spatial_econometric_analysis /figures?lo=1 Lokální Moranův index ̶ … ArcGIS Pro: Cluster and Outlier Analysis (Anselin Local Moran's I) Moranovo korelační pole ̶ Lze identifikovat oblasti s neobvyklými hodnotami měr prostorové autokorelace, které lze označit jako oblasti s odlehlými hodnotami (outliers). Hodnota Moranova indexu indikuje slabou negativní prostorovou autokorelaci (celky s vysokou hodnotou studovaného atributu jsou blízko celků s nízkými hodnotami). Přiklad prostorového uspořádání atributů, který vykazuje silnou pozitivní autokorelaci a příslušný diagram Interpelace s ohledem na polohu bodů v jednotlivých kvadrantech: • high-high, low-low (2. nebo 3. kvadrant) = spatial clusters • high-low, low-high (1. nebo 4. kvadrant) = spatial outliers Moranovo korelační pole ̶ … Barevná škála by mohla být lepší ☺ Podíl Binární m. Stochastická m. Pokračování příště: Prostorová statistiky bodových dat Prostorová data Body Popisná statistika Charakteristiky polohy Průměrný střed Vážený průměrný střed Mediánový střed Agregovaný průměrný střed Charakteristiky rozptylu Směrodatná vzdálenost Vážená směrodatná vzdálenost Koeficient relativního rozptylu Směrodatná elipsa odchylek Charakteristiky asymetrie Charakteristiky špičatosti Prostorové uspořádání Analýza kvadrátů Metoda nejbližšího souseda Prostorová autokorelace Moranův index I Gearyho poměr C Plochy Prostorová autokorelace Globální míry Joint Count Statistics Moranův index I Gearyho poměr C G statistika Lokální míry LISA Lokální verze G statistiky Zdroje: ̶ https://gistbok-topics.ucgis.org/AM-03-022 ̶ https://gistbok-topics.ucgis.org/AM-03-023 ̶ Materiály předmětu Z6101 Základy geostatistiky ̶ A odkazy přímo na slajdech Další materiály: ̶ Volební výsledky v Praze: https://www.youtube.com/watch?v=GWRh_dq3U_U