ppt_sablona_pozadi GIS4SG Kartogramy – normalizace, klasifikace. Statistická analýza plošných jevů jaro 2023 Lukáš Herman herman.lu@mail.muni.cz ZnaÄ�ka MUNI SCI - Barevné provedenà ppt_sablona_pozadi Kartogram = choropletová mapa z ruštiny a z angličtiny ppt_sablona_pozadi Obsah obrázku mapa Popis byl vytvořen automaticky https://www.linkedin.com/feed/update/urn:li:activity:7034157417185595392?updateEntityUrn=urn%3Ali%3 Afs_feedUpdate%3A%28V2%2Curn%3Ali%3Aactivity%3A7034157417185595392%29 ppt_sablona_pozadi Kartogram, choropletová mapa •Kartogram je mapa s dílčími územními celky, do kterých jsou plošným způsobem znázorněna statistická data (jedná se o relativní hodnoty) většinou geografického charakteru (Kaňok, 1999). •Vyjadřuje hodnotu jevu barvou (respektive odstínem šedé, rastrem, šrafováním), přičemž tyto barvy jsou uspořádány do stupnice •Výše uvedené se týká areálových/plošných dat, ale metoda intenzitních barev může být aplikována i na body nebo linie à •Nepravý kartogram –Tzv. kartogramy bez prostorového základu –Nepoužívají se data přepočtená na jednotku plochy –V praxi častější než běžný kartogram • – – ppt_sablona_pozadi Měřítko a vymezení areálů ppt_sablona_pozadi Relativní a absolutní data •Můžu zobrazovat i absolutní data? –Jen když jsou použity jednotky stejného velikosti a tvaru •Jak je získat data relativní? –Už je stáhnu, dostanu, …. –Můžu je vypočítat z absolutních! •Normalizace, standardizace – – – image010 ppt_sablona_pozadi Normalizace •Dva obecné typy normalizace: –statistická normalizace – prostřednictvím dat –vizuální normalizace – s využitím grafických proměnných •úpravou sytosti (nebo průhlednosti) = „value-by-alpha“ mapa •úpravou velikosti jednotky = anamorfóza – – – ppt_sablona_pozadi Sharknado: The Complete Collection [Blu-ray] - Best Buy Bivariantní kartogram •Zobrazuje dvě charakteristiky – – – ppt_sablona_pozadi Bivariantní kartogram – ArcGIS Pro ppt_sablona_pozadi Ke statistické normalizaci můžeme použít: 1)Plochu 2)Souhrnnou hodnotou za jednotku 3)Souhrnnou (průměr, modus, medián) hodnotou za všechny jednotky 4)Relevantní populaci 5)Předchozí časové období – viz vizualizace změn – – – ppt_sablona_pozadi Normalizace plochou •Pravý kartogram •Vzniká hustota •Nejznámější příklad: hustota zalidnění (obyv./km2) – – – ppt_sablona_pozadi Normalizace souhrnnou hodnotou za jednotku •Spočítám průměr/medián v jednotce •Je to sice průměr, ale nejsou to zase absolutní data?!? • – – – ppt_sablona_pozadi Normalizace souhrnnou hodnotou za všechny jednotky •Vypočítám průměr, modus, medián … za všechny územní celky •Dílčí jednotky pak znázorňují odchylku od „střední“ hodnoty • – – – ppt_sablona_pozadi Normalizace relevantní populací •„Per capita“ (na hlavu), na 1000 obyvatel, … •Počet obyvatel, počet nemocných, počet ekonomicky aktivních, počet domácností, … – – – Epidemiologická data ukazují, že na horách je vyšší riziko nákazy onemocněním covid-19 – Ministerstvo zdravotnictví ppt_sablona_pozadi Normalizace předchozím časovým obdobím •Viz časové indexy – – – ppt_sablona_pozadi Normalizace – závěr •Při normalizaci je nezbytně nutné, aby byla data normalizována vůči stejnému univerzu hodnot, ve kterých byly naměřeny dané jevy. –Podíl musí dávat smysl! • •Př.: zastoupení nízkopříjmových domácnosti by měly být normalizovány vůči celkovému počtu domácností, nikoli vůči celkovému počtu obyvatel. • •Pro pravdivou a efektivní kartografickou komunikaci dat je důležitá normalizace, a to jak statistická tak i vizuální. – – – ppt_sablona_pozadi Klasifikace ppt_sablona_pozadi Klasifikace – příklad •Percentage of residents over the age of 25 in Wisconsin that possess a Bachelor's degree or higher in Wisconsin in 2016 by county •There are 72 values in the dataset representing one for each county, and the range is from a minimum of 10% and a maximum of 50%. •The data is based on the American Community Survey 5-year Estimates for educational achievement from 2012-2016 . •Data is modified very slightly for simplicity of illustration (the highest value, Dane County, rounded up to 50% from 49%, and lowest value, Clark County, rounded down to 10% from 11%). •The data is not heavily skewed, although there is a slight positive skew with some outliers. – – ppt_sablona_pozadi Klasifikace – metody 1)Stejné intervaly 2)Kvantily 3)Průměr a násobky směrodatné odchylky 4)Metoda maximálních zlomů (Maximum breaks) 5)Metoda přirozených zlomů 6)Vlastní 7) •Jenks • – – – ppt_sablona_pozadi Stejné intervaly equal interval •Zadavá se počet intervalů a data jsou rozdělena do intervalů o stejném rozsahu (ArcGIS Pro: Equal Interval à počet; Defined Interval à šířka) •Mohou nastat připady, kdy v danem rozsahu třidy bude nula prvků! •Vzhledem k tomu, že v hraničních třidách se vyskytuji většinou málo četné odlehlé hodnoty, je toto rozděleni vhodné pro zvýraznění extrémů. •Není vhodné, pokud je rozděleni dat zešikmené nebo existuji v něm příliš odlehlé hodnoty. •Částečně související metodou jsou geometrické intervaly •Metoda definuje nejužší třídu a šířky ostatních tříd odvozuje pomocí proměnlivého násobného faktoru • – – – ppt_sablona_pozadi Kvantily •Kvartily, pentily, decily, percentily… •ArcGIS Pro: Quantile •Metoda rozděluje data do nerovnoměrně velkých tříd, ale se stejným počtem prvků ve třídách. •Metodu je vhodné použít v případě, kdy jsou data lineárně distribuována s přiměřeným počtem prvků s podobnými hodnotami nebo pokud se vyskytují extrémní hodnoty. •Metoda je nevhodná v případech velkého množství prvků s podobnými hodnotami ppt_sablona_pozadi Průměr a násobky směrodatné odchylky •Metoda vytváří třídy jako podíly směrodatné odchylky nad a pod průměrem dat, neboli ukazuje, jak moc se data odchylují od průměru •Ideální pro data kterém mají normální rozdělení •Není vhodná v případě velkého počtu extrémních hodnot. • • – – – ppt_sablona_pozadi Metoda maximálních zlomů •Hledají se největší mezery v histogramu •Hranice se tříd se umístí do největších „mezer“ •Nevhodné v případě dat s několika odlehlými hodnotami • – – – ppt_sablona_pozadi Metoda přirozených zlomů •Natural breaks •Vychází z analýzy histogramu •Hledají se lokální minima (zlomy) •Subjektivní • – – – ppt_sablona_pozadi Vlastní klasifikace •Manuální zadání •Např. pokud jsou předem dány klíčové hodnoty •Při nevhodném zvolení šířky třídy se může stát, že poslední třída nesoucí maximální hodnoty může zůstat z velké části prázdná – – – ppt_sablona_pozadi Jenks •Metoda hledá přirozené zákonitosti a seskupení v datech a vytváří třídy na základě těchto přirozených skupin. •Hranice jsou definovány v místech s relativně velkými rozdíly v datech •ArcGIS Pro: Natural Breaks (Jenks), v QGISu stejný název •Jedná se o univerzální klasifikační metodu, vhodnou pro většinu dat a začátečníky bez hlubší znalosti klasifikačních metod. •Vždy je však vhodné hranice intervalů manuálně upravit (zaokrouhlit) na „rozumné hodnoty“. – – – ppt_sablona_pozadi Je klasifikace nutná? •Klasifikace usnadňuje a zrychluje čtení mapy = identifikaci prostorového vzoru • ppt_sablona_pozadi Někdy to ale jde i bez klasifikace •Kontinuální barevná škála •Výšky extrudovaných areálů („3D“) nejsou ovlivněny klasifikaci do konečného počtu třid. V podstatě zobrazuji surová data a výška může napomoci například při volbě klasifikace. –Př.: výška areálu s dvojnásobnou hodnou zpracovávaného atributu je zobrazena jako dvojnásobná. –Funguje především v případě interaktivní 3D vizualizace • Lze vyzkoušet zde: https://olli.wz.cz/3d_traffic_offences/speed-districts.html ppt_sablona_pozadi Statistická analýza plošných jevů •porovnáni prostorového uspořádání studovaného jevu s uspořádáním teoretickým (shlukovým, pravidelným či náhodným) •typologie prostorového uspořádání jevů (bez uzemní souvislosti) •regionalizace – seskupování jednotek (polygonů) do vyšších územně souvisejících celků •interpolace a vyhlazování areálových dat – – ppt_sablona_pozadi Prostorová autokorelace •Hodnoty atributů ploch spolu korelují v závislosti na jejich vzajemné poloze. •To může být v důsledku podobných přirozených (přírodních) podmínek (např. produkce zemědělských podniků) či v důsledku přirozené spojitosti jevů. •Příklad: pozitivní prostorové autokorelace (shlukové uspořádání – vlevo) a negativní prostorové autokorelace (disperzní uspořádání – vpravo) – – ppt_sablona_pozadi Prostorová autokorelace •Prostorová autokorelace měří stupeň podobnosti atributů mezi danou plochou a plochami sousedními. Nejprve proto musí být vztahy sousedství jistým způsobem kvantifikovány. •Způsoby definováni sousedství (Rook’s case – věž, Queen’s case – Dáma) •Binární matice konektivity (sousedí – 1, nesousedí – 0) •Stochastická matice = matice se standardizovanými řádkovými vahami (RSWM) – záleží na počtu sousedů (př.: 4 à 0,25) • • • • • • •Vedle sousedství je další běžně užívanou mírou prostorové relace objektů jejich vzdálenost (v případě polygonů např. vzdálenost centroidů) – ppt_sablona_pozadi Míry prostorové autokorelace areálů •Globální míry prostorové autokorelace: –Data nominální •Joint Count Statistics (JSC) – Statistika charakteru sousedství –Data intervalová a poměrová •Moranův index I •Gearyho poměr C •G statistika • •Prostorová autokorelace se může měnit v rámci studované oblasti à Lokální míry prostorové autokorelace: –Local Indicator of Saptial Association (LISA) –Lokální verze G-statistiky (local G-statistics). • •Ke grafickým prostředkům hodnotícím prostorovou autokorelaci patří také Moranův scatterplot diagram. – ppt_sablona_pozadi Joint count statistics (JCS) •Touto metodou lze zjistit, zda uspořádání ploch, které mohou nabývat binárních hodnot vykazuje prvky náhodnosti. •Tedy zda existuje pozitivní (clustered pattern) či negativní (random pattern) prostorová autokorelace. • • • • • • •Podstata metody: –U – zástavba, R – volná krajina. –Čtyři typy sousedství: UU, RR, UR, RU. –UR + RU < 50% à pozitivní prostorová autokorelace. –UR + RU > 50% à negativní prostorová autokorelace U U R R R ppt_sablona_pozadi Joint count statistics (JCS) Počet pozorovaných AA sousedů = 40 Počet pozorovaných BB sousedů = 0 Počet pozorovaných AB sousedů = 2 Očekávaní AB sousedé = 37.905 Očekávaní BB sousedé = 0.105 Očekávaní AB sousedé = 3.99 Variance AA sousedů = 16.6421 Variance BB sousedů = 0.1406 Variance AB sousedů = 22.8314 Z skóre pro AA sousedy = 0.513547 Z skóre pro BB sousedy = -0.280025 Z skóre pro AB sousedy = -0.416473 V našem případě: A = nadprůměrný podíl občanů starších 64 let k celkovému počtu obyvatel B = podprůměrný podíl občanů starších 64 let k celkovému počtu obyvatel Ve dvaceti zvolených obcích je velmi výrazná převaha obcí s nadprůměrným podílem občanů starších 64. Protože jde o nominální data, používá se ke zpracování dat JCS (Joint Count Statistics – Statistika charakteru sousedství). Tato metoda využívá binární matice konektivity. Prvky na hlavni diagonále této matice mají hodnoty 0, matice je symetrická, suma v řádku nese informaci o počtu sousedů daná jednotky. Nevýhodou je, že pro větší počet prostorových jednotek obsahuje velké množství nul a že v ní dochází k redundanci uložené informace. Vypočítaná prostorová autokorelace je pozitivní a tedy prostorové uspořádání je shlukové, což indikuje především vysoká hodnota AA. Pozorované počty spojů však musí být porovnány s náhodným uspořádáním a musíme je testovat, zda jsou statisticky významné. Očekávaný počet sousedů AA je nižší než pozorovaný (skutečný) počet těchto spojení. V případě spojení AB je tomu naopak, očekávaný počet je mírně vyšší než počet spojů pozorovaných. Žádná z hodnot Z skóre nepřesahuje prahovou hodnotu +/- 1,96 a tak uvedené uspořádání nevykazuje statisticky významnou pozitivní prostorovou autokorelaci na hladině významnosti α=0,05 ppt_sablona_pozadi Indexy pro hodnocení prostorové autokorelace plošných jevů •Moranův (I) index a Gearyho (C) index •Jsou využitelné pro intervalová a poměrová data •Jsou založeny na porovnávání hodnot atributů sousedních ploch •Mají-li tyto sousední plochy v celé studované oblasti podobné hodnoty, potom obě statistiky budou svědčit o silné pozitivní prostorové autokorelaci a naopak. • •Obě statistiky využívají odlišný přístup k porovnávání hodnot sousedních ploch •Vhodnější vlastnosti vzhledem k rozdělení hodnot má Moranův index • ppt_sablona_pozadi Moranův (I) index •Hodnota indexu kolísá od -1 pro negativní prostorovou autokorelaci do +1 pro pozitivní prostorovou autokorelaci. •Vypočteme hodnoty I a E(I) a následně musíme zjistit, zda rozdíl mezi nimi je statisticky významný. •Tento rozdíl je opět nutné vztáhnout k míře variability (např. rozptylu) a pomocí ní odvodit standardizovanou hodnotu z-skóre •Pokud je hodnota Zn(I) menší (resp. větší) než -1,96 (resp. 1,96) je hodnota indexu I statisticky významně negativní (resp. pozitivní) na hladině významnosti α=0,05. • • Moranův index = -0,144 Očekávaný Moranův index = -0,053 Variance/rozptyl = 0,001 Z skóre = -2,727 ppt_sablona_pozadi Moranův (I) index •Spatial Statistics Tools ppt_sablona_pozadi Gearyho (G) index •Pro hodnotu indexu není rozhodující, která z hodnot je větší či menší, ale jaký je jejich absolutní rozdíl – jejich nepodobnost (ve výrazu je druhá mocnina jejich rozdílu). •Gearyho index nabývá hodnot v intervalu 0 až 2. •Hodnota 0 indikuje dokonalou pozitivní autokorelaci (všechny sousední hodnoty atributů jsou stejné). Naopak hodnota 2 indikuje dokonalou negativní prostorovou autokorelaci. Hodnota 1 znamená nulovou prostorovou autokorelaci – náhodné uspořádání •Očekávaná hodnota Gearyho indexu nezávisí na počtu posuzovaných ploch, ale má vždy hodnotu 1. •Pro prokázání statisticky významného rozdílu je nutné vypočítat hodnotu rozptylu a Z-skóre. •Hodnota rozptylu se opět vypočte rozdílně v závislosti na předpokladu normality či náhodnosti. •Z výše uvedeného plyne, že negativní hodnota Z-skóre značí pozitivní prostorovou autokorelaci a kladná hodnota Z-skóre značí negativní. • • ppt_sablona_pozadi Porovnání •… • • https://www.researchgate.net/publication/226212823_Geographical_distribution_of_crime_in_Italian_pr ovinces_A_spatial_econometric_analysis/figures?lo=1 ppt_sablona_pozadi Omezení globálních měr I, C •Pouze řeší, zda: –Podobné blízko sebe – pozitivní prostorová autokorelace –Nepodobné blízko sebe – pozitivní prostorová autokorelace • •V realitě hrají roli také: –Rozsah studované oblasti –Počet objektů (ploch) • •Nevýhody: –Nejsou však efektivní k identifikaci rozdílných shluků prostorového uspořádání uvnitř oblasti. –Identifikují oblasti s podobnými hodnotami atributů, nerozlišují však, zda podobné hodnoty nabývají vysokých či nízkých hodnot. • • • ppt_sablona_pozadi Obecná G statistika •Před výpočtem G(d) je nutné určit vzdálenost d (např.: 30km), která definuje plochy, které budou považovány za sousedy plochy posuzované. Musí být vhodně zvolena tak, aby posuzovaná plocha měla alespoň jednoho souseda. •K interpretaci G(d) je nutné vyčíslit očekávanou hodnotu E(G) a následně standardizovanou hodnotu z-skóre a tedy i rozptyl hodnoty G(d). •Např. je-li vypočtená hodnota G(d) větší než očekávaná E(G), můžeme říci, že pozorované uspořádání vykazuje pozitivní prostorovou asociaci. •Statistickou významnost tohoto tvrzení je opět nutné testovat výpočtem hodnoty rozptylu a Z-skóre. Hodnota Z-skóre menší než 1,96 indikuje statisticky nevýznamný výsledek na hladině α=0,05. • • • • ppt_sablona_pozadi Lokální statistiky prostorové autokorelace •Předešlé zmiňované indexy jsou příkladem indexů globálních. •Hodnoty prostorové autokorelace se mohou v různých suboblastech měnit. •Navíc můžeme očekávat, že pozitivní autokorelaci lze nalézt v jednom sub-regionu a negativní v jiném. •LISA (Local Indicators of Spatial Association) - lokální verze Moranova a Gearyho indexu. •Ke zjištění úrovně prostorové autokorelace na lokální úrovni se vypočte hodnota indexu pro každou plochu zpracovávaného území. •Lokální Moranův index: –Vysoké hodnoty indexu I mají ty areály, jejichž sousedé mají velmi podobné hodnoty studované charakteristiky. • • • • ppt_sablona_pozadi Lokální Moranův index •… • • • • Barevná škála by mohla být lepší J Podíl Globální varianta Moranova udává míru prostorové autokorelace v celém vstupním souboru hodnot na základě polohy a atributové hodnoty. V případě tohoto cvičení bylo náhodně zvoleno dvacet sousedních obcí z Jihomoravského kraje, jako vstupní atribut sloužil podíl obyvatel starších 64 let v celkové populaci obcí. Vzhledem k hodnotě vypočteného a očekávaného Moranova indexu, lze považovat uspořádání za pravidelné, sousední obce vykazují rozdílné chování. Z skóre je přibližně -2,82, můžeme prohlásit, že jde o statisticky významný jev. Při zjišťování lokální varianty Moranova indexu byla použita metoda inverzní vzdálenosti. Nejnižší hodnoty tohoto indexu mají ty obce, jejichž sousedé mají velmi odlišní hodnoty studované charakteristiky, jde především o obce Křídlůvky a Valtrovice. Podle Z skóre jsou jejich hodnoty statisticky významná a nelze je považovat za náhodné. Ostatní obce mají hodnoty Moranova indexu vyšší, jsou si tedy se svými sousedy podobnější a jejich Z skóre jsou uvnitř intervalu -1,96 až 1,96. Lokální statistiky Moranova korelačního pole se snaží postihnutí prostorové heterogenity v dílčích částech území. Lze jimi identifikovat oblasti s neobvyklými hodnotami prostorové autokorelace. Hodnoty nacházející se výrazně nad či pod regresní čárou jsou odlehlé. Korelační pole je založeno na regresní závislosti mezi studovanou charakteristikou a váženou charakteristikou. V našem případě se v Moranově korelačním poli se prvky (obce) vyskytují takřka výhradně v prvním a třetím kvadrantu, což implikuje silnou pozitivní prostorovou autokorelaci. Všechny tři vytvořené diagramy jsou při vizuálním srovnání velmi podobné, až shodné. ppt_sablona_pozadi Lokální statistiky prostorové autokorelace https://www.researchgate.net/publication/226212823_Geographical_distribution_of_crime_in_Italian_pr ovinces_A_spatial_econometric_analysis/figures?lo=1 ppt_sablona_pozadi Lokální Moranův index •… • • • • ArcGIS Pro: Cluster and Outlier Analysis (Anselin Local Moran's I) ppt_sablona_pozadi Moranovo korelační pole •Lze identifikovat oblasti s neobvyklými hodnotami měr prostorové autokorelace, které lze označit jako oblasti s odlehlými hodnotami (outliers). • • • • Hodnota Moranova indexu indikuje slabou negativní prostorovou autokorelaci (celky s vysokou hodnotou studovaného atributu jsou blízko celků s nízkými hodnotami). Přiklad prostorového uspořádání atributů, který vykazuje silnou pozitivní autokorelaci a příslušný Moranův diagram ppt_sablona_pozadi Moranovo korelační pole •… • • • • Barevná škála by mohla být lepší J Podíl Binární m. Stochastická m. Obsah obrázku tabulka Popis byl vytvořen automaticky ppt_sablona_pozadi Zdroje: •Miklín, J., Dušek, R., Krtička, L., Kaláb, O. (2018). Tvorba map. Ostrava: Ostravská univerzita. ISBN: 978-80-7599-017-4, 302 s. https://tvorbamap.osu.cz/ke-stazeni/ •Kaňok, J. (1999). Tematická kartografie. Ostrava: Ostravská univerzita Přírodovědecká fakulta Ostravské univerzity. ISBN: 80-7042-781-7, 318 s. •https://gistbok.ucgis.org/bok-topics/statistical-mapping-enumeration-normalization-classification •https://gistbok.ucgis.org/bok-topics/common-thematic-map-types •https://gistbok.ucgis.org/bok-topics/problems-scale-and-zoning •Materiály předmětu Z6101 Základy geostatistiky •A odkazy přímo na slajdech • – – – ppt_sablona_pozadi Další materiály: •Volební výsledky v Praze: https://www.youtube.com/watch?v=GWRh_dq3U_U • – – –