GIS4SG Shlukování Úvod do open source GIS „Méně obvyklé“ metody kartografické vizualizace podzim 2024 Lukáš Herman herman.lu@mail.muni.cz − Redukce množství dat a průzkumu multidimenzionálního atributového prostoru s cílem identifikovat malý počet zajímavých subdimenzí (resp. kombinací atributů), které pak mohou být zkoumány z prostorového hlediska (uplatnění klasických multivariačních metod a následně vizualizace výsledků a jejich interpretace). − Průzkumu prostorových vzorů) a vztahů. − Prostorová klasifikace a diskriminace („rozdělování)“. SHLUKOVÁNÍ – APLIKACE − Shluková analýza je společný název pro celou řadu metod, jejichž cílem je využití informací z analýzy vícerozměrných dat k roztřídění množiny objektů do několika relativně homogenních podsouborů, označených jako shluky (clustery). − Objekty uvnitř shluků mají být co nejvíce podobné a objekty patřících do různých shluků co nejvíce rozdílné. Podobnost mezi objekty je uplatněna jako kritérium pro tvorbu shluků objektů. − Podobnost se měří různými prostředky: − míry korelace – korelační koeficienty (Pearsonův, Spearmanův) − míry vzdálenosti – euklidovská vzdálenost, Manhanattanská vz., … − míry asociace – nominální (kvalitativní) data – Sokalův-Michenerův koeficient asociace, Russelův-Raoův koeficient asociace, … − Korelační a vzdálenostní míry jsou míry metrických dat SHLUKOVÁNÍ − UNIVARIATE versus MULTIVARIATE ROZDĚLENÍ METOD – počet proměných ROZDĚLENÍ METOD II. – princip ROZDĚLENÍ METOD II. – „prostorovost“ − Lze pracovat jen s atributy! (bez prostorové složky) → Statistika apod. − „Soft“ prostorové − K-means − DBSCAN − „Hard“ prostorové − SKATER = Spatial `K’luster Analysis by Tree Edge Removal, − REDCAP = REgionalization with Dynamically Constrained Agglomerative clustering and Partitioning − Metoda „k průměrů“ − algoritmus nehierarchické shlukové analýzy. − Předpokládá, že shlukované objekty lze chápat jako body v nějakém eukleidovském prostoru a že počet shluků k je předem dán (případně lze vyzkoušet různá k, pro každé spustit algoritmus znovu a výsledky porovnat). − Shluky jsou definovány svými centroidy − Objekty se zařazují do toho shluku, jehož centroidu jsou nejblíže. − Algoritmus postupuje iterativně tak, že se vyjde z nějakých (obvykle náhodně zvolených) centroidů, přiřadí do nich body, přepočítá centroidy tak, aby šlo o těžiště shluku bodů, pak opět přiřadí body k nově stanoveným centroidům a tak dál, až dokud se poloha centroidů neustálí. K-means K-means − Např.: metoda nejbližšího souseda, Wardova metoda, … − aglomerační = opakované spojování dvou shluků až do jednoho počínaje jednotlivými objekty jako jednoprvkovými shluky − divizivní = opakované rozdělování nějakého shluku až na jednotlivé prvky počínaje jedním shlukem se všemi objekty − Grafické zobrazení: dendrogramu = stromový diagram − Vhodné pro aplikace vyžadující hierarchii shluků, např. taxonomie tříd objektů Hierarchické shlukování Geografický ústav, Přírodovědecká fakulta, Masarykova Univerzita10 − … − „Density-based spatial clustering of applications with noise“ − Vychází z hustoty definované pro blízké okolí každého objektu, z dosažitelnosti objektů zjištěné na základě této hustoty a propojenosti dvou objektů ověřené pomocí dosažitelnosti vybraných objektů − Není založen na vzdálenostech mezi objekty, a tím umožňuje nacházet shluky obecně libovolného tvaru (i shluky uvnitř jiného shluku) − Nevýhodou je nutnost zadat parametry hustoty, nebo minimální počet prvků ve shluku. DBSCAN − GeoDa − QGIS − ArcGIS Pro SOFTWARE − Analýza hlavních komponent − Cílem je redukce původního počtu popisovaných proměnných novými veličinami (umělými), označenými jako komponenty, které shrnují informaci o původních proměnných za cenu minimální ztráty informace. − Faktorová analýza − Cílem je popsat chování množiny cílových proměnných pomocí menšího počtu nových proměnných, označovaných jako faktory − Diskriminační analýza − Slouží k nalezení pravidel resp. funkcí, podle kterých lze roztřídit objekty do jednotlivých známých tříd s využitím hodnot vybraných proměnných (diskriminátory). Další metody multivarianční analýzy − HORÁK, Jiří (2012): Prostorové analýzy dat. Ostrava: VŠB Technická univerzita Ostrava. ISBN 978-80-248-4368-1. https://homel.vsb.cz/~hor10/Vyuka/PAD/PAD_skripta2022.pdf − Bill, V. (2018): Shlukování na základě hustoty pro velká data . https://core.ac.uk/download/161962896.pdf − https://gistbok-topics.ucgis.org/AM-02-009 − https://geodacenter.github.io/documentation.html − https://cs.wikipedia.org/wiki/K-means ZDROJE Chcete být milionářem? kartografem Pravý kartogram Pravý kartogram #1 Data přepočtená na plochu znázorňuje … kartodiagram kartodiagram Anamorfóza Anamorfóza Nepravý kartogram Nepravý kartogram 50/50 50/50 A C D B Jednu charakteristiku Jednu charakteristiku #2 Bivariantní metody znázorňují … Tři charakteristiky Tři charakteristiky Dvě charakteristiky Dvě charakteristiky Čtyři charakteristiky Čtyři charakteristikyA C D B 50/50 50/50 1 až 3 1 až 3 #3 Kolik je optimální počet tříd v legendě (např. u kartogramu)? 5 až 8 5 až 8 7 až 100 7 až 100 2 až 4 2 až 4A C D B 50/50 50/50 čtverci #4 Dorlingova metoda nahrazuje geografické areály … kruhy kruhy elipsami elipsami trojúhelníky trojúhelníkyA C D B 50/50 50/50 hamás hamás #5 Mezera mezi třídami v legendě pro kvantitativní data se označuje jako … humus humus hexagon hexagon hiát hiátA C D B 50/50 50/50 Míru nezaměstnanosti Míru nezaměstnanosti #6 Bipolární stupnicí znázorním … Podíl seniorů v populaci Podíl seniorů v populaci Přírůstek / úbytek obyvatelstva Přírůstek / úbytek obyvatelstva Hustotu zalidnění Hustotu zalidněníA C D B 50/50 50/50 body body #7 Izopletová mapa obsahuje určitě … čáry čáry šestiúhelníky šestiúhelníky čtverce čtverceA C D B 50/50 50/50 Open source GIS Knihovny GDAL/OGR, PROJ.4 Databáze PostgreSQL, PostGIS, SpatiaLite Utility ogr2ogr Skriptovací jazyky Python Data OSM, data.Brno Mapové servery Mapserver, Geoserver WWW Lefleat, geoDjango, Openlayers Desktop GIS (GUI) Prohlížečky Analytické aplikace ETL GDAL a OGR GDAL ̶ Rastrová data ̶ Asi 80 formátů ̶ C/C++ OGR ̶ Vektorová data ̶ Asi 30 formátů ̶ C/C++ https://pcjericks.github.io/py-gdalogr-cookbook/ https://training.gismentors.eu/geopython-zacatecnik/vektorova_data/ogr/index.html https://cs.wikipedia.org/wiki/GDAL ogr2ogr ̶ Převody formátu ̶ Prostorové/atributové dotazy ̶ Nastavení souřadnicových systémů ̶ Reprojekce QGIS ̶ https://www.qgis.org/en/site/ ̶ Dříve (do verze 2.0) pojmenován Quantum GIS ̶ Licence: GNU GPL ̶ Jazyk: C++, Qt, plug-iny lze vytvářet v Pythonu ̶ Vektor i rastr, geodatabáze ̶ Široké analytické možnosti ̶ Integruje moduly z jiných GIS prostředí ̶ Řada plug-inů QGIS SAGA ̶ https://saga-gis.sourceforge.io/en/index.html ̶ System for Automated Geoscientific Analyses ̶ Licence: GNU GPL ̶ Ovládání pomocí GUI nebo příkazové řádky ̶ programován v C++, modulární uspořádání ̶ 40 typů rastrových formátů ̶ z vektorů umí ty základní ̶ moduly ze SAGA jsou spustit v QGIS ale i v dalších programech SAGA https://sagatutorials.wordpr ess.com/training-manual/ https://sourceforge.net/p/sag a-gis/wiki/Documentation/ GRASS GIS ̶ https://grass.osgeo.org/ ̶ Geographic Resources Analysis Support System ̶ Vývoj zahájen v roce 1982 pro účely U.S. Army ̶ Licence: GNU GPL ̶ Vektorová i rastrová data ̶ Mnoho nástrojů pro analýzu ̶ GUI i příkazová řádka ̶ Moduly přístupné i v QGISu GRASS GIS OpenJUMP ̶ http://www.openjump.org/ ̶ Původně JUMP GIS od Vivid Solutions ̶ Jazyk: JAVA, primárně vektorová data (editace, …) ̶ Plug-iny: generalizace, … ̶ http://ojwiki.soldin.de/index.php?title=Plugins_for_OpenJUMP#Spatial_Anal ysis_and_Editing_PlugIns GeoDa ̶ Otevřený software - https://geodacenter.github.io/ ̶ Dr. Luc Ansellin - https://spatial.uchicago.edu/software (i další nástroje) ̶ Explorativní analýza dat ̶ Prostorové statistiky a modelování prostorových vzorů GeoKettle ̶ ETL = Extract Transform Load ̶ http://www.geokettle.org/ ̶ Prostorová verze nástroje Pentaho Data Integration (také známý jako Kettle) CrimeStat ̶ „balík pro prostorovou statistiku, který může analyzovat rozmístění trestných činů“ (Levine, 2013). ̶ program pro Windows, v jazyce C++, vývoj zahájen díky grantu National Institute of Justice. ̶ Neumožňuje přímo vytváření map, vizualizace dat a výsledků výpočtů ̶ Mezi hlavní funkce (v.4.0): ̶ prostorová deskripce (spatial description) ̶ analýzy koncentrací (hot spot analysis), ̶ prostorové modelování (spatial modeling), ̶ interpolace, ̶ Crime Travel Demand Modeling analýza potenciálních sériových zločinců https://en.wikipedia.org/wiki/CrimeStat https://nij.ojp.gov/topics/articles/crimestat-spatial-statistics-program-analysis-crime-incident-locations A nejen GIS! ̶ Vektorová grafika – Inkscape ̶ https://inkscape.org/ ̶ Rastrová grafika – GIMP ̶ https://www.gimp.org/ ̶ Sazba a předtisková příprava – Scribus ̶ https://www.scribus.net/ „Méně obvyklé“ metody kartografické vizualizace Tematická kartografie ̶ Grafické proměnné a další teorie – viz Kartografie a TTM ̶ Charakter dat ̶ Kvalitativní data ̶ Kvantitativní data ̶ Nyní: vybrané metody – s důrazem na ty méně obvyklé (pravděpodobně), a možnosti jejich praktického použití Co si ukážeme? ̶ Anamorfózy ̶ 3D kartogramy a kartodiagramy ̶ Bivariantní barevné škály ̶ Hexagony a jiné pravidelné tvary ̶ Tečková mapa ̶ Flow maps Anamorfóza ̶ Slovo anamorfóza pochází z řeckého anamorphosis, což znamená přetvoření – v případě map jde většinou o částečné přetvoření polohopisu ̶ Anglický termín: cartogram ̶ „Anamorfóza mapy je přeměna geometrické kostry mapy i jejího obsahu podle určitých pravidel tak, aby bylo umožněno výraznější vyjádření tematického obsahu.” (Voženílek, 2001) ̶ Cartogram Central – http://www.ncgia.ucsb.edu/projects/Cartogram_Central/index.ht ml Anamorfóza Souvislá anamorfóza Volně dostupný software ScapeToad: http://scapetoad.choros.place/ V jazyce Java  Souvislá anamorfóza https://christophfink.com/blog/cartogram-plugin-for-qgis3/ Plug-in do QGISu: https://plugins.qgis.org/plugins/cartogram/ Nesouvislá anamorfóza ̶ Danny Dorling z University of Leeds ̶ Jedná se převážně o nespojité mapy, které nezachovávají tvar ani vazby zobrazovaných území ̶ Existuje několik typů, které se liší ve tvaru zobrazovaných území a v principech umisťování symbolů ̶ Dorlingův – kruhy ̶ Demersův - čtverce GeoDa: https://spatial.uchicago.edu/software Anamorfóza – nesouvislá ̶ … Anamorfóza na základě vzdáleností Plug-in do QGISu: https://plugins.qgis.org/p lugins/dist_cartogram/ Anamorfóza – webové nástroje ̶ https://go-cart.io/ - spojitá (nafukování), státy světa ̶ https://pitchinteractiveinc.github.io/tilegrams/ - reálné tvary nahrazeny množinami hexagonů, několik států světa Hexagony ̶ ArcGIS Pro: ̶ Data Managent Tools – Generate Tessellation ̶ https://www.esri.com/about/newsroom/insider/thematic-mapping-with- hexagons/ ̶ QGIS: ̶ Plug-in MMQGIS - postup: https://www.gislounge.com/using-qgis- create-hexbin-map-gisp-registrations/ Objemový kartogram ̶ 3D varianta kartogramu se označuje jako objemový kartogram (Voženílek, 2001, s. 76), v anglicko-jazyčné literatuře je označován jako prism map (Slocum et al., 2005, s. 59). ̶ Kvantita je prezentována vyvýšením (extrudováním) základny daného areálu. Podíl uchazečů evidovaných déle než 6 měsíců k celkovému počtu uchazečů v Novem Jičíně (Horák et al., 2003) Objemový kartogram Objemový kartogram – ArcGIS Pro Objemový kartogram – QGIS https://twitter.com/hashtag/Qgis2threejs?src=hashtag_click 3D kartodiagramy ̶ Znázornění absolutních hodnot ̶ U 3D kartodiagramů je hodnota zobrazovaného jevu vyjádřena nejčastěji pomocí velikosti (př. jsou diagramy krychlové nebo kulové) nebo výšky (např. jako 3D sloupcový diagram). ̶ Velikost: ̶ Jednoparametrové: nejčastěji mají podobu jednoduchých těles (krychle, koule, jehlan, kužel). Nevýhodu tohoto způsobu znázornění zmiňuje Kaňok (1999, s. 118) – rozdíly v objemová velikosti jsou obecně vnímány obtížněji než velikost plošná. ̶ Víceparametrové: když změna objemu těles závisí na změnách jednotlivých parametrů nezávisle na sobě. Legenda pro 3D mapy ̶ 3D mapové pole (a data v něm) versus 3D legenda? ̶ Jiné řešení? Bivariantní kartogram – ArcGIS Pro Bivariantní kartogram https://plugins.qgis.org/plugins/BivariateRe nderer/ https://bnhr.xyz/2019/09/15/bivariate- choropleths-in-qgis.html https://ukdataservice.ac.uk/app/uploads/qgi sbivariate.pdf Plug-iny do QGISu: Tečková mapa • Liniové kartodiagramy, další označení: liniový, stuhový, pásový, proužkový kartodiagram nebo pendlogram • Anglicky: flowline/flow maps, ribbon lines, diagram linear symbols • Velikost a dynamika se znázorňují pomocí šířky liniového pásu a změn šířky • Kvalita a struktura pomocí barvy nebo rastru • Pro udání směru se používají šipky • Dělení podle přesnosti umístění linií na: • topograficky (a), • schematicky umístěné (b) Flow maps Data a grafické proměnné • počet překrytí/křížení by měl být minimalizován • je třeba se vyvarovat ostrých ohybů a příliš asymetrických proudění • je třeba se vyvarovat ostrých průsečíků • linie nesmí procházet pod nepropojenými uzly • linie by měly být radiálně uspořádány kolem uzlů • množství je nejlepší reprezentovat proměnnou šířkou linie • směr je vhodné vyznačit šipkami • šipky by měly odpovídat šířce linie, avšak šipky pro tenké linie by měly být zvětšeny • je třeba se vyvarovat překrývání mezi hroty šipek a liniemi Flow maps - doporučení QGIS https://anitagraser.com/2019/ 05/04/flow-maps-in-qgis-no- plugins-needed/ QGIS – extenze Visualist https://ipsac2.unil.ch/main/ − Miklín, J., Dušek, R., Krtička, L., Kaláb, O. (2018). Tvorba map. Ostrava: Ostravská univerzita. ISBN 978-80-7599-017-4, 302 stran. https://tvorbamap.osu.cz/ke-stazeni/ − https://gistbok-topics.ucgis.org/CV-04-031 − http://old.gis.zcu.cz/studium/tka/Slides/kartodiagramy.pdf − A další odkazy zdroje na jednotlivých slidech Zdroje