GIS4SG Prostorové analýzy II. podzim 2023 Lukáš Herman herman.lu@mail.muni.cz Laboratory on Geoinformatics and Cartography (LGC) Institute of Geography Masaryk University Czech Republic Dnešní úkoly • Vyzkoušejte si prostorovou analýzu plošných dat v prostředí programu GeoDa • Vstupní data (v ISu): – Obecní byty v Brně − Redukce množství dat a průzkumu multidimenzionálního atributového prostoru s cílem identifikovat malý počet zajímavých subdimenzí (resp. kombinací atributů), které pak mohou být zkoumány z prostorového hlediska (uplatnění klasických multivariačních metod a následně vizualizace výsledků a jejich interpretace). − Průzkumu prostorových vzorů) a vztahů. − Prostorová klasifikace a diskriminace („rozdělování)“. SHLUKOVÁNÍ – APLIKACE − Shluková analýza je společný název pro celou řadu metod, jejichž cílem je využití informací z analýzy vícerozměrných dat k roztřídění množiny objektů do několika relativně homogenních podsouborů, označených jako shluky (clustery). − Objekty uvnitř shluků mají být co nejvíce podobné a objekty patřících do různých shluků co nejvíce rozdílné. Podobnost mezi objekty je uplatněna jako kritérium pro tvorbu shluků objektů. − Podobnost se měří různými prostředky: − míry korelace – korelační koeficienty (Pearsonův, Spearmanův) − míry vzdálenosti – euklidovská vzdálenost, Manhanattanská vz., … − míry asociace – nominální (kvalitativní) data – Sokalův-Michenerův koeficient asociace, Russelův-Raoův koeficient asociace, … − Korelační a vzdálenostní míry jsou míry metrických dat SHLUKOVÁNÍ − UNIVARIATE versus MULTIVARIATE ROZDĚLENÍ METOD – počet proměných ROZDĚLENÍ METOD II. – princip ROZDĚLENÍ METOD IIO. – „prostorovost“ − Lze pracovat jen s atributy! (bez prostorové složky) → Statistika apod. − „Soft“ prostorové − K-means − DBSCAN − „Hard“ prostorové − SKATER = Spatial `K’luster Analysis by Tree Edge Removal, − REDCAP = REgionalization with Dynamically Constrained Agglomerative clustering and Partitioning − Metoda „k průměrů“ − algoritmus nehierarchické shlukové analýzy. − Předpokládá, že shlukované objekty lze chápat jako body v nějakém eukleidovském prostoru a že počet shluků k je předem dán (případně lze vyzkoušet různá k, pro každé spustit algoritmus znovu a výsledky porovnat). − Shluky jsou definovány svými centroidy − Objekty se zařazují do toho shluku, jehož centroidu jsou nejblíže. − Algoritmus postupuje iterativně tak, že se vyjde z nějakých (obvykle náhodně zvolených) centroidů, přiřadí do nich body, přepočítá centroidy tak, aby šlo o těžiště shluku bodů, pak opět přiřadí body k nově stanoveným centroidům a tak dál, až dokud se poloha centroidů neustálí. K-means K-means − Např.: metoda nejbližšího souseda, Wardova metoda, … − aglomerační = opakované spojování dvou shluků až do jednoho počínaje jednotlivými objekty jako jednoprvkovými shluky − divizivní = opakované rozdělování nějakého shluku až na jednotlivé prvky počínaje jedním shlukem se všemi objekty − Grafické zobrazení: dendrogramu = stromový diagram − Vhodné pro aplikace vyžadující hierarchii shluků, např. taxonomie tříd objektů Hierarchické shlukování Geografický ústav, Přírodovědecká fakulta, Masarykova Univerzita11 − … − „Density-based spatial clustering of applications with noise“ − Vychází z hustoty definované pro blízké okolí každého objektu, z dosažitelnosti objektů zjištěné na základě této hustoty a propojenosti dvou objektů ověřené pomocí dosažitelnosti vybraných objektů − Není založen na vzdálenostech mezi objekty, a tím umožňuje nacházet shluky obecně libovolného tvaru (i shluky uvnitř jiného shluku) − Nevýhodou je nutnost zadat parametry hustoty, nebo minimální počet prvků ve shluku. DBSCAN d=3000 MinPts = 4 Geografický ústav, Přírodovědecká fakulta, Masarykova Univerzita13 − GeoDa − QGIS − ArcGIS Pro SOFTWARE − Analýza hlavních komponent − Cílem je redukce původního počtu popisovaných proměnných novými veličinami (umělými), označenými jako komponenty, které shrnují informaci o původních proměnných za cenu minimální ztráty informace. − Faktorová analýza − Cílem je popsat chování množiny cílových proměnných pomocí menšího počtu nových proměnných, označovaných jako faktory − Diskriminační analýza − Slouží k nalezení pravidel resp. funkcí, podle kterých lze roztřídit objekty do jednotlivých známých tříd s využitím hodnot vybraných proměnných (diskriminátory). Další metody multivarianční analýzy Jak na to … • Vyberte si jeden rok… • Pokuste se identifikovat shluky městských částí s podobnými vlastnostmi • Vyzkoušejte různé způsoby shlukování a porovnejte je mezi sebou A co ještě … • Podobně postupujte také při analýze prostorového uspořádání