GEOSTATISTIKA - cv. 9: Hot-spot analýza a prostorová regrese
Zadání:
Na základě podkladových dat pro cvičení (bodová vrstva s telefonáty na tísňovou linku 911)
rozhodněte, jestli jsou výjezdová centra záchranných složek v Portlandu (Oregon) správně
rozmístěna.
- 911_calls.shp – tísňová volání
- response_stations.shp – výjezdová místa
- ObsData911Calls.shp – data ze sčítání, demografická a socioekonomická data
Pomocí prostorové závislosti zjistěte, proč jsou v hot-spotech tak četné hovory na tísňovou
linku.
Používejte souřadný systém WGS 1984 UTM Zone 10N (s transformací WGS 1984 (ITRF00) To
NAD 1983). K vypracování využijte program ArcMap.
Poznámky:
1) Nejprve je nutné volání z bodové vrstvy „agregovat“ do prostorových útvarů, které
budou reprezentovat intenzitu jevu. Pokud jsou vstupní vrstvou polygony
(správní/administrativní jednotky), je možné použít nástroj Spatial Join. Pokud
používáme vlastní pravidelnou síť, lze využít nástroje Create Fishnet v kombinaci
s nástrojem Spatial Join. Pro bodovou vrstvu je možnost agregování pomocí nástroje
Integrate v kombinaci s nástrojem Collect Events. Příkaz Integrate nevratně změní
vstupní data, takže si je před použitím příkazu zkopírujte nebo zálohujte! Poslední
nástroj ještě neznáte, takže použijeme příkaz Integrate (XY tolerance bude 30 stop)
a poté spusťte Collect Events. Výsledkem bude agregovaná vrstva s počty bodů.
2) Vypočtěte míru prostorové autokorelace podle vzdálenosti pomocí nástroje
Incremental Spatial Autocorrelation (vstupní atribut bude ICount z vrstvy generované
příkazem Collect Events). Nastavení ponechte defaultní, zprávu uložte do pdf
a prohlédněte si ji.
3) Pomocí nástroje Hot Spot Analysis (Getis-Ord Gi*) vypočtěte centra zvýšeného
výskytu volání na tísňovou linku. Vstupní vrstvou budou agregovaná volání (výstup
příkazu Collect Events), vstupní atribut bude ICount. Distance Band or Threshold
Distance bude nastavený na první lokální maximum zjištěné v bodu 2). Peak by měl mít
hodnotu okolo 4650 (zkoumáme lokální vliv, proto používáme první peak; kdybychom
řešili regionální závislost, použila by se hodnota druhého / třetího peaku, viz ArcGIS
help). Výslednou hodnotu GiZScore interpolujte pomocí libovolné metody.
4) Spusťte Ordinary Least Squares nad vrstvou ObsData911Calls. Unique ID Field bude
UniqID, Dependent Variable bude Calls a Explanatory Variables bude atribut Pop.
Z výsledků je patrné, že počet obyvatel vysvětluje pouze z 39 % počet volání na
tísňovou linku (hodnota Adjusted R-Squared). Tzn. víme, že vysoký počet obyvatel
v městské části neznamená vysoký počet hovorů.
5) Zjistěte závislost vybraných atributů na počtu volání anebo populaci (pomocí nástroje
Create Scatterplot Matrix Graph v nabídce View / Graphs); použijte např. atributy Pop,
Jobs, Renters, Bussiness, ForgnBorn, NotInLF, LowEduc, Dst2UrbCen, atd.
6) Znovu spusťte Ordinary Least Squares nad vrstvou ObsData911Calls. Unique ID Field
bude UniqID, Dependent Variable bude Calls a Explanatory Variables budou atributy
Pop, Jobs, LowEduc a Dst2UrbCen. Z výsledků je patrné, že zvolené atributy vysvětlují
přes 83 % počet volání na tísňovou linku (hodnota Adjusted R-Squared).
7) Pomocí nástroje Spatial Autocorrelation ověřte, jestli jsou hodnoty reziduí náhodně
rozmístěny. V případě, že by nebyly, by byla chyba v tom, že jsme nenašli nějaký
významný prostorový faktor (např. další závislý atribut). Nastavení bude následující:
- Input Field: StdResid
- Generate Report: ON
- Conceptualization of Spatial Relationships: Inverse Distance
- Distance Method: Euclidean Distance
- Standardization: ROW (pro polygony so používá jen ROW, viz help)
8) Kontrola výstupů OLS:
- COEFFICIENT: vypovídá v závislosti mezi závislou a vysvětlovanou
proměnnou; v našem případě je pozitivní závislost u většiny atributů,
nejvýraznější u LowEduc. Prakticky to znamená, že čím více LowEduc, tím
více hovorů. Opačným případem je atribut Dst2UrbCen (vzdálenost od
centra města). Zde je závislost negativní.
- VIF (variance inflation factor): řeší tzv. kolinearitu. Je-li hodnota vysoká
(větší než 10), jsou atributy výrazně závislé. Kritická hodnota pro většinu
testů v programu ArcMap uvažuje již hodnoty vyšší než 7,5. Obecně je lepší
mít hodnotu VIF co nejnižší.
- Statisticky významné parametry: pro ověření se používají značky (*)
u parametrů Probability a Robust_Pr. Pokud proměnná není významná,
měla by být odstraněna. Dále se používá test Koenker (BP) statistic. Pokud
je test signifikantní, lze modelu důvěřovat. Viz dále.
- Jarque-Bera test: test NESMÍ být signifikantní. Testuje náhodné prostorové
rozdělení reziduí (podobně jako krok 7). Pokud je signifikantní, tak jsme
pravděpodobně zapomněli jeden nebo více závislých atributů.
- Přesnost modelu: Vysvětlují jej hodnoty Akaike information criterion (AIC)
a Adjusted R-Squared. Hodnota Akaike information criterion (AIC) by měla
být co nejmenší. Pokud je pro vyšší počet atributů stejně vysoká, jako pro
nižší, tak se přidáním atributů přesnost nezlepšila. Hodnota Adjusted RSquared
je v intervalu od 0 do 1. Čím blíže 1, tím je model lepší.
Koenker (BP) statistics: test mimo jiné řeší stacionaritu dat. Díky tomu, že je test
signifikantní, víme, že jsou data nestacionární. Existuje zde tedy nějaká závislost, vzhledem
k povaze dat půjde o závislost prostorovou. To znamená, že některé atributy mohou mít
v určitých oblastech velký význam při vysvětlování proměnné, v jiných oblastech bude
význam menší. Jelikož Ordinary Least Squares uvažuje globální prostorové rozdělení
hodnot, vyzkoušíme metodu Geographically Weighted Regression, která prostorovou
variabilitu řeší i na lokální úrovni.
9) Spusťte nástroj Geographically Weighted Regression a použijte následující nastavení:
proměnná stejné jako v kroku 6), kernel typu bude ADAPTIVE. Všimněte si rozdílů mezi
hodnotami AIC a R2Adjusted (ekvivalent Adjusted R-Squared). Vyšší přesnost je
způsobena menším počtem bodů, pro které se fituje lineární model (46).
10) Ověřte prostorové rozložení atributu StdResid z kroku 9)
11) Zvizualizujte koeficienty pro jednotlivé proměnné (Pop, Jobs, LowEduc a Dst2UrbCen)
formou jednoduché mapy.