Modelovaní prostorového uspořádání bodů Deskripce bodů pomocí měr úrovně a variability jen prvním krokem analýzy. V případě prostorové analýzy nás v druhém kroku zajímají body s ohledem na jejich prostorové rozmístění (partem). Rozmístění boduje výsledkem určitých procesů a podmínek - např. lokace měst je výsledkem působení faktorů jako je reliéf, přírodní zdroje, komunikace, obdobně výskyt rostlinných druhů, atd. Cílem studia prostorového rozmístění je zjistit, jak daleko má konkrétní rozmístění objektů k rozmístění teoretickému, (např. teorie centrálních míst - teoretický vzorec - šestiúhelníky). To nám umožňuje jednak porovnávat rozmístění objektů pro různé prostorové jednotky (kategorie landuse, půdní typy, okresy, státy, atd.), jednak studovat dynamiku změn v rámci jedné jednotky (studium dynamiky). Statisticky prokázaný výskyt určitého prostorového uspořádání (shlukového či pravidelného vzorku) může být základem pro zjišťování příčin, které vedly k pozorovanému uspořádání Statistická deskripce prostorových vzorů bodových prvků * *_* *á^ L.——+ ******* ******* ******* ******* ******* ******* ******* 3 3 JUL II JDU _ - yY£CC ion:: = x5oocx J inr " 'iijlÍjC Haan . ~ ILLLL nnnn Vytti * * * ** *^ ** * * * * ** * * * * t5 7$ Obr. 2.1 Základní typy prostorového uspořádání objektů Rozlišujeme tři základní typy prostorového uspořádání bodů: • Shlukové (Clustered) • Pravidelné (Regular) • Náhodné (Random) Základní metody statistického popisu prostorového uspořádání bodů: • Analýza kvadrátů - testujeme, zda rozmístění bodů v ploše je náhodné či nikoliv. • Metoda nejbližšího souseda - porovnává průměrnou vzdálenost mezi nejbližšími sousedy pole bodů k teoretickému rozmístění. • Prostorová autokorelace - měří jak podobné či nepodobné jsou hodnoty atributů sousedních bodů. 6 Problém měřítka, rozsahu studované oblasti a kartografické projekce Měřítko -je nutné vhodně zvolit tak, aby studovaný jev mohl být prezentován body v prostoru. Rozsah studované oblasti - v závislosti na zvolené oblasti (často vymezené administrativními hranicemi) se mění jak vzdálenosti mezi jednotlivými body, tak také charakteristiky jejich prostorového uspořádání (viz. Obr. 2.2). 1 T - .Gféveland AJcmii'- Daytoty -.folómbus^ Obr. 2.2 Vliv velikosti studované oblasti na prostorové uspořádání bodů Kartografickou projekci je nutno vhodně zvolit podle účelu (viz. Analýza kvadrátů). Projekcí se mění tvar, vzdálenosti, vzájemná poloha objektů (viz. Obr. 2.3). Čím větší studovaná oblast, tím větší bude role zvolené projekce. Obr. 2.3 Vliv kartografické projekce na tvar studované oblasti Analýza kvadrátů (QUADRAT ANALYSIS) Metoda pro detekci prostorového uspořádání bodů. Je založena na hodnocení změn hustoty bodů v prostoru. Je porovnáváno, zda rozmístění bodů v prostoru je náhodné, či má blíže k uspořádání shlukovému či pravidelnému. Obr. 2.4 Analýza kvadrátů -pravidelné rozmístění buněk 7 Postup analýzy spočívá v rozdělení studované plochy pravidelnou sítí na buňky a je zjištěn počet bodů v každé buňce. Následně je analyzováno rozdělení četností buněk s určitým počtem bodů. Toto rozdělení je porovnáváno s náhodným rozdělením četností. Buňky se označují jako kvadráty a nemusí jít o čtverce, ale např. i o kruhy či šestiúhelníky -je to dáno empirií. V rámci jedné analýzy však tvar a velikost buněk musí být konstantní. Extrémně shlukové uspořádání - většina bodů v jedné či několika málo buňkách Extrémně pravidelné - ve všech buňkách přibližně stejně Uvedenou metodu lze využít také tak, že se buňky stejné velikosti náhodně rozmístí po studované ploše. Obr. 2.5 Analýza kvadrátů - náhodné rozmístění buněk Citlivou stránkou metody je volba velikosti kvadrátů. Optimální velikost kvadrátů (QS) lze získat z následujícího vztahu" QS- 2'A n kde A je plocha studované oblasti a n počet analyzovaných bodů. Velikost strany vhodného kvadrátu je potom JlA/n Získané rozložení četností bodů v kvadrátech (empirické) je porovnáváno s náhodným rozložením (teoretickým). Vhodným testem je např. K-S test. Testem můžeme kvantifikovat rozdíl empirického a teoretického (shlukové, pravidelné, náhodné) rozdělení bodů v ploše. Praktický postup testování výsledků analýzy kvadrátů: Formulujeme nulovou hypotézu - neexistuje statistiky významný rozdíl (je-li rozdíl malý, může být výsledkem náhody, čím je větší, s tím větší pravděpodobností náhodný není, aleje statistiky významný). Zvolíme hladinu významnosti a = 0,05 Vypočítáme kumulované četnosti Vypočteme testovací kritérium: Vypočteme kritickou hodnotu D = max (9 - E, £>=i;6 kde m je počet kvadrátu.V případě porovnávání dvou výběrů o různém počtu členů ml a m2 se kritická hodnota vypočte následovně: n =136 SČÄ ml ■m1 Je-li vypočtená hodnota D větší než kritická hodnota Da, potom rozdíl mezi oběma uspořádáními je statisticky významný. Pozorované rozložení bodů můžeme také porovnávat s rozložením náhodně generovaným (např. podle určitého teoretického rozdělení). Často se využívá rozdělení poissonovo (Poisson random process) Poissonovo rozdělení je určeno především průměrnou frekvencí výskytu (k) v jednotlivých jednotkách (kvadrátech), kde X = n/ při m kvadrátech a n bodech v prostoru. Je-li x počet bodů v kvadrátu, potom pravděpodobnost výskytu x bodů v kvadrátu podle Poissonova rozdělení je definována: x v p(x) = e~ÁX x\ Z uvedeného vztahu můžeme pro různá x vypočítat pravděpodobnost rozložení bodů, které budou mít Poissonovo (náhodné) rozdělení. Hodnoty pravděpodobnosti lze zjistit i zkráceným výpočtem. Je-li x=0, potom p(0) = e~ a pravděpodobnosti pro následná x můžeme určit zp(0), obecně: p(x) = p(x-\) Á Je-li x=l, potom p(x-l) = p(0) atd. Vedle K-S testu můžeme k hodnocení rozdělení bodů v kvadrátech použít také vlastností Poissonova rozdělení - především hodnoty průměru a rozptylu Poissonova rozdělení, pro které platí, že se rovnají hodnotě (k). Jinými slovy bude-li distribuce bodů v prostoru generována náhodným procesem, potom toto rozdělení má stejný průměr a rozptyl. Tedy jejich poměr se bude blížit jedné. Postup: Vypočteme hodnoty průměru a rozptylu pro četnosti bodů v kvadrátech a hodnoty dáme do poměru. Hodnotu porovnáme s 1. Rozdíl lze dále standardizovat (vyjádřit v násobcích směrodatné odchylky). Vyjde-li hodnota větší než 1,96, potom je rozdíl statisticky významný na hladině a = 0,05. Test založený na poměru průměru a rozptyluje silnější než K-S test, lze ho však použít pouze v případě, že předpokládáme Poissonovo rozdělení studované množiny bodů. Pozorované rozdělení bodů lze porovnávat i vůči jiným teoretickým rozdělením (např. negativní gamma či negativní binomické). Omezení analýzy kvadrátů: * * * ___________________;_% * * Obr. 2.6 Analýza kvadrátů neřeší otázku rozložení bodů uvnitř kvadrátů 9 Analýza nejbližšího souseda (NEAREST NEIGHBOUR ANALYSIS) Metoda analýzy kvadrátů je založena na konceptu hustoty (počet bodů v ploše) Metoda analýzy nejbližšího souseda je naopak založena na konceptu vzdálenosti (spacing - plocha připadající na bod). Metoda analýzy nejbližšího souseda je založena na porovnání pozorované průměrné vzdálenosti mezi nejbližšími sousedy a této průměrné vzdálenosti u známého vzorku (pattern). Pozorovaná průměrná vzdálenost mezi nejbližšími sousedy může být větší či menší jak vzdálenost při náhodném rozmístění bodů. Obr. 2.7 Analýza nejbližšího souseda - pravidelné uspořádání bodů Homogenní oblast - nejvíce uniformní vzorek - body v ploše tvoří středy pravidelných šestiúhelníků. Body tvoří trojúhelníkovou mřížku. Za této konfigurace bude vzdálenost mezi body rovna výrazu kde A je plocha a n počet bodů v ploše. V reálné situaci tvoří geografické rozložení bodů výjimečně pravidelný vzorek. K testování, zda má určité rozložení bodů v ploše jistý vzorek lze využít R statistiku (R - randomness). Určí se jako poměr mezi pozorovanou a očekávanou průměrnou vzdáleností nejbližších sousedů v určité oblasti: r T) _ obs r exp Hodnotu robs zjistíme tak, že určíme vzdálenost mezi daným bodem a všemi jeho sousedy. Dále najdeme nejkratší vzdálenost - tedy nejbližšího souseda. Tento proces se opakuje pro všechny body. Ze všech nejkratších vzdáleností se vypočte průměr. Pro teoretické - náhodné - rozložení se průměrná vzdálenost nejbližšího souseda vypočte podle vzorce: 1 ľexv~zfi/A Cím je hodnota R < 1, tím více se prostorové rozložení bodů blíží rozložení shlukovému (robs< rexp). Cím je hodnota R > 1, tím více se prostorové rozložení bodů blíží rozložení pravidelnému (robs > rexp). 10 R=0 R=0.51 R=1.0 R=1.48 R=1.90 «---------- SHLUKOVÉ I PRAVIDELNÉ ------------► Obr. 2.8 Škála hodnot R statistiky R = 0 zcela shlukové R= 1 náhodné R = 2,149 zcela pravidelné Je-li R=0, vzdálenosti jsou 0, všechny body mají stejnou polohu. Jinou z možností, jak porovnat rozdíl mezi pozorovanou a očekávanou vzdáleností nejbližšího souseda je porovnat tuto diferenci s tzv. směrodatnou chybou (Standard Error - SEr) Směrodatná chyba popisuje pravděpodobnost, že jakýkoliv rozdíl dvou hodnot je výsledkem náhodných vlivů. Je-li tedy zjištěná diference malá ve srovnání s SE, potom rozdíl není statisticky významný a naopak. Použití směrodatné chyby SE vychází z vlastností normálního rozdělení, pro které platí následující: Je-li mezi pozorovanými populacemi rozdíl ajeho velikost náleží do intervalu (-lSEr; +lSEr), potom existuje 68 % šance, že tento rozdíl je náhodný - tedy nevýznamný: Pravděpodobnost (<68%) = (-lSEn +lSEr) Za statisticky významný považujeme rozdíl, který můžeme obdržet v 5 případech ze sta - tedy s pravděpodobností 5 %, a=0,05. Vyjádřeno v násobcích směrodatné chyby - rozdíl mezi dvěma populacemi povařujeme za statisticky významný, jestliže je menší než -l,96SEr a nebo větší než +l,96SEr: Pravděpodobnost (<95%) = (-l,96SEn +l,96SEr) Výpočet směrodatné chyby pro pozorované vzdálenosti bodů: ez7 0,26136 r Wa Pomocí směrodatné chyby lze vypočítat standardizovanou hodnotu (Z-score): v — v ry __ obs exp R~ SEr Je-li tedy ZR< -1,96 či ZR> 1,96 potom vypočtený rozdíl mezi pozorovaným a náhodným uspořádáním je statisticky významný - tedy není náhodný a naopak. Nelze spoléhat na vizuální srovnání prostorového rozložení ani na vypočtenou hodnotu R. Ta by měla být doplněna hodnotou ZR pro ověření statistické významnosti pozorovaného rozdílu. 11 Metoda analýzy nejbližšího souseda může být rozšířena na analýzu nejbližších sousedů druhého, třetího a vyšších řádů. Například u obr. 2 dokumentujícího nevýhody kvadrantové analýzy by až analýza nejbližšího souseda druhého řádu odhalila, že se obě uspořádání výrazně liší. Na obrázku vlevo je R-statistika druhého řádu velká, na obrázku vpravo naopak malá. Použití analýzy nejbližšího souseda rozdílných řádů může odhalit heterogenity v uspořádání bodů na rozdílných prostorových úrovních. Problémy spojené s metodou analýzy nejbližšího souseda: výsledky jsou vysoce citlivé k měřítku (lokální vs. regionální) a vymezení zpracovávané oblasti. V závislosti na studovaném jevu by měla být věnována pozornost také vymezení studované plochy (administrativní či přirozené hranice). 12 Prostorová autokorelace (SPATIAL AUTOCORRELATION) Jak analýza kvadrátů tak analýza vzdálenosti nejbližšího souseda pracují pouze s polohou bodů. Nerozlišují body podle hodnot jejich atributů. Oba parametry (polohu i atributy) hodnotí prostorová autokorelace (SA) -je tedy metodou vhodnější. Východiska prostorové autokorelace: Většina jevů se v prostoru mění spojitě. Blízké body budou mít i podobné hodnoty studovaného jevu a naopak. (First law of geography - Tobler, 1970) Koeficient prostorové autokorelace - uvažuje polohu bodů (vzájemnou vzdálenost) a hodnotí rozdílnost hodnot atributů bodů v prostoru. Mezi nejpoužívanější koeficienty prostorové autokorelace náleží Gearyho poměr C (Geary's Ratio) a Moranův index I (Moran's I). Lze jich využít pro intervalová a poměrová data. Dále používaná notace: Cij - podobnost atributu v bodě z a j M/y - vzdálenost bodu z aj. wu = 0 pro všechny body Xj - hodnota studovaného atributu v bodě z n - počet bodů ve vyšetřovaném vzorku Obě míry prostorové autokorelace kombinují v jednom výrazu míry podobnosti atributů i míry podobnosti polohy - tento výraz je potom východiskem pro definování dalších vztahů: i=\2-ij-. C-W- a y y Koeficient prostorové autokorelace SAC (spatial autocorrlelation coefficient) je úměrný vážené míře podobnosti atributů bodů - obecně: SAC EEV^y n n ZI' y 2=1 ;=i V případě Gearyho poměru se podobnost hodnot atributu mezi dvěma body vypočte podle následujícího vztahu: ci,=(xi-xjf Gearyho poměr C se tedy vyjádří jako: n n n n c i=l j=\_____________ _ i=l J=l 2EE-y^2 ZEE**-"2 kde g2 je rozptyl hodnot atributu x s průměrem x <72=^- E&-*)2 c«-i) V případě hodnoty Moranova indexu I se podobnost hodnot atributu v bodech z aj vyjádří následovně: 13 c1]=(x1-x)-(x]-x) Moranův index I je potom určen: n n ii c -W- y y 1 = _ ŕ=iy=i E2X.-(xI.-x)-(x;.-x) _ 2=1 J=l_________________________________________________ TI 2=1 ;=i "W,-,. TI 2=1 ;=i "W,-,. kde s2 je v tomto případě výběrový rozptyl: l>2-*)2 s2=^------------ n Ve výše uvedených vzorcích lze všechny neznámé přímo určit z hodnot atributů bodů. Jedinou doposud nedefinovanou neznámou zůstává míra podobnosti (blízkosti) polohy bodů i aj, tedy hodnota Wy. Ta se běžně uvažuje jako inverzní hodnota vzdálenosti těchto bodů. Tedy podle výše uvedených předpokladů dáváme malou váhu hodně vzdáleným bodům a velkou váhu hodně vzdáleným bodům, tedy: dy = y 11 /wy Rozdíly mezi oběma indexy jsou dány způsobem výpočtu rozdílů mezi hodnotami atributu. Obor hodnot, kterých mohu oba indexy nabývat se tedy také liší, jak uvádí následující tabulka: Prostorové uspořádání Gearyho poměr C Moranův index I Shlukové uspořádání, sousední body vykazují podobné hodnoty 0E(I) Náhodné uspořádání, body nevykazují znaky podobnosti C~l I = E(I) Pravidelné uspořádání, sousední body vykazují rozdílné charakteristiky 1 m (n-ľ)Sl[n2-3n + 3-(n-l)k\ (n-\)S2[n2 + 3n-6-(n2-n + 2)k] W2[n2 -3 -{n-l)2k\ VARniC) =------------------------------------------------------------------------------------1-------------------------— n(n-2)(n-3)W2 4n(n-2)(n-3)W2 n(n -2)(n -3)W2 kde w=YL "W.V i=\ j=\ 1_ 2 s2=I>,+w,)2 i=\ k = £>-'>• (" E(*,-*)2 Vr=l Očekávané hodnoty Moranova indexu I a hodnoty rozptylu se pro náhodné uspořádání vypočtou obdobně: EN{I) = ER{I) = ^-n-\ VAR,(iy n[(n2- 3n + 3)ßl-nS2 + 3W2} k[(n2 -n)S, -nS2 + 3W2] Fz? (n-\)(n-2)(n-3)W (n-\)(n-2)(n-3)W2 (I)f Máme-li vypočteny očekávané hodnoty indexů a jejich rozptyly, můžeme vyjádřit standardizované hodnoty (Z-skore) 15 z =/-£(/) VAR(I) nebo Z_C-£(C) FÄR(C) Pro hodnoty Z pak mohou být použity stejné kritické hodnoty, tedy na hladině významnosti a=0,05: -1,96