a
Parametry použitého teoretického semivariogramu j sou: c0 = 2,5 cx = 7,5
a = 10,0 (dosah)
Data v pěti měřených bodech mají následující souřadnice
i x y z
1 2 2 S
2 S 7 4
S 9 9 2
4 6 5 4
5 5 S 6
Pokud budeme dále značit:
47
A - matice semivariancí mezi všemi dvojicemi bodů
b - vektor semivariancí mezi všemi body a bodem predikovaným
X - vektor vah jednotlivých bodů
0 - tzv. Lagrangeův člen
potom základní vztah pro odhad metodou krigování lze psát jako:
AÄ = b
Pro vlastní řešení je nutné vypočítat váhy X, které musí splňovat podmínku ^Ä = 1 Uvedený základní vztah lze vyjádřit jako soustavu rovnic:
l
ľl2 ľ22
ľln
ľ2n
ľn2
l
l l
Al A
n
ľl0 l
ľ
nn
V tomto zápisu poslední řádek a poslední sloupec v první matici a hodnota Lagrangeova členu 0 jsou
použity pro zajištění podmínky sumy vah = 1. Hodnota Lagrangeova multiplikátoru 0 také
slouží pro výpočet rozptylu odhadnuté hodnoty. Uvedená soustava rovnic nám poskytne hodnoty všech vah X a hodnotu 0. V maticovém zápisu lze tedy psát:
Aby bylo možné vyčíslit hodnoty semivariancí, je v prvním kroku zapotřebí vytvořit matici vzdáleností mezi datovými body:
i 1 2 S 4 5
1 0,000 5,099 9,899 5,000 3,162
2 5,099 0,000 6,325 3,606 4,472
S 9,899 6,325 0,000 5,000 7,211
4 5,000 3,606 5,000 0,000 2,236
5 3,162 4,472 7,211 2,236 0,000
Vektor vzdáleností mezi měřenými body a bodem predikovaným:
i 0
1 4,234
48
2 2,828
3 5,657
4 1,000
5 2,000
Těchto vzdáleností využijeme k výpočtu semivariancí pro sférický model semivariogramu s výše uvedenými parametry c0 , c1 , a - tedy k sestavení matice A a vektoru b:
Matice A:
i 1 2 3 4 5 6
1 2,500 7,739 9,999 7,656 5,939 1,000
2 7,739 2,500 8,667 6,381 7,196 1,000
3 9,999 8,667 2,500 7,656 9,206 1,000
4 7,656 6,381 7,656 2,500 4,936 1,000
5 5,939 7,196 9,206 4,936 2,500 1,000
6 1,000 1,000 1,000 1,000 1,000 0,000
Ve výše uvedené matici má řádek navíc (i=6) zajistit podmínku, že váhy budou mít sumu rovnu jedné. Vektor b:
i 0
1 7,151
2 5,597
3 8,815
4 3,621
5 4,720
6 1,000
Inverzní matce A-1:
i 1 2 3 4 5 6
49
1 -,172 ,050 ,022 -,026 ,126 ,273
2 ,050 -,167 ,032 ,077 ,007 ,207
3 ,022 ,032 -,111 ,066 -,010 ,357
4 -,026 ,077 ,066 -,307 ,190 ,030
5 ,126 ,007 -,010 ,190 -,313 ,134
6 ,273 ,207 ,357 ,003 ,134 6,873
Řešením výše uvedené soustavy rovnic lze pro jednotlivé vzdálenosti získat hodnoty vah X:
i Ä
1 0,0175
2 0,2281
3 0,0891
4 0, 6437
5 0,1998
6 0,1182
vypočtené hodnoty vah
vypočtená hodnota c1) = jjx + s1 (x)
kde a jsou neznámé konstanty. I(x) je binární proměnná vytvořená indikátorovým prahováním (I(Z(x) > cj). V tomto případě dostáváme dvě náhodné chyby £j(x) a e2(x). Cíle pravděpodobnostního krigování jsou stejné jako u krigování indikátorového, jsou však dosaženy využitím konceptu co-krigingu.
Na obrázku 7 má datový bod Z(u=9) hodnotu indikátorové proměnné I(u)=0 a bod Z(x=10) hodnotu I(x)=1. Pokud bychom chtěli predikovat hodnotu v polovině vzdálenosti mezi oběma body - na x-ové souřadnici 9,5, potom použitím modelu indikátorového krigování bychom obdrželi hodnotu 0,5. Z obrázku je však patrné, že datový bod Z(x) je nepatrně nad hodnotou
54
prahu, naopak bod Z(u) je výrazně pod prahovou hodnotou. Je tedy reálné předpokládat, že predikovaná proměnná v bodě 9,5 bude méně než 0,5.
J_I_L
□ _ 1 '□□□□□□□□□□□□□□□□□D
. • **•••
•
X K *
* * Z(x) \ * Z(u) * * T/
1 1 D 5 II 10 15 20 25 30 X-Coorclinate
Obr. 4.7 Princip pravděpodobnostního krigování
Pravděpodobnostní krigování se tedy snaží využít vedle indikátorové proměnné ještě další extra informace v původních datech. Nevýhodou pravděpodobnostního krigování je nutnost provádět odhady jako autokorelací pro jednotlivé proměnné, tak křížových korelací mezi mini. Dalšími odhady neznámých autokorelací se vnáší do výsledného modelu větší míra nejistoty.
4.1.6 Nelineární kriging (log-normal)
Pokud nemají vstupní data normální rozdělení, je nutné je před vlastní interpolací transformovat. Nejběžnější je transformace lognormální. Originální data jsou transformována na přirozený logaritmus o základu 10. Tedy modelování variogramu a interpolace probíhá s proměnou y(u):
y(u) = ln z(u)
Predikované hodnoty je poté nutno transformovat nazpět, což může působit problémy (viz. Borrough et. al. 1992) a jako alternativa se nabízí indikátorový kriging Pro některá FG data, která vykazují rozdělení s kladnou asymetrií, je však lognormální transformace výhodná (např. obsah chemických látek v půdě).
4.1.7 Kriging s využitím externí informace
K interpolaci kromě hodnot vlastní interpolované proměnné lze využít například:
1. vhodnou stratifikaci dat (stratifikovaný kriging)
2. hodnoty jiné proměnné, která koreluje s původní a kterou lze snadno měřit ve větším počtu bodů (např. výškové poměry) - co kriging
3. fyzikální či empiricky sestavený model, který podmiňuje rozložení hodnot studované proměnné
55
Stratifikovaný kriging spočívá v rozdělení oblasti na subregiony. Předpokládá dostatečný počet bodů pro výpočet hodnot variogramu. Může dávat vhodnější odhady, je však nutné řešit oblasti na styku subregionů. Např. obsah znečišťujících látek podle oblastí zaplavovaných podél vodního roku s různou frekvencí.
4.1.8 Co-kriging
Máme dvě proměnné z1 a z2, které vykazují prostorovou korelaci. Pak lze využít hodnot proměnné z2, k interpolaci hodnot proměnné z1. Tento koncept je vhodný zvláště v případech, kdy je proměnná z2 snáze získatelná a rozšiřitelný i na více než dvě proměnné. Přitom pro přesnější odhady se používá jak autokorelace jednotlivých proměnných, tak vzájemné (cross) korelace všech použitých proměnných. Základní co-kriging využívá následujících modelů:
kde fi1 a /u2 jsou neznámé konstanty. Dále dostáváme dvě náhodné chyby e1(x) a s2(x). Základní co-kriging odhaduje hodnotu proměnné Z1(x0) stejně jako základní krigování, ovšem navíc využívá kovariance s hodnotu Z2(x).
Z obrázku je patrné, že data Z1 a Z2 se jeví jako nekorelovaná. Dále pokud Z1 je pod průměrem p.1, potom Z2 je často nad průměrem p.2 a naopak. Tedy Z1 a Z2 vykazují negativní cross korelaci. Vedle základního co-krigingu jsou dalšími variantami např. jednoduchý, univerzální, indikátorový či pravděpodobnostní co-kriging.
4.1.9 Blokový odhad při základním krigování (Block kriging)
Lokální (bodový) odhad metodou krigingu lze určitým způsobem vztáhnout k ploše či objemu v prostoru interpolovaných dat. Mnoho přírodních jevů vykazuje značnou variabilitu a výsledkem bodového odhadu může být mapa obsahující značný počet ostrých vrcholů a depresí. Tento efekt lze potlačit tak, že modifikujeme výše uvedené rovnice a odhadneme
Z 2 (X) = V2 +£2( X)
Obr. 4.8 Princip co-krigingu
56
průměrnou hodnotu z(B) proměnné z pro jistou plochu či objem B (viz. obr). Tato modifikace je vhodná, pokud výsledkem interpolacemi být struktura pravidelných buněk (grid).
Z4
Obr. 4.9 Princip blokového krigování
Průměrná hodnota z pro blok B
z (B) = f Z(x)dx B plocha _ B
bude odhadnuta z výrazu:
Z(B) = £ A, ■ z(x,)
i=1
Kde stejně jako u bodového odhadu je suma všech vah Xi rovna jedné. Minimální rozptyl nyní bude:
& \ B) = fiXiř( x,, B) + -f(B, B)
i=1
a získáme ho, když
n
Xy(x,, Xj) + 4 = Ť(Xj, B) pro všechna j.
i=1
Rozptyly odhadů pro blokový kriging jsou daleko menší než pro bodový kriging. Výsledný interpolovaný povrch je obecně více shlazený a neobsahuje takové množství lokálních extrémů. Blokové korigování je aproximující metodou.
4.2 Hodnocení a verifikace modelů
Krigování jako interpolační metoda umožňuje pro každý interpolovaný bod odhadnout potenciální velikost chyby odhadu. Vedle map predikovaných hodnot tak lze především konstruovat mapy hodnot &2e (rozptyl krigingu), které vypovídají o spolehlivosti interpolovaných hodnot. Tyto hodnoty se obvykle prezentují v podobě map druhé mocniny
57
ae - tzv. směrodatné chyby (odchylky) krigingu (Standard error map), protože tyto mají
stejné jednotky jako predikované hodnoty. V některých případech se stanovuje také tzv. přesnost (relativní chyba) odhadu:
2
Vyjdeme-li z výše uvedeného příkladu, kdy rozptyl odhadu je oe = 4,008. Potom směrodatná chyba krigingu bude oe = 2,002. Budeme-li předpokládat, že chyby predikce mají normální rozdělení, potom 95% interval spolehlivosti predikovaných hodnot lze určit z následujícího
vztahu:
2
kde Z(x0) je odhad hodnoty proměnné z v bodě x0 a oe je rozptyl odhadu. V našem případě tedy při opakovaném použití stejného modelu padne 95 % odhadovaných hodnot do intervalu (4,560 ±1,96*2,002) tj. (0,64;8,48)
Konstrukce dalších dvou typů map, které nabízí např. ArcGIS a kterými lze zhodnotit kvalitu interpolace vychází následujícího obrázku.
Obr. 4.10 Princip konstrukce Probability map a Quantile map (vysvětlivky viz. text)
Předpokládáme, že krigováním predikované hodnoty mají ve třech různých bodech normální rozdělení a nacházejí se ve středu každé křivky rozdělení. Chceme-li určit pravděpodobnost, že predikovaná hodnota bude větší než prahová hodnota - např. 1, potom na obrázku vlevo tuto pravděpodobnost představuje na jednotlivých křivkách část plochy vpravo od prahové hodnoty (černé plochy). Při konstantní prahové hodnotě se její pravděpodobnost výskytu pro jednotlivé body mění - tedy lze z ní vytvořit mapu pravděpodobností (probability map).
Na obrázku vpravo je schematicky znázorněno, jakým způsobem určit kvantil s např. 5 procentní pravděpodobností výskytu. Tuto pravděpodobnost v tomto případě opět značí černá plocha vpravo od prahové hodnoty a hodnotu kvantitu odečteme na ose x. Při konstantní pravděpodobnosti se budou měnit hodnoty kvantilů a lze je opět prezentovat ve formě kvantilové mapy (quantile map).
5k = 100?
z
58
4.2.1 Validace a křížová validace predikovaných hodnot metodou krigingu
Hodnocení přesnosti interpolace lze provádět také pomocí dále popsaných grafických nástrojů
Křížová validace modelu - k vytvoření spojitého povrchu jsou použita všechna vstupní data v měřených bodech. Poté jsou jednotlivé body měření (červené) po jednom postupně vynechány ze vstupní množiny dat a ze zbývajících (modrých) je vypočtena hodnota v místě vynechaného bodu.
Obr. 4.11 Princip křížové validace modelu
4.2.2 Statistické zhodnocení
Procesem křížové validace obdržíme veličiny, které mají následující význam:
• Z(xt) je predikovaná hodnota pro daný bod xi} kterou obdržíme v procesu křížové validace
• T (xt) je směrodatná chyba predikce, tedy druhá odmocnina z výrazu pro rozptyl krigování:
n i=1
Pozorované a vypočtené hodnoty jsou následně porovnány dále uvedenými měrami:
• MPE - mean prediction error - průměr rozdílů měřených a předikovaných hodnot -hodnoty chyb odhadů by měly být nestranné - tedy jejich průměr by se měl rovnat nule.
£ (Z (x,) - z(x,))
MPE = -
n
• RMSPE (root mean square prediction error) - druhá odmocnina průměrného čtverce vzdálenosti vypočtených hodnot (červené body) od teoretických (zelená přímka v grafech). Tato hodnota slouží k porovnání několika různých modelů. Čím
59
menší je RMSPE, tím vhodnější je model (tím bližší jsou vypočtené hodnoty hodnotám měřeným).
RMSPE
Z (Z (x,) - z( x, ))2
I=1
n
RMSE
Z (Z(x,) - z(xx ))2
n
ASE (average standard error) - průměrná směrodatná chyba
ASE
n
Výše uvedené nástroje umožňují posoudit vhodnost modelu a také porovnat více modelů vzájemně mezi sebou.
• MSPE (mean standardized prediction error) - průměrná standardizovaná chyba predikce
Z (Z (x,) - z(x, ))/a(x,)
MSPE
n
RMSSPE (root mean square standardized prediction error)
RMSSPE
1
Z P(x,) - z(x, ))/&(x,)]
n
n
I=1
m
Validace modelu - vstupní soubor měřených hodnot rozdělí na dvě části - data trénovací a testovací. Trénovací množina dat se použije pro odhad trendu a autokorelačního modelu. Pokud sestavený model vyhovuje trénovacím datům, je ověřen na datech testovacích.
6G
Pro oba zmíněné způsoby ověření vhodnosti modelu se využívá sady grafických nástrojů. Nejběžnějším je graf korelačního pole měřených a predikovaných hodnot. Obecnou vlastností krigingu jako interpolační metody je podhodnocení vysokých hodnot a naopak nadhodnocení hodnot nízkých. Tato vlastnost se projeví menší hodnotou směrnice přímky proložené korelačním polem.
Obr. 4.12 Korelační pole měřených a predikovaných hodnot
Chybový graf (Error plot) - stejný jako předchozí, jsou však vynášeny hodnoty rozdílů mezi měřenými a predikovanými hodnotami
Standardizovaný chybový graf (Standardized Error) - hodnoty rozdílů mezi měřenými a predikovanými hodnotami jsou děleny odhadnutou směrodatnou chybou krigování.
V případě nulové autokorelace budou všechny predikované hodnoty stejné - budou odpovídat průměru a proložená přímka bude mít horizontální průběh. V případě prostorové autokorelace a vhodného modelu krigingu bude proložená přímka totožná s diagonálou a navíc body korelačního pole budou vykazovat malé odchylky od diagonálního směru.
Q-Q graf -znázorňuje graf kvantilů rozdílů mezi měřenými a predikovanými hodnotami dělenými odhadnutou směrodatnou chybou krigování a odpovídajících kvantilů normovaného normálního rozdělení. V případě, že odchylky měřených a odhadnutých hodnot mají normální rozdělení, potom se body v korelačním poli přimykají k přímce (viz. obr.)
Obr. 4.13 Příklad Q-Q grafu
61
4.3 Interpretace statistických charakteristik k hodnocení vhodnosti modelu:
• Požadavek nestrannosti odhadu — unbiased - průměrná chyba odhadu a standardizovaná průměrná chyba odhadu by se měly blížit k nule:
o MPE — 0 o MSPE — 0
• Požadavek minimálních chyb - aby predikované hodnoty byly co nejblíže hodnotám měřeným. Čím menší bude hodnota RMSPE, tím lepší model - tedy tuto podmínku lze použít k porovnání vhodnosti více modelů.
o RMSPE — min.
• Požadavek vhodné variability předikovaných dat - variabilita předikovaných hodnot je určována z hodnot měřených. Je tedy důležité, aby i variabilita interpolací vypočtených hodnot byla vhodná:
o ASE « RMSPE - vhodný model (vhodná variabilita predikovaných hodnot) o ASE > RMSPE - máš model nadhodnocuje variabilitu odhadnutých hodnot o ASE < RMSPE - máš model podhodnocuje variabilitu odhadnutých hodnot
V případě značného podílu šumové složky (např. v důsledku chyb v měření) či v případě značně komplexního povrchu nedává kriging lepší výsledky než jiné interpolátory. Na rozdíl o jiných metod kriging nabízí objektivní, a priori metodu odhadu vhodného okolí pro vlastní interpolaci. Řeší tedy otázku počtu bodů v okolí daného bodu, otázku velikosti a tvaru tohoto okolí. V případě existence bariér (náhlých skoků v hodnotách interpolovaného povrchu nedává kriging dobré výsledky a je nutné jej rozdělit na elementární části neobsahující bariéry.
5. Modelování prostorového uspořádání bodů
Deskripce bodů pomocí měr úrovně a variability je jen prvním krokem analýzy. V případě prostorové analýzy nás v druhém kroku zajímají body s ohledem na jejich prostorové rozmístění (strukturu - pattern).
Rozmístění bodů je výsledkem určitých procesů a podmínek - např. lokace měst je výsledkem působení faktorů jako je reliéf, přírodní zdroje, komunikace, obdobně výskyt rostlinných druhů, atd.
Cílem studia prostorového rozmístění je zjistit, jak daleko má konkrétní rozmístění objektů k rozmístění teoretickému. (např. teorie centrálních míst - teoretický vzorec - šestiúhelníky). To nám umožňuje jednak porovnávat rozmístění objektů pro různé prostorové jednotky (kategorie landuse, půdní typy, okresy, státy, atd.), jednak studovat dynamiku změn v rámci jedné jednotky (studium dynamiky).
Statisticky prokázaný výskyt určitého prostorového uspořádání (shlukového či pravidelného vzorku) může být základem pro zjišťování příčin, které vedly k pozorovanému uspořádání
62
5.1.1 Statistická deskripce prostorových vzorů bodových prvků
Obr. 5.1 Základní typy prostorového uspořádání bodů (1. sloupec), linií (2. sloupec) a ploch (3. sloupec).Typy uspořádání: shlukové (1. řádek), pravidelné (2. řádek), náhodné (3. řádek)
Rozlišujeme tři základní typy prostorového uspořádání bodů:
• Shlukové (Clustered)
• Pravidelné (Regular)
• Náhodné (Random)
5.1.2 Základní metody statistického popisu prostorového uspořádání bodů:
• Analýza kvadrátů - testujeme, zda rozmístění bodů v ploše je náhodné či nikoliv.
• Metoda nejbližšího souseda - porovnává průměrnou vzdálenost mezi nejbližšími sousedy pole bodů vzhledem k teoretickému rozmístění.
• Metody prostorové autokorelace - měří, jak podobné či nepodobné jsou hodnoty atributů sousedních bodů.
5.1.3 Problém měřítka, rozsahu studované oblasti a kartografické projekce
Měřítko - je nutné vhodně zvolit tak, aby studovaný jev mohl být prezentován body v prostoru.
Rozsah studované oblasti - v závislosti na zvolené oblasti (často vymezené administrativními hranicemi) se mění jak vzdálenosti mezi jednotlivými body, tak také charakteristiky jejich prostorového uspořádání (Obr. 5.2).
63
Obr. 5.2 Vliv velikosti studované oblasti na prostorové uspořádání bodů
Kartografickou projekci je nutno vhodně zvolit podle účelu (viz. Analýza kvadrátů). Projekcí se mění tvar, vzdálenosti, vzájemná poloha objektů (viz. Obr. 5.3). Čím větší studovaná oblast, tím větší bude role zvolené projekce.
Obr. 5.3 Vliv kartografické projekce na tvar studované oblasti
5.2 Analýza kvadrátů (QUADRAT ANALYSIS)
Metoda pro detekci prostorového uspořádání bodů. Je založena na hodnocení změn hustoty bodů v prostoru. Je porovnáváno, zda rozmístění bodů v prostoru je náhodné, či má blíže k uspořádání shlukovému či pravidelnému.
OhcMes.shp
^1 - ■
- r
_ j—'
I 3
í Li
Obr. 5.4 Analýza kvadrátů - pravidelné rozmístění buněk
64
Postup analýzy spočívá v rozdělení studované plochy pravidelnou sítí na buňky a je zjištěn počet bodů v každé buňce. Následně je analyzováno rozdělení četností buněk s určitým počtem bodů. Toto rozdělení je porovnáváno s náhodným rozdělením četností. Buňky se označují jako kvadráty a nemusí jít o čtverce, ale např. i o kruhy či šestiúhelníky. Tvar buněk většinou vychází z empirie. V rámci jedné analýzy však tvar a velikost buněk musí být konstantní.
Extrémně shlukové uspořádání - většina bodů v jedné či několika málo buňkách Extrémně pravidelné - ve všech buňkách přibližně stejně
Uvedenou metodu lze využít také tak, že se buňky stejné velikosti náhodně rozmístí po studované ploše.
Obr. 5.5 Analýza kvadrátů - náhodné rozmístění buněk
Citlivou stránkou metody je volba velikosti kvadrátů. Optimální velikost kvadrátů (QS) lze získat z následujícího vztahu:
QS = —
n
kde A je plocha studované oblasti a n počet analyzovaných bodů. Velikost strany vhodného kvadrátu je potom:
Získané rozložení četností bodů v kvadrátech (empirické) je porovnáváno s náhodným rozložením (teoretickým). Vhodným testem je např. K-S test. Testem můžeme kvantifikovat rozdíl empirického a teoretického (shlukové, pravidelné, náhodné) rozdělení bodů v ploše.
5.2.1 Praktický postup testování výsledků analýzy kvadrátů:
Formulujeme nulovou hypotézu - neexistuje statistiky významný rozdíl (je-li rozdíl malý, může být výsledkem náhody, čím je větší, s tím větší pravděpodobností náhodný není, ale je statistiky významný).
Zvolíme hladinu významnosti a = 0,05
65
Vypočítáme kumulované četnosti Vypočteme testovací kritérium:
Vypočteme kritickou hodnotu
D = max\Oj - E1
D. = 136
kde m je počet kvadrátů.V případě porovnávání dvou výběrů o různém počtu členů ml a m2 se kritická hodnota vypočte následovně:
Da = 1,36.
Je-li vypočtená hodnota D větší než kritická hodnota Da, potom rozdíl mezi oběma uspořádáními je statisticky významný.
Pozorované rozložení bodů můžeme také porovnávat s rozložením náhodně generovaným (např. podle určitého teoretického rozdělení). Často se využívá rozdělení Poissonovo (Poisson random process)
Poissonovo rozdělení je určeno především průměrnou frekvencí výskytu (X) v jednotlivých jednotkách (kvadrátech), kde A = n/m při m kvadrátech a n bodech v prostoru. Je-li x počet
bodů v kvadrátu, potom pravděpodobnost výskytu x bodů v kvadrátu podle Poissonova rozdělení je definována:
p(x) = —r-x!
Z uvedeného vztahu můžeme pro různá x vypočítat pravděpodobnost rozložení bodů, které budou mít Poissonovo (náhodné) rozdělení.
Hodnoty pravděpodobnosti lze zjistit i zkráceným výpočtem. Je-li x=0, potom p(0) = e~A a pravděpodobnosti pro následná x můžeme určit zp(0), obecně:
A
p(x) = p(x -1) * — x
Je-li x=1, potom p(x-l) = p(0) atd.
Vedle K-S testu můžeme k hodnocení rozdělení bodů v kvadrátech použít také vlastností Poissonova rozdělení - především hodnoty průměru a rozptylu Poissonova rozdělení, pro které platí, že se rovnají hodnotě (X). Jinými slovy bude-li distribuce bodů v prostoru
66
generována náhodným procesem, potom toto rozdělení má stejný průměr a rozptyl. Tedy jejich poměr se bude blížit jedné.
Postup: Vypočteme hodnoty průměru a rozptylu pro četnosti bodů v kvadrátech a hodnoty dáme do poměru. Hodnotu porovnáme s 1. Rozdíl lze dále standardizovat (vyjádřit v násobcích směrodatné odchylky). Vyjde-li hodnota větší než 1,96, potom je rozdíl statisticky významný na hladině a = 0,05.
Test založený na poměru průměru a rozptylu je silnější než K-S test, lze ho však použít pouze v případě, že předpokládáme Poissonovo rozdělení studované množiny bodů.
Pozorované rozdělení bodů lze porovnávat i vůči jiným teoretickým rozdělením (např. negativní gamma či negativní binomické).
Omezení analýzy kvadrátů:
Obr. 5.6 Analýza kvadrátů neřeší otázku rozložení bodů uvnitř kvadrátů
5.3 Analýza nejbližšího souseda (NEAREST NEIGHBOUR ANALYSIS)
Metoda analýzy kvadrátů je založena na konceptu hustoty (počet bodů v ploše). Metoda analýzy nejbližšího souseda je naopak založena na konceptu vzdálenosti (spacing - plocha připadající na bod).
Metoda analýzy nejbližšího souseda je založena na porovnání pozorované průměrné vzdálenosti mezi nejbližšími sousedy a této průměrné vzdálenosti u známého vzorku (pattern).
Pozorovaná průměrná vzdálenost mezi nejbližšími sousedy může být větší či menší než vzdálenost při náhodném rozmístění bodů.
Obr. 5.7 Analýza nejbližšího souseda - pravidelné uspořádání bodů
67
Homogenní oblast - nejvíce uniformní vzorek - body v ploše tvoří středy pravidelných šestiúhelníků. Body tvoří trojúhelníkovou mřížku.
Za této konfigurace bude vzdálenost mezi body rovna výrazu
kde A je plocha a n počet bodů v ploše. V reálné situaci tvoří geografické rozložení bodů výjimečně pravidelný vzorek. K testování, zda má určité rozložení bodů v ploše jistý vzorek lze využít R statistiku (R - randomness). Určí se jako poměr mezi pozorovanou a očekávanou průměrnou vzdáleností nejbližších sousedů v určité oblasti:
Hodnotu robs zjistíme tak, že určíme vzdálenost mezi daným bodem a všemi jeho sousedy. Dále najdeme nejkratší vzdálenost - tedy nejbližšího souseda. Tento proces se opakuje pro všechny body. Ze všech nejkratších vzdáleností se vypočte průměr.
Pro teoretické - náhodné - rozložení se průměrná vzdálenost nejbližšího souseda vypočte podle vzorce:
Čím je hodnota R < 1, tím více se prostorové rozložení bodů blíží rozložení shlukovému Čím je hodnota R > 1, tím více se prostorové rozložení bodů blíží rozložení pravidelnému
(robs > rexp)-
R =
robs
r
exp
exp
Obr. 5.8 Skála hodnot R statistiky
• R = 2,149
• R = 0
• R = 1
zcela shlukové
náhodné
zcela pravidelné
68
Je-li R=0, vzdálenosti jsou 0, všechny body mají stejnou polohu.
Jinou z možností, jak porovnat rozdíl mezi pozorovanou a očekávanou vzdáleností nejbližšího souseda je porovnat tuto diferenci s tzv. směrodatnou chybou (Standard Error - SEr)
Směrodatná chyba popisuje pravděpodobnost, že jakýkoliv rozdíl dvou hodnot je výsledkem náhodných vlivů. Je-li tedy zjištěná diference malá ve srovnání s SE, potom rozdíl není statisticky významný a naopak.
Použití směrodatné chyby SE vychází z vlastností normálního rozdělení, pro které platí následující:
Je-li mezi pozorovanými populacemi rozdíl a jeho velikost náleží do intervalu (-1SEr; +1SEr), potom existuje 68 % šance, že tento rozdíl je náhodný - tedy nevýznamný:
Pravděpodobnost (<68%) = (-1SEr; +1SEr)
Za statisticky významný považujeme rozdíl, který můžeme obdržet v 5 případech ze sta - tedy s pravděpodobností 5 %, a=0,05. Vyjádřeno v násobcích směrodatné chyby - rozdíl mezi dvěma populacemi povařujeme za statisticky významný, jestliže je menší než -1,96SEr a nebo větší než +1,96SEr:
Pravděpodobnost (<95%) = (-1,96SEn +1,96SEr) Výpočet směrodatné chyby pro pozorované vzdálenosti bodů:
SE = 0,26136
r Wa
Pomocí směrodatné chyby lze vypočítat standardizovanou hodnotu (Z-score):
exp
Je-li tedy ZR < -1,96 či ZR > 1,96 potom vypočtený rozdíl mezi pozorovaným a náhodným uspořádáním je statisticky významný - tedy není náhodný a naopak.
Nelze spoléhat na vizuální srovnání prostorového rozložení ani na vypočtenou hodnotu R. Ta by měla být doplněna hodnotou ZR pro ověření statistické významnosti pozorovaného rozdílu.
Metoda analýzy nejbližšího souseda může být rozšířena na analýzu nejbližších sousedů druhého, třetího a vyšších řádů. Například u obr. 2.6 dokumentujícího nevýhody kvadrantové analýzy by až analýza nejbližšího souseda druhého řádu odhalila, že se obě uspořádání výrazně liší. Na obrázku vlevo je R-statistika druhého řádu velká, na obrázku vpravo naopak malá.
Použití analýzy nejbližšího souseda rozdílných řádů může odhalit heterogenity v uspořádání bodů na rozdílných prostorových úrovních.
69
Problémy spojené s metodou analýzy nejbližšího souseda: výsledky jsou vysoce citlivé k měřítku (lokální vs. regionální) a vymezení zpracovávané oblasti. V závislosti na studovaném jevu by měla být věnována pozornost také vymezení studované plochy (administrativní či přirozené hranice).
5.4 Prostorová autokorelace (SPATIAL AUTOCORRELATION)
Jak analýza kvadrátů, tak analýza vzdálenosti nejbližšího souseda pracují pouze s polohou bodů. Nerozlišují body podle hodnot jejich atributů.
Oba parametry (polohu i atributy) hodnotí prostorová autokorelace - je tedy metodou vhodnější.
Východiska prostorové autokorelace: Většina jevů se v prostoru mění spojitě. Blízké body budou mít i podobné hodnoty studovaného jevu a naopak. (First law of geography - Tobler, 1970)
Koeficient prostorové autokorelace - uvažuje polohu bodů (vzájemnou vzdálenost) a hodnotí rozdílnost hodnot atributů bodů v prostoru. Mezi nejpoužívanější koeficienty prostorové autokorelace náleží Gearyho poměr C (Geary's Ratio) a Moranův index I (Moran's I).
Lze jich využít pro intervalová a poměrová data.
Dále používaná notace:
• Cj - podobnost atributu v bodě i a j
• Wj - vzdálenost bodu i a j. wii = 0 pro všechny body
• xi - hodnota studovaného atributu v bodě i
• n - počet bodů ve vyšetřovaném vzorku
Obě míry prostorové autokorelace kombinují v jednom výrazu míry podobnosti atributů i míry podobnosti polohy - tento výraz je potom východiskem pro definování dalších vztahů:
X=1X j=1cw
Koeficient prostorové autokorelace SAC (spatial autocorrelation coefficient) je úměrný vážené míře podobnosti atributů bodů - obecně:
n n
SAC * ^=-
nn
XX wj
V případě Gearyho poměru se podobnost hodnot atributu mezi dvěma body vypočte podle následujícího vztahu:
cj = (xi ~ xj )2
70
Gearyho poměr C se tedy vyjádří jako:
n n n n
= i =1 j=1_ = i =1 j=1
nn
2
kde g2 je rozptyl hodnot atributu x s průměrem x
G1
i=1
(n -1)
V případě hodnoty Moranova indexu I se podobnost hodnot atributu v bodech /' aj vyjádří následovně:
Cy = (Xi ~ X)-(Xj ~ X)
Moranův index I je potom určen:
n n n n
ZZcv' wv ZZw* '(xi ~ x)'(x; " x)
n n n n
i=1 j=1 i=1 j=1
2
kde s je v tomto případě výběrový rozptyl:
s2 = ^ '
n
Ve výše uvedených vzorcích lze všechny neznámé přímo určit z hodnot atributů bodů. Jedinou doposud nedefinovanou neznámou zůstává míra podobnosti (blízkosti) polohy bodů i a j, tedy hodnota Wj.
Ta se běžně uvažuje jako inverzní hodnota vzdálenosti těchto bodů. Tedy podle výše uvedených předpokladů dáváme malou váhu hodně vzdáleným bodům a velkou váhu hodně vzdáleným bodům, tedy:
5.4.1.1 w=yd
Rozdíly mezi oběma indexy jsou dány způsobem výpočtu rozdílů mezi hodnotami atributu. Obor hodnot, kterých mohu oba indexy nabývat se tedy také liší, jak uvádí následující tabulka:
Prostorové uspořádání
Gearyho poměr C Moranuv index I
71
Shlukové uspořádání, sousední body vykazují podobné hodnoty 0 < C <1 I >E(I)
Náhodné uspořádání, body nevykazují znaky podobnosti C ~ 1 I = E(I)
Pravidelné uspořádání, sousední body vykazují rozdílné charakteristiky 1 < C < 2 I < E(I)
kde E(I) = (-1)/(n-1)
5.4.2 Předpoklad náhodnosti a předpoklad normality
Při studiu prostorového uspořádání, můžeme předpokládat dva základní způsoby, kterými jsou atributy přiřazeny jednotlivým bodům.
Předpoklad náhodnosti (randomization, nonfree sampling) - předpokládáme, že hodnoty atributů v bodech představují pouze jednu z možných variant uspořádání při použití stejné množiny hodnot.
Alternativně můžeme předpokládat, že hodnoty atributů v množině studovaných bodů jsou pouze jednou z nekonečného množství možností. Každá hodnota je nezávislá na hodnotách jiných v množině bodů - předpoklad normality (normality, free sampling). Předpoklad normality dovoluje nahrazení hodnot pozorování na rozdíl od předpokladu náhodnosti.
5.4.3 Určení odhadů očeká vaných hodnot
Výše uvedené předpoklady náhodnosti ( R ) a normality (N) ovlivňují způsob výpočtu očekávaných (e - expected) hodnot i hodnot rozptylu. Očekávané hodnoty indexů a hodnoty rozptylů potřebujeme pro testování, zda se vypočtené hodnoty indexů C a I statisticky významně liší od náhodného uspořádání.
Odhad očekávaných hodnot pro náhodné uspořádání (random pattern) a rozptyly pro Gearyho poměr C:
EN (C) = 1
ER (C) = 1
C) J(2Si + S2)(n - ľ)-4W2 ] N 2(n + 1)W2
(n - 1)S2 [n2 + 3n - 6 - (n2 - n + 2)k] W2 [n2 - 3 - (n -1)2 k] 4n(n - 2)(n - 3)W2 n(n - 2)(n - 3)W2
n n i=1 j=1
VAR (C) = (n - 1)Si [n2 - 3n + 3 - (n - 1)k] R n(n - 2)(n - 3)W2
kde
72
Z" T" (w„ + wH)2
i=1
T" (x, - x)4
k = ' '
(n Y
I T (x - x ý
Očekávané hodnoty Moranova indexu I a hodnoty rozptylu se pro náhodné uspořádání vypočtou obdobně:
EN (I ) = ER (I ) = ^L n -1
I) = (n% - + 3W2) e )f
VAR (I) = n\(n2 -3n + 3)S1 -nS2 + 3W2]__ k\(n2 -n)S1 -nS2 + 3W2]_r -p rK ' (n-l)(n-2)(n-3)W2 (n-l)(n-2)(n-3)W2 L R J
Máme-li vypočteny očekávané hodnoty indexů a jejich rozptyly, můžeme vyjádřit standardizované hodnoty (Z-skore)
Z = I - E(I) VAR (I)
nebo
= C - E (C) VAR (C)
Pro hodnoty Z pak mohou být použity stejné kritické hodnoty, tedy na hladině významnosti a=0,05:
-1,96 < Z < +1,96
73
Obr. 5.9 Příklad výpočtu měr prostorové autokorelace
Interpretace hodnot koeficientů prostorové autokorelace: Pokud zjištěné hodnoty z-skóre padnou vně intervalu (-1,96 ; +1,96), potom se prostorové uspořádání bodů statisticky významně liší (na hladině 5 %) od uspořádání náhodného.
5.4.4 Alternativy výpočtu:
V uvedených vztazích lze modifikovat výrazy pro vyjádření podobnosti polohy. Například hodnoty wij mohou nabývat binárních hodnot 0, 1 podle toho, zda jde o body sousední či nikoliv (viz. např. teorie nodálních regionů, kde jako sousední body považujeme centroidy regionů, které obklopují daný region.
Modifikovat lze také váhy vzdálenosti bodů výrazem:
kde koeficient b může nabývat různých hodnot v závislosti na povaze studovaného problému (vzdálenost měřená dosažitelností autem a letadlem je jiná). Hodnota b je často rovna 2.
Uvedených koeficientů prostorové autokorelace lze využít pro výpočet podobnosti mezi polygony (viz. dále).
6. Statistická analýza liniových prvků
Linie mohou na mapách reprezentovat dva příbuzné objekty:
• Vlastní linie - reprezentují a lokalizují skutečně lineární geografické fenomény (řeky, silnice, potrubí)
• Hrany - rozdělují plochy a povrchy (hraniční linie, lomové linie). Hrany nemají šířku.
74
Problémy prezentace „přirozených linií" v prostředí GIS jsou spojeny především s procesy generalizace a zjednodušení průběhu. Linie je prezentována jako spojnice posloupnosti lomových bodů, mezi lomovými body je rovná.
Problém měření vzdáleností - Někdy se místo měření vzdálenosti v délkových jednotkách používá cestovní čas a dopravní náklady.
Pro analýzu linií jsou vedle délky významné také atributy jako orientace, směr či spojení. Existence spojení mezi soustavou bodů, které tvoří linii, znamená, že lokace (body) na sobě nejsou nezávislé, ale jsou spojené v určitém směru. Body spojené v určitém pořadí musí zachovávat tuto posloupnost.
Obr. 6.1 Liniové prvky na digitální mapě - prosté linie, trajektorie, síť
Linie mohou v GIS vystupovat na třech úrovních, které představují jistou hierarchii (Obr. 6.1):
1. „Prosté" linie - např. zlomy - lze určit jen délku a orientaci. Může existovat jako jednoduchá spojnice dvou bodů či jako „řetězec"
2. „Trajektorie" - vektor pole větru - lze určit velikost (délku), orientaci a směr
3. Sítě - dopravní sítě, říční síť - lze určit prostorové uspořádání - topologické vztahy, konektivitu, dostupnost, ...
Geometrické charakteristiky - linie může být prezentována jako:
• Jednoduchá spojnice - pouze dvou bodů (koncový a počáteční - délka je Euklidovská vzdálenost
• Posloupnost několika liniových segmentů - řetězec
Příklady analýzy prostorových vazeb liniových prvků:
• analýza převládající orientace, průměrné délky spoje,
• charakterizování liniových vzorků - „uspořádání sítí"
• dopravní dostupnost
• gravitační modely
• hledání optimální trasy
75
6.1 Prostorové atributy liniových prvků
Délka linie může být definována jako:
• přímá vzdálenost (vypočtená z Pythagorovy věty)
• „skutečná" vzdálenost (součet přímých vzdáleností jednotlivých segmentů)
Orientace linie - orientace neurčuje směr (např. JV = SZ) - orientace zlomů, ulic. Nemá smysl otázka odkud - kam?
Směr linie - typicky - vektor pole větru 6.1.1 Topologie (sítí)
Výše uvedené atributy linií lze vyjádřit i pro jednotlivé segmenty sítě či pro celou síť jako celek (průměrná délka sítě, převládající orientace či směr segmentů sítě). Vedle toho jsou pro charakterizování sítí důležité atributy popisující jejich strukturu a uspořádání jako celek a dále popisují vztahy segmentů uvnitř sítě (topologii).
Obr. 6.2 Příklad sítě
Tabulka 6.1 Matice konektivity
ID 1 2 3 4 5 6 7 8 9 10
1 0 1 1 0 0 0 1 0 0 1
2 1 0 1 0 0 0 0 0 0 0
3 1 1 0 1 1 0 0 0 0 0
4 0 0 1 0 1 1 0 0 0 0
5 0 0 1 1 0 1 0 0 0 0
6 0 0 0 1 1 0 0 0 0 0
76
7 1 0 0 0 0 0 0 1 1 1
8 0 0 0 0 0 0 1 0 1 0
9 0 0 0 0 0 0 1 1 0 0
10 1 0 0 0 0 0 1 0 0 0
Základním topologickým aspektem sítě je způsob propojení jednotlivých segmentů - tedy její konektivita. Tradičním nástrojem používaným k charakterizování konektivity je matice konektivity. Je to matice čtvercová, binární, symetrická o n řádcích (sloupcích), kde n je počet segmentů sítě. Jednička v matici značí, že dva příslušné segmenty jsou bezprostředně spojeny. Na hlavní diagonále matice jsou nuly.
6.2 Směrová statistika (Directional statistics)
Topologii sítě lze charakterizovat jednoduchými mírami. Takovou je např. poměr mezi skutečnou délkou linie a spojnicí počátečního a koncového bodu. Tato charakteristika se určuje křivost linie (sinusoity). Čím větší číslo, tím větší křivost.
Směr linie - vizuální hodnocení směru linií lze provést přidáním šipek. Např. u pole větru je možné odhalit strukturu proudění v celé oblasti.
6.3 Směrový průměr (directional mean).
Využití klasických měr popisné statistiky pro charakterizování směru a orientace linií je nevhodné (viz. obr. 3.3).
Jak je patrné z obrázku, aritmetický průměr dvou vektorů s úhly 45 a 315 stupňů dává 180 (jižní směr), avšak měl by být 0 stupňů (severní směr). Průměrný směr je však nutné určit vektorovým součtem či tzv. směrovým průměrem (directional mean). Protože pracuje se směrem (úhlem) a ne s délkou, je možné ho prezentovat na základě jednotkových vektorů. Vektorovým součtem - přidáním počátku druhého vektoru na konec prvního dostaneme směrový průměr.
c
Obr. 6.3 Problém popisné statistiky při určování charakteristik směru linie
77
Obr. 6.4 Koncept směrového průměru Směr výsledného vektoru lze získat také z následujícího vztahu:
Xm6R = — ox
kde oy je suma délek vektorů ve směru osy y a ox suma délek vektorů ve směru osy x. Protože všechny vektory jsou jednotkové, délka ve směru osy y je v podstatě sin úhlu a délka na ose x. je cosinus úhlu. Potom, jsou-li vektory označeny a, b, c a odpovídající úhly 0a, 0b, Oc, potom:
tm0R = sin0a+sm0b+sm0e
cos 6a + cos 6b + cos 6C
Obecně, máme-li n vektorů v a úhel vektoru v od osy x je 0v, výsledný vektor OR má úhel Or, měřený proti směru hodinových ručiček od osy x:
tm6R =^-
což je tedy tangenta úhlu výsledného vektoru. Směrový průměr je potom arctan z výše uvedeného výrazu.
Výsledná hodnota směrového průměru musí zohledňovat specifika jednotlivých kvadrantů, jak uvádí následující pravidla:
1. čitatel i jmenovatel v tan Orjsou oba kladné - není nutná žádná úprava (vektor leží v 1. kvadrantu)
2. čitatel je kladný jmenovatel záporný - směrový průměr bude 180 - Or, (vektor leží v 2. kvadrantu)
3. čitatel i jmenovatel v tan Or jsou oba záporné - směrový průměr bude 180 + Or, (vektor leží v 3. kvadrantu)
4. čitatel je záporný, jmenovatel kladný - směrový průměr bude 360 - Or, (vektor leží v 4. kvadrantu
Praktický výpočet spočívá v určení sin a cos úhlů všech vektorů. Určí se jejich sumy a vytvoří poměr, který je tangentou výsledného úhlu. Směrový průměr je potom arctan.
78
6.4 Směrový rozptyl (Circular variance)
Stejně jako v případě klasické popisné statistiky je charakterizování souboru prvků pouze měrou úrovně, kterou je výše uvedený směrový průměr, je často nedostatečné a může být i zavádějící. Např. pokud dva vektory budou svírat úhel 180 stupňů. Proto je nutné použít i měr variability (rozptylu).
Pokud dáme dohromady vektory podobného směru, výsledný vektor bude relativně dlouhý. Jeho délka se bude blížit n, pokud bude n jednotkových vektorů. Naproti tomu, pokud dáme dohromady vektory opačného či značně rozdílného směru, výsledný vektor bude významně menší než n. Tedy délku výsledného vektoru můžeme použít jako statistiku, která reflektuje variabilitu ve směru jednotlivých vektorů. Na základě výše uvedeného tedy platí:
OR = 7 (£ sin 6V )2 + (£ oos0v )2 Směrový rozptyl (circular variance) Sv se potom vypočte:
Sv = 1 — OR / n
kde n je počet vektorů. Sv může nabývat hodnot 0 až 1. Je-li Sv=0, potom OR=n a všechny vektory mají stejný směr. Je-li Sv=l, potom OR=0, všechny vektory mají opačný směr a výsledný vektor je bod.
6.5 Úvod do statistického popisu sítí
Nebude probírána síťová analýza - ta vyžaduje speciální prostředí a nástroje (maticový počet) i speciálně upravená vstupní data.
Základní pojmy používané v síťové analýze: nódy a hrany (spoje), jejich počet také charakterizuje síť. Ke křížení dvou a více hran dochází pouze ve vrcholu (planar graph topology)
Deskriptory sítě lze rozdělit do dvou skupin:
1. Deskriptory sítě jako celku
2. Deskriptory relací jednotlivých segmentů sítě.
6.6 Konektivita a matice konektivity
Matice konektivity (tab. 3.1) shrnuje informaci o tom, které segmenty sítě spolu souvisí (jsou bezprostředně spojeny). Lze však charakterizovat i úroveň konektivity sítě jako celku. Pro fixní počet vrcholů má síť s větším počtem spojů lepší konektivitu. Dále existuje minimální počet spojů, který zajišťuje spojení všech vrcholů.
Bude-li v - počet vrcholů sítě, e - počet hran sítě potom:
e = v — 1
min
79
Minimálně propojená síť (Minimally conneted network - MCN) - odstraníme-li jakoukoliv jednu hranu, síť se rozpadne na dva subsystémy.
Podobně lze pro daný počet vrcholů vytvořit maximální počet hran, které spojují všechny vrcholy. Tedy maximální počet hran v síti o v vrcholech:
emax = 3(V - 2)
Jednoduchou charakteristikou konektivity sítě je Gamma index (y) - je definován jako poměr aktuálního a maximálního počtu vrcholů sítě.
e
r = —
e
max
Další jednoduchou charakteristikou konektivity sítě je počet okruhů. Výskyt okruhů v síti značí možnost dostat se z jednoho místa do jiného alternativními cestami. Síť s minimální konektivitou nemá žádný okruh.
Počet okruhů lze zjistit tak, že od aktuálního počtu hran v síti odečteme počet hran potřebný pro minimálně propojenou síť (MCN), tedy e-(v-1) nebo e-v+1.
Obdobně pro daný počet vrcholů je maximální počet okruhů roven 2v-5. S oběma uvedenými počty okruhů lze vytvořit poměr aktuálního počtu k počtu maximálnímu - tedy tzv. alfa index:
e - v +1
a =-
2v - 5
Pomocí alfa indexu můžeme snadno porovnat dvě sítě.
6.7 Dostupnost sítě (Acccessibility)
Jedná se o charakteristiku jednotlivých vrcholů či hran sítě. Popisuje jejich dostupnost v rámci sítě. Další text se týká dostupnosti hran sítě, obdobné vztahy lze definovat i pro vrcholy.
Jednoduchým ukazatelem dostupnosti hrany v rámci sítě je, s kolika jinými hranami daná linie přímo souvisí. Tuto informaci lze vyčíst z binární matice konektivity, pokud tuto doplníme např. řádkovým součtem.
Tabulka 6.2 Matice konektivity a dostupnost hran v rámci sítě
ID 1 2 3 4 5 6 7 8 9 10 SUMA
1 0 1 1 0 0 0 1 0 0 1 4
2 1 0 1 0 0 0 0 0 0 0 2
3 1 1 0 1 1 0 0 0 0 0 4
80
4
5
6
7
8
9
10
0 0
0
1 0
0
1
0 0 0 0 0 0 0
1 1 0
0
1 1
1
0
1
1 1 0
0 0 0 0
0 0 0 0
0 0 0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0 0
0
1 1 1
1
0
1 0
1 0
0 0 0 0
3
3 2
4 2 2 2
Tabulka 6.3 Charakteristiky dostupnosti sítě (viz. obr 3.5, 3.6, 3.7)
ID
počet přímých spojů
počet kroků k dosažení nejvzdálenějšího místa
celkový počet přímých a nepřímých spojů
1 4 3 15
2 2 3 19
3 4 3 16
4 3 4 21
5 3 4 21
6 2 5 28
7 4 4 18
8 2 5 25
9 2 5 25
10 2 4 20
81
Obr. 6.5 Dostupnost jednotlivých segmentů sítě charakterizovaná počtem přímých spojů
Uvedená charakteristika však může být zavádějící, protože nebere v úvahu relativní
(topologickou) polohu hrany v rámci sítě. Hrana může mít i pouze jeden či dva spoje, přesto může být snadno dostupná, protože se nachází uprostřed sítě (a naopak).
Relativní pozici každé hrany v rámci sítě lze zjistit např. pomocí počtu hran, kterými se lze z daného spoje dostat do nejvzdálenějšího místa sítě.
Obr. 6.6 Dostupnost jednotlivých segmentů sítě charakterizovaná počtem kroků nutných k dosažení
nejvzdálenějšího místa sítě.
Diametr (poloměr) sítě - je to jedna (1) plus největší počet hran nutných k dosažení nejvzdálenějšího místa v síti.
Kvalitu spojení dvou hran (vrcholů) definuje počet hran mezi nimi. Spojení mohou být přímá a nepřímá. Tedy počet přímých a nepřímých spojů, které jsou třeba, aby byla daná hrana spojena se všemi hranami ostatními. Nepřímé spoje lze vážit počtem kroků. Zřejmě platí, že čím větší je celkový potřebný počet spojů, tím hůře dostupná je daná hrana. Celkový počet spojů (přímých i nepřímých) je mírou dostupnosti.
82
Obr. 6.7 Dostupnost jednotlivých segmentů sítě charakterizovaná počtem přímých a nepřímých spojů nutných
k dosažení jakéhokoliv místa v síti
7. Prostorové uspořádání ploch
Využití prostorové statistiky k popisu měr úrovně a variability geografických jevů spojených s plochami (polygony) má v řadě geografických disciplín dlouhou tradici (demografie, krajinná ekologie apod.). Studium prostorových vztahů může být zaměřeno na následující typy úloh:
1. porovnání prostorového uspořádání studovaného jevu s uspořádáním teoretickým
(shlukovým, pravidelným či náhodným)
2. typologie prostorového uspořádání jevů (bez územní souvislosti)
3. regionalizace - seskupování jednotek (polygonů) do vyšších územně souvisejících celků
4. interpolace a vyhlazování areálových dat
7.1 Míry prostorového uspořádání ploch
Prostorová autokorelace- hodnoty atributů ploch spolu korelují v závislosti na jejich vzájemné poloze. To je v důsledku podobných přirozených (přírodních) podmínek (např. produkce zemědělských podniků) či v důsledku přirozené spojitosti jevů.
U prostorově autokorelovaných dat nejsou hodnoty atributů v prostoru náhodné, ale prostorově závislé. Tato vazba (autokorelace) může být pozitivní (shlukové uspořádání -sousední objekty mají podobné hodnoty) či negativní (u pravidelného uspořádání). V případě náhodného uspořádání - slabá či žádná prostorová autokorelace. Také v případě prostorové autokorelace lze měřit její sílu.
83
Obr. 7.1 Příklad pozitivní prostorové autokorelace (shlukové uspořádání - vlevo) a negativní prostorové
autokorelace (disperzní uspořádání - vpravo)
Prostorová autokorelace je významným ukazatelem k hodnocení dynamiky a časových změn v prostorovém uspořádání objektů a pro predikce.
Další význam prostorové autokorelace spočívá ve skutečnosti, že řada statistických ukazatelů (např. regresní modely) požaduje splnění předpokladu náhodnosti výběru objektů a jejich vzájemné nezávislosti. Míry prostorové autokorelace tak mohou potvrdit či vyvrátit splnění uvedených předpokladů.
7.2 Matice prostorových vah (Spatial weights matrices)
Prostorová autokorelace měří stupeň podobnosti atributů mezi danou plochou a plochami sousedními. Nejprve proto musí být vztahy sousedství jistým způsobem kvantifikovány.
Máme plochu s n prostorovými jednotkami. Potom můžeme definovat n x n párů sousedství -maticí typu n x n. Každá prostorová jednotka je prezentována jedním řádkem a sloupcem. Každá hodnota v matici prezentuje prostorový vztah mezi jednotkami prezentovanými daným řádkem a sloupcem v matici. Buňky matice mohu nabývat různých hodnot v závislosti na způsobu definování sousedství (např. binární matice s 0 a 1 podle toho, zda jednotky spolu přímo sousedí či nikoliv, nebo - buňky nesou vzdálenost mezi centroidy obou jednotek. Protože hodnoty v buňkách představují váhy při výpočtu prostorové autokorelace, potom se sestavené matice označují jako matice prostorových vah).
7.2.1 Způsoby definování sousedství
Označují se podle pohybu šachových figur (Rook's case - věž, Queen's case - Dáma) - viz. Obr. 7.2 Bezprostřední sousedé (se společnou hranicí, i jedním bodem v případě Queens case) jsou sousedé prvního řádu. Analogicky lze definovat sousedy vyšších řádů.
A C
~ X
F G H
A C
v/ / 1 x
* i 4
Obr. 7.2 Způsoby definování sousedství
84
Vedle sousedství je další běžně užívanou mírou prostorové relace objektů jejich vzdálenost. Intenzita vztahu dvou vzdálených jednotek bude obecně menší než intenzita vztahu jednotek blízkých. Tato vzdálenost může být arbitrárně určena (na základě zkušenosti či povahy studovaného problému: např. k danému domu jsou sousedé definováni jako domy do vzdálenosti 1 km, výsledek potom ze vyjádřit v binární podobě).
7.3 Binární matice konektivity (BCM - binary connectivity matrix)
Analogicky jako v případě linií - binární, čtvercová symetrická matice C s prvky Cj, 1 -sousedí, 0 - ne)
/d Bitie venko Bitia měsfo Hodcnvn Brechv \
0.0000 1.0000 1.0000 1.0000 0.0000 1.0000 1.0000.
Blansko ..............TľCiOOCi ööööci .............il'öbo" .............T.'öööö' ..............öTööoö .............ö'.'öööö' .............öTööoöl
Vyškov ..............TľCiOOCi löööci .............oTöööö .............ö'.'öööö' ..............Tľocioo .............ö'.'öööö' .............rooöci]
Brno-město iTöoö'ö" .............i'.'öööö' oľciocici .............ö'.'öööö' lliľuOOU .............ö'.'öööö' .............ö ööbö]
Hodonín öTö'öoö" D DÖÖlli iTöoö'ö" .............ö'.'öööö' lliľuOOU .............ö'.'öööö' T.oooö]
Znojmo iTöoö'ö" D DÖÖlli oľciocici .............ö'.'öööö' lliľuOOU .............ö'.'öööö' 1.000Ö]
Břeclav iTöoö'ö" D DÖÖlli iTöoö'ö" .............ö'.'öööö' [iTöö'öö' i'.'öööö' ö ööbö]
7.3.1 Binární matice sousedství Vlastnosti BCM:
• Prvky na hlavní diagonále mají hodnoty 0
• Matice je symetrická - redundance uložené informace
• Suma v řádku nese informaci o počtu sousedů dané jednotky
• Pro větší počet prostorových j ednotek obsahuje velké množství nul a je tedy paměťově náročná
Vhodnější způsob zaznamenání vztahů sousedství je uchovávání ID či názvu sousedů pro každou plochu, tedy např.:
Polygon Sousedi Soused2 ...
Brno-město Brno-venkov Blansko
Blansko Brno-venkov Vyškov Brno-město
7.3.2 Stochastická matice či matice se standardizovanými řádkovými vahami (RSWM)
Zaznamenání sousedství v binární podobě není v řadě případů výhodné - váhy jsou stejné bez ohledu na počet sousedů. Vhodnějším způsobem je nahrazení jedniček vahou wij , vypočtenou jako poměr mezi hodnotu cij a sumou v řádku - tj. počtem sousedů. Tedy má-li jednotka 4 sousedy, bude její váha rovna 0,25 - tak dostaneme z matice C matici W,
85
označovanou jako matici se standardizovanými řádkovými vahami. Stejně jako matice C má i W na hlavní diagonále nuly, není vak již symetrická.
Bitia měsfo Hadotxn Ztiajnia Brechy
Brno-venkov 0.0000 0.2000 0.2000 0.2000 0.0000 0.2000 0.2000
Blansko 0.3333 0.0000 0.3333 0.3333 0.0000 0.0000 0.0000
Vyškov 0.2500 0.2500 0.0000 0.0000 \ 0.2500 0.0000 0.2500
Brno-město 0.5000 0.5000 0.0000 0.0000 [ 0.0000 0.0000 0.0000
Hodonín 0.0000 0.0000 0.5000 0.0000 [ 0.0000 0.0000 0.5000
Znojmo 0.5000 0.0000 0.0000 0.0000 [ 0.0000 0.0000 0.5000
Břeclav 0.2500 0.0000 0.2500 0.0000 0.2500 0.2500 0.0000
Obr. 7.3 Matice se standardizovanými řádkovými vahami
7.4 Vzdálenosti centroidů
Vztahy prostorové závislosti lze charakterizovat také vzdáleností jednotek (viz. první zákon geografie - Tobler, 1970: Všechny objekty spolu souvisí, ale blízké objekty spolu souvisejí více). Tedy vzdálenost je vhodnou váhou pro definování prostorových vztahů.
Existuje několik způsobů definování vzdálenosti dvou polygonů, např. vzdálenost centroidů. Existuje několik způsobů určení centroidu pro daný polygon. V závislosti na tvaru polygonu nemusí jeho centroid ležet uvnitř něho.
Jsou-li jako váhy použity vzdálenosti (zde vzdálenosti centroidů), matice se označuje D s prvky dy . Váhy jsou potom definovány jako převrácená hodnota vzdálenosti:
1
V řadě případů síla vztahu mezi dvěma jednotkami klesá rychleji než se zvětšuje jejich vzdálenost, proto se váhy definují jako.
1
7.4.1 Nejbližší vzdálenosti
Na místo vzdáleností centroidů jsou použity vzdálenosti dvou nejbližších částí dvou polygonů. Takto definované váhy jsou výhodné pro charakterizování prostorových kontaktů či difuze. U takto sestavené matice buňky s nulami mimo hlavní diagonálu (sousedé) odpovídají buňkám s jedničkami v binární matici sousedství.
86
Bhtisko Vj/skov Hodatiín Břeclav
i Brno-yenkgy j 0.0000 0.0000 0.0000 0.0000 6.3679 0.0000 0.0000 :
Blansko 0.0000 o.booo O.OOOO o.bbcio 23.0282 29.5297 24.4276;
Vyškov 0.0000 o.oooo 0.0000 37893 O.OOOO 237376 o.oooo;
Brno-město bľoooo o.oooo" 377893 o.oooo' 1577463 14.2933 aeii ž]
Hodonín 673679 210282 oiboo" 157463 0 0000 '30.505i' aoDool
Znojmo bľoooo '29.5297 2377376' 1472933 3075051 0.0000 aoDool
Břeclav 0.0000" "" 24.4276 110000 8.6112 0.0000 O.OOOO '"' o.oooo"
Obr. 7.4 Matice vzdáleností mezi nejbližšími částmi polygonů
7.5 Míry prostorové autokorelace
Výše uvedené matice slouží k definování měr prostorové autokorelace (SA). Míry SA mohou být vztaženy k poli bodů (viz. výše) či ploch. V případě ploch lze zpracovávat data nominální (JCS - joint count statistics - Statistika charakteru sousedství), intervalová i poměrová (Moranův index I, Gearyho poměr C, G-statistika)
Uvedené míry lze označit jako globální míry prostorové autokorelace (asociace). Tedy jedna hodnota je vypočtena pro celou studovanou oblast. Avšak také prostorová autokorelace se může měnit v rámci studované oblasti - k deskripci prostorové heterogenity prostorové autokorelace lze využít lokálních měr - Local Indicator of Saptial Association (LISA) a lokálmí verze G-statistiky (local G-statistics).
Ke grafickým prostředkům hodnotícím prostorovou autolorelaci patří Moranův scatterplot diagram.
Základní notace používaná v následujícím popisu indexů prostorové autokorelace
wy - obecně buňka matice vah Wpro řádek i a sloupec j. (nejen matice stochastické - viz. výše)
Sumace vah daného řádku i přes všechny sloupce (řádková suma): Sumace vah daného sloupce j přes všechny řádky (sloupcová suma):
i
Sumace všech buněk matice vah:
Pro testování významnosti indexů prostorové autokorelace lze váhy v jednotlivých výrazech sumarizovat do následujících výrazů:
87
2 i j
a
( Y SUM2 =Z ZWj + Z
i v j j J
SUMi - suma přes váhy. Jsou-li váhy binární a matice symetrická, potom (wjj + wji )2 = 4
SUMi je tedy čtyřnásobek celkového počtu spojů (společných hranic) v celé studované ploše.
Hodnota SUM2 je založena na sumování vah každé plošné jednotky v obou směrech (wij i Wji). Výsledná hodnota je potom získána jejich součtem, umocněním a sumací pro všechny jednotky studované oblasti.
Nechť n je počet plošných jednotek ve studované oblasti. Existují-li dvě skupiny jednotek definovaných atributy s hodnotami x a y, potom výrazy nx a ny značí počet jednotek v jednotlivých skupinách.
Podobně:
n(x) = n * (n -1) * (n - 2) * (n - 3) *... * (n - x +1)
kde n > x
Například, bude-li n=5, potom n(3) = n(n - - 2) = 5 x 4 x 3 a = n
Jestliže xi je hodnota atributu pro plochu i, můžeme definovat nový parametr mj, založený na hodnotách x*:
m j =Z x(
i =1
kde j = 1,2,3,4. Potom, jestliže j=l, ntj je suma xt pro všechna i. Jestliže j=2, ntj bude suma všech čtverců xi.
7.5.1 Statistika charakteru sousedství - Joint count statistics (JCS)
Touto metodou lze zjistit, zda uspořádání ploch, které mohou nabývat binárních hodnot vykazuje prvky náhodnosti. Tedy zda existuje pozitivní (clustered pattern) či negativní (random pattern) prostorová autokorelace.
88
Obr. 7.5 Statistika četnosti spojů (JCS)
Podstata metody - jednoduchý příklad:
Máme mapu se dvěma kategoriemi landuse: U - zástavba, R - volná krajina. Potom mohou existovat čtyři typy sousedských vztahů: UU, RR, UR, RU. V případě čistě náhodného uspořádání se bude každá kombinace vyskytovat v 25% případů. Dvojice ploch s odlišným atributem se budou vyskytovat v 50 % případů. Pokud UR + RU < 50%, potom výskyt dvojic ploch se stejným atributem UU a RR bude vyšší než 50% - což je případ pozitivní prostorové autokorelace. V případě 50 na 50 - uspořádání je náhodné a pokud UR + RU > 50%, pak se jedná o negativní SA, kdy dominují hranice nepodobných ploch.
Mapu (obr. 1) s pěti plochami můžeme prezentovat také grafem s vrcholy a spoji, zaznamenávajícími druh povrchu a také bezprostřední sousedství jednotlivých ploch s plochami jinými, jak je patrné z obr. 4.4
A B
Obr. 7.6 Grafická prezentace druhů spojů
Sestavíme matici sousedství pro jednotlivé plochy. V této matici nula značí, že obě plochy spolu bezprostředně nesousedí, 1 naopak. Zároveň je barvou buňky v matici naznačeno, o jaký typ spoje se jedná (Obr. 7.7).
Obr. 7.7 Binární matice sousedství pro nominální data
89
Pořadí řádků a sloupců v uvedené matici je určeno abecedním pořadím identifikátorů ploch. Nic nebrání sestavit matici v jiném pořadí řádků a sloupců - například podle typu povrchu -(viz Obr. 7.8).
Obr. 7.8 Binární matice sousedství uspořádaná podle hodnot atributů
Obě matice jsou symetrické, ve druhém případě navíc je možné jednoduše popsat prostorovou autokorelaci pomocí čtyř sub-matic. Z matice lze zjistit, že 14 buněk obsahuje jedničku, která značí výskyt hrany (14 párů sousedství). Dále platí, že jednotlivé typy sousedství se na mapě vyskytují s těmito četnostmi:
• UU=2
• UR=5
• RU=5
• RR=2
Z toho plyne, že RU + UR > 14/2 , tedy naše mapa vykazuje negativní autokorelaci, nepodobné plochy (s odlišným typem povrchu) se shlukují.
Uvedený koncept lze dále rozšířit využitím počtu pravděpodobnosti a statistických testů. Ty nám umožní testovat statistickou významnost prostorového uspořádání ploch v mapě. V dalším výkladu jsou používány dvě hodnoty atributů B - black, černá, W - white, bílá. Tedy bude-li prostorové uspořádání indikovat uspořádání do shluků, potom můžeme předpokládat více hranic typu BB či WW než BW nebo WB - tedy pozitivní prostorovou autokorelaci.
JCS tedy nejprve určuje počet jednotlivých druhů spojů s cílem testovat četnost jejich výskytu. Pro plochu s malým počtem polygonů lze počty jednotlivých spojů zjistit manuálně, pro velký počet ploch je nutné využití metod matematické statistiky. Obecné kroky výpočtu jsou následující:
Nechť x=1 jestliže polygon i je černý a Xi=0 jestliže polygon i je bílý. Potom pro BB spqje bude: 0BB = 1 £ j (wijxixj)
Pro WW spoje bude platit: 0WW =1 £ťh(1 - x,)(1 - x])]
90
Pro BW nebo WB spoje bude platit: OBW = 2£ £ [wtJ(xl -xJ)2]
Uvedené vzorce představují výrazy pro pozorované (O - observed) počty spojů popisující dané uspořádání.
Vysoké hodnoty OBB či OWW či obou indikují pozitivní prostorovou autokorelaci (slukování). Pozorované počty spojů však musíme porovnat s náhodným uspořádáním a musíme testovat, zda eventuelní zvýšené počty OBB či OWW nejsou výsledkem pouhé náhody, zda jsou či nejsou statisticky významné. Budeme tedy pracovat s počtem pravděpodobnosti.
Způsob určení pravděpodobnosti výskytu B a W polygonů však může významně ovlivnit výsledek analýzy. Hodnoty atributů mohou byt jednotlivým polygonům přiřazeny na základě předpokladu normality či náhodnosti (viz. prostorová analýza bodů)
Předpoklad normality: (NORMALITY - FREE - SAMPLING) - pravděpodobnost, že se jedná o polygon B či W je založena na teorii či na trendu hodnot atributů odvozeném z větší oblasti. Pravděpodobnost, že polygon má B či W není ovlivněna celkovým počtem B či W polygonů v oblasti.
Předpoklad náhodnosti: (RANDOMIZATION - NONFREE - SAMPLING) -pravděpodobnost, že polygon bude mít B či W je omezena či závisí na celkovém počtu B či W polygonů.
Příklad: Plocha obsahující sedm polygonů:
Předpoklad náhodnosti - může existovat různá konfigurace 4 „černých" a 3 „bílých" ploch. Předpoklad normality - může existovat různá konfigurace jakéhokoliv (0 až 7) počtu „černých" a „bílých" ploch.
U metody JCS bychom neměli pracovat s předpokladem normality v případě, že informace získané z teorie, zkušenosti či z trendové funkce z širšího okolí jsou nespolehlivé. Náhodné vzorkování totiž vyžaduje méně rigorózní podmínky použití.
7.6 Normální vzorkování
V obou výše komentovaných případech je nutné vedle pozorovaných (O) počtů jednotlivých typů spojů či hranic (joint) zjistit počty očekávané (E) a také jejich směrodatné odchylky. Očekávané počty odrážejí efekt náhodnosti či nevýznamné prostorové autokorelace jakéhokoliv typu (pozitivní či negativní). Tedy zjistí se diference mezi pozorovanými a očekávanými četnostmi spojů. Tyto diference jsou následně standardizovány hodnotami příslušných směrodatných odchylek a získáme tak standardizovaná skóre. Z hodnot těchto skóre můžeme rozhodnout, zda je ve studované oblasti významná pozitivní či negativní prostorová autokorelace v uspořádání polygonů podle hodnot atributu. Jinými slovy, je nutné provést tři typy porovnání. Dále je prezentován případ pouze pro testování negativní prostorové autokorelace.
Pro případ normálního vzorkování jsou vztahy pro očekávané četnosti jednotlivých druhů spojů (joint) (EBB, EWW, EBW) následující:
91
EBB = \ Wp2 Eww = - Wq2 EWB = Wpq
p - pravděpodobnost, že plocha bude B (černá) q - pravděpodobnost, že plocha bude W (bílá)
Pravděpodobnosti p, q musí dávat 100% nebo (p + q = 1). Pokud není k dispozici jiná informace, potom p = nB/n, jsou však i jiné způsoby určení p. Pokud je použitá prostorová matice vah binární, lze výrazy pro očekávané počty typů spojů zjednodušit:
EBB = JpP EWW = Jq EBW = 2 Jpq
kde J značí celkový počet spojů ve studované oblasti.
K testování statistické významnosti zjištěného prostorového uspořádání lze využít Z-testu. K němu je zapotřebí zjistit směrodatné odchylky očekávaných počtů spojů. Směrodatné odchylky se vypočtou v závislosti na použité váhové matici následovně:
Pro stochastickou matici vah:
&bb =ij 4 p 2q[S1q + S2p]
ww =4q2 J + q3K - q4 {j + k)
o-bw = V 2 pqJ + pqK - 4 p2q2 {j + K) kde o je směrodatná odchylka počtu příslušných spojů S1, S2, J, p, q byly definovány výše
K = Zn=i L {L, -1)
92
Hodnota n v tomto výrazu značí celkový počet polygonů a Lt je počet spojů mezi polygonem i a jeho sousedy.
Obecný postup testování (na příkladu negativní prostorové autokorelace (BW spoje) při použití binární matice):
Pro výpočet očekávaných potřebujeme znát hodnoty pravděpodobností p, q. Rozhodneme se pro určité pravidlo definující sousedství (rook, queen). Dále určíme J (počet spojů) - zjistíme sumováním všech členů binární matice vah a dělíme dvěma. Odhad správných hodnot p a q -ze zkušenosti, z teorie (např. mortalita v určitém regionu - použijeme údaje o mortalitě celého státu. Potom určíme hodnotu výrazu L(L-1) pro každý polygon a provedeme sumaci pro celou oblast. Potom určíme hodnoty EBW a oBW.
Máme-li k dispozici pozorované počty spojů (OBW), potom můžeme vyjádřit hodnotu z-skóre:
Z
O - E
Podle pravděpodobnosti rozdělení hodnot Z-skóre platí, že jakákoliv hodnota Z ležící mimo interval (-1,96; -1,96) má pravděpodobnost výskytu menší něž 5 případů ze 100 (a=0,05).
Obr. 7.9 Příklady prostorového uspořádání černých a bílých polygonů v rámci studované oblasti (a, b, c) a počty
sousedů jednotlivých ploch (d)
PŘÍKLAD:
Na obrázku (Obr. 7.9) je oblast obsahující 7 polygonů. Naším cílem je metodou JCS určit, zda v této oblasti existuje statisticky významná negativní prostorová autokorelace ve výskytu „černých" (B) a
93
„bílých" (W) ploch. Jako vah využijeme prvků binární matice. Podle výše uvedených vzorců musíme vyčíslit hodnoty OBW, EBW, aBW,
1) Spočteme celkový počet všech spojů ve studované oblasti, tedy hodnota J=11.
2) Určíme způsob definice sousedství - v tomto případě za sousedy považujeme pouze polygony, které spolu sousedí hranou (rook's case).
3) Určíme hodnoty pravděpodobností p, q výskytu „černé" či „bílé" plochy. V tomto případě předpokládáme, že p=0,3 a q=0,7.
4) Z obr. d určíme pomocí následující tabulky hodnotu £ Lil, -1)
Oblast L L-1 L(L-1)
A 3 2 6
B 2 1 2
C 3 2 6
D 5 4 20
E 3 2 6
F 3 2 6
G 3 2 6
E 22 52
5) Vyčíslíme hodnoty , EBW, oBW:
EBW = 2Jpq = 2*11*0,3*0,7 = 4,62
(?BW =2,1
6) Pro jednotlivé varianty na obrázku a, b, c jsou hodnoty pozorovaných počtů spojů (OBW) OBW = 4, 6 resp 8
7) Pro konfigurace „černých" a „bílých" poch uvedené na obrázku vyjádříme hodnotu z-skóre:
a) Z = 4-462 = -0,29
2,1
b) Z = 6-462 = 0,65
2,1
) Z 8 - 4,62
c) Z =-= 1, 61
2,1 '
8) Interpretace: Žádná z hodnot Z-skóre nepřesahuje prahovou hodnotu ±1,96 a tedy uvedená uspořádání nevykazují statisticky významnou negativní prostorovou autokorelaci na hladině významnosti a=0,05.
94
7.7 Náhodné vzorkování
V tomto případě závisí pravděpodobnost, zda je polygon bílý nebo černý, na celkovém počtu černých polygonů a počtu bílých polygonů ve studovaném území. Obrázek 4.7. uvádí tři typy prostorového uspořádání sedmi polygonů ve studované oblasti. Protože ve všech třech případech jsou počty B a W polygonů stejné (jsou jen jinak uspořádané) hodnoty pravděpodobnosti budou: p=3/7 a q=4/7.
Dále se vypočtou hodnoty očekávaných počtů spojů a jejich směrodatné odchylky. Výpočetní vzorce jsou jiné než v případě normálního vzorkování (viz. Lee, Wong, 2000, str. 154 - 155). Postup výpočtu je však analogický výše uvedenému příkladu.
Obr. 7.10 Příklad výstupu z metody JSC v programu ArcView
7.8 MORAN a GEARY indexy pro hodnocení prostorové autokorelace plošných jevů
Metoda Joint count statistics (JCS) má značná omezení z hlediska typu dat. Pro intervalová a poměrová data jsou stejně jak v případě jevů vztažených k bodům nejvyužívanějšími měrami prostorové autokorelace plošných jevů indexy Moranův (I) a Gearyho (C)
Oba indexy mají některé společné charakteristiky, jejich statistické vlastnosti však jsou rozdílné. Vhodnější vlastnosti vzhledem k rozdělení hodnot má index I. Oba indexy jsou založeny na porovnávání hodnot atributů sousedních ploch. Mají-li tyto sousední plochy v celé studované oblasti podobné hodnoty, potom obě statistiky budou svědčit o silné pozitivní prostorové autokorelaci a naopak. Obě statistiky využívají odlišný přístup k porovnávání hodnot sousedních ploch.
95
7.8.1 Moranův index I
Index se vypočte podle následujícího vzorce:
j = nZZ wu(x, - x)(xj -x)
WZ (x, - X)2
kde xi je hodnota proměnné v ploše i
wij jsou váhy, W matice vah
Hodnota indexu kolísá od -1 pro negativní prostorovou autokorelaci do +1 pro pozitivní prostorovou autokorelaci. Očekávaná hodnota indexu je v případě nulové prostorové autokorelace je rovna
(n -1)
Váhy se v případě tohoto indexu počítají z matic binární či stochastické (viz výše). Je-li použita binární matice, potom W ve jmenovateli je rovno dvojnásobku počtu hranic ve zpracovávané oblasti (2J).
Pokud jsou plochy s indexem i a j sousedé bude v čitateli Wj = 1, pokud nesousedí bude 0. Pokud sousedí, vyjádří se součin odchylek hodnot i a j od průměru. Tyto součiny se sumují pro všechny sousedy. Jestliže obě sousední hodnoty budou nadprůměrné (ale i podprůměrné) dostaneme velké kladné číslo. Obě tyto situace ukazují na pozitivní autokorelaci - tedy podobné hodnoty jsou vedle sebe (sousedí spolu). Naopak, pokud hodnota v jedné ploše bude nadprůměrná a ve druhé podprůměrná - potom to indikuje negativní autokorelaci. Budou-li ve zpracovávané oblasti převažovat sousedé s obdobnými hodnotami, Moranův index I bude kladný.
Čitatel obsahuje výraz pro kovarianci (xi- X )(xj- X), která je také základem pro definování Pearsonova korelačního koeficientu r. Na rozdíl od korelačního koeficientu, kovariance v případě Moran's I je kovariancí dvou ploch v prostoru a ve výše uvedeném vztahu pro I je vypočtena pouze pro případy, kdy plochy spolu sousedí. Jmenovatel vzorce je suma čtverců odchylek vážená maticí sousedství W.
Interpretace Moran's I:
Vypočteme hodnoty Ia E(I) a následně musíme zjistit, zda rozdíl mezi nimi je statisticky významný. Tento rozdíl je opět nutné vztáhnout k míře rozptylu (např. směrodatné chybě - SE - viz. výklad k bodům) a pomocí ní odvodit standardizovanou hodnotu z-skóre
Odhady rozptylu resp. směrodatné chyby se budou lišit podle způsobu, jakým mohou být hodnoty vyšetřovaného atributu přiřazeny k jednotlivým plochám („sampling assumption").
96
Za předpokladu normality jsou hodnoty atributu nezávislé a pocházejí ze základního souboru s normálním rozdělením, nejsou nijak omezeny daným prostorovým uspořádáním ve studované oblasti. Z tohoto předpokladu se rozptyl vypočte:
a2 j = n2Si - nS2 + 3(W)2 K) (W)2(n2 -1)
Za předpokladu náhodnosti je množina hodnot fixní. Konstantní není poloha spojená s určitou hodnotou atributu. Jinými slovy - existuje mnoho způsobů, jak je v prostoru rozmístěna daná množina hodnot. Naše rozmístění je jen jedno z možných.
Určení hodnoty rozptylu:
n[(n2 -3n + 3)S1 -nS2 + 3W21--VnZ(Xi -x)2 2 [si - 2nS2 + 6W21
a2(I)
(n - í)(n - 2)(n - 3)(W2)
Získáme-li hodnotu rozptylu, potom můžeme vyčíslit standardizovanou hodnot Zn(I)
I - E (I)
Z
n _2
a2 (I)
Pokud je hodnota Zn(I) menší (resp. větší) než -1,96 (resp. 1,96) je hodnota indexu I statisticky významně negativní (resp. pozitivní) na hladině významnosti a=0,05.
7.8.2 Gearyho poměr C (Geary's Ratio, C index) Tento index je definován obdobně:
c (n- 1)ZZwj(x -xj)2
Pro výpočet indexu se jako vah využívá jedné z výše uvedených typů matic prostorových vah, nejčastěji matice binární či stochastické. Ve srovnání se vzorcem pro výpočet Moranova indexu je zřejmé, že Gearyho index se liší především v čitateli výrazu. Moranův index porovnává hodnoty atributů sousedních ploch prostřednictvím odchylek od průměru, naproti tomu Gearyho index porovnává hodnoty atributů přímo mezi sebou. Pro hodnotu indexu není rozhodující, která z hodnot x* a xj je větší či menší, ale jaký je jejich absolutní rozdíl - jejich nepodobnost (ve výrazu je druhá mocnina jejich rozdílu).
Gearyho index nabývá hodnot v intervalu 0 až 2. Hodnota nula indikuje dokonalou pozitivní autokorelaci (všechny sousední hodnoty atributů jsou stejné). Naopak hodnota 2 indikuje dokonalou negativní prostorovou autokorelaci. Na rozdíl od Moranova indexu, očekávaná hodnota Gearyho indexu nezávisí na počtu posuzovaných ploch n, ale má vždy hodnotu 1. Hodnota 1 znamená nulovou prostorovou autokorelaci.
97
Vypočtené hodnoty indexu C lze porovnat s hodnotou jedna (očekávanou), pro prokázání statisticky významného rozdílu je však stejně jako v předchozích případech nutné vypočítat hodnotu z-skóre. Nejprve je nutné vypočítat rozptyl hodnoty indexu C. Hodnota rozptylu se opět vypočte rozdílně v závislosti na předpokladu normality či náhodnosti.
Například za předpokladu normality:
o2 = (2S + S2)(n -1) - 4W2 2(n + 1)W2
Za předpokladu náhodnosti: (vzorec viz. Lee a Wong, 2000, s. 162)
Hodnoty z-skóre jsou založené na rozdílu pozorovaných a očekávaných hodnot. Jestliže hodnota indexu C = 0 značí perfektní pozitivní prostorovou autokorelaci a C = 1 nulovou, potom negativní hodnota z-skóre značí pozitivní prostorovou autokorelaci a kladná hodnota z-skóre značí autokorelaci negativní.
Obr. 7.11 Vstupní data a výsledky prostorové autokorelace (I a C indexy) pro průměrný příjem sedmi států
v Ohiu.
Příklad 1: Na obrázku 5.1 je kartogram průměrného příjmu pro sedm států Ohia. Z hodnot vypočtených indexů vyplývá, že hodnota Moranova indexu indikuje negativní prostorovou autokorelaci (státy s vysokou hodnotou studovaného atributu jsou blízko států s nízkými hodnotami). Tato tendence však není statisticky významná na hladině 5 %.
Naopak podle vypočtených hodnot Gearyho indexu existuje statisticky významná negativní prostorová autokorelace v hodnotách průměrného příjmu u sedmi studovaných států celého regionu.
7.9 Obecná G-statistika
Oba výše uvedené indexy I a C mají dobře definované statistické vlastnosti, které popisují prostorovou autokorelaci globálně (jednou hodnotou pro celou zpracovávanou oblast). Nejsou však efektivní k identifikaci rozdílných shluků prostorového uspořádání uvnitř oblasti. Oba indexy jsou sice citlivé k identifikaci oblastí s podobnými hodnotami atributů, nerozlišují však, zda tyto podobné hodnoty nabývají vysokých či nízkých hodnot. Shluky ploch (též. místa prostorové koncentrace - spatial concentration) vysokých hodnot vyšetřovaného atributu ve studované oblasti se označují jako „hot spots", naopak místa se shluky nízkých hodnot jako „cold spots".
98
Odlišit oby typy shluků lze pomocí tzv. obecné G-statistiky (generál G-statistics). Stejně jako v případě Moranova a Gearyho indexu je i G-statistika založena na míře prostorové asociace, která dává v čitateli výrazu do vztahu hodnoty atributu v ploše (bodě, místě) i a j. Obecná G-statistika je definována takto:
F F h (d )xixJ G(d) = J i J
yy x,xj
pro i různá od j. G-statistika je definována vzdáleností d mezi plochou i a plochami sousedními. Váha Wj(d) má hodnotu 1, jestliže se plocha j nachází ve vzdálenosti menší či rovné d od plochy i, jinak má váha hodnotu 0. Matice vah je tedy maticí binární a symetrickou, vztahy sousedství jsou však definovány vzdáleností d. Suma těchto vah matice se rovná:
pro i různá od j. V důsledku takovéhoto definování vah, páry xi a Xj nebudou zahrnuty v čitateli, pokud i a j jsou od sebe dále než d. Naproti tomu ve jmenovateli jsou zahrnuty všechny páry xi a Xj bez ohledu na jejich vzdálenost. Z toho plyne, že jmenovatel bude vždy větší, maximálně však roven (při velkém d) čitateli. Čitatel výrazu pro G(d) statistiku, bude mít velkou hodnotu pokud sousední hodnoty budou velké a naopak. Vysoké hodnoty G(d) potom indikují prostorovou asociaci vysokých hodnot (hot spots) zkoumaného atributu, nízké G(d) potom prostorovou asociaci nízkých hodnot (cold spots).
Před výpočtem G(d) je nutné určit vzdálenost d, která definuje plochy, které budou považovány za sousedy plochy posuzované. Musí být vhodně zvolena tak, aby posuzovaná plocha měla alespoň jednoho souseda.
K interpretaci a k hodnocení statistické významnosti G(d) je nutné jako u výše uvedených indexů I a C vyčíslit očekávanou hodnotu G(d), tedy E(G) a následně standardizovanou hodnotu z-skóre a tedy i rozptyl hodnoty G(d). Očekávaná hodnota G(d) bude:
W
E(G) =
n(n -1)
Očekávaná hodnota statistiky odpovídá případu, kdy neexistuje žádná prostorová asociace. Např. je-li vypočtená hodnota G(d) větší než očekávaná, můžeme říci, že pozorované uspořádání vykazuje pozitivní prostorovou asociaci. Statistickou významnost tohoto tvrzení je opět nutné testovat výpočtem hodnoty rozptylu Var(G) (vzorec viz. Lee a Wong, 2000, s. 166) a následně z-skóre. Opět, hodnota z-skóre menší než 1,96 indikuje statisticky nevýznamný výsledek na hladině a=0,05.
Příklad 2: Jsou použita stejná vstupní data jako v případě I a C indexů. Výchozí matice vzdáleností centroidů (Obr. 7.12) je převedena na matici binární na základě zvolené vzdálenosti d (d=30 mil)-Obr. 7.13.
99
C1 distmatrÍK.dbr
~ r AsMabtái \
1 Geauga 0.0000. 25.1508! 2E.7057 32.7509 ■ 25.0389 2E.5899 i 12.62G5
Cuyahoga ] '251508!' .........abbooT' 478Í5Í' 3l"GÍ55 50 8064.' '28ľ22Í'4'
Trumbull ''''2lľ057Í' 478Í5ÍT (10000 ' 41.8561 24'Í759 29 5633[ ''''367535
Summit ''127509T' 294894'T' 4l"B5GÍ" 'o.doob. Í7803Í' 58 0869.' ''''427375''
Portage '''25"0389Í' 3lľ6155} 244759 ' 17.8031 ' aoooo 45c.::41
Ashtabula ''2G5899T' 508064!' 2ä5G33 ' 58.0869 : 45534Í' 'o 0000■ -2474go"
Lake ''TzEŽesľ 2a22ÍT!" 36 7535 ' 42.7375 ■ 3774962 _■ '.. .......aoooo"
«i""""""""""
Obr. 7.12 Výchozí matice vzdáleností centroidů
distmatriH.dbf
~ r rřň5ť/l7l? 1 Tntmbiá \ Summit I As/irdůtjfe I la** I
Geauga i 0.0000! 1 0000 1.0000! 0.0000 1.0000 1.0000! 1.0000! ±
Cuyahoga | 1.0000! 0 0000 0.0000! 1.0000! 0.0000 0 0000 1.0000!
Trumbull 1 0000 i 0 0000 i 0.0000! 0.0000 i 1.0000 1 0000 b.bboo! B
Summit 0 0000 i 1 0000! 0.0000! 0.0000! 1.0000 0 0000 o.bboo! I
Portage i 1 0000 0 0000 i 1.0000! 1.0000! 0.0000 o oooo ■ n nono | 1
Ashtabula 1 1 0000 .......b obob1 ........IboobT ........abWT' .........'^imo 0 OOOO': 1.0000!
Lake i 1 0000 ........abbbbl"' aboob'ľ b.boob *i'jooS'j o.booo! B
ru
Obr. 7.13 Matice sousedství vypočtená pro d=30 z matice na obr. 5.2
G-Statistics = 0.555756 The Expected G = 0.52381 The Variance of G = 0.00856308 Z-Value of G = 0.345226
Obr. 7.14 Výsledky výpočtu obecné G- statistiky pro vstupní data na obrázku 5.1 při použití matice vzdáleností
centroidů a hodnotě definující vzdálenost d=30 mil.
Vypočtená hodnota G(d) vykazuje mírnou úroveň prostorové asociace, podle hodnoty z-skóre však výsledek není statisticky významný. Jinými slovy - dané uspořádání průměrného příjmu v sedmi státech Ohia je spíše výsledkem náhody než určitého systematického procesu.
7.9.1 Lokální statistiky prostorové autokorelace
Všechny tři uvedené indexy jsou příkladem indexů globálních. Jsou sumární hodnotou prostorové autokorelace pro celou zpracovávanou oblast. Je však pravděpodobné, že hodnoty prostorové autokorelace se budou v různých sub-oblastech měnit. Navíc můžeme očekávat, že pozitivní autokorelaci lze nalézt v jednom sub-regionu a negativní v jiném. Proměnlivost prostorové autokorelace v rámci studované oblasti lze vyšetřovat výše uvedenými indexy modifikovanými pro detekování prostorové autokorelace v lokálním měřítku.
LISA (Local Indicators of Spatial Association)
Jedná se o lokální verze Moranova a Gearyho indexu. Ke zjištění úrovně prostorové autokorelace na lokální úrovni je nutné vypočítat hodnotu indexu pro každou plochu zpracovávaného území. Lokální Moranův index pro jednotku i je definován takto:
= Z Z WJZJ
i
kde Zi a Zj jsou odchylky od průměru nebo
100
(x, - x )
zi =-
G
kde o je směrodatná odchylka x. Podobně jako v případě globálního Moranova indexu znamenají vysoké hodnoty kumulaci podobných hodnot atributů (vysokých či nízkých) v sousedních plochách, nízké hodnoty potom kumulaci odlišných hodnot atributů. Obecně hodnoty wy mohou představovat po řadách standardizovanou matici vah, lze použít i jiných matic vah.
Zjištěné hodnoty lokálního Moranova indexu je nutné porovnat s očekávanými hodnotami a testovat statistickou významnost jejich rozdílu pomocí z-skóre.
Očekávané hodnoty při hypotéze náhodnosti:
E[I, ] = - wj(n -1)
a hodnota rozptylu:
Var [L ] = wf--tL^J. + ,wl (kh)±—----'—
Vl* '■ n -1 '(kh) (n - l)(n - 2) (n - V)2
kde
( Y
V J )
a výraz
2w,(kk)=ZZ wkw,h
Každá plocha ve zpracovávaném území má svoji I hodnotu a té přísluší hodnota očekávaná a také jistá hodnota rozptylu. Hodnoty I mohou být vynášeny do mapy v podobě kartogramu.
Lokální verze Gearyho poměru je definována následovně:
j
Hodnoty rozdělení lokálního Gearyho indexu nemají tak vhodné vlastnosti jako v případě indexu Moranova. Jejich interpretace je však obdobná jako v případě globální verze indexu. Shlukování podobných hodnot atributů vede k nízkým hodnotám tohoto indexu a naopak.
101
Lokální G-statistika
Měří asociaci hodnot atributů v ploše i a v plochách okolních definovaných vzdáleností d:
Z wu(d) xj
G, (d)
x j
pro i * j
Obdobně jako v předchozích případech je nutné interpretovat hodnotu indexu pomocí, očekávaných hodnot, hodnot rozptylu a standardizovaných skóre. Očekávané hodnoty se vypočtou následovně:
kde
Definice rozptylu:
E(Gl ) = WJ (n -1)
W =Z Wj (d)
Var (G,) = E(G2) -[E(G, )]2
E(G2) 1 \W>(n -1 - W)Zixj 1 W(W -1) (Z]x])2 [ (n - 1)(n -2) \ (n - 1)(n -2)
pro
Vysoká hodnota z-skóre je spojena s výskytem shluků podobných a vysokých hodnot indexu. Jestliže je shluk tvořen nízkými hodnotami, z-skóre bude nabývat velkých záporných hodnot. Hodnoty z-skóre kolem nuly indikují neexistenci zřejmého prostorového uspořádání hodnot atributů v plochách studovaného území.
Příklad 3: Pro data z příkladu 1 byly vypočteny hodnoty lokálního Moranova indexu I (pro každý stát). Jako matice vah byla použita matice stochastická (Obr. 7.15). Výsledky jsou prezentovány ve formě kartogramu na následujících obrázcích (Obr. 7.16 a Obr. 7.17).
í£í distmatriK.dbf ■ -|n
~ r Forfage Ashtahub \ Laks
■Geauqa 0 0000; 0.16S7 0.1667; 0.1667J 0.1667 0.1667] 0.1667
Cuyahoga .......b 2500;' ..... ' OOOOO'; a25bb'[ 072500 'o 0000'" 02500
Trumbull .......b .... ..... ' OOOOO'' abbbb]' □73333 '0 3333!" ooooo
Summit .......b .... i ' OOOOO'' o.ooooT 073333 'ooooo;" ooooo
Portage .......b 2500 ■' 0.2500 0 2500 ■ 0.2500 i 0.0000 'ooooo;" ooooo
Ashtabula .......b .... ..... 0 3333 ■ 0.0000 i 0.0000 'ooooo;" 03333
Lake .......b .... i 0 0000 ■ 0.0000 i 0.0000 '0 3333!" ooooo
ľn
Obr. 7.15 Stochastická matice vah k definování sousedství pro výpočet lokálního Moranova indexu I
a
102
Obr. 7.16 Kartogram hodnot lokálního Moranova indexu I
Obr. 7.17 Kartogram hodnot z-skóre pro lokální Moranův index I
Interpretace: Vysoké hodnoty indexu I mají ty státy, jejichž sousedé mají velmi podobné hodnoty studované charakteristiky. Podle z-skóre žádná z hodnot není statisticky významná a dané uspořádání průměrných příjmů v sedmi státech lze interpretovat jako náhodný proces.
Obdobným způsobem lze vizualizovat a hodnotit výsledky analýzy založené na lokálním indexu C a lokální G-statistice.
Moranovo korelační pole (Moran Scatterplot)
Lokální statistiky vystihují prostorovou heterogenitu v jednotlivých částech studovaného území. Pomocí nich je tedy možné jistým způsobem identifikovat oblasti s neobvyklými hodnotami měr prostorové autokorelace, které lze označit jako oblasti s odlehlými hodnotami (outliers). Efektivním nástrojem pro takovouto diagnostiku území je Moranovo korelační pole založené na regresním počtu.
Předpokládejme, že x značí vektor hodnot x* s odchylkami od průměru (xt - X) a dále W značí
po řádcích standardizovanou matici vah. Potom můžeme sestavit regresní závislost hodnot Wx na x. Směrnice této regresní závislosti indikuje vzájemný vztah sousedních hodnot atributů. Tedy
x = a + IWx
103
kde a značí vektor koeficientů - (intercept). Hodnota Ije regresní koeficient reprezentující směrnici a také hodnotou Moranova globálního indexu I. Vynesení regresní závislosti Wx na x umožňuje identifikovat odlehlé hodnoty. Pokud budou mít všechna pozorování podobné hodnoty prostorové autokorelace, v korelačním poli budou body blízko regresní čáry. Naopak pokud některá pozorování budou ukazovat lokálně výrazně vysoké či nízké hodnoty prostorové autokorelace ve vztahu k jejich sousedům, tato pozorování budou v grafu tvořit body výrazně nad či pod regresní čarou.
Regresní čára vyjadřuje obecný trend hodnot prostorové autokorelace v celém zpracovávaném území a parametr její směrnice je index I.
Příklad 4: Hodnota Moranova indexu (viz. Příklad 1) indikuje slabou negativní prostorovou autokorelaci (státy s vysokou hodnotou studovaného atributu jsou blízko států s nízkými hodnotami).
© chart 1
Moran ScatterPIot for MedhincSS R-square = 0 816821
0.8
0.6 *
0.4 ♦
0.2 Wx
* * ■ a = 0.261994, b =-0.305B48 |
0
-0.2
-0.4 1 5 -1 -0.5 0 0.5 1 1.5 2
Obr. 7.18 Výsledek regresní analýzy a Moranovo korelační pole (Moran Scatterplot) pro průměrný příjem sedmi států Ohia ( příklad 1). Parametr b představuje hodnotu Moranova indexu I
Z grafu je patrné že příjem (x) je nepřímo úměrný vážené hodnotě příjmu (Wx). Množinou bodů lze proložit přímku. Body, které se výrazně odchylují od přímky představují „outliers" -představují oblasti s výrazně odlišnými hodnotami prostorové autokorelace.
Interpelace s ohledem na polohu bodů v jednotlivých kvadrantech
• high-high,low-low (2. nebo 3. kvadrant) = spatial clusters
• high-low,low-high (1. nebo 4. kvadrant) = spatial outliers
104