MORAN a GEARY indexy pro hodnocení prostorové autokorelace plošných jevů Metoda Joint count statistics (JCS) má značná omezení z hlediska typu dat. Pro intervalová a poměrová data jsou stejně jak v případě jevů vztažených k bodům nejvyužívanějšími měrami prostorové autokorelace plošných jevů indexy Moranův (I) a Gearyho (C) Oba indexy mají některé společné charakteristiky, jejich statistické vlastnosti však jsou rozdílné. Vhodnější vlastnosti vzhledem k rozdělení hodnot má index I. Oba indexy jsou založeny na porovnávání hodnot atributů sousedních ploch. Mají-li tyto sousední plochy v celé studované oblasti podobné hodnoty, potom obě statistiky budou svědčit o silné pozitivní prostorové autokorelaci a naopak. Obě statistiky využívají odlišný přístup k porovnávání hodnot sousedních ploch. Moranův index I Index se vypočte podle následujícího vzorce: - -- = 2 )( ))(( xxW xxxxwn I i jiij kde xi je hodnota proměnné v ploše i wij jsou váhy, W matice vah Hodnota indexu kolísá od -1 pro negativní prostorovou autokorelaci do +1 pro pozitivní prostorovou autokorelaci. Očekávaná hodnota indexu je v případě nulové prostorové autokorelace je rovna )1( 1 - -= n EI Váhy se v případě tohoto indexu počítají z matic binární či stochastické (viz výše). Je-li použita binární matice, potom W ve jmenovateli je rovno dvojnásobku počtu hranic ve zpracovávané oblasti (2J). Pokud jsou plochy s indexem i a j sousedé bude v čitateli wij = 1, pokud nesousedí bude 0. Pokud sousedí, vyjádří se součin odchylek hodnot i a j od průměru. Tyto součiny se sumují pro všechny sousedy. Jestliže obě sousední hodnoty budou nadprůměrné (ale i podprůměrné) dostaneme velké kladné číslo. Obě tyto situace ukazují na pozitivní autokorelaci ­ tedy podobné hodnoty jsou vedle sebe (sousedí spolu). Naopak, pokud hodnota v jedné ploše bude nadprůměrná a ve druhé podprůměrná ­ potom to indikuje negativní autokorelaci. Budou-li ve zpracovávané oblasti převažovat sousedé s obdobnými hodnotami, Moranův index I bude kladný. Čitatel obsahuje výraz pro kovarianci (xi- x )(xj- x ), která je také základem pro definování Pearsonova korelačního koeficientu r. Na rozdíl od korelačního koeficientu, kovariance v případě Moran's I je kovariancí dvou ploch v prostoru a ve výše uvedeném vztahu pro I je vypočtena pouze pro případy, kdy plochy spolu sousedí. Jmenovatel vzorce je suma čtverců odchylek vážená maticí sousedství W. Interpretace Moran's I: Vypočteme hodnoty I a E(I) a následně musíme zjistit, zda rozdíl mezi nimi je statisticky významný. Tento rozdíl je opět nutné vztáhnout k míře rozptylu (např. směrodatné chybě - SE - viz. výklad k bodům) a pomocí ní odvodit standardizovanou hodnotu z-skóre Odhady rozptylu resp. směrodatné chyby se budou lišit podle způsobu, jakým mohou být hodnoty vyšetřovaného atributu přeřazeny k jednotlivým plochám (,,sampling assumption"). 33 Za předpokladu normality jsou hodnoty atributu xi nezávislé a pocházejí ze základního souboru s normálním rozdělením, nejsou nijak omezeny daným prostorovým uspořádáním ve studované oblasti. Z tohoto předpokladu se rozptyl vypočte: )1()( )(3 )( 22 2 21 2 2 - +- = nW WnSSn I Za předpokladu náhodnosti je množina hodnot fixní. Konstantní není poloha spojená s určitou hodnotou atributu. Jinými slovy ­ existuje mnoho způsobů, jak je v prostoru rozmístěna daná množina hodnot. Naše rozmístění je jen jedno z možných. Určení hodnoty rozptylu: [ ] ( ) [ ] ( )( )( )( )2 2 2122 4 2 21 2 2 321 62 ])(1[ 1 3)33( )( Wnnn WnSS xxn xxn WnSSnnn I i i --- +- - - -+-+- = Získáme-li hodnotu rozptylu, potom můžeme vyčíslit standardizovanou hodnot Zn(I) )( )( 2 I IEI Zn - = Pokud je hodnota Zn(I) menší (resp. větší) než -1,96 (resp. 1,96) je hodnota indexu I statisticky významně negativní (resp. pozitivní) na hladině významnosti =0,05. Gearyho poměr C (Geary's Ratio, C index) Tento index je definován obdobně: - -- = 2 2 )(2 )()1( xxW xxwn C i jiij Pro výpočet indexu se jako vah využívá jedné z výše uvedených typů matic prostorových vah, nejčastěji matice binární či stochastické. Ve srovnání se vzorcem pro výpočet Moranova indexu je zřejmé, že Gearyho index se liší především v čitateli výrazu. Moranův index porovnává hodnoty atributů sousedních ploch prostřednictvím odchylek od průměru, naproti tomu Gearyho index porovnává hodnoty atributů přímo mezi sebou. Pro hodnotu indexu není rozhodující, která z hodnot xi a xj je větší či menší, ale jaký je jejich absolutní rozdíl ­ jejich nepodobnost (ve výrazu je druhá mocnina jejich rozdílu). Gearyho index nabývá hodnot v intervalu 0 až 2. Hodnota nula indikuje dokonalou pozitivní autokorelaci (všechny sousední hodnoty atributů jsou stejné). Naopak hodnota 2 indikuje dokonalou negativní prostorovou autokorelaci. Na rozdíl od Moranova indexu, očekávaná hodnota Gearyho indexu nezávisí na počtu posuzovaných ploch n, ale má vždy hodnotu 1. Hodnota 1 znamená žádnou prostorovou autokorelaci. Vypočtené hodnoty indexu C lze porovnat s hodnotou jedna (očekávanou), pro prokázání statisticky významného rozdílu je však stejně jako v předchozích případech nutné vypočítat hodnotu z-skóre. Nejprve je nutné vypočítat rozptyl hodnoty indexu C. Hodnota rozptylu se opět vypočte rozdílně v závislosti na předpokladu normality či náhodnosti. Například za předpokladu normality: 2 2 212 )1(2 4)1)(2( )( Wn WnSS c + --+ = 34 Za předpokladu náhodnosti: (vzorec viz. Lee a Wong, 2000, s. 162) Hodnoty Z-skóre jsou založené na rozdílu pozorovaných a očekávaných hodnot. Jestliže hodnota indexu 0 značí perfektní pozitivní prostorovou autokorelaci a 1 nulovou, potom negativní hodnota z-skóre značí pozitivní prostorovou autokorelaci a kladná hodnota z-skóre značí autokorelaci negativní. Obr. 5.1 Vstupní data a výsledky prostorové autokorelace (I a C indexy) pro průměrný příjem sedmi států v Ohiu. Příklad 1: Na obrázku 5.1 je kartogram průměrného příjmu pro sedm států Ohia. Z hodnot vypočtených indexů vyplývá, že hodnota Moranova indexu indikuje negativní prostorovou autokorelaci (státy s vysokou hodnotou studovaného atributu jsou blízko států s nízkými hodnotami). Tato tendence však není statisticky významná na hladině 5 %. Naopak podle vypočtených hodnot Gearyho indexu existuje statisticky významná negativní prostorová autokorelace v hodnotách průměrného příjmu u sedmi studovaných států celého regionu. Obecná G-statistika Oba výše uvedené indexy I a C mají dobře definované statistické vlastnosti, které popisují prostorovou autokorelaci globálně (jednou hodnotou pro celou zpracovávanou oblast). Nejsou však efektivní k identifikaci rozdílných shluků prostorového uspořádání uvnitř oblasti. Oba indexy jsou sice citlivé k identifikaci oblastí s podobnými hodnotami atributů, nerozlišují však, zda tyto podobné hodnoty nabývají vysokých či nízkých hodnot. Shluky ploch (též. místa prostorové koncentrace - spatial concentration.) vysokých hodnot vyšetřovaného atributu ve studované oblasti se označují jako ,,hot spots", naopak místa se shluky nízkých hodnot jako ,,cold spots". Odlišit oby typy shluků lze pomocí tzv. obecné G-statistiky (general G-statistics). Stejně jako v případě Moranova a Gearyho indexu je i G-statistika založena na míře prostorové asociace ­ obecně statistiky dávají v čitateli výrazu do vztahu hodnoty atributu v ploše (bodě, místě) i a j. Obecná G-statistika je definována takto: = ji jiij xx xxdw dG )( )( pro i různá od j. G-statistika je definována vzdáleností d mezi plochou i a plochami sousedními. Váha wij(d) má hodnotu 1, jestliže se plocha j nachází ve vzdálenosti menší či rovné d od plochy i, jinak má váha hodnotu 0. Matice vah je tedy maticí binární a 35 symetrickou, vztahy sousedství jsou však definovány vzdáleností d. Suma těchto vah matice se rovná: = i j ij dwW )( pro i různá od j. V důsledku takovéhoto definování vah, páry xi a xj nebudou zahrnuty v čitateli, pokud i a j jsou od sebe dále než d. Naproti tomu ve jmenovateli jsou zahrnuty všechny páry xi a xj bez ohledu na jejich vzdálenost. Z toho plyne, že jmenovatel bude vždy větší, maximálně však roven (při velkém d) čitateli. Čitatel výrazu ovlivňuje hodnotu G(d) statistiky, bude mít velkou hodnotu pokud sousední hodnoty budou velké a naopak. Vysoké hodnoty G(d) potom indikují prostorovou asociaci vysokých hodnot (hot spots) zkoumaného atributu, nízké G(d) potom prostorovou asociaci nízkých hodnot (cold spots). Před výpočtem G(d) je nutné určit vzdálenost d, která definuje plochy, které budou považovány za sousedy plochy posuzované. Musí být vhodně zvolena tak, aby posuzovaná plocha měla alespoň jednoho souseda. K interpretaci G(d) je nutné vyčíslit očekávanou hodnotu G(d), tedy E(G) a následně standardizovanou hodnotu z-skóre a tedy i rozptyl hodnoty G(d). Očekávaná hodnota G(d) bude: )1( )( - = nn W GE Očekávaná hodnota statistiky odpovídá případu, kdy neexistuje žádná prostorová asociace. Např. je-li vypočtená hodnota G(d) větší než očekávaná, můžeme říci, že pozorované uspořádání vykazuje pozitivní prostorovou asociaci. Statistickou významnost tohoto tvrzení je opět nutné testovat výpočtem hodnoty rozptylu Var(G) (vzorec viz. Lee a Wong, 2000, s. 166) a následně Z-skóre. Opět, hodnota z-skóre menší než 1,96 indikuje statisticky nevýznamný výsledek na hladině =0,05. Příklad 2: Jsou použita stejná vstupní data jako v případě I a C indexů. Výchozí matice vzdáleností centroidů (obr. 5.2) je převedena na matici binární na základě zvolené vzdálenosti d (d=30 mil)- obr. 5.3 Obr. 5.2 Výchozí matice vzdáleností centroidů Obr. 5.3 Matice sousedství vypočtená pro d=30 z matice na obr. 5.2 36 Obr. 5.4 Výsledky výpočtu obecné G- statistiky pro vstupní data na obrázku 5.1 při použití matice vzdáleností centroidů a hodnotě definující vzdálenost d=30 mil. Vypočtená hodnota G(d) vykazuje mírnou úroveň prostorové asociace, podle hodnoty z-skóre však výsledek není statisticky významný. Jinými slovy ­ dané uspořádání průměrného příjmu v sedmi státech Ohia je spíše výsledkem náhody než určitého systematického procesu. Lokální statistiky prostorové autokorelace Všechny tři uvedené indexy jsou příkladem indexů globálních. Jsou sumární hodnotou prostorové autokorelace pro celou zpracovávanou oblast. Je však pravděpodobné, že hodnoty prostorové autokorelace se budou v různých sub-oblastech měnit. Navíc můžeme očekávat, že pozitivní autokorelaci lze nalézt v jednom sub-regionu a negativní v jiném. Tedy prostorová heterogenita na místo prostorové homogenity. Heterogenitu prostorové autokorelace lze vyšetřovat výše uvedenými indexy modifikovanými pro detekování prostorové autokorelace v lokálním měřítku. LISA (Local Indicators of Spatial Association) Jedná se o lokální verze Moranova a Gearyho indexu. Ke zjištění úrovně prostorové autokorelace na lokální úrovni je nutné vypočítat hodnotu indexu pro každou plochu zpracovávaného území. Lokální Moranův index pro jednotku i je definován takto: = i jijii zwzI kde zi a zj jsou odchylky od průměru nebo )( xx z i i - = kde je směrodatná odchylka xi. Podobně jako v případě globálního Moranova indexu znamenají vysoké hodnoty kumulaci podobných hodnot atributů (vysokých či nízkých) v sousedních plochách, nízké hodnoty potom kumulaci odlišných hodnot atributů. Obecně hodnoty wij mohou představovat po řadách standardizovanou matici vah, lze použít i jiných matic vah. Zjištěné hodnoty lokálního Moranova indexu je nutné porovnat s očekávanými hodnotami a testovat statistickou významnost jejich rozdílu pomocí z-skóre. Očekávané hodnoty při hypotéze náhodnosti: [ ] )1(. --= nwIE ii a hodnota rozptylu: [ ] 2 2 . 2 24 )( 2 242 . )1()2)(1( )2 2 1 ( - - -- - + - - = n w nn nmm w n mmn wIVar i khiii kde 2 2 . = j iji ww 37 = j iji ww 2)2( . pro ji a výraz = ik ih ihikkhi www )(2 Každá plocha ve zpracovávaném území má svoji I hodnotu a té přísluší hodnota očekávaná a také jistá hodnota rozptylu. Hodnoty I mohou být vynášeny do mapy v podobě kartogramu. Lokální verze Gearyho poměru je definována následovně: -= j jiiji zzwc 2 )( Hodnoty rozdělení lokálního Gearyho indexu nemají tak vhodné vlastnosti jako v případě indexu Moranova. Jejich interpretace je však obdobná jako v případě globální verze indexu. Shlukování podobných hodnot atributů vede k nízkým hodnotám tohoto indexu a naopak. Lokální G-statistika Měří asociaci hodnot atributů v ploše i a v plochách okolních definovaných vzdáleností d: = j j jij i x xdw dG )( )( pro ji Obdobně jako v předchozích případech je nutné interpretovat hodnotu indexu pomocí, očekávaných hodnot, hodnot rozptylu a standardizovaných skóre. Očekávané hodnoty se vypočtou následovně: )1()( -= nWGE ii kde = j iji dwW )( Definice rozptylu: [ ]22 )()()( iii GEGEGVar -= a )2)(1( )1( )2)(1( )1( )( 1 )( 2 2 2 -- - + -- -- = nn WW nn xWnW x GE iij jii j j i pro ji Vysoká hodnota z-skóre je spojena s výskytem shluků podobných a vysokých hodnot indexu. Jestliže je shluk tvořen nízkými hodnotami, z-skóre bude nabývat velkých záporných hodnot. Hodnoty z-skóre kolem nuly indikují neexistenci zřejmého prostorového uspořádání hodnot atributů v plochách studovaného území. Příklad 3: Pro data z příkladu 1 byly vypočteny hodnoty lokálního Moranova indexu I (pro každý stát). Jako matice vah byla použita matice stochastická (obr. 5.5). Výsledky jsou prezentovány ve formě kartogramu na obr. 5.6 a 5.7. 38 Obr. 5.5 Stochastická matice vah k definování sousedství pro výpočet lokálního Moranova indexu I Obr. 5.6 Kartogram hodnot lokálního Moranova indexu I Obr. 5.7 Kartogram hodnot z-skóre pro lokální Moranův index I Interpretace: Vysoké hodnoty indexu I mají ty státy, jejichž sousedé mají velmi podobné hodnoty studované charakteristiky. Podle z-skóre žádná z hodnot není statisticky významná a dané uspořádání průměrných příjmů v sedmi státech lze interpretovat jako náhodný proces. Obdobným způsobem lze vizualizovat a hodnotit výsledky analýzy založené na lokálním indexu C a lokální G-statistice. Moranovo korelační pole (Moran Scatterplot) Lokální statistiky vystihují prostorovou heterogenitu v jednotlivých částech studovaného území. Pomocí nich je tedy možné jistým způsobem identifikovat oblasti s neobvyklými hodnotami měr prostorové autokorelace, které lze označit jako oblasti s odlehlými hodnotami (outliers). Efektivním nástrojem pro takovouto diagnostiku území je Moranovo korelační pole založené na regresním počtu. 39 Předpokládejme, že x značí vektor hodnot xi vyjádřených v odchylkách od průměru )( xxi - a dále W značí po řádcích standardizovanou matici vah. Potom můžeme sestavit regresní závislost hodnot Wx na x. Směrnice této regresní závislosti indikuje vzájemný vztah sousedních hodnot atributů. Tedy IWxax += kde a značí vektor koeficientů - (intercept). Hodnota I je regresní koeficient reprezentující směrnici a také hodnotou Moranova globálního indexu I. Vynesení regresní závislosti Wx na x umožňuje identifikovat odlehlé hodnoty. Pokud budou mít všechna pozorování podobné hodnoty prostorové autokorelace, v korelačním poli budou body blízko regresní čáry. Naopak pokud některá pozorování budou ukazovat lokálně výrazně vysoké či nízké hodnoty prostorové autokorelace ve vztahu k jejich sousedům, tato pozorování budou v grafu tvořit body výrazně nad či pod regresní čarou. Regresní čára vyjadřuje obecný trend hodnot prostorové autokorelace v celém zpracovávaném území a parametr její směrnice je index I. Příklad 4: Hodnota Moranova indexu (viz. Příklad 1) indikuje slabou negativní prostorovou autokorelaci (státy s vysokou hodnotou studovaného atributu jsou blízko států s nízkými hodnotami). Obr. 5.8 Výsledek regresní analýzy a Moranovo korelační pole (Moran Scatterplot) pro průměrný příjem sedmi států Ohia ( příklad 1). Parametr b představuje hodnotu Moranova indexu I Z grafu je patrné že příjem (x) je nepřímo úměrný vážené hodnotě příjmu (Wx). Množinou bodů lze proložit přímku. Body, které se výrazně odchylují od přímky představují ,,outliers" ­ představují oblasti s výrazně odlišnými hodnotami prostorové autokorelace. 40