1 GEOSTATISTIKA Petr Dobrovolný Základní pojmy V užším slova smyslu ­ skupina interpolačních algoritmů založených na metodě krigingu V širším slova smyslu ­ prostorová statistika Zahrnuje především: ˇ Statistický popis prostorově lokalizovaných dat (geografických objektů) ˇ Statistický popis atributů (popisná statistika, regresní a korelační analýza) ˇ Popis prostorového uspořádání objektů (bodů, linií, ploch) ˇ Metody konstrukce spojitých polí - interpolace ˇ Objektivní metody klasifikace jevů Základní literatura BORROUGH, P.A., McDONNELL, R.A (1988): Principles of Geographical Information Systems. Oxford University Press, Oxford, 333s. LEE, J., WONG, D.WS. (2001): Statistical Analysis with ArcView GIS, J. Willey & Sons, New York, 192 s. Statistický popis bodů Body představují nejčastější způsob prezentace geografických jevů. Body jsou zpravidla umísťovány v těžišti objektů. Těžiště se konstruuje např. v místě křížení nejdelší a nejkratší osy objektu (zpravidla plochy). U konvexních objektů se tak může těžiště dostat i mimo vlastní objekt. To, jaké geografické objekty lze popsat pomocí bodů (tedy stupeň abstrakce) závisí na měřítku, ale také na druhu analýzy (pro modelování optimálního spojení v síti sídel je vhodné je prezentovat centroidem, který tvoří uzel sítě). Popisná statistika bodových objektů 1. Charakteristiky polohy 2. Charakteristiky rozptylu Popisují distribuci bodů pomocí základních statistických charakteristik. Používají se ke srovnání více bodových vzorků nebo ke sledování jejich vývoje v čase. Charakteristiky polohy Charakteristiky polohy slouží k určování geografického středu či mediánu. Průměrný střed (mean centre) Průměrný střed leží na průměru souřadnic X a Y. Má stejné nevýhody jako aritmetický průměr ­ je to především citlivost na extrémní hodnoty. Například v případě shlukového uspořádání bodů průměrný střed dobře nereprezentuje množinu bodů. = == n y n x yx n i i n i i mcmc 11 ,),( 2 kde mcmc yx , jsou souřadnice průměrného středu, xi, yi jsou souřadnice bodu i a n je počet bodů. Vážený průměrný střed (weighted mean centre) Používá se v případě výskytu více událostí/objektů na stejném místě. Pak má každý bod váhu přímo úměrnou počtu událostí/objektů na tomto místě. Například při výpočtu prostorového průměru několika měst bude průměrný střed dávat realističtější představu o centrální tendenci jestliže ho budeme vážit počtem obyvatel jednotlivých měst (nebo ­ koncentrací znečišťující látky v jednotlivých místech či frekvencí výskytu určitého jevu ). = = = = = n i i n i ii n i i n i ii wmcwmc w yw w xw yx 1 1 1 1 ,),( kde wi jsou váhy jednotlivých bodů. Poznámky: Nástroje k uložení souřadnic x, y bodů do atributové tabulky: ˇ Field calculator, příkazy .GetX, .GetY ˇ Avenue script addxycoo.ave Agregovaný průměrný střed Je alternativou váženého středu, kdy se nepoužívají původní souřadnice X,Y ale jen souřadnice čtverců s agregovaným počtem bodů uvnitř čtverce: = == N yF N xF yx n i ii n i ii amcamc 11 ,),( N je celkový počet čtvercových buněk, obsahujících body Fi je frekvence bodů ve čtvercové buňce xi a yi jsou souřadnice čtvercových buněk i je od 1 do N. Mediánový střed (Median Center) Jedná se o analogii mediánu. Existuje však několik způsobů jeho definování: A. najdeme medián na ose X a Y a vedeme z nich linie kolmé na směr osy. Takto definovaný ,,medián ze souřadnic" ale nemusí odpovídat mediánu souboru bodů, protože distribuce nemusí být mezi kvadranty vyrovnaná. B. (UK) - Mediánový střed je střed, kterým se studovaná plocha dělí do čtyř kvadrantů, z nichž každý obsahuje stejný počet bodů. C. (US) - Mediánový střed jako střed vyžadující minimální (nejkratší) cestu. Tj. celková vzdálenost z mediánového středu do každého z bodů je minimální. Jinak řečeno ­ cesta z jakéhokoliv jiného místa do všech bodů oblasti bude delší než cesta z mediánového středu. Tuto podmínku lze vyjádřit vztahem: -+- 22 )()(min vyux ii kde xi a yi jsou souřadnice jednotlivých bodů a u, v jsou souřadnice mediánového středu. Analogickým způsobem lze definovat tzv. vážený mediánový střed: 3 -+- 22 )()(min vyuxf iii Váhy fi pro jednotlivé body mohou být negativní či pozitivní podle toho, zda daný bod přitahuje či naopak odpuzuje polohu mediánového středu. K odvození polohy mediánového středu lze využít iteračního počtu, založeného na následujících krocích: 1. Zjistíme polohu průměrného středu jako iniciační pro hledání polohy mediánového středu. Tedy ),(),( 00 mcmc yxvu = 2. V iteračním kroku t najdeme novou polohu mediánového středu podle vztahů: 2 1 2 1 2 1 2 1 )()( )()( -- -- -+- -+- = titii titiii t vyuxf vyuxxf u 2 1 2 1 2 1 2 1 )()( )()( -- -- -+- -+- = titii titiii t vyuxf vyuxyf v 3. Druhý krok opakujeme do té doby, dokud vzdálenost mezi dvěma posledními polohami mediánového středu (ut, vt) a (ut-1, vt-1) je menší než vzdálenost a priori definovaná jako prahová. Charakteristiky rozptylu Popisují distribuci hodnot kolem měr polohy Směrodatná vzdálenost (standard distance) Je mírou rozptylu hodnot v populaci kolem průměrného středu. Na rozdíl od směrodatné odchylky se udává v jednotkách vzdálenosti. Lze ji vyjádřit z následujícího vztahu: n yyxx SD n i n i mcimci = = -+- = 1 1 22 )()( Vážená směrodatná vzdálenost (weighted standard distance) Atributy jednotlivých bodů lze použít jako vah fi k vyjádření vážené směrodatné vzdálenosti: = = = -+- = n i i n i n i mciimcii f yyfxxf SD 1 1 1 22 )()( Směrodatná vzdálenost je nejčastěji používána ve formě kružnice kolem průměrného středu (Standard distance circle), jejíž poloměr je právě hodnota směrodatné vzdálenosti. Různé směrodatné vzdálenosti pro různý typ jevů lze zakreslovat do stejného území. Tyto kružnice nám dávají představu o rozptylu hodnot kolem střední hodnoty pro jednotlivé typy jevů. Mohou být použity i pro studium dynamiky jevů (- různé kružnice pro jeden jev v různých časových horizontech). V některých situacích může být interpretace různých hodnot směrodatné vzdálenosti zavádějící. Například směrodatná vzdálenost největších japonských měst vážená počtem jejich obyvatel je 3,277. Pro největší města Brazílie vychází vážená směrodatná vzdálenost 8,849. Porovnání obou veličin samotných indikuje, že daleko větší rozptyl prostorového uspořádání největších brazilských měst ve srovnání s Japonskem. Absolutní standardní vzdálenosti však mohou být zavádějící. 4 Vezmeme­li v úvahu rozdílnou velikost a tvar obou porovnávaných států, vyjde nám zcela opačný výsledek. Absolutní standardní vzdálenost můžeme poměřovat plochou obou porovnávaných států. Potom hodnoty SD pro Japonsko a Brazílii vycházejí 0,238 resp. 0,027. Obr. 1.1. Poloha váženého průměrného středu a kružnice směrodatné vzdálenosti pro pět měst ve státě Ohio. Jako váhy byl použit počte obyvatelstva Koeficient relativního rozptylu (coefficient of relative dispersion) Vypočte se jako poměr směrodatné vzdálenosti a poloměru kruhu se stejnou plochou jakou má studovaná oblast. Řeší výše uvedený problém použití absolutní míry směrodatné vzdálenosti. Je-li oblast různě velká (ohraničená), vznikají zavádějící hodnoty. K získání relativního míry při studiu variability obyvatelstva se někdy používá poloměr země nebo státu místo poloměru kruhu se stejnou plochou jakou má studovaná oblast. Koeficient relativního rozptylu vypočteme: R SD R SD A SD CRD k === 100100100 Směrodatná elipsa odchylek (Standard Deviational Ellipse) V mnoha případech může vykazovat prostorové rozdělení jevů určité rysy směrovosti (directional bias) - například rozdělení míst nejčastějších dopravních nehod podél dálnice, výskyt určitého druhu rostlin či živočichů kolem pobřeží atd. V tomto případě se použití kružnice jako míry rozptylu hodnot jeví jako nevhodné. Jako logické rozšíření směrodatné kružnice odchylek se může jevit použití směrodatné elipsy odchylek. Tuto elipsu popisují tři atributy: ˇ úhel rotace ˇ směrodatná odchylka podél hlavní osy elipsy ˇ směrodatná odchylka podél vedlejší osy elipsy Jestliže prostorové rozmístění bodů vykazuje jistou směrovost, potom maximální rozptyl bude orientován v souladu s hlavní osou elipsy. Kolmo k tomuto směru bude směr minimálního rozptylu hodnot. Úhel rotace elipsy je definován jako úhel mezi severním směrem a osou y ve směru pohybu hodinových ručiček (viz. obr. 1.2). 5 Obr. 1.2 Parametry směrodatné elipsy odchylek Jednotlivé kroky k odvození směrodatné elipsy odchylek: 1. Vypočteme souřadnice průměrného středu (xmc, ymc), které budou počátkem transformovaného systému souřadnic. 2. Pro každý bod budeme transformovat jeho souřadnice: mcii xxx -=' mcii yyy -=' Vypočteme úhel rotace transformovaného systému: = = === == = + -+ - = n i n i ii n i i n i i n i n i ii n i n i ii yx yxyxyx 1 1 '' 2 1 ' 1 ' 2 1 1 2'2' 1 1 2'2' 2 4 tan Úhel tan může být kladný či záporný. Je­li tangenta úhlu kladná, potom rotovaná y-osa je hlavní osa elipsy a úhel je odečítán od směru k severu kladně ve směru otáčení hodinových ručiček. Je-li tangenta negativní, znamená to, že rotace probíhá proti směru pohybu hodinových ručiček. Je-li tangenta pozitivní, můžeme vzít jednoduše inverzní hodnotu tan (arctan) pro zjištění hodnoty úhlu . Je-li tangenta záporná, vezmeme-li inverzní hodnotu tan dostaneme zápornou hodnotu úhlu (měřeno od severního směru proti směru pohybu hodinových ručiček. Avšak úhel rotace je definován jako úhel měřený po směru pohybu hodinových ručiček, proto úhel 90 stupňů musíme přidat k negativnímu úhlu abychom získali úhle . Získáme-li úhel , potom lze vyjádřit hodnoty odchylek podél x a y osy: n yx n i ii x = - = 1 2'' )sincos( n yx n i ii y = - = 1 2'' )cossin( K dalším jednoduchým kritériím popisu uspořádání bodů patří např.: ˇ hustota bodů v ploše (počet/plocha = n/R), ˇ charakteristiky založené na vzdálenosti mezi body či na relativních vzdálenostech jako je např. di/dmax. Při výpočtech v relativně malých oblastech používáme euklidovskou geometrii, protože se v nich neprojeví zakřivení Země.