Ordinačné metódy Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Úvod ♦ Mnohorozmerné metody: názov „mnohorozmerné" - dáta sú tvorené objektami (vzorky, lokality), každý z nich je charakterizovaný viacerými parametrami (druhmi) každý z týchto parametrov môžme považovať za jeden rozmer objektu (vzorky) DATOVÁ MATICA CM CO vzorka 1 vzorka 2 vzorka 3 vzorka 4 vzorka 5 vzorka 6 Hodnoty pre druhy (presencia/absencia; abundancia; dominancia) pre každú vzorku [ Ordinácia a zhluková analýza sú jediné možné techniky, ktoré môžeme použiť bez nameraných charakteristík prostredia. ♦ Klasifikuje vzorky (lokality), druhy alebo premenné ♦ Nachádza skupiny v dátach 0.8 -J 0.7 J I , '--------1 Q.e-l i----------1----------1 _____I_____ 0.5 J °"41 I I I I 0.3 J 0.2 J O.l J o ^- cm co ^r r^cDio o) o t- cnco^- G) G) G) G) G) G) G) G) O) O O OOO G) G) G) G) G) G) G) G) 0)00 OOO ♦ Usporadúva objekty pozdĺž trendu v dátach 02 D3 ALOAFF DISROS LEYLEY i MACHIR . G3 DIAORG 12 BOSCÖR ILYSOR G2 UACLAtPLEU BOSOMS ALOQUA DAPGAL DAPCUC B2 D1 SIDCRY ALOREC B3 EURLŮ.M DAPLONG1 GRATEST PSEGLO J3 PLEDEN PLELAE BI PLETRU PLEADUS|MSERRS)MVET BOSLON ALOGLTTT ALOľiAN CHYDSPH SCAMuc Kii SIMCON CERMEG „,_„„,„. CERRET M01BRA CERPULL DIABRA S3 S1 S2 K3 ALOEXS K1 11 Úvod Objekty charakterizované p parametrami je možné si predstaviť ako body v p rozmernom priestore, kde každý z rozmerov predstavuje hodnoty jedného parametra. V prípade spoločenstiev sú objektami vzorky a parametrami druhy, prípadne charakteristiky prostredia. Keď pracujeme len s dvoma alebo troma parametrami, je možné bez problémov sledovať v dvoj- alebo trojrozmernom grafe vzťahy medzi objektami, ich vzdialenosť a zoskupenie. Pri väčšom počte parametrov je nutné redukovať ich počet s čo najmenšou stratou informácie. Ordinačné metódy ■*= «& Ordinačné metódy v ekológii environment o n .5 "Z > c o E c 2 > c 0 1 23 sites o plants i animals 1 23 sites Direct gradient m analySIS Sumanzmg Indirect gradient analysis by ordination ordination diagram ♦ zoradí objekty pozdĺž environmentálneho gradientu ♦ cieľom ordinácie je sformulovať hypotézy o vzťahu medzi druhovým zložením spoločenstva na lokalitách a základnými environmentálnymi faktormi ♦ Ordinačné metódy nepredpokladajú žiadne apriórne zoskupenie objektov. ♦ Ordinačné metódy patria medzi metódy, ktoré sa pužívajú hlavne k tvorbe hypotéz. Ordinačné metódy: terminológia ŕ— sites 1 23..................... i..........n ^ 1 o 2 o o ■ Q. (/) k m species data ^ i ♦ Primárne dáta: vzorky, objekty {samples, sites) Každá vzorka zahŕňa hodnoty pre viac druhov (species) alebo tzv. charakteristík prostredia (environmental variables, variables). ......................i r i Vysvetľované premenné j (response) j druhové dáta (species data) ! akékoľvek premenné, kt. \ hodnoty chceme predpovedať; r j Vysvetľujúce premenné Charakteristiky prostredia | (explanatory) * (environmental variables, variables) v Kovariáty ! ^^ (covariates, covariables) ; ich vplyv chceme oddeliť Napr. druhové zloženie spoločenstva ♦ je možné určovať presným kvantitatívnym spôsobom (počet jedincov jednotlivých druhov; percentická pokryvnosť; odhad biomasy) ♦ prípadne podľa semikvantitatívnej stupnice (Braun-Blanquetová stupnica) ♦ alebo len kvalitatívnym spôsobom (prítomnosť či neprítomnosť) Ordinačné metódy: typy dát Vysvetľujúce premenné, prediktory sites o n .5 "Z > *j c o E c o ■> c o 1 23 Môžu byť použité k predpovedaniu hodnôt vysvetľovaných premenných Charakteristiky prostredia, príp. kovariáty ♦ kvantitatívne premenné ♦ semikvantitatívne premenné ♦ faktoriálne (kategoriálne) premenné - prekódovanie do 0,1 vzorka Geo ♦ faktoriálne (kategoriálne) - v Canoco prekódovať do tzv. indikátorových premenných (dummy variables) Vz1 žula Vz2 žula Vz3 čadič Vz4 rula cL Kovariáty (covaríabíes, covariates): ak určitá vysvetľujúca premenná má vplyv na druhové dáta, ale pre nás je nezaujíma, môžem jej vplyv odpočítať => jej vplyv neinterpretujeme, chceme ho vziať do úvahy pri hodnotení vplyvu iných premenných Ordinačné metódy: typy dát Čo s chýbajúcimi dátami: ♦ Vzorky, v ktorých hodnoty chýbajú, môžeme vypustiť. Výhodné vtedy, ak sú chýbajúce dáta len v niekoľko málo vzorkách (case-wise deletion). ♦ Premenné, v ktorých hodnoty chýbajú, môžeme vypustiť, ak ich nie je veľa. ♦ Doplnenie chýbajúcich údajov: doplnenie priemeru zo vzoriek, kde sú hodnoty k dispozícii dopočítanie chýbajúcich hodnôt na základe mnohonásobného regresného modelu (takto ale prichádzame o stupne voľnosti) možnosť vzorkám s doplnenými hodnotami priradiť nižšiu váhu Typy štatistických modelov Nasledujúca tabuľka zhŕňa najdôležitejšie štatistické metódy používané v rôznych situáciách: Vysvetľovaná | premenná ... Prediktor(y) nemáme máme | ...je jedna ♦ zhrnutie distribučných vlastností ♦ regresný model s.l. ...je ich viac ♦ nepriama gradientova analýza (indirect gradient analysis - PCA, DCA, NMDS) ♦ zhluková analýza ♦ priama gradientova analýza ♦ obmedzená zhluková analýza ♦ diskriminačná analýza (discriminant analysis - CVA) Ordinačné metódy, gradientova analýza ♦ Výraz gradientova analýza je tu používaný v širšom slova zmysle pre akúkoľvek metódu, ktorá sa pokúša dať do vzťahu druhovú skladbu a gradienty prostredia (merené alebo hypotetické). ♦ Cieľom gradientovej analýzy je nájsť smery najväčšej variability v zložení spoločenstva a ich závislosť na určujúcich premenných prostredia. ♦ Zaoberá sa vzťahom zloženia spoločenstva k (známym alebo neznámym) gradientom prostredia. Nepriama gradientova analýza (indirect gradient analysis) Osi variability v druhovom zložení (môžu byť a mali by byť potom vztiahnuté k nameraným charakteristikám prostredia, keď sú tieto k dispozícii) Priama gradientova analýza (direct gradient analysis) ♦ Variabilita v druhovom zložení vysvetlená charakteristikami prostredia. Modely odpovede druhov na gradienty prostredia Dva typy modelu odpovede druhu na gradienty prostredia lineárny (linear) - najjednoduchší odhad (na krátkom gradiente dobre funguje lineárna aproximácia akejkoľvek funkcie) unimodálny (unimodal) - predpokladá, že druh má na gradientu prostredia svoje optimum (na dlhom gradiente je aproximácia lineárnou funkciou veľmi nevhodná) Lineárna aproximácia unimodálnej odpovede na krátkom výseku gradientu Lineárna aproximácia unimodálnej odpovede na dlhej časti gradientu Základné techniky ordinačných metód Indirect gradient analysis ♦ vytvorí teoretickú premennú (gradient) ktorá najlepšie charakterizuje druhové dáta na základe lineárneho alebo unimodálneho modelu (závisí od dĺžky gradientu) linear model unimodal model non-metric ordination Principal component analysis (PCA) Principal coordinate analysis (PCoA) Correspondence analysis (CA) Dentrended correspondence analysis (DCA) Multidimensional scaling (NMDS) Redundancy analysis (RDA) Canonical correlation analysis Direct gradient analysis linear model ♦ gradient je lineárnou Canonical correspondence analysis (CCA) kombináciou konkrétnych environmentálnych unimodal model premenných Ordinačné diagramy Výsledky ordinácií se obvykle prezentujú ako ordinačné diagramy. Lineárny model Unimodálny model vzorky ♦ znázornené bodmi (symbolmi) druhy ♦ šípky v smere rastu abundancií ♦ body (symboly) označujúce optimum druhu Charakteristiky prostredia kvantitatívne ♦ šípky v smere rastu hodnôt charakteristiky prostredia kvalitatívne ♦ centroidy pre jednotlivé kategórie Príklady ordinačných diagramov PCA RDA í I C 4 o 0 C Ha > PVUjÉ&tPůo -«« ** * ĽUif L/ -0.2 ♦ů.i « * .ÍLICCtIBOflll igt i : Q Q «j. f ft 0,"* íe. der . :. :^Qs^«irtf 0 ** m T o.: *fl.« CA CCA o 3trt*m l ._■ «á ^ i ;'--f--; 54rťC«»ll4nil-Bgf SlSpfl Úprava dát do ordinačných metód Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Transformácia druhových dát Logaritmická transformácia y=\og(A*y + C) Čísla A a C volíme tak, aby bol výsledok vždy väčší alebo rovný 1. Default hodnoty A a C sú rovné 1 (nulové hodnoty mení na 0, ostatné sú kladné). Hodí sa výborne napr. na percentuálne dáta na stupnici 0-100. Transformácia na ordinálnu škálu Dáta o zložení rastlinného spoločenstva odhadované často na sem i kvantitatívnej Braun-Blanquetovej stupnici so siedmimi stupňami (r, +, 1, 2, 3, 4, 5). Takáto stupnica býva kvantifikovaná odpovedajúcimi poradovými hodnotami (od 1 do 7). Je možné nahradiť stupne stredom intervalu pokryvnosti: r 0.1 + 0.5 1 3 2 15 3 37.5 4 62.5 5 87.5 Transformácia druhových dát Odmocninová transformácia f — Táto transformácia môže byť vhodným riešením pre dáta y — \j y vyjadrujúce počty (počet jedincov apod.). Na tieto dáta však môžeme použiť aj logaritmickú transformáciu. Iné transformácie Ak potrebujeme iný typ transformácie, ktorý Canoco neponúka, môžeme ju previesť v tabuľkovom procesore a transformované dáta do Canoca vyexportovat'. ♦ Je to užitočné, ak naše „druhové" dáta nepopisujú zloženie spoločenstva, ale niečo jako chemické či fyzikálne vlastnosti pôdy. V takom prípade mávajú premenné rôzne jednotky a pre každú z nich môže byť vhodná iná transformácia. Transformácia vysvetľujúcich premenných Transformácia vysvetľujúcich premenných ♦ U vysvetľujúcich premenných (charakteristík prostredia a kovariat) sa predpokladá, že nemajú jednotnú stupnicu a že pre každú z nich musíme voliť vhodnú transformáciu (vrátane častej voľby - netransformovať). ♦ Canoco ale taký postup neumožňuje, takže prípadnú transformáciu vysvetľujúcich premenných musíme previesť pred ich exportom do súboru v Canoco formáte. ♦ V každom prípade však Canoco potom, čo charakteristiky prostredia a / alebo kovariáty načíta, ich štandardizuje, čiže majú nulový priemer a jednotkový rozptyl. Nepriame ordinačné metódy Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Nepriame ordinačné metódy Problém nepriamej ordinácie môžeme formulovať niekoľkými spôsobmi: Nájdi také rozloženie vzoriek v ordinačnom priestore, kde vzdialenosť vzorky v ordinačnom priestore odpovedá najlepšie rozdielom v druhovom zložení. Toto explicitne robí nemetrické (ale aj metrické) mnohorozmerné škálovanie (non-metric multidimensional scaling, NMDS). Nájdi teoretické (latentné) premenné (= ordinačné osi), pre ktoré je celková závislosť všetkých druhov najtesnejšia. Tento model vyžaduje, aby bol typ odpovedí druhov na premenné explicitne špecifikovaný: lineárna odpoveď pre lineárne metódy, unimodálna odpoveď pre metódy založené na vážených priemeroch. V lineárnych metódach je skóre vzorky lineárnou kombináciou (váženým súčtom) skóre druhov. V metódach váženého priemeru sa skóre vzorky vypočíta váženým priemerom druhových skóre (po určitých úpravách). Keď si predstavíme vzorky ako body v mnohorozmernom priestore, kde sú druhy osami a pozícia každej vzorky odpovedá početnosti príslušného druhu. Potom je cieľom ordinácie nájsť také premietnutie tohto mnohorozmerného priestoru do priestoru s menším počtom dimenzií, ktoré spôsobí minimálne skreslenie priestorových väzieb. Výsledok závisí na tom, ako definujeme „minimálne skreslenie". druh 2 druh 3 druh 1 \ O lokalita Základné techniky ordinačných metód Indirect gradient analysis ♦ vytvorí teoretickú premennú (gradient) ktorá najlepšie charakterizuje druhové dáta na základe lineárneho alebo unimodálneho modelu (závisí od dĺžky gradientu) linear model unimodal model non-metric ordination Principal component analysis (PCA) Principal coordinate analysis (PCoA) Correspondence analysis (CA) Dentrended correspondence analysis (DCA) Multidimensional scaling (NMDS) Voľba modelu: meranie dĺžky gradientu Aby sme mohli zvoliť medzi lineárnym a unimodálnym modelom, musíme odmeriať dĺžku gradientu. , Spravíme skúšobný projekt - nastavíme detrendovanú korešpondenčnú analýzu (DCA), prípadne jej kanonickú formu (DCCA). Použijeme metódu odstránenia trendu po segmentoch (čo v sebe zahŕňa tiež Hillovo škálovanie ordinačných skóre) . Zvolíme aj ostatné nastavenia rovnaké ako v záverečných analýzach . Spustíme analýzu . V okne Log view prezrieme výsledky - na konci výpisu je súhrnná tabuľka (Summary table), v nej riadok začínajúci slovami „Lengths of gradient" Lengths of gradient : 2.990 1.324 .812 .681 unimodálny model ak dĺžka najdlhšieho gradientu > 4 lineárny model ak dĺžka najdlhšieho gradientu < 3 (nie je to však nutnosť použiť lineárny model) Analýza hlavných komponent (PCA) Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Analýza hlavných komponent (PCA) Vstupní data ♦ Spojité nebo dummy proměnné popisující jednotlivé objekty Výstupy analýzy ♦ Vztahy všech původních faktoru v jednoduchém xy grafu ♦ Pozice objektů v prostom -jednoduchá identifikace segmentů a vlivů faktorů na různé skupiny Kritické problémy analýzy ♦ Odlehlé hodnoty ♦ Zcela nezávislé proměnné - není zde žádná duplicitní informace k vysvětlení Analýza hlavných komponent (PCA) Nahrádza pôvodný súbor pozorovaných parametrov (druhová matica) súborom nových (hypotetických), vzájomne nekorelovaných premenných tak, že prvá nová os (prvá hlavná komponenta, PC1, prvý nový parameter) je vedená v smere najväčšej variability medzi objektami, druhá os (druhá hlavná komponenta, PC2, druhý nový parameter) je vedená v smere najväčšej variability, ktorý je kolmý na smer prvej komponenty, atď. Je založená na vlastnej analýze (eigenanalysis) symetrických matíc (korelačnej, kovariančnej) PCA2 *2 30 \ ' * \ S * PCA1 20 i" ™> ^*mi ^ P* m"m"mi P* ™ »™ ■ ™ »™ jEm^ "" ™ jAt^^^ _^^P*^t ^ttt P* P* ^ ^ P» P» ^ ^ P» AT ^ ^ ^ ^ ™P*p™^™p™P*^™ P™P™^ *^ V 1 ^^^^^* ♦ í \ 10 * í \ i \ ___________________1___________________1__________________1_________________1__________________L 0 10 20 30 40 50 Analýza hlavných komponent (PCA) Princíp ♦ Premenné sú navzájom korelované, teda časť informácie v súbore je duplicitná ♦ Analýza odstráni duplicitu z dát a zobrazí len unikátnu informáciu Faktorové d>sy +-* v 1. faktorová os vyčerpá najviac celkovej variability x x Analýza hlavných komponent (PCA) Cieľ PCA: určenie uhlov medzi pôvodnými a novými osami súradnicovej sústavy, súradnice objektov v novom systéme súradníc. Nové osy (komponenty) nie sú vzájomne korelované. a2 x2Pi x2H A Á i C V** X'p A_- _\______ P j \ X2P • * • ^ • *M\ 0 * \ J*&9 ^ \ \ 1 5K £ Z^ IS*\ -^^ i k /Tvi .' ,x1p 1 1 i ------é---------------------- X1 ->- Pôvodne bola PCA navrhnutá pre kvantitatívne znaky, môže sa však použiť aj na znaky binárne a semikvantitatívne. Xi H P Vlastné čísla matice A1; A2, ... Ap sú interpretovateľné ako miery rozptylu zachytené komponentami yv ... , yp. Analýza hlavných komponent (PCA) Počet objektov (vzoriek) pri PCA by mal byť aspoň o jeden väčší než je počet analyzovaných parametrov (druhov). Obvykle se však odporúča, aby sa počet objektov blížil druhej mocnine počtu parametrov (súvisí s počtom stupňov voľnosti). V prípade, že n < p, výsledná matica (korelačná alebo kovariančná) rádu p má len n - 1 nezávislých riadkov alebo stĺpcov. V takom prípade príslušná matica má p - (n - 1) nulových vlastných čísiel (na umiestnení n objektov podľa ich vzájomných vzdialeností je potrebných len n - 1 rozmerov). > o +j x. o n o +j o >o o Q. Počet druhov P _J<_ r~ "^ T- CM CO ^- lO 3 a». 3 a». 3 a». "O 3 a». 3 L. s vzorka 1 vzorka 2 < vzorka n Analýza hlavných komponent (PCA) Indirect gradient analysis Principal component analysis ♦ PCA je postavená na lineárnom modely; abundancia každého druhu buď narastá alebo klesá s hodnotou každého environmentálneho gradientu ♦ PCA je definovaná pre kovariančnú a pre korelačnú maticu ♦ PCA nie je vhodná pre dátovú maticu s veľa nulami REÁLNE DÁTA ► 6 lokalít, každá lokalita sledovaná 3 obdobia ► dátová matica: 18 vzoriek x 63 plankt. druhov hodnoty = stupeň dominancie 02 D3 X \ \\'2 \ \\ \ \ \ \ t B2 ^Av! B3 ' ^^^^^-sä G3 G2 / // D1 /// G1 K2 s V / S3 / S2 K3 \^^^^ B1 S1 11 K1 PCA v Statistica Vstupy výpočtu PCA HJ STATISTKA [Data: Activities [12v by 28c)] llllll File Edit View Insert Format Statistics Graphs Tools Data Window Help D^0| # Hk Jt ^1 H ^ | ^ Oft Add to Workbook - Add to Report - &*?. IRb i &\ A^H^[ji « IE" É" Ô ÉI *=? íg Vars EMU MMU swu SWE UWY SMY Activities timetable data for 28 population groups modified example data reported in Exploratory and Multivariate 1 WORK 3 4 5 HOUSEHOLD CHILDREN I SHOPPING 6 7 8 9 PERSONAL CARE MEAL SLEEP TV ariate f ..3 10 LEISURE Vstupní tabulka spojitých dat 510 475 10 515 179 585 482 552 510 20 655 168 642 389 650 578 24 552 434 527 433 650 560 10 650 260 515 433 140 90 141 29 115 94 100 70 60 250 495 55 421 50 196 95 10 30 110 10 133 3c 1Ü 12£ 134 296 710 E 18 22 21 Si 120 140 170 115 141 58 128 145 115 Nezbytnost analýzy vztahu proměnných -analýza předpokladu. 95 120 110 90 131 54 102 :: SÚ 115 100 130 115 760 175 775 115 315 I 305 I 36 142 180 152 102 94 13Ü 3£ HÜUSLHÜLU °oQD °g oľo00o CD o tP 0 ocSoo °° €s ° ° o Q to o o §5o % 0 ° cí> 0 cPŠ^ o °^ 8° SHOPPINU o°<9° 63? oo° čd o o6«3 ° n ° Oa*o o l o°o ^ Qo°o0o8c|0o85> Iß *b0 0% o #° ^OSoD ° PbhiyUNALCAhib ^ScP^C, o° °°S£ °oo8o 5° ,0^0 0 °°V |Q> 0 0 0 o % 0° o ° o°6> ° ta ° * V^" To ^o8T o° 6> o ^d?°Oo ----------BEAT--------- Sö° ^ °°

o o ^ ° ° °%^ oto0000oß00 Gb5° ô ° ° oo§ ß °o0° o <$o*°° E^M° ÜLLLP o>°otťj : °°o 4 j o°0o°° e í, o| V ° ° 0 0\°Q8o°o0 o @p 0 ° % ° «9 cP o%9°° j{ oV°°° PCA v Statistica Výstupy analýzy hlavních komponent co 00 CM CM Ü CO -1.0 -0.5 0.0 Factor 1 : 45.87% 0.5 1.0 0.5 0.0 0.5 1.0 SHOPPING / l\ PERSOI • s \ / \ slAL CARE •• N i \ ■ 1 i \ HOÜ^fitEREN 1 ^ «^> % i TRANŠPO ----------------fi 1 % / / ■ \ / / \ \ y / \ \ / / \ SLE&P' / \ _j>C..... .....Z...... \ \ s \ \tV / / ...../..... \ MEAU ■ 1 XI "K. ^.^■''' / / j-s / • i_____ 1.0 Pozice faktoru = míra vazby parametru s danou osou (-1,+1) Důležitá pro interpretaci. Množství vyčerpané variability (informační hodnota osy) PCA v Statistica Výstupy PCA 3 V 2 h 1 h <*> O co CNI c\i % -1 05 -2 h -3 h -4 h Pozici objektu lze vysvětlit pomocí grafu faktoru. MWU UWY UWEo MWY ÜWW MWW MWE SWU -BAflJ-d EWWj SWW ° mm MME o mi _C I i i i I i i i I i i i I i i i I i i i I i i i I i i i I i i i I i i i I i i -6 -5-4-3-2-101234 Factor 1:45.87% 1 2 ^------- -0.5 0.0 0.5 Factor 1 : 45.87% Pozice objektu ve faktorovém prostoru Množství vyčerpané variability (informační hodnota osy) PCA v Canoco Nastavenie škálovania Rc-Jilmg- I iimiy Wnlmrin Ein fl" lrj».>-criP"iii= iionnířvirr.s P Hrudí* hy-rnnri^rid ílr^nnnn f" LLnulpUa^DH^Iumi gorii | [Jpwj [ Cfrneri Hpl-i j Početnosti jednotlivých druhov sa môžu odrážať v dĺžke ich šípok (dominantné druhy budú mať potom šípky dlhšie než druhy vzácnejšie). (species scores: do not post-transform) Každý druh môže byť zrelativizovaný (divide by standard deviation -vhodné pre tzv. korelačné projekčné diagramy). Presnosť záveru o podobnosti druhov, vzťahov medzi druhmi a / alebo charakteristikami prostredia závisí z časti na škálach na jednotlivých ordinačných osiach. V prvom rade sa rozhodneme, či sa pri interpretácii zameriame na vzorky (porovnanie tried vzoriek, apod.) alebo druhy. Ak máme charakteristiky prostredia, prípadne kovariaty, species scaling umožňuje charakterizovať korelácie medzi charakteristikami prostredia. PCA v Canoco Pred vlastným počítaním ordinácie je nutné nastaviť možnosti manipulácie s tabuľkou druhových dát Centrovanie Priemer každého riadku bude rovný nule. Centering and Standardization 7]x] SAMPLES SPECIES r None f* Center by sgec es r Standardize by norm f-" Center and star d ard i ze f-" Standardize by error variance .................. C" =None; .................. H Center by sample C Standardize by norm f"" Center and standardize ----------------------------------------------------------------------------------------------------------- ■■ H BI < Back j Next> [ Cancel Help j Centrovanie druhov nutné pre lineárne metódy s obmedzením (RDA) alebo pre parciálnu lineárnu ordináciu (tj. pri použití kovariat) PCA v Canoco Štandardizácia Centering and Standardization SAMPLES <*" iNonei H Center by sample r Standardize by norm C Center and standardize SPECIES r None (• Center by sgec es C Standardize by norm r Center and stardardize r Standardize by error variance < Back Next> Cancel ll*\ Priemer každého stĺpca bude rovný nule. Štandardizácia (vzoriek alebo druhov) spôsobí, že norma každého riadku alebo stĺpca bude rovná jednej. Táto norma je odmocnina zo sumy štvorcov hodnôt v riadku alebo stĺpci. Ak použijeme centrovanie aj štandardizáciu, prevedie sa centrovanie ako prvé. Po vycentrovaní a štandardizácii budú v stĺpcoch premenné s nulovým priemerom a jednotkovým rozptylom. PCA na druhových dátach bude odpovedať „PCA na matici korelácií". Help V ♦ ♦ Ak máme charakteristiky prostredia (v RDA a v PCA externe), môžeme zvoliť štandardizáciu chybovým rozptylom (error variance). Tu Canoco odhaduje pre každý druh zvlášť rozptyl v druhových dátach, ktorý zostane nevysvetlený po fitovaní závislosti hodnôt tohto druhu na vybraných charakteristikách prostredia (a kovariátach, ak ich máme). Prevrátená hodnota tohto rozptylu sa potom použije ako váha druhu. Čím lepšie bude druh popísaný charakteristikami prostredia, tým vyššiu bude mať váhu. Faktorová analýza (FA) Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Faktorová analýza (FA) Čím se liší od analýzy hlavních komponent? ♦ Jediným rozdílem je rotace proměnných tak aby se vytvořené faktorové osy daly dobře interpretovat ♦ Výhodou je lepší interpretace vztahu původních proměnných ♦ Nevýhodou je prostor pro subjektivní názor analytika Component Plot Component Hot in Rotated Space ICH 0,5- CM i 0,0- -0,5- -1,0- -1,0 •acoel -0,5 weight engine ___horse o,o Component! "T" 0,5 1,0 i,oH 0,5- 0,0- -0,5- -1,0- -1,0 Oaocel -0,5 0,0 Component! "T" 0,5 Ohorse endne T 1,0 Analýza hlavných koordinát (PCoA) Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Analýza hlavných koordinát v Canoco Principal coordinates analysis (PCoA, PCO): klasické, metrické škálovanie Vstupom je matica nepodobností alebo podobností medzi vzorkami, z ktorej sa počíta ordinácia. V ordinačnom diagrame sú vzorky rozmiestnené tak, že podobné vzorky sú blízko seba, kým vzorky nepodobné sú od seba vzdialené. Možnosť spočítať PCoA v Canoco: zvoliť analýzu hlavných komponent (PCA) ako druhové dáta je pripravená matica podobností alebo nepodobností (avšak s opačným znamienkom) - táto matica je teda štvorcová Centered by samples Centered by species Symetrické škálovanie ordinačných skóre; species score nie sú nijak transformované Korešpondenčná analýza (CA) a detrendovana korešpondenčná analýza (DCA) Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Korešpondenčná analýza Vstupní data ♦ Tabulka obsahující souhrny proměnných (počty, průměry) za skupiny objektů Výstupy analýzy ♦ Vztahy všech původních faktorů a/nebo skupin objektů v jednoduchém xy grafu Kritické problémy analýzy ♦ Skupiny s malým počtem hodnot mohou být zatíženy značným šumem a náhodnou chybou ♦ Obtížná interpretace velkého množství malých skupin objektů Korešpondenčná analýza ♦ Korešpondenčná analýza - nástroj pre analýzu vzťahov medzi riadkami a stĺpcami kontingenčných tabuliek ♦ Skúmanie vzťahov medzi dvoma premennými ♦ Kontingencna tabuľka: frekvenčná tabuľka (dvojvstupna), ktorá zaznamenáva kumulativně početnosti dvoch nominálnych (kategoriálnych) premenných. Každý stĺpec a každý riadok tabuľky reprezentuje jednu kategóriu danej premennej. Kategórie druhej premennej Kategórie prvej premennej H N ň t Ifl Korešpondenčná analýza Princíp Korešpondenčná analýza hľadá, které kombinácie riadkov a stĺpcov hodnotenej tabuľky najviac prispievajú kjej variabilite. Realita Teoretická vyrovnanosť Vs. Korešpondenčná analýza Korešpondenčná analýza všeobecne: ♦ Základnou myšlienkou metódy korešpondenčnej analýzy je vytvoriť či odvodiť indexy (pokiaľ možno Jednoduché"), ktoré budú nejakým spôsobom označovať (kvantifikovat') vzťahy medzi riadkovými a stĺpcovými kategóriami. Z týchto indexov potom budeme schopní odvodiť, ktorá stĺpcová kategória má väčšiu či menšiu váhu v danom riadku a naopak. ♦ Korešpondenčný analýza se tiež vzťahuje k otázke zníženia dimenzionality dát podobne ako napr. analýza hlavných komponentov (principal component analysis: PCA) a k snahe o dekompozíciu tabuľky na faktory. ♦ Grafické znázornenie vzťahov, ktoré obdržíme z korešpondenčnej analýzy, je založené na myšlienke reprezentovať všetky stĺpce a riadky a interpretovať relatívne pozície bodov ako váhy prislúchajúce danému stĺpcu a riadku. Systém indexov, ktorý si pomocou tejto metódy odvodíme, nám teda bude poskytovať súradnice každého stĺpca a riadku. Tieto súradnice zakreslíme do grafu, z ktorého môžeme poznať, ktoré stĺpcové kategórie sú viac dôležité v riadkových kategóriách a naopak. Korešpondenčná analýza Korešpondenčná analýza v synekológii: ♦ Najjednoduchšou cestou ako odhadnúť optimum druhu pre unimodalny model je spočítať vážený priemer tých hodnôt charakteristík prostredia, pri ktorých sa druh vyskytuje. ♦ Ako váha sa pri výpočte používa početnosť ci iná dôležitostná hodnota druhu. ♦ Pri váženom priemerovaní je implicitne zahrnutá štandardizácia po vzorkách aj po druhoch. Korešpondenčná analýza v ekológii spoločenstiev Korešpondenčná analýza: reciprocal averaging or eigenanalysis Sampl Samp2 Samp3 Cirsium Glechoma Rubus Urtica 0 0 3 I 5 2 1 6 2 0 8 1 0 initial value WA1 WA1 resc. WA2 WA2resc. WA3 WA3resc. WA4 WA4resc. 2 3.319 0.000 0.415 0.000 0.377 0.000 0.375 0.000 7 3.661 0.450 0.600 0.249 0.555 0.240 0.553 0.239 13 10.906 10.000 7.841 10.000 7.828 10.000 7.827 10.000 WA1 13.000 4.625 3.250 2.556 WA2 10.000 1.363 0.113 0.050 WA3 10.000 1.312 0.062 0.028 WA4 10.000 1.310 0.060 0.027 CA Náhodne zvolené Site Scores T Vypočítané Species Scores ako WA SS Štandardizácia Sp S Vypočítané nové Site Scores ako WASpS Štandardizácia S S Je zmena v scóre? NIEJ koniec ANO Korešpondenčná analýza v ekológii spoločenstiev Korešpondenčná analýza: reciprocal averaging or eigenanalysis Sampl Samp2 Samp3 WA4 Cirsium 0 0 © 10.000 Glechoma 5 2 1 1.310 Rubus 6 2 0 0.060 Urtica 8 1 0 0.027 WA4resc. 0.000 0.239 10.000 odľahlá hodnota (outlier) Sampl2 Samplh t í í Urtica Glechoma Rubus Sampl3 / v Cirsium Korešpondenčná analýza: výsledky ♦ Ordinačný diagram ♦ Skóre druhov a lokalít (riadkov a stĺpcov) ♦ Charakteristické vektory a charakteristické čísla matice (eigenvalues, eigenvector) /j\ Vysoké skóre: druh s nízkou Ci^ frekvenciou Charakteristické číslo (eigenvalue) odpovedá časti variability súboru vysvetlenej danou osou. locality 2 locality 1 locality 3 locality 4 Väčšinou používame prvé dva - tri charakteristické vektory = ordinačné osi. Ordinačné osi sú na sebe lineárne nezávislé. Korešpondenčná analýza v Statistica Výstupy korespondenční analýzy EJ STATISTKA - [Data: mark_pruzkum* [5v by 5c}] ijljjl File Edit View Insert Format Statistics Graphs lools Data Window Help ™»----------1----------r" DrElS #Ql Ä ÍÉ B ^ h° ^ *4 Add to Workbook - Add to Report - !.fB Arial "ZI 110 jj I b j u I^m^^Ia-^ DowAgro Science DuPont Bayer Syngenta BASF 1 Kvalita Dostupnost výrobků 1.42 1 7£ 1 62 1.35 1.47 Vzájemná pozice faktoru a skupin respondentu: vzájemnou pozici lze interpretovat CN g 'co c 0 E -0.04 -0.06 -0.08 Variabilita vyčerpaná danou faktorovou osou -0.10 DowAgroScience ™«—i—■" Kvalita DuPonít postupnost výrobků Bayer Syngenta -0.14 -0.12 -0.10 -0.08 -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 0.08 0.10 Dimension 1; Eigenvalue: .00303 (48.54% of Inertia) Korešpondenčná analýza (CA) Nastavenie škálovania > | C*K« [ iinip Typ škálovania určuje, ako sa pozerať na druhové dáta pri diagrame druhy+vzorky. Biplot scaling je vhodnejší pre kratšie gradienty. Hillovo škálovanie zjednocuje šírky nik pre všetky osi. V prvom rade sa rozhodneme, či sa pri interpretácii zameriame na vzorky (porovnanie tried vzoriek, apod.) alebo druhy. Ak máme charakteristiky prostredia, prípadne kovariaty, species scaling umožňuje charakterizovať korelácie medzi charakteristikami prostredia. Korešpondenčná analýza (CA) Indirect gradient analysis Correspondence analysis ♦ CA je postavená na unimodálnom modely; každý druh sa vyskytuje v ohraničenom rozsahu hodnôt každého environmentálneho gradientu ♦ CA je odporúčaná pre druhové dáta, ktoré obsahujú mnoho nulových hodnôt REÁLNE DÁTA ► vtáčie druhy na 4 lokalitách ► dátová matica: 4 lokality x 38 dr. vtákov hodnoty = priemerná abundancia locality: 2 locality 1 locality 3 locality 4 Korešpondenčná analýza: „arch effect" Indirect gradient analysis Correspondence analysis ♦ CA je postavená na unimodálnom modely ♦ pri silnej unimodálnej odozve sa v ordinačnom diagrame CA zvykne ukázať tzv. „arch effect" ♦ „arch effect" môžeme odstrániť použitím detrendovanej formy CA REÁLNE DÁTA ♦ suchozemské slimáky ► dátová matica: 42 lokalít x 33 dr. slimákov hodnoty = stupeň dominancie 2 25 39 7 5 8 9 12 6 3 11 42 31 28 33 27 „A 20 „/730 21 36 23 38 32 41 35 19 1 11 29 37 34 10 13 4 15 OO 22 26 40 16 1718 24 4 I4 Korešpondenčná analýza: „arch effect" „arch effect", „horse shoe effect" 25 39 0.42 31 28 273020 21 33 36 23 38 32 41 35 19 29 37 34 15 „o 22 26 40 1 2 3 8 9 12 11 10 13 1718 24 DCA Náhodne zvolené Site Scores T Vypočítané Species Scores ako WA SS Vypočítané nové Site Scores ako WASpS Detrendovanie Site Scores 1 Je zmena v skóre? ANO Nl4 koniec Detrendovaná korešpondenčná analýza (DCA) Odstraňovanie trendu Detrending Method ■ Selecí method of defending <* by segments: r by 2nd order polynomials by 3rd order polynomials f~" by 4th order polynomials odstraňovanie trendu po segmentoch ► neodporúča sa pre unimodálne ordinačné metódy, kde sú používané kovariáty alebo charakteristiky prostredia odstraňovanie trendu poľynómami ► keď sú používané kovariáty alebo charakteristiky prostredia a je potrebné od stá niť trend ► Pre unimodálne ordinácie s obmedzením (CCA) obvykle nieje detrendovanie nutné. Ak sa v CCA oblúkový efekt objaví, je to známkou nadbytočnosti v súboru zvolených charakteristík prostredia. ► Doporučuje sa vylúčiť silne korelované premenné. Výber charakteristík prostredia, které sú mezi sebou korelované len minimálne, sa dá previesť postupnou selekciou charakteristík prostredia (forward selection of environmental variables). Detrendovaná korešpondenčná analýza (DCA) Indirect gradient analysis Detrended correspondence analysis ♦ DCAje postavená na unimodálnom modely ♦ DCA odstraňuje „arch effect" niekoľkými možnými spôsobmi REÁLNE DÁTA ♦ suchozemské slimáky ► dátová matica: 42 lokalít x 33 druhov slimákov hodnoty = stupeň dominancie 34 26 40 35 38 23 31 3ľft4 11131737R29283041 5'98 10 1324 1|193242 27 126 14 22 18 15 39 33 36 2120 ^ Priame ordinácie - ordinácie s obmedzením Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Priame ordinačné metódy Priame ordinačné metódy: hľadanie najlepších vysvetľujúcich premenných. V nepriamych ordináciách hľadáme akúkoľvek premennú, ktorá je schopná vysvetliť najlepšie druhové zloženie (a tú potom vezmeme ako ordinačnú os). V priamych ordináciách sú ordinačnými osami vážené charakteristiky prostredia. Čím menej týchto charakteristík máme, tým prísnejšie bude obmedzenie. /|\ Ak je ich počet väčší než počet vzoriek zmenšený o jednu, tak sa ordinácia stáva 9 \ nepriamou. Neobmedzené (unconstrained) ordinačné osy odpovedajú smeru najväčšej variability v súbore dát. Obmedzené (constrained) ordinačné osi odpovedajú smeru najväčšej variability v dátovom súbore, ktorá môže byť vysvetlená charakteristikami prostredia. & Počet obmezených osí nemôže byť väčší než počet charakteristík prostredia. Priama gradientova analýza Grafické znázornenie jednoduchého lineárneho regresného modelu Y závislá premenná (vysvetľovaná) nezávislá X premenná (vysvetľujúca) regresný reziduál, označený ako e: rozdiel medzi (pozorovanými) hodnotami vysvetľovanej premennej Y a hodnotami predpovedanými modelom (očakávané hodnoty, Y so strieškou). j * j Y • YM 1 ^r • * m j^r II [ Ysbft+hjX+el X Všetky štatistické modely majú dve dôležité zložky: systematická - časť variability vysvetľovaných premenných, ktorú môžeme vysvetliť vysvetľujúcimi premennými (prediktormi) pomocou zvolenej parametrickej funkcie. stochastická - ostávajúca časť variability hodnôt vysvetľovanej premennej, ktorú nemožno predpovedať systematickou časťou modelu. Definuje sa pomocou predpokladaných pravdepodobnostných a distribučných vlastností. Priama gradientova analýza Regresný model Kvalitu modelu posudzujeme podľa množstva variability popísanej systematickou zložkou (obvykle v pomere k stochastickej zložke). Regresný model s viacerými premennými Možnosť postupného výberu významných premenných Začíname s nulovým modelom bez prediktorov, predpokladáme, že variabilitu vysvetľovanej premennej nejde predpovedať, a popisuje ju len stochastická zložka. Potom vyberieme z dostupných premenných jediný prediktor - ten, ktorý v regresnom modely vysvetľuje najviac variability. Aj keď zvolíme ten najlepší prediktor, môže byť jeho príspevok len náhodný => testovanie (prehádzanie hodnôt tohto prediktoru ...) Postupné testovanie všetkých premenných; končíme keď „najlepší" z ostávajúcich kandidátov už nieje „dostatočne dobrý". Priama gradientova analýza Priama gradientova analýza (direct gradient analysis; constrained, canonical ordination methods) - kombinácia ordinácie a regresie Nepriame gradientově analýzy hľadali teoretické gradienty, ktoré boli „optimálnymi" prediktormi v regresných modeloch lineárnej či unimodálnej odpovedi druhov. Metódy priamej gradientovej analýzy sa snažia o to isté, ale gradienty, ktoré je týmto metódam „dovolené nájsť", sú viac obmedzené. Tieto gradienty sú lineárnou kombináciou predložených vysvetľujúcich premenných (charakteristík prostredia). Abundanciu jednotlivých druhov sa snažíme vysvetliť pomocou zložených premenných, ale tieto premenné sú definované na základe hodnôt pozorovaných charakteristík. Metódy priamej gradientovej analýzy sa podobajú mnohorozmernej násobnej regresu. V priamej gradientovej analýze: vplyv prediktorov na vysvetľované premenné cez niekoľko „zprostredkujúcich" gradientov - kanonických ordinačných osí (canonical axes, constrained axes). Existuje tu toľko kanonických osí, koľko je nezávislých vysvetľujúcich premenných. Výber štatisticky významných premenných Výber štatisticky významných premenných: permutačný test Pe rm utati o n Typ e HE3 Permutation Type- C Unrestricted permutations r Blocks defined by covariables <* iRestridedfor spatial ortemporal structure or split-plot design! f Read from file: Browse.. ■ Random Number Generator c* Set seeds l?3239 C Leverage corn Randomize.. Monte-Carlo permutačný test: testuje štatistickú významnosť obmedzených ordinačných modelov HO: primárne (druhové) dáta sú nezávislé na vysvetľujúcich premenných rôzne spôsoby nastavenia testu pre dáta s určitou priestorovou, časovou a logickou vnútornou štruktúrou, v závislosti na usporiadaní pokusu a odbere vzorky Výber štatisticky významných premenných Permutačný test permutované hodnoty premennej - vytvorenie niekoľkých permutácií (náhodné prehodenie hodnôt premennej medzi vzorkami) - testovanie rozdielu od pôvodnej premennej Priestorové a časové obmedzenia ak je v dátach vnútorná štruktúra použijeme pri permutáciách obmedzenie I Pe r m utal i o n Re stri cti o n £ Jf|_xj Select type of restriction on the permutations r Time series or line transects T Disable randem shifts of mirror image f* iRectantiuiar spatial cjrid! C Split-plot des gn < Back Next> Cancel Help | _____________________________ vzorky pozdĺž časového alebo lineárneho transektu => permutácie „rotováním" split-plot design permutácie v rámci bloku - ten je charakterizovaný niekoľkými nominálnymi premennými Výber štatisticky významných premenných Permutačný test Ak použijeme manuálne permutačné testovanie - vidíme priebeh testovania po krokoch. Forward Selection Step The variables selected so far explain 0.320 of 0.447 0.025 0.020 0.020 0.016 0.01 G nn Include variable j [ 5] E2Con [ 7] E1 Height [ 9] Rocks [G]E1 [ 8] Slope Testva-iable Stop selection The following variables were already selected: \ 11 Forest [ 3] BrLeaf [4]E2 (0.0050) (°.????) (0.0150) Hep Kandidáti na prediktory Vybrané charakteristiky prostredia Testovanie významnosti priamej ordinácie Permutačný test Testovanie významnosti prvej kanonickej ordinačnej osi: Monte-Carlo permutačný test Vhodný typ permutácií je určený typom experimentálneho designu a designu vzorkovania (možnosti permutacných testov pre split-plot designs a iné multi-level designs Global permutation test - Both above tests vykonajú sa dva Monte-Carlo testy: 1. test významnosti prvej kanonickej osi 2. test významnosti všetkých kanonických osí Testovať významnosť ordinačnej osi v nepriamych analýzach nieje možné. Testovať môžeme aj vplyv environmentálnych premenných po odčítaní kovariátov (parciálny test) Redundančná analýza (RDA) Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Redundačná analýza (RDA) ľi i irť\ ^f ^i i*<"i ^11 ť\ i^t <■> ľ^ <■> li f #■* i #■* ^^—^^—^^—^^—^ i J /"n ^J i i p^ ^J <■% p^ /-\i # <■% ľ^ <■% li #r> i r> uireci graoieni analysis Keaunaancy analysis RDA nieje vhodná pre druhové dáta, v ktorých sa vyskytuje mnoho nulových hodnôt RDA je kanonická forma analýzy hlavných komponent (PCA) ♦ V obmedzenej metóde (RDA) podliehajú skóre objektov (vzoriek) obmedzujúcej podmienke: definujú sa ako lineárna kombinácia vysvetľujúcich premenných Redundačná analýza (RDA) Principal component analysis (PCA) PCA ... regresia Redundancy analysis (RDA) RDA ... mnohonásobná regresia Abundancia každého druhu je modelovaná lineárnou regresiou podľa vysvetľujúcej premennej, ktorej hodnoty sú neznáme (neznáme x; teoretický gradient, prvá hlavná komponenta). RDA obmedzuje hodnoty tak, že požaduje, aby x bolo lineárnou kombináciou meraných charakteristík prostredia. RDA je mnohonásobnou regresiou pre všetky druhy súčasne s lineárnym obmedzením regresných koeficientov. Supplementary species, samples, variables Tzv. suplementarne druhy, vzorky, charakteristiky prostredia (v staršej verzii Canoca označované ako pasívne) sa odlišujú od aktívnych tým, že neovplyvňujú tvorbu ordinačných osí. Môžu byť však pridané do existujúcej ordinácie (napr. regresným modelovaním ich dát na existujúce ordinačné osi). Druhy a vzorky, ktoré majú byť pasívne, musia byť pripravené v matici druhových dát. Charakteristiky prostredia, ktoré majú byť pasívne, musia byť pripravené v samostatnom súbore. Kanonická korešpondenčná analýzy (CCA) Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Kanonická korešpondenčná analýza (CCA) CCA je obmedzená ordinácia ♦ druhové dáta + vysvetľujúce premenné ♦ len „zmysluplné" vysvetľujúce premenné ♦ Forward selection: Permutačný test H0: Vysvetľovacia sila skupiny environmentálnych premenných sa pridaním danej premennej nezvýši viac, než keby sme pridali takú premennú, ktorá má rovnaké distribučné vlastnosti ako uvažovaná premenná, ale nemá žiadny vzťah k druhovým dátam. CCA Náhodne zvolené LC Scores T Vypočítané Species Scores + ako WA z LC S T Vypočítané WA ako WA z SpS T Vytvorenie LC Site Scores predikciou z multiple regres. I Je zmena v skóre? NIEJ koniec ANO Kanonická korešpondenčná analýza (CCA) Direct gradient analysis Canonical correspondence analysis ♦ CCA je kanonická forma CA ♦ CCA sa odporúča pre druhové dáta s veľkým výskytom nulových hodnôt REÁLNE DÁTA ► spoločenstvá makrozoobentosu ► dátové matice: 60 lok. x 63 tax. (stupeň dominancie) 60 lok. x 13 environm. faktorov (fs) level v(0.9) temperature J\ f Q \ akal * psamal Parciálne ordinácie Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Parciálna ordinácia Indirect gradient analysis Druhové dáta Kovariáty 1 23 sites sites 1 23 o n .5 "Z > o o Direct gradient analysis Druhové dáta Kovariáty Charakteristiky prostredia 1 23 sites sites sites 1 23 n .5 'Z > o o 1 23 environmental variables Parciálna ordinácia Parciálne ordinácie Pre všetky metódy je možné použiť dielčie (parciálne) analýzy. V parciálnych analýzach je najprv oddelený vplyv kovariát a analýza je potom prevedená len na zostávajúcej variabilite. Dátové zdroje: Principal component analysis (PCA) Correspondence analysis (CA) Dentrended correspondence analysis (DCA) > druhové dáta + kovariáty Redundancy analysis (RDA) Canonical correspondence analysis (CCA) druhové dáta + charakteristiky prostredia + kovariáty Priame vs. nepriame ordinačné metódy Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Priama či nepriama gradientova analýza? Máme druhové dáta aj charakteristiky prostredia. 1 23 sites sites 4= O n .5 "Z > c o E c 2 > c 1 23 Môžeme použiť oba prístupy: priamu aj nepriamu ordináciu. Spočítame najprv nepriamu ordináciu s následnou regresiou ordinačných osí na merané charakteristiky prostredia (tj. premietnutie týchto charakteristík do ordinačného diagramu) Spočítame priamu (obmedzenú) ordináciu. Tieto prístupy sú komplementárne a mali by sa použiť oba. Je potrebné vždy uviesť metódu, ktorá bola použitá. Hybridná gradientova analýza? Máme druhové dáta aj charakteristiky prostredia. 1 23 sites sites 4= O n .5 "Z > c 0 E c 2 > c 1 23 Hybridná analýza: „kríženec" medzi priamou a nepriamou ordináciou. V štandardnej priamej ordinácii je toľko obmedzených (kanonických) osí, koľko je nezávislých vysvetľujúcich premenných a len ďalšie ordinačné osi sú neobmedzené. V hybridnej analýze sa spočíta len vopred daný počet obmedzených osí a akékoľvek ďalšie ordinačné osi sú neobmedzené. Lineárny alebo unimodálny model? Voľba modelu: na základe dĺžky gradientu ♦ unimodálny model ak dĺžka najdlhšieho gradientu > 4 (techniky váženého priemerovania sú lepšie pre heterogénne dáta) ♦ lineárny model ak dĺžka najdlhšieho gradientu < 3 (nie je to však nutnosť použiť lineárny model) (techniky založené na modely lineárnej odpovede sú vhodné pre homogénne dátové súbory) Environmental variable (e.g.,pH, elevation) Nepriama vs. priama gradientova analýza * Indirect gradient analysis Druhové zloženie je ľahko determinovateľné a tak je lepším indikátorom prostredia ako akákoľvek kombinácia meraných environmentálnych premenných. Environmentálny gradient je možné charakterizovať len na základe druhových dát. Direct gradient analysis ,-TL, Priama gradientova analýza poskytuje súhrn vzťahov druh-prostredie. Gradient je charakterizovaný pomocou env. premenných. Predpokladáme, že všetky druhy reagujú na zložený gradient env. premenných podľa rovnakého modelu odozvy. Environmentálne podmienky nieje možné vždy charakterizovať úplne - môže sa stať, že prehliadneme nejaký dôležitý faktor. Diskriminačná analýza (CVA, DFA) Samostatný PPT MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Neparametrická ordinácia (NMDS) Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Neparametrická ordinácia (NMDS) Indirect gradient analysis Multidimensional scaling ♦ mnohonásobné škálovanie sa používa ako prieskumná metóda ♦ cieľom analýzy je zobraziť pozorované podobnosti alebo nepodobnosti (vzdialenostiach) medzi skúmanými objektami v euklidovskom priestore ♦ pomocou NMDS môžeme analyzovať nielen korelačné matice (ako v PCA) ale aj hocijakú inú maticu podobnosti/nepodobnosti * neparametrická ordinácia je robustnejšia k vychýleným hodnotám (napr. druh s výnimočne vysokou abundanciou na lokalite v jednom roku) dá sa použiť pred použitím nehierarchickeho zhlukovania K-means (v prípadoch keď nieje možné použiť euklidovské vzdialenosti) počet dimenzií musí byť určený vopred ťažko interpretovateľné výsledky Mnohonásobné škálovanie v Statistica Multidimensional scaling dokáže na základě asociační matice s libovolnou metrikou vytvořit její Euklidovskou reprezentaci (příklad: na základě tabulky vzdáleností měst vytvoří mapu). Výběr parametrů (vstupní soubor musí mít formát asociační matice) Počet dimenzí k extrakci BmSHSSSBBSS Quick Yyy^fons | B Variables: | ALL \ Number of dimensions: p g m m I Cancel [5 Options t I Q Open Data | Vzdálenosti menší než jsou považovány za 0 Počty iterací Počáteční konfigurace Eg Multidimensional Scaling: Jř_MatrÍH_MDS.smH Quick Options | Starting configuration Standard Guttman-Lingoes From input file ^ Configuration file File: none f* I a-r-h ŕih-i =il r-f-iK-irim irshriK-i -^\ Epsilon: |ü~" [|] Minimum number of iterations: [Š Ö ^^^/ Maximum number of iterations: Í50 @ í C-^ _________________ ILJxJ iOKj ] Cancel JS Options ^ | [S? Open Data | Mnohonásobné škálovanie v Statistica Výpočet Multidimensional scaling může sloužit pro přípravu podkladů pro k-means clustering pokud nemůžeme na naše data použít Euklidovskou vzdálenost. Metoda je výpočetně velmi náročná. 1 Parameter Estimation: 07_ _MatrÍH_MD5.smH Tlxl ^^ěl 1 iter. [dim = 1] D-star D-star D-hat d-hat 1 s: t: co s in step r aw stress alienation r au stress stress ^J i ' síT ,758 ,031 ,0000005 ,0000214 60 1 ,518 ,051 ,0000004 ,0000197 61 1 ,672 ,055 ,0000004 ,0000133 62 1 ,391 ,099 ,0000003 ,0000159 63 1 ,326 ,093 ,0000002 ,0000141 64 1 ,424 ,050 ,0000002 ,0000129 GS 1 ,515 ,043 ,0000002 ,0000122 66 1 ,901 ,094 ,0000001 ,0000107 67 1 ,942 ,141 ,0000001 ,0000033 63 1 ,604 ,069 ,0000001 ,0000030 69 1 ,262 ,041 ,0000001 ,0000075 70 1 ,770 ,063 ,0000001 ,0000063 71 1 ,939 ,122 ,0000000 ,0000053 72 1 ,302 ,093 ,0000000 ,0000051 73 1 ,360 ,043 ,0000000 ,0000047 72 * ,0000000 ,0000057 ,0000000 ,0000047 56 1 ,624 ,054 ,0000010 ,0000300 57 1 ,795 ,074 ,0000003 ,0000271 53 1 ,350 ,096 ,0000006 ,0000233 JfeLJ tion procedure converged Estima Cancel B IOK] | Parametry měnící se při přepočtech Mnohonásobné škálovanie v Statistica Výsledky Quick [g Results: 07_MatrÍH_MDS.smH J?]^]xJ Výstup nových dimenzí + charakteristiky Výstupní 2D a D graf Popis analýzy 33 vars. from file Number of dimensions: 2 Start config.: (last final) Last iteration computed: 185; Best iteration: 100 D-star: Raw stress = ,0000818; Alienation = ,0002741 D-hat: Raw stress = ,0000549; Stress = ,0002246 Shephard diagram ~ věrnost reprezentace Mnohonásobné škálovanie v Statistica Výsledky tabulky objekty HVE MEL ROH Final Configuration (D7_Matrix_MDS.smx) D-star: Raw stress = ,0000818; Alienation = ,0002741 D-hat: Raw stress = .0000549: Stress = .0002246 DIM. 1 DIM. 2 -0,2548370] Nové dimenze - -0,254777 -0,2542/r 0,00049 -0.255098 -0,00250 Stress - měřítko reprezentace, čím nižší, tím lepší reprezentace Alienation - cizost, čím nižší, tím lepší reprezentace x 2'5 Shepard diagram Shepard Diagram o Distances and ----- D-Hats vs. Data vzdálenosti D-hat ~ průběh vzdáleností při dobré reprezentaci Mnohonásobné škálovanie v Statistica Výsledky Advanced ES Results: 07 Matrix MDS.smx iLJxJ Výstup nových dimenzí + charakteristiky D-hat, D-star Matice vzdáleností (reprodukovaná) 33 vars. from file Number of dimensions: 4 Start config.: (last final) Last iteration computed: 270; Best iteration: 100 D-star: Raw stress = ,0868132; Alienation = ,003i D-hat: Raw stress = ,0559948; Stress = ,007J Advanced Review & save | lary: Final configuration D-hat values D-star values Distance matrix Summary statistics Sumární hodnoty (reprodukovaná vzdálenost, D-hat, D-star) Výstlipní 2D a 3D graf Shepard diagram D-hat, D-star versus reprodukovaná vzdálenost ~ věrnost reprodukce Mnohonásobné škálovanie - príklad ♦ máme k dispozícii maticu vzdialeností miest Slovenska z mapy ♦ cieľ: zreprodukovať vzdialenosti medzi mestami v dvojrozmernom priestore Bans Rima ká vská Ružo Bystr Brati Kom Košic Marti Popr Preš Sobo mber Tren ica sláva árno e n Nitra ad ov ta ok čin Žilina B. Bystrica 0 204 188 214 92 119 124 208 105 53 139 117 Bratislava 204 0 100 402 227 85 328 412 273 257 124 202 Komárno 188 100 0 342 214 69 312 396 213 241 160 238 Košice 214 402 342 0 234 317 120 36 129 195 337 259 Martin 92 227 214 234 0 145 114 198 171 39 103 25 Nitra 119 85 69 317 145 0 243 327 188 172 91 169 Poprad 124 328 312 120 114 243 0 84 133 75 217 139 Prešov 208 412 396 36 198 327 84 0 165 159 301 223 R. Sobota 105 273 213 129 171 188 133 165 0 140 208 196 Ružomberok 53 257 241 195 39 172 75 159 140 0 142 64 Trenčín 139 124 160 337 103 91 217 301 208 142 0 78 Žilina 117 202 238 259 25 169 139 223 196 64 78 0 Mnohonásobné škálovanie - príklad ♦ Výsledok mnohonásobného škálovania 0.8 0.6 [ 0.4 0.2 [ C\l C O ■g 0.0 CD -0.2 [ -0.4 -0.6 ľ -0.8 Žilina • i j Trenčín • Majrtin Ružomberok Poprad • • Bratislava Prešov 1 c • Nitra • Banská Öystrica - Košice • Komárno • ; Rimavská Sobota j • -2.0 -1.5 -1.0 -0.5 0.0 Dimension 1 0.5 1.0 1.5 2.0 Mnohonásobné škálovanie - príklad ♦ Ukážka Shepardovho diagramu (príklad miest Slovenska) 3.5 3.0 2.5 C/) í 2.0 Q ~Č/5 CD o I 1.5 c/) b 1.0 0.5 0.0 Distances and----- D-Hats vs. Data 50 100 150 200 250 300 350 400 450 Data