OrdinaOrdinaččnnéé metmetóódydy Danka HaruDanka Harušštiakovtiakováá Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita Úvod Mnohorozmerné metódy: názov ,,mnohorozmerné" ­ dáta sú tvorené objektami (vzorky, lokality), každý z nich je charakterizovaný viacerými parametrami (druhmi) každý z týchto parametrov môžme považovať za jeden rozmer objektu (vzorky) Hodnoty pre druhy (presencia/absencia; abundancia; dominancia) pre každú vzorku DÁTOVA MATICA vzorka 1 druh1 druh2 druh3 Ordinácia a zhluková analýza sú jediné možné techniky, ktoré môžeme použiť bez nameraných charakteristík prostredia. vzorka 2 vzorka 3 vzorka 4 vzorka 5 vzorka 6 Úvod Klasifikuje vzorky (lokality), druhy alebo premenné Nachádza skupiny v dátach Usporadúva objekty pozdĺž trendu v dátach ORDINÁCIAZHLUKOVÁ ANALÝZA 2004 2003 2002 2001 2000 1999 1995 1996 1997 1994 1993 1992 1991 1990 Objekty charakterizované p parametrami je možné si predstaviť ako body v p rozmernom priestore, kde každý z rozmerov predstavuje hodnoty jedného parametra. V prípade spoločenstiev sú objektami vzorky a parametrami druhy, prípadne charakteristiky prostredia. Keď pracujeme len s dvoma alebo troma parametrami, je možné bez problémov sledovať v dvoj- alebo trojrozmernom grafe vzťahy medzi objektami, ich vzdialenosť a zoskupenie. Pri väčšom počte parametrov je nutné redukovať ich počet s čo najmenšou stratou informácie. Úvod Ordinačné metódy Ordinačné metódy v ekológii environment plants animals environmental data species data sites sites 1 2 3 ..................... i .......... n 1 2 3 ..................... i .......... n environmentalvariables 1 2 . . . j . . q 1 2 . . . . k . . m species Direct gradient analysis Indirect gradient analysis ordination diagram Sumarizing by ordination zoradí objekty pozdĺž environmentálneho gradientu cieľom ordinácie je sformulovať hypotézy o vzťahu medzi druhovým zložením spoločenstva na lokalitách a základnými environmentálnymi faktormi Ordinačné metódy nepredpokladajú žiadne apriorné zoskupenie objektov. Ordinačné metódy patria medzi metódy, ktoré sa pužívajú hlavne k tvorbe hypotéz. Ordinačné metódy: terminológia Primárne dáta: vzorky, objekty (samples, sites) environmental data species data sitessites 1 2 3 ..................... i .......... n 1 2 3 ..................... i .......... n environmentalvariables 1 2 . . . j . . q 1 2 . . . . k . . m species Každá vzorka zahŕňa hodnoty pre viac druhov (species) alebo tzv. charakteristík prostredia (environmental variables, variables). Vysvetľujúce premenné (explanatory) Vysvetľované premenné (response) druhové dáta (species data) akékoľvek premenné, kt. hodnoty chceme predpovedať Charakteristiky prostredia (environmental variables, variables) Kovariáty (covariates, covariables) ich vplyv chceme oddeliť Napr. druhové zloženie spoločenstva je možné určovať presným kvantitatívnym spôsobom (počet jedincov jednotlivých druhov; percentická pokryvnosť; odhad biomasy) prípadne podľa semikvantitatívnej stupnice (Braun-Blanquetová stupnica) alebo len kvalitatívnym spôsobom (prítomnosť či neprítomnosť) Ordinačné metódy: typy dát environmental data sites 1 2 3 ..................... i .......... n environmentalvariables 1 2 . . . j . . q Charakteristiky prostredia, príp. kovariáty kvantitatívne premenné semikvantitatívne premenné faktoriálne (kategoriálne) premenné - prekódovanie do 0,1 Vysvetľujúce premenné, prediktory Môžu byť použité k predpovedaniu hodnôt vysvetľovaných premenných faktoriálne (kategoriálne) ­ v Canoco prekódovať do tzv. indikátorových premenných (dummy variables) Kovariáty (covariables, covariates): ak určitá vysvetľujúca premenná má vplyv na druhové dáta, ale pre nás je nezaujíma, môžem jej vplyv odpočítať => jej vplyv neinterpretujeme, chceme ho vziať do úvahy pri hodnotení vplyvu iných premenných rulaVz 4 čadičVz 3 žulaVz 2 žulaVz 1 Geovzorka 0 0 1 1 žula 0 1 0 0 čadič 1Vz 4 0Vz 3 0Vz 2 0Vz 1 rulavzorka Ordinačné metódy: typy dát Čo s chýbajúcimi dátami: Vzorky, v ktorých hodnoty chýbajú, môžeme vypustiť. Výhodné vtedy, ak sú chýbajúce dáta len v niekoľko málo vzorkách (case-wise deletion). Premenné, v ktorých hodnoty chýbajú, môžeme vypustiť, ak ich nie je veľa. Doplnenie chýbajúcich údajov: doplnenie priemeru zo vzoriek, kde sú hodnoty k dispozícii dopočítanie chýbajúcich hodnôt na základe mnohonásobného regresného modelu (takto ale prichádzame o stupne voľnosti) možnosť vzorkám s doplnenými hodnotami priradiť nižšiu váhu priama gradientová analýza obmedzená zhluková analýza diskriminačná analýza (discriminant analysis - CVA) nepriama gradientová analýza (indirect gradient analysis - PCA, DCA, NMDS) zhluková analýza ... je ich viac regresný model s.l.zhrnutie distribučných vlastností ... je jedna mámenemámepremenná ... Prediktor(y)Vysvetľovaná Nasledujúca tabuľka zhŕňa najdôležitejšie štatistické metódy používané v rôznych situáciách: Typy štatistických modelov Ordinačné metódy, gradientová analýza Výraz gradientová analýza je tu používaný v širšom slova zmysle pre akúkoľvek metódu, ktorá sa pokúša dať do vzťahu druhovú skladbu a gradienty prostredia (merené alebo hypotetické). Cieľom gradientovej analýzy je nájsť smery najväčšej variability v zložení spoločenstva a ich závislosť na určujúcich premenných prostredia. Zaoberá sa vzťahom zloženia spoločenstva k (známym alebo neznámym) gradientom prostredia. Nepriama gradientová analýza Priama gradientová analýza Osi variability v druhovom zložení (môžu byť a mali by byť potom vztiahnuté k nameraným charakteristikám prostredia, keď sú tieto k dispozícii) Variabilita v druhovom zložení vysvetlená charakteristikami prostredia. (indirect gradient analysis) (direct gradient analysis) Modely odpovede druhov na gradienty prostredia lineárny (linear) ­ najjednoduchší odhad (na krátkom gradiente dobre funguje lineárna aproximácia akejkoľvek funkcie) unimodálny (unimodal) ­ predpokladá, že druh má na gradientu prostredia svoje optimum (na dlhom gradiente je aproximácia lineárnou funkciou veľmi nevhodná) Dva typy modelu odpovede druhu na gradienty prostredia Lineárna aproximácia unimodálnej odpovede na krátkom výseku gradientu Lineárna aproximácia unimodálnej odpovede na dlhej časti gradientu Základné techniky ordinačných metód Indirect gradient analysis Direct gradient analysis linear model unimodal model Correspondence analysis (CA) Dentrended correspondence analysis (DCA) Principal component analysis (PCA) Principal coordinate analysis (PCoA) linear model unimodal model Canonical correspondence analysis (CCA) Redundancy analysis (RDA) Canonical correlation analysis non-metric ordination Multidimensional scaling (NMDS) vytvorí teoretickú premennú (gradient) ktorá najlepšie charakterizuje druhové dáta na základe lineárneho alebo unimodálneho modelu (závisí od dĺžky gradientu) gradient je lineárnou kombináciou konkrétnych environmentálnych premenných Výsledky ordinácií se obvykle prezentujú ako ordinačné diagramy. Ordinačné diagramy šípky v smere rastu hodnôt Charakteristiky prostredia kvantitatívne body (symboly) označujúce optimum druhu šípky v smere rastu abundancií druhy centroidy pre jednotlivé kategórie charakteristiky prostredia kvalitatívne znázornené bodmi (symbolmi)vzorky Unimodálny modelLineárny model PCA CA RDA CCA Príklady ordinačných diagramov ÚÚprava dprava dáát dot do ordinaordinaččnýchných metmetóódd Danka HaruDanka Harušštiakovtiakováá Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita Transformácia druhových dát )*log(' CyAy += Logaritmická transformácia Čísla A a C volíme tak, aby bol výsledok vždy väčší alebo rovný 1. Default hodnoty A a C sú rovné 1 (nulové hodnoty mení na 0, ostatné sú kladné). Hodí sa výborne napr. na percentuálne dáta na stupnici 0-100. Transformácia na ordinálnu škálu Dáta o zložení rastlinného spoločenstva odhadované často na semikvantitatívnej Braun-Blanquetovej stupnici so siedmimi stupňami (r, +, 1, 2, 3, 4, 5). Takáto stupnica býva kvantifikovaná odpovedajúcimi poradovými hodnotami (od 1 do 7). Je možné nahradiť stupne stredom intervalu pokryvnosti: r 0.1 + 0.5 1 3 2 15 3 37.5 4 62.5 5 87.5 Transformácia druhových dát Odmocninová transformácia Táto transformácia môže byť vhodným riešením pre dáta vyjadrujúce počty (počet jedincov apod.). Na tieto dáta však môžeme použiť aj logaritmickú transformáciu. Ak potrebujeme iný typ transformácie, ktorý Canoco neponúka, môžeme ju previesť v tabuľkovom procesore a transformované dáta do Canoca vyexportovať. yy =' Iné transformácie Je to užitočné, ak naše ,,druhové" dáta nepopisujú zloženie spoločenstva, ale niečo jako chemické či fyzikálne vlastnosti pôdy. V takom prípade mávajú premenné rôzne jednotky a pre každú z nich môže byť vhodná iná transformácia. Transformácia vysvetľujúcich premenných U vysvetľujúcich premenných (charakteristík prostredia a kovariát) sa predpokladá, že nemajú jednotnú stupnicu a že pre každú z nich musíme voliť vhodnú transformáciu (vrátane častej voľby ­ netransformovať). Canoco ale taký postup neumožňuje, takže prípadnú transformáciu vysvetľujúcich premenných musíme previesť pred ich exportom do súboru v Canoco formáte. V každom prípade však Canoco potom, čo charakteristiky prostredia a / alebo kovariáty načíta, ich štandardizuje, čiže majú nulový priemer a jednotkový rozptyl. Transformácia vysvetľujúcich premenných Nepriame ordinaNepriame ordinaččnnéé metmetóódydy Danka HaruDanka Harušštiakovtiakováá Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita Problém nepriamej ordinácie môžeme formulovať niekoľkými spôsobmi: 1. Nájdi také rozloženie vzoriek v ordinačnom priestore, kde vzdialenosť vzorky v ordinačnom priestore odpovedá najlepšie rozdielom v druhovom zložení. Toto explicitne robí nemetrické (ale aj metrické) mnohorozmerné škálovanie (non-metric multidimensional scaling, NMDS). 2. Nájdi teoretické (latentné) premenné (= ordinačné osi), pre ktoré je celková závislosť všetkých druhov najtesnejšia. Tento model vyžaduje, aby bol typ odpovedí druhov na premenné explicitne špecifikovaný: lineárna odpoveď pre lineárne metódy, unimodálna odpoveď pre metódy založené na vážených priemeroch. V lineárnych metódach je skóre vzorky lineárnou kombináciou (váženým súčtom) skóre druhov. V metódach váženého priemeru sa skóre vzorky vypočíta váženým priemerom druhových skóre (po určitých úpravách). Nepriame ordinačné metódy 3. Keď si predstavíme vzorky ako body v mnohorozmernom priestore, kde sú druhy osami a pozícia každej vzorky odpovedá početnosti príslušného druhu. Potom je cieľom ordinácie nájsť také premietnutie tohto mnohorozmerného priestoru do priestoru s menším počtom dimenzií, ktoré spôsobí minimálne skreslenie priestorových väzieb. Výsledok závisí na tom, ako definujeme ,,minimálne skreslenie". druh 1 druh 2 druh 3 A BC lokalita Základné techniky ordinačných metód Indirect gradient analysis linear model unimodal model Correspondence analysis (CA) Dentrended correspondence analysis (DCA) Principal component analysis (PCA) Principal coordinate analysis (PCoA) non-metric ordination Multidimensional scaling (NMDS) vytvorí teoretickú premennú (gradient) ktorá najlepšie charakterizuje druhové dáta na základe lineárneho alebo unimodálneho modelu (závisí od dĺžky gradientu) 1. Spravíme skúšobný projekt ­ nastavíme detrendovanú korešpondenčnú analýzu (DCA), prípadne jej kanonickú formu (DCCA). 2. Použijeme metódu odstránenia trendu po segmentoch (čo v sebe zahŕňa tiež Hillovo škálovanie ordinačných skóre) 3. Zvolíme aj ostatné nastavenia rovnaké ako v záverečných analýzach 4. Spustíme analýzu 5. V okne Log view prezrieme výsledky ­ na konci výpisu je súhrnná tabuľka (Summary table), v nej riadok začínajúci slovami ,,Lengths of gradient" Voľba modelu: meranie dĺžky gradientu Aby sme mohli zvoliť medzi lineárnym a unimodálnym modelom, musíme odmeriať dĺžku gradientu. Lengths of gradient : 2.990 1.324 .812 .681 unimodálny model ak dĺžka najdlhšieho gradientu 4 lineárny model ak dĺžka najdlhšieho gradientu < 3 (nie je to však nutnosť použiť lineárny model) AnalýzaAnalýza hlavnýchhlavných komponent (PCA)komponent (PCA) Danka HaruDanka Harušštiakovtiakováá Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita Analýza hlavných komponent (PCA) Vstupné dáta Spojité alebo dummy premenné popisujúce jednotlivé objekty Výstupy analýzy Vzťahy všetkých pôvodných faktorov v jednoduchom xy grafe Pozícia objektov v priestore ­ jednoduchá identifikácia segmentov a vplyvov faktorov na rôzne skupiny Kritické problémy analýzy Odľahlé hodnoty Úplne nezávislé premenné ­ nie je tu žiadna duplicitná informácia k vysvetleniu Analýza hlavných komponent (PCA) Nahrádza pôvodný súbor pozorovaných parametrov (druhová matica) súborom nových (hypotetických), vzájomne nekorelovaných premenných tak, že prvá nová os (prvá hlavná komponenta, PC1, prvý nový parameter) je vedená v smere najväčšej variability medzi objektami, druhá os (druhá hlavná komponenta, PC2, druhý nový parameter) je vedená v smere najväčšej variability, ktorý je kolmý na smer prvej komponenty, atď. Je založená na vlastnej analýze (eigenanalysis) symetrických matíc (korelačnej, kovariančnej) PrincPrincíípp Premenné sú navzájom korelované, teda časť informácie v súbore je duplicitná Analýza odstráni duplicitu z dát a zobrazí len unikátnu informáciu x y Faktorové osy y x 1. faktorová os vyčerpá najviac celkovej variability Analýza hlavných komponent (PCA) Analýza hlavných komponent (PCA) Cieľ PCA: určenie uhlov medzi pôvodnými a novými osami súradnicovej sústavy, súradnice objektov v novom systéme súradnic. Nové osy (komponenty) nie sú vzájomne korelované. Vlastné čísla matice 1, 2, ... p sú interpretovateľné ako miery rozptylu zachytené komponentami y1, ... , yp. Pôvodne bola PCA navrhnutá pre kvantitatívne znaky, môže sa však použiť aj na znaky binárne a semikvantitatívne. Analýza hlavných komponent (PCA) Počet objektov (vzoriek) pri PCA by mal byť aspoň o jeden väčší než je počet analyzovaných parametrov (druhov). Obvykle se však odporúča, aby sa počet objektov blížil druhej mocnine počtu parametrov (súvisí s počtom stupňov voľnosti). V prípade, že n p, výsledná matica (korelačná alebo kovariančná) rádu p má len n ­ 1 nezávislých riadkov alebo stĺpcov. V takom prípade príslušná matica má p ­ (n ­ 1) nulových vlastných čísiel (na umiestnení n objektov podľa ich vzájomných vzdialeností je potrebných len n ­ 1 rozmerov). vzorka 1 druh1 druh2 druh3 vzorka 2 ... ... ... vzorka n Počet druhov p Početobjektovn druh4 druh5 Analýza hlavných komponent (PCA) REÁLNE DÁTA 6 lokalít, každá lokalita sledovaná 3 obdobia dátová matica: 18 vzoriek x 63 plankt. druhov hodnoty = stupeň dominancie Indirect gradient analysis Principal component analysis D1 D2 D3 G1 G2 G3 B1 B2 B3 I1 I2 I3 K1 K2 K3 S1 S2 S3 PCA je postavená na lineárnom modely; abundancia každého druhu buď narastá alebo klesá s hodnotou každého environmentálneho gradientu PCA je definovaná pre kovariančnú a pre korelačnú maticu PCA nie je vhodná pre dátovú maticu s veľa nulami PCA v Statistica Vstupy výpoVstupy výpoččtu PCAtu PCA WORK TRANSPORT HOUSEHOLD C HI LDREN SHOPPING PERSONAL CARE MEAL SLEEP TV Vstupná tabuľka spojitých dát Nutná analýza vzťahu premenných ­ analýza predpokladov PCA v Statistica Výstupy analýzyVýstupy analýzy hlavnýchhlavných komponentkomponent TRANSPOR HOUSEHOLDCHILDREN SHOPPING PERSONAL CARE MEAL SLEEP TV -1.0 -0.5 0.0 0.5 1.0 Factor 1 : 45.87% -1.0 -0.5 0.0 0.5 1.0 Factor2:23.31% Množstvo vyčerpanej variability (informačná hodnota osi) Pozícia faktora = miera väzby parametra s danou osou (-1,+1) Dôležitá pre interpretáciu. PCA v Statistica Výstupy PCAVýstupy PCA Množstvo vyčerpanej variability (informačná hodnota osi) Pozícia objektu vo faktorovom priestore EMU EWU MMU MWU SWU EMW EWW UWW MMW MWW SWW EME EWE UWE MME MWE SWE EMY EWY UWY MMY MWY SWY -6 -5 -4 -3 -2 -1 0 1 2 3 4 Factor 1: 45.87% -5 -4 -3 -2 -1 0 1 2 3 4 Factor2:23.31% TRANSPOR HOUSEHOLDCHILDREN SHOPPING PERSONAL CARE MEAL SLEEP TV -1.0 -0.5 0.0 0.5 1.0 Factor 1 : 45.87% -1.0 -0.5 0.0 0.5 1.0 Factor2:23.31% Pozíciu objektu možno vysvetliť pomocou grafu faktorov. PCA v Canoco Nastavenie škálovania Presnosť záveru o podobnosti druhov, vzťahov medzi druhmi a / alebo charakteristikami prostredia závisí z časti na škálach na jednotlivých ordinačných osiach. V prvom rade sa rozhodneme, či sa pri interpretácii zameriame na vzorky (porovnanie tried vzoriek, apod.) alebo druhy. Početnosti jednotlivých druhov sa môžu odrážať v dĺžke ich šípok (dominantné druhy budú mať potom šípky dlhšie než druhy vzácnejšie). (species scores: do not post- transform) Každý druh môže byť zrelativizovaný (divide by standard deviation vhodné pre tzv. korelačné projekčné diagramy). Ak máme charakteristiky prostredia, prípadne kovariáty, species scaling umožňuje charakterizovať korelácie medzi charakteristikami prostredia. PCA v Canoco Pred vlastným počítaním ordinácie je nutné nastaviť možnosti manipulácie s tabuľkou druhových dát Priemer každého riadku bude rovný nule. Centrovanie druhov nutné pre lineárne metódy s obmedzením (RDA) alebo pre parciálnu lineárnu ordináciu (tj. pri použití kovariát) Centrovanie Štandardizácia (vzoriek alebo druhov) spôsobí, že norma každého riadku alebo stĺpca bude rovná jednej. Táto norma je odmocnina zo sumy štvorcov hodnôt v riadku alebo stĺpci. Ak použijeme centrovanie aj štandardizáciu, prevedie sa centrovanie ako prvé. Po vycentrovaní a štandardizácii budú v stĺpcoch premenné s nulovým priemerom a jednotkovým rozptylom. PCA na druhových dátach bude odpovedať ,,PCA na matici korelácií". Ak máme charakteristiky prostredia (v RDA a v PCA externe), môžeme zvoliť štandardizáciu chybovým rozptylom (error variance). Tu Canoco odhaduje pre každý druh zvlášť rozptyl v druhových dátach, ktorý zostane nevysvetlený po fitovaní závislosti hodnôt tohto druhu na vybraných charakteristikách prostredia (a kovariátach, ak ich máme). Prevrátená hodnota tohto rozptylu sa potom použije ako váha druhu. Čím lepšie bude druh popísaný charakteristikami prostredia, tým vyššiu bude mať váhu. Štandardizácia PCA v Canoco Priemer každého stĺpca bude rovný nule. FaktorovFaktorováá analýza (FA)analýza (FA) Danka HaruDanka Harušštiakovtiakováá Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita -1,0 -0,5 0,0 0,5 1,0 Component 1 -1,0 -0,5 0,0 0,5 1,0 Component2 engine horse weight accel Component Plot inRotated Space -1,0 -0,5 0,0 0,5 1,0 Component 1 -1,0 -0,5 0,0 0,5 1,0 Component2 engine horse weight accel Component Plot Čím sa líši od analýzy hlavných komponent? Jediným rozdielem je rotácia premenných tak aby sa vytvorené faktorové osi dali dobre interpretovať Výhodou je lepšia interpretácia vzťahu pôvodných premenných Nevýhodou je priestor pre subjektívny názor analytika Faktorová analýza (FA) Danka HaruDanka Harušštiakovtiakováá AnalýzaAnalýza hlavnýchhlavných koordinkoordináát (t (PCoAPCoA)) Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita Analýza hlavných koordinát v Canoco Principal coordinates analysis (PCoA, PCO): klasické, metrické škálovanie Možnosť spočítať PCoA v Canoco: 1. zvoliť analýzu hlavných komponent (PCA) 2. ako druhové dáta je pripravená matica podobností alebo nepodobností (avšak s opačným znamienkom) ­ táto matica je teda štvorcová 3. Centered by samples 4. Centered by species 5. Symetrické škálovanie ordinačných skóre; species score nie sú nijak transformované Vstupom je matica nepodobností alebo podobností medzi vzorkami, z ktorej sa počíta ordinácia. V ordinačnom diagrame sú vzorky rozmiestnené tak, že podobné vzorky sú blízko seba, kým vzorky nepodobné sú od seba vzdialené. KoreKoreššpondenpondenččnnáá analýza (CA) aanalýza (CA) a detrendovandetrendovanáá korekoreššpondenpondenččnnáá analýza (DCA)analýza (DCA) Danka HaruDanka Harušštiakovtiakováá Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita Vstupné dáta Tabuľka obsahujúca súhrny premenných (počty, priemery) za skupiny objektov Výstupy analýzy Vzťahy všetkých pôvodných faktorov a/alebo skupín objektov v jednoduchom xy grafe Kritické problémy analýzy Skupiny s malým počtom hodnôt môžu byť zaťažené značným šumom a náhodnou chybou Obtiažna interpretácia veľkého množstva malých skupín objektov Korešpondenčná analýza Korešpondenčná analýza Korešpondenčná analýza - nástroj pre analýzu vzťahov medzi riadkami a stĺpcami kontingenčných tabuliek Skúmanie vzťahov medzi dvoma premennými Kontingenčná tabuľka: frekvenčná tabuľka (dvojvstupná), ktorá zaznamenáva kumulativné početnosti dvoch nominálnych (kategoriálnych) premenných. Každý stĺpec a každý riadok tabuľky reprezentuje jednu kategóriu danej premennej. Kategórie prvej premennej Kategórie druhej premennej S1 S2 S3 S4 S5 S6 L1 L2 L3 L4 L5 Princíp Korešpondenčná analýza hľadá, které kombinácie riadkov a stĺpcov hodnotenej tabuľky najviac prispievajú k jej variabilite. Vs. Realita Teoretická vyrovnanosť Korešpondenčná analýza Korešpondenčná analýza Základnou myšlienkou metódy korešpondenčnej analýzy je vytvoriť či odvodiť indexy (pokiaľ možno ,,jednoduché"), ktoré budú nejakým spôsobom označovať (kvantifikovať) vzťahy medzi riadkovými a stĺpcovými kategóriami. Z týchto indexov potom budeme schopní odvodiť, ktorá stĺpcová kategória má väčšiu či menšiu váhu v danom riadku a naopak. Korešpondenčný analýza se tiež vzťahuje k otázke zníženia dimenzionality dát podobne ako napr. analýza hlavných komponentov (principal component analysis: PCA) a k snahe o dekompozíciu tabuľky na faktory. Grafické znázornenie vzťahov, ktoré obdržíme z korešpondenčnej analýzy, je založené na myšlienke reprezentovať všetky stĺpce a riadky a interpretovať relatívne pozície bodov ako váhy prislúchajúce danému stĺpcu a riadku. Systém indexov, ktorý si pomocou tejto metódy odvodíme, nám teda bude poskytovať súradnice každého stĺpca a riadku. Tieto súradnice zakreslíme do grafu, z ktorého môžeme poznať, ktoré stĺpcové kategórie sú viac dôležité v riadkových kategóriách a naopak. Korešpondenčná analýza všeobecne: Korešpondenčná analýza Najjednoduchšou cestou ako odhadnúť optimum druhu pre unimodálny model je spočítať vážený priemer tých hodnôt charakteristík prostredia, pri ktorých sa druh vyskytuje. Ako váha sa pri výpočte používa početnosť ci iná dôležitostná hodnota druhu. Pri váženom priemerovaní je implicitne zahrnutá štandardizácia po vzorkách aj po druhoch. Korešpondenčná analýza v synekológii: Korešpondenčná analýza v ekológii spoločenstiev Korešpondenčná analýza: reciprocal averaging or eigenanalysis CA Náhodne zvolené Site Scores Vypočítané Species Scores ako WA SS Vypočítané nové Site Scores ako WA SpS Štandardizácia Sp S Štandardizácia S S Je zmena v scóre? koniec NIE ÁNO10.0000.2390.000WA4resc. 7.8270.5530.375WA4 10.0000.2400.000WA3resc. 7.8280.5550.377WA3 10.0000.2490.000WA2resc. 7.8410.6000.415WA2 10.0000.4500.000WA1resc. 10.9063.6613.319WA1 1372initial value 0.0270.0280.0502.556018Urtica 0.0600.0620.1133.250026Rubus 1.3101.3121.3634.625125Glechoma 10.00010.00010.00013.000300Cirsium WA4WA3WA2WA1Samp3Samp2Samp1 10.0000.2390.000WA4resc. 0.027018Urtica 0.060026Rubus 1.310125Glechoma 10.000300Cirsium WA4Samp3Samp2Samp1 Korešpondenčná analýza: reciprocal averaging or eigenanalysis Korešpondenčná analýza v ekológii spoločenstiev Sampl1 Sampl3 Sampl2 Urtica Rubus Glechoma Cirsium odľahlá hodnota (outlier) Korešpondenčná analýza: výsledky Ordinačný diagram Skóre druhov a lokalít (riadkov a stĺpcov) Charakteristické vektory a charakteristické čísla matice (eigenvalues, eigenvector) locality 1 locality 2 locality 3 locality 4 Charakteristické číslo (eigenvalue) odpovedá časti variability súboru vysvetlenej danou osou. Väčšinou používame prvé dva ­ tri charakteristické vektory = ordinačné osi. Ordinačné osi sú na sebe lineárne nezávislé. Vysoké skóre: druh s nízkou frekvenciou DowAgroScience DuPont Bayer Syngenta BASF Kvalita Dostupnost výrobků Oblíbenost firmy Cena výrobků Reklama -0.14 -0.12 -0.10 -0.08 -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 0.08 0.10 Dimension 1; Eigenvalue: .00303 (48.54% of Inertia) -0.10 -0.08 -0.06 -0.04 -0.02 0.00 0.02 0.04 0.06 0.08 0.10 0.12 Dimension2;Eigenvalue:.00232(37.21%ofInertia) Variabilita vyčerpaná danou faktorovou osou Vzájomná pozícia faktorov a skupín respondentov: vzájemnú pozíciu možno interpretovať VýstupyVýstupy korekoreššpondenpondenččnejnej analýzyanalýzy Korešpondenčná analýza v Statistica Nastavenie škálovania Korešpondenčná analýza (CA) V prvom rade sa rozhodneme, či sa pri interpretácii zameriame na vzorky (porovnanie tried vzoriek, apod.) alebo druhy. Ak máme charakteristiky prostredia, prípadne kovariáty, species scaling umožňuje charakterizovať korelácie medzi charakteristikami prostredia. Typ škálovania určuje, ako sa pozerať na druhové dáta pri diagrame druhy+vzorky. Biplot scaling je vhodnejší pre kratšie gradienty. Hillovo škálovanie zjednocuje šírky ník pre všetky osi. Korešpondenčná analýza (CA) Indirect gradient analysis Correspondence analysis REÁLNE DÁTA vtáčie druhy na 4 lokalitách dátová matica: 4 lokality x 38 dr. vtákov hodnoty = priemerná abundancia locality 1 locality 2 locality 3 locality 4 CA je postavená na unimodálnom modely; každý druh sa vyskytuje v ohraničenom rozsahu hodnôt každého environmentálneho gradientu CA je odporúčaná pre druhové dáta, ktoré obsahujú mnoho nulových hodnôt Indirect gradient analysis Correspondence analysis REÁLNE DÁTA suchozemské slimáky dátová matica: 42 lokalít x 33 dr. slimákov hodnoty = stupeň dominancie 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 CA je postavená na unimodálnom modely pri silnej unimodálnej odozve sa v ordinačnom diagrame CA zvykne ukázať tzv. ,,arch effect" ,,arch effect" môžeme odstrániť použitím detrendovanej formy CA Korešpondenčná analýza: ,,arch effect" Korešpondenčná analýza: ,,arch effect" 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 DCA Náhodne zvolené Site Scores Vypočítané Species Scores ako WA SS Vypočítané nové Site Scores ako WA SpS Je zmena v skóre? koniec NIE ÁNO Detrendovanie Site Scores ,,arch effect", ,,horse shoe effect" Detrendovaná korešpondenčná analýza (DCA) Odstraňovanie trendu odstraňovanie trendu po segmentoch neodporúča sa pre unimodálne ordinačné metódy, kde sú používané kovariáty alebo charakteristiky prostredia odstraňovanie trendu polynómami keď sú používané kovariáty alebo charakteristiky prostredia a je potrebné odstániť trend Pre unimodálne ordinácie s obmedzením (CCA) obvykle nie je detrendovanie nutné. Ak sa v CCA oblúkový efekt objaví, je to známkou nadbytočnosti v súboru zvolených charakteristík prostredia. Doporučuje sa vylúčiť silne korelované premenné. Výber charakteristík prostredia, které sú mezi sebou korelované len minimálne, sa dá previesť postupnou selekciou charakteristík prostredia (forward selection of environmental variables). Detrendovaná korešpondenčná analýza (DCA) Indirect gradient analysis Detrended correspondence analysis 1 2 3 4 5 6 7 89 10 11 12 13 14 15 16 17 18 19 2021 22 23 24 25 26 27 2829 30 31 32 33 34 35 36 37 38 39 40 41 42 DCA je postavená na unimodálnom modely DCA odstraňuje ,,arch effect" niekoľkými možnými spôsobmi REÁLNE DÁTA suchozemské slimáky dátová matica: 42 lokalít x 33 druhov slimákov hodnoty = stupeň dominancie Priame ordinPriame ordinááciecie ­­ ordinordináácie s obmedzencie s obmedzeníímm Danka HaruDanka Harušštiakovtiakováá Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita Priame ordinačné metódy Priame ordinačné metódy: hľadanie najlepších vysvetľujúcich premenných. V nepriamych ordináciách hľadáme akúkoľvek premennú, ktorá je schopná vysvetliť najlepšie druhové zloženie (a tú potom vezmeme ako ordinačnú os). V priamych ordináciách sú ordinačnými osami vážené charakteristiky prostredia. Čím menej týchto charakteristík máme, tým prísnejšie bude obmedzenie. Ak je ich počet väčší než počet vzoriek zmenšený o jednu, tak sa ordinácia stáva nepriamou. Neobmedzené (unconstrained) ordinačné osy odpovedajú smeru najväčšej variability v súbore dát. Obmedzené (constrained) ordinačné osi odpovedajú smeru najväčšej variability v dátovom súbore, ktorá môže byť vysvetlená charakteristikami prostredia. Počet obmezených osí nemôže byť väčší než počet charakteristík prostredia. Priama gradientová analýza Grafické znázornenie jednoduchého lineárneho regresného modelu Y závislá premenná (vysvetľovaná) nezávislá X premenná (vysvetľujúca) regresný reziduál, označený ako e: rozdiel medzi (pozorovanými) hodnotami vysvetľovanej premennej Y a hodnotami predpovedanými modelom (očakávané hodnoty, Y so strieškou). Všetky štatistické modely majú dve dôležité zložky: 1. systematická ­ časť variability vysvetľovaných premenných, ktorú môžeme vysvetliť vysvetľujúcimi premennými (prediktormi) pomocou zvolenej parametrickej funkcie. 2. stochastická ­ ostávajúca časť variability hodnôt vysvetľovanej premennej, ktorú nemožno predpovedať systematickou časťou modelu. Definuje sa pomocou predpokladaných pravdepodobnostných a distribučných vlastností. Priama gradientová analýza Regresný model Kvalitu modelu posudzujeme podľa množstva variability popísanej systematickou zložkou (obvykle v pomere k stochastickej zložke). Regresný model s viacerými premennými Možnosť postupného výberu významných premenných Začíname s nulovým modelom bez prediktorov, predpokladáme, že variabilitu vysvetľovanej premennej nejde predpovedať, a popisuje ju len stochastická zložka. Potom vyberieme z dostupných premenných jediný prediktor ­ ten, ktorý v regresnom modely vysvetľuje najviac variability. Aj keď zvolíme ten najlepší prediktor, môže byť jeho príspevok len náhodný => testovanie (prehádzanie hodnôt tohto prediktoru ...) Postupné testovanie všetkých premenných; končíme keď ,,najlepší" z ostávajúcich kandidátov už nie je ,,dostatočne dobrý". Priama gradientová analýza Nepriame gradientové analýzy hľadali teoretické gradienty, ktoré boli ,,optimálnymi" prediktormi v regresných modeloch lineárnej či unimodálnej odpovedi druhov. Metódy priamej gradientovej analýzy sa snažia o to isté, ale gradienty, ktoré je týmto metódam ,,dovolené nájsť", sú viac obmedzené. Tieto gradienty sú lineárnou kombináciou predložených vysvetľujúcich premenných (charakteristík prostredia). Abundanciu jednotlivých druhov sa snažíme vysvetliť pomocou zložených premenných, ale tieto premenné sú definované na základe hodnôt pozorovaných charakteristík. Metódy priamej gradientovej analýzy sa podobajú mnohorozmernej násobnej regresii. V priamej gradientovej analýze: vplyv prediktorov na vysvetľované premenné cez niekoľko ,,zprostredkujúcich" gradientov ­ kanonických ordinačných osí (canonical axes, constrained axes). Existuje tu toľko kanonických osí, koľko je nezávislých vysvetľujúcich premenných. Priama gradientová analýza (direct gradient analysis; constrained, canonical ordination methods) ­ kombinácia ordinácie a regresie Výber štatisticky významných premenných Výber štatisticky významných premenných: permutačný test Monte-Carlo permutačný test: testuje štatistickú významnosť obmedzených ordinačných modelov H0: primárne (druhové) dáta sú nezávislé na vysvetľujúcich premenných rôzne spôsoby nastavenia testu pre dáta s určitou priestorovou, časovou a logickou vnútornou štruktúrou, v závislosti na usporiadaní pokusu a odbere vzorky Výber štatisticky významných premenných Permutačný test permutované hodnoty premennej ­ vytvorenie niekoľkých permutácií (náhodné prehodenie hodnôt premennej medzi vzorkami) ­ testovanie rozdielu od pôvodnej premennej Priestorové a časové obmedzenia ak je v dátach vnútorná štruktúra použijeme pri permutáciach obmedzenie vzorky pozdĺž časového alebo lineárneho transektu => permutácie ,,rotovaním" split-plot design permutácie v rámci bloku ­ ten je charakterizovaný niekoľkými nominálnymi premennými Výber štatisticky významných premenných Permutačný test Ak použijeme manuálne permutačné testovanie ­ vidíme priebeh testovania po krokoch. Vybrané charakteristiky prostredia Kandidáti na prediktory Testovanie významnosti priamej ordinácie Permutačný test Testovanie významnosti prvej kanonickej ordinačnej osi: Monte-Carlo permutačný test Vhodný typ permutácií je určený typom experimentálneho designu a designu vzorkovania (možnosti permutačných testov pre split-plot designs a iné multi-level designs Global permutation test ­ Both above tests vykonajú sa dva Monte-Carlo testy: 1. test významnosti prvej kanonickej osi 2. test významnosti všetkých kanonických osí Testovať významnosť ordinačnej osi v nepriamych analýzach nie je možné. Testovať môžeme aj vplyv environmentálnych premenných po odčítaní kovariátov (parciálny test) RedundanRedundanččnnáá analýza (RDA)analýza (RDA) Danka HaruDanka Harušštiakovtiakováá Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita Redundačná analýza (RDA) RDA je kanonická forma analýzy hlavných komponent (PCA) V obmedzenej metóde (RDA) podliehajú skóre objektov (vzoriek) obmedzujúcej podmienke: definujú sa ako lineárna kombinácia vysvetľujúcich premenných Direct gradient analysis Redundancy analysis RDA nie je vhodná pre druhové dáta, v ktorých sa vyskytuje mnoho nulových hodnôt Redundačná analýza (RDA) Redundancy analysis (RDA) Principal component analysis (PCA) PCA ... regresia RDA ... mnohonásobná regresia Abundancia každého druhu je modelovaná lineárnou regresiou podľa vysvetľujúcej premennej, ktorej hodnoty sú neznáme (neznáme x; teoretický gradient, prvá hlavná komponenta). RDA obmedzuje hodnoty tak, že požaduje, aby x bolo lineárnou kombináciou meraných charakteristík prostredia. RDA je mnohonásobnou regresiou pre všetky druhy súčasne s lineárnym obmedzením regresných koeficientov. Supplementary species, samples, variables Tzv. suplementárne druhy, vzorky, charakteristiky prostredia (v staršej verzii Canoca označované ako pasívne) sa odlišujú od aktívnych tým, že neovplyvňujú tvorbu ordinačných osí. Môžu byť však pridané do existujúcej ordinácie (napr. regresným modelovaním ich dát na existujúce ordinačné osi). Druhy a vzorky, ktoré majú byť pasívne, musia byť pripravené v matici druhových dát. Charakteristiky prostredia, ktoré majú byť pasívne, musia byť pripravené v samostatnom súbore. KanonickKanonickáá korekoreššpondenpondenččnnáá analýzy (CCA)analýzy (CCA) Danka HaruDanka Harušštiakovtiakováá Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita CCA Náhodne zvolené LC Scores Vypočítané Species Scores ako WA z LC S Vytvorenie LC Site Scores predikciou z multiple regres. Je zmena v skóre? koniec NIE ÁNO Kanonická korešpondenčná analýza (CCA) CCA je obmedzená ordinácia druhové dáta + vysvetľujúce premenné len ,,zmysluplné" vysvetľujúce premenné Forward selection: Vypočítané WA ako WA z SpS Permutačný test H0: Vysvetľovacia sila skupiny environmentálnych premenných sa pridaním danej premennej nezvýši viac, než keby sme pridali takú premennú, ktorá má rovnaké distribučné vlastnosti ako uvažovaná premenná, ale nemá žiadny vzťah k druhovým dátam. Kanonická korešpondenčná analýza (CCA) Direct gradient analysis Canonical correspondence analysis REÁLNE DÁTA spoločenstvá makrozoobentosu dátové matice: 60 lok. x 63 tax. (stupeň dominancie) 60 lok. x 13 environm. faktorov (fs) temperature level Q v(0.9) akal psamal CCA je kanonická forma CA CCA sa odporúča pre druhové dáta s veľkým výskytom nulových hodnôt Danka HaruDanka Harušštiakovtiakováá ParciParciáálnelne ordinordinááciecie Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita covariablesspecies data sitessites 1 2 3 ..................... i .......... n 1 2 3 ..................... i .......... n covariables 1 2 . . . l . . p 1 2 . . . . k . . m species Parciálna ordinácia environmental variables sites 1 2 3 ..................... i .......... n environmentalvariables 1 2 . . . j . . q + Druhové dáta Kovariáty Charakteristiky prostredia covariablesspecies data sitessites 1 2 3 ..................... i .......... n 1 2 3 ..................... i .......... n covariables 1 2 . . . l . . p 1 2 . . . . k . . m species + Druhové dáta Kovariáty + Indirect gradient analysis Direct gradient analysis Parciálne ordinácie Pre všetky metódy je možné použiť dielčie (parciálne) analýzy. V parciálnych analýzach je najprv oddelený vplyv kovariát a analýza je potom prevedená len na zostávajúcej variabilite. Correspondence analysis (CA) Dentrended correspondence analysis (DCA) Principal component analysis (PCA) Canonical correspondence analysis (CCA) Redundancy analysis (RDA) Dátové zdroje: druhové dáta + kovariáty druhové dáta + charakteristiky prostredia + kovariáty Parciálna ordinácia Danka HaruDanka Harušštiakovtiakováá Priame vs.Priame vs. nepriamenepriame ordinaordinaččnnéé metmetóódydy Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita Priama či nepriama gradientová analýza? environmental data species data sitessites 1 2 3 ..................... i .......... n 1 2 3 ..................... i .......... n environmentalvariables 1 2 . . . j . . q 1 2 . . . . k . . m species Máme druhové dáta aj charakteristiky prostredia. Môžeme použiť oba prístupy: priamu aj nepriamu ordináciu. 1. Spočítame najprv nepriamu ordináciu s následnou regresiou ordinačných osí na merané charakteristiky prostredia (tj. premietnutie týchto charakteristík do ordinačného diagramu) 2. Spočítame priamu (obmedzenú) ordináciu. Tieto prístupy sú komplementárne a mali by sa použiť oba. Je potrebné vždy uviesť metódu, ktorá bola použitá. V štandardnej priamej ordinácii je toľko obmedzených (kanonických) osí, koľko je nezávislých vysvetľujúcich premenných a len ďalšie ordinačné osi sú neobmedzené. V hybridnej analýze sa spočíta len vopred daný počet obmedzených osí a akékoľvek ďalšie ordinačné osi sú neobmedzené. Hybridná gradientová analýza? environmental data species data sitessites 1 2 3 ..................... i .......... n 1 2 3 ..................... i .......... n environmentalvariables 1 2 . . . j . . q 1 2 . . . . k . . m species Máme druhové dáta aj charakteristiky prostredia. Hybridná analýza: ,,kríženec" medzi priamou a nepriamou ordináciou. Lineárny alebo unimodálny model? Voľba modelu: na základe dĺžky gradientu unimodálny model ak dĺžka najdlhšieho gradientu 4 (techniky váženého priemerovania sú lepšie pre heterogénne dáta) lineárny model ak dĺžka najdlhšieho gradientu < 3 (nie je to však nutnosť použiť lineárny model) (techniky založené na modely lineárnej odpovede sú vhodné pre homogénne dátové súbory) ? Nepriama vs. priama gradientová analýza Indirect gradient analysis Direct gradient analysis Environmentálny gradient je možné charakterizovať len na základe druhových dát. Priama gradientová analýza poskytuje súhrn vzťahov druh- prostredie. Gradient je charakterizovaný pomocou env. premenných. Predpokladáme, že všetky druhy reagujú na zložený gradient env. premenných podľa rovnakého modelu odozvy. Environmentálne podmienky nie je možné vždy charakterizovať úplne ­ môže sa stať, že prehliadneme nejaký dôležitý faktor. Druhové zloženie je ľahko determinovateľné a tak je lepším indikátorom prostredia ako akákoľvek kombinácia meraných environmentálnych premenných. Danka NDanka Néémethovmethováá DiskriminaDiskriminaččnnáá analýza (CVA, DFA)analýza (CVA, DFA) Podzim 2008Podzim 2008 Inštitút bioštatistiky a analýz, Masarykova univerzita Samostatný PPT Danka HaruDanka Harušštiakovtiakováá NeparametrickNeparametrickáá ordinordinááciacia (NMDS)(NMDS) PodzimPodzim 20092009 Inštitút bioštatistiky a analýz, Masarykova univerzita Neparametrická ordinácia (NMDS) Indirect gradient analysis Multidimensional scaling neparametrická ordinácia je robustnejšia k vychýleným hodnotám (napr. druh s výnimočne vysokou abundanciou na lokalite v jednom roku) dá sa použiť pred použitím nehierarchického zhlukovania K-means (v prípadoch keď nie je možné použiť euklidovské vzdialenosti) počet dimenzií musí byť určený vopred ťažko interpretovateľné výsledky mnohonásobné škálovanie sa používa ako prieskumná metóda cieľom analýzy je zobraziť pozorované podobnosti alebo nepodobnosti (vzdialenostiach) medzi skúmanými objektami v euklidovskom priestore pomocou NMDS môžeme analyzovať nielen korelačné matice (ako v PCA) ale aj hocijakú inú maticu podobnosti/nepodobnosti Výběr parametrů (vstupní soubor musí mít formát asociační matice) Počet dimenzí k extrakci Počáteční konfigurace Vzdálenosti menší než jsou považovány za 0 Počty iterací Multidimensional scaling dokáže na základě asociační matice s libovolnou metrikou vytvořit její Euklidovskou reprezentaci (příklad: na základě tabulky vzdáleností měst vytvoří mapu). Mnohonásobné škálovanie v Statistica Výpočet Parametry měnící se při přepočtech Multidimensional scaling může sloužit pro přípravu podkladů pro k-means clustering pokud nemůžeme na naše data použít Euklidovskou vzdálenost. Metoda je výpočetně velmi náročná. Mnohonásobné škálovanie v Statistica Výsledky Quick Výstup nových dimenzí + charakteristiky Popis analýzy Výstupní 2D a D graf Shephard diagram ~ věrnost reprezentace Mnohonásobné škálovanie v Statistica Shepard Diagram Distances and D-Hats vs. Data -100 0 100 200 300 400 500 600 700 800 Data -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 Distances/D-Hats Výsledky tabulky objekty D-hat ~ průběh vzdáleností při dobré reprezentaci vzdálenosti Nové dimenze Stress ­ měřítko reprezentace, čím nižší, tím lepší reprezentace Alienation ­ cizost, čím nižší, tím lepší reprezentace Shepard diagram Mnohonásobné škálovanie v Statistica Výsledky Advanced Výstup nových dimenzí + charakteristiky Výstupní 2D a 3D graf D-hat, D-star Matice vzdáleností (reprodukovaná) Sumární hodnoty (reprodukovaná vzdálenost, D-hat, D-star) Shepard diagram D-hat, D-star versus reprodukovaná vzdálenost ~ věrnost reprodukce Mnohonásobné škálovanie v Statistica Mnohonásobné škálovanie ­ príklad máme k dispozícii maticu vzdialeností miest Slovenska z mapy cieľ: zreprodukovať vzdialenosti medzi mestami v dvojrozmernom priestore 0786419622313916925259238202117Žilina 78014220830121791103337160124139Trenčín 641420140159751723919524125753Ružomberok 1962081400165133188171129213273105R. Sobota 22330115916508432719836396412208Prešov 13921775133840243114120312328124Poprad 1699117218832724301453176985119Nitra 2510339171198114145023421422792Martin 259337195129361203172340342402214Košice 238160241213396312692143420100188Komárno 202124257273412328852274021000204Bratislava 11713953105208124119922141882040B. Bystrica Žilina Tren čín Ružo mber ok Rima vská Sobo ta Preš ov Popr adNitra Marti n Košic e Kom árno Brati slava Bans ká Bystr ica Mnohonásobné škálovanie ­ príklad Banská Bystrica Bratislava Komárno Košice Martin Nitra Poprad Prešov Rimavská Sobota Ružomberok Trenčín Žilina -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 Dimension 1 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8Dimension2 Výsledok mnohonásobného škálovania Mnohonásobné škálovanie ­ príklad 0 50 100 150 200 250 300 350 400 450 Data 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Distances/D-Hats Distances and D-Hats vs. Data Ukážka Shepardovho diagramu (príklad miest Slovenska)