Bi6589 Laboratorní a bioinformatické metody rostlinné biosystematiky Analýza a vizualizace více dimenzionálních dat ORDINACE •Naměřili jsme u vzorků spoustu údajů (PROMĚNNÝCH) = vícedimenzionální data Ordinace •Naměřili jsme u vzorků spoustu údajů (PROMĚNNÝCH) = vícedimenzionální data • •Identifikace vhodných znaků pro diskriminační analýzu • •Ordinace = redukce vícedimenzionálních dat a vizualizace vztahů mezi vzorky •Více ordinačních metod (např. PCA, PCoA, DCA, NMDS) - rozdíly spočívají v metodologii, předpokladech a typech dat Ordinace Metoda Typ vzdáleností Lineárnost Model vztahů Hlavní použití PCA Euklidovská Lineární Ortogonální Kontinuální data, lineární vztahy PCoA Různé metriky Nemusí být Generalizované Diskrétní/číselná data, různé metriky DCA Unimodální Nelineární Unimodální Ekologická data s gradienty NMDS Nemetrické Nelineární Pořadí vzdáleností Komplexní a nestrukturovaná data Přehled vybraných ordinačních metod Metoda Typ vzdáleností Lineárnost Model vztahů Hlavní použití PCA Euklidovská Lineární Ortogonální Kontinuální data, lineární vztahy PCoA Různé metriky Nemusí být Generalizované Diskrétní/číselná data, různé metriky DCA Unimodální Nelineární Unimodální Ekologická data s gradienty NMDS Nemetrické Nelineární Pořadí vzdáleností Komplexní a nestrukturovaná data Přehled vybraných ordinačních metod Tranformace dat a jejich standardizace umožňuje využití více metod NMDS (Non-Metric Multidimensional Scaling) - nemetrické více-dimenzionální škálování; umožňuje zkoumat komplexní ekologická a taxonomická data tím, že je redukuje do menšího počtu dimenzí při zachování vzorců podobností (nebo rozdílů). Metoda Typ vzdáleností Lineárnost Model vztahů Hlavní použití PCA Euklidovská Lineární Ortogonální Kontinuální data, lineární vztahy PCoA Různé metriky Nemusí být Generalizované Diskrétní/číselná data, různé metriky DCA Unimodální Nelineární Unimodální Ekologická data s gradienty NMDS Nemetrické Nelineární Pořadí vzdáleností Komplexní a nestrukturovaná data Přehled vybraných ordinačních metod NMDS (Non-Metric Multidimensional Scaling) Důležitá je hladina stresu: Stress Fit Description <0.05 Excellent considered best for NMDS interpretation <0.1 Good good ordination with little risk of misinterpreation <0.2 Fair usable but higher values approach poor interpretation >0.2 Poor poorly represents the data Analýza a vizualizace více dimenzionálních dat Diskriminační analýza •statistické metody používané k rozlišování mezi dvěma nebo více skupinami na základě hodnot vstupních proměnných •cílem je klasifikovat nové pozorování do správné skupiny nebo pochopit vztahy mezi proměnnými a skupinami. Diskriminační analýza Volba metody závisí •Povaze dat (např. lineární vs. nelineární vztahy). •Předpokladech (např. normalita, homogenita kovariančních matic). •Účelu analýzy (např. predikce, interpretace). Přehled vybraných metod Diskriminační analýzy (dle GPT chat) Metoda Cíl Předpoklady Použití Výhody Lineární diskriminační analýza (LDA) Najít lineární kombinace proměnných pro separaci skupin. Normalita dat, homogenní kovarianční matice. Klasifikace, redukce dimenze dat. Jednoduchost, efektivní pro lineárně separovatelné skupiny. Kvadratická diskriminační analýza (QDA) Umožnit různé kovarianční matice mezi skupinami. Normalita dat, rozdílné kovarianční struktury. Nelineárně separovatelné skupiny. Flexibilita, zvládá složitější separace. Kanonická diskriminační analýza (CDA) Maximalizace separace mezi skupinami pomocí kanonických funkcí. Podobné jako LDA. Redukce dimenze, analýza odlišností mezi skupinami. Vizuální interpretace separace skupin. Naivní Bayesova metoda Klasifikace na základě nezávislých proměnných. Nezávislost mezi proměnnými. Rychlá klasifikace, textová analýza. Rychlost, jednoduchost implementace. Flexibilní diskriminační analýza (FDA) Nelineární klasifikace pomocí spline nebo jiných metod. Žádné přísné předpoklady. Nelineární vztahy mezi proměnnými a skupinami. Flexibilita v modelování. Diskriminační analýza s penalizací Zvládnout vysokorozměrná data a snížit overfitting. Závisí na konkrétní penalizaci (ridge, lasso). Genomika, chemometrie. Řešení problémů s vysokou dimenzionalitou. Smíšené modely DA Zohlednit hierarchickou strukturu nebo opakovaná měření. Korelace mezi daty nebo hierarchická struktura. Situace s opakovanými pozorováními. Zvládá složité datové struktury. Neuronové sítě v DA Klasifikace nelineárních a složitých dat pomocí hlubokého učení. Velká datová množství a výkonný hardware. Obrázky, texty, komplexní úlohy. Vysoce flexibilní, robustní. Random Forest Diskriminace Klasifikace a odhad pravděpodobností pomocí rozhodovacích stromů. Robustní vůči šumu, zvládá různé typy proměnných. Predikce, analýza s velkým šumem v datech. Robustní, zvládá velké množství proměnných. Přehled vybraných metod Diskriminační analýzy (dle GPT chat) Metoda Cíl Předpoklady Použití Výhody Lineární diskriminační analýza (LDA) Najít lineární kombinace proměnných pro separaci skupin. Normalita dat, homogenní kovarianční matice. Klasifikace, redukce dimenze dat. Jednoduchost, efektivní pro lineárně separovatelné skupiny. Kvadratická diskriminační analýza (QDA) Umožnit různé kovarianční matice mezi skupinami. Normalita dat, rozdílné kovarianční struktury. Nelineárně separovatelné skupiny. Flexibilita, zvládá složitější separace. Kanonická diskriminační analýza (CDA) Maximalizace separace mezi skupinami pomocí kanonických funkcí. Podobné jako LDA. Redukce dimenze, analýza odlišností mezi skupinami. Vizuální interpretace separace skupin. Naivní Bayesova metoda Klasifikace na základě nezávislých proměnných. Nezávislost mezi proměnnými. Rychlá klasifikace, textová analýza. Rychlost, jednoduchost implementace. Flexibilní diskriminační analýza (FDA) Nelineární klasifikace pomocí spline nebo jiných metod. Žádné přísné předpoklady. Nelineární vztahy mezi proměnnými a skupinami. Flexibilita v modelování. Diskriminační analýza s penalizací Zvládnout vysokorozměrná data a snížit overfitting. Závisí na konkrétní penalizaci (ridge, lasso). Genomika, chemometrie. Řešení problémů s vysokou dimenzionalitou. Smíšené modely DA Zohlednit hierarchickou strukturu nebo opakovaná měření. Korelace mezi daty nebo hierarchická struktura. Situace s opakovanými pozorováními. Zvládá složité datové struktury. Neuronové sítě v DA Klasifikace nelineárních a složitých dat pomocí hlubokého učení. Velká datová množství a výkonný hardware. Obrázky, texty, komplexní úlohy. Vysoce flexibilní, robustní. Random Forest Diskriminace Klasifikace a odhad pravděpodobností pomocí rozhodovacích stromů. Robustní vůči šumu, zvládá různé typy proměnných. Predikce, analýza s velkým šumem v datech. Robustní, zvládá velké množství proměnných. Random Forest Diskriminace Předpoklady •Závislá proměnná: Musí být kategorická (= vzorky, resp. jména vzorků). •Nezávislé proměnné: Kontinuální nebo kategorické prediktory, které vysvětlují závislou proměnnou (= studované znaky). •Vyvážení skupin: vzorky z různých skupin by v datovém souboru měly být vyvážené. • Interpretace výsledků: •Význam proměnných (Feature Importance): Identifikace proměnných s největším přínosem pro predikci. •Predikce (Class probabilities): Pravděpodobnosti přiřazení k jednotlivým třídám.