U N I Zpracování a analýza (velkých) dat Tomáš Rebok Data - fenomén dnešní doby -potenciálním zdrojem dat je prakticky cokoli (a kdokoli) -vhodné vytěžování dat může odpovědět na mnoho otázek - ovlivňující jak business, tak i pokrok společnosti I Social Network Data - problém není data generovat - problém již není ani data uložit - problém je tato data zpracovat - resp. získat z nich užitečné informace 2 PV177 - DataScience - L02 f Financial Data ] Big Data Analytics I Data from ERP System; Intŕrnŕt ol Thlngt Základní členění dat 1. Strukturovaná data - data s identifikovatelnou strukturou - typicky reprezentovaná tabulkami 2. Nestrukturovaná data - data bez jasné struktury, bez modelu - typicky multimediální data 3. Semi-strukturovaná data - kombinace obojího - nestrukturovaná data s částečnou Easiertomanage .i. r 'it i \ i \ afld protect with strukturovanou informaci (tzv. metadaty) ^acysolution. PV177 - DataScience - L02 Structured Data Q Unstructured Data Can be displayed in rows, columns and relational databases Numbers, dates and strings Estimated 20% of enterprise data (Gartner) Requires less storage Cannot be displayed in rows, columns and relational databases Images, audio, video, word processing files, e-mails, spreadsheets Estimated 80% of enterprise data (Gartner) Requires more storage More difficult to manage and protect with legacy solutions 1. Strukturovaná data DATA S et OrderDate - typicky tabulková data, reprezentovaná sloupci a řádky - sloupce = vlastnosti konkrétního záznamu, řádky = jednotlivé (různé) záznamy - data mají definovanou strukturu, která je neměnná - resp. mění se jen velmi omezeně - např. finanční transakce, záznamy prodejů, ... - reprezentace (a analýza) strukturovaných dat: - jedinou tabulkou (MS Excel-stylé) - relační databází (soubor vzájemně provázaných tabulek) tzv. SQL databáze např. MS Access-style PV177 - DataScience - L02 1 OrderDate Q Region 3 Rep 3 Item Q Units B Unit Cost B Total B 2 9/1/2014 Central Smith Desk 2 125 250 3 6/17/2015 Centra Kivell Desk 5 125 625 4 9/10/2015 Central Gill Pencil 7 1.29 9.03 5 11/17/2015 Central Jardine Binder 11 4.33 54.39 5 10/31/2015 Central Andrews Pencil 14 1.29 13.06 7 2/26/2014 Central Gill ^en 27 13.33 539.73 3 10/5/2014 Central Morgan Binder 28 S.33 251.72 9 12/21/2015 Centra Andrews Binder 23 4.33 139.72 10 2/9/2014 Central Jardine Pencil 36 4.33 179.64 11 S/7/2015 Centra Kivell ^en Set 42 23.35 1005.9 12 1/15/2015 Central Gill Binder 46 S.33 413.54 13 1/23/2C14 Centra Kivell Binder 50 13.33 999.5 14 3/24/2015 Central Jardine Pen Set 50 4.33 249.5 15 5/14/2015 Central Gill Pencil 53 1.23 63.37 16 7/21/2015 Central Morgan Pen Set 55 12.43 636.95 17 4/10/2015 Central Andrews Pencil 66 1.33 111.34 1H 13/l3/3ft1d rpn+ral ppnril Äfl dl Vybrané modely pro reprezentaci a analýzu STRUKTUROVANÝCH dat Tabulky - tabulka ve vhodném tabulkovém procesoru např. Microsoft Excel, Google Sheets, LibreOffice Writer, ... - dostupnost základní datové analytiky statistické funkce, grafy, atp. Relační (SQL) databáze schéma tabulek (relací) popsané SQL jazykem včetně vzájemných vazeb - základní analytické funkce dostupné přímo v jazyce SQL pokročilé zpracování v návazné aplikaci - např. PostgreSQL, MySQL, Sqlite, MS Access, ... - NewSQL přístup: škálovatelné SQL databáze např. NuoDB, VoltDB, TokuDB, GenieDB 5 PV177 - DataScience - L02 Marks mark id integer student id integer subject id integer date date/time mark Integer Students Student id integer first name varchar last name varchar group Id Integer Groups group id integer name varchar Subjects subject id integer title varchar Subject/teacher subject id integer teacher id integer group id integer Teachers teacher Id Integer first name varchar Last name varchar UfJ I 2. Nestrukturovaná data -data, která nejsou uspořádána podle předem definovaného datového modelu - resp. tento model není znám - drtivá většina dat (dle Gartner 80 % všech dat) - typické zdroje nestrukturovaných dat: - dokumenty, faktury, smlouvy, emaily, formuláře, ... obrázky, videa, audiozáznamy, geoprostorová data, ... - data ze senzorů a zařízení, data z počítačových systémů (logy)... - binární (= obecné) soubory - analýza s využitím specializovaných DB - tzv. NoSQL databáze - jedná se o mnohem větší objemy než v případě strukturovaných dat PV177 - DataScience - L02 llfl U 3. Semi-strukturovaná data = částečně strukturovaná data - např. nestrukturovaná data s doprovodným informacemi (tzv. metadaty) příp. navíc s proměnnou strukturou - doprovodné informace (metadata) slouží pro prohledávání/analýzu - příklad 1: emailové zprávy - tělo emailu (text zprávy) = nestrukturovaná data - hlavička emailu (odesílatel, příjemce, datum a čas odeslání, ...) = strukturovaná informace - příklad 2: digitální fotografie - zachycený obrázek = nestrukturovaná data - datum a čas pořízení, clona, čas závěrky, ID zařízení, ... = strukturovaná informace - některé strukturované informace lze doplnit až po zpracování např. informace o zachycených objektech (pes, kočka, osoba, ...) - umělá inteligence - drtivá většina nestrukturovaných dat je spíše semi-strukturovaných 7 PV177-DataScience-L02 llfl U Vybrané modely pro reprezentaci a analýzu SEMI-STRUKTUROVANÝCH dat (NoSQL) Key-value databáze - ukládají data ve formě „klíč = hodnota" - např. „věk = 25", „rok_narození = 2011" - klíč musí být jedinečný - hodnoty mohou být jednoduché i složené záznamy - klíč může nést komplexnější informaci - student:23757:jméno = „Jan" - student:23757:příjmění = „Novák" - hlavní výhodou je jednoduchost a rychlost - výborně škálují, vhodné pro masové operace Amazon DynamoDB 8 PV177 - DataScience - L02 Key Value Kl r ™asa;_| k2 k3 ^■aaa,ddd k4 aaa, 2,01/01/2015 k5 3,zzz,5623 Vybrané modely pro reprezentaci a analýzu SEMI-STRUKTUROVANÝCH dat (NoSQL) Dokumentové databáze - hlavní úložnou jednotkou je dokument - seskupení „key:value" hodnot popisujících uloženou entitu - klíče v různých dokumentech mohou být odlišné - podporuje uložení komplexních informací k objektům - a jejich prohledávání + analýzu -velmi rozšířené a hojně používané elasticsearch Document 1 í "id": T, "name": "John Smith", "isAdtiye": true, "dob": "1964-30-08" Document 2 í Document 3 { í "id": "2", "fuJlName": "Sarah Jones", "isActíye1': falše, "dob": "2002-02-18" } PV177 - DataScience - L02 "id": "3", "ĎJdJMame": { "first": "Adam", "last": "Stark" }, "jsActjve": true, "dob": "2015-04-19" } Vybrané modely pro reprezentaci a analýzu SEMI-STRUKTUROVANÝCH dat (NoSQL) Grafové databáze - reprezentace uložených dat formou (libovolně komplexního) grafu - uzly i hrany podporují uložení dalších metadat nejčastěji formou „key:value" - extrémně rychlé pro vyhledávání lokálních („vztahových") informací - např. „všichni známí mých přátel11 rychlost těchto dotazů nezávisí na množství uložených dat viz sociální sítě - nevhodné pro globální prohledávání např. „průměrný věk všech uložených osob11 name: "Dan" born: May 29, 1970 twitter: "@dan" since Jan 10, 2011 >neo4j name: "Ann" born: Dec 5, 1975 10 PV177 - DataScience - L02 Vybrané modely pro reprezentaci a analýzu SEMI-STRUKTUROVANÝCH dat (NoSQL) Existuje řada dalších přístupů - řádkově-orientované a sloupcově-orientované databáze - databáze pro uložení časových řad - databáze pro uložení prostorových dat Vícemodelové databáze ^ArangoDB ^OrientDB* - umožňují využití vícero různých modelů y a vícero pohledů (forem dotazů) na tatáž data 11 PV177-DataScience-L02 Ml U l\l I Analýza (velkých) dat •reserve 12 PV177 - DataScience - L02 Big Data Co jsou to Big Data? - data velkých objemů © - větších, než je možné zpracovávat jednoduchými prostředky -ale nejen to: - data, která nelze zachytit jednoduchými strukturami - resp. data, jejichž struktura se mění - resp. data, která nelze jednoduše zpracovat - Big Data přístupy byly navrženy v souvislosti s potřebou analyzovat nestrukturovaná (resp. semi-strukturovaná) data 13 PV177 - DataScience - L02 MUNI Big Data - definice - data vyhovující (některému z) tzv. 4V - Volume (objem) - data velkých objemů - Velocity (rychlost) - data, která vznikají (přicházejí) rychleji než jak je možno je (standardně) zpracovat - Variety (rozdílnost) - data různých struktur a typů, různorodého charakteru - Veracity (věrohodnost) - nutnost čištění nekonzistentních/neúplných dat (např. data ze sociálních sítí) - občas uváděno jen jako 3V (bez Veracity) - ale také jako 7V (+ Variability, Visualization, Value) nebo též až 42V © PV177 - DataScience - L02 Typické požadavky na Big Data systémy ^g* - ukládání velkého množství dat -zpracování dat v „rozumném" čase - zahrnuje nezbytnost „stěhování" dat k výpočetním procesům -škálovatelnost = schopnost systému růst se zvětšujícím se množstvím dat - schopnost pojmout dodatečný hardware (rozšíření systému) - schopnost využívat tytéž struktury a algoritmy - nejčastěji hovoříme o tzv. distribuovaných systémech výpočetní infrastruktura sestávající z více fyzických počítačů (výpočetních serverů) 15 PV177 - DataScience - L02 Ilji Škálovatelnost - je vždy nutné stěhování dat? - pro komplexnější zpracování se data typicky přenášejí od úložného systému k výpočetnímu procesu - v případě velkých objemů je toto (časově, datově) velmi náročné -tzv. Map-Reduce přístup - přenos výpočtu k datům (fáze Map) - vyhodnocení dílčích výsledků (fáze Reduce) - vhodné jen pro specifické typy výpočtů např. analýzu textových/obrázkových korpusů - technologie Apache Hadoop / ... Illll ~. um ... inu ••• inu 16 PV177 - DataScience - L02 MUN I Co pro analýzu & zpracování dat potřebujeme? - Dobře popsaný problém © - Vlastní data - ideálně realistická, ladění zpracování lze na menších datech - v horším případě syntetická - Předpokládané dotazy - mohou mít vliv na vhodný přístup pro zaindexování dat -Analýzu a návrh vhodného přístupu - Hardwarovou infrastrukturu - s dostatečnými parametry (výkon, úložiště, ...) - Implementaci a testování přístupu 17 PV177 - DataScience - L02 MU MUNI Kde s (velkými) daty pracovat? aneb Výpočetní infrastruktury v ČR 18 PV177 - DataScience - L02 Preserve i Superpočítačová centra - vysoký hardwarový výkon pro náročné výpočty a zpracování dat - seskupení tzv. výpočetních clusterů - specializované výpočetní přístupy - kompromis mezi uživatelskou přívětivostí a co nejefektivnějším využitím infrastruktur nejefektivnější využití skrze gridové výpočty - akademické vs. komerční výpočty - pro akademické využití často zdarma financováno z veřejných zdrojů - pro komerční využití za úplatu s výjimkou veřejných výzkumných projektů 19 PV177 - DataScience - L02 MU Slovníček pojmů - výpočetní cluster 20 PV177 - DataScience - L02 Slovníček pojmů - výpočetní cluster - skupina vzájemně propojených „běžných" počítačů (dnes) 21 PV177 - DataScience - L02 UÍJ I Superpočítačová centra v ČR -v ČR dostupná ve 3 infrastrukturách (centrech) - Cesnet/MetaCentrum gridový přístup cloudový přístup specializované výpočty -MUNI/CERIT-SC gridový přístup cloudový přístup specializované výpočty - VŠB-TUO/IT4lnnovations gridový přístup e-INFRA CZ https://www.e-infra.cz 22 PV177 - DataScience - L02 u MetaCentrum @ CESNET - aktivita sdružení CESNET - CESNET - sdružení založené (a podporované) českými vysokými školami poskytuje služby vysokým školám + vlastní výzkum - od roku 1996 koordinátor Národní Gridové Infrastruktury (NGI) - původně vzniklo na MUNI (Superpočítačové Centrum Brno, SCB, 1994) - integruje velká/střední HW centra (clustery, výkonné servery a úložiště) několika univerzit/organizací v rámci ČR —> poskytuje prostředí pro (spolu)práci v oblasti výpočtů a práce s daty Institute of Botany ASCR - integrováno do evropské gridové infrastruktury (EGI) University of West Bohemia 23 PV177 - DataScience - L02 G É ANT I MetaCentrum NGI - přístupné zaměstnancům a studentům VŠ/univerzit, AV ČR, výzkumným ústavům, atp. - komerční subjekty pouze pro veřejný výzkum - nabízí: - výpočetní zdroje - Úložné kapacity http://metavo.metacentrum.cz - aplikační programy - po registraci k dispozici zcela zdarma - „placení" formou publikací s poděkováním 24 PV177 - DataScience - L02 MUNI NGI - dostupný výpočetní hardware iip - výpočetní zdroje: cca 34000 jader (x86_64) - uzly s nižším počtem výkonných jader: 2x4-8 jader - uzly se středním počtem jader (SMP stroje): 32-80 jader - paměť až 10 TB na uzel - uzly s vysokým počtem jader: SGI U V 2000 - 504 jader (x86_64), 10 TB operační paměti - 384 jader (x86_64), 6 TB operační paměti - další „exotický" hardware: - uzly s GPU kartami, Xeon Phi, SSD disky, ... PV177 - DataScience - L02 http://metavo.metacentmm.cz/cs/state/hardware.html NGI - dostupný úložný hardware -cca 15 PB pro pracovní data - úložiště v Brně, Plzni, ČB, Liberci, Praze - uživatelská kvóta 1-3 TB na každém z úložišť -cca 80+ PB pro dlouhodobá/archivní data - HSM - páskové knihovny - objektové úložiště CEPH (analogie k Amazon S3) 26 PV177 - DataScience - L02 http://metavo.metacentrum.cz/cs/state/nodes MU NGI - dostupný software - ~ 300 různých aplikací (instalováno na požádání) - viz http://meta.cesnet.ez/wiki/Kateqorie:Aplikace - průběžně udržované vývojové prostředí - GNU, Intel, PGI, ladící a optimalizační nástroje (TotalView, Allinea), ... - generický matematický software - Matlab, Maple, Mathematica, gridMathematica, ... - komerční i volný software pro aplikační chemii - Gaussian 09, Gaussian-Linda, Gamess, Gromacs, Amber, ... - materiálové simulace - ANSYS Fluent CFD, Ansys Mechanical, Ansys HPC... - strukturní biologie, bioinformatika - CLC Genomics Workbench, Geneious, Turbomole, Molpro, ... - řada volně dostupných balíků 27 PV177 - DataScience - L02 MU NGI-jak počítat? - dávkové úlohy - popisný skript úlohy - oznámení startu a ukončení úlohy - interaktivní úlohy - textový i grafický režim - cloudové rozhraní - uživatelé nespouští úlohy, ale virtuální stroje pouze pro vědecké výpočty - grafické aplikace a virtuální desktopy v prostředí prohlížeče -specializovaná prostředí - Apache Hadoop, Galaxy, ... PV177 - DataScience - L02 Meta VO - jak se stát uživatelem? - podejte si přihlášku - http://metavo.metacentrum.cz , sekce „Přihláška" - EdulD.cz => ověření Vaší akademické identity proběhne s využitím Vaší domovské instituce - seznamte se s dokumentací a základy OS Linux - http://metavo.metacentrum.cz , sekce „Dokumentace" - praktická školení: https://metavo.metacentrum.cz/cs/seminars/index.html - https://www.abclinuxu.cz/ucebnice/zakladv - počítejte - netřeba oficiálních žádostí o výpočetní čas PV177 - DataScience - L02 IVI NGI pod pokličkou https ://wi ki. m etace n t ru m.cz/wiki/Frontend ssh (Linux) putty (Windows) user frontends o skirit nympha A ' alfrid tarkil zuphux PBS/Torque servers qsub arien qsub wagap pbsmon on web portal all the nodes available under the domain metacentrum.cz 30 PV177 - DataScience - L02 computing nodes non-virtualised nodes mandosl mandos2 virtualised nodes tarkil 1 tarkil1-1 tarkil 1-2 tarkil2 tarkil2-1 tarkil2-2 UNI NGI pod pokličkou - v číslech... - cca 34084 výpočetních jader, cca 600 uzlů - za rok 2020: -2606 uživatelů (k 31.12.2021) - cca 12 mil. spuštěných úloh cca 33000 úloh denně cca 4600 úloh / uživatel - celkem propočítáno cca 22,6 tis. CPUlet 31 PV177 - DataScience - L02 MU NGI pod pokličkou - a grafech 40000 35000 30000 25000 20000 15000 10000 5000 CPU cores @ MetaCentrum 2004 2006 2008 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 32 PV177 - DataScience - L02 u NGI pod pokličkou - a grafech... 2800 2600 2400 2200 2000 1800 1600 1400 1200 1000 800 600 400 200 0 Users @ MetaCentrum ni 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 33 PV177 - DataScience - L02 u NGI pod pokličkou - a grafech.. VYUŽITI META + CERIT-PBS + ELIXIR-PBS INSTITUCEMI Ostatní S¥í Sigma 1%. ČZĽ VŠE 2% UPOL 1% ÚCHP AV ČR 1% JČJ 3% ÚOCHB AV ČR SM V5CHT T?í MU 13% FľO AV ÍR S% UĽTS94 34 PV177 - DataScience - L02 UÍJ I NGI pod pokličkou - a grafech... Acknowledgements @ MetaCentrum 450 -i- 400 - Centrum CERIT-SC - Centrum CERIT-SC - výzkumné centrum vybudované na ÚVT MU - původně Superpočítačové centrum Brno (SCB) - poskytovatel HW a SW zdrojů - součást MetaCentrum NGI -služby nad rámec „běžného" HW centra - mezioborový (interdisciplinární) výzkum spolupráce IT výzkumníků a partnerů z jiných oborů PV177 - DataScience - L02 Centrum CERIT-SC - hlavní cíle Centra CERIT-SC @ MUNI: - flexibilní infrastruktura, vlastní výzkum v infrastrukturních oblastech - tři hlavní výzkumné směry: High-performance computing - akcelerace výpočtů, GPU computing, ... Artificial Intelligence - aplikace metod umělé inteligence a strojového učení Big Data analytics -snaha o maximální zapojení studentů - bakalářského —► magisterského —► doktorského studia vedení závěrečných prácí v praktických a užitečných oblastech možnost zapojení studentů do řešených projektů možná podpora finančními granty 37 PV177 - DataScience - L02 IT4lnnovations - IT4lnnovations - superpočítačové centrum při VŠB TUO v Ostravě - aktuálně dostupné superpočítače: Karolina, Barbora, NVIDIA DGX-2 - služby dostupné akademickým pracovníkům i komerčním subjektům -jak HW centrum, tak výzkumné služby - vlastní výzkumné laboratoře - výzkumné spolupráce s uživateli centra - o výpočetní čas nutno oficiálně žádat - tzv. grantové soutěže (každých 6 měsíců) následně dedikovaný výpočetní čas vhodná finanční participace 38 PV177 - DataScience - L02 Datové služby e-INFRA CZ pro koncové uživatele I. - FileSender - webová služba pro zasílání velkých souborů - aktuální limit je 2 TB (~ 2000 GB) ^ - doba expirace až 1 měsíc FILE EH - http://filesender.cesnet.cz -odesílatel nebo příjemce musí být autorizovaným akademickým pracovníkem - autorizovaný uživatel může odesílat datové soubory libovolnému uživateli emailové notifikace o životním cyklu dat - autorizovaný uživatel může odeslat pozvánku pro příjem datových souborů od libovolného uživatele 39 PV177 - DataScience - L02 UÍJ I FileSender - ukázka využití ^pj FILESENDER^ Vítejte na Filesenderu Filesender.Cesnet.cz ■ on initio tive by - £)aarnet fuwrfĚŤT) HEAnet^ NET Preferovaný jazyk{ cs Nápověda Přihlášení Filesender.Cesnet.cz je bezpečný způsob sdílení velkých souborů s kýmkoliv! Přihlaste se k nahrání svých souborů nebo pozvání ostatních k zaslání souboru. Přihlášením potvrzujete, že jste byl/a seznámen/a s podmínkami služby a s informacemi o zpracování osobních údajů. Přihlášení 40 PV177 - DataScience - L02 MUNI FileSender - ukázka využití Uli T Jednotné fi 1 přihlášeni English — YKpaiHCbKa U II u = ^ Primárni heslo Zapamatovat si mě > Mám problém s přihlášením 41 PV177 - DataScience - L02 MUNI FileSender - ukázka využití pozvánky FILESENDER^ (£)aarnet (WrJTFr) HEAnet1^ Preferovaný jazyk cs é přenosy Můj profil Nápověda Soukromí Odhlášení Sem přetáhněte soubory k nahrání Vyčistit vše Vybrat soubory Od : rebok@ics.muni.cz □ Zašifrování souborů (beta) Datum expirsce: 102/10/2022 □ Zaslat mi denní statistiku Pokročilá nastavení Odeslat Globální průměrná rychlost nahrávání souborů 1 GB 120 100 « 80 m 60 S 40 20 0 •<> s> a •> * # rí> sj^ ej** sj^ cf cf oj** | Šifrování pfi přenosu &rest ^ Šifrování při přenosu 42 PV177 - DataScience - L02 pokročilé notifikace, získání odkazu, atp. UfJ I Datové služby e-INFRA CZ pro koncové uživatele II. ^ŕ* -OwnCloud - cloudové úložiště a-la Google Drive nebo Dropbox - aktuální kvétá je 100 GB / uživatel - https://owncloud.cesnet.cz/ -synchronizace a dostupnost dat mezi zařízeními - klienti dostupní pro OS Windows, Linux, OS X - také pro chytré telefony a tablety - umožňuje sdílení dat mezi uživateli - poskytuje zálohování - atp. 43 PV177 - DataScience - L02 MUÍJl OwnCloud - ukázka využití atacare Uživatelská dokumentace FAQ Kontakt ownCloud @ CESNET Sync, Share & Backup all of your academic data. 1 Pi hlášením ijalľíZUJetíf, /e j'.le ljyl/,1 Siví i.in ifi i,', i \ |.......■ink.rin -. i./hy ,i ', ir i It ji 11 i ■....../;>i.í: i iv.irn [ >■■; i| mu h 44 PV177 - DataScience - L02 MUNI OwnCloud - ukázka využití Uli T Jednotné fi 1 přihlášeni English — YKpaiHCbKa U II u = ^ Primárni heslo Zapamatovat si mě > Mám problém s přihlášením 45 PV177 - DataScience - L02 MUNI OwnCloud - ukázka využití = Soubory C ownCloud@CESNET DataCare * RNDr. Tomáš Rebok Ph.D. - Všechny soubory k Všechny soubory Shared + ★ Oblíbené □ Název -■ Velikost Upraveno < Sdíleno svámi MetaCentrurr «J Mgr. Miroslav Ruda «• 4.7 MB před 5 měsíci < Sdíleno s ostatními Sdíleno pomocí odkazu prezentace-tabor 2 adresáře Jan Růžička ••■ 281 KB před 3 měsíci 5 MB Značky 46 PV177 - DataScience - L02 MUNI TIP: Nástroj vizuální datové analýzy - KNIME - open-source nástroj vizuální datové analýzy (a zpracování) - vizuálně přehledná datová analytika, mnoho integrovaných funkcí a možností datová analýza formou workflow - rozšiřitelné moduly včetně vlastních funkcí (Python) - https ://www. kn i m e. co m/ - desktopová aplikace - dostupná zdarma (server za poplatek) pro běžné operační systémy - dostupnost i v rámci e-INFRA CZ - http://docs.cerit.io/docs/rancher-applications.html na požádání vypomůžeme - v budoucnu přes vyvíjený CloudApp Store Open for Innovation KNIME Filc Ed* Vit* Núdt hh B B B I <ŕ * l| > £ h^-IWME-Hubp^ktrf > Ji- HLAMPLIS .Ini-iirShjh v A LÍHLUL ILíkJl Wortipja FJimplt Wnnrflc« ) □«* A Myjí ira.Wertflůw KNIME Explorer Fils FE« a d ľ r Mr Fill H ort (to* 5ŕlŕfl M*jrnjvs fir*ť lows anc -ituJJiW taJtl MU Workflow Editor Description titCohm F.nti ™p]rt.:i[.pip.] >G,*upB, Workflow Coach -P- Úl F--* £ ^ Hidamounl Hrtti LůuntP, SLKfccdftrBoflwil ľ*3"1 «*>ai b(«iariíFin Din cnnlcnl m* ti p Cht* »• ,ů1 ti»M S»nnnt n tM prtvHW UMt ■ It* hji i wrtiiríi shnnrs rf t» analysu liktt kHifír In KNIME Hub Search 47 PV177 - DataScience - L02 JU Mpmpvlflign Vltwt ■■■ ^: .: :: Node Repository 1 n rjca-iui» « KNIME Cúfljelt Ä El fr I r* o - r OutEne Console MUNI Vybrané datově-analytický výzkum realizovaný v rámci spolupráce CERIT-SC 48 PV177 - DataScience - L02 MUNI Analýza dat stavu krajiny aneb Výzkumná spolupráce ÚVT s partnerem CzechGlobe 49 PV177 - DataScience - L02 Preserve ú Ústav výzkumu globální změny Akademie věd ČR - alias CzechGlobe - veřejná výzkumná instituce, evropské centrum excelence - dlouhodobý výzkum probíhající globální změny, jejich projevů v atmosféře a dopadů na biosféru a lidskou společnost - atmosféra - ekosystém - socio-ekonomický systém - hlavní zdroje dat: - atmosférické stanice - monitoring skleníkových plynů - ekosystémové stanice (v ČR i zahraničí) - toky uhlíku v základních typech ekosystémůr - růstové komory - letecká laboratoř - laboratoře - atp. PV177-DataScience-L02 HU L Ústav výzkumu globální změny Akademie věd ČR INTERSUCHO 51 PV177 - DataScience - L02 UÍJ I Plánování sběru a shromažďování dat Plánování sběrů dat - pravidelný sběr dat - zahrnuje mj. plánování lokalit ekosystémových a atmosférických stanic - nejstarší záznamy z roku 1996 - nepravidelný sběr dat - plánované „kampaně" - např. nálety vybraných ekosystémů leteckou laboratoří ^^^^^^ Shromažďování dat - online sběr z měřících ekosystémových stanic - každých cca 10 minut desítky parametrů, zasíláno do datových center - datové nosiče - ad-hoc sběr 52 PV177 - DataScience - L02 ll/l Sběr dat - pozemní měřící stanice (czechGiobe specialized workplaces in the Czech Republic and abroad @ Flying CzechGlobe headquarters. detached workplace Laboratories laboratory ©Laboratories of innovation techniques ©Experimental growth chamber halls Atmospheric station © 0 © Ecosystem station Specialized weather station Research areas (forest, meadow) Research areas (agroecosystem) Monitoring catchment (GEOMON network) Biodiversity research station E. Polomka * PANAMA KOLUMBIE ' RAKOUSKO Gumpenstein Rutzendorf Q Edelhof Q Sumperalm 53 PV177 - DataScience - L02 UNI dat - letecká laboratoř pro dálkový průzkum CESSNA 208B Grand Caravan Visible and near infra-red imaging spectroscopy CASI-1500 54 PV177 - DataScience - L02 SASI-600 Thermal imaging spectroscopy Laser scanning TASI-600 Riegl LMS-Q780 UNI Ik dat - typy dat dálkového průzkumu Země Imaging spectroscopy Laser scanning Thermal scanning 55 PV177 - DataScience - L02 UNI Zpracování dat -data velkých i malých objemů - data ze senzorů měřících věží vs. satelitní/letecká data - příklady úpravy a čištění dat - detekce chyb v datech měřících stanic proces odhalování chybějících či nesmyslných hodnot (častá chybovost senzorů) ne vždy snadno odhalitelné chyby nefunkční senzor vs. chybující senzor vs. zakrytý senzor hodnocení dat indikátorem kvality prostor pro uplatnění metod strojového učení a umělé inteligence např. M. Moravčík: Použití neuronových sítí pro doplňování chybějících dat meteorologických měření. DP 2017, vedoucí Rebok, https://is.muni.cz/th/d09hs/ - zarovnávaní leteckých snímků eliminace pohybů letadla vůči Zemi PV177 - DataScience - L02 Ml Zpracování dat Doplňování chybějících hodnot s využitím neumových sítí (M. Moravčík) Figure 5.1: Correction of UVB measurement (update interval 30 min). Blue line shows input data, yellow line is gap-filling result. 57 PV177 - DataScience - L02 MUÍJ Analýza dat - příklady realizované ve spolupráci CzechGlobe a ÚVT MU Rekonstrukce 3D modelů stromů a lesů -vstupem mrak bodů z laserového skenu (LiDAR) - pozemní (individuální stromy) a letecký (les) -výstupem 3D struktura (model) stromu / lesa - výstupy jsou vstupem pro návazné výzkumné aplikace tree separation separation of reconstructed overlay with 3D tree model from a point cloud woody elements woody skeleton foliage point cloud with shoots Analýza dat - příklady realizované ve spolupráci CzechGlobe a ÚVT MU Vytváření bezoblačných mozaik z družicových dat -v definovaném časovém rozsahu a prostoru - omezení na sledované vegetační období -vstupem jsou data z družice Sentinel-2 -více metod: - per-pixel per-dlaždice -výstup je vstupem pro návaznou analýzu 59 PV177 - DataScience - L02 Analýza dat - příklady realizované ve spolupráci CzechGlobe a ÚVT MU Odhadování vegetačních parametrů zemědělských plodin -např. obsah chlorofylu, vody, index listové plochy -vstupem jsou bezoblačné mozaiky družicových snímků nebo snímků z letadla - per-pixel analýza: - porovnávání vůči spektrální databázi Sdílení a prezentace dat realizované ve spolupráci CzechGlobe a ÚVT MU Platforma ENVision (https://envision.cerit-sc.cz) - vytvořený portál pro sdílení a analýzu ekosystémových dat ČR - existují i nadnárodní portály: Google Earth Engine, Sentinel-Hub, atp. 61 PV177 - DataScience - L02 MUNI Analýza dat kriminálních činů aneb Aplikačně-výzkumná spolupráce ÚVT s Policií ČR 62 PV177 - DataScience - L02 Preserve ú Policie České republiky - netřeba blíže představovat © - obrovské objemy různorodých dat -výrazná variabilita hledaných informací -výrazná specifika proti standardním přístupům k analýze dat Plánování -ad-hoc li -vlastní proces sběru dat precizně plánovaná činnost PV177 - DataScience - L02 MU Policie České republiky Sběr dat - musí podléhat předchozímu schválení (soudní příkazy) - velký důraz na transparentnost a precizní popis průběhu sběru - prokazatelnost korektního zajištění dat Zpracování dat - opět důraz na transparentnost a průkaznost postupů - minimální filtrace dat 64 PV177 - DataScience - L02 U Policie České republiky Analýza dat - hledané informace (často) předem neznámé - vyžaduje iterativní (a ideálně i interaktivní) prohledávání ^ - „hledání jehly v kupce sena" AI -vyžaduje budování tzv. „situačního povědomí" - tradiční přístup: využití izolovaných aplikací iterativní analýza dat s využitím izolovaných specializovaných aplikací budování situačního povědomí „v hlavě" datového analytika (s využitím podpůrných aplikací) - moderní přístup: využití pokročilých distribuovaných systémů všechna data „na jedné hromadě" analýzy dat napříč různorodými datovými sadami (např. hledání organizovaných skupin) podpora budování situačního povědomí přímo v systému PV177 - DataScience - L02 IVI U Policie České republiky Konzervace, udržování dat - dlouhodobé uchovávání nemá význam, spíše se neuplatňuje ► Sdílení dat - velmi precizně kontrolovaný přístup k datům, vč. jejich přenosů - mnohdy nesdíleno ani mezi kolegy Znovuvyužití dat ^^^^ - většinou se neuplatňuje - data zajištěná pro účely případu A nelze využít v případu B - nanejvýš pro „studijní" či rozvojové potřeby 66 PV177 - DataScience - L02 UÍJ I Platforma ANALÝZA Realizovaná projektem ÚVT MU pro účely Policie ČR Platforma ANALÝZA - projekt realizovaný ÚVT MU s podporou Ministerstva vnitra ČR (2017-2020) - Cíl projektu: vyvinout distribuovaný systém podporující komplexní analýzy heterogenních dat velkého rozsahu - podpora budování situačního povědomí v jednotném systému - analýzy a vizualizace komplexních vztahů - demonstrace možností nového přístupu, podán návazný projekt 67 PV177 - DataScience - L02 MUNI Shrnutí teoretické části ... 68 PV177 - DataScience - L02 Shrnutí Zpracování a analýza dat -jak se na data dívat? - strukturovaná vs. nestrukturovaná vs. semi-strukturovaná - výběr vhodného modelu pro zpracování a analýzu důležitá je i znalost předpokládaných dotazů tabulkové procesory, SQL databáze, NewSQL databáze, NoSQL databáze - nebojte se být Big (Data) © 69 PV177 - DataScience - L02 Výpočetní a úložné infrastruktury v ČR -dostupné prostřednictvím e-INFRA CZ - CESNET, CERIT-SC, IT4I - výpočetní a úložné kapacity pro náročné zpracování akademikům dostupné zdarma - doplňkové služby pro podporu datového zpracování a analýzy MU Diskuze itiftf Zdroj: Communicate communication conference 2028004 od QpenClipart-Vectors z Pixabav 70 PV177 - DataScience - L02