SitSem 2023, Telč 1 Zpracování dat na CEITECu Tomáš Raček (CF BioData) 2 O mně ̶Studium FI MU (2008 – 2022) ̶Zaměření směrem k výpočetní chemii, strukturní bioinformatice ̶Člen Sitoly během doktorského studia ̶Vazby na ÚVT ̶Příklon k NCBR PřF (výuka, téma doktorského studia,...) ̶Formálně na CEITEC MU od 2017 ̶Zástupce vedoucí centrální laboratoře BioData (2023) 3 CEITEC ̶Středoevropský technologický institut ̶Založen 2011 ̶Zaměření ̶Vědy o živé přírodě ̶Pokročilé materiály ̶Nanotechnologie ̶Zapojené instituce 4 CEITEC v číslech (2022) ̶28 výzkumných skupin ̶13 centrálních laboratoří (CF – Core Facility) ̶720 uživatelů (z 22 zemí) ̶261 výzkumných FTE ̶241 publikací (108 Q1, 24 T5) ̶Vlastní Ph.D. program (212 studentů) 5 Core facility MU 6 CF BioData ̶Centrální laboratoř Správa a analýza biologických dat ̶Vedoucí Radka Svobodová ̶Založena 2022 ̶Nabízené služby: ̶Správa a ukládání dat ̶Podpora pro přístup k úložným a výpočetním zdrojům ̶Strukturní bioinformatika ̶Propojení s projektem ELIXIR 7 CF BioData – core tým ̶Radka Svobodová (vedoucí CF) ̶Tomáš Raček (strategie) ̶Vladimír Horský (rezervační systém) ̶Adrián Rošinec (správa metadat, cloud) ̶Tomáš Svoboda (správa dat) 8 Správa dat na CEITEC ̶Některé CF si řeší samy ̶Velká nebo citlivá data ̶Vznik CF BioData až od 2022 ̶U některých reálně neexistuje (flashka, externí disk) ̶Vlastní úložiště brno14-ceitec (~ 6 PB) ̶Datová politika (možnosti alokace prostoru pro skupinu?) ̶CF by měly poskytovat správu dat svým uživatelům ̶Technické detaily → přednáška Tomáše S. 9 Rezervační systém (booking) ̶Rezervační systém primárně pro přístroje CF ̶Správa požadavků, cenotvorby, certifikací,... ̶Každá CF by jej měla používat ̶Vyvíjí externí firma ̶Postaveno nad CRM Microsoft Dynamics 365 ̶On-site instalace ̶Provozuje VUT ̶Produkční a testovací instance ̶Programové úpravy pro jednotlivé CF 10 11 Booking systém – využití (2022) BIC CELLIM CEMCOF Genomics NMR MAFIL Nanobio Plants Proteomics Počet přístrojů 88 23 27 142 16 27 13 254 43 Počet rezervací 676 5 141 1 686 3 030 730 2 592 463 305 - Celkový čas rezervací [h] 9 909 11 070 19 992 11 536 39 200 4 400 4 396 882 870 20 390 12 Otázky -Jaké jsou objemy dat? -Jsou data citlivá? -Kdo a kde data produkuje? -Je potřeba data replikovat? -Je potřeba ukládat raw data? -Jak dlouho data ukládat? -Kdo má práva k datům přistupovat? -Je potřeba přístup pro uživatele mimo MU? 13 CEMCOF -Centrální laboratoř kryoelektronové mikroskopie a tomografie -Aktuálně asi 2.7 PB dat -> 1 000 datových sad -Vlastní webové rozhraní pro správu experimentů 14 CF Plants ̶Centrální laboratoř rostlinného výzkumu ̶Fenotypovací stanice ̶Automatické měření vlastností v čase ̶Fotografie ̶CSV s naměřenými hodnotami ̶~ desítky MB / experiment ̶Experimenty provádí zaměstnanci laboratoře ̶Potřeba dostat výsledky experimentů k uživatelům ̶Ručně generované přehledy 15 CF BIC -Centrální laboratoř Interakce a krystalografie biomolekul -Desítky různých přístrojů (= zdrojů dat) -Velká heterogenita -Malá textová data (často i <1 MB / experiment) -Obslužné počítače často zastaralé -Windows Vista, XP -Problematické rozšíření (notebook) -Někdy už nepodporovaný SW -Uživatelé měří na přístrojích sami -Sdílené účty -Data odnáší na flashce 16 CF BIC – přístroje 17 CF CELLIM ̶Sdílená laboratoř Buněčné zobrazování ̶~ 10 mikroskopů (většinou Carl Zeiss) ̶Uživatelé měří sami ̶Nutnost explicitního povolení přístupu po proškolení ke konkrétnímu typu mikroskopu ̶Stovky GB na dataset, někdy i více než 1 TB (light-sheet) ̶Vlastní sdílený HW ̶Windows Server (postprocessing, licencovaný SW) ̶250 TB diskové pole ̶Datová politika ̶Účty pro jednotlivé uživatele (manuálně spravované) 18 Onedata ̶Systém distribuovaného úložiště ̶Komplexní webové rozhraní ̶Podpora pro replikaci datových sad ̶Perzistentní identifikátory ̶Podpora pro uložení metadat ̶ERLANG (?!) ̶Komunikace s autory 19 Onedata – komponenty a příklad zapojení 20 Nadstavby nad Onedata ̶fs2od – “Filesystem to Onedata” ̶Automatická tvorba datových sad ̶Monitoring adresářové struktury ̶Možnosti nastavení replikace ̶Podpora pro metadata (YAML) ̶Skript pro download celého datasetu ̶Původně pro CEMCOF 21 Správa metadat ̶Mají data bez anotací smysl? (přednáška Adriána) ̶Metadata souborů ̶Často lze automaticky extrahovat (např. nastavení mikroskopu) ̶Metadata experimentu / datové sady ̶Metadata společná pro všechny CF ̶Metadatová schémata ̶Automatické vyplňování hodnot ̶Validace ̶Ontologie? ̶Exporty do oborových katalogů 22 Příklad – Open Microscopy Schema 23 FR CESNET 2022 (Tomáš Svoboda) ̶Cíl 1: Rozšíření fs2od pro jiné zdroje dat (CF) ̶CF PLANTS ̶CF CELLIM ̶Cíl 2: Podpora pro spouštění aplikací nad datovými sadami ̶K8s (driver) ̶Scipion ̶Konec projektu: červen 2023 ̶Aktuálně: draft článku Onedata4Sci 24 Aktuální výzvy ̶Chybějící uživatelská přívětivost: ̶Přehledy datových sad ̶Vyhledávání podle metadat ̶Manuální založení datové sady ̶Uzamknutí datové sady ̶Přidělení DOI ̶Stažení celé datové sady ̶Automatická extrakce metadat ̶Windows client ̶Spouštění uživatelských aplikací nad datovými sadami ̶Změny v Onedata 25 FR CESNET 2023 (Tomáš Raček) ̶Cíl: Rozhraní pro správu datových sad a jejich metadat ̶Konsolidace jednotlivých use cases ̶Definice metadatových schémat pro jednotlivé CF ̶Vyhledávání ̶Přehledy/statistiky? 26 Další projekty – CELLIM + Mol* ̶CF CELLIM (světelná mikroskopie) ̶Snímání ve více z-rovinách ̶Rekonstrukce 3D obrazu ̶Segmentace ̶Mol* ̶Nástroj pro vizualizaci molekulárních struktur ̶Rozšíření pro segmentační data (Junior Star GAČR) ̶Cíl: Pipeline ̶Uložení v Onedata ̶Downsampling pro coordinate server ̶Zobrazení uživateli ve webovém prohlížeči 27 Další menší projekty ̶Projekt A-C-G-T (Adrián) ̶Databáze genetické informace české populace ̶Jednotky TB dat ̶Potřeba autentizace (odborná veřejnost) ̶Preprocessing dat a nasazení v K8s (Adrián) ̶MAFILDB (Tomáš S.) ̶Databáze MRI měření ̶Informace o pacientech, experimentech ̶GOLEM (Adrián) ̶Hosting webové aplikace 28 CF Biodata