Tomáš Rebok MetaCentrum, CESNET z.s.p.o. CERIT-SC, Masarykova univerzita (rebok@ics.muni.cz) Národní gridová infrastruktura MetaCentrum & související služby pro akademickou obec 2.10.2013 • aktivita sdružení CESNET • od roku 1996 koordinátor Národní Gridové Infrastruktury − integruje velká/střední HW centra (clustery, výkonné servery a úložiště) několika univerzit/organizací v rámci ČR → prostředí pro (spolu)práci v oblasti výpočtů a práce s daty − součást e-infrastruktury CESNET − integrováno do evropské gridové infrastruktury (EGI) MetaCentrum @ CESNET 2.10.2013 • skupina vzájemně propojených „běžných“ počítačů (dříve ☺) Výpočetní cluster 2.10.2013 • skupina vzájemně propojených „běžných“ počítačů (dnes) Výpočetní cluster 2.10.2013 • přístupné zaměstnancům a studentům VŠ/univerzit, AV ČR, výzkumným ústavům, atp. − komerční subjekty pouze pro veřejný výzkum • nabízí: − výpočetní zdroje − úložné kapacity − aplikační programy • po registraci k dispozici zcela zdarma −„placení“ formou publikací s poděkováním → prioritizace uživatelů při plném vytížení zdrojů MetaCentrum NGI http://metavo.metacentrum.cz 2.10.2013 • výpočetní zdroje: cca 17900 jader (x86_64) − uzly s nižším počtem výkonných jader: − 2x4-8 jader − uzly se středním počtem jader (SMP stroje): − 32-80 jader − paměť až 1 TB na uzel − uzly s vysokým počtem jader: SGI UV 2000 − 288 jader (x86_64), 6 TB operační paměti − 384 jader (x86_64), 6 TB operační paměti − další „exotický“ hardware: − uzly s GPU kartami, Xeon Phi, SSD disky, … http://metavo.metacentrum.cz/cs/state/hardware.html NGI – dostupný výpočetní hardware 2.10.2013 • cca 6 PB pro pracovní data − úložiště v Brně, Plzni, ČB, Liberci, Praze − uživatelská kvóta 1-3 TB na každém z úložišť • cca 22 PB pro dlouhodobá/archivní data − (HSM – MAID, páskové knihovny) http://metavo.metacentrum.cz/cs/state/nodes NGI – dostupný úložný hardware 2.10.2013 • ~ 300 různých aplikací (instalováno na požádání) − viz http://meta.cesnet.cz/wiki/Kategorie:Aplikace • průběžně udržované vývojové prostředí − GNU, Intel, PGI, ladící a optimalizační nástroje (TotalView, Allinea), … • generický matematický software − Matlab, Maple, Mathematica, gridMathematica, … • komerční i volný software pro aplikační chemii − Gaussian 09, Gaussian-Linda, Gamess, Gromacs, Amber, … • materiálové simulace − ANSYS Fluent CFD, Ansys Mechanical, Ansys HPC… • strukturní biologie, bioinformatika − CLC Genomics Workbench, Geneious, Turbomole, Molpro, … − řada volně dostupných balíků • … NGI – dostupný software 2.10.2013 • dávkové úlohy − popisný skript úlohy − oznámení startu a ukončení úlohy • interaktivní úlohy − textový i grafický režim • cloudové rozhraní − základní kompatibilita s Amazon EC2 − uživatelé nespouští úlohy, ale virtuální stroje opět zaměřeno na vědecké výpočty možnost vyladit si obraz a přenést ho do MetaCentra/CERIT-SC (Windows, Linux) NGI – výpočetní prostředí 29.01.2019 NGI pod pokličkou ssh (Linux) putty (Windows) all the nodes available under the domain metacentrum.cz https://wiki.metacent rum.cz/wiki/Frontend alfrid NGI v číslech… • cca 17860 jader, cca 600 uzlů • za rok 2018: • 2020 uživatelů (k 31.12.2018) • cca 5 mil. spuštěných úloh •cca 13700 úloh denně •cca 2500 úloh / uživatel • celkem propočítáno cca 11,4 tis. CPUlet 27.6.2014 … a grafech 27.6.2014 … a grafech 27.6.2014 … a grafech 27.6.2014 … a grafech 27.6.2014 … a grafech 27.6.2014 MetaCentrum NGI – výpočetní služby Suitable for: • long-term and/or large-scale computations • (primarily batch processing) • applications not requiring special OSs (features) • pre-installed or users’ ones How to compute? • batch jobs • the work described by job scripts • interactive jobs • text interface • graphical user interface (VNC) Grid computing Suitable for: • applications requiring special environment (OS) and/or features • one can run various operating systems (incl. Windows OS) and/or application equipment • administrator/root access is provided How to compute? • OpenNebula GUI for deployed nodes management • nodes simply created based on predefined templates • interact via: • cloud/VM console • internal OS services (SSH, VNC, Rdesktop, …) • new Cloud ecosystem being available • MetaCloud v2.0 – based on OpenStack Cloud computing Cloud computing Hadoop: • an open-source framework for distributed storage and distributed processing of large volumes of data • large data blocks splitted and distributed amongst nodes • a MapReduce-based algorithm (= data processing code) is distributed over the distributed blocks and processed in parallel Suitable for: • huge datasets to be processed • but NOT suitable for arbitrary data processing one can imagine • just for the processing meeting the MapReduce programming model • e.g., counting the number of times words occur in a corpus Hadoop computing Suitable for: • user communities with well-defined processing needs • workload & computing pipeline orchestrators available via GUI • usually adapted to user needs and/or because of interoperability with our infrastructure • in background, the proper computing method is used (grid, cloud, etc.) How to compute? • Galaxy, Chipster, etc. • Docker instances in close future Specialized frontends/environments VI CESNET & Úložné služby 26.9.2013 e-infrastruktura CESNET: doplňkové služby 29.01.2019 • Úložné služby: ‒ infrastruktura (Plzeň, Jihlava, Brno) o kapacitě 22 PB • určeno pro zálohy, archivace, sdílení velkých dat, … ‒ hierarchická úložiště (HSM – pásky, MAID), „cena/kapacita“ ‒ FileSender: http://filesender.cesnet.cz • zasílání souborů až 500 GB ‒ OwnCloud: http://owncloud.cesnet.cz • prostor 100 GB / uživatel • Podpora vzdálené spolupráce ‒ videokonference (H.323, SIP) ‒ webkonference (Adobe Connect) ‒ streaming, IP telefonie e-infrastruktura CESNET – další služby I. 29.01.2019 • Páteřní síť: CESNET2 ‒ jádro sítě 100Gbps, přímé propojení do evropské sítě GÉANT • Sledování provozu sítě ‒ detekce anomálií, monitoring kvalitativních charakteristik sítě • Bezpečnost ‒ řešení bezpečnostních incidentů, CESNET CERTS • Federace identit: EduID.CZ ‒ jedno heslo pro přístup k více službám • Certifikační autorita ‒ uživatelské a serverové certifikáty (TERENA) • Bezdrátová síť: Eduroam.cz ‒ koordinace na národní úrovni • … (viz http://www.cesnet.cz/sluzby ) e-infrastruktura CESNET – další služby II. VI CESNET & Úložné služby 26.9.2013 Služby pro podporu vědy a výzkumu Centrum CERIT-SC • výzkumné centrum vybudované na ÚVT MU − transformace Superpočítačového centra Brno (SCB) při Masarykově univerzitě do nové podoby • významný člen/partner národního gridové infrastruktury I. poskytovatel HW a SW zdrojů • SMP uzly (2592 jader) • HD uzly (2624 jader) • 2x SGI UV uzel (384+288 jader, 6 TB paměti) • Xeon Phi cluster • úložné kapacity (~ 3,5 PB) • SW výbava totožná s MetaVO II. služby nad rámec „běžného“ HW centra – zázemí pro kolaborativní výzkum 26.9.2013 http://www.cerit-sc.cz CERIT-SC – cíle Centra Hlavní cíle Centra: I. Podpora experimentů s novými formami, architekturou a konfiguracemi e-Infrastruktury • vysoce flexibilní infrastruktura (experimentům příznivé prostředí) • vlastní výzkum, zaměřený na principy a technologie e-Infrastruktury a její optimalizaci II. Studium a posun možností špičkové e-Infrastruktury úzkou výzkumnou spoluprací mezi informatiky a uživateli takovéto infrastruktury • výpočetní a úložné kapacity jsou pouze nástrojem • zaměření na inteligentní a nové použití těchto nástrojů − synergický posun informatiky a spolupracujících věd (kolaborativní výzkum) − pro informatiku generování nových otázek − pro vědy generování nových příležitostí 26.9.2013 CERIT-SC – zázemí Snaha o maximální zapojení studentů: • bakalářského -> magisterského -> doktorského studia • nejen úzce zaměřená a dedikovaná pracovní síla, ale především → výchova nových odborníků v oblasti e-infrastruktur → výchova erudovaných uživatelů e-infrastruktury Silné odborné zázemí: • dostupnost odborníků/konzultantů jak teoretického, tak praktického zaměření ‒ dlouholetá tradice spolupráce s Fakultou informatiky MU ‒ dlouholetá tradice spolupráce se sdružením CESNET • dlouhodobé zkušenosti s provozováním e-infrastruktury ‒ SCB (nyní CERIT-SC) je zakladatel MetaCentra 26.9.2013 Kolaborativní výzkum Rekonstrukce stromů I. Rekonstrukce individuálních stromů z laserových skenů • partner: Centrum výzkumu globální změny AV ČR (CzechGlobe) • cíl projektu: návrh algoritmu pro rekonstrukci 3D modelů stromů − z mraku nasnímaných 3D bodů ▪ strom nasnímán laserovým snímačem LiDAR ▪ výstupem jsou souřadnice XYZ + intenzita odrazu − očekávaný výstup: 3D struktura popisující strom ▪ identifikovat základní strukturální prvky (kmen a hlavní větve) − primární zaměření: smrky • hlavní problémy: překryvy (mezery v datech) Rekonstrukce stromů II. Rekonstrukce individuálních stromů laserového skenu – cont’d • v rámci DP navržena inovativní metoda rekonstrukce 3D modelů smrkových stromů • rekonstruované modely využity v návazném výzkumu − získávání statistických informací o množství dřevité biomasy a o základní struktuře stromů − parametrizované opatřování zelenou biomasou (mladé větve + jehličky) – součást PhD práce − importování modelů do nástrojů umožňujících analýzu šíření slunečního záření s využitím DART modelů 26.9.2013 Rekonstrukce lesů I. Rekonstrukce lesních porostů z full-wave LiDAR skenů • „s jídlem roste chuť“ ☺ • návazná práce • cíl: co nejvěrnější 3D rekonstrukce celých lesních porostů z leteckých full-wave LiDARových skenů • možné využití hyperspektrálních skenů, termálních skenů, in-situ měření, … 26.9.2013 Rekonstrukce lesů II. Rekonstrukce lesních porostů z full-wave LiDAR skenů ‒ skeny získávány leteckým snímáním ‒ diametrálně odlišný problém – extrémní množství bodů, které jsou však mnohem řidší • nastíněné algoritmy pro přesné rekonstrukce jednotlivých stromů nelze aplikovat • aplikována metoda segmentace stromů a náhrada segmentovaných bodů vhodným 3D modelem Identifikace problémových uzavírek I. Hledání problematických uzavírek v silniční síti ČR • partner: Centrum Dopravního Výzkumu v.v.i., Olomouc cíl projektu: nalezení metody pro identifikaci problémových uzavírek v silniční síti ČR (aktuálně Zlínského kraje) − identifikace uzavírek vedoucích (dle definovaných ohodnocovacích funkcí) k problémům v dopravě − převedený problém: nalezení všech rozpadů grafu − zjednodušený problém: nalezení všech rozpadů grafu generovaných N hranami • hlavní problémy: výpočetní náročnost (NP-těžký problém) − přístup „hrubou silou“ selhával již při uzavření 3 hran Sekvenování Trifolium pratense (Jetel luční) • partner: Ústav experimentální biologie PřF MU • cíl: optimalizace dostupných nástrojů pro skládání a opravy chyb v DNA kódech − analýzy DNA (nejen) jetele vedou k výpočetně náročným problémům − 50 GB vstup => cca 500 GB potřebné paměti (aplikace Echo) − existují větší vstupy • v rámci DP paralelizováno a optimalizováno až na cca 50% využití paměti Korekce chyb a skládání genomu Výpočetní chemie a biochemie I. Výpočet konformace molekul z řídkých NMR dat ‒ partner: Středoevropský technologický institut (CEITEC) ‒ cíl projektu: kombinované výpočetní zpracování výstupů několika nezávislých experimentálních metod (vedoucí ke zjištění tvaru molekuly určitého vzorku) • kombinace výstupů molekulové dynamiky, NMR a SAXS metod • existuje vyzrálý (i komerční) SW, avšak složitý na použití → náchylnost k chybám (při formulaci zadání) → složitost při kombinaci dat z různých zdrojů • vlastní vývoj kombinovaných výpočetních metod (rozšíření existujících nástrojů) ‒ obohacení SW pro zpracování NMR o simulaci molekulové dynamiky ‒ snaha vystačit s výsledky časově i finančně méně náročných variant exper. ‒ aktuální výsledky ukazují na mnohem realističtější geometrie rekonstruovaných molekul Výpočetní chemie a biochemie III. Analýza transportních cest v proteinech ‒ partner: Loschmidt Laboratories MU ‒ cíl projektu: analýza možností transportu molekul ligandu (např. léčivo) na aktivní místa proteinů • tj. zajištění nejen kýženého účinku molekuly na protein, ale zejména ověření možností transportu této molekuly k aktivním místům proteinů • v současné době jsou metody analýzy transportu buď nepřesné nebo velmi výpočetně náročné (molekulová dynamika) • snaha o nalezení metody pro analýzu energie nutné na průchod ligandu do proteinu (vyhodnocení průchodnosti „tunelu“) méně náročným způsobem ‒ zejména se zajištěním věrohodných/přesných výsledků Výpočetní chemie a biochemie IV. Další spolupráce … • Virtuální mikroskop, patologické atlasy − partner: LF MU • Biobanka klinických vzorků (BBMRI_CZ) − partner: Masarykův onkologický ústav, Recamo • Modely šíření epileptického záchvatu a dalších dějů v mozku − partner: LF MU, ÚPT AV, CEITEC • Bioinformatická analýza dat z hmotnostního spektrometru − partner: Ústav experimentální biologie PřF MU • Optimalizace Ansys výpočtu proudění čtyřstupňovou, dvouhřídelovou plynovou turbínou s chlazením lopatek − partner: SVS FEM • 3.5 miliónu „smartmeterů“ v cloudu − partner: Skupina ČEZ, MycroftMind • Platforma pro poskytování specializovaných meteopredikcí pro oblast energetiky − partner: CzechGlobe, NESS, MycroftMind • … 29. ledna 2019 • IT4innovations (Ostrava) − 3344 výpočetních jader („malý“ superpočítač) − 24192 výpočetních jader („big“ supercomputer/cluster) − vlastnosti: − výpočetní čas alokován výzkumný projektům − nezbytná formální žádost (hodnocení technické a výzkumné připravenosti, a finanční participace) − veřejné soutěže 2x ročně − po přijetí projektu snazší přístup ke zdrojům (menší počet o zdroje soupeřících uživatelů) − účel: − rozzáhlé (ověřené) výpočty využívající homogenní infrastruktru 41 Výzkumné infrastruktury v ČR – eInfra.CZ 29. ledna 2019 • Národní gridová infrastruktura (NGI) MetaCentrum − cca 17000 výpočetních jader (včetně zdrojů CERIT-SC) − vlastnosti: − výpočetní čas dostupný zcela zdarma, bez formálních žádostí − dostupnost heterogenních zdrojů (včetně „exotických“) − zdroje sdíleny mezi všemi uživateli (občas složitější přístup k nim) − účel: − běžné menší až středně rozsáhlé výpočty (velké jen po předchozí domluvě) − příprava výpočtů/projektů pro výpočty na IT4I (~ technická připravenost) • CERIT-SC @ ICS MU − poskytovatel HW i SW zdrojů (vše dostupné skrze NGI) − hlavní důraz na podporu společného výzkumu s partnery centra 42 Výzkumné infrastruktury v ČR – eInfra.CZ • Národní gridová infrastruktura MetaCentrum: − součást Velké infrastruktury CESNET (→ doplňkové služby) − integrace HW center do uniformní infrastruktury − výpočetní služby pro českou akademickou obec a veřejný výzkum + úložné služby, aplikační programy, … − open-source technologie (vč. jejich dalšího vývoje) + vlastní nástroje • Centrum CERIT-SC: − výpočetní služby (produkční i flexibilní infrastruktura, integrace do NGI) − služby pro podporu kolaborativního výzkumu (spolupráce s partnery) • V budoucnu vše skrze eInfra.CZ? Závěr www.cesnet.cz www.metacentrum.cz www.cerit-sc.cz www.it4i.cz