PV005 – Služby počítačových sítí: Data Warehouses Jaroslav Bayer1 Fakulta informatiky Masarykova univerzita 26. 11. 2015 1 CVT FI MU, B310, email: xbayer@fi.muni.cz Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 1 / 61 Obsah přednášky 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura 5 Data Back-End 6 Shrnutí Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 2 / 61 Normalizovaná vs. Denormalizovaná databáze Normální formy Relační datový model – Edgar Frank Codd1, 1969 superklíč kandidátský klíč primární klíč 1 A Relational Model of Data for Large Shared Data Banks, 1970 Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 3 / 61 Normalizovaná vs. Denormalizovaná databáze Normální formy 1NF atributy obsahují pouze atomické hodnoty (nevyskytují se opakující se skupiny atributů) 2NF 1NF + žádný neklíčový atribut není závislý na vlastní podmnožině nějakého KK (všechny neklíčové atributy jsou závislé na každém celém KK) 3NF 2NF + všechny neklíčové atributy přímo (netranzitivně) závisí na každém KK (každý atribut tranzitivně závisející na klíči je klíčový atribut) (každý atribut je funkčně závislý na klíči a pouze na klíči) (všechny neklíčové atributy jsou vzájemně nezávislé) Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 4 / 61 Normalizovaná vs. Denormalizovaná databáze Normální formy BCNF2 pro každou závislost X → Y platí, že buď Y ⊆ X nebo X je SK (každá netriviální závislost X → Y ⇒ X je nadmnožinou nějakého klíče nebo klíč) BCNF ⇒ 3NF (obráceně nikoli!) 4NF 3NF + odstraněny podmíněné funkční závislosti (složený KK nesmí být tvořen z nezávislých dat) 5NF project-join normal form, relace nelze již bezeztrátově rozložit 6 NF nesplňuje žádnou netriviální „join dependency“ EKNF3, DKNF4, . . . 2 Boyce-Codd Normal Form 3 Elementary Key Normal Form 4 Domain-key Normal Form Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 5 / 61 Normalizovaná vs. Denormalizovaná databáze On-Line Transaction Processing (OLTP) silně normalizované databáze hlavním cílem je snížení redundance dat optimalizováno na velké množství malých transakcí transakce přenášející DB z konzistentního stavu do konzistentního stavu kombinace čtení/zápis snadné modifikace ve víceuživatelských prostředích snižování redundance v datech zajištění datové integrity prakticky nejrozšířenější přístup v relačním modelu tzv. operační/produkční databáze Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 6 / 61 Normalizovaná vs. Denormalizovaná databáze Denormalizace normalizované DB nevhodné pro analytické zpracování dat dotazy často vyžadují přístup do velkého množství tabulek zbytečně časově náročné join operace denormalizace doplnění redundantních dat předpočítání agregovaných, seskupených či sumarizovaných dat odlišná DB schémata optimalizace pro čtení materializovaný pohled (materialized view) schéma hvězdy (star) nebo vločky (snowflake) OLAP kostka . . . Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 7 / 61 Normalizovaná vs. Denormalizovaná databáze On-Line Analytical Processing (OLAP) mj. technologie ukládání dat v DB zaměřeno na ukládání velkých objemů dat pro budoucí zpracování podporu analytického zpracování dat efektivní zpracování multi-dimenzionálních dotazů čtení (read-mostly DB) ukládání dat ve snadno pochopitelném formátu ukládání historie dat vedení, analytici, specialisté mimo IT oblasti apod. data většinou nahrávána periodicky málo uživatelů orientováno na subjekt pouze operace insert a select MultiDimensional eXpressions (MDX) dotazovací jazyk pro OLAP dbs možný překlad do SQL Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 8 / 61 Normalizovaná vs. Denormalizovaná databáze OLAP kostka Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 9 / 61 Normalizovaná vs. Denormalizovaná databáze OLAP kostka, operace roll-up x drill-down Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 10 / 61 Normalizovaná vs. Denormalizovaná databáze OLAP kostka, operace slice x dice Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 11 / 61 Normalizovaná vs. Denormalizovaná databáze OLAP kostka, operace pivoting Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 12 / 61 Data Warehouse: základní charakteristika Data Warehouse: základní charakteristika 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura 5 Data Back-End 6 Shrnutí Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 13 / 61 Data Warehouse: základní charakteristika Data Warehouse: definice Data Warehouse (datový sklad) je: kolekce dat pro podporu rozhodování s následujícími vlastnostmi: orientovaný na subjekt, integrovaný, časově proměnný, avšak stálý (konzistentní). definice dle Williama H. Inmona5 data Warehousing je kolekce metod, technik, nástrojů a přístupů k zajištění podpory pro knowledge workers při analýzách dat, které dopomohou k lepším rozhodnutím a zkvalitnění informačních zdrojů. 5 The father of the data warehouse Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 14 / 61 Data Warehouse: základní charakteristika DW: orientace na subjekt orientace na subjekty, kterými se podnik/organizace zabývá zákazník, dodavatel, produkt student, učitel, předmět zaměřuje se zejména na data vhodná pro strategická rozhodnutí jasné a čitelné oddělení funkčních celků vyšší paměťová náročnost DB pro OLTP se oproti tomu orientuje na transakce faktura, vklad, půjčka, prodej zápis, hodnocení, změna kreditace funkčně orientovaná Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 15 / 61 Data Warehouse: základní charakteristika DW: orientace na subjekt orientace na subjekty, kterými se podnik/organizace zabývá zákazník, dodavatel, produkt student, učitel, předmět zaměřuje se zejména na data vhodná pro strategická rozhodnutí jasné a čitelné oddělení funkčních celků vyšší paměťová náročnost DB pro OLTP se oproti tomu orientuje na transakce faktura, vklad, půjčka, prodej zápis, hodnocení, změna kreditace funkčně orientovaná Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 15 / 61 Data Warehouse: základní charakteristika DW: integrovanost integrace a sjednocení dat více zdrojů dat (produkčních systémů6 ) sjednocení názvů, měřítek, jednotek, kódování, . . . integrace dat do jednotné logické podoby 6 též operačních či transakčních systémů Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 16 / 61 Data Warehouse: základní charakteristika DW: časová proměnlivost data většinou nahrávána periodicky po větších dávkách avšak existují i on-line aktualizované datové sklady data po vložení zafixována jako časový snímek produkční DB součástí datových záznamů jsou časové známky historie dat Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 17 / 61 Data Warehouse: základní charakteristika DW: stálost (konzistence) uživatelé data zásadně nemění pokládají zejména dotazy (select) data se po vložení prakticky nemění až na výjimky v podobě chyb v datech či HW poruch po exspiraci mohou být data vymazána Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 18 / 61 Data Warehouse: návrh Data Warehouse: návrh 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura 5 Data Back-End 6 Shrnutí Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 19 / 61 Data Warehouse: návrh Zdroj: http://upload.wikimedia.org/wikipedia/commons/4/46/Data_warehouse_overview.JPG Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 20 / 61 Data Warehouse: návrh DW: Staging Area a ODS (Data) Staging Area mezilehlé datové úložiště časově nestálé (data se po nahrání do DW mohou smazat) sběr dat z více zdrojů hledání rozdílů mezi aktuálními daty a daty v DW předvýpočty agregovaných hodnot čištění dat (data cleansing) detekce a oprava porušených či nesprávných záznamů nezaměňovat s pouhou validací dat Operational Data Store (ODS) sklad provozních dat DB navržená pro integraci dat z různých zdrojů data uložena s nejvyšší granularitou (podrobná, atomická data) data dostupná produkčnímu systému i DW data omezena na aktuální stav (nebo stav jemu blízký) sjednocená předmětově orientovaná data, nestálá Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 21 / 61 Data Warehouse: návrh DW: Staging Area a ODS (Data) Staging Area mezilehlé datové úložiště časově nestálé (data se po nahrání do DW mohou smazat) sběr dat z více zdrojů hledání rozdílů mezi aktuálními daty a daty v DW předvýpočty agregovaných hodnot čištění dat (data cleansing) detekce a oprava porušených či nesprávných záznamů nezaměňovat s pouhou validací dat Operational Data Store (ODS) sklad provozních dat DB navržená pro integraci dat z různých zdrojů data uložena s nejvyšší granularitou (podrobná, atomická data) data dostupná produkčnímu systému i DW data omezena na aktuální stav (nebo stav jemu blízký) sjednocená předmětově orientovaná data, nestálá Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 21 / 61 Data Warehouse: návrh DW: ETL Extract, Transform, Load (ETL) Extract získání dat z různých (a často nekompatibilních) zdrojů analýza dat, kontrola souladu se vzory dat, . . . Transform transformace dat ze struktury zdroje do struktury cíle výběr sloupců, změna kódování, spojení tabulek, agregace, disagregace, pivoting, validace dat, . . . Load nahrání dat do cíle, např. DW triggery a ověření konzistence dat přes integritní omezení Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 22 / 61 Data Warehouse: návrh DW: Data Marts Data Mart (DM, datová tržiště) logická podčást DW obsahuje podmnožinu dat z DW zaměřen na konkrétní uživatele přístupová vrstva pro získávání dat z DW DM může mít vlastní HW, SW i data a DB snížení doby přítupu lepší definice uživatelů, bezpečnost Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 23 / 61 Data Warehouse: návrh DW: Data Vault speciálně navržená DB Data Vault Modelling databázová modelovací metoda vyhovuje potřebám integrace i ukládání historie dat podporuje sledování původu dat (data tracking) zkracuje čas potřebný pro naplnění (loading time) reaguje dobře na změny splňuje požadavek 100 % dat po 100 % času může nahradit ODS (detaily později) Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 24 / 61 Data Warehouse: architektura Structure-Oriented Classification Data Warehouse: architektura 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 25 / 61 Data Warehouse: architektura Structure-Oriented Classification DW: jednovrstvá architektura Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 26 / 61 Data Warehouse: architektura Structure-Oriented Classification DW: jednovrstvá architektura minimalizuje množství uložených dat vlastní DW je virtuální DW implementován jako multidimenzionální pohledy (views) do operační DB neodděluje analytické a transakční zpracování dat analytické dotazy zatěžují operační DB potenciální nedostatek výkonu neudržuje více dat než zdroj nejjednodušší, málo nasazovaný přístup Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 27 / 61 Data Warehouse: architektura Structure-Oriented Classification DW: dvouvrstvá architektura Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 28 / 61 Data Warehouse: architektura Structure-Oriented Classification DW: dvouvrstvá architektura odděluje analytické a transakční zpracování dat podpora integrace dat z více zdrojů, ETL DW existuje fyzicky alternativní modelovací metody rozdělení na DM meta-data ukládání historie . . . Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 29 / 61 Data Warehouse: architektura Structure-Oriented Classification DW: třívrstvá architektura Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 30 / 61 Data Warehouse: architektura Structure-Oriented Classification DW: třívrstvá architektura dvouvrstvá architektura doplněna o tzv. Reconciled Data Layer (RDL, vrstva pro sladění dat) nebo ODS DW pak není plněn přímo ze zdrojů, ale z RDL/ODS odděluje problémy extrakce a integrace dat od plnění DW nová vrstva přidává další datovou redundanci do systému Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 31 / 61 Data Warehouse: architektura Structure-Oriented Classification DW: hybridní přístup na pomezí jedno a vícevrstvé architektury agregovaná či sumarizovaná data uložena fyzicky v DW vhodné pro multidimenzionální dotazy detailní data uložena pouze ve zdrojové DB v případě potřeby dostupné DW snižuje datovou redundanci a nároky na úložiště v DW Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 32 / 61 Data Warehouse: architektura Structure-Oriented Classification DW: meta-data Forma abstrakce popisující strukturu a obsah DW administrativní meta-data zdroj originálních dat pravidla transformace podpora automatizace formáty dat a měrné jednotky architektura a datová struktura back-end DW pravidla přístupu a oprávnění, . . . uživatelská meta-data obsah DW, předdefinované dotazy def. hierarchie dimenzí kvalita dat a historie plnění DW, . . . statistická a optimalizační meta-data, . . . Standardizace Meta Data Coalition a Object Management Group Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 33 / 61 Data Warehouse: architektura Design Methodologies Design Methodologies 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 34 / 61 Data Warehouse: architektura Design Methodologies DW: nezávislá datová tržiště Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 35 / 61 Data Warehouse: architektura Design Methodologies DW: nezávislá datová tržiště Independent Data Marts datová tržiště vznikají nezávisle analytické nástroje je používají dle potřeby komplikuje integraci dat vhodné pouze v případě nedostatku zdrojů limitující funkcionalita Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 36 / 61 Data Warehouse: architektura Design Methodologies DW: architektura sběrnice Bus Architecture návrh zespodu nahoru (bottom-up design) algoritmus pro detekci tzv. Conformed Dimensions v DM sestavení sběrnice z těchto dimenzí nezávislé, avšak homogenní DM tak vytvoří koherentní DW výhody použitelné s prvním DM iterativní přístup nevýhodou jsou problémy s granularitou při rozšiřování propagátorem metody je Ralph Kimball7 7 http://www.kimballgroup.com Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 37 / 61 Data Warehouse: architektura Design Methodologies DW: architektura sběrnice Zdroj: Kimball Group, Enterprise Data Warehouse Bus Architecture http://www.kimballgroup.com/wp-content/uploads/2013/08/ Data-Warehouse-Bus-Architecture-e1376687624708.png Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 38 / 61 Data Warehouse: architektura Design Methodologies DW: návrh shora dolů top-down design centralizovaný přístup detailní data v DW uložena normalizovaně (do jisté míry) DM v multidimenzionální formě jsou plněny z centrálního repozitáře výhody produkuje vysoce konzistentní DM po dokončení odolné vůči změnám v business procesech nevýhodou je značná časová náročnost do dokončení DW není příliš využitelný před dokončením propagátorem metody je William H. Inmon8 8 http://www.inmoncif.com/ Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 39 / 61 Data Warehouse: architektura Design Methodologies DW: Hub-and-Spoke Architecture Zdroj: http://i.cmpnet.com/intelligententerprise/images/0803/Hub_Spoke.jpg Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 40 / 61 Data Warehouse: architektura Design Methodologies DW: Hub-and-Spoke Architecture atomická data ukládána normalizovaně v Reconciled Data Layer (RDL) agregovaná a sumarizovaná data ukládána do DM v multidimenzionální formě podobné předchozímu návrhu avšak detailní a agregovaná data nemusí být fyzicky uložena v jednom repozitáři uživatelé většinou pracují s DM k RDL přistupují pouze výjimečně pro detailní data Data Vault Modelling odpovídá této architektuře Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 41 / 61 Data Warehouse: architektura Design Methodologies DW: sjednocujíci architektura Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 42 / 61 Data Warehouse: architektura Design Methodologies DW: sjednocující architektura Federated Architecture integruje již existující DW či DM vytvoření jednotného rozhraní pro přístup ke všem datům Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 43 / 61 Data Warehouse: architektura Data Loading Approaches Data Warehouse: architektura 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 44 / 61 Data Warehouse: architektura Data Loading Approaches Data Loading Approaches (přístupy nahrávání dat) žádná data použitelné pouze u jednovrstvého DW zcela aktuální data off-line data aktualizována v pravidelných intervalech, např. hodiny, dny, týdny, . . . DW nemá vždy aktuální data on-line DW aktualizován s každou transakcí zcela aktuální data on-line z více zdrojů jako předchozí bod, ale z více zdrojů Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 45 / 61 Data Back-End Database Management System Data Back-End 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 46 / 61 Data Back-End Database Management System Databázové systémy relační model data uložena v relacích (tabulkách) v podobě n-tic (řádků/záznamů) tabulky definovány schématem relace nejrozšířenější DBMS ROLAP implementace multidimenzionální funkcionality na relační DB multidimenzionální databáze data ukládána v hyperkostkách protiklad užívání tabulek v relačních db dříve nepříjemná omezení MOLAP Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 47 / 61 Data Back-End Database Management System Databázové systémy (2) grafové databáze data definována i uložena pomocí grafové struktury založeno na teorii grafů oproti relačním DB někdy rychlejší, lépe škálují vhodné pro dotazy podobné grafovým operacím, např. hledání cesty síťový model flexibilní způsob ukládání vztahů mezi objekty uzel může mít více rodičů i potomků – zobecněný graf hierarchické databáze data organizována ve stromových strukturách registry MS Windows triplestore vhodné pro ukládání trojic . . . Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 48 / 61 Data Back-End DB schemas Data Back-End 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 49 / 61 Data Back-End DB schemas Schéma hvězdy Zdroj: http://upload.wikimedia.org/wikipedia/en/f/fe/Star-schema-example.png Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 50 / 61 Data Back-End DB schemas Schéma hvězdy Star Schema dovoluje relační DB simulovat multidimenzionální DB nejjednodušší schéma DW faktová tabulka uprostřed spojuje dimenzní tabulky okolo faktové tabulky nesou (zejména) číselné údaje – fakta zabírají nejvíce místa dimenzní tabulky nesou atributy faktů – jejich popis, kontext související atributy v jedné tabulce minimalizace počtu dimenzních tabulek mají velké množství sloupců (atributů) Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 51 / 61 Data Back-End DB schemas Schéma sněhové vločky Zdroj: http://upload.wikimedia.org/wikipedia/commons/7/73/Snowflake-schema-example.png Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 52 / 61 Data Back-End DB schemas Schéma sněhové vločky Snowflake schema opět v centru faktové tabulky a okolo dimenzní avšak dimenze jsou normalizované (do určité míry) dimenzní tabulky rozloženy procesem normalizace do několika propojených tabulek efektivní zejména pro díravé (sparse) dimenze má-li dimenze velké množství atributů Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 53 / 61 Data Back-End DB schemas Hvězda vs. vločka obě optimalizují čas/rychlost získání dat (operace čtení) hvězda vhodná pro nástroje, které odhalují DB schema uživatelům snadno pochopitelná, přirozená spojení vločka vhodná pro sofistikované nástroje, které oddělují data od uživatelů Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 54 / 61 Data Back-End DB schemas Reverzní hvězda Reverse Star Schema optimalizace na získání velkého množství popisných dat návrh převrací některá pravidla hvězdy naruby k centrální tabulce se připojují faktové tabulky více centrálních tabulek rozdílné kardinality vhodné pro business dotazy na více faktů naráz row level security (omezení na sdílené dimenzi) . . . Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 55 / 61 Data Back-End DB schemas Reverzní hvězda Zdroj: http://www.pcthompson.co.uk/documents/The_Reverse_Star_Schema_v2.1.pdf Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 56 / 61 Data Back-End Data Vault Modelling Data Back-End 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura Structure-Oriented Classification Design Methodologies Data Loading Approaches 5 Data Back-End Database Management System DB schemas Data Vault Modelling 6 Shrnutí Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 57 / 61 Data Back-End Data Vault Modelling DV: přehled modelovací metoda ukládání historie dat integrace dat z více zdrojů datový audit, původ dat (data tracking) uchovávání chybných hodnot paralelní nahrávání dat 100 % dat 100 % času může nahradit ODS fakta vs. pravda navržen Danem Linstedtem9 9 http://danlinstedt.com/ Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 58 / 61 Data Back-End Data Vault Modelling DV: komponenty Hubs primární klíče (business klíče) tyto se téměř nemění, např. učo Links integrace transakcí a vztahů mezi Hubs Satellites kontext Hubs a Links Point-in-Time Tabules, Bridge, pomocné tabulky, . . . Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 59 / 61 Shrnutí Shrnutí 1 Normalizovaná vs. Denormalizovaná databáze 2 Data Warehouse: základní charakteristika 3 Data Warehouse: návrh 4 Data Warehouse: architektura 5 Data Back-End 6 Shrnutí Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 60 / 61 Shrnutí Shrnutí Operační/Transakční DB ukládá data s ohledem na bezpečné a efektivní zpracování transakcí v konkurečním mnohouživatelském prostředí zaměřuje se zejména na aktuální data čtení a zápis velké množství uživatelů Data Warehouse ukládá data s ohledem na efektivitu zpracování složitých dotazů zejména operace select a insert využívá multidimenzionální funkcionality usnadňuje udržování historie data snaha o čištění dat analytické zpracování nezatěžuje transakční DB podpora pro analytické nástroje OLAP, reportování, DM nástroje, . . . data tracking správa chybných dat Jaroslav Bayer (FI MU) PV005 – Služby počítačových sítí: Data Warehouses 26. 11. 2015 61 / 61