PV005 - Služby počítačových sítí: Data Warehouses Jaroslav Bayer1 Fakulta informatiky Masarykova univerzita 27. 11. 2013 CVT FI MU, B310, email: xbayer@fi.muni.cz * 1 ► š -O^O PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 1 / 57 Jaroslav Bayer (FI MU) Obsah přednášky Q Normalizovaná vs. Denormalizovaná databáze Q Data Warehouse: základní charakteristika O Data Warehouse: návrh Q Data Warehouse: architektura 0 Data Back-End 0 Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► PV005 - Služby počítačových sítí: Data Warehouses Normalizovaná vs. Denormalizovaná databáze Normálni formy Relační datový model - E. F. Codd, 1969 • 1NF • atributy obsahují pouze atomické hodnoty (nevyskytují se opakující se skupiny atributů) • 2NF • 1 NF + žádný neklíčový atribut není závislý na vlastní podmnožině nějakého KK (všechny neklíčové atributy jsou závislé na každém celém KK) • 3NF • 2NF + všechny neklíčové atributy přímo (netranzitivně) závisí na každém KK (každý atribut tranzitivně závisející na klíči je klíčový atribut) (každý atribut je funkčně závislý na klíči a pouze na klíči) Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 3 / 57 Normalizovaná vs. Denormalizovaná databáze Normální formy • BCNF1 • pro každou závislost X —>• Y platí, že buď Y c X nebo X je SK • (každá netriviální závislost X —>• V => X je nadmnožinou nějakého klíče nebo klíč) • BCNF => 3NF (obráceně nikoli!) • 4NF • 3NF + odstraněny podmíněné funkční závislosti (nevyskytují se entity, které nemají přiřazeny hodnoty některých atributů) • 5NF • project-join normal form, relace nelze již bezeztrátově rozložit • 6 NF • nesplňuje žádnou netriviální „join dependency" • EKNF2, DKNF3, ... 1 Boyce-Codd Normal Form 2Elementary Key Normal Form 3Domain-key Normal Form < i ► i -o«.<> PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 4/57 Normalizovaná vs. Denormalizovaná databáze On-Line Transaction Processing (OLTP) • silně normalizované databáze • hlavním cílem je snížení redundance dat • optimalizováno na • velké množství malých transakcí • transakce přenášející DB z konzistentního stavu do konzistentního stavu • kombinace čtení/zápis • snadné modifikace ve víceuživatelských prostředích a snižování redundance v datech • zajištění datové integrity • prakticky nejrozšířenější přístup v relačním modelu • tzv. operační/produkční databáze Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 5 / 57 Normalizovaná vs. Denormalizovaná databáze Denormalizace • normalizované DB nevhodné pro analytické zpracování dat • dotazy často vyžadují přístup do velkého množství tabulek zbytečně časově náročné join operace • denormalizace • doplnění redundantních dat • předpočítání agregovaných, seskupených či sumarizovaných dat • odlišná DB schémata • optimalizace pro čtení • materializovaný pohled (materialized view) • schéma hvězdy (star) nebo vločky (snowflake) • OLAP kostka Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 6 / 57 Normalizovaná vs. Denormalizovaná databáze On-Line Analytical Processing (OLAP) • mj. technologie ukládání dat v DB • zaměřeno na • ukládání velkých objemů dat pro budoucí zpracování • podporu analytického zpracování dat • efektivní zpracování multi-dimenzionálních dotazů • čtení (read-mostly DB) • ukládání dat ve snadno pochopitelném formátu • ukládání historie dat • vedení, analytici, specialisté mimo IT oblasti apod. • data většinou nahrávána periodicky • málo uživatelů • orientováno na subjekt • pouze operace insert a select Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 1157 Normalizovaná vs. Denormalizovaná databáze Normalizovaná vs. Denormalizovaná databáze OLAP kostka, operace Data Warehouse: základní charakteristika Data Warehouse: základní charakteristika ty Normalizovaná vs. Denormalizovaná databáze ty Data Warehouse: základní charakteristika Data Warehouse: návrh ty Data Warehouse: architektura Data Back-End Shrnutí Jaroslav Bayer (FI MU) PV005-Služby počítačových sítí: Data Warehouses 27. 11.2013 10/57 Data Warehouse: základní charakteristika Data Warehouse: definice • Data Warehouse (datový sklad) je: • kolekce dat pro podporu rozhodování s následujícími vlastnostmi: orientovaný na subjekt, • integrovaný • časově proměnný • avšak stálý (konzistentní). • definice dle Williama H. Inmona4 • data Warehousing je • kolekce metod, technik, nástrojů a přístupů k zajištění podpory pro knowledge workers při analýzách dat, které dopomohou k lepším rozhodnutím a zkvalitnění informačních zdrojů. 4The father of the data warehouse i •oa.o PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 13 / 57 Jaroslav Bayer (Fl MU) Data Warehouse: základní charakteristika DW: časová proměnlivost • data většinou nahrávána periodicky po větších dávkách • avšak existují i on-line aktualizované datové sklady • data po vložení zafixována jako časový snímek produkční DB • součástí datových záznamů jsou časové známky • historie dat Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 27.11.2013 14/57 Data Warehouse: základní charakteristika DW: stálost (konzistence) • uživatelé data zásadně nemění • pokládají zejména dotazy (select) • data se po vložení prakticky nemění • až na výjimky v podobě chyb v datech či HW poruch • po exspiraci mohou být data vymazána Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 27. 11.2013 15/57 Data Warehouse: návrh Data Warehouse: návrh ty Normalizovaná vs. Denormalizovaná databáze ty Data Warehouse: základní charakteristika ty Data Warehouse: návrh ty Data Warehouse: architektura Data Back-End Shrnutí Jaroslav Bayer (Fl MU) PV005- Služby počítačových sítí: Data Warehouses 27. 11.2013 16/57 Data Warehouse: návrh Operational Systems Marketing Sales ERP SCM EIX Data Warehouse Integration Layer ETL ODS Staging Area External Data ETL ETL ETL Data Warehouse Data Vault ETL ETL Data Marts Mart r Mart r Mart J Mart J Mart ľ Mart c Strategic Marts Mart 1 Mart p iMartY" "Marti— i -i Zdroj: http : // upload . wikimedia . org/wikipedia/commons/4/46/DatQ_wa*flIo>us*jgvervi^w . JP^ 'O^C* PV005-Služby počítačových sítí: Data Warehouses 27.11.2013 17/57 Jaroslav Bayer (FI MU) Data Warehouse: návrh DW: Staging Area a ODS • (Data) Staging Area • mezilehlé datové úložiště • časově nestálé (data se po nahrání do DW mohou smazat) • sběr dat z více zdrojů • hledání rozdílů mezi aktuálními daty a daty v DW • předvýpočty agregovaných hodnot • čištění dat (data cleansing) • detekce a oprava porušených či nesprávných záznamů • nezaměňovat s pouhou validací dat • Operational Data Store (ODS) • DB navržená pro integraci dat z různých zdrojů Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 27. 11.2013 18/57 Data Warehouse: návrh DW: Staging Area a ODS • (Data) Staging Area • mezilehlé datové úložiště • časově nestálé (data se po nahrání do DW mohou smazat) • sběr dat z více zdrojů • hledání rozdílů mezi aktuálními daty a daty v DW • předvýpočty agregovaných hodnot • čištění dat (data cleansing) • detekce a oprava porušených či nesprávných záznamů • nezaměňovat s pouhou validací dat • Operational Data Store (ODS) • DB navržená pro integraci dat z různých zdrojů • data uložena s nejvyšší granularitou (atomická data) • data dostupná produkčnímu systému i DW • data omezena na aktuální stav (nebo stav jemu blízký) Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 27. 11.2013 18/57 Data Warehouse: návrh DW: ETL • Extract, Transform, Load (ETL) • Extract • získání dat z různých (a často nekompatibilních) zdrojů • analýza dat, kontrola souladu se vzory dat, ... • Transform • transformace dat ze struktury zdroje do struktury cíle • výběr sloupců, změna kódování, spojení tabulek, agregace, disagregace, pivoting, validace dat, ... • Load • nahrání dat do cíle, např. DW • triggery a ověření konzistence dat přes integritní omezení Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 27. 11.2013 19/57 DW: Data Marts Data Warehouse: návrh • Data Mart (DM, datová tržiště) • logická podčást DW • obsahuje podmnožinu dat z DW • zaměřen na konkrétní uživatele • přístupová vrstva pro získávání dat z DW • DM může mít vlastní HW, SW i data a DB • snížení doby přítupu • lepší definice uživatelů, bezpečnost Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 20 / 57 Data Warehouse: návrh DW: Data Vault • speciálně navržená DB • Data Vault Modelling • databázová modelovací metoda • vyhovuje potřebám integrace i ukládání historie dat • podporuje sledování původu dat (data tracking) • zkracuje čas potřebný pro naplnění (loading time) • reaguje dobře na změny • splňuje požadavek 100 % dat po 100 % času • může nahradit ODS • (detaily později) Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 27. 11.2013 21 /57 Data Warehouse: architektura Structure-Oriented Classitication Data Warehouse: architektura 0 Normalizovaná vs. Denormalizovaná databáze 0 Data Warehouse: základní charakteristika 0 Data Warehouse: návrh Q Data Warehouse: architektura • Structure-Oriented Classification « Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB schemas • Data Vault Modelling 0 Shrnutí Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses Data Warehouse: architektura Structure-Oriented Classification DW: jednovrstvá architektura Middleware Operational data 4 I V Source layer / / Data j \ warehouse | ____I \ Analysis Jaroslav Bayer (Fl MU) Reporting tools OLAP tools Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 •0 0.0 23/57 Data Warehouse: architektura Structure-Oriented Classitication DW: jednovrstvá architektura • minimalizuje množství uložených dat • vlastní DWje virtuální • DW implementován jako multidimenzionální pohledy (views) do operační DB • neodděluje analytické a transakční zpracování dat • analytické dotazy zatěžují operační DB • potenciální nedostatek výkonu • neudržuje více dat než zdroj • nejjednodušší, málo nasazovaný přístup Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 24 / 57 Data Warehouse: architektura Structure-Oriented Classification DW: dvouvrstvá architektura Operational data bxtcrnal data J f ETL Cools feata WarehouJjJ i , .s cr- - —-^ ^ Meta-data Data marts I n^'v7 Reporting What-ifar,al tools ^/ ^ . . t . Dato staging Data warehouse layer OLAP Look Data mining tool s Jaroslav Bayer (Fl MU) Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 PV005- Služby počítačových sítí: Data Warehouses 27. 11.2013 Data Warehouse: architektura Structure-Oriented Classitication DW: dvouvrstvá architektura o odděluje analytické a transakční zpracování dat • podpora integrace dat z více zdrojů, ETL • DW existuje fyzicky • alternativní modelovací metody • rozdělení na DM • meta-data • ukládání historie « ... Jaroslav Bayer (Fl MU) 4 □ ► 4 fiP ► 4 PV005 - Služby počítačových sítí: Data Warehouses Data Warehouse: architektura Structure-Oriented Classitication DW: třívrstvá architektura tools tools Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524= * •OO.O PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 27/57 Data Warehouse: architektura DW: třívrstvá architektura Structure-Oriented Classification • dvouvrstvá architektura doplněna o tzv. Reconciled Data Layer (RDL, vrstva pro sladění dat) nebo ODS • DW pak není plněn přímo ze zdrojů, ale z RDL/ODS • odděluje problémy extrakce a integrace dat od plnění DW • nová vrstva přidává další datovou redundanci do systému Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 28 / 57 Data Warehouse: architektura DW: hybridní přístup Structure-Oriented Classification • na pomezí jedno a vícevrstvé architektury • agregovaná či sumarizovaná data uložena fyzicky v DW • vhodné pro multidimenzionální dotazy • detailní data uložena pouze ve zdrojové DB • v případě potřeby dostupné DW • snižuje datovou redundanci a nároky na úložiště v DW Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 1 Data Warehouse: architektura Design Methodologies Design Methodologies 0 Normalizovaná vs. Denormalizovaná databáze 0 Data Warehouse: základní charakteristika 0 Data Warehouse: návrh Q Data Warehouse: architektura • Structure-Oriented Classification • Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB schemas • Data Vault Modelling 0 Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► PV005 - Služby počítačových sítí: Data Warehouses Data Warehouse: architektura Design Methodologies DW: nezávislá datová tržiště l ■-><-■ lir 11 Operational data < jperati onal data ^^^^^(Jperational data v ETpr y O**LJ jp=j Meta-data 1_I Meta-data Data mart _ Data mart Reporting OLAP Data mining lüu' What-it analysis tools Jaroslav Bayer (Fl MU) tools tools Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524= I -OQ.O PV005 - Služby počítačových sítí: Data Warehouses 27.11.2013 31 /57 Design Methodologies Data Warehouse: architektura DW: nezávislá datová tržiště • Independent Data Marts • datová tržiště vznikají nezávisle • analytické nástroje je používají dle potřeby • komplikuje integraci dat • vhodné pouze v případě nedostatku zdrojů • limitující funkcionalita Jaroslav Bayer (Fl MU) 4 □ ► PV005 - Služby počítačových sítí: Data Warehouses Data Warehouse: architektura Design Methodologies DW: architektura sběrnice • Bus Architecture • návrh zespodu nahoru (bottom-up design) • algoritmus pro detekci tzv. Conformed Dimensions v DM • sestavení sběrnice z těchto dimenzí • nezávislé, avšak homogenní DM tak vytvoří koherentní DW • výhody • použitelné s prvním DM • iterativní přístup • nevýhodou jsou problémy s granularitou při rozšiřování • propagátorem metody je Ralph Kimball6 http://www.kimballgroup.com PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 Jaroslav Bayer (Fl MU) Data Warehouse: architektura Design Methodologies DW: architektura sběrnice Purchase Orders y V V Store Inventory v v v Store Sales Date Product Store Promotion Warehouse Vendor Shipper Zdroj: Kimball Group, Enterprise Data Warehouse Bus Architecture http://www.kimballgroup.com/wp-content/uploads/2013/08/ Data-Warehouse-Bus-Architecture-el376687624708.png Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 34 / 57 Data Warehouse: architektura Design Methodologies DW: návrh shora dolů • top-down design • centralizovaný přístup • detailní data v DW uložena normalizované (do jisté míry) • DM v multidimenzionální formě jsou plněny z centrálního repozitáře • výhody • produkuje vysoce konzistentní DM • po dokončení odolné vůči změnám v business procesech • nevýhodou je značná časová náročnost do dokončení DW není příliš využitelný před dokončením • propagátorem metody je William H. Inmon7 7http://www.inmoncif.com/ PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 Jaroslav Bayer (Fl MU) Data Warehouse: architektura Design Methodologies DW: Hub-and-Spoke Architecture ■ÚirVl tools tools Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524= * •OO.O PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 36/57 Data Warehouse: architektura Design Methodologies DW: Hub-and-Spoke Architecture • atomická data ukládána normalizované v Reconciled Data Layer (RDL) a agregovaná a sumarizovaná data ukládána do DM v multidimenzionální formě • podobné předchozímu návrhu • avšak detailní a agregovaná data nemusí být fyzicky uložena v jednom repozitáři • uživatelé většinou pracují s DM • k RDL přistupují pouze výjimečně pro detailní data • Data Vault Modelling odpovídá této architektuře Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 37 / 57 Data Warehouse: architektura Design Methodologies DW: sjednocující architektura -J- Operational data ^ Operational data w w w If ETLLools If ETL tools || ET: !□! Izl ITI Data mart Data mart Data mart t t t Logical-physical integration * í v á ck & \á Jaroslav Bayer (Fl MU) ' ^ What-if analysis tools ™/ , OT.AP Data mining tools tools 1001 s Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524= ■=. -O^O PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 38 / 57 Data Warehouse: architektura Design Methodologies DW: sjednocující architektura • Federated Architecture • integruje již existující DW či DM • vytvoření jednotného rozhraní pro přístup ke všem datům Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11 Data Warehouse: architektura Data Loading Approaches Data Warehouse: architektura 0 Normalizovaná vs. Denormalizovaná databáze 0 Data Warehouse: základní charakteristika 0 Data Warehouse: návrh Q Data Warehouse: architektura • Structure-Oriented Classification « Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB schemas • Data Vault Modelling 0 Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► 4 PV005 - Služby počítačových sítí: Data Warehouses Data Warehouse: architektura Data Loading Approaches Data Loading Approaches (přístupy nahrávání dat) • žádná data o použitelné pouze u jednovrstvého DW • zcela aktuální data • off-line • data aktualizována v pravidelných intervalech, např. hodiny, dny, týdny, ... • DW nemá vždy aktuální data • on-line • DW aktualizován s každou transakcí • zcela aktuální data • on-line z více zdrojů • jako předchozí bod, ale z více zdrojů Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 27. 11.2013 41 /57 Data Back-End Database Management System Data Back-End 0 Normalizovaná vs. Denormalizovaná databáze 0 Data Warehouse: základní charakteristika 0 Data Warehouse: návrh 0 Data Warehouse: architektura • Structure-Oriented Classification « Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB Schemas • Data Vault Modelling 0 Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► 4 fiP ► PV005 - Služby počítačových sítí: Data Warehouses Data Back-End Database Management System Databázové systémy • relační model • data uložena v relacích (tabulkách) v podobě n-tic (řádků/záznamů) • tabulky definovány schématem relace • nejrozšířenější DBMS • ROLAP • implementace multidimenzionální funkcionality na relační DB • multidimenzionální databáze • data ukládána v hyperkostkách • protiklad užívání tabulek v relačních db • dříve nepříjemná omezení • MOLAP Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 43 / 57 Data Back-End Database Management System Databázové systémy (2) • grafové databáze • data definována i uložena pomocí grafové struktury • založeno na teorii grafů • oproti relačním DB někdy rychlejší, lépe škálují • vhodné pro dotazy podobné grafovým operacím, např. hledání cesty • síťový model • flexibilní způsob ukládání vztahů mezi objekty • uzel může mít více rodičů i potomků - zobecněný graf • hierarchické databáze • data organizována ve stromových strukturách • registry MS Windows • triplestore • vhodné pro ukládání trojic o ... PV005-Služby počítačových sítí: Data Warehouses 27. 11.2013 Data Back-End DB Schemas Data Back-End O Normalizovaná vs. Denormalizovaná databáze £ Data Warehouse: základní charakteristika Q Data Warehouse: návrh O Data Warehouse: architektura • Structure-Oriented Classification « Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB schemas • Data Vault Modelling Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► PV005 - Služby počítačových sítí: Data Warehouses Data Back-End DB Schemas Schéma hvězdy Dim_Date Id Date Day Day_of_Week Month Quarter Quarter_Narne Datejd Storejd Productjd Units_Sold Dir n_Store 'S Id 5tore_Number 5tate_Province Country Dim Product g Id EAN_Code Product_Name Ü " Brand Zdroj: http : / / upload . wikimedia . org/wikipedia/en/ f / f e/St ar - schema - example . png Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27.11.2013 46/57 Data Back-End DB Schemas Schéma hvězdy • Star Schéma • dovoluje relační DB simulovat multidimenzionální DB • nejjednodušší schéma DW • faktová tabulka uprostřed spojuje dimenzní tabulky okolo • faktové tabulky nesou (zejména) číselné údaje - fakta • zabírají nejvíce místa • dimenzní tabulky • nesou atributy faktů - jejich popis, kontext o související atributy v jedné tabulce • minimalizace počtu dimenzních tabulek • mají velké množství sloupců (atributů) Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11 I DB Schemas Schéma sněhové vločky Data Back-End D i m _D ay _o f _W eek D i m _Pr oduct_Categ or y Zdroj: http : / /upload . wikimedia . org/wikipedia/common s / 7/73/Snow f la ke - schema - example . png PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 48 / 57 Jaroslav Bayer (Fl MU) Data Back-End DB Schemas Schéma sněhové vločky • Snowflake schéma « opět v centru faktové tabulky a okolo dimenzní • avšak dimenze jsou normalizované (do určité míry) • dimenzní tabulky rozloženy procesem normalizace do několika propojených tabulek • efektivní zejména • pro díravé (sparse) dimenze 9 má-li dimenze velké množství atributů Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 49 / 57 Data Back-End DB Schemas Hvězda vs. vločka • obě optimalizují čas/rychlost získání dat (operace čtení) • hvězda vhodná pro nástroje, které odhalují DB schéma uživatelům • snadno pochopitelná, přirozená spojení • vločka vhodná pro sofistikované nástroje, které oddělují data od uživatelů Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 50 / 57 Reverzní hvězda Data Back-End DB Schemas • Reverse Star Schéma • optimalizace na získání velkého množství popisných dat • návrh převrací některá pravidla hvězdy naruby • k centrální tabulce se připojují faktové tabulky • více centrálních tabulek • rozdílné kardinality Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 1 Data Back-End DB Schemas Reverzní hvězda Credit Team Dimension Supplier Dimension Store Dimension Time Dimension (Alias) Stock Fact Time Dimension (Alias) Customer Type Dimension Bad Debt Fact Customer Dimension Sales Fact Promotions Fact Location Dimension Time Dimension Demographic Dimension Time Dimension (Alias) Product Dimension Ad Channel Dimension Jaroslav Bayer (FI MU) Zdroj: http : / / www . pcthompson . c o . uk/ document s /The_Rever se_St ar_Schema_v2 . 1 . pdf PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 52 / 57 Data Back-End Data Vault Modelling Data Back-End 0 Normalizovaná vs. Denormalizovaná databáze 0 Data Warehouse: základní charakteristika 0 Data Warehouse: návrh 0 Data Warehouse: architektura • Structure-Oriented Classification « Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB Schemas • Data Vault Modelling O Shrnutí Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses Data Back-End Data Vault Modelling DV: přehled • modelovací metoda • ukládání historie dat • integrace dat z více zdrojů • datový audit, původ dat (data tracking) • uchovávání chybných hodnot • paralelní nahrávání dat • 100 % dat 100 % času • může nahradit ODS • fakta vs. pravda • navržen Danem Linstedtem8 http://danlinstedt.com/ PV005 - Služby počítačových sítí: Data Warehouses Jaroslav Bayer (Fl MU) DV: komponenty Data Back-End Data Vault Modelling • Hubs • primární klíče (business klíče) • tyto se téměř nemění, např. učo • Links • integrace transakcí a vztahů mezi Hubs • Satellites • kontext Hubs a Links • Point-in-Time Tabules, Bridge, pomocné tabulky, Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses Shrnutí 0 Normalizovaná vs. Denormalizovaná databáze 0 Data Warehouse: základní charakteristika 0 Data Warehouse: návrh 0 Data Warehouse: architektura 0 Data Back-End 0 Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► PV005 - Služby počítačových sítí: Data Warehouses Shrnutí Shrnutí • Operační/Transakční DB • ukládá data s ohledem na bezpečné a efektivní zpracování transakcí v konkurečním mnohouživatelském prostředí • zaměřuje se zejména na aktuální data • čtení a zápis • velké množství uživatelů • Data Warehouse • ukládá data s ohledem na efektivitu zpracování složitých dotazů o zejména operace select a insert • využívá multidimenzionální funkcionality • usnadňuje udržování historie data • snaha o čištění dat • analytické zpracování nezatěžuje transakční DB • podpora pro analytické nástroje • OLAP, reportování, DM nástroje, ... o data tracking • správa chybných dat Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 27. 11. 2013 57 / 57