PV005 - Služby počítačových sítí: Data Warehouses Jaroslav Bayer1 Fakulta informatiky Masarykova univerzita 28. 11. 2012 CVT FI MU, B310, email: xbayer@fi.muni.cz * 1 ► š -O^O PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 1 / 54 Jaroslav Bayer (FI MU) Obsah přednášky Q Normalizovaná vs. Denormalizovaná databáze Q Data Warehouse: základní charakteristika O Data Warehouse: návrh Q Data Warehouse: architektura 0 Data Back-End 0 Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► PV005 - Služby počítačových sítí: Data Warehouses Normalizovaná vs. Denormalizovaná databáze Normálni formy Relační datový model - E. F. Codd, 1696 • 1NF • atributy obsahují pouze atomické hodnoty • 2NF • 1 NF + žádný neklíčový atribut není závislý na vlastní podmnožině nějakého KK (všechny neklíčové atributy jsou závislé pouze na celém KK) • 3NF • 2NF + všechny neklíčové atributy přímo (netranzitivně) závisí na každém SK (každý atribut tranzitivně závisející na klíči je klíčový atribut) • BCNF • pro každou závislost X —>• Y platí, že bud Y c X nebo X je SK • BCNF => 3NF • EKNF, 4NF, 5NF, 6NF, ... PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 3 / 54 Normalizovaná vs. Denormalizovaná databáze On-Line Transaction Processing (OLTP) • silně normalizované databáze • hlavním cílem je snížení redundance dat • optimalizováno na • velké množství malých transakcí • transakce přenášející DB z konzistentního stavu do konzistentního stavu • kombinace čtení/zápis • snadné modifikace ve víceuživatelských prostředích a snižování redundance v datech • zajištění datové integrity • prakticky nejrozšířenější přístup v relačním modelu • tzv. operační/produkční databáze Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 AI 54 Normalizovaná vs. Denormalizovaná databáze Denormalizace • normalizované DB nevhodné pro analytické zpracování dat • dotazy často vyžadují přístup do velkého množství tabulek zbytečně časově náročné join operace • denormalizace • doplnění redundantních dat • předpočítání agregovaných, seskupených či sumarizovaných dat • odlišná DB schémata • optimalizace pro čtení • materializovaný pohled (materialized view) • schéma hvězdy (star) nebo vločky (snowflake) • OLAP kostka Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 5 / 54 Normalizovaná vs. Denormalizovaná databáze On-Line Analytical Processing (OLAP) • mj. technologie ukládání dat v DB • zaměřeno na • ukládání velkých objemů dat pro budoucí zpracování • podporu analytického zpracování dat • efektivní zpracování multi-dimenzionálních dotazů • čtení (read-mostly DB) • ukládání dat ve snadno pochopitelném formátu • ukládání historie dat • vedení, analytici, specialisté mimo IT oblasti apod. • data většinou nahrávána periodicky • málo uživatelů • orientováno na subjekt • pouze operace insert a select Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 6 / 54 Normalizovaná vs. Denormalizovaná databáze Normalizovaná vs. Denormalizovaná databáze OLAP kostka, operace Data Warehouse: základní charakteristika Data Warehouse: základní charakteristika ty Normalizovaná vs. Denormalizovaná databáze ty Data Warehouse: základní charakteristika Data Warehouse: návrh ty Data Warehouse: architektura Data Back-End Shrnutí Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 9 / 54 Data Warehouse: základní charakteristika Data Warehouse: definice • Data Warehouse (datový sklad) je: • kolekce dat pro podporu rozhodování s následujícími vlastnostmi: orientovaný na subjekt, • integrovaný • časově proměnný • avšak stálý (konzistentní). • definice dle Williama H. Inmona1 • data Warehousing je • kolekce metod, technik, nástrojů a pňstupů k zajištění podpory pro knowledge workers při analýzách dat, které dopomohou k lepším rozhodnutím a zkvalitnění informačních zdrojů. 1 The father of the data warehouse i •oa.o PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 12 / 54 Jaroslav Bayer (Fl MU) Data Warehouse: základní charakteristika DW: časová proměnlivost • data většinou nahrávána periodicky po větších dávkách • avšak existují i on-line aktualizované datové sklady • data po vložení zafixována jako časový snímek produkční DB • součástí datových záznamů jsou časové známky • historie dat Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 28.11.2012 13/54 Data Warehouse: základní charakteristika DW: stálost (konzistence) • uživatelé data zásadně nemění • pokládají zejména dotazy (select) • data se po vložení prakticky nemění • až na výjimky v podobě chyb v datech či HW poruch • po exspiraci mohou být data vymazána Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 28.11.2012 14/54 Data Warehouse: návrh Data Warehouse: návrh ty Normalizovaná vs. Denormalizovaná databáze ty Data Warehouse: základní charakteristika ty Data Warehouse: návrh ty Data Warehouse: architektura Data Back-End Shrnutí Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 28.11.2012 15/54 Data Warehouse: návrh Operational Systems Marketing Sales ERP SCM EIX Data Warehouse Integration Layer ETL ODS Staging Area External Data ETL ETL ETL Data Warehouse Data Vault ETL ETL Data Marts Mart r Mart r Mart J Mart J Mart ľ Mart c Strategic Marts Mart 1 Mart p iMartY" "Marti— i -i Zdroj: http : // upload . wikimedia . org/wikipedia/commons/4/4 6/DatQ_wa*flIo>us4;jgvervi^w . JP^ 'O^C* PV005-Služby počítačových sítí: Data Warehouses 28.11.2012 16/54 Jaroslav Bayer (Fl MU) Data Warehouse: návrh DW: Staging Area a ODS • (Data) Staging Area • mezilehlé datové úložiště • časově nestálé (data se po nahrání do DW mohou smazat) • sběr dat z více zdrojů • hledání rozdílů mezi aktuálními daty a daty v DW • předvýpočty agregovaných hodnot • čištění dat (data cleansing) • detekce a oprava porušených či nesprávných záznamů • nezaměňovat s pouhou validací dat • Operational Data Store (ODS) • DB navržená pro integraci dat z různých zdrojů Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 28.11.2012 17/54 Data Warehouse: návrh DW: Staging Area a ODS • (Data) Staging Area • mezilehlé datové úložiště • časově nestálé (data se po nahrání do DW mohou smazat) • sběr dat z více zdrojů • hledání rozdílů mezi aktuálními daty a daty v DW • předvýpočty agregovaných hodnot • čištění dat (data cleansing) • detekce a oprava porušených či nesprávných záznamů • nezaměňovat s pouhou validací dat • Operational Data Store (ODS) • DB navržená pro integraci dat z různých zdrojů • data uložena s nejvyšší granularitou (atomická data) • data dostupná produkčnímu systému i DW • data omezena na aktuální stav (nebo stav jemu blízký) Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 28.11.2012 17/54 Data Warehouse: návrh DW: ETL • Extract, Transform, Load (ETL) • Extract • získání dat z různých (a často nekompatibilních) zdrojů • analýza dat, kontrola souladu se vzory dat, ... • Transform • transformace dat ze struktury zdroje do struktury cíle • výběr sloupců, změna kódování, spojení tabulek, agregace, disagregace, pivoting, validace dat, ... • Load • nahrání dat do cíle, např. DW • triggery a ověření konzistence dat přes integritní omezení Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 28.11.2012 18/54 DW: Data Marts Data Warehouse: návrh • Data Mart (DM, datová tržiště) • logická podčást DW • obsahuje podmnožinu dat z DW • zaměřen na konkrétní uživatele • přístupová vrstva pro získávání dat z DW • DM může mít vlastní HW, SW i data a DB • snížení doby přítupu • lepší definice uživatelů, bezpečnost Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 28.11.2012 19/54 Data Warehouse: návrh DW: Data Vault • speciálně navržená DB • Data Vault Modelling • databázová modelovací metoda • vyhovuje potřebám integrace i ukládání historie dat • podporuje sledování původu dat (data tracking) • zkracuje čas potřebný pro naplnění (loading time) • reaguje dobře na změny • splňuje požadavek 100 % dat po 100 % času • může nahradit ODS • (detaily později) Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 20 / 54 Data Warehouse: architektura Structure-Oriented Classitication Data Warehouse: architektura 0 Normalizovaná vs. Denormalizovaná databáze 0 Data Warehouse: základní charakteristika 0 Data Warehouse: návrh ty Data Warehouse: architektura • Structure-Oriented Classification « Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB schemas • Data Vault Modelling 0 Shrnutí Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses Data Warehouse: architektura Structure-Oriented Classification DW: jednovrstvá architektura Operational data Middleware 1/ V Source layer / / Data \ warehouse \ x_______I Analysis Reponing tools OLAP tools Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28.11.2012 22/54 Data Warehouse: architektura Structure-Oriented Classification DW: jednovrstvá architektura • minimalizuje množství uložených dat • vlastní DWje virtuální • DW implementován jako multidimenzionální pohledy (views) do operační DB • neodděluje analytické a transakční zpracování dat • analytické dotazy zatěžují operační DB • potenciální nedostatek výkonu • neudržuje více dat než zdroj • nejjednodušší, málo nasazovaný přístup Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 23 / 54 Data Warehouse: architektura Structure-Oriented Classitication DW: dvouvrstvá architektura Operational data bxtcrnal data J f ETL tools feata WarehouJjJ i , .s cr- - —-^ ^ Meta-data Data marts I SjT_n^'v7 Reporting What-ifar,al tools ^/ ^ . . t . Dato staging Data warehouse layer OLAP Look Data mining tool s Jaroslav Bayer (Fl MU) Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524 PV005- Služby počítačových sítí: Data Warehouses 28. 11.2012 Data Warehouse: architektura Structure-Oriented Classitication DW: dvouvrstvá architektura o odděluje analytické a transakční zpracování dat • podpora integrace dat z více zdrojů, ETL • DW existuje fyzicky • alternativní modelovací metody • rozdělení na DM • meta-data • ukládání historie « ... Jaroslav Bayer (Fl MU) 4 □ ► 4 fiP ► 4 PV005 - Služby počítačových sítí: Data Warehouses Data Warehouse: architektura Structure-Oriented Classitication DW: třívrstvá architektura tools tools Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524= * •OO.O PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 26/54 Data Warehouse: architektura DW: třívrstvá architektura Structure-Oriented Classification • dvouvrstvá architektura doplněna o tzv. Reconciled Data Layer (RDL, vrstva pro sladění dat) nebo ODS • DW pak není plněn přímo ze zdrojů, ale z RDL/ODS • odděluje problémy extrakce a integrace dat od plnění DW • nová vrstva přidává další datovou redundanci do systému Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 27 / 54 Data Warehouse: architektura DW: hybridní přístup Structure-Oriented Classification • na pomezí jedno a vícevrstvé architektury • agregovaná či sumarizovaná data uložena fyzicky v DW • vhodné pro multidimenzionální dotazy • detailní data uložena pouze ve zdrojové DB • v případě potřeby dostupné DW • snižuje datovou redundanci a nároky na úložiště v DW Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 1 Data Warehouse: architektura Design Methodologies Design Methodologies 0 Normalizovaná vs. Denormalizovaná databáze 0 Data Warehouse: základní charakteristika 0 Data Warehouse: návrh 0 Data Warehouse: architektura • Structure-Oriented Classification • Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB schemas • Data Vault Modelling 0 Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► PV005 - Služby počítačových sítí: Data Warehouses Data Warehouse: architektura Design Methodologies DW: nezávislá datová tržiště o-w-o-w-o Operational data ^^^^^^)perational data ^^^^^(Jperational data v ETp;- y Meta-data 1_ Meta-data Data mart Data mart Jaroslav Bayer (Fl MU) Reporting _x What-if analysis tools ^/ ^ . 3 OLAP Data mining tools tools tools Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524= ■=. •OO.O PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 30/54 Design Methodologies Data Warehouse: architektura DW: nezávislá datová tržiště • Independent Data Marts • datová tržiště vznikají nezávisle • analytické nástroje je používají dle potřeby • komplikuje integraci dat • vhodné pouze v případě nedostatku zdrojů • limitující funkcionalita Jaroslav Bayer (Fl MU) 4 □ ► PV005 - Služby počítačových sítí: Data Warehouses Data Warehouse: architektura Design Methodologies DW: architektura sběrnice • Bus Architecture • návrh zespodu nahoru (bottom-up design) • algoritmus pro detekci tzv. Conformed Dimensions v DM • sestavení sběrnice z těchto dimenzí • nezávislé, avšak homogenní DM tak vytvoří koherentní DW • výhody • použitelné s prvním DM • iterativní přístup • nevýhodou jsou problémy s granularitou při rozšiřování • propagátorem metody je Ralph Kimball3 http://www.kimballgroup.com PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 Jaroslav Bayer (Fl MU) Data Warehouse: architektura Design Methodologies DW: návrh shora dolů • top-down design • centralizovaný přístup • detailní data v DW uložena normalizované (do jisté míry) • DM v multidimenzionální formě jsou plněny z centrálního repozitáře • výhody • produkuje vysoce konzistentní DM • po dokončení odolné vůči změnám v business procesech • nevýhodou je značná časová náročnost do dokončení DW není příliš využitelný před dokončením • propagátorem metody je William H. Inmon4 4http://www.inmoncif.com/ PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 Jaroslav Bayer (Fl MU) Data Warehouse: architektura Design Methodologies DW: Hub-and-Spoke Architecture ■ÚirVl tools tools Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524= * •OO.O PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 34/54 Data Warehouse: architektura Design Methodologies DW: Hub-and-Spoke Architecture • atomická data ukládána normalizované v Reconciled Data Layer (RDL) a agregovaná a sumarizovaná data ukládána do DM v multidimenzionální formě • podobné předchozímu návrhu • avšak detailní a agregovaná data nemusí být fyzicky uložena v jednom repozitáři • uživatelé většinou pracují s DM • k RDL přistupují pouze výjimečně pro detailní data • Data Vault Modelling odpovídá této architektuře Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 35 / 54 Data Warehouse: architektura Design Methodologies DW: sjednocující architektura -J- Operational data ^ Operational data w w w If ETLLools If ETL tools || ET: !□! Izl ITI Data mart Data mart Data mart t t t Logical-physical integration * í v á ck & \á Jaroslav Bayer (Fl MU) ' ^ What-if analysis tools ™/ , OT.AP Data mining tools tools 1001 s Zdroj: Data Warehouse Design: Modern Principles and Methodologies, ISBN: 9780070677524= ■=. -O^O PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 36 / 54 Data Warehouse: architektura Design Methodologies DW: sjednocující architektura • Federated Architecture • integruje již existující DW či DM • vytvoření jednotného rozhraní pro přístup ke všem datům Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11 Data Warehouse: architektura Data Loading Approaches Data Warehouse: architektura 0 Normalizovaná vs. Denormalizovaná databáze 0 Data Warehouse: základní charakteristika 0 Data Warehouse: návrh Q Data Warehouse: architektura • Structure-Oriented Classification « Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB schemas • Data Vault Modelling 0 Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► 4 PV005 - Služby počítačových sítí: Data Warehouses Data Warehouse: architektura Data Loading Approaches Data Loading Approaches (přístupy nahrávání dat) • žádná data o použitelné pouze u jednovrstvého DW • zcela aktuální data • off-line • data aktualizována v pravidelných intervalech, např. hodiny, dny, týdny, ... • DW nemá vždy aktuální data • on-line • DW aktualizován s každou transakcí • zcela aktuální data • on-line z více zdrojů • jako předchozí bod, ale z více zdrojů Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 39 / 54 Data Back-End Database Management System Data Back-End 0 Normalizovaná vs. Denormalizovaná databáze 0 Data Warehouse: základní charakteristika 0 Data Warehouse: návrh 0 Data Warehouse: architektura • Structure-Oriented Classification « Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB Schemas • Data Vault Modelling 0 Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► 4 fiP ► PV005 - Služby počítačových sítí: Data Warehouses Data Back-End Database Management System Databázové systémy • relační model • data uložena v relacích (tabulkách) v podobě n-tic (řádků/záznamů) • tabulky definovány schématem relace • nejrozšířenější DBMS • ROLAP • implementace multidimenzionální funkcionality na relační DB • grafové databáze • data definována i uložena pomocí grafové struktury • založeno na teorii grafů • oproti relačním DB někdy rychlejší, lépe škálují • vhodné pro dotazy podobné grafovým operacím, např. hledání cesty Jaroslav Bayer (Fl MU) PV005-Služby počítačových sítí: Data Warehouses 28. 11.2012 41 /54 Data Back-End Database Management System Databázové systémy (2) • síťový model • flexibilní způsob ukládání vztahů mezi objekty • uzel může mít více rodičů i potomků - zobecněný graf • hierarchické databáze • data organizována ve stromových strukturách • registry MS Windows • triplestore • vhodné pro ukládání trojic • ... Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28 Data Back-End DB Schemas Data Back-End 0 Normalizovaná vs. Denormalizovaná databáze 0 Data Warehouse: základní charakteristika 0 Data Warehouse: návrh 0 Data Warehouse: architektura • Structure-Oriented Classification « Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB schemas • Data Vault Modelling Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► PV005 - Služby počítačových sítí: Data Warehouses Data Back-End DB Schemas Schéma hvězdy Dim_Date Id Date Day Day_of_Week Month Quarter Quarter_Name Datejd Storejd Productjd Units_Sold Dir n_Store 'S Id 5tore_Number 5tate_Province Country Dim Product g Id EAN_Code Product_Name Ü " Brand Zdroj: http : / / upload . wikimedia . org/wikipedia/en/ f / f e/St ar - schema - example . png Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28.11.2012 44/54 Data Back-End DB Schemas Schéma hvězdy • Star Schéma • dovoluje relační DB simulovat multidimenzionální DB • nejjednodušší schéma DW • faktová tabulka uprostřed spojuje dimenzní tabulky okolo • faktové tabulky nesou (zejména) číselné údaje - fakta • zabírají nejvíce místa • dimenzní tabulky • nesou atributy faktů - jejich popis, kontext o související atributy v jedné tabulce • minimalizace počtu dimenzních tabulek • mají velké množství sloupců (atributů) Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11 I DB Schemas Schéma sněhové vločky Data Back-End D i m _D ay _o f _W eek D i m _Pr oduct_Categ or y Zdroj: http : / /upload . wikimedia . org/wikipedia/common s / 7/73/Snow f la ke - schema - example . png PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 46 / 54 Jaroslav Bayer (Fl MU) Data Back-End DB Schemas Schéma sněhové vločky • Snowflake schéma • opět v centru faktové tabulky a okolo dimenzní • avšak dimenze jsou normalizované (do určité míry) • nikoli faktové tabulky • dimenzní tabulky rozloženy procesem normalizace do několika propojených tabulek • efektivní zejména • pro díravé (sparse) dimenze a má-li dimenze velké množství atributů Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 47 / 54 Data Back-End DB Schemas Hvězda vs. vločka • obě optimalizují čas/rychlost získání dat (operace čtení) • hvězda vhodná pro nástroje, které odhalují DB schéma uživatelům • snadno pochopitelná, přirozená spojení • vločka vhodná pro sofistikované nástroje, které oddělují data od uživatelů Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 48 / 54 Reverzní hvězda Data Back-End DB Schemas • Reverse Star Schéma • optimalizace na získání velkého množství popisných dat • návrh převrací některá pravidla hvězdy naruby • k centrální tabulce se připojují faktové tabulky • více centrálních tabulek • rozdílné kardinality Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 1 Data Back-End Data Vault Modelling Data Back-End ty Normalizovaná vs. Denormalizovaná databáze ty Data Warehouse: základní charakteristika ty Data Warehouse: návrh ty Data Warehouse: architektura • Structure-Oriented Classification « Design Methodologies • Data Loading Approaches 0 Data Back-End • Database Management System • DB Schemas • Data Vault Modelling O Shrnutí Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses Data Back-End Data Vault Modelling DV: přehled • modelovací metoda • ukládání historie dat • integrace dat z více zdrojů • datový audit, původ dat (data tracking) • uchovávání chybných hodnot • paralelní nahrávání dat • 100 % dat 100 % času • může nahradit ODS • fakta vs. pravda • navržen Danem Linstedtem5 5http://danlinstedt.com/ PV005 - Služby počítačových sítí: Data Warehouses Jaroslav Bayer (Fl MU) DV: komponenty Data Back-End Data Vault Modelling • Hubs • primární klíče (business klíče) • tyto se téměř nemění, např. učo • Links • integrace transakcí a vztahů mezi Hubs • Satellites • kontext Hubs a Links • Point-in-Time Tabules, Bridge, pomocné tabulky, Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses Shrnutí ty Normalizovaná vs. Denormalizovaná databáze ty Data Warehouse: základní charakteristika ty Data Warehouse: návrh ty Data Warehouse: architektura 0 Data Back-End ty Shrnutí Jaroslav Bayer (Fl MU) 4 □ ► PV005 - Služby počítačových sítí: Data Warehouses Shrnutí Shrnutí • Operační/Transakční DB • ukládá data s ohledem na bezpečné a efektivní zpracování transakcí v konkurečním mnohouživatelském prostředí • zaměřuje se zejména na aktuální data • čtení a zápis • velké množství uživatelů • Data Warehouse • ukládá data s ohledem na efektivitu zpracování složitých dotazů o zejména operace select a insert • využívá multidimenzionální funkcionality • usnadňuje udržování historie data • snaha o čištění dat • analytické zpracování nezatěžuje transakční DB • podpora pro analytické nástroje • OLAP, reportování, DM nástroje, ... o data tracking • správa chybných dat Jaroslav Bayer (Fl MU) PV005 - Služby počítačových sítí: Data Warehouses 28. 11. 2012 54 / 54