Business Intelligence Skorkovský KAMI, ESF MU Principy BI n zpracování velkých objemů dat tak, aby výsledek této akce manažerům pomohl k rozhodování při řízení procesů n výsledkem zpracování musí být relevantní informace, kterou dostanou manažeři ve správném čase n základní zdroj dat, která se často ukládají do datových skladů jsou ERP systémy (relační DB) n získání informací jako výsledek strukturovaných dotazů musí probíhat rychle (krátká odezva) n používá se pro řízení na strategické, taktické u operační úrovni Principy BI n Definice 1 : BI je sběr a analýza dat, jejímž cílem je lepší porozumění a reakce na změny, kterým organizace neustále čelí n Definice 2 : BI je znalost podniku získaná za použití HW a SW technologií, která umožní přeměnit data organizace v informaci n Definice 3 : sada procesů, aplikací a technologií, jejíchž cílem je účinně a účelně podporovat rozhodovací procesy ve firmě. Tyto procesy podporují analytické a plánovací činnosti podniků a organizací a jsou postaveny na principech multidimenzionálních pohledů na podniková data Nástroje BI n ERP systémy n Dočasná úložiště (DSA: Data Staging Area) n Operativní úložiště (ODS : Operational Data Store) n Transformační nástroje (ETL : Extraction Transformation Loading) n Integrační nástroje (EAI : Enterprise Application Integration) n Datové sklady n Datová tržiště n OLAP n Reportingové nástroje n EIS (Executive Information Systém) n Data Mining Omezení ERP jako poskytovatele dat n Neumožňují rychle a pružně měnit kriteria výběru n Okamžitý přístup uživatelů k velkým objemům agregovaných dat n ERP jsou primárně určeny k pořizovaní dat a jejich aktualizaci n V každém podniku se objem dat za každých pět let zdvojnásobí, což ovšem také znamená, že systém je zahlcen redundantními daty n Vícedimenzionální pohled na data v ERP je problematický. DB ERP není pro tento pohled stavěná. Databáze, které vzniknou přeměnou primárních dat z ERP a jsou využívány např. OLAP technologií jsou pro drilling a slice operace optimalizovány Zjednodušené schéma využívání ERP Organizačně-technologické schéma podniku OLAP kostka n http://www.databaseanswers.org/designing_olap_cubes.htm Relační dimenzionální model: STAR Relační dimenzionální model: SNOWFLAKE Datový sklad Definice n Datový sklad: základní komponenta BI n Datové tržiště : subjektově orientované analytické DB- součást datového skladu n Operativní datová úložiště : podpůrné analytické DB n Dočasná úložiště dat : úložiště dat před jejich zpracování do databázových komponent řešení BI Vrstvy pro analýzu dat n Reporting : ad hoc dotazovací proces do DB komponent BI n OLAP : pokročilé a dynamické analytické úlohy n Data Mining (dolování dat) : sofistikovaná analýza většího množství dat n Algoritmy pro dolování dat : n rozhodovací stromy n Neuronové sítě n Clustering a klasifikace Datový sklad->datové tržiště (anglická verze) Vysvětlení pojmu METADATA Metadata jsou data o datech, kde pomocí předem definovaných dat s jasně danou a popsanou strukturou uchováváme informace o jiných datech. Typickým příkladem metadat jsou katalogizační záznamy v knihovnách, což byla jejich původní funkce. Architektura OLAP (anglická verze) Hlavní komponenty BI a jejich vazby Dolování dat n Rozhodovací stromy n Neuronové sítě n Genetické algoritmy n Clustering a klasifikace Dolování dat n Rozhodovací stromy (RS) - prediktivní model, který se zobrazuje v podobě stromu, kde každý uzel určuje kritérium pro následní rozvětvení. Strom rozděluje veškerá zdrojová data do segmentů, kde každý list odpovídá určitému segmentu definovanému předešlými uzly.Data v jednom segmentu mají shodné vlastnosti. B + tree-jeden z příkladů RS Příklad vytvoření RS Rozdělení postaviček podle atributů Rozhodovací strom jako logický výraz Neuronové sítě n Neuronové sítě (NS) - užívané pro tvorbu prediktivních modelů, Jsou založeny na obdobných principech, které napodobují organizaci nebo způsob chování lidského mozku, založeném na systému neuronů. Učení neuronových sítí Vícevrstvé neuronové sítě OLAP databáze n OLAP DB představují jednu nebo více souvisejících OLAP kostek n OLAP kostka na rozdíl od datových skladů zahrnuje předzpracované agregace dat podle definovaných hierarchických struktur dimenzí a jejich kombinací n Technologie OLAP má několik variant (uvádím zde pouze dvě z nich): n MOLAP - Multidimensional OLAP (speciální uložené v multidimenzionálních-binárních kostkách) n ROLAP – Relational OLAP (uloží data do relační DB) Datová pumpa Datová pumpa (kritické místo celé aplikace) Datová pumpa (kritické místo celé aplikace)