Data Minin Co je to Data Mining? 3€ Data mining (DM), nebo také dolování z dat či vytěžování dat, je analytická metodologie získávání netriviálních skrytých a potenciálně užitečných informací. Aplikace 3§ Bankovnictví: schvalování úvěrů/kreditních karet El Predikce dobrých zákazníků. &CRM: El Identifikace zákazníků, kteří mají v úmyslu přejít ke konkurenci. E Cross-selling. El Up-selling. K Cílený marketing: El Identifikace pravděpodobných respondentů na nabídku. K Detekce fraudu: telecomunikace, finanční transakce ]Online identifikace podvodného chování. Aplikace §€ Medicína: efektivita léčebné péče ElAnalýza pacientovy historie (předchozí nemoci a jejich průběh): nalezení vztahu mezi nemocemi. 3€ Farmacie: identifikace nových léků ^Vědecká analýza dat: Elldentifikace nových galaxií. 3€ Design webových stránek: \E Nalezení vztahu návštěvníka stránek a příslušná změna podoby stránek. Aplikace 3€ Rozpoznávání psaného textu, řeči, obrázků. 3€ Supermarkety El Identifikace současně nakupovaného zboží §€ Průmysl: Elautomatické přenastavení ovládacích prvků při změně parametrů procesu. 3€ Sport: E NBA-optimalizace herní strategie §€ další... Aplikace - Rozmístění zboží v supermarketech 3€ Cíl: identifikovat zboží, které je nakupováno souběžně dostatečným množstvím zákazníků. 3€ Výsledek: Jestliže zákazník nakupuje dětské pleny a mléko, pak si velmi pravděpodobně koupí i pivo. Aplikace - Rozmístění zboží v supermarketech Data mining a princip indukce Indukce vs. Dedukce K Dedukce zachovává platné vztahy: 1. Koně jsou savci. 2. Všichni savci mají plíce. 3. Proto platí, že všichni koně mají plíce. K Indukce přidává informace: 1. Všichni doposud pozorovaní koně mají plíce, 2. Proto platí, že všichni koně mají plíce. Problém s indukcí 3€ Z platných faktu můžeme vyvodit nepravdivé tvrzení (model). 3S Príklad: s Evropské labutě jsou bílé s Indukce: „Labutě jsou bílé" jakožto obecné pravidlo. s Objevením Austrálie se objevili i černé labutě... s Problém: množina pozorování nebyla náhodná a tudíž reprezentativní. Data mining -podpora business rozhodnutí Increasing potential to support business decisions Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery i Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts ______________OLAP, MD A_____________ End User Business Analyst Data Analyst Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA Historie názvu I960 Data Fishing, Data Dredging (bagrování): 3€ užíváno statistiky 1989 Knowledge Discovery (KD, KDD): 3€ užíváno komunitou zabývající se umělou inteligencí a strojovým učením 1990 Data Mining (DM): 3€ užíváno v komerční sféře a databázové komunitě Další názvy: Data Archaeology, Information Harvesting, Information Discovery, Knowledge Extraction, ... Data mining - TB Á 11)0 BI) ni -Id ífl Si» ot the Urgent Data Warchou« in ihr WinlrrOorp loptcn'* Survey nutnost? Největší světové databáze v r. 2005: • Max Planck Inst, for Meteorology ~ 222 TB • Yahoo ~ 100 TB • AT&T ~ 94 TB Data mining - nutnost? 3€ Terabytes -- 10^12 bytes: data obchodních retezcu, bank, 3€ Petabytes -- 10^15 bytes: geografická data 3€ Exabytes -- 10^18 bytes: národní databáze zdravotních záznamů 3€ Zettabytes -- 10^21 bytes: databáze meteo-snímků 3€ Zottabytes -- 10^24 bytes: video-databáze Data mining - nutnost? Proč data mining? Proč dnes? 3€ Data jsou produkována 3€ Data jsou skladována 3€ Výpočetní síla je dostupná 3€ Výpočetní síla je cenově dostupná 3€ Konkurenční tlak je velice silný 3€ Komerční produkty jsou k dispozici Data mining vs. Statistická analýza 3€ Data Mining 3€ El Původně vyvinuto pro expertní systémy automaticky řešící zadané problémy. El Neklade takový důraz na přesné porozumění použité metody. El Pokud něco dává smysl, pak to použijme! El Žádné předpoklady o datech. E Funguje i pro velmi rozsáhlá data. E Vyžaduje porozumění problému z datovému a business pohledu. Statistická analýza E Testuje se statistická korektnost modelu. 1 Jsou statistické předpoklady modelu modelu splněny? E Testování Hypotéz. E Intervalové odhady. E Pracuje se s výběrem hodnot. E Standardní metody nejsou optimalizovány pro rozsáhlá data. E Vyžaduje pokročilé statistické znalosti. Data mining 3€ Proces (polo-) automatické analýzy (rozsáhlých) databází k identifikaci vztahů, které jsou: Q val id ní: platí na nových datech s určitou jistotou obecné platnosti nové: doposud neznámé užitečné: dají se v praxi nějak použít srozumitelné: (vždy) se nalezený vztah dá nějak vysvětlit 1^1 Data mining není: 3Š Brutální hromadné zpracování dat. 3Š Slepé použití algoritmů. 3Š Hledání vztahů tam, kde žádné neexistují. Známé * Zajímavé §€ Zajímavé jsou ty vztahy, které se liší od obecných očekávání 3€ Data mining se vyplácí právě díky objevování dosud neznámých a překvapivých vztahů Mléko a cereálie prodávej dohromady]/1 Mléko a cereálie prodávej dohromady^1 Vztah s ostatními disciplínami Database Technology Statistics Machine Learning Data Mining Visualization Information Science Data mining -proces Ověření vztahů Data Mining Relevantní Data Výběr Dat Transformace Dat Data Warehouse Čištění dat Integrace dat Databáze Data Mining Methodology (Aug 2007) What main methodology are you using for data mining? CRISP-DM (63) My own (29) SEMMA(19) KDD Process (11) My organizations' (8) Domain-specific methodology (7) Other methodology, not domain-specific (6) None (7) 42% | 13% 7% 5% 5% 4% 5% 19% CRISP-DM (CRoss Industry Standard Process for Data Mining) 1. pochopení obchodních souvislostí 2. pochopení dat 3. příprava dat 4. modelování 5. vyhodnocení modelu 6. nasazení modelu do obchodního procesu SEMMA (Sample, Explore, Modify, Model, Assess) • Sample (optional) your data by extracting a portion of a large data set big enough to contain the significant information, yet small enough to manipulate quickly. For optimal cost and performance, SAS Institute advocates a sampling strategy, which applies a reliable, statistically representative sample of large full detail data sources. Mining a representative sample instead of the whole volume reduces the processing time required to get crucial business information. If general patterns appear in the data as a whole, these will be traceable in a representative sample. If a niche is so tiny that it's not represented in a sample and yet so important that it influences the big picture, it can be discovered using summary methods. We also advocate creating partitioned data sets with the Data Partition node: Training -- used for model fitting. Validation -- used for assessment and to prevent over fitting. Test -- used to obtain an honest assessment of how well a model generalizes. • Explore your data by searching for unanticipated trends and anomalies in order to gain understanding and ideas. Exploration helps refine the discovery process. If visual exploration doesn't reveal clear trends, you can explore the data through statistical techniques including factor analysis, correspondence analysis, and clustering. For example, in data mining for a direct mail campaign, clustering might reveal groups of customers with distinct ordering patterns. Knowing these patterns creates opportunities for personalized mailings or promotions. • Modify your data by creating, selecting, and transforming the variables to focus the model selection process. Based on your discoveries in the exploration phase, you may need to manipulate your data to include information such as the grouping of customers and significant subgroups, or to introduce new variables. You may also need to look for outliers and reduce the number of variables, to narrow them down to the most significant ones. You may also need to modify data when the "mined" data change. Because data mining is a dynamic, iterative process, you can update data mining methods or models when new information is available. • Model your data by allowing the software to search automatically for a combination of data that reliably predicts a desired outcome. Modeling techniques in data mining include neural networks, tree-based models, logistic models, and other statistical models -- such as time series analysis, memory-based reasoning, and principal components. Each type of model has particular strengths, and is appropriate within specific data mining situations depending on the data. For example, neural networks are very good at fitting highly complex nonlinear relationships. • Assess your data by evaluating the usefulness and reliability of the findings from the data mining process and estimate how well it performs. A common means of assessing a model is to apply it to a portion of data set aside during the sampling stage. If the model is valid, it should work for this reserved sample as well as for the sample used to construct the model. Similarly, you can test the model against known data. For example, if you know which customers in a file had high retention rates and your model predicts retention, you can check to see whether the model selects these customers accurately. In addition, practical applications of the model, such as partial mailings in a direct mail campaign, help prove its validity. Phases in the DM EBusiness Understanding: E Statement of Business Objective ES Statement of Data Mining objective ^Statement of Success Criteria Process (1 & 2) 3€Data Understanding SExplore the data and verify the quality SFind outliers Fáze DM procesu (3) 3€ Příprava dat: El Obvykle zabírá přes 90% celkové času \E\ Sběr dat I Konsolidace a čištění Vazební tabulky, agregace, chybějící hodnoty,... H Selekce Ignorování neužitečných dat? Odlehlá pozorování? Výběr dat? Vizualizační nástroje. ] Transformace - vytváření nových odvozených proměnných Phases in the DM Process (4) 3€Model building E Selection of the modeling techniques is based upon the data mining objective QModeling is an iterative process - different for supervised and unsupervised learning Základní přístupy k modelování I/s I l/šl 9€ Prediktivní: Regrese/ Klasifikace Analýza časových řad 3€ Deskriptívni: Klastrová analýza Asociační pravidla Detekce deviací/zlomů 1^1 [7Š] [žšl Klasifikace 3€ Na základě známých údajů o „starých" zákaznících a jejich platební morálce máme predikovat platební způsobilost nového žadatele o úvěr. Předchozí zákazníci Klasifikátor Věk Příjem Zaměstnání Bydliště Typ zákazníka ^ w Rozhodovací pravidlo Dojgrý/ špatný Data nového žadatele Klasifikační metody »Cíl: Predikovat třídu Ci = f(xl, x2, .. Xn) »Regrese: (lineární nebo polynomiální) Ea*xl + b*x2 + c = Ci. »Metody nejbližšího souseda. 8 Rozhodovací stromy » Pravděpodobnostní modely (GLM) » Neuronové sítě Klastrová analýza 3€ Máme nalézt skupiny/ klastry stávajících zákazníků na základě platební historie tak, aby podobní klienti byli ve stejné skupině/ klastru. 3€ Základní požadavek: Kvalitní míra podobnosti (http://cs.wikipedia.org/wiki/Shlukova_analyza). 10 11 12 13 14 15 16 17 16 19 20 21 22 23 24 Méske po aktivaci karty Klastrovací metody 3€ Hierarchická klastrová analýza Sagglomerativní / divizivní SJednospojová (single link) /všespojová (complete link) 3€ K-means ► ... Phases in the DM Process (5) K Model Evaluation SEvaluation of model: how well it performed on test data S Methods and criteria depend on model type: Oe.g., coincidence matrix with classification models, mean error rate with regression models S Interpretation of model: important or not, easy or hard depends on algorithm Phases in the DM Process (6) K Deployment E5 Determine how the results need to be utilized SWho needs to use them? SHow often do they need to be used K Deploy Data Mining results by: \EScoring a database \E Utilizing results as business rules S interactive scoring on-line Miningový software 3€ Cca 20 až 30 dodavatelů 3€ Hlavní hráči na trhu: ElCIementine, ElIBM's Intelligent Miner, EISGľs MineSet, EISAS's Enterprise Miner. 3€ Řada vestavěných produktů: Elfraud detection: El electronic commerce applications, El health care, 3customer relationship management Software AcaStat GAUSS MRDCL ADaMSoft GAUSS NCSS Analvse-it GenStat OpenEpi AS Rem 1 Golden Helix Origin Auguri qretl Ox programming language BioStat JMP Ox M et r i es BrightStat MacAnova Origin Data p lot Mathematica Partek EasvReg Matlab Primer Epi Info MedCalc PSPP E Views modelQED R Excel Minitab R Commander^] RATS RKWardľ41 SalStat SAS SOCR Stata Statgraphics STATISTICA Statlt StatPlus SPIus StatsDirect Statistix SYSTAT The Unscrambler UNISTAT VisualStat Winpepi WinSPC XLStat XploRe SPSS Software §£ MS Excel: office.microsoft, IJUfci Iki Jfcn Hd —■* !&■* I com/en-us/excel Věková struktura podnikajících cizinců 4„/o1%1%1% 7% 38% 48% D -19 ■ 20-24 D 25-39 D 40-54 D 55-59 D 60-64 D 65+ Software §€ §sas, : www.sas.com j an i m b ■nu mi Í*'M| StWH^Ii Í**N "»'*- '""■"*■» E yc-—- ■HHMH . n4- H n how +v v«» n» ■ :rf'i-yt*v. 1 |> . []II,Kll«l ;-.n sa—-/—-e VĚZÍ*', -n. i.i-.»lft.T ■ j.-í ■! '- — I rtn-:ľh+:-P*r [J-Ůůl^ **. *íl—lir 4M1 l-H -+ P*- Software www.spss.cz BB 4-to ľd.UI FnTIB.y.lt rtiD-i Uf>4 K£ Uja '41 Ulli* ■V :'i »&■«* dl 1 1 If. asaffi' ^h. IMKw ■ JL J___|L44 1 ££. ■M"------=~ -r ,# T ©'<&©<&© ŕ*-^ '^Tm í""* >™-*j \ ^ A A A 59 Software §€ Statistical www.statistica.cz .prir i rr/ ■ ■■■■■ mm _i._ -i. —_ ■ ■ ■ II _.!_■■■_ . liJL^JiLI ; jnrt H ílu i 1 í;l ! í i- í S ■ ■ 1 pH . — *• Software §€ Matlab ^ÉVwww.mathworks.com, www.humusoft.cz ™r* it.CC>L>Tl->E|. J B* fH |- >-l U lili ÍiŮrtS:^"r= □p "□ ■ >■■ 1-riL iÍCNV* lj. Magill WCtI r1nllJi:'rlt>" I : -J f-ll Nlľll-ťĽ ■j^^Hi», Ilj^l-hj: _Jjj) .1 •1=1________ I _ «í ..y.s.f ^ P" ŕ* F"- ■-■- >■ f—^ ^F^^^ 3 Software Eviews: ww.eviews.com Factor ttaftod; Msmimum UkeilMtiocJ Dato. D9r1 frt» Tlme:12.0ü Cuvarian-ca ArtalfS-is: OrdinaiyCairelahrJn Sample:1 1+fl included otseivalions: 14-S Mumbw cfftctůra: Minimum iweraaů partial Prior communaliÜBs: Squars-d multiple rarrelabon CDniiergence acriieveaafter 5 rteralions visual ?JBES PARAGRAPH SENTENCE WÜROM FAPER1 FLAGS1 Unralatad Laadlnfls VE F. E.^L 3PATĽVL Oommunaliťf U1 icju = i ie -s = krnn: I IUI yIlIClít*:iihIiNmH V.ľ.-ŕ|?*-uL|-JLi=>.Lj frirŕh^^JJF-ŕť^, EJiiiidtŕ|;Pul:dtť|Í5-0rŕ! |5UU Biplol dFaclor Scores and RoUled Loadings físassť^ I U 1 FJTWľíHTfll Fsthvatnn Methcd Options Estirnŕticíi method ŕfiCH - &KV«u*Ľ( HeleroífcecUílfci'.,. AP.Cn™dcHnreslMt»i HudeJtiipi: Diagonal MECH • AdtMei) MfiW urifci »CH: [T] TftRCH:|0 | E*ROi:| I I YŕfiŕfiĽe re^esíůri: AP Ch tL.=(f kienl restrittnra CoBřrtlent: RttstrlctJor: 1 LndsfimteMattbi vi ARCHf.1) GARCH(l) Lřxm sui DHJnQn r.'uti..r.i-M:ir j - [3TWľ^nTr^ .' il ' .|™"32t£™TZ1^ C •. iliii-1 >.i ■_ jrrŕlrmiii CoflffiPCIWTMaPCIUSftt vr^V^ DDrdaPGHIJlI.epPCHPPil CcniTPCHlSFi^PCHlBPIJ VfSA.^^jW1^^*1'^^! řžj^LT^>^^OvJi^^^