Knihovnické systémy a standardy (VIKBA10) Martin Krčál Kurz pro studenty KISK FF MU Brno, 4. května 2022 7. Datamining v knihovnách Data mining Data mining * = dolování/dobývání/vytěžování dat * různé výklady a definice * definice vzískávání dat přímo z databáze nebo datového skladu vaplikace statistických a logických metod na data vuplatnění v managementu při §rozhodovacích procesech §strategickém řízení Data mining * jde o samostatnou metodu nebo je součástí knowledge discovery in databases (KDD)??? * v odborné literatuře často oboje * původně z ekonomie * dnes různé obory vIT a technologie, obchod a bankovnictví, medicína, vzdělávání, informační věda a knihovnictví Souvislost s ISK * datová analytika * informační chování a potřeby * organizace znalostí * expertní systémy * přesahy do IT, statistiky a ekonomie Historie data miningu * počátky v 60. letech s rozvojem IT vprvní pokusy o analýzu uložených dat * 80. léta – počátky expertních databázových systémů vvyšší výkon PC vsystematičtější data mining vspíše vyhledávání vzájemných vztahů ve velkých datasetech * 1989 – použit pojem knowledge discovery in databases Historie data miningu * 90. léta – samostatný obor aplikované vědy vnové statistické metody vpřesun z akademické sféry do komerčního prostředí vvyužití ve velkých firmách provozující velké systémy s množstvím dat * dnes big data vobrovské datasety a jejich analýza, výzkumy chování uživatelů, rozhodovací proces, umělá inteligence a strojové učení Bibliomining Bibliomining * Scott Nicolson a Jeffrey Stanton vSyracuse University vweby §http://www.bibliomining.com §http://www.scottnicholson.com vdiskuze o dataminingu 2003 è analýza dat v knihovních systémech vlibrary datamining è obvykle vyhledává programovací knihovny pro datamining, snaha odlišit tuto oblast è pojem bibliomining http://www.scottnicholson.com/scottnicholson.jpg http://my.ischool.syr.edu/Uploads/ProfilePicture/DSC_1149head-106-98251468-5c22-4a1c-8985-d70f5a9f3 271.jpg Bibliomining * analýza dat produkovaných knihovními službami a systémy * hledání zákonitostí a aplikace statistických metod na data v AKS * uplatnění v managementu knihoven, v rozhodovacích procesech * https://encrypted-tbn3.gstatic.com/images?q=tbn:ANd9GcRcDLLsrORAS_0XXe_Dwv6lAANux5uVSpWW7Glk29JQL-A gQz8- Proces bibliominingu http://pixabay.com/static/uploads/photo/2013/07/13/10/14/man-156836_640.png Definice problému http://pixabay.com/static/uploads/photo/2013/07/12/15/22/database-149760_640.png http://pixabay.com/static/uploads/photo/2013/07/12/15/22/database-149760_640.png http://pixabay.com/static/uploads/photo/2013/07/12/15/22/database-149760_640.png http://pixabay.com/static/uploads/photo/2013/07/12/15/22/database-149760_640.png http://upload.wikimedia.org/wikipedia/commons/8/85/Presentation_icon_BLACK-01.png http://alleswebeu.files.wordpress.com/2013/06/seo-icon-124.png http://pixabay.com/static/uploads/photo/2013/07/12/12/30/cogwheel-145804_640.png 1. Definice problému * specifický požadavek knihovny * požadavek managementu * co chceme zjistit? vpredikce trendů (jak to bude v budoucnu) vsoučasný stav (přesné info) •Co můžeme zkoumat? Co můžeme zkoumat? * trendy v oblasti výpůjček * využívanost fondu * chování uživatelů * využívanost služeb * využívanost EIZ * * sledují se hlavně vztahy a vazby Konkrétní otázky * Kolik prváků přišlo do knihovny a půjčilo si knihu k některému z povinných předmětů? * Vede pravidelná docházka do knihovna k lepším studijním výsledkům? 2. Databáze * identifikace datových zdrojů * nalezení vhodných dat pro proces bibliominingu * problém citlivých údajů vdata o čtenářích a jejich chování §ale lze tím lépe cílit své služby na uživatele §lze lépe odhalit problémy v knihovních službách a procesech * * Dělení zdrojů * interní vvlastní data v systémech knihovny vdata o uživatelích, výpůjčky, přístupy do katalogu, využívání služeb,… * externí vmimo vlastní systémy vmůže se k nim dostat nebo je odvodit vodkud se uživatelé přihlašují (dle IP adres), data z Google Analytics,… 3. Datový sklad * nutno zajistit ochranu osobních dat * vyčištění dat a jejich příprava vinfo o uživatelích vhledání obecných zákonitostí pro určité skupiny uživatelů vpotřebná data se uloží do datového skladu, zbytek se vymaže * data o uživatelích nelze zpětně z datového skladu obnovit * nejsložitější proces na bibliominingu * Datový sklad * cyklický proces vzohledňují se výsledky analýzy vpřiřazování nových parametrů vladění è učení se z chyb vnejprve úzce specifikované otázky §odhalení špatného výběru dat do DS §chyby v algoritmech * důležitá přesnost dat è drobná nepřesnost může ovlivnit výsledky * Otázky * Lze na vybraných datech provést analýzu? * Jsou data přesná? * Jak a kdy se data sbírala? * … 4. Výběr analytických prostředků * vhodná statistická metoda * software vstatistické programy (SPSS, SAS nebo opensource Weka) valgoritmus – vytvoření na míru našim potřebám 5. Analýza dat a jejich ověření * provedení analýzy * náročné na čas vmůže se několikrát opakovat, ladit data na vstupu, algoritmy apod. * ověření modelů a výsledků vasistence odborníků §knihovníci, informační specialisté §znají procesy, dokáží ověřit §vypadají výsledky reálně??? §překvapivé výsledky – nedošlo k chybě???, prověření analýzy, dat, algoritmů,… §snaha vysvětlit anomálie, vysvětlení vybraných trendů §„typický představitel“ - validace § Nebezpečí analýzy * snaha o úpravu dat * manipulace při analýze * nevhodný výběr dat pro analýzu * nespolupráce knihovníků a informačních specialistů 6. Prezentace výsledků * vypracování zprávy * popsán podrobný postup analýzy * prezentace veřejnosti vpředtím konzultovat s knihovníky vne na úroveň uživatelů (filtr v DS) * vhodná vizualizace dat vgrafy, tabulky, animace, schémata,… * nutno vnímat pozitivně vzkvalitnění služeb a procesů Opakování analýzy * opakovat v pravidelných intervalech vmožnost srovnání vekonomický rozměr – vyvinutí algoritmů a ladění vstupů náročné na čas a peníze Výhody a nevýhody Výhody bibliominingu * sledování trendů * analýza současného stavu * možnost porovnání s jinými institucemi * analýza interních procesů a služeb * pomoc při rozhodování vpodpora strategického managementu Nevýhody bibliominingu * zkreslování dat * problém při nevhodném výběru dat * zneužití dat * časová náročnost procesu * nutno přesvědčit knihovníky o důležitosti bibliominingu Bibliomining v knihovních systémech Staré systémy * obvykle nemají speciální nástroje * nutná improvizace * znalost programování, databází a statistiky * vlastní algoritmy vkic.ics.muni.cz vZ. Kadlec, M. Sošková * ARC (Aleph Reporting Center) vomezená funkcionalita, nejsou trendy Systémy nové generace * samostatné moduly * predikce trendů * např. ALMA vcloud vmodul statistik všablony vvizualizace dat vjednorázové i opakované reporty vinformace pro management a rozhodovací proces v Alma - statistiky Zdroj: Christian Motovski. Budoucnost je už dnes: odhalte svoje možnosti s Almou a Primo. BA 2014. Koha CENTER Uplatnění v praxi •Jak lze bibliomining uplatnit v praxi??? •Jaké systémy lze využít??? Systémy * knihovní systém * informační systém instituce * digitální knihovny (DigiQual) * e-zdroje a databáze vpřístupy a využívanost, standard Counter vstatistiky AKVŠ * citační manažery * ostatní nástroje vGoogle Analytics na webu knihovny v… Uplatnění v praxi * Data Driven Acquisition = řízená akvizice dle potřeb uživatelů * podklady pro vedení vrozhodovací proces vprovozní doba, posílení oddělení,… * sledování výpůjček vi prezenční vakvizice, přesuny do/z skladu, vyřazování, posunování regálů (např. co se bude nakupovat???) * návštěvnost webu a jeho úprava * Uplatnění v praxi * katalog vnávrh rozhraní vyhledávání vkomentáře a hodnocení, zakomponování do výsledků vyhledávání + relevance vkvalita katalogizace – jsou záznamy vyhledatelné jazykem uživatelů vfunkce systému – co využívají, jak se systém využívá, co je zbytečné, co chybí,… Zdroje Zdroje * http://www.bibliomining.com * http://www.scottnicolson.com * SOŠKOVÁ, Michaela. Analýza a vyhodnocení činností uživatelů souborného online katalogu Masarykovy univerzity. Brno: 2006. Dostupné také z Thesis.cz. Bakalářská práce, KISK FF MU, vedoucí práce Z. Kadlec. * SHIEH, Jiann-Cherng. The integration system for librarians' bibliomining. The Electronic Library [online]. 2010, vol. 28, issue 5, s. 709-721 [cit.: 2014-11-13]. DOI: 10.1108/02640471011081988. Dostupné z: http://www.emeraldinsight.com/10.1108/02640471011081988 * NICHOLSON, Scott. Approaching librarianship from the data: using bibliomining for evidence-based librarianship. Library Hi Tech [online]. 2006, vol. 24, issue 3, s. 369-375 [cit. 2014-11-13]. DOI: 10.1108/07378830610692136. Dostupné z: http://www.emeraldinsight.com/10.1108/07378830610692136 Závěr •Děkuji Vám za pozornost billboard Martin Krčál krcal@phil.muni.cz