Kvantitativní metody informační vědy •každý vědecký obor musí mít vlastní vědecké metody - uplatňuje při zkoumání svého předmětu •metody – základem exaktnosti. Umožňují opakovat, kontrolovat a srovnávat experimenty •v informační vědě dvě oblasti – bibliometrie a infometrie, které umožňují kvantifikovat dokumentační a informační fenomény a n stávají se tak zdrojem kvantitativních n metod a zdrojem určitých pravidelností n (s mírnou nadsázkou označovaných jako n přírodní zákony) method Bibliometrie •Bibliometrie – je to aplikace matematických a statistických metod na knihy a další psaná komunikační média •zabývá se kvantifikovatelnými vlastnostmi znakově zaznamenaného diskurzu a chování •je vědou studující používání dokumentů a publikačních vzorů pomocí matematických a statistických metod •vzniká na základě propojení dvou oblastí: n1) bibliografie: n - srovnávací a historická studia knih a jejich skladby n - klasifikace knih za účelem šíření znalostí o daném n předmětu, autorovi, vědní oblasti apod. formou n seznamů těchto knih Bibliometrie n2) statistika: zabývá se množinami faktů, které spolu vzájemně souvisejí. Je to věda, která shromažďuje statistická fakta, třídí je a na jejich základě pak vyvozuje závěry o daném stavu předmětu (stav země, jejího obyvatelstva apod.). Aplikací teorie pravděpodobnosti lze z velkého množství dat činit předpovědi •bibliometrie – název z řeckého biblion (kniha, Byblos – fénické město proslulé exportem papíru) a metricus (měření) •průkopníky bibliometrie Cole a Eales – v roce 1917 analyzovali literaturu z anatomie za roky 1543 – 1860. Podobné studie souhrnně označovány jako statistická bibliografie Bibliometrie •roku 1969 Alan Pritchard navrhl alternativní označení bibliometrie, aby se vyhnul záměně původního termínu se statistikou samotnou či s bibliografiemi o statistice •aplikace bibliometrie: Ø růst a vývoj vědy Økřížové sítě citací – výzkum vzorů komunikace Ødle citací určení klíčových časopisů pro knihovny Øepidemické modely šíření poznatků Økocitace – výskyt citace dvou článků → souvisejí spolu → určuje u časopisů teoretické a aplikační jádro oborů cocitation Infometrie •založil ji v roce 1979 prof. Otto Nacke a definoval ji jako průnik matematiky a informatiky •lze ji chápat jako využití měřících procedur na informační procesy a funkce •bibliometrické studie jsou součástí širšího pole studia – infometrie •základní jednotkou bibliometrie jsou „dokumentační jednotky“ s tematicky vymezenými kategoriemi obsah, autor, jazyk apod., zatímco základní jednotky v infometrii v současnosti přesně stanovit nelze Infometrie •infometrie zkoumá množství informací obsažených v dokumentu či jiném sdělení a změny tohoto množství při různých transformacích informací v průběhu společenského informačního procesu •bibliometrie zkoumá jen jeden druh informační transformace – transformace projevující se v publikační činnosti Librametrics •je oblastí širší než infometrie. Česky se překládá jako kvantifikace knihovní činnosti •zabývá se měřením knihovních služeb jako celku •pojem zavedl v roce 1948 Ranganathan, který si uvědomil, že mnohé problémy spojené s knihovní prací souvisí s velkými čísly •kvantitativní metody jsou aplikovány na informační činnost knihoven a informačních center (chování dokumentů, knihovnického personálu a uživatelů knihoven) při řešení problémů knihoven či jejich jednotlivých oddělení Librametrics •aplikace (výběr): n» určení optimálního množství zaměstnanců v jednotlivých odděleních n» na systematizaci oběhu knihovních dokumentů n» na určení optimální velikosti knihovny n» na analýzu potřeb uživatelů n» na určení směřování akvizičního systému. Měření poměru náklady – efektivnost a náklady – zisky investicí v knihovnickém sektoru Scientometrie •dříve nazývána naukometrií je ještě širší oblastí něž librametrics. Je součástí scientologie, vědy o vědě •zkoumá a měří zákonitosti vývoje vědy jako složitého společenského jevu, jde tedy o aplikaci matematických postupů ve scietologii •je využívána na analýzu a modelování vědecko-sociologických, historických, teoretických a vědecko-ekonomických procesů s cílem řízení vědy •hodnotí se pokročilost vědy, úroveň jejího rozvoje a vliv a význam pro společnost •výsledky jsou používány pro vědecký management a plánování vědy Bibliometrické zákony •pravidelnosti označované jako zákony nejsou 100% platné, jelikož jde o statistické zákonitosti, tj. pravidelnosti vyskytující se s určitou pravděpodobností •zákony tvoří teoretickou základnu biblio- ale i infometrie. Jde o tři základní a tři doplňující zákony • n Bibliometrické zákony •Bradfordův zákon rozptylu (distribuce publikací) – popisuje rozložení dokumentů (nejčastěji časopisů) n ve specifických disciplínách či v určité tematice •Samuel Clement Bradford zjistil, že pokud bude n provádět rešerši článků k určitému tématu, najde n několik časopisů které se tématu věnují zcela, několik částečně, několik se mu věnují příležitostně. První časopisy tvoří jádro, další mezikruží kolem jádra •po sečtení článků v jádře uspořádal časopisy v mezikružích tak, aby obsahovaly stejný počet článků jako časopisy v jádře C Bibliometrické zákony •zákon tvrdí, že v jádře bude X časopisů, v 1. mezikruží n2X časopisů, v 2. n3X časopisů atd. n Tedy X : Y : Z = X : n2X : n3X = 1 : n : n2 •Bradford dále experimentálně zjistil, že číslo, kterým je třeba násobit počet časopisů je konstanta: n = 5 •zákon je používán např. při n hodnocení informačních pramenů n v jednotlivých oborech, při určení n poločasu stárnutí toku informací, n při návrhu designu ekonomičtějších n informačních systémů, při predikcích n publikačních trendů bibliometrie Bibliometrické zákony •Zipfův zákon výskytu slov – George Kingsley Zipf, německý lingvista, zjistil, že délka slova je úzce spojena s frekvencí jeho používání •metoda: uspořádává slova z Joyceova Odyssea podle výskytu. Nejčastěji se vyskytující má rang 1, druhé slovo n 2 atd. Když vynásobil rang počtem výskytů slova, zjistil, že součiny všech slov mají velmi blízké hodnoty n Zipf George Kingsley Bibliometrické zákony n Rang r Frekvence f Součin r.f n 10 2653 26530 n 20 1311 26220 n 30 926 27780 n 100 265 26500 n 500 50 25000 n 1000 26 26000 •frekvence jakéhokoli slova je inverzně proporční k jeho pořadí ve frekvenční tabulce •využití: při vytváření slovníků rešeršních nebo nevýznamových slov → nástroje automatického indexování Bibliometrické zákony •Lotkův zákon vědecké produktivity – zákon popisuje rozložení počtu autorů podle jejich produkce. Speciální aplikace Zipfova zákona. •Alfred J. Lotka rozložil soubor odborníků a podle profesí zjišťoval, kolik publikují vědeckých článků za rok a dlouhodobě •několik autorů publikuje mnoho článků, víc autorů středně a většina málo článků •Lotka odvodil vztah mezi frekvencí autorů y, přispívajících x příspěvků: xny = konstanta. Pokud bude 6 autorů publikovat 4 články, 11 autorů 3 články, 25 autorů 2 články a 100 autorů jeden, pak dosazením do vzorce (s Lotkou zvolíme n=2) získáme: Lotka Alfred J Bibliometrické zákony n K1 : 6.42 = 99 n K2 : 11.32 = 99 n K3 : 25.22 = 100 n K4 : 100.12 = 100 •když známe počet autorů publikujících 1 článek, můžeme předpovídat, kolik autorů publikuje více článků •Lotka's Law •http://youtu.be/JxsweVr1dGg Bibliometrické zákony •Priceův zákon druhé odmocniny vědecké produktivity – celá populace vědců s velikostí N obsahuje efektivní vědeckou elitu rovnou velikosti druhé odmocniny čísla N. Elita = √N •Garfieldův zákon koncentrace – každá tematická oblast má svoji množinu základních odborných časopisů •Senguptův zákon bibliometrie – během fáze rychlého růstu poznatků ve vědní disciplíně se články zabývající se touto vědní disciplínou objevují v rostoucím počtu v časopisech, které jsou daleko od jádra časopisů vědní oblasti Citační analýza •bibliografická metoda, která vychází z faktu, že libovolná citace práce autora je významný fakt •kvantifikuje vztahy mezi autory, dokumenty a vědními obory na základě bibliografických citací a bibliografických referencí •citace – odkaz, který dokument obdrží od jiného dokumentu •reference – odkaz, který jeden dokument uvádí na jiný dokument •2 typy studií- produktivita vědecké literatury n (založeno na počítání vstupů) n - použití literatury autory Citační analýza •umožňuje zjišťovat: n» význam literatury z různých oblastí pro zkoumaný předmět n» časové rozpětí této literatury – od data publikování po její využití n» základní formy použité literatury a jejich relativní význam n» národnostní původ literatury n používané v určité oblasti n» nejdůležitější periodické tituly pro n každou oblast n» sestavování citačních sítí za účelem n citačního mapování vědy (např. kocitace) citation analysis http://www.emeraldinsight.com/fig/0240251212002.png Citační indexy •citační analýza využívá pro své studie údaje z bibliografií a z citačních registrů •sestavovat citační indexy navrhl Eugene Garfield v článku „Citation Indexes for Science“. Doufal, že lze eliminovat nekritické citování falešných, nekompletních a zastaralých dat zpřístupněním dřívějších prací a jejich kritik •citační index je „index asociovaných idejí“, je to soupis všech publikovaných materiálů citovaných v sledovaných pramenech Citační indexy •je uspořádán abecedně podle citovaných autorů a pod každým jménem je chronologický seznam citovaných prací •dozvíme se z něj: název časopisu v němž práce vyšla, ročník a stranu. Dále údaje o článku a citující pramen, tj. kde je práce citována a jakými autory •má tři části: 1) seznam citované literatury (kde je n autor citován) n 2) seznam citující literatury (z čeho n vychází) n 3) permutovaný předmětový index Citační indexy •nejznámější citační indexy jsou: n» Science Citation Index (SCI) n» Social Science Citation Index (SSCI) n» Arts&Humanities Citation Index (A&HCI) n - jsou vydávány na komerční bázi Institutem pro n vědecké informace (ISI) ve Filadelfii n» Journal Citation Reports (JCR) – soubor statisticky zpracovaných informací o citovanosti časopisů, počtu publikovaných článků atd., vydávaný ročně n» Web of Science – databáze založená na SCI •citační indexy slouží k: -zjišťování citovanosti prací -vlivu těchto prací pomocí tzv. impakt fatoru Impakt faktor (IF) •udává, kolikrát je průměrný článek publikovaný v určitém časopise citován, během dvou předcházejících let •podle této hodnoty je porovnávána míra vědecké důležitosti časopisů •číslo je výsledkem poměru součtu citací za roky X-1 a X-2 k počtu článků publikovaných v letech X-1 a X-2 n Citx-1(X) + CitX-2 (X) nMatematické vyjádření: IF (X) = ––––––––––––––––– n Pub (X-1) + Pub (X-2) n •Dnes rozšiřování IF na délku pěti let Impakt faktor •impakt faktor se používá při hodnocení produktivity vědců, výzkumných týmů či výzkumných ústavů – sečtou se IF jejich publikací za určité období a porovnají se. Tyto údaje vyžadovány při udělování titulů, při konkurzech na významná vědecko-administrativní místa, při žádostech o granty •kritika používání impakt faktoru: Ønerovnoměrné geografické rozložení titulů – nedá se použít pro některá etnika Øproblém autocitací – autor může uměle zvyšovat vlastní IF – třeba eliminovat Øobory se liší citačními zvyklostmi – nelze srovnávat mezioborově. Signifikantní až řádové rozdíly v citovanosti, ne drobné Impakt faktor Øpřipisování lidí na práce, na nichž se nepodíleli (šéfové apod.) Øpráce příliš geniální → předběhla dobu → necitována Ønegativní citovanost prací – nelze zjistit Øve vědě důležití i lidé, kteří nepíší, ale jsou špičkovými pedagogy a manažery vědy. Nehodnotí ani pracovníky v aplikovaném výzkumu Øpřednost časopisů v angličtině → rodilí mluvčí ve výhodě Ømalé zastoupení monografií a konferenčních materiálů Ømódnost ve vědě – určitá témata stranou → skvělým pracím v těchto tématech chybí citace Impakt faktor Øzkratky časopisů se liší od užívaných zkratek v ostatních referátových časopisech, nejednotná transkripce u jmen → jméno autora na více místech Ønejednotnost užívání názvů institucí → jméno na více místech Ølékařství – nejvyšší citovanost u klinických studií → užívají praktici, menší citovanost vědeckých prací Øzpoždění ohlasů práce Ønové časopisy těžko shánějí autory, kterým se v nich nevyplatí publikovat Øchyby při přepisování údajů – lidský faktor, nezachycení všech článků autora Øproblémy mezioborových prací H-index nHirschův index, někdy označován jako highly–cited index nkolik článků daného autora dosahuje citovanosti vyšší, než je pořadové číslo článku nměří citační ohlas jednoho autora npř. h-index autora = 5 – autor publikoval pět článků, které jsou každý pětkrát citovány nautor napsal pravděpodobně více článků, ovšem právě pět z nich bylo pětkrát citováno Databáze •Databáze dostupné přes knihovnu FF (i přes vzdálený přístup z domů pomocí proxy serveru): ØWeb of Science (http://isiknowledge.com/) ØScopus n nMapování vědy: http://www.eigenfactor.org/ n nÚkol: zjistěte v databázích tři časopisy, které v mají nejvyšší dopad na vývoj našeho oboru (dle impakt faktoru) http://www.improving-visualisation.org/img_uploads/2009-03-05_Thu/20093515242.jpg