Vyhledávání informací


Vyhledávání informací
•interakce mezi lidmi a obsahem informačních systémů
•
•Information search – interakce lidí a vyhledávacího systému
•search - konkrétní chování lidí zabývajících se lokalizováním informací (vyhledávací strategie,
posuzování relevance apod.)
•Information Retrieval – nalezení materiálů nestrukturované povahy z rozsáhlých sbírek uložených na
počítači, které uspokojují informační potřeby
•retrieval – získávání informací z obsahu sbírky

Informační chování x vyhledávání informací
•obory informační chování a vyhledávání informací se vzájemně prolínají a ovlivňují
•poznatky z výzkumu informačního chování využitelné při designu systémů pro vyhledávání
•nové možnosti systémů vyhledávání informací mění informační chování a informační zvyky

Vznik oboru vyhledávání informací
•information retrieval – termín poprvé použil Calvin Northrup Mooers v roce 1950
-„informační chování řeší problém nasměrování uživatele k uložené informaci“
•spuštění družice Sputnik 1 Sovětským svazem (1957) – šok v U.S.A.:
1. technologické zaostávání ve výzkumu vesmíru (spuštění programu Apollo)
2.sputnik vysílá kódované signály, prolomení kódu trvá Američanům 6 měsíců, kódování však
publikováno v sovětském časopise již dva roky před spuštěním družice a dostupné v anglickém
překladu v amerických knihovnách

Vznik oboru vyhledávání informací
-Weinbergova zpráva (Alvin M. Weinberg, 1963) pro prezidenta Kennedyho o vědě, vládě a informacích
– problém s informační explozí
-není potřeba jen vytvářet nové informace, ale také použít informace již existující (V. Bush, F.
Kennedy) předpoklad: existence mechanismu pro vyhledání informace
•předpoklad: existence mechanismu pro vyhledání informace
•Kennedy volá po nové vědě zabývající se tříděním, referováním a syntetizováním informací
•American Documentation institut (ADI, zal. 1937) přejmenován na American Society for Information
Science (ASIS, 1968)
•ve firmách je jednodušší, rychlejší a levnější udělat nový výzkum, než zjišťovat, co už bylo dříve
uděláno
•

Průkopníci informačního vyhledávání
•Hans Peter Luhn – základ automatického indexování dokumentů na základě postupů textové statistiky
•1950 – návrh technologií SDI (Selective Disemination of information, česky ARI – Adresné
rozšiřování informací, push služba) a KWIC (Keyword in Context – zvýraznění vyhledaných pojmů ve
vyhledaném dokumentu)
•Gerald Salton – implementoval první vyhledávací systém, založený na počítání frekvence slov,
vymyslel model vektorového prostoru, reprezentující dokumenty i dotazy jako vektory v
n-dimenzionálním prostoru, reprezentujícího slova v dokumentu, vyhledáváno na základě podobnosti
dokumentu a dotazu.
•V 60. letech se teorie stala východiskem pro konstrukci experimentálního systému vyhledávání SMART
(System for the Mechanical Analysis and Retrieval of Text)

Průkopníci informačního vyhledávání
•Eugene Garfield – zvýšení vyhledatelnosti pomocí kopií obsahu časopisů (Current Contents). nápad
reprezentovat cestu přenosu informací ve vědeckých časopisech pomocí citačních indexů (Science
Citation Index).
•V roce 1960 založil ISI (Institute for Scientific Information) – první soukromý podnik provozující
komerční systém vyhledávání informací
•Norbert Henrichs – se skupinou výzkumníků Siemens v Německu vytváří vyhledávací systém GOLEM
(Großspeicherorientierte, listenorganisierte Ermittlungsmethode) - metoda vyhledávání založená na
derivacích v hromadně uložených a do seznamu organizovaných dat, využití pro dokumentaci
filozofické literatury).
•Systém PASSAT (Programm zur automatischen Selektion von Stichwörtern aus texten) - automatická
selekce klíčových slov z textu na základě kmenů pojmů srovnávaných se slovníkem, používajícím váhy
pojmů, nejvýše umístěné pojmy slouží jako preferované termíny)

Vznik informačního průmyslu
•Roger K. Summit – DIALOG (název označuje interaktivní systém mezi člověkem a strojem - 1966),
vládní databáze dostupná veřejnosti, spuštění 1972, před nástupem PC, prohledávání přes telefonní
terminál s vytáčeným připojením
•Summitův závěr – vyhledávání informací přes počítač může mít pozitivní efekt na výzkum
•Carlos A. Cuadra – Orbit (On-line Retrieval of Bibliographic Information Time-Shared), navazuje na
systém CIRC vývíjený od r. 1962, spuštění 1972, dnes Questel
•vyvíjí SDC (System Corporation Development)
•zaměřeno na databáze z přírodních věd a patenty (brzy přidána databáze z chemie - Chemical
Abstract a fyziky – INSPEC)
•DIALOG komerčně zaměřený, Orbit zaměřený na výzkum a vývoj (byl proti DIALOGu efektivní a rychlý –
ekonomický problém: účtován čas spojení, malý profit)
•

Vznik informačního průmyslu - medicína
•vývoj systémů pro vyhledávání informací původně pro letectvo, v 70. letech posun k medicínským
informacím
•Národní knihovna medicíny tvoří lékařskou bibliografickou databázi MEDLARS
•od r. 1974 nabízena on-line
•Medline – vyhledávací systém pro databázi MEDLARS, spuštěno  na základě SDC vyhledávacích služeb
od r. 1972
•

Vznik informačního průmyslu - právo
•OBAR (Ohaio Bar Automated Research) databáze právních dokumentů od r. 1965, vývoj Data
Corporation, od r. 1968 Data Corpotation, od r. 1970 OBAR činnosti outsourcovány Mead data Central
(MDC)
•potřeba kvůli rozhodnutím soudů - precedenty
•vývoj fulltextového vyhledávacího systému - Richard H. Giering
•technologie: v textech odstraněny stop slova a vloženy do invertovaného souboru, Booleovské a
proximitní operátory, Focus Command - zaměřený příkazový řádek (vyhledávání mezi nalezenými
záznamy), základní informačně-lingvistická funkcionalita (pravidelné a nepravidelné formy plurálu),
KWIC – Keywords in context (zde ještě Keywords in Color)
•1973 – MDC spouští službu LEXIS (LEX Information Service) – vyhledávání právních textů
•Data Corp. vyvinula i vyhledávací služby pro archivy nakladatelství, např. Boston Globe – v r.
1977 nápad prodávat digitálně dostupné články z novin z databáze. Outsorcováno na MDC – služba
NEXIS od r. 1980
•

Vyhledávání na WWW
•nástup PC a Internetu – období boomu ve vyhledávání informací, obnovený zájem o informační vědu
•vyhledávání všech druhů informací, ne jen vědeckých a odborných
•první systémy na vyhledávání: vyhledávače Yahoo! (1994), AltaVista (1995), Google (1998)
•systémy s vysokým výkonem pro instituce - Autonomy, Convera, FAST, Verity
•vývoj a výzkum vyhledávačů je řízený technologiemi, jádrem vývoj softwaru
•American Society for Information Science se opět přejmenovává na American Society for Information
Science and Technology (ASIS&T)
•

Základní koncepty
•Konkrétní IP (CIN – Concrete Information Need) – komunikace faktuálních informací, zvláštní případ
navigace na WWW
•otázky: Jaké je hlavní město ČR? Jaká je URL UISKu?
•relevance informací uspokojujících CIN jasně definována
•
•Na problém orientovaná IP (POIN - Problem Oriented Information Need) – problém řešen na základě
komunikace souboru dokumentů
•otázky: Jaký je vztah mezi managementem služeb a řízením kvality v obchodní administrativě? Jaké
jsou různé interpretace Homunkula v druhé
části                                                           Goethova Fausta?
•relevance se liší podle toho kdo a v jakém kontextu se
                                                                            ptá
•Informační potřeby (IP)

Základní koncepty
•Informační potřeby
•
•objektivní IP týká se objektivních faktických záležitostí, abstrahuje od konkrétního jedince,
objektivně relevantní informace se může ukázat irelevantní pro konkrétního jedince (informaci již
zná, zná jejího autora a nesouhlasí s ním, nemá čas číst tak dlouhý článek apod.)
•subjektivní IP – uvažujeme nad zvláštními podmínkami vyhledávaného předmětu
•navigační IP – cílem dotazu najít konkrétní webovou stránku
•informační IP – cílem dotazu najít konkrétní informaci ve statické formě, jediná očekávaná
interakce je čtení, cílový dokument není tvořen jako odpověď na dotaz uživatele
•transakční IP – cílem dotazu najít stránku, kde dojde k další interakci – transakcím, které
definují dotaz. Př. nakupování, zprostředkovatelské služby webu, stahování souborů, přístup do
databáze apod.

Základní koncepty
•vyhledávací argument – jeden či více výrazů a vyhledávacích parametrů, které jsou vyhledávány v
dokumentu (u slov i jejich varianty, např. tvary množného čísla)
•vyhledávací syntax – vyhledávací systémy používají přibližně stejné množství příkazů, používají
ovšem různou syntax
•Př. hledání informací o Julii Roberts ve filmu Notting Hill – nejprve musíme herečku a film znát
(znalost dokumentů)
•dotazy:
•HEADLINE: (“Julia Roberts” w/5 “Notting Hill”)
•DIALOG: (Julia (n) Roberts AND Notting (w) Hill)∕TI,
•Google: “Notting Hill” “Julia Roberts” (přesně v tomto pořadí)
•
•

Základní koncepty
•dokumentační referenční jednotka (DRU) – reprezentace znalostí autora (kniha, článek, patentový
dokument nebo interním záznam firmy apod.).
•dokumentační jednotka (DU) – slouží jako surogát, který reprezentuje obsah DRJ (obsahová redukce
dokumentu, např. abstrakt, shrnutí) a jeho témata (např. klíčová slova). Tvoří informační
specialista nebo systém pomocí automatického indexování, doplňují metadata. DU představuje základní
přidanou hodnotu informace.
•informační služby – kombinace databáze (souhrn všech dokumentačních jednotek) a vyhledávacího
systému (specializovaný softwarový program)
•
•
•

Indexování informací a vyhledávání informací
•hlavní problém vyhledávání – uživatel musí jasně formulovat a přesně to, co nezná
•1. elementární znalost oblasti je základní požadavek (vědět o existenci hledaného fenoménu)
•2. překlad informační potřeby do přirozeného jazyka
•3. přeložit formulaci do dotazu, který bude umět použít vyhledávací systém – provede buď sám
uživatel nebo to udělá automaticky systém za něj – zpracování přirozeného jazyka
•
•
•originální dokument segmentován do DRU. Výběr DRU do databáze dle vhodnosti. Kritéria katalogu:
formální (př. jen anglické dokumenty, jen HTML), obsahová (jen dokumenty z chemie) Tvorba jednotky
souvisí s cílovým rozsahem dat (př. celý film nebo epizody filmu).
•DRU je formálně popsána, obsahově transformována (př. abstrakt), objekt zpracován pomocí pojmů
(thesaurus, nomenklatura, klasifikační systém). Prováděno intelektuálně (katalogizátor) nebo
automaticky.
•Výsledkem DU (surogát), reprezentující DRU v informačních službách.
•

Základní koncepty
•zprostředkování - vyhledávácí systémy specializovaných informačních služeb pracují na základě
přesné shody (exact matching), uživatel proto musí znát příkazy syntaxe pro vyhledávání a vložit
správný vyhledávací argument . Pokud účtován poplatek za každé kliknutí, stažení nebo čas připojení
k databázi, vhodné využít informačního profesionála.
•

Základní koncepty
•Příklad dokumentační jednotky z databáze PubMed – záznam z lékařského časopisu
•bibliografická data (jméno časopisu, rok a měsíc zveřejnění, ročník, číslo, počet stran)
•v abstraktu kondenzována témata článku
•typy publikací – review
•PubMed používá intelektuální indexaci pomocí thesauru MeSH. Vypsané deskriptory slouží jako
informační filtry, ty významné jsou označeny *
•

Služby push a pull
•jak se relevantní informace dostanou k uživateli? dva způsoby:
•uživatel aktivně získává informace ze systému (aktivní chování – pull služby, vyhledávání
informací)
•uživatel pasivně čeká, až mu systém poskytne informace (pasivní chování – push služby, filtrování
informací)
•formulace dotazů, které byly úspěšně zpracovány prostřednictvím služby pull, jsou uloženy do
profilu
•oznámení a adresné rozšiřování informací automaticky (push služby) prohledávají databáze, a
periodicky nebo v reálném čase upozorňují uživatele, když identifikují novou dokumentační jednotku
dokumentu

Literatura
•Stock, W. G. a Stock, M. Handbook of information science. Berlin: De Gruyter Saur, 2015. ISBN
978-3-11-037364-6.