PV211 Introduction to Information Retrieval

Fakulta informatiky
jaro 2015
Rozsah
2/1/0. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
doc. RNDr. Petr Sojka, Ph.D. (cvičící)
RNDr. Tomáš Effenberger, Ph.D. (pomocník)
RNDr. Martin Líška (pomocník)
Garance
doc. RNDr. Petr Matula, Ph.D.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky
Rozvrh
St 8:00–9:50 D3
  • Rozvrh seminárních/paralelních skupin:
PV211/01: St 10:00–10:50 D3, P. Sojka
PV211/02: St 11:00–11:50 D3, P. Sojka
Předpoklady
Zájem a sebemotivace k získání informací o získávání informací.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Na konci tohoto kurzu bude student schopen: - porozumět a vysvětlit, proč je Google schopen zopovědět dotaz na obsah miliard dokumentů na Internetu; - předkládat odůvodněná a promyšlená rozhodnutí o návrhu a komponentech textových informačních systémů; - kvalifikovaně a efektivně využívat textové systémy a znalostní báze ze znalosti interní organizace, datových toků a zpracování přirozeného jazyka v webovém informačním systému nebo digitálních knihovnách.
Osnova
  • Boolovský model vyhledávání; termy pro slovník indexu a seznam výskytů.
  • Slovníky a tolerantní dotazovaní
  • Konstrukce indexu, komprese indexu
  • Vážení termů, ohodnocení relevance dokumentů, vektorový model
  • Počítání relevance v kompletním vyhledávacím systému
  • Metody vyhodnocení vyhledávání informací
  • Relevance, ladění a expanze dotazu
  • Vyhledávání XML (MathML)
  • Pravděpodobnostní modely pro vyhledávání znalostí
  • Jazykové modely pro vyhledávání znalostí
  • Klasifikace a filtování textů ve vektorovém modelu dokumentů
  • Strojové učení pro vyhledávání znalostí
  • Hierarchické klastrování dokumentů
  • Dekompozice matic a latentní sémantická analýza
  • Základy webového vyhledávání
  • Webové stahování a indexování
  • Analýza grafu citací, PageRank
Literatura
    povinná literatura
  • MANNING, Christopher D., Prabhakar RAGHAVAN a Hinrich SCHÜTZE. Introduction to information retrieval. 1st pub. Cambridge: Cambridge University Press, 2008, xxi, 482. ISBN 9780521865715. info
  • http://informationretrieval.org
    doporučená literatura
  • BAEZA-YATES, R. a Berthier de Araújo Neto RIBEIRO. Modern information retrieval : the concepts and technology behind search. 2nd ed. Harlow: Pearson, 2011, xxx, 913. ISBN 9780321416919. info
Výukové metody
Kontaktní výuka bude kromě klasických přednášek obsahovat podporu autonomního učení studentů (výuková videa ve stylu Khan Academy, MOOC) -- tzv. `flipped learning'.
Metody hodnocení
Bodový hodnotící systém motivující studenta pro průběžnou autonomní práci v semestru (prémiové body). Závěrečné kolokvium -- písemný test testující získané znalosti a dovednosti při vyhledávání znalostí.
Vyučovací jazyk
Angličtina
Informace učitele
http://www.fi.muni.cz/~sojka/PV211/
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2014, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024, jaro 2025.