PV211 Úvod do získávání informací

Fakulta informatiky
jaro 2014
Rozsah
2/1/0. 3 kr. (plus ukončení). Doporučované ukončení: k. Jiná možná ukončení: z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
RNDr. Martin Líška (cvičící)
RNDr. Tomáš Effenberger, Ph.D. (pomocník)
Garance
doc. RNDr. Petr Matula, Ph.D.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky
Rozvrh
Čt 16:00–17:50 D3
  • Rozvrh seminárních/paralelních skupin:
PV211/T01: Út 11. 3. až Ne 18. 5. každé liché úterý 18:00–19:40 Učebna S1 (36a), M. Líška, Nepřihlašuje se. Určeno pro studenty se zdravotním postižením.
PV211/01: každý sudý čtvrtek 18:00–19:50 D3, M. Líška
PV211/02: každý lichý čtvrtek 18:00–19:50 D3, M. Líška
Předpoklady
Zájem a sebemotivace k získání informací o získávání informací.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 35 mateřských oborů, zobrazit
Cíle předmětu
Na konci tohoto kurzu bude student schopen: - porozumět a vysvětlit, proč je Google schopen zopovědět dotaz na obsah miliard dokumentů na Internetu; - předkládat odůvodněná a promyšlená rozhodnutí o návrhu a komponentech textových informačních systémů; - kvalifikovaně a efektivně využívat textové systémy a znalostní báze ze znalosti interní organizace, datových toků a zpracování přirozeného jazyka v webovém informačním systému nebo digitálních knihovnách.
Osnova
  • Boolovský model vyhledávání; termy pro slovník indexu a seznam výskytů.
  • Slovníky a tolerantní dotazovaní
  • Konstrukce indexu, komprese indexu
  • Vážení termů, ohodnocení relevance dokumentů, vektorový model
  • Počítání relevance v kompletním vyhledávacím systému
  • Metody vyhodnocení vyhledávání informací
  • Relevance, ladění a expanze dotazu
  • Vyhledávání XML (MathML)
  • Pravděpodobnostní modely pro vyhledávání znalostí
  • Jazykové modely pro vyhledávání znalostí
  • Klasifikace a filtování textů ve vektorovém modelu dokumentů
  • Strojové učení pro vyhledávání znalostí
  • Hierarchické klastrování dokumentů
  • Dekompozice matic a latentní sémantická analýza
  • Základy webového vyhledávání
  • Webové stahování a indexování
  • Analýza grafu citací, PageRank
Literatura
    povinná literatura
  • MANNING, Christopher D., Prabhakar RAGHAVAN a Hinrich SCHÜTZE. Introduction to information retrieval. 1st pub. Cambridge: Cambridge University Press, 2008, xxi, 482. ISBN 9780521865715. info
    doporučená literatura
  • http://informationretrieval.com/
Výukové metody
Kontaktní výuka bude kromě klasických přednášek obsahovat podporu autonomního učení studentů (výuková videa ve stylu Khan Academy, MOOC) -- tzv. `flipped learning'.
Metody hodnocení
Bodový hodnotící systém motivující studenta pro průběžnou autonomní práci v semestru (prémiové body). Závěrečné kolokvium -- písemný test testující získané znalosti a dovednosti při vyhledávání znalostí.
Informace učitele
http://www.fi.muni.cz/~sojka/PV211/
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024, jaro 2025.