PV211 Introduction to Information Retrieval

Fakulta informatiky
jaro 2016
Rozsah
2/1/0. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
RNDr. Michal Balážia, Ph.D. (cvičící)
RNDr. Martin Líška (pomocník)
Garance
doc. RNDr. Petr Matula, Ph.D.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky
Rozvrh
Út 8:00–9:50 D2
  • Rozvrh seminárních/paralelních skupin:
PV211/01: Út 10:00–10:50 B311, M. Balážia
PV211/02: Út 11:00–11:50 B311, M. Balážia
Předpoklady
Interest and motivation to retrieve information about information retrieval. Chapters 1--5 benefit from basic course on algorithms and data structures. Chapters 6--7 needs in addition linear algebra, vectors and dot products. For Chapters 11--13 basic probability notions are needed. Chapters 18--21 demand course in linear algebra, notions of matrix rank, eigenvalues and eigenvectors.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Main objectives can be summarized as follows: - to understand basics of principles of information retrieval based on (XML) text processing and natural language understanding; - to understand principles and algorithms of NLP-based text preprocessing, text semantic filtering and classification, and web searching needed for textual information systems and digital library design.
Osnova
  • Boolean retrieval; The term vocabulary and postings lists
  • Dictionaries and tolerant retrieval
  • Index construction, Index compression
  • Scoring, term weighting and the vector space model
  • Computing scores in a complete search system
  • Evaluation in information retrieval
  • Relevance feedback and query expansion
  • XML and MathML retrieval
  • Probabilistic information retrieval
  • Language models for information retrieval
  • Text classification with vector space model
  • Machine learning and information retrieval
  • Hierarchical clustering
  • Matrix decompositions and latent semantic indexing
  • Web search basics
  • Web crawling and indexes
  • Link analysis, PageRank
Literatura
    povinná literatura
  • MANNING, Christopher D., Prabhakar RAGHAVAN a Hinrich SCHÜTZE. Introduction to information retrieval. 1st pub. Cambridge: Cambridge University Press, 2008, xxi, 482. ISBN 9780521865715. info
  • http://informationretrieval.org
    doporučená literatura
  • BAEZA-YATES, R. a Berthier de Araújo Neto RIBEIRO. Modern information retrieval : the concepts and technology behind search. 2nd ed. Harlow: Pearson, 2011, xxx, 913. ISBN 9780321416919. info
Výukové metody
Contact teaching will in addition to classic ex catedra lectures contain invited lectures of specialist from the IR (researchers of Seznam, a.s.), and eventually, support of autonomy learning (support of MOOC in Khan Academy style) -- flipped learning.
Metody hodnocení
Bodový hodnotící systém motivující studenta pro průběžnou autonomní práci v semestru (prémiové body). Závěrečné kolokvium či zkouška -- písemný test testující získané znalosti a dovednosti při vyhledávání znalostí.
Vyučovací jazyk
Angličtina
Informace učitele
http://www.fi.muni.cz/~sojka/PV211/
This term we will be using Piazza for class discussion. The system is highly catered to getting you help fast and efficiently from classmates, the TA, and myself. Rather than emailing questions to the teaching staff, I encourage you to post your questions on Piazza. If you have any problems or feedback for the developers, email team@piazza.com. Find our class page at: https://piazza.com/muni.cz/spring2016/pv211/home
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2014, jaro 2015, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024, jaro 2025.