FI:PA212 Advanced Search Techniques - Informace o předmětu
PA212 Advanced Search Techniques for Large Scale Data Analytics
Fakulta informatikyjaro 2017
- Rozsah
- 2/0/0. 2 kr. (plus ukončení). Ukončení: zk.
- Vyučující
- doc. RNDr. Jan Sedmidubský, Ph.D. (přednášející)
prof. Ing. Pavel Zezula, CSc. (přednášející) - Garance
- doc. RNDr. Eva Hladká, Ph.D.
Katedra počítačových systémů a komunikací – Fakulta informatiky
Dodavatelské pracoviště: Katedra počítačových systémů a komunikací – Fakulta informatiky - Rozvrh
- Čt 12:00–13:50 C525
- Předpoklady
- Knowledge of the basic principles of data processing is assumed.
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 47 mateřských oborů, zobrazit
- Cíle předmětu
- The objective of the course is to explain the problems of information retrieval in large collections of unstructured data, such as text documents or multimedia objects. After completing the course students understand the basic principles of distributed algorithms for processing large volumes of data, e.g., Locality-sensitive hashing, MapReduce or PageRank. The emphasis will be given on stream-processing techniques as well. The students will also acquire practical experience by applying the presented algorithms to the specific tasks.
- Osnova
- Introduction – What is searching, Things useful to know
- Support for Distributed Processing – Distributed file system, MapReduce, Algorithms using MapReduce, Cost model and performance evaluation
- Retrieval Operators and Result Evaluations – Common similarity search operators, Retrieval metrics
- Clustering – K-means algorithms, Clustering in non-Euclidean spaces, Clustering for streams and parallelism
- Finding Frequent Item Sets – Handling large datasets in main memory, Counting frequent items in a stream
- Finding Similar Items – Applications of near-neighbor search, Shingling of documents, Similarity-preserving summaries of sets, Locality sensitive hashing
- Searching in Data Streams – The stream data model, Filtering streams
- Link Analysis – Page Rank, Topic sensitive, Link spam
- Search Applications – Advertising on the web, Recommendation systems (collaborative filtering), Mining social-network graphs
- Seznam.cz – A Search Engine in Practice
- Literatura
- doporučená literatura
- P, Deepak a Prasad M. DESHPANDE. Operators for similarity search : semantics, techniques and usage scenarios. Cham: Springer, 2015, xi, 115. ISBN 9783319212562. info
- LESKOVEC, Jurij, Anand RAJARAMAN a Jeffrey D. ULLMAN. Mining of massive datasets. 2nd ed. Cambridge: Cambridge University Press, 2014, xi, 467. ISBN 9781107077232. info
- BAEZA-YATES, R. a Berthier de Araújo Neto RIBEIRO. Modern information retrieval : the concepts and technology behind search. 2nd ed. Harlow: Pearson, 2011, xxx, 913. ISBN 9780321416919. info
- Výukové metody
- Lectures with slides in English. The approach combines theory, algorithms and practical examples.
- Metody hodnocení
- The final exam consists of a written and oral part. The student is asked several questions to verify their knowledge obtained during the course lectures.
- Vyučovací jazyk
- Angličtina
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
- Statistika zápisu (jaro 2017, nejnovější)
- Permalink: https://is.muni.cz/predmet/fi/jaro2017/PA212