FI:PA212 Advanced Search Techniques - Informace o předmětu

PA212 Advanced Search Techniques for Large Scale Data Analytics

Fakulta informatiky
jaro 2023

Rozsah

2/0/0. 2 kr. (plus ukončení). Ukončení: zk.

Vyučující

doc. RNDr. Jan Sedmidubský, Ph.D. (přednášející)
prof. Ing. Pavel Zezula, CSc. (přednášející)

Garance

doc. RNDr. Jan Sedmidubský, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky

Rozvrh

Čt 16. 2. až Čt 11. 5. Čt 12:00–13:50 B410

Předpoklady

Knowledge of the basic principles of data processing is assumed.

Omezení zápisu do předmětu

Předmět je nabízen i studentům mimo mateřské obory.

Mateřské obory/plány

Analýza a zpracování obrazu (program FI, N-VIZ)
Aplikovaná informatika (program FI, B-AP)
Aplikovaná informatika (program FI, N-AP)
Bezpečnost informačních technologií (angl.) (program FI, N-IN)
Bezpečnost informačních technologií (program FI, N-IN)
Bioinformatika a systémová biologie (program FI, N-UIZD)
Bioinformatika (program FI, B-AP)
Bioinformatika (program FI, N-AP)
Computer Games Development (program FI, N-VIZ_A)
Computer Graphics and Visualisation (program FI, N-VIZ_A)
Computer Networks and Communications (program FI, N-PSKB_A)
Cybersecurity Management (program FI, N-RSSS_A)
Diskrétní algoritmy a modely (program FI, N-TEI)
Formální analýza počítačových systémů (program FI, N-TEI)
Grafický design (program FI, N-VIZ)
Graphic Design (program FI, N-VIZ_A)
Hardware Systems (program FI, N-PSKB_A)
Hardwarové systémy (program FI, N-PSKB)
Image Processing and Analysis (program FI, N-VIZ_A)
Informační bezpečnost (program FI, N-PSKB)
Informační systémy (program FI, N-IN)
Informatika a druhý obor (program FI, B-EB)
Informatika a druhý obor (program FI, B-FY)
Informatika a druhý obor (program FI, B-GE)
Informatika a druhý obor (program FI, B-GK)
Informatika a druhý obor (program FI, B-CH)
Informatika a druhý obor (program FI, B-IO)
Informatika a druhý obor (program FI, B-MA)
Informatika a druhý obor (program FI, B-TV)
Informatika ve veřejné správě (program FI, B-AP)
Information Security (program FI, N-PSKB_A)
Kvantové a jiné neklasické výpočetní modely (program FI, N-TEI)
Matematická informatika (program FI, B-IN)
Paralelní a distribuované systémy (program FI, B-IN)
Paralelní a distribuované systémy (program FI, N-IN)
Počítačová grafika a vizualizace (program FI, N-VIZ)
Počítačová grafika a zpracování obrazu (program FI, B-IN)
Počítačová grafika (program FI, N-IN)
Počítačové sítě a komunikace (program FI, B-IN)
Počítačové sítě a komunikace (program FI, N-IN)
Počítačové sítě a komunikace (program FI, N-PSKB)
Počítačové systémy a zpracování dat (program FI, B-IN)
Počítačové systémy (program FI, N-IN)
Principy programovacích jazyků (program FI, N-TEI)
Programovatelné technické struktury (angl.) (program FI, N-IN)
Programovatelné technické struktury (program FI, B-IN)
Programovatelné technické struktury (program FI, N-IN)
Řízení kyberbezpečnosti (program FI, N-RSSS)
Řízení vývoje služeb (program FI, N-RSSS)
Řízení vývoje softwarových systémů (program FI, N-RSSS)
Services Development Management (program FI, N-RSSS_A)
Služby - výzkum, řízení a inovace (angl.) (program FI, N-AP)
Služby - výzkum, řízení a inovace (program FI, N-AP)
Sociální informatika (program FI, B-AP)
Software Systems Development Management (program FI, N-RSSS_A)
Software Systems (program FI, N-PSKB_A)
Softwarové systémy (program FI, N-PSKB)
Strojové učení a umělá inteligence (program FI, N-UIZD)
Teoretická informatika (program FI, N-IN)
Učitelství informatiky pro střední školy (program FI, N-EB)
Učitelství informatiky pro střední školy (program FI, N-FY)
Učitelství informatiky pro střední školy (program FI, N-GK)
Učitelství informatiky pro střední školy (program FI, N-MA)
Učitelství informatiky pro střední školy (program FI, N-SS)
Učitelství informatiky pro střední školy (program FI, N-TV)
Učitelství výpočetní techniky pro střední školy (program FI, N-FY)
Učitelství výpočetní techniky pro střední školy (program FI, N-GK)
Učitelství výpočetní techniky pro střední školy (program FI, N-MA)
Učitelství výpočetní techniky pro střední školy (program FI, N-SS) (2)
Učitelství výpočetní techniky pro střední školy (program FI, N-TV)
Umělá inteligence a zpracování přirozeného jazyka (program FI, B-IN)
Umělá inteligence a zpracování přirozeného jazyka (program FI, N-IN)
Vývoj počítačových her (program FI, N-VIZ)
Zpracování a analýza rozsáhlých dat (program FI, N-UIZD)
Zpracování obrazu (program FI, N-AP)
Zpracování přirozeného jazyka (program FI, N-UIZD)

Cíle předmětu

The objective of the course is to explain the problems of information retrieval in large collections of unstructured data, such as text documents or multimedia objects. The main emphasis will be given on describing basic principles of distributed algorithms for processing large volumes of data, e.g., Locality-sensitive hashing, MapReduce or PageRank. The algorithms for processing stream data will be introduced as well. The students will also acquire practical experience by applying the presented algorithms to the specific tasks.

Výstupy z učení

After completing the course students are able to:
- Describe algorithmic-based differences between processing offline data collections and online data streams; - Understand the basic principles of distributed algorithms for processing large volumes of data;
- Evaluate the results of algorithms by several metrics;
- Apply presented algorithms, such as K-Means, Locality-sensitive hashing, MapReduce or PageRank, to the specific tasks.

Osnova

Introduction – What is searching, Things useful to know
Support for Distributed Processing – Distributed file system, MapReduce, Algorithms using MapReduce, Cost model and performance evaluation
Retrieval Operators and Result Evaluations – Common similarity search operators, Retrieval metrics
Clustering – K-means algorithms, Clustering in non-Euclidean spaces, Clustering for streams and parallelism
Finding Frequent Item Sets – Handling large datasets in main memory, Counting frequent items in a stream
Finding Similar Items – Applications of near-neighbor search, Shingling of documents, Similarity-preserving summaries of sets, Locality sensitive hashing
Searching in Data Streams – The stream data model, Filtering streams
Link Analysis – Page Rank, Topic sensitive, Link spam
Search Applications – Advertising on the web, Recommendation systems (collaborative filtering), Mining social-network graphs

Literatura

doporučená literatura

P, Deepak a Prasad M. DESHPANDE. Operators for similarity search : semantics, techniques and usage scenarios. Cham: Springer, 2015, xi, 115. ISBN 9783319212562. info
LESKOVEC, Jurij, Anand RAJARAMAN a Jeffrey D. ULLMAN. Mining of massive datasets. 2nd ed. Cambridge: Cambridge University Press, 2014, xi, 467. ISBN 9781107077232. info
BAEZA-YATES, R. a Berthier de Araújo Neto RIBEIRO. Modern information retrieval : the concepts and technology behind search. 2nd ed. Harlow: Pearson, 2011, xxx, 913. ISBN 9780321416919. info

Výukové metody

Lectures with slides in English. The approach combines theory, algorithms and practical examples.

Metody hodnocení

The final exam consists of only a written part. The student is asked several theoretical and practical questions to verify their knowledge obtained during the course lectures.

Vyučovací jazyk

Angličtina

Další komentáře

Studijní materiály
Předmět je vyučován každoročně.

Předmět je zařazen také v obdobích jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2024, jaro 2025.

Statistika zápisu (jaro 2023, nejnovější)
Permalink: https://is.muni.cz/predmet/fi/jaro2023/PA212

FI:PA212 Advanced Search Techniques - Informace o předmětu

PA212 Advanced Search Techniques for Large Scale Data Analytics

Další aplikace