FI:PV030 Textual Information Systems - Informace o předmětu
PV030 Textual Information Systems
Fakulta informatikyjaro 2013
- Rozsah
- 2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. RNDr. Petr Sojka, Ph.D. (přednášející)
- Garance
- doc. RNDr. Petr Matula, Ph.D.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky - Rozvrh
- Út 10:00–12:50 C416, Út 12:00–12:50 B311
- Předpoklady
- Students are strongly advised to bring some basic knowledge of automata theory (IB005 Formální jazyky a automaty) and natural language processing (IB030 Úvod do počítačového zpracování přirozeného jazyka or IB047 Úvod do korpusové lingvistiky a počítačové lexikografie). Some database basics (PB154 Základy databázových systémů) will be helpful as well.
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Aplikovaná informatika (program FI, B-AP)
- Aplikovaná informatika (program FI, N-AP)
- Bezpečnost informačních technologií (program FI, N-IN)
- Bioinformatika (program FI, B-AP)
- Bioinformatika (program FI, N-AP)
- Český jazyk se specializací počítačová lingvistika (program FF, B-FI)
- Ekonomické informační systémy (program ESF, B-SI)
- Informační systémy (program FI, N-IN)
- Informatika a druhý obor (program FI, B-BI)
- Informatika a druhý obor (program FI, B-EB)
- Informatika a druhý obor (program FI, B-FY)
- Informatika a druhý obor (program FI, B-GE)
- Informatika a druhý obor (program FI, B-GK)
- Informatika a druhý obor (program FI, B-CH)
- Informatika a druhý obor (program FI, B-IO)
- Informatika a druhý obor (program FI, B-MA)
- Informatika a druhý obor (program FI, B-SO)
- Informatika a druhý obor (program FI, B-TV)
- Informatika (program FI, B-IN)
- Informatika (program FI, M-IN)
- Informatika (program FI, N-IN)
- Informatika ve veřejné správě (program FI, B-AP)
- Matematická informatika (program FI, B-IN)
- Paralelní a distribuované systémy (program FI, B-IN)
- Paralelní a distribuované systémy (program FI, N-IN)
- Počítačová grafika a zpracování obrazu (program FI, B-IN)
- Počítačová grafika (program FI, N-IN)
- Počítačové sítě a komunikace (program FI, B-IN)
- Počítačové sítě a komunikace (program FI, N-IN)
- Počítačové systémy a zpracování dat (program FI, B-IN)
- Počítačové systémy (program FI, N-IN)
- Programovatelné technické struktury (angl.) (program FI, N-IN)
- Programovatelné technické struktury (program FI, B-IN)
- Programovatelné technické struktury (program FI, N-IN)
- Služby - výzkum, řízení a inovace (angl.) (program FI, N-AP)
- Služby - výzkum, řízení a inovace (program FI, N-AP)
- Sociální informatika (program FI, B-AP)
- Teoretická informatika (program FI, N-IN)
- Učitelství výpočetní techniky pro střední školy (program FI, M-SS)
- Učitelství výpočetní techniky pro střední školy (program FI, M-TV)
- Učitelství výpočetní techniky pro střední školy (program FI, N-SS) (2)
- Umělá inteligence a zpracování přirozeného jazyka (program FI, B-IN)
- Umělá inteligence a zpracování přirozeného jazyka (program FI, N-IN)
- Zpracování obrazu (program FI, N-AP)
- Cíle předmětu
- At the end of the course students should be able to: apply basic techniques and algorithms used in textual information systems; understand text search algorithms (KMP, AC, BM, RK, ...) and be familiar with data structures used for index storage, query languages, architectures of textual information system (e.g. Google) including those that use natural language processing techniques.
- Osnova
- Basic notions. TIS - text information system. Classification of information systems.
- Searching in TIS. Searching and pattern matching classification and data structures.
- Algorithms of Knuth-Morris-Pratt, Aho-Corasick. Boyer-Moore, Commentz-Walter, Buczilowski.
- Theory of automata for searching. Classification of searching problems.
- Indexes. Indexing methods. Data structures for searching and indexing.
- Google as an example of search and indexing engine. Pagerank.
- Signature methods.
- Query languages and document models: boolean, vector, probabilistic, MMM, Paice.
- Data compression. Basic notions. Statistic methods.
- Compression methods based on dictionary. Neural nets for text compression.
- Syntactic methods. Context modeling.
- Spell checking. Filtering information channels. Document classification.
- Literatura
- Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
- KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
- Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
- Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
- Výukové metody
- Classical lectures, intermixed with brainstormings, class discussions and lectures by experts from industry (e.g. Seznam).
- Metody hodnocení
- Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
- Vyučovací jazyk
- Angličtina
- Navazující předměty
- Informace učitele
- http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině. - Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
- Statistika zápisu (nejnovější)
- Permalink: https://is.muni.cz/predmet/fi/jaro2013/PV030