PV030 Textual Information Systems

Fakulta informatiky
jaro 2013
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
doc. RNDr. Petr Matula, Ph.D.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky
Rozvrh
Út 10:00–12:50 C416, Út 12:00–12:50 B311
Předpoklady
Students are strongly advised to bring some basic knowledge of automata theory (IB005 Formální jazyky a automaty) and natural language processing (IB030 Úvod do počítačového zpracování přirozeného jazyka or IB047 Úvod do korpusové lingvistiky a počítačové lexikografie). Some database basics (PB154 Základy databázových systémů) will be helpful as well.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 45 mateřských oborů, zobrazit
Cíle předmětu
At the end of the course students should be able to: apply basic techniques and algorithms used in textual information systems; understand text search algorithms (KMP, AC, BM, RK, ...) and be familiar with data structures used for index storage, query languages, architectures of textual information system (e.g. Google) including those that use natural language processing techniques.
Osnova
  • Basic notions. TIS - text information system. Classification of information systems.
  • Searching in TIS. Searching and pattern matching classification and data structures.
  • Algorithms of Knuth-Morris-Pratt, Aho-Corasick. Boyer-Moore, Commentz-Walter, Buczilowski.
  • Theory of automata for searching. Classification of searching problems.
  • Indexes. Indexing methods. Data structures for searching and indexing.
  • Google as an example of search and indexing engine. Pagerank.
  • Signature methods.
  • Query languages and document models: boolean, vector, probabilistic, MMM, Paice.
  • Data compression. Basic notions. Statistic methods.
  • Compression methods based on dictionary. Neural nets for text compression.
  • Syntactic methods. Context modeling.
  • Spell checking. Filtering information channels. Document classification.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Výukové metody
Classical lectures, intermixed with brainstormings, class discussions and lectures by experts from industry (e.g. Seznam).
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Vyučovací jazyk
Angličtina
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012.

PV030 Textual Information Systems

Fakulta informatiky
jaro 2012
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
prof. Ing. Jiří Sochor, CSc.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky
Rozvrh
Čt 10:00–11:50 C511, Čt 12:00–12:50 B311, Čt 12:00–12:50 C511
Předpoklady
Students are strongly advised to bring some basic knowledge of automata theory (IB005 Formální jazyky a automaty) and natural language processing (IB030 Úvod do počítačového zpracování přirozeného jazyka or IB047 Úvod do korpusové lingvistiky a počítačové lexikografie). Some database basics (PB154 Základy databázových systémů) will be helpful as well.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 45 mateřských oborů, zobrazit
Cíle předmětu
At the end of the course students should be able to: apply basic techniques and algorithms used in textual information systems; understand text search algorithms (KMP, AC, BM, RK, ...) and be familiar with data structures used for index storage, query languages, architectures of textual information system (e.g. Google) including those that use natural language processing techniques.
Osnova
  • Basic notions. TIS - text information system. Classification of information systems.
  • Searching in TIS. Searching and pattern matching classification and data structures.
  • Algorithms of Knuth-Morris-Pratt, Aho-Corasick. Boyer-Moore, Commentz-Walter, Buczilowski.
  • Theory of automata for searching. Classification of searching problems.
  • Indexes. Indexing methods. Data structures for searching and indexing.
  • Google as an example of search and indexing engine. Pagerank.
  • Signature methods.
  • Query languages and document models: boolean, vector, probabilistic, MMM, Paice.
  • Data compression. Basic notions. Statistic methods.
  • Compression methods based on dictionary. Neural nets for text compression.
  • Syntactic methods. Context modeling.
  • Spell checking. Filtering information channels. Document classification.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Výukové metody
Classical lectures, intermixed with brainstormings, class discussions and lectures by experts from industry (e.g. Seznam).
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Vyučovací jazyk
Angličtina
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2013.

PV030 Textual Information Systems

Fakulta informatiky
jaro 2011
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
prof. Ing. Jiří Sochor, CSc.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Rozvrh
Po 12:00–13:50 B411, Po 14:00–14:50 B116, Po 14:00–14:50 B411
Předpoklady
Students are strongly advised to bring some basic knowledge of automata theory (IB005 Formální jazyky a automaty) and natural language processing (IB030 Úvod do počítačového zpracování přirozeného jazyka or IB047 Úvod do korpusové lingvistiky a počítačové lexikografie). Some database basics (PB154 Základy databázových systémů) will be helpful as well.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 44 mateřských oborů, zobrazit
Cíle předmětu
At the end of the course students should be able to: apply basic techniques and algorithms used in textual information systems; understand text search algorithms (KMP, AC, BM, RK, ...) and be familiar with data structures used for index storage, query languages, architectures of textual information system (e.g. Google) including those that use natural language processing techniques.
Osnova
  • Basic notions. TIS - text information system. Classification of information systems.
  • Searching in TIS. Searching and pattern matching classification and data structures.
  • Algorithms of Knuth-Morris-Pratt, Aho-Corasick. Boyer-Moore, Commentz-Walter, Buczilowski.
  • Theory of automata for searching. Classification of searching problems.
  • Indexes. Indexing methods. Data structures for searching and indexing.
  • Google as an example of search and indexing engine. Pagerank.
  • Signature methods.
  • Query languages and document models: boolean, vector, probabilistic, MMM, Paice.
  • Data compression. Basic notions. Statistic methods.
  • Compression methods based on dictionary. Neural nets for text compression.
  • Syntactic methods. Context modeling.
  • Spell checking. Filtering information channels. Document classification.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Výukové metody
Classical lectures, intermixed with brainstormings, class discussions and lectures by experts from industry (e.g. Seznam).
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Vyučovací jazyk
Angličtina
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2012, jaro 2013.

PV030 Textual Information Systems

Fakulta informatiky
jaro 2010
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
prof. Ing. Jiří Sochor, CSc.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Rozvrh
Po 12:00–13:50 B204, Po 18:00–18:50 B311, Po 18:00–18:50 B410
Předpoklady
Students are strongly advised to bring some basic knowledge of automata theory (IB005 Formální jazyky a automaty) and natural language processing (IB030 Úvod do počítačového zpracování přirozeného jazyka or IB047 Úvod do korpusové lingvistiky a počítačové lexikografie). Some database basics (PB154 Základy databázových systémů) will be helpful as well.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 41 mateřských oborů, zobrazit
Cíle předmětu
At the end of the course students should be able to: apply basic techniques and algorithms used in textual information systems; understand text search algorithms (KMP, AC, BM, RK, ...) and be familiar with data structures used for index storage, query languages, architectures of textual information system (e.g. Google) including those that use natural language processing techniques.
Osnova
  • Basic notions. TIS - text information system. Classification of information systems.
  • Searching in TIS. Searching and pattern matching classification and data structures.
  • Algorithms of Knuth-Morris-Pratt, Aho-Corasick. Boyer-Moore, Commentz-Walter, Buczilowski.
  • Theory of automata for searching. Classification of searching problems.
  • Indexes. Indexing methods. Data structures for searching and indexing.
  • Google as an example of search and indexing engine. Pagerank.
  • Signature methods.
  • Query languages and document models: boolean, vector, probabilistic, MMM, Paice.
  • Data compression. Basic notions. Statistic methods.
  • Compression methods based on dictionary. Neural nets for text compression.
  • Syntactic methods. Context modeling.
  • Spell checking. Filtering information channels. Document classification.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Výukové metody
Classical lectures, intermixed with brainstormings, class discussions and lectures by experts from industry (e.g. Seznam).
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Vyučovací jazyk
Angličtina
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2011, jaro 2012, jaro 2013.

PV030 Textual Information Systems

Fakulta informatiky
jaro 2009
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
prof. Ing. Jiří Sochor, CSc.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Rozvrh
Po 12:00–13:50 B204
  • Rozvrh seminárních/paralelních skupin:
PV030/01: Po 16:00–16:50 B410, Po 16:00–16:50 B311, P. Sojka
PV030/02: Po 17:00–17:50 B311, Po 17:00–17:50 B410, P. Sojka
Předpoklady
U studentů se předpokládá znalost teorie konečných jazyků a automatů v rozsahu předmětu IB005. Také je vhodné mít znalosti základů zpracování přirozeného jazyka (IB030 nebo IB047) a databázové teorie a dotazovacích jazyků (PB154).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 38 mateřských oborů, zobrazit
Cíle předmětu
Kurs seznamuje s technikami a algoritmy zpracování textu v informačních systémech od algoritmů vyhledávání, přes datové struktury ukládání, předzpracování, indexování a dotazování textových bází dat včetně Internetu až po architekturu návrhu textového informačního systému s využitím technik zpracování přirozeného jazyka.
Osnova
  • Základní pojmy a klasifikace informačních systémů.
  • Vyhledávací systémy, algoritmy a datové struktury.
  • Vyhledávací metody s předzpracováním vzorků. Algoritmy Knuth-Morris-Pratt, Boyer-Moore, Aho-Corasickové, Commentz-Walterové.
  • Vyhledávací metody s předzpracováním textu -- indexové metody. Metody indexování, konstrukce tezauru.
  • Architektura vyhledávacího systému na Internetu -- Google.
  • Komprese dat, statistické a slovníkové metody.
  • Syntaktické metody. Kontextové modelování.
  • Signaturové metody.
  • Jazyky pro vyhledávání a modely dokumentů -- boolovský, vektorový, MMM, Paiceův, pravděpodobnostní, shluků.
  • Filtrace a indexování informačních zdrojů. Tovek Tools. Klasifikace dokumentů.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Vyučovací jazyk
Angličtina
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině.
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textual Information Systems

Fakulta informatiky
jaro 2008
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
prof. Ing. Jiří Sochor, CSc.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Rozvrh
St 8:00–9:50 C511, St 14:00–14:50 C525, St 14:00–14:50 B311
Předpoklady
U studentů se předpokládá znalost teorie konečných jazyků a automatů v rozsahu předmětu IB005. Také je vhodné mít znalosti základů zpracování přirozeného jazyka (IB030 nebo IB047) a databázové teorie a dotazovacích jazyků (PB154).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 37 mateřských oborů, zobrazit
Cíle předmětu
Kurs seznamuje s technikami a algoritmy zpracování textu v informačních systémech od algoritmů vyhledávání, přes datové struktury ukládání, předzpracování, indexování a dotazování textových bází dat včetně Internetu až po architekturu návrhu textového informačního systému s využitím technik zpracování přirozeného jazyka.
Osnova
  • Základní pojmy a klasifikace informačních systémů.
  • Vyhledávací systémy, algoritmy a datové struktury.
  • Vyhledávací metody s předzpracováním vzorků. Algoritmy Knuth-Morris-Pratt, Boyer-Moore, Aho-Corasickové, Commentz-Walterové.
  • Vyhledávací metody s předzpracováním textu -- indexové metody. Metody indexování, konstrukce tezauru.
  • Architektura vyhledávacího systému na Internetu -- Google.
  • Komprese dat, statistické a slovníkové metody.
  • Syntaktické metody. Kontextové modelování.
  • Signaturové metody.
  • Jazyky pro vyhledávání a modely dokumentů -- boolovský, vektorový, MMM, Paiceův, pravděpodobnostní, shluků.
  • Filtrace a indexování informačních zdrojů. Tovek Tools. Klasifikace dokumentů.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Vyučovací jazyk
Angličtina
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu.
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textové informační systémy

Fakulta informatiky
jaro 2007
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
prof. Ing. Jiří Sochor, CSc.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Rozvrh
Po 12:00–13:50 A107
  • Rozvrh seminárních/paralelních skupin:
PV030/01: Po 16:00–16:50 B311, Po 16:00–16:50 B411, P. Sojka
PV030/03: Po 18:00–18:50 B411, Po 18:00–18:50 B311, P. Sojka
Předpoklady
! P030 Textové informační systémy
U studentů se předpokládá znalost teorie konečných jazyků a automatů v rozsahu předmětu IB005. Také je vhodné mít znalosti základů zpracování přirozeného jazyka (IB030 nebo IB047) a databázové teorie a dotazovacích jazyků (PB154).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 18 mateřských oborů, zobrazit
Cíle předmětu
Kurs seznamuje s technikami a algoritmy zpracování textu v informačních systémech od algoritmů vyhledávání, přes datové struktury ukládání, předzpracování, indexování a dotazování textových bází dat včetně Internetu až po architekturu návrhu textového informačního systému s využitím technik zpracování přirozeného jazyka.
Osnova
  • Základní pojmy a klasifikace informačních systémů.
  • Vyhledávací systémy, algoritmy a datové struktury.
  • Vyhledávací metody s předzpracováním vzorků. Algoritmy Knuth-Morris-Pratt, Boyer-Moore, Aho-Corasickové, Commentz-Walterové.
  • Vyhledávací metody s předzpracováním textu -- indexové metody. Metody indexování, konstrukce tezauru.
  • Architektura vyhledávacího systému na Internetu -- Google.
  • Komprese dat, statistické a slovníkové metody.
  • Syntaktické metody. Kontextové modelování.
  • Signaturové metody.
  • Jazyky pro vyhledávání a modely dokumentů -- boolovský, vektorový, MMM, Paiceův, pravděpodobnostní, shluků.
  • Filtrace a indexování informačních zdrojů. Tovek Tools. Klasifikace dokumentů.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací news:cz.muni.courses.PV030.
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textové informační systémy

Fakulta informatiky
jaro 2006
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
prof. Ing. Jiří Sochor, CSc.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Rozvrh
St 10:00–11:50 D2, Čt 17:00–17:50 B410, Čt 17:00–17:50 B311
  • Rozvrh seminárních/paralelních skupin:
PV030/01: Čt 16:00–16:50 B410, Čt 16:00–16:50 B311, P. Sojka
PV030/03: Čt 18:00–18:50 B410, Čt 18:00–18:50 B311, P. Sojka
Předpoklady
! P030 Textové informační systémy
U studentů se předpokládá znalost teorie konečných jazyků a automatů v rozsahu předmětu IB005. Také je vhodné mít znalosti základů zpracování přirozeného jazyka (IB030 nebo IB047) a databázové teorie a dotazovacích jazyků (PB154).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 18 mateřských oborů, zobrazit
Cíle předmětu
Kurs seznamuje s technikami a algoritmy zpracování textu v informačních systémech od algoritmů vyhledávání, přes datové struktury ukládání, předzpracování, indexování a dotazování textových bází dat včetně Internetu až po architekturu návrhu textového informačního systému s využitím technik zpracování přirozeného jazyka.
Osnova
  • Základní pojmy a klasifikace informačních systémů.
  • Vyhledávací systémy, algoritmy a datové struktury.
  • Vyhledávací metody s předzpracováním vzorků. Algoritmy Knuth-Morris-Pratt, Boyer-Moore, Aho-Corasickové, Commentz-Walterové.
  • Vyhledávací metody s předzpracováním textu -- indexové metody. Metody indexování, konstrukce tezauru.
  • Architektura vyhledávacího systému na Internetu -- Google.
  • Komprese dat, statistické a slovníkové metody.
  • Syntaktické metody. Kontextové modelování.
  • Signaturové metody.
  • Jazyky pro vyhledávání a modely dokumentů -- boolovský, vektorový, MMM, Paiceův, pravděpodobnostní, shluků.
  • Filtrace a indexování informačních zdrojů. Tovek Tools. Klasifikace dokumentů.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací news:cz.muni.courses.PV030.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textové informační systémy

Fakulta informatiky
jaro 2005
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
doc. Ing. Jan Staudek, CSc.
Katedra počítačových systémů a komunikací – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Rozvrh
Út 10:00–11:50 D1
  • Rozvrh seminárních/paralelních skupin:
PV030/01: Út 16:00–16:50 B204, Út 16:00–16:50 B311, P. Sojka
PV030/02: Út 17:00–17:50 B311, Út 17:00–17:50 B204, P. Sojka
PV030/03: Út 18:00–18:50 B204, Út 18:00–18:50 B311, P. Sojka
Předpoklady
! P030 Textové informační systémy
U studentů se předpokládá znalost teorie konečných jazyků a automatů v rozsahu předmětu IB005. Také je vhodné mít znalosti základů zpracování přirozeného jazyka (IB030 nebo IB047) a databázové teorie a dotazovacích jazyků (PB154).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 18 mateřských oborů, zobrazit
Cíle předmětu
Kurs seznamuje s technikami a algoritmy zpracování textu v informačních systémech od algoritmů vyhledávání, přes datové struktury ukládání, předzpracování, indexování a dotazování textových bází dat včetně Internetu až po architekturu návrhu textového informačního systému s využitím technik zpracování přirozeného jazyka.
Osnova
  • Základní pojmy a klasifikace informačních systémů.
  • Vyhledávací systémy, algoritmy a datové struktury.
  • Vyhledávací metody s předzpracováním vzorků. Algoritmy Knuth-Morris-Pratt, Boyer-Moore, Aho-Corasickové, Commentz-Walterové.
  • Vyhledávací metody s předzpracováním textu -- indexové metody. Metody indexování, konstrukce tezauru.
  • Architektura vyhledávacího systému na Internetu -- Google.
  • Komprese dat, statistické a slovníkové metody.
  • Syntaktické metody. Kontextové modelování.
  • Signaturové metody.
  • Jazyky pro vyhledávání a modely dokumentů -- boolovský, vektorový, MMM, Paiceův, pravděpodobnostní, shluků.
  • Filtrace a indexování informačních zdrojů. Tovek Tools. Klasifikace dokumentů.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací news:cz.muni.courses.PV030.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textové informační systémy

Fakulta informatiky
jaro 2004
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
doc. Ing. Jan Staudek, CSc.
Katedra počítačových systémů a komunikací – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Rozvrh
Po 12:00–13:50 D2
  • Rozvrh seminárních/paralelních skupin:
PV030/01: Po 15:00–15:50 A107, Po 15:00–15:50 B311, P. Sojka
PV030/02: Po 16:00–16:50 A107, Po 16:00–16:50 B311, P. Sojka
PV030/03: Po 17:00–17:50 A107, Po 17:00–17:50 B311, P. Sojka
Předpoklady
! P030 Textové informační systémy
U studentů se předpokládá znalost teorie konečných jazyků a automatů v rozsahu předmětu IB005. Také je vhodné mít znalosti základů zpracování přirozeného jazyka (IB030 nebo IB047) a databázové teorie a dotazovacích jazyků (PB154).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Kurs seznamuje s technikami a algoritmy zpracování textu v informačních systémech od algoritmů vyhledávání, přes datové struktury ukládání, předzpracování, indexování a dotazování textových bází dat včetně Internetu až po architekturu návrhu textového informačního systému s využitím technik zpracování přirozeného jazyka.
Osnova
  • Základní pojmy a klasifikace informačních systémů.
  • Vyhledávací systémy, algoritmy a datové struktury.
  • Vyhledávací metody s předzpracováním vzorků. Algoritmy Knuth-Morris-Pratt, Boyer-Moore, Aho-Corasickové, Commentz-Walterové.
  • Vyhledávací metody s předzpracováním textu -- indexové metody. Architektura vyhledávacího systému na Internetu -- Google.
  • Metody indexování, konstrukce tezauru.
  • Signaturové metody.
  • Jazyky pro vyhledávání a modely dokumentů -- boolovský, vektorový, MMM, Paiceův, pravděpodobnostní, shluků.
  • Komprese dat, statistické a slovníkové metody.
  • Syntaktické metody. Kontextové modelování.
  • Filtrace a indexování informačních zdrojů. Tovek Tools. Klasifikace dokumentů.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací news:cz.muni.courses.PV030.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textové informační systémy

Fakulta informatiky
jaro 2003
Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
RNDr. David Antoš, Ph.D. (cvičící)
Garance
doc. Ing. Jan Staudek, CSc.
Katedra počítačových systémů a komunikací – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Rozvrh
Po 9:00–10:50 D2
  • Rozvrh seminárních/paralelních skupin:
PV030/01: Po 13:00–13:50 B204, Po 13:00–13:50 B311, P. Sojka
PV030/02: Po 14:00–14:50 B204, Po 14:00–14:50 B311, D. Antoš
PV030/03: Po 15:00–15:50 B204, Po 15:00–15:50 B311, D. Antoš
PV030/04: Po 16:00–16:50 B204, Po 16:00–16:50 B311, D. Antoš
PV030/05: Po 17:00–17:50 B204, Po 17:00–17:50 B311, D. Antoš
Předpoklady
! P030 Textové informační systémy
U studentů se předpokládá znalost teorie konečných jazyků a automatů v rozsahu předmětu IB005. Také je vhodné mít znalosti základů zpracování přirozeného jazyka (IB030 or IB047) a databázové teorie a dotazovacích jazyků (PB154).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Kurs seznamuje s technikami a algoritmy zpracování textu v informačních systémech od algoritmů vyhledávání, přes datové struktury ukládání, předzpracování, indexování a dotazování textových bází dat včetně Internetu až po architekturu návrhu textového informačního systému s využitím technik zpracování přirozeného jazyka.
Osnova
  • Základní pojmy a klasifikace informačních systémů.
  • Vyhledávací systémy, algoritmy a datové struktury.
  • Vyhledávací metody s předzpracováním vzorků. Algoritmy Knuth-Morris-Pratt, Boyer-Moore, Aho-Corasickové, Commentz-Walterové.
  • Vyhledávací metody s předzpracováním textu -- indexové metody. Architektura vyhledávacího systému na Internetu -- Google.
  • Metody indexování, konstrukce tezauru.
  • Signaturové metody.
  • Jazyky pro vyhledávání a modely dokumentů -- boolovský, vektorový, MMM, Paiceův, pravděpodobnostní, shluků.
  • Komprese dat, statistické a slovníkové metody.
  • Syntaktické metody. Kontextové modelování.
  • Filtrace a indexovani informačních zdrojů. Tovek Tools. Klasifikace dokumentů.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení domácích písemných úloh zadávaných v průběhu semestru. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací news:cz.muni.courses.PV030.
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textové informační systémy

Fakulta informatiky
jaro 2019

Předmět se v období jaro 2019 nevypisuje.

Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
doc. RNDr. Petr Matula, Ph.D.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky
Předpoklady
Students are strongly advised to bring some basic knowledge of automata theory (IB005 Formální jazyky a automaty) and natural language processing (IB030 Úvod do počítačového zpracování přirozeného jazyka or IB047 Úvod do korpusové lingvistiky a počítačové lexikografie). Some database basics (PB154 Základy databázových systémů) will be helpful as well.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 39 mateřských oborů, zobrazit
Cíle předmětu
At the end of the course students should be able to: apply basic techniques and algorithms used in textual information systems; understand text search algorithms (KMP, AC, BM, RK, ...) and be familiar with data structures used for index storage, query languages, architectures of textual information system (e.g. Google) including those that use natural language processing techniques.
Osnova
  • Basic notions. TIS - text information system. Classification of information systems.
  • Searching in TIS. Searching and pattern matching classification and data structures.
  • Algorithms of Knuth-Morris-Pratt, Aho-Corasick. Boyer-Moore, Commentz-Walter, Buczilowski.
  • Theory of automata for searching. Classification of searching problems.
  • Indexes. Indexing methods. Data structures for searching and indexing.
  • Google as an example of search and indexing engine. Pagerank.
  • Signature methods.
  • Query languages and document models: boolean, vector, probabilistic, MMM, Paice.
  • Data compression. Basic notions. Statistic methods.
  • Compression methods based on dictionary. Neural nets for text compression.
  • Syntactic methods. Context modeling.
  • Spell checking. Filtering information channels. Document classification.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Výukové metody
Classical lectures, intermixed with brainstormings, class discussions and lectures by experts from industry (e.g. Seznam).
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině.
Další komentáře
Předmět již není vypisován.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textové informační systémy

Fakulta informatiky
jaro 2018

Předmět se v období jaro 2018 nevypisuje.

Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
doc. RNDr. Petr Matula, Ph.D.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky
Předpoklady
Students are strongly advised to bring some basic knowledge of automata theory (IB005 Formální jazyky a automaty) and natural language processing (IB030 Úvod do počítačového zpracování přirozeného jazyka or IB047 Úvod do korpusové lingvistiky a počítačové lexikografie). Some database basics (PB154 Základy databázových systémů) will be helpful as well.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 39 mateřských oborů, zobrazit
Cíle předmětu
At the end of the course students should be able to: apply basic techniques and algorithms used in textual information systems; understand text search algorithms (KMP, AC, BM, RK, ...) and be familiar with data structures used for index storage, query languages, architectures of textual information system (e.g. Google) including those that use natural language processing techniques.
Osnova
  • Basic notions. TIS - text information system. Classification of information systems.
  • Searching in TIS. Searching and pattern matching classification and data structures.
  • Algorithms of Knuth-Morris-Pratt, Aho-Corasick. Boyer-Moore, Commentz-Walter, Buczilowski.
  • Theory of automata for searching. Classification of searching problems.
  • Indexes. Indexing methods. Data structures for searching and indexing.
  • Google as an example of search and indexing engine. Pagerank.
  • Signature methods.
  • Query languages and document models: boolean, vector, probabilistic, MMM, Paice.
  • Data compression. Basic notions. Statistic methods.
  • Compression methods based on dictionary. Neural nets for text compression.
  • Syntactic methods. Context modeling.
  • Spell checking. Filtering information channels. Document classification.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Výukové metody
Classical lectures, intermixed with brainstormings, class discussions and lectures by experts from industry (e.g. Seznam).
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině.
Další komentáře
Předmět již není vypisován.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textové informační systémy

Fakulta informatiky
jaro 2017

Předmět se v období jaro 2017 nevypisuje.

Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
doc. RNDr. Petr Matula, Ph.D.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky
Předpoklady
Students are strongly advised to bring some basic knowledge of automata theory (IB005 Formální jazyky a automaty) and natural language processing (IB030 Úvod do počítačového zpracování přirozeného jazyka or IB047 Úvod do korpusové lingvistiky a počítačové lexikografie). Some database basics (PB154 Základy databázových systémů) will be helpful as well.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 39 mateřských oborů, zobrazit
Cíle předmětu
At the end of the course students should be able to: apply basic techniques and algorithms used in textual information systems; understand text search algorithms (KMP, AC, BM, RK, ...) and be familiar with data structures used for index storage, query languages, architectures of textual information system (e.g. Google) including those that use natural language processing techniques.
Osnova
  • Basic notions. TIS - text information system. Classification of information systems.
  • Searching in TIS. Searching and pattern matching classification and data structures.
  • Algorithms of Knuth-Morris-Pratt, Aho-Corasick. Boyer-Moore, Commentz-Walter, Buczilowski.
  • Theory of automata for searching. Classification of searching problems.
  • Indexes. Indexing methods. Data structures for searching and indexing.
  • Google as an example of search and indexing engine. Pagerank.
  • Signature methods.
  • Query languages and document models: boolean, vector, probabilistic, MMM, Paice.
  • Data compression. Basic notions. Statistic methods.
  • Compression methods based on dictionary. Neural nets for text compression.
  • Syntactic methods. Context modeling.
  • Spell checking. Filtering information channels. Document classification.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Výukové metody
Classical lectures, intermixed with brainstormings, class discussions and lectures by experts from industry (e.g. Seznam).
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině.
Další komentáře
Předmět již není vypisován.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textové informační systémy

Fakulta informatiky
jaro 2016

Předmět se v období jaro 2016 nevypisuje.

Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
doc. RNDr. Petr Matula, Ph.D.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky
Předpoklady
Students are strongly advised to bring some basic knowledge of automata theory (IB005 Formální jazyky a automaty) and natural language processing (IB030 Úvod do počítačového zpracování přirozeného jazyka or IB047 Úvod do korpusové lingvistiky a počítačové lexikografie). Some database basics (PB154 Základy databázových systémů) will be helpful as well.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 39 mateřských oborů, zobrazit
Cíle předmětu
At the end of the course students should be able to: apply basic techniques and algorithms used in textual information systems; understand text search algorithms (KMP, AC, BM, RK, ...) and be familiar with data structures used for index storage, query languages, architectures of textual information system (e.g. Google) including those that use natural language processing techniques.
Osnova
  • Basic notions. TIS - text information system. Classification of information systems.
  • Searching in TIS. Searching and pattern matching classification and data structures.
  • Algorithms of Knuth-Morris-Pratt, Aho-Corasick. Boyer-Moore, Commentz-Walter, Buczilowski.
  • Theory of automata for searching. Classification of searching problems.
  • Indexes. Indexing methods. Data structures for searching and indexing.
  • Google as an example of search and indexing engine. Pagerank.
  • Signature methods.
  • Query languages and document models: boolean, vector, probabilistic, MMM, Paice.
  • Data compression. Basic notions. Statistic methods.
  • Compression methods based on dictionary. Neural nets for text compression.
  • Syntactic methods. Context modeling.
  • Spell checking. Filtering information channels. Document classification.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Výukové metody
Classical lectures, intermixed with brainstormings, class discussions and lectures by experts from industry (e.g. Seznam).
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině.
Další komentáře
Předmět již není vypisován.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textové informační systémy

Fakulta informatiky
jaro 2015

Předmět se v období jaro 2015 nevypisuje.

Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
doc. RNDr. Petr Matula, Ph.D.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky
Předpoklady
Students are strongly advised to bring some basic knowledge of automata theory (IB005 Formální jazyky a automaty) and natural language processing (IB030 Úvod do počítačového zpracování přirozeného jazyka or IB047 Úvod do korpusové lingvistiky a počítačové lexikografie). Some database basics (PB154 Základy databázových systémů) will be helpful as well.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 38 mateřských oborů, zobrazit
Cíle předmětu
At the end of the course students should be able to: apply basic techniques and algorithms used in textual information systems; understand text search algorithms (KMP, AC, BM, RK, ...) and be familiar with data structures used for index storage, query languages, architectures of textual information system (e.g. Google) including those that use natural language processing techniques.
Osnova
  • Basic notions. TIS - text information system. Classification of information systems.
  • Searching in TIS. Searching and pattern matching classification and data structures.
  • Algorithms of Knuth-Morris-Pratt, Aho-Corasick. Boyer-Moore, Commentz-Walter, Buczilowski.
  • Theory of automata for searching. Classification of searching problems.
  • Indexes. Indexing methods. Data structures for searching and indexing.
  • Google as an example of search and indexing engine. Pagerank.
  • Signature methods.
  • Query languages and document models: boolean, vector, probabilistic, MMM, Paice.
  • Data compression. Basic notions. Statistic methods.
  • Compression methods based on dictionary. Neural nets for text compression.
  • Syntactic methods. Context modeling.
  • Spell checking. Filtering information channels. Document classification.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Výukové metody
Classical lectures, intermixed with brainstormings, class discussions and lectures by experts from industry (e.g. Seznam).
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině.
Další komentáře
Předmět je vyučován jednou za dva roky.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.

PV030 Textové informační systémy

Fakulta informatiky
jaro 2014

Předmět se v období jaro 2014 nevypisuje.

Rozsah
2/1. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
doc. RNDr. Petr Sojka, Ph.D. (přednášející)
Garance
doc. RNDr. Petr Matula, Ph.D.
Katedra vizuální informatiky – Fakulta informatiky
Kontaktní osoba: doc. RNDr. Petr Sojka, Ph.D.
Dodavatelské pracoviště: Katedra vizuální informatiky – Fakulta informatiky
Předpoklady
Students are strongly advised to bring some basic knowledge of automata theory (IB005 Formální jazyky a automaty) and natural language processing (IB030 Úvod do počítačového zpracování přirozeného jazyka or IB047 Úvod do korpusové lingvistiky a počítačové lexikografie). Some database basics (PB154 Základy databázových systémů) will be helpful as well.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 38 mateřských oborů, zobrazit
Cíle předmětu
At the end of the course students should be able to: apply basic techniques and algorithms used in textual information systems; understand text search algorithms (KMP, AC, BM, RK, ...) and be familiar with data structures used for index storage, query languages, architectures of textual information system (e.g. Google) including those that use natural language processing techniques.
Osnova
  • Basic notions. TIS - text information system. Classification of information systems.
  • Searching in TIS. Searching and pattern matching classification and data structures.
  • Algorithms of Knuth-Morris-Pratt, Aho-Corasick. Boyer-Moore, Commentz-Walter, Buczilowski.
  • Theory of automata for searching. Classification of searching problems.
  • Indexes. Indexing methods. Data structures for searching and indexing.
  • Google as an example of search and indexing engine. Pagerank.
  • Signature methods.
  • Query languages and document models: boolean, vector, probabilistic, MMM, Paice.
  • Data compression. Basic notions. Statistic methods.
  • Compression methods based on dictionary. Neural nets for text compression.
  • Syntactic methods. Context modeling.
  • Spell checking. Filtering information channels. Document classification.
Literatura
  • Jaroslav Pokorn\'y, V\'aclav Sn\'a\v{s}el, Du\v{s}an H\'usek: Dokumentografick\'e informa\v{c}n\'{\i} syst\'emy, skripta MFF UK Praha, 1998.
  • KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer Publishing, 1997, xiii, 349. ISBN 0471143383. info
  • Information retrieval :data structures & algorithms. Edited by William B. Frakes - Ricardo Baeza-Yates. Upper Saddle River: Prentice Hall, 1992, viii, 504. ISBN 0-13-463837-9. info
  • Finite-state language processing. Edited by Emmanuel Roche - Yves Schabes. Cambridge: Bradford Book, 1997, xv, 464. ISBN 0262181827. info
Výukové metody
Classical lectures, intermixed with brainstormings, class discussions and lectures by experts from industry (e.g. Seznam).
Metody hodnocení
Výuka probíhá klasickým způsobem a je zakončena písemným testem (tvoří 70 % hodnocení). Příklady testů z předchozích let jsou vystaveny na webu předmětu. 30 % závěrečného hodnocení tvoří hodnocení písemek zadávaných v průběhu semestru na cvičeních. Na cvičeních dochází k procvičování látky z přednášek, k brainstormingu. V průběhu výuky jsou studenti motivováni dílčími úkoly honorovanými udělením prémiových bodů.
Navazující předměty
Informace učitele
http://www.fi.muni.cz/~sojka/PV030/
U studentu se předpokládá znalost základů teorie automatů (I005). Vhodné je orientovat se v pojmech zpracování přirozeného jazyka (I030, I047) a základních databázových pojmech (P002). Pro komunikaci slouží kromě přednášek a cvičení a individuálních konzultací diskusní fúrum předmětu. Pokud všichni studenti rozumí česky, výuka probíhá v češtině.
Další komentáře
Předmět je vyučován jednou za dva roky.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích jaro 2003, jaro 2004, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013.