PA154 Language Modeling
Fakulta informatikyjaro 2025
- Rozsah
- 2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučováno kontaktně - Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Zuzana Nevěřilová, Ph.D. (pomocník) - Garance
- doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 32 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.). - Výstupy z učení
- Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
- Osnova
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Vyučovací jazyk
- Angličtina
- Další komentáře
- Předmět je vyučován každoročně.
Výuka probíhá každý týden.
PA154 Jazykové modelování
Fakulta informatikyjaro 2024
- Rozsah
- 2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Zuzana Nevěřilová, Ph.D. (pomocník) - Garance
- doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- Út 12:00–13:50 C416
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 51 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.). - Výstupy z učení
- Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
- Osnova
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Vyučovací jazyk
- Angličtina
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Jazykové modelování
Fakulta informatikyjaro 2023
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící) - Garance
- doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- Čt 16. 2. až Čt 11. 5. Čt 14:00–15:50 C511
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 51 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.). - Výstupy z učení
- Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
- Osnova
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Vyučovací jazyk
- Angličtina
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Jazykové modelování
Fakulta informatikyjaro 2022
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící) - Garance
- doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- Čt 17. 2. až Čt 12. 5. Čt 12:00–13:50 C416
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 51 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.). - Výstupy z učení
- Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
- Osnova
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Vyučovací jazyk
- Angličtina
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Jazykové modelování
Fakulta informatikyjaro 2021
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící) - Garance
- doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- Út 10:00–11:50 Virtuální místnost
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 51 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.). - Výstupy z učení
- Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
- Osnova
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Jazykové modelování
Fakulta informatikyjaro 2020
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící) - Garance
- doc. Mgr. Pavel Rychlý, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- Po 17. 2. až Pá 15. 5. Po 12:00–13:50 A218
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 51 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.). - Výstupy z učení
- Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
- Osnova
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Jazykové modelování
Fakulta informatikyjaro 2019
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící) - Garance
- doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- St 10:00–11:50 C525
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 19 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.). - Výstupy z učení
- Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
- Osnova
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Jazykové modelování
Fakulta informatikyjaro 2018
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící) - Garance
- doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- Po 14:00–15:50 B411
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 19 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.). - Výstupy z učení
- Na konci kurzu budou studenti schopni: používat nástroje pracující s jazykovými modely; rozumět souvisejícím teoriím a algoritmům; navrhnout použití pravděpodobnostních modelů v aplikacích zpracování textů; implementovat vybrané techniky ve vlastních aplikacích.
- Osnova
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Jazykové modelování
Fakulta informatikyjaro 2017
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící) - Garance
- doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- Čt 14:00–15:50 C525
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 19 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Na konci kurzu budou studenti nejen schopni tyto nástroje používat, ale zejména budou rozumět souvisejícím teoriím a algoritmům, což často představuje klíčovou kompetenci pro správné (efektivní a korektní) použití těchto nástrojů. - Osnova
- Sada nástrojů NLTK
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Jazykové modelování
Fakulta informatikyjaro 2016
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící) - Garance
- doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- Po 10:00–11:50 C416
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 19 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Na konci kurzu budou studenti nejen schopni tyto nástroje používat, ale zejména budou rozumět souvisejícím teoriím a algoritmům, což často představuje klíčovou kompetenci pro správné (efektivní a korektní) použití těchto nástrojů. - Osnova
- Sada nástrojů NLTK
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Jazykové modelování
Fakulta informatikyjaro 2015
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící) - Garance
- doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- St 8:00–9:50 C416
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 18 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Na konci kurzu budou studenti nejen schopni tyto nástroje používat, ale zejména budou rozumět souvisejícím teoriím a algoritmům, což často představuje klíčovou kompetenci pro správné (efektivní a korektní) použití těchto nástrojů. - Osnova
- Sada nástrojů NLTK
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Statistické nástroje pro korpusy
Fakulta informatikyjaro 2014
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící) - Garance
- prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- St 10:00–11:50 G125
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 18 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Na konci kurzu budou studenti nejen schopni tyto nástroje používat, ale zejména budou rozumět souvisejícím teoriím a algoritmům, což často představuje klíčovou kompetenci pro správné (efektivní a korektní) použití těchto nástrojů. - Osnova
- Sada nástrojů NLTK
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Nástroje pro korpusy
Fakulta informatikyjaro 2013
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
RNDr. Miloš Jakubíček, Ph.D. (cvičící)
RNDr. Vojtěch Kovář, Ph.D. (cvičící)
RNDr. Vít Suchomel, Ph.D. (pomocník) - Garance
- prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- Út 8:00–9:50 B411
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 25 mateřských oborů, zobrazit
- Cíle předmětu
- Cílem předmětu je seznámit studenty se soudobými, převážně statistickými metodami, algoritmy a nástroji, které se používají pro zpracování velkých textových korpusů při jejich vytváření a následné extrakci informací.
Tyto nástroje nacházející praktické využití v mnoha oblastech zpracování přirozeného jazyka (poloautomatická tvorba textových korpusů, morfologická analýza a desambiguace, syntaktická analýza, efektivní indexace a vyhledávání v textových korpusech, statistický strojový překlad, sémantická analýza aj.).
Na konci kurzu budou studenti nejen schopni tyto nástroje používat, ale zejména budou rozumět souvisejícím teoriím a algoritmům, což často představuje klíčovou kompetenci pro správné (efektivní a korektní) použití těchto nástrojů. - Osnova
- Sada nástrojů NLTK
- Základy pravděpodobnosti a informační teorie
- Jazykové modelování, Noisy Channel Model
- Vyhlazování, algoritmus Expectation-Maximization
- Markovovy modely, Skryté Markovovy modely (HMMs)
- Viterbiho algoritmus
- Značkovací metody, značkování pomocí HMM, značkování založené na statistických transformačních pravidlech
- Statistické zarovnávání a strojový překlad
- Kategorizace a shlukování textu
- Grafické modely
- Paralelizace, MapReduce
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Nástroje pro korpusy
Fakulta informatikyjaro 2012
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
- Garance
- prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat – Fakulta informatiky - Rozvrh
- Čt 14:00–15:50 G124
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 25 mateřských oborů, zobrazit
- Cíle předmětu
- Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
- Osnova
- Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Nástroje pro korpusy
Fakulta informatikyjaro 2011
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
- Garance
- prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D. - Rozvrh
- Čt 10:00–11:50 C511
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 24 mateřských oborů, zobrazit
- Cíle předmětu
- Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
- Osnova
- Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Nástroje pro korpusy
Fakulta informatikyjaro 2010
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
- Garance
- prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D. - Rozvrh
- Út 13:00–14:50 B313
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 24 mateřských oborů, zobrazit
- Cíle předmětu
- Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
- Osnova
- Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
- Literatura
- Výukové metody
- přednáška
- Metody hodnocení
- Písemná zkouška.
- Další komentáře
- Předmět je vyučován každoročně.
PA154 Nástroje pro korpusy
Fakulta informatikyjaro 2009
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
- Garance
- prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D. - Rozvrh
- Út 15:00–16:50 B410
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 21 mateřských oborů, zobrazit
- Cíle předmětu
- Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
- Osnova
- Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
- Literatura
- Metody hodnocení
- Přednášky, písemná zkouška.
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Nástroje pro korpusy
Fakulta informatikyjaro 2008
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
- Garance
- prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D. - Rozvrh
- Čt 8:00–9:50 B410
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 21 mateřských oborů, zobrazit
- Cíle předmětu
- Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
- Osnova
- Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
- Literatura
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Nástroje pro korpusy
Fakulta informatikyjaro 2007
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
- Garance
- prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D. - Rozvrh
- St 18:00–19:50 B411
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 9 mateřských oborů, zobrazit
- Cíle předmětu
- Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
- Osnova
- Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
- Literatura
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Nástroje pro korpusy
Fakulta informatikyjaro 2006
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
- Garance
- prof. Ing. Václav Přenosil, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D. - Rozvrh
- Čt 10:00–11:50 B411
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- předmět má 9 mateřských oborů, zobrazit
- Cíle předmětu
- Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
- Osnova
- Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
- Literatura
- Další komentáře
- Studijní materiály
Předmět je vyučován každoročně.
PA154 Nástroje pro korpusy
Fakulta informatikyjaro 2005
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
- Garance
- prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: doc. Mgr. Pavel Rychlý, Ph.D. - Rozvrh
- Út 18:00–19:50 B411
- Omezení zápisu do předmětu
- Předmět je určen pouze studentům mateřských oborů.
- Mateřské obory/plány
- předmět má 9 mateřských oborů, zobrazit
- Cíle předmětu
- Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
- Osnova
- Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
- Literatura
- Další komentáře
- Předmět je vyučován každoročně.
PA154 Nástroje pro korpusy
Fakulta informatikyjaro 2004
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
- Garance
- prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc. - Rozvrh
- Út 18:00–19:50 B204
- Omezení zápisu do předmětu
- Předmět je určen pouze studentům mateřských oborů.
- Mateřské obory/plány
- předmět má 8 mateřských oborů, zobrazit
- Cíle předmětu
- Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
- Osnova
- Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
- Literatura
- Další komentáře
- Předmět je vyučován každoročně.
PA154 Nástroje pro korpusy
Fakulta informatikyjaro 2003
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
- Garance
- prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc. - Rozvrh
- Út 10:00–11:50 B204
- Omezení zápisu do předmětu
- Předmět je určen pouze studentům mateřských oborů.
- Mateřské obory/plány
- předmět má 8 mateřských oborů, zobrazit
- Cíle předmětu
- Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
- Osnova
- Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
- Literatura
- Další komentáře
- Předmět je vyučován každoročně.
- Statistika zápisu (nejnovější)