I047 Úvod do korpusové lingvistiky a počítačové lexikografie
Fakulta informatikyjaro 2002
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
- Garance
- prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc. - Rozvrh
- Út 16:00–17:50 A107
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Český jazyk a literatura (program FF, M-FI) (2)
- Český jazyk a literatura (program FF, M-HS)
- Osnova
- Informační technologie a jazykové korpusy.
- Budování korpusů, korpusová data. Typy korpusů a standardizace, SGML, TEI. Údržba korpusů.
- Korpusové nástroje: korpusový administrátor (CQP, MANATEE). Programy pro tvorbu konkordancí (KWIC) -- OCP. Využití regulárních výrazů. Statistické programy (absolutní, relativní četnosti, M/I, T-score). Třídicí programy pro konkordance. Práce s atributy a značkami (tagy).
- Anotované korpusy a značkování. Základní úroveň značkování -- metastruktura textu -- SGML. Gramatické značkování na úrovni slovních druhů (AJKA). Syntaktické značkování na úrovni větných struktur -- Pražský závislostní stromový korpus. Paralelní korpusy.
- Využití korpusů a korpusových dat. Ukázky práce s korpusem -- ČNK. Studium kolokací a slovních spojení.
- Počítačová lexikografie.
- Co je to lexikografie a lexikologie.
- Způsoby popisu významů slov (sémantické rysy).
- Typy elektronických slovníků. Výkladové -- heslo, struktura hesla a výběr hesel. Překladové -- vícejazyčné, vztah ke strojovému překladu.
- Data pro tvorbu slovníků -- korpusy.
- Softwarové nástroje pro lexikografy. Lexikografické stanice. Lemmatizátory. Desambiguátory (zpracování homonymií a frazeologických spojení).
- Lexikografické standardy v rámci EU.
- Informace učitele
- V ramci predmetu korpusova lingvistika se nabizeji nektera zajimava temata pro diplomove prace, napr. 1) Rozpoznavani vetnych hranic v ceskych textech 2) Zpracovani viceslovnych spojeni pro znackovani korpusovych textu 3) Semanticke znackovani korpusovych textu
- Další komentáře
- Předmět je vyučován každoročně.
I047 Úvod do korpusové lingvistiky a počítačové lexikografie
Fakulta informatikyjaro 2001
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
doc. Mgr. Pavel Rychlý, Ph.D. (cvičící)
doc. RNDr. Pavel Smrž, Ph.D. (cvičící) - Garance
- prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc. - Rozvrh
- St 16:00–17:50 B410
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Český jazyk a literatura (program FF, M-FI) (2)
- Český jazyk a literatura (program FF, M-HS)
- Osnova
- Informační technologie a jazykové korpusy.
- Budování korpusů, korpusová data. Typy korpusů a standardizace, SGML, TEI. Údržba korpusů.
- Korpusové nástroje: korpusový administrátor (CQP, MANATEE). Programy pro tvorbu konkordancí (KWIC) -- OCP. Využití regulárních výrazů. Statistické programy (absolutní, relativní četnosti, M/I, T-score). Třídicí programy pro konkordance. Práce s atributy a značkami (tagy).
- Anotované korpusy a značkování. Základní úroveň značkování -- metastruktura textu -- SGML. Gramatické značkování na úrovni slovních druhů (AJKA). Syntaktické značkování na úrovni větných struktur -- Pražský závislostní stromový korpus. Paralelní korpusy.
- Využití korpusů a korpusových dat. Ukázky práce s korpusem -- ČNK. Studium kolokací a slovních spojení.
- Počítačová lexikografie.
- Co je to lexikografie a lexikologie.
- Způsoby popisu významů slov (sémantické rysy).
- Typy elektronických slovníků. Výkladové -- heslo, struktura hesla a výběr hesel. Překladové -- vícejazyčné, vztah ke strojovému překladu.
- Data pro tvorbu slovníků -- korpusy.
- Softwarové nástroje pro lexikografy. Lexikografické stanice. Lemmatizátory. Desambiguátory (zpracování homonymií a frazeologických spojení).
- Lexikografické standardy v rámci EU.
- Informace učitele
- V ramci predmetu korpusova lingvistika se nabizeji nektera zajimava temata pro diplomove prace, napr. 1) Rozpoznavani vetnych hranic v ceskych textech 2) Zpracovani viceslovnych spojeni pro znackovani korpusovych textu 3) Semanticke znackovani korpusovych textu
- Další komentáře
- Předmět je vyučován každoročně.
I047 Úvod do korpusové lingvistiky a počítačové lexikografie
Fakulta informatikyjaro 2000
- Rozsah
- 2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
doc. Mgr. Pavel Rychlý, Ph.D. (přednášející)
doc. RNDr. Pavel Smrž, Ph.D. (přednášející) - Garance
- prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat – Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc. - Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Informatika (program FI, B-IN)
- Informatika (program FI, M-IN)
- Učitelství výpočetní techniky pro střední školy (program FI, M-IN)
- Učitelství výpočetní techniky pro střední školy (program FI, M-SS)
- Výpočetní technika (program FI, B-IN)
- Osnova
- Informační technologie a jazykové korpusy.
- Vznik korpusové lingvistiky a k čemu jsou korpusy.
- Budování korpusů, korpusová data. Typy korpusů a standardizace, SGML, TEI. Sběr dat pro korpusy a reprezentativnost korpusů. Údržba korpusů.
- Korpusové nástroje -- manažery. Korpusový administrátor (CQP, CUE). Programy pro tvorbu konkordancí (KWIC) -- OCP. Využití regulárních výrazů. Statistické programy (absolutní, relativní četnosti, M/I, T-score). Třídicí programy pro konkordance. Konverzní programy mezi různými kódy. Práce s atributy a značkami (tagy).
- Anotované korpusy a značkování. Základní úroveň značkování -- metastruktura textu -- SGML. Gramatické značkování na úrovni slovních druhů (LEMMA). Syntaktické značkování na úrovni větných struktur -- treebanks, skeletonová analýza. Paralelní korpusy.
- Využití korpusů a korpusových dat. Ukázky práce s korpusem -- ČNK. Studium kolokací a slovních spojení. Aplikace v oblasti teorie komunikace.
- Počítačová lexikografie.
- Co je to lexikografie a lexikologie.
- Způsoby popisu významů slov (sémantické komponenty).
- Typy elektronických slovníků. Výkladové -- heslo, struktura hesla a výběr hesel. Překladové -- vícejazyčné, vztah ke strojovému překladu.
- Data pro tvorbu slovníků -- korpusy.
- Softwarové nástroje pro lexikografy. Lexikografické stanice. Lemmatizátory. Desambiguátory (zpracování homonymií a frazeologických spojení).
- Lexikografické standardy v rámci EU.
- Možné experimenty s tvorbou lexikografického software.
- Informace učitele
- V ramci predmetu korpusova lingvistika se nabizeji nektera zajimava temata pro diplomove prace, napr. 1) Rozpoznavani vetnych hranic v ceskych textech 2) Zpracovani viceslovnych spojeni pro znackovani korpusovych textu 3) Semanticke znackovani korpusovych textu
- Další komentáře
- Předmět je vyučován každoročně.
Výuka probíhá každý týden.
I047 Úvod do korpusové lingvistiky a počítačové lexikografie
Fakulta informatikyjaro 1999
- Rozsah
- 2/0. 2 kr. Doporučované ukončení: zk. Jiná možná ukončení: k, z.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
- Garance
- Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Informatika (program FI, B-IN)
- Informatika (program FI, M-IN)
- Učitelství výpočetní techniky pro střední školy (program FI, M-IN)
- Učitelství výpočetní techniky pro střední školy (program FI, M-SS)
- Výpočetní technika (program FI, B-IN)
- Osnova
- Úvod do korpusové lingvistiky a počítačové lexikografie
- Informační technologie a jazykové korpusy.
- Vznik korpusové lingvistiky a k čemu jsou korpusy.
- Budování korpusů, korpusová data. Typy korpusů a standardizace, SGML, TEI. Sběr dat pro korpusy a reprezentativnost korpusů. Údržba korpusů.
- Korpusové nástroje -- manažery. Korpusový administrátor (CQP, CUE). Programy pro tvorbu konkordancí (KWIC) -- OCP, LEXA, WORDCRUNCHER, PAT. Využití regulárních výrazů. Statistické programy (absolutní, relativní četnosti, M/I, T-score). Třídicí programy pro konkordance. Konverzní programy mezi různými kódy. Funkce typu flex pro práci s morfémy. Práce s atributy a značkami (tagy).
- Anotované korpusy a značkování. Základní úroveň značkování -- metastruktura textu -- SGML. Gramatické značkování na úrovni slovních druhů (CLAWS, CUTTING Tagger, LEMMA). Syntaktické značkování na úrovni větných struktur -- treebanks, skeletonová analýza. Paralelní korpusy.
- Využití korpusů a korpusových dat. Ukázky práce s korpusem -- ČNK. Studium kolokací a slovních spojení. Aplikace v oblasti teorie komunikace. Budování slovníků.
- Počítačová lexikografie.
- Co je to lexikografie a lexikologie.
- Způsoby popisu významů slov (sémantické komponenty).
- Typy elektronických slovníků. Výkladové -- heslo, struktura hesla a výběr hesel. Překladové -- vícejazyčné, vztah ke strojovému překladu, GENELEX. Terminologické. Thesaury.
- Data pro tvorbu slovníků -- korpusy.
- Softwarové nástroje pro lexikografy. Lexikografické stanice (LEXA, COMPULEXIS aj.). Značkovače. Lemmatizátory. Desambiguátory (zpracování homonymií a frazeologických spojení).
- Lexikografické standardy v rámci EU.
- Možné experimenty s tvorbou lexikografického software.
- Informace učitele
- V ramci predmetu korpusova lingvistika se nabizeji nektera zajimava temata pro diplomove prace, napr. 1) Rozpoznavani vetnych hranic v ceskych textech 2) Zpracovani viceslovnych spojeni pro znackovani korpusovych textu 3) Semanticke znackovani korpusovych textu
- Další komentáře
- Předmět je vyučován každoročně.
Výuka probíhá každý týden.
I047 Úvod do korpusové lingvistiky a počítačové lexikografie
Fakulta informatikyléto 1998
- Rozsah
- 2/0. 2 kr. Doporučované ukončení: k. Jiná možná ukončení: z.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
- Garance
- Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Informatika (program FI, B-IN)
- Informatika (program FI, M-IN)
- Učitelství výpočetní techniky pro střední školy (program FI, M-IN)
- Učitelství výpočetní techniky pro střední školy (program FI, M-SS)
- Výpočetní technika (program FI, B-IN)
- Osnova
- Úvod do korpusové lingvistiky a počítačové lexikografie
- Informační technologie a jazykové korpusy.
- Vznik korpusové lingvistiky a k čemu jsou korpusy.
- Budování korpusů, korpusová data. Typy korpusů a standardizace, SGML, TEI. Sběr dat pro korpusy a reprezentativnost korpusů. Údržba korpusů.
- Korpusové nástroje -- manažery. Korpusový administrátor (CQP, CUE). Programy pro tvorbu konkordancí (KWIC) -- OCP, LEXA, WORDCRUNCHER, PAT. Využití regulárních výrazů. Statistické programy (absolutní, relativní četnosti, M/I, T-score). Třídicí programy pro konkordance. Konverzní programy mezi různými kódy. Funkce typu flex pro práci s morfémy. Práce s atributy a značkami (tagy).
- Anotované korpusy a značkování. Základní úroveň značkování -- metastruktura textu -- SGML. Gramatické značkování na úrovni slovních druhů (CLAWS, CUTTING Tagger, LEMMA). Syntaktické značkování na úrovni větných struktur -- treebanks, skeletonová analýza. Paralelní korpusy.
- Využití korpusů a korpusových dat. Ukázky práce s korpusem -- ČNK. Studium kolokací a slovních spojení. Aplikace v oblasti teorie komunikace. Budování slovníků.
- Počítačová lexikografie.
- Co je to lexikografie a lexikologie.
- Způsoby popisu významů slov (sémantické komponenty).
- Typy elektronických slovníků. Výkladové -- heslo, struktura hesla a výběr hesel. Překladové -- vícejazyčné, vztah ke strojovému překladu, GENELEX. Terminologické. Thesaury.
- Data pro tvorbu slovníků -- korpusy.
- Softwarové nástroje pro lexikografy. Lexikografické stanice (LEXA, COMPULEXIS aj.). Značkovače. Lemmatizátory. Desambiguátory (zpracování homonymií a frazeologických spojení).
- Lexikografické standardy v rámci EU.
- Možné experimenty s tvorbou lexikografického software.
- Informace učitele
- V ramci predmetu korpusova lingvistika se nabizeji nektera zajimava temata pro diplomove prace, napr. 1) Rozpoznavani vetnych hranic v ceskych textech 2) Zpracovani viceslovnych spojeni pro znackovani korpusovych textu 3) Semanticke znackovani korpusovych textu
I047 Úvod do korpusové lingvistiky a počítačové lexikografie
Fakulta informatikyléto 1997
- Rozsah
- 2/0. 2 kr. Doporučované ukončení: k. Jiná možná ukončení: z.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
- Garance
- Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Informatika (program FI, B-IN)
- Informatika (program FI, M-IN)
- Učitelství výpočetní techniky pro střední školy (program FI, M-IN)
- Učitelství výpočetní techniky pro střední školy (program FI, M-SS)
- Výpočetní technika (program FI, B-IN)
- Osnova
- Úvod do korpusové lingvistiky a počítačové lexikografie
- Informační technologie a jazykové korpusy.
- Vznik korpusové lingvistiky a k čemu jsou korpusy.
- Budování korpusů, korpusová data. Typy korpusů a standardizace, SGML, TEI. Sběr dat pro korpusy a reprezentativnost korpusů. Údržba korpusů.
- Korpusové nástroje -- manažery. Korpusový administrátor (CQP, CUE). Programy pro tvorbu konkordancí (KWIC) -- OCP, LEXA, WORDCRUNCHER, PAT. Využití regulárních výrazů. Statistické programy (absolutní, relativní četnosti, M/I, T-score). Třídicí programy pro konkordance. Konverzní programy mezi různými kódy. Funkce typu flex pro práci s morfémy. Práce s atributy a značkami (tagy).
- Anotované korpusy a značkování. Základní úroveň značkování -- metastruktura textu -- SGML. Gramatické značkování na úrovni slovních druhů (CLAWS, CUTTING Tagger, LEMMA). Syntaktické značkování na úrovni větných struktur -- treebanks, skeletonová analýza. Paralelní korpusy.
- Využití korpusů a korpusových dat. Ukázky práce s korpusem -- ČNK. Studium kolokací a slovních spojení. Aplikace v oblasti teorie komunikace. Budování slovníků.
- Počítačová lexikografie.
- Co je to lexikografie a lexikologie.
- Způsoby popisu významů slov (sémantické komponenty).
- Typy elektronických slovníků. Výkladové -- heslo, struktura hesla a výběr hesel. Překladové -- vícejazyčné, vztah ke strojovému překladu, GENELEX. Terminologické. Thesaury.
- Data pro tvorbu slovníků -- korpusy.
- Softwarové nástroje pro lexikografy. Lexikografické stanice (LEXA, COMPULEXIS aj.). Značkovače. Lemmatizátory. Desambiguátory (zpracování homonymií a frazeologických spojení).
- Lexikografické standardy v rámci EU.
- Možné experimenty s tvorbou lexikografického software.
- Informace učitele
- V ramci predmetu korpusova lingvistika se nabizeji nektera zajimava temata pro diplomove prace, napr. 1) Rozpoznavani vetnych hranic v ceskych textech 2) Zpracovani viceslovnych spojeni pro znackovani korpusovych textu 3) Semanticke znackovani korpusovych textu
I047 Korpusová lingvistika
Fakulta informatikyléto 1996
- Rozsah
- 0/0. 2 kr. Doporučované ukončení: k. Jiná možná ukončení: z.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
- Garance
- Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Informatika (program FI, B-IN)
- Informatika (program FI, M-IN)
- Učitelství výpočetní techniky pro střední školy (program FI, M-IN)
- Učitelství výpočetní techniky pro střední školy (program FI, M-SS)
- Výpočetní technika (program FI, B-IN)
- Osnova
- Úvod do korpusové lingvistiky a počítačové lexikografie
- Informační technologie a jazykové korpusy.
- Vznik korpusové lingvistiky a k čemu jsou korpusy.
- Budování korpusů, korpusová data. Typy korpusů a standardizace, SGML, TEI. Sběr dat pro korpusy a reprezentativnost korpusů. Údržba korpusů.
- Korpusové nástroje -- manažery. Korpusový administrátor (CQP, CUE). Programy pro tvorbu konkordancí (KWIC) -- OCP, LEXA, WORDCRUNCHER, PAT. Využití regulárních výrazů. Statistické programy (absolutní, relativní četnosti, M/I, T-score). Třídicí programy pro konkordance. Konverzní programy mezi různými kódy. Funkce typu flex pro práci s morfémy. Práce s atributy a značkami (tagy).
- Anotované korpusy a značkování. Základní úroveň značkování -- metastruktura textu -- SGML. Gramatické značkování na úrovni slovních druhů (CLAWS, CUTTING Tagger, LEMMA). Syntaktické značkování na úrovni větných struktur -- treebanks, skeletonová analýza. Paralelní korpusy.
- Využití korpusů a korpusových dat. Ukázky práce s korpusem -- ČNK. Studium kolokací a slovních spojení. Aplikace v oblasti teorie komunikace. Budování slovníků.
- Počítačová lexikografie.
- Co je to lexikografie a lexikologie.
- Způsoby popisu významů slov (sémantické komponenty).
- Typy elektronických slovníků. Výkladové -- heslo, struktura hesla a výběr hesel. Překladové -- vícejazyčné, vztah ke strojovému překladu, GENELEX. Terminologické. Thesaury.
- Data pro tvorbu slovníků -- korpusy.
- Softwarové nástroje pro lexikografy. Lexikografické stanice (LEXA, COMPULEXIS aj.). Značkovače. Lemmatizátory. Desambiguátory (zpracování homonymií a frazeologických spojení).
- Lexikografické standardy v rámci EU.
- Možné experimenty s tvorbou lexikografického software.
- Informace učitele
- V ramci predmetu korpusova lingvistika se nabizeji nektera zajimava temata pro diplomove prace, napr. 1) Rozpoznavani vetnych hranic v ceskych textech 2) Zpracovani viceslovnych spojeni pro znackovani korpusovych textu 3) Semanticke znackovani korpusovych textu
- Statistika zápisu (nejnovější)