PLIN011 Příprava dat pro korpusy

Filozofická fakulta
jaro 2013
Rozsah
0/2. 3 kr. Ukončení: z.
Vyučující
Mgr. Dana Hlaváčková, Ph.D. (cvičící)
Garance
doc. PhDr. Zdeňka Hladká, Dr.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Jaroslava Vybíralová
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta
Rozvrh
každé liché úterý 12:30–14:05 G13
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 0/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20
Mateřské obory/plány
Cíle předmětu
Cílem předmětu je seznámit studenty s manuálními i automatickými postupy spojenými s přípravou dat pro budování psaných a mluvených korpusů. Pozornost je věnována výběru relevantního jazykového materiálu a jeho přípravě pro další počítačové zpracování. V prakticky zaměřených seminářích se studenti naučí pracovat s počítačovými nástroji, které usnadňují tvorbu korpusů (např. Corpus Builder pro psané korpusy), výsledkem jejich práce bude vlastní elektronický korpus. Pro přípravu mluveného korpusu každý student pořídí digitální nahrávku běžné mluvy a její transkripci podle zadaných pravidel s důrazem na synchronizaci textu a zvuku (nástroj ELAN).
Osnova
  • Hlavní tematické okruhy: Úvod – uvedení do problematiky budování jazykových korpusů Přiblížení jednotlivých kroků při tvorbě korpusů psaných Přiblížení jednotlivých kroků při tvorbě korpusů mluvených Ukázky psaných a mluvených korpusových dat Instrukce pro pořizování nahrávek a jejich transkripci Specifikace psaného korpusu – výběr vhodných textů s ohledem na zaměření korpusu Budování psaného korpusu – kontrola výstupů, řešení problémů Transkripce pořízených nahrávek – řešení konkrétních problémů Kontrola výsledků, hodnocení práce studentů v semináři
Literatura
  • BARONI, Marco, Adam KILGARRIFF, Jan POMIKÁLEK a Pavel RYCHLÝ. WebBootCat: a Web Tool for Instant Corpora. In Proceeding of the EuraLex Conference 2006. 1. vyd. Italy: Edizioni dell'Orso s.r.l., 2006, s. 123-132, 9 s. ISBN 88-7694-918-6. info
Výukové metody
Přednášky, diskuse na semináři, praktické ukázky, práce na počítači.
Metody hodnocení
Aktivní účast na semináři, seminární úkol - zpracování dat pro psaný a mluvený korpus.
Další komentáře
Studijní materiály
Předmět je zařazen také v obdobích jaro 2011, jaro 2012, jaro 2018, jaro 2020, jaro 2021, podzim 2021, jaro 2025.