FF:PLIN057 Strojové zpracování textu - Informace o předmětu
PLIN057 Strojové zpracování textu
Filozofická fakultajaro 2018
- Rozsah
- 0/2/0. 4 kr. Ukončení: z.
- Vyučující
- Mgr. et Mgr. Ondřej Mrázek, Ph.D. (přednášející)
- Garance
- doc. PhDr. Zdeňka Hladká, Dr.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Jaroslava Vybíralová
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta - Rozvrh
- Po 10:50–12:25 G13
- Předpoklady
- Žádné.
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 0/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20 - Mateřské obory/plány
- Český jazyk a literatura (program FF, B-FI) (2)
- Český jazyk a literatura (program FF, B-GK)
- Český jazyk a literatura (program FF, B-HS)
- Český jazyk a literatura (program FF, B-MA)
- Český jazyk a literatura (program FF, N-FI) (2)
- Český jazyk a literatura (program FF, N-HS)
- Český jazyk se specializací počítačová lingvistika (program FF, B-FI)
- Český jazyk se specializací počítačová lingvistika (program FF, N-FI)
- Cíle předmětu
- Často je i na humanitních oborech důležité umět transformovat textová data do strukturované podoby, tato dovednost umožňuje provádět analýzy textu, zjišťování informací z textu, a stává se tak vstupem pro další bádání, a to bez ohledu na sémantiku textu.
Cílem kurzu je naučit studenty základní možnosti zpracování textových informací pomocí vybraných počítačových nástrojů. Sekundárním cílem je pak naučit studenty vnímat text také jako datový typ zbavený významu, vyrovnat se s různým kódováním textu a s jeho přenositelností mezi různými operačními systémy.
Předmět je určen především pro studenty, kteří nemají s touto problematikou žádné zkušenosti.
Tempo výkladu a obsah budou uzpůsobeny tempu studentů. Pochopení a procvičení učební látky bude upřednostněno před její kvantitou. - Výstupy z učení
- Po absolvování kurzu bude student seznámen s problematikou zpracování textu a bude umět texty:
- prohledávat
- transformovat do jiné podoby
- porovnávat mezi sebou
- sestavovat ze získaných informací jednoduché databáze.
Podrobněji:
- regulární výrazy a jejich implementace
- základní práce v linuxovém terminálu
- UNIXové textové nástroje (grep, sort, uniq, cut aj.)
- UNIXové textové editory (nano, sed, vim).
Podle schopností a zájmu studentů také:
- základy skriptování v Bashi
- základní zpracování textu v jazyce Python.
- Osnova
- seznámení s průběhem semestru
- regulární výrazy a jejich použití
- seznámení s UNIXovým terminálem
- správa toku dat (vstup, výstup, přesměrování)
- cat, tac, head, tail, wc,
- grep, sort, uniq, cut
- comm, diff, join, paste, csplit
- tr, nano, sed
- vim
- základy skriptování v Bashi
- procvičování
- práce s textem v jazyce Python
- Literatura
- doporučená literatura
- Manuálové stránky jednotlivých utilit.
- BRANDEJS, Michal. UNIX - Linux : praktický průvodce. 1. vyd. Praha: Grada, 1996, 340 s. ISBN 8071691704. info
- Výukové metody
- výuka, procvičování, diskuse
- Metody hodnocení
- Zápočet bude udělen za docházku, aktivní účast a splnění zápočtového testu.
- Další komentáře
- Studijní materiály
- Statistika zápisu (jaro 2018, nejnovější)
- Permalink: https://is.muni.cz/predmet/phil/jaro2018/PLIN057