CJBB75 – 1 (G13 8.00-9.30) K. Osolsobě Výuka: od 2. 3. každých 14 dní kontaktní, každých 14 dní úkol (viz harmonogram) Podmínky ukončení: Průběžné plnění úkolů (5 odevzdaných referátů, test). Náplň dnešní hodiny Co je to korpus? - Soubor textů - elektronicky uložených a přístupných (korpusové manažery – programy, skrze něž lze ke korpusům přistupovat) - má stanovený obsah (složený z textů záměrně vybraných dle zveřejněných kritérií) - má stanovený rozsah/velikost (lze na něm pracovat s frekvenčními/kvantitativně měřitelnými údaji) - obsahuje standardní anotace (metadata – údaje o každém textu a lingvistické interpretace, anotace jazykových jednotek – vnitřní anotace) Registrace uživatele pro práci s ČNK (http://ucnk.ff.cuni.cz/) Korpusový manažer Základy práce s korpusem přes Kontext KonText Dotaz Výběr korpusu Jaké korpusy jsou k dispozici ? Časové hledisko (synchronní / diachronní) Hledisko textů (psané / mluvené, připravené/spontánní) Hledisko žánru (vyvážené žánrově/ žánrově kompaktní – např. korpusy výhradně publicistické, nebo korpus soukromé korespondence, projekt Korpus českého verše). Hledisko autora (autoři jsou rodilí mluvčí/ autoři se učí jazyk, v němž jsou texty vytvořeny jako tzv. druhý jazyk – learner corpora/žákovské korpusy, autorské korpusy založené na díle/korespondenci význačných osobností). Hledisko jazyka (jednojazyčné – např. čeština/ vícejazyčné, srovnatelné, paralelní). Vícejazyčné paralelní korpusy – stejné texty – originál+překlad – zarovnaní/alignment = jednotky, které si odpovídají, jsou propojeny / srovnatelné korpusy – různojazyčné i stejného jazyka vybudované stejným způsobem, mající stejné složení). Jak čteme informace o zvoleném korpusu? Stručné info. vč. citování Proč je třeba citovat korpusy Jak číst informace o velikosti korpusu: Termíny: viz http://wiki.korpus.cz/doku.php http://wiki.korpus.cz/doku.php/pojmy:prehled_pojmu pozice tokenizace lemmatizace desambiguace Vyhledávání: Slovní tvar/slovo/word Fráze Lemma CQL Regulární výrazy (http://wiki.korpus.cz/doku.php/pojmy:regularni_vyrazy) konkordance, KWIC Zobrazení KWIC/Věta Korpusová nastavení (Lemma, POS – part of speech) (Lemma, tag) Kompletní info o zdrojovém textu: Úkol na příště: Prostudovat www stránky ÚČNK Umět odpovědět na otázky: 1. Co je to korpusu? 2. Co je to Český národní korpus? 3. Jaké typy korpusů máme k dispozici? 4. Co to znamená, když řeknu, že korpus má 100 milionů slov? 5. Jak komunikujeme s korpusem (jak jej můžeme využívat pro lingvistickou práci)? 6. Jak můžeme vyhledat v korpusu výskyt slova, jak se se zobrazí v korpusu výskyt slova a co můžeme se zobrazenými výskyty dále dělat? 7. Jak můžeme vyhledat v korpusu všechna slova, která mají společnou vlastnost, že jsou tvary jednoho základního tvaru? 8. Jak můžeme v korpusu vyhledat všechny tvary na rovině gramatické abstrakce (třeba podstatné jména rodu ženského ve 3. pádě, nebo slovesa v přítomném čase v první osobě)? A připravit si otázky, na něž byste rádi znali odpověď (souvisí s korpusy!!)