KLÁRA OSOLSOBĚ OSOLSOBE@PHIL.MUNI.CZ G 32 9.10-10.50 DO1 1 Jazykové korpusy (lingvistika, filologie, výuka jazyků) O čem budeme mluvit DO1 2 —Krátký historický exkurz —Definice korpusu v moderním slova smyslu —Dva metodologické přístupy k vytěžování korpusu —Dva pohledy na korpus (lingvista a informatik) —Filologie a korpusy —Výuka jazyků a korpusy Krátký historický exkurz DO1 3 —Myšlenka korpusu —Korpusová lingvistika – empirická disciplína —Data a introspekce —Technický pokrok Konkordance – KWIC(Key Word In Context) DO1 4 PSJČ DO1 5 SEU (SURVEY OF ENGLISH USAGE) DO1 6 BROWN CORPUS W. Nelson Francis - Henry Kucera DO1 7 —1964 —1. elektronicky zpracovaný korpus —1 milion slovních tvarů —britská a americká angličtina —pečlivý výběr textů —vzorky Definice korpusu v moderním slova smyslu DO1 8 —Elektronické uložení —Elektronická přístupnost —Definovaný obsah (ČEHO) a rozsah (KOLIK) —Standardní anotace – metada a interpretace jazykových jednotek —Rychlost, spolehlivost a opakovatelnost vyhledávání a kvantifikace nalezeného Dva metodologické přístupy k vytěžování korpusu DO1 9 —Corpus based / korpusem ověřovaný, na korpusu založený výzkum —Pravidlo/výjimka – otevřený/uzavřený seznam, frekvence —Corpus driven / korpusem inspirovaný výzkum, korpusem řízený výzkum —Výzkum kolokací /lexical bundles — Maskulina mají v češtině v gen. pl. koncovku –ů (pánů, hradů, mužů, strojů, předsedů, soudců). Z tohoto pravidla existují výjimky. Které? Kolik? [lc!=".*ů" & tag="NN[MI]P2.*"] DO1 10 Jaké je mínění o Češích? Kolokace na pozici 1-3 vpravo od KWIC <Češi jsou> seřazené podle míry MI-score DO1 11 Dva pohledy na korpus (lingvista a informatik) DO1 12 —Nástroje NLP a korpusy —Konverzní programy, vertikál, tokenizér —Korpusové manažery —Automatické analyzátory —Lingvistické interpretace v korpusech Vyhledání slovního tvaru jít DO1 13 Vyhledání lemmatu jít (KWIC+lemma+tag) DO1 14 desambiguace DO1 15 —Pánové, nežeňte se. —Nemluv a rožni. —Jan je osel. Víceznačné tvary DO1 16 —nežeňte/(ne)hnat/V —nežeňte/(ne)ženit/V —se/se/P —se/s/R —rožni/rožnit/V —rožni/rozžehnout/V —rožni/rožeň/N —je/být/V —je/on/P —osel/osel/N —osel/osít/V hnát/ženit DO1 17 být/on DO1 18 rožeň/rožnit/rozžehnout DO1 19 Filologie a korpusy DO1 20 —Obecné a specializované korpusy —Příklady z českého prostředí —Tvorba vlastního korpusu ÚČNK http://ucnk.ff.cuni.cz/cs/ DO1 21 —akademický projekt 1994 —systematicky mapuje češtinu i další jazyky —po bezplatné registraci otevřeny všem zájemcům Korpusy ÚČNK https://kontext.korpus.cz/first_form?corpname=omezeni%2Fsyn2015 DO1 22 Specializovaný - příklad DO1 23 —Korpus Jerome je jednojazyčný srovnatelný korpus (monolingual comparable corpus) speciálně sestavený pro zkoumání překladové češtiny (tedy textů přeložených do češtiny z jiných jazyků) v porovnání s češtinou nepřekladovou (původní česky psanou). autorský DO1 24 —Karel Čapek —Bohumil Hrabal —Korespondence Karla Havlíčka Borovského Tvorba vlastního korpusu - DIY DO1 25 —https://nlp.fi.muni.cz/cs/JakVytvoritKorpus1 —https://ske.fi.muni.cz/auth/create_corpus/ — — Výuka jazyků a korpusy DO1 26 —Metoda DDL (Tim Johnes) —Žákovské korpusy (Learner Corpora) —Učebnicové korpusy Žákovské korpusy DO1 27 —Texty mluvčích L2 —Výzkum interlanguage —Zpětná vazba na základě analýzy chyb —Sledování růstu jazykových kompetencí Učebnicový korpus Učko DO1 28 — chodit do/na (porovnání obecného a učebnicového korpusu) DO1 29 Závěr DO1 30 —Historie a současnost – technický pokrok a metodologické přístupy —Rychlost- spolehlivost – opakovatelnost experimentu —Zdroje nespolehlivosti —Co je k dispozici a co si mohu sám udělat —Na co nezbyl čas Děkuji vám za pozornost DO1 31