K. Osolsobě Výuka: od 26. 2. 2024 každých 14 dní kontaktní, každých 14 dní úkol (viz harmonogram) Podmínky ukončení: Průběžné plnění úkolů (5 odevzdaných úkolů, závěrečný test). Náplň dnešní hodiny 26. 2. 2022 Co je to korpus? - Soubor textů - elektronicky uložených a přístupných (korpusové manažery – programy, skrze něž lze ke korpusům přistupovat) - má stanovený obsah (složený z textů záměrně vybraných dle zveřejněných kritérií) - má stanovený rozsah/velikost (lze na něm pracovat s frekvenčními/kvantitativně měřitelnými údaji) - obsahuje standardní anotace (metadata – údaje o každém textu a lingvistické interpretace, anotace jazykových jednotek – vnitřní anotace) Registrace uživatele pro práci s ČNK (http://ucnk.ff.cuni.cz/) Korpusový manažer Základy práce s korpusem přes Kontext KonText Dotaz Výběr korpusu https://wiki.korpus.cz/doku.php/cnk:uvod Jaké korpusy jsou k dispozici ? Časové hledisko (synchronní / diachronní) Hledisko textů (psané / mluvené, připravené/spontánní) Hledisko žánru (vyvážené žánrově/ žánrově kompaktní – např. korpusy výhradně publicistické, nebo korpus soukromé korespondence, projekt Korpus českého verše). Hledisko autora (autoři jsou rodilí mluvčí/ autoři se učí jazyk, v němž jsou texty vytvořeny jako tzv. druhý jazyk – learner corpora/žákovské korpusy, autorské korpusy založené na díle/korespondenci význačných osobností). Hledisko jazyka (jednojazyčné – např. čeština/ vícejazyčné, srovnatelné, paralelní). Vícejazyčné paralelní korpusy – stejné texty – originál+překlad – zarovnaní/alignment = jednotky, které si odpovídají, jsou propojeny / srovnatelné korpusy – různojazyčné i stejného jazyka vybudované stejným způsobem, mající stejné složení). Jak čteme informace o zvoleném korpusu? Proč je třeba citovat korpusy? Korpusy ÚČNK vznikly jako výsledek státní podporu GAČR. V korpusech jsou texty, které mnohdy spadají pod autorská práva. ÚČNK poskytl smluvní garance „poskytovatelům textů“. Jak číst informace o velikosti korpusu: Termíny: viz http://wiki.korpus.cz/doku.php http://wiki.korpus.cz/doku.php/pojmy:prehled_pojmu Tokenizace Token je nejmenší jednotka textu, většinou se jedná o grafické slovo (tj. řetězec alfabetických znaků oddělený mezerou v textu), resp. o jednu jeho konkrétní realizaci. V některých případech je jedno grafické slovo rozděleno na dvě (např. mohu -li), často je také z praktických důvodů (pro snadné vyhledávání) oddělována interpunkce od předcházejícího slova (3 tokeny: řekl , že). O jednotlivých tokenech v korpusu se také mluví jako o pozicích. Všimněme si: Pro rodilého mluvčího je zvratné se součástí reflexiva tantum ptát se. Pro automatickou morfologickou analýzu jde o dva samostatné tokeny. Pozice V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem tokenizace, se o jednotkách v korpusu nemluví jako o slovech, ale častěji jako o pozicích. Tokenizace se přitom u jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená jednotka. Lemmatizace a taggování Lemma je reprezentativní slovníková podoba hesla, při automatickém zpracování jazyka je pak tato podoba v procesu lemmatizace přidělována každé formě v korpusu. Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že ● lemma každého českého substantiva je jeho nom. sg. (tvary lesům, lesy, lesích mají lemma les) ● u adjektiv je to nom. sg. mask.pozitiv (tvary chytrého, chytrou, chytrejma, nejchytřejší mají lemma chytrý) ● u zájmen je to nom. sg. mask. (tvary ta, to, ti, tomu mají lemma ten) ● u sloves je to infinitiv (tvary chodil, chodíš, chodíme mají lemma chodit) Lemma jako jednotka vzniká abstrakcí morfologických vlastností slovního tvaru (označovaného jako word nebo forma), představuje tedy množinu forem se stejným kořenem lišící se pouze morfologickými afixy, příp. pravopisnou variantou. V některých koncepcích se pak k lemmatu řadí i vybrané varianty slovotvorné. Představme si následující dialog, která z variant je podle vás více na místě, A nebo B? A - No víš, viděl jsem takovou fuškunkuli a ona ti měla na hlavě takovou kumušinku paškovanou a ona si ji ještě vygárovala. - Co je to fuškunkuli a kumušinku paškovanou? A co je to vygárovala? B - No víš, viděl jsem takovou fuškunkuli a ona ti měla na hlavě takovou kumušinku paškovanou a ona si ji ještě vygárovala. - Co je to fuškunkule a kumušinkule paškovaná? A co je to vygárovat? Uvědomte si, že lemmatizace je činnost, kterou dnes automaticky provádí řada nástrojů od vyhledávačů na webu přes on-line slovníky. Jde ale o schopnost, kterou nabývá i dítě během akvizice jazyka, kterou má mluvčí, když se dotazuje na neznámé slovo, kterou aplikujeme, když hledáme v cizojazyčném slovníku (např. význam tvaru went nenajdeme ve slovníku angličtiny pod w, ale pod g). Desambiguace Desambiguace (někdy též disambiguace, z lat. dis- vyjadřuje zápor, ambo oba, česky zjednoznačnění) je část (většinou automatického) procesu anotace jazykových dat, které vstupují do korpusu. Zjednoznačněním se většinou myslí odstranění homonymie, čili jednoznačná interpretace slovního tvaru či skupiny slovních tvarů nebo věty na základě kontextu či mimojazykové situace. Desambiguace se obecně týká všech jazykových rovin, nejčastěji se ovšem v korpusech češtiny uplatňuje na rovině morfologické (zahrnující lemmatizaci a přiřazení náležitých morfologických údajů slovnímu tvaru na základě kontextu). Např. ve větě Větry vanou od západu. se při morfologické interpretaci věty nejprve přiřadí morfologickou analýzou tvaru vanou dvě lemmata a dvě morfologické interpretace: 1. lemma = vana, subst. fem. sg. instr. 2. lemma = vát, 3. os. pl. préz, a poté se při desambiguaci vybere náležitá 2. interpretace. V následujících větách si všimněte, jak je třeba nejednoznačný tvar sil, který lze interpretovat jako a) genitiv plurálu feminina k lemmatu síla, b) genitiv plurálu neutra k lemmatu silo, c) variantní tvar l-ového příčestí maskulina singuláru slovesa sít. a) Podle jeho názorů je internet jednou ze sil, která dostala Ameriku na špici b) Z jednoho ze sil začala náhle tryskat čpící tekutina a ocelová konstrukce jedné z věží se zhroutila. c) Raná variační fantazie na lidový nápěv Sil jsem proso dala oběma protagonistům možnost ukázat jejich virtuozitu. Někdy může být situace dosti složitá: Odstupující ministr informatiky Vladimír Mlynář podle serveru iDNES odmítl nabídku premiéra Grosse stát se šéfem Českého telekomunikačního úřadu. Potřeboval stát se svým zločineckým gangem. Jaké přednosti má lemmatizovaný a morfologicky označkovaný korpus? Možnosti vyhledávání v korpusu: Nabídka výchozího atributu je závislá na konkrétním korpusu, na použité lemmatizaci a značkování. Regulární výrazy (http://wiki.korpus.cz/doku.php/pojmy:regularni_vyrazy) Konkordance, KWIC Konkordance představuje všechny doklady (výskyty) hledaného jevu v korpusu spolu s okolním kontextem. V praxi se v rámci konkordance rozlišuje KWIC (tj. key word in context), tedy hledané slovo/jev a jeho pravý a levý kontext. Jeden řádek konkordančního seznamu se označuje jako konkordanční řádek. Zobrazení KWIC/Věta Korpusová nastavení (Lemma, POS – part of speech) Metainformace Kompletní info o zdrojovém textu: