Základy využití korpusu v praxi cjbb75

Středa: 9.10-10.50 G13

3. 5. 2017:

ŘEŠENÍ

1.       Končí-li tvar slova v češtině na –ové, pak jde nutně o tvar životného maskulina. Platí
toto tvrzení ? Odpovězte nejdříve, a pak ověřte svoji odpověď v korpusu SYN2015. Součástí odpovědi
musí být formulace dotazu, pomocí kterého byla získána data, na jejichž základě odpovídáte.

Neplatí, protože toto zakončení mají pravidelně tvary adjektiv s lemmatem na .*ový. Pokud zadáme
dotaz [lc=".*ové"], zjistíme, přes frekvenci pos, že jsme se nemýlili a že tvary adjektivní flexe,
a s nimi i zakončení –ové mají i slova tagovaná jako zájmena (takové) a číslovky
(třináctimilionový).


2.       Dokažte, že není třeba, abyste věděli, co označuje vyžlucené substantivum (abyste četli H.
Pottera) k tomu, abyste byli schopni na základě zadání samého vyřešit následující úkol.        Na
základě uvedených vět určete rod a vzor vyžluceného substantiva.

Mudlové (v originále Muggles) je označení pro lidi, kteří neumí kouzlit a jsou nekouzelnické nebo
smíšení krve.  Mudla je tu pro vás.

Maskulinum vzoru předseda. Ve druhé věte je tvar nom. sg. a v první nom. pl., obojí lze vyčíst ze
syntaktické role, kterou plní. V prvním případě by teoreticky mohlo jít o adjektivum (viz výše),
ale vzhledem k tomu, že v závorce je tvar, ktyrý má morfologický příznak angl. pl. substantiv –s,
lze tuto možnost vyloučit.

Možnost 2: jde o různá lemmata:

Pak se v první větě jedná o slovo podle předseda a ve druhé podle předseda a/nebo žena.

3.       Hláska e má v češtině dvě grafické realizace: e/ě. Existuje český slovesný tvar, který
končí na grafickou realizaci ě? Odpovězte nejdříve, a pak ověřte svoji odpověď v korpusu SYN2015.
Součástí odpovědi musí být formulace dotazu, pomocí kterého byla získána data, na jejichž základě
odpovídáte.

Pokud jste odpověděli NE, tak je to špatně. Pokud ANO, ale nevím, a pak jste zadali dotaz:
[tag="V.*" & lc=".*ě"], pak jste patrně zjistili, že jde buď o tvary přechodníků (nemluvě, nechtě,
…), ale narazili jste i na tvar určitý (stůně). N-filtrem jste přechodníky odstranili (N-filtr <0
0> [tag="Ve.*"] a zjistili jste, že automatická analýza patrně rozpoznává potenciální
(nekodifikované tvary) přechodníků přítomných od dokonavých sloves, které ovšem značkuje jako
přechodníky minulé. N-filtrem jste přechodníky odstranili (N-filtr <0 0> [tag="Vm.*"] a zjistili
jste, že v korpusu SYN2015 se vyskytuje pouze jeden kořen, od něhož určitý tvar slovesa končící na
–ě.

Pokud jste na vše přišli bez korpusu, gratuluju.


4.       Místo vašich schůzek sis měl lépe vybírat. Kolik interpretací má slovní tvar místo
v uvedené větě? Podívejte se do korpusu SYN2000 a zjistěte, jak jsou desambiguovány interpretace
slovního tvaru místo. V případě, že naleznete chybné interpretace, pokuste se navrhnout postum,
kterým byste je detekovali.

Podíváme se např. na případy označkované jako [lc="místo" & tag="R.*"] R (předložka). Vidíme chyby.
Např. případy jako : Naše družstvo nemělo motivaci hrát ve finále, chtělo se poprat o třetí
místo/R.* s Trutnovem. Je jasné, že posloupnost dvou předložek je patrně něco, co by se v jazyce
nemělo vyskytovat. Použijeme P-filtr <1 1> [tag="R.*"]  a podíváme se na nalezené doklady a
všimneme si, že naše intuice není správná, neboť se objevují i správně označkované doklady jako:
Místo/R.* do sněhobílého magnetu míří často střelci do tmavých sítí, různě vzorovaných v klubových
barvách a podobně. Podobně lze vyloučit posloupnost „předložka+sloveso“, tedy P-filtr <1 1>
[tag="V.*"] . Výsledkem je nalezení chyb v desambiguaci.


5.       Názvy zlomků (substantiva tvořená ze základů číslovek základních sufixem –ina, např.
pětina, desetina, dvanáctina, padesátina, …) a názvy jubileí (padesátiny, třicetiny, šestnáctiny,
…) mají část tvarů společných (plurálové tvary), což způsobuje nepříjemnosti, chceme-li mít oba
významy odlišeny na rovině automatické morfologické analýzy. V korpusu SYN2015 vyhledejte
relevantní lemmata a pozorujte chyby v desambiguaci. Navrhněte postup, jak nalézt případy, které by
bylo možné zjednoznačnit na základě blízkého kontextu.

Dotaz, jímž je možné vyhledat deriváty na -ina od číslovkových základů (bez ohledu na to, zda jsou
značkovány jako číslovky, nebo jako substantiva):
[lc=".*(((deset)|(((jeden)|(dva)|(tři)|(čtr)|(pat)|(šest)|(sedm)|(osm)|(devate))(náct))|(((dva)|(tř
i)|(čtyři))(c[áe]t))|(((pa)|(še)|(sedm)|(osm)|(deva))(desát))|(set)|(tisíc)|(mili[oó]nt))in)|(((des
et)|(((jeden)|(dva)|(tři)|(čtr)|(pat)|(šest)|(sedm)|(osm)|(devate))(náct))|(((dva)|(tři)|(čtyři))(c
[áe]t))|(((pa)|(še)|(sedm)|(osm)|(deva))(desát))|(set)|(tisíc)|(mili[oó]nt))in((y)|(ám)|(ách)|(ami)
))"]

Podíváme-li se na seznam lemmat, tak uvidíme mezi frekventovanými lemmaty lemma osmnáctina a
šestnáctina. Podívejme se na kolokační kandidáty (k, jeho, oslavit, sladký), které se vyskytují
v obou případech tam, kde jde o chybnou interpretaci (číslovka dílová Cr).


6.       V české flexi platí pravidlo, které tvrdí, že substantiva skloňovaná podle vzoru růže mají
v genitivu pluláru buď koncovku –í (růži), nebo kocovku –0 (vesnic). Dokázali byste odpověď na
následující otázku, kterou by vám položil někdo, kdo se chce naučit česky (cizinec) a která by
zněla: Znamená to, že se u každého českého slova, které je ženského rodu a končí v nominativu sg.
na –e, musím naučit, jak vypadá jeho tvar v genitivu plurálu, nebo mi můžete ještě pomoci nějakým
dalším rozšířením pravidla uvedeného výše? Odpovězte nejdříve, a pak ověřte svoji odpověď v korpusu
SYN2015. Součástí odpovědi musí být formulace dotazu, pomocí kterého byla získána data, na jejichž
základě odpovídáte.

Odpověď zní? Nikoliv, existuje omezený seznam slov a otevřený seznam slov definovatelných formálně.
Jak oba seznamy získat? Dotazem na korpus: [lemma=".*[eě]" & tag="N.FP2.*" & lc!=".*í"]. Jde o
slova tvořená sufixem –ice (těch je v seznamu nejvíce). Odstraníme je pomocí n-filtru
[lemma=".*ice"]. Dále vidíme substantiva na –yně. Odstraníme je pomocí n-filtru [lemma=".*yně"].
Zbývá  11 lemmat českých substantiv,  která jsou frekventovaná a u nichž je třeba si zapamatovat
výjimku (nulovou koncovku v gen. pl.). Ostatní můžeme popsat formálně (lemma/nom. sg nončí na
–ice/-yně).


7.       Dokázali byste odpověď na následující otázku, kterou by vám položil někdo, kdo se chce
naučit česky (cizinec) a která by zněla: Učil jsem se, jak se tvoří tvar l-ového příčestí od
sloves, který musím znát, abych uměl vytvořit větu v minulém čase a v podmiňovacím způsobu. Všiml
jsem si, že někdo říka, že počítač vypl a někdo, že počítač vypnul. Jak poznám, když se učím nové
sloveso, které má v infinitivu zakončení na –nout, jak má vypadat tvar příčestí? Odpovězte
nejdříve, a pak ověřte svoji odpověď v korpusu SYN2015. Součástí odpovědi musí být formulace
dotazu, pomocí kterého byla získána data, na jejichž základě odpovídáte.

Pokud jste z paměti nevydolovali nějaké poučky o třídách a vzorech, tak můžete rovnou začít hledeat
odpověď v korpusech a porovnat data vzhledaná dotazem [lemma=".*nout" & tag="Vp.*" &
lc=".*(nul)|(nul[aoiy])"] a dotazem [lemma=".*nout" & tag="Vp.*" & lc!=".*(nul)|(nul[aoiy])"].
Možná se vám při pozorování prvního seznamu něco o třídách a vzorech vzbaví. Ne-li, pak se
podívejte, zda nenajdete nějaký společný rys, a to především tehdy, když je vyloučeno, aby tvar měl
i variantu bez –nu-. Mužeme si všimnout, že varianty bez –nu- nemohou mít slovesa, u nichž před
–nu- předchází samohláska (nebo slabičná sonora). Odfiltrujeme je takto. N-filtr <0 0>
[lc=".*[aáeěéiíoóůuyýrlm]((nul)|(nul[aoiy]))"].

Porovnejme seznam lemmat, k nimž jsme našli tvary s –nu-

a bez –nu-


všimněme si sloves vrhnout (1. seznam) a navrhnout (2 seznam) a vyhledejme tvary v korpusu takto:
[lemma=".*vrhnout" & tag="Vp.*"].

(Nástroj SyD).


8.       V rámci publikací ÚČNK vyšla i tato publikace: Cvrček, V., Cvrčková Porkertová, L.: Velký
slovník rýmů. Nakladatelství Lidové noviny, Praha 2011.  Její anotace zní: Příručka rýmů usnadní
psaní jakýchkoli rýmovaných textů, což je úkol, před kterým Slovník rýmù_potah.indd stojí nejen
začínající básníci, ale také autoři písňových textů, reklamních sloganů a mnozí další. Slovník
zároveň může sloužit jako doplňková pomůcka při výuce literární teorie na základních a středních
školách. Svým rozsahem i způsobem zpracování se jedná o unikátní projekt, který na současném
knižním trhu nemá obdoby (posledním takovým pokusem byl Puchmajerův Rýmovník z roku 1824).

Nemáte slovník po ruce. Zaexperimentujte se svojí jazykovou vynalézavostí a s korpusem. Najděte (po
paměti) rýmy slov běhna, loutna, pouť. Vyhledejte v korpusu synv4 doklady, které mohou být rýmem
slova/tvaru a porovnejte svoji jazykovou vynalézavost s tím, co lze najít v korpusu.  Použili jste
jako pomůcku k vyhledávání v paměti nějaký rýmovaný text, který umíte zpaměti? Pokud ano, uvědomte
si, nakolik byl autor textu v otázce rýmu vynelázavý (rýmové slovo má v korpusu velkou – malou –
žádnou frekvenci).


vyhledáme slovní tvary .*[eě]hn[aá], .*ou[td]n[aá], [lc="(.ou[dtďť])|(..ou[dtďť])"]

Hnusím si, nákazy se střehna

vojandu, byť se křížem žehná,

dráždí mne stará vlezlá běhna,

hoch obdivující svá stehna.


Večerem dům zvolna doutná,

k tanci tiše hraje loutna …


Přijela pouť a lidí proud
zaplnil na návsi kdejakej kout
přijela pouť hudba a čmoud
marcipán má zas chuť náramnou
Přijela pouť no a já bloud
srdce tvý perníkem chci odemknout
jestli jseš sám přijeď hned k nám
protože právě dnes pouť u nás začíná


9.       Tabulkové paradigma tvarů by, které v češtině slouží ke tvoření kondicionálu bývá
v českých mluvnicích uvedeno následovně:

osoba

     singulár

             osoba

                  plurál

1.

     bych

             1.

                  bychom

2.

     bys

             2.

                  byste

3.

     by

             3

                  by


Bez komentáře k tabulce, by tudíž následující tvrzení: „Tvar by může být v češtině součástí tvaru
kondicionálu 2. osoby singuláru“ nemělo platit. Platí, nebo neplatí? Pokuste se odpovědět na
základě introspekce. Pokuste si ověřit svoji odpověď v korpusu SYN2015.

Pokud si na základě intrspekce nevíme rady, nezoufejme. Vyhledáme v korpusu tvar by a všimneme si,
že nemá označkováno ani číslo, ani osobu. Pokud by osoba byla nutně 3., pak by tak měla být
označkována. Asi nebude. Pokud Vám to ještě nedošlo, zkuste v kontextu <-1 -1> najít P-filtrem
zájmeno ty [tag="PP.*" & lc="ty"].

A máme pravidlo: Pokud je významové sloveso zvratné, pak při tvoření kondicionálu ve druhé osobě
sg. se užívá tvar by nikoli bys a –s se přimyká k zvratné částici/zájmenu se/si, tedy ses/sis.

Ještě si to ověřme. Vraťe se o krok zpět a vyhledejte v kontextu <1 1> P-filtrem [lc="s[ei] s"].

A zkusme také najít doklad bys s[ei]s a bys s[ei]. Je to správně česky?

A tohle sem nepatří: Nešla bys se mnou do kina.

10.    I když je letec více DiCapriův než Scorseseho film, je zřejmé, že pro Scorseseho, vždy
fascinovaného filmem i zuřivými hrdiny, to byla mnohem více než pouhá zakázka.

Podívejte se na větu z korpusu synv4 Pokuste se najít podobné doklady a zamyslete se nad tím, zda
jde o analytické stupňování subjektově posesivních adjektiv.

Kandidáty můžeme najít jako fráze, na které se ptáme:

[lc="(víc.*)|(méně)|(míň)"][tag="AU.*"][lc="než"], vhodné doklady si označíme: