GAK – CJBB84 čt. 12.30-14.00 6.10.2011 Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek lZákladní vyhledávání v korpusu lObsah: Vyhledávání tvaru slova nebo slovního spojení Vyhledávání podle atributu lc (lowercase) Vyhledávání podle atributu lemma Vyhledávání podle atributu tag (morfologická značka) Nastavení implicitního atributu Hledání v rámci jedné věty vyhledejte v korpusu SYN2010 lslovní tvar hnát llemma hnát lvšechna slovesa v infinitivu lvšechna slovesa na -át Otázky lPomocí funkce statistik zjistěte, jak je v korpusu SYN rozložen poměr tvarů slovních druhů u slovního tvaru hnát a u lemmatu hnát. lPokuste se pomocí P-filtru získat seznam slovesných/substantivních tvarů a zjistěte, jaká je chybovost značkování. l Možnost vyhledávat tvar bez použití morfologické značky lJak vyhledat tvary infinitivu bez morfologické značky ? lHledání pomocí formy – na co v češtině končí infinitiv ? l Zakončení l-t l-ti l-ci l-ct Je možná nějaká přesnější specifikace ? l.*t (? život, dost, opět, část, procent, ...) l.*ti (? proti, ti, společnosti, děti, části, ...) l.*ci (?práci, věci, noci, ulici, rámci, ...) l.*ct (?patnáct, dvanáct, čtrnáct, jedenáct, ...) Jak ? lExistují nějaká předpověditelná tvrzení týkající se toho, co může/nemůže stát před -t, -ti, -ci, -ct ? lCo nám může pomoci ? lGramatika lPozorování korpusových dat Co předchází ? lV lC V lat, át let, ět, ét lit, ít lot, ót lut, ůt lyt, ýt C l.*[cčdďfghjklmnňpqrřsštťvwxzž]t l.*[cčdďfghjklmnňpqrřsštťvwxzž]ti l Co předchází ? lKmV lKoV v případě otevřeného kořene (s 0 KmV) lfinála uzavřeného kořene KmV infinitivu : gramatika nebo náhoda ldělat, ?zvířat, ?stát, ?tentokrát l?let slyšet ?opět, ?pět, ?estét lmít, ?pocit, mluvit, ?sít l?život, ?kvót l?minut, dosáhnout, ?aut, ?lhůt lbýt, ?byt, ?Kamarýt l KoV lIII. třída vzor krýt latematická slovesa finála kořene lI. třída vzor nést lI. třída vzor péci dotaz l.*[aáeěiíý]t|.*out l.*[aáeěiíý]ti|.*outi l l l A co lhřbet linternet lkaret lret lcigaret lkvartet lkulomet ? lExistují nějaká další omezení ? lTýkají se všech V v roli KmV/Kov ? Dotaz l.*[aáeěiíý]t|.*out l.*[aáeěiíý]ti|.*outi lN-filtr l.*[bpfvmdtnr]et l.*[bpfvmdtnr]eti l Dotaz l.*[szc]t l.*[szc]ti lN-filtr l.*[cčdďfghjklmnňpqrřsštťvwxzžaeěioóúy][szc]t l.*[cčdďfghjklmnňpqrřsštťvwxzžaeěioóúy][szc]ti l l Všimněme si l.*náct lnárůst Gramatika lUzavřené a otevřené třídy Samostatné řešení úkolů z morfologie a tvoření slov lStejným způsobem popište postup, který může pomoci při vyhledávání l-ových příčestí. lPomocí analogických strategií lze vyhledávat také podstatná jména slovesná na ní/tí. Popište jak.