Aktuální úkoly v získávání dat, Corpus Architect Vft Suchomel Natural Language Processing Centre Faculty of Informatics Masaryk University 4. prosince 2012 K"XfX european mm I social fund in Uie HUH teP' "vsii-' U c/ud- ropuDlia luhopowiu'BON DP Education (Of C Li T;;j,i!.!-.■>' I- INVESTMENTS IN EDUCATION DEVELOPMENT o Corpus Architect - konference Gramatika a korpus o Corpus Architect - extrakce termů o seznamy slov z matematických dokumentů o czTenTenl2 o prezentace 30. 11. o narozdíl od ostatních není výzkum o narozdíl od ostatních mnoho dotazů o zájem UPOL (korpusy, czTenTenl2, zabudované značkování) o zájem o rozhraní k paralelním korpusům o již brzy :-) o testovací verze na http;//ske. f i .tnuui. cz o chceme volitelný prevod do pražské notace značek? dvojice slov ve skečových relacích základ naprogramoval Honza P., dokončil jsem já commonest match - Vítek B. ukázky Seznamy slov z matematických dokument o pro EUDML k lepšímu rozpoznávání znaků o počáteční slova —> WebBootCaT —> wordlist o počáteční slova z 2010 Mathematics Subject Classification ... 41 množin slov o cca. 800 dotazů do Bingu .. .5093 dokumenty, 31.5 M tokenů extrakce klíčových slov ze stávajících dokumentů v EUDML překlad MSC o včetně skečů o slovo "rozhlas" je lemmatizováno jako "rozhlásit" jen v 5% případů o "přede vším" již není lemmatizováno "příst vši" o zkoušejte na http://ske.fi.muni.cz