CPA, PDEV, SA, LCP, LFP Vít Baisa seminář NLP listopad 2012 1 N v í s 1 i c t L o H O ZV Oíí v 2,a 11 Á.yÁNI VÍC Batsa (seminár NLP) CPA, PDEV. SA, LCP, LFP listopad 2012 CPA a PDEV o aktuálně projekt DVC - disambiguation of verbs by collocations » http://clg.wlv.ac.uk/projects/DVC/ » Mitkov, Hanks, Orasan (Wolverhampton) o role Fl: technická podpora, hosting, vývoj nového rozhraní o role Wolverhamptonu: lexikografická anotace Vit Baisa (seminář N LP} CPA, PDEV, SA. LCP, LFP listopad 2012 2/6 CPA - anotace slovesa zlomit 9 anotace v czes2 9 dělá se většinou sample (250-500) « anotace špatně označkovaných dat x o anotace patternů o sémantické typy se do ontológie přidávají pouze tehdy, kdy pomáhají rozlišit dva různé významy (patterny) o pod kategorie s, a, f, w Vít Baisa (seminář NLP) CPA, PDEV. SA, LCP. LFP listopad 2012 3 Jazykový a překladový model pomocí SA, LCP a LFP o Potřebuji pro libovolný řetězec v textu s četností > n seznam všech po něm následujících řetězců s četností > n a seznam po těchto řetězcích následujících řetězců s četností > n. » Pokud se vyskytuje řetězec více jak nx, je to jedna paměťová jednotka chunk. o m (3) po sobě následujících chunků - pracovnípaměi. » SA - suffix array » LCP - longest common prefix o LFPn - longest frequent prefix « revSA - reverse suffix array Vít Baisa (seminář NLP) CPA, PDEV, SA, LCP, LFP listopad 2012 Překladový model o SA, LCP a LFP o explicitní hranice mezi jazyky v datech « krást [ to steal || zmatený | confused || děláš | you are doing Vit Baisa (seminár NLP) CPA, PDEV. SA. LCP. LFP listopad 2012 5/6 Vit Baisa (seminář NLP) CPA, PDEV. SA. LCP, LFP listopad 2012