PA153 Natural Language Processing 10 - Manic Miners (topic mining, opinion mining, named entity recognition) Karel Pala, Zuzana Nevěřilová Centrum ZPJ, Fl MU, Brno 13. ledna 2020 Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 1/24 Q Text Analysis "without Analysis' Q Topic Recognition Q Named Entity Recognition Q Opinion Mining Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing Text Analysis "without Analysis" The idea: we can extract information about text without any deep analysis, e.g. text encoding, text length, language, number of paragraphs, lines, words . .. Can we extract information about meaning without any deep analysis? 10 - Manic Miners 3 Text Analysis "without Analysis" The idea: we can extract information about text without any deep analysis, e.g. text encoding, text length, language, number of paragraphs, lines, words . .. Can we extract information about meaning without any deep analysis? Yes but . .. 10 - Manic Miners 3 Text Analysis "without Analysis": why? Typical text analysis proceeds on several levels: text segmentation (sentences, tokens), morphological analysis, tagging, clause recognition, syntactic parsing, lexical analysis, logical analysis, semantic analysis Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 4/24 Text Analysis "without Analysis": why? Typical text analysis proceeds on several levels: text segmentation (sentences, tokens), morphological analysis, tagging, clause recognition, syntactic parsing, lexical analysis, logical analysis, semantic analysis • no task is 100%, errors propagate to subsequent analyses each level contains phenomena that are hard to cover • not all tasks contribute equally to solving a problem • many levels = many applications, sometimes processor/memory demanding Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 4/24 Text Analysis "without Analysis": advantages 9 we focus on a particular problem • find solution for that particular problem with a certain (high) accuracy • the tailored solution is very often better/cheaper/faster/more accurate than a general pipeline Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 5/24 Text Analysis "without Analysis": general approaches • some parts of the text are more important than others o we can identify the important ones and focus only on them 10 - Manic Mine Text Analysis "without Analysis": general approaches • some parts of the text are more important than others • we can identify the important ones and focus only on them stoplists, frequency metric TF-IDF, co-occurrence metrics (e.g. pointwise mutual information, PMI), ... tokenization, POS-tagging, normalization (lowercase, punctuation removal, ...) Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 6/24 Topic Recognition (Rozpoznávaní témat) Čistý zisk energetické společnosti ČEZ za tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun. Tržby se meziročně snížily o 0,3 procenta na 161,9 miliardy korun. Hlavním důvodem poklesu byly odpisy aktiv kvůli regulacím evropského energetického sektoru a související snižování velkoobchodních cen elektřiny , sdělila firma . Výsledekje tak výrazně pod očekáváním. Analytici totiž předpokládali, že čistý zisk ČEZ stoupne o víc než čtyři procenta na 34,8 miliardy korun. Společnost také oznámila, že kvůli snížení velkoobchodních cen elektřiny a regulatorním zásahům do evropského energetického sektoru snížila celoroční výhled čistého zisku na 35 miliard korun . Původně počítala s výsledkem o 2,5 miliardy vyšším.11 Očekávané celoroční výsledky hospodaření ČEZ odrážejí současný stav energetiky v Evropě . Fakt, že na naše výsledky tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitřní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneš . Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 7/24 Topic Recognition (Rozpoznávaní témat) stý_ ?! s k en e rg et[cké s pq I e čno st[ C ^2 za tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun, tržby se meziročně snížily o 0,3 procenta na 161 ^miliardy _ kqrun._ Hlavní m důvodem poklesu byly qdp i syakti v kvůli _reg_ujacím evropského fenerg etického sekioruj a související snižování Velkoobchodní , sdělila jfirm_ai. Výsledek je tak výrazně^ od o čeká váním. Analytici "totiž předpokládali, že čistý zisk ČEŽ stoupne o víc než ^/hPrpc?nta:_na 34,8 miliardy korun. Společnost také oznámila, že kvůli _s_nížení....... y e I ko q beh od ní ch_ cen e l_e_ ktri ny, a re g u I ato rn írn zä_ s ah um do e yrop s ké h o >e n e rg etické ho seŕäoru] snížila celoroční vyhleď či sté ho _zj _s kujná 3 5 mi I i _a_ rd _kq_r_u_ n:_._ P uvq d n ě pq číta la s výs I e d ke m o 2,5 m i I i a r dy yy š š ím_.1' ;Qčekáy ané ceíqr oční_ výsledky jiosp od a rení CÉŽ o d rážej í současný stav energetiky y Eyrqpěj. Fakt", že na naše výsledky "tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitrní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneš. Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 7/24 Topic Recognition (Rozpoznávání témat) o keyword extraction (extrakce klíčových slov) • keyphrase extraction (extrakce klíčových frází) • classification to pre-defined categories (e.g. sports, politics, hobbies.. .) Datasets with predefined categories: 20 newsgroups, Reuters Classification into unknown groups = clustering unsupervised approaches (k-nearest neighbors, Latent Dirichlet Allocation - LDA, ...) 10 - Manic Miners 8 Topic Recognition (Rozpoznávání témat) o keyword extraction (extrakce klíčových slov) • keyphrase extraction (extrakce klíčových frází) • classification to pre-defined categories (e.g. sports, politics, hobbies.. .) Datasets with predefined categories: 20 newsgroups, Reuters Classification into unknown groups = clustering unsupervised approaches (k-nearest neighbors, Latent Dirichlet Allocation - LDA, ...) 10 - Manic Miners 8 Keyword Extraction: common approaches • statistical: need of reference corpus ► word frequency ► word collocations and co-occurrences ► TF-IDF (short for term frequency-inverse document frequency) ► RAKE (Rapid Automatic Keyword Extraction) [Rose et al., 2010] • deep learning: need of training data Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 9/24 Keyphrase Extraction • similar task as the keyword extraction • key n-grams (1 word = unigram, 2 words = bigram) 9 compare n-gram frequencies with those in the reference corpus • n-gram frequencies are not comparable for different ns more language dependent than keyword extraction 10 - Manic Miners Keyphrase Extraction, To P icks project O input text is a (short) corpus O a small Czech corpus (Czes2) is a reference corpus Q partial syntactic analysis searches for noun phrases (NP): keyphrase candidates O score candidate phrases: n-gram frequency in input corpus / n-gram frequency in reference corpus 9 convert NPs to nominative O boost candidate score with subphrase score boost candidate score if contains named entities 0 unboost candidate score if contains numbers or it is too short 10 - Manic Miners 11 To| PI icks: language (in)dependency • we assume tokens (text tokenization is weakly language dependent) • we measure n-gram lemmata (lemmatization is language dependent) 9 frequency ratio (reference corpus of a particular langauge needed) • partial syntactic analysis (NP patterns are language dependent) • named entity recognition (partially language dependent) • no complete NLP pipeline o no explicit semantic analysis Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 12 / 24 To| PI icks: evaluation PJ^.^sk energetické spo^r^i CEŽza tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun, tržby se meziročně snížily o 0,3 procenta na 161_i9_mijia_rdy_ koru_n._ Hlavní m důvodem p o kl esu byly g dp [sy_ aktj y_ kyul i re gul a cím evropského ten erg etické ho sekioru! a související snižování teíkqobchod nich cenejetóřjnjf , sdělila jfirmaj. Výsledek je tak výrazně gid o čeká váním. Analytici "totiž předpokládali, že čistý zisk ČÉŽ stoupne o víc než L^Xn.Pr?.??/!^.1]?. A42?_II1!']?.r.^¥ konjn- Společnost také oznámila, že kvůli snížení....... Jí? ^99. ^ Ďpďnj ch_ cen e le ktri ny, a re g u I ato rn írn zá_ s ah um do e y rap s ké h o >e n e rg etické ho seíšo/u] snížila celoroční výhleď či sté ho _zj _s kujná 3 5 mi I i _a_ r ď _ko r u n:_._ P uyo ď n é po číta la s výs I e ď ke m o 2,5 m i I i a rdy yy š:š im. _'' ;Ôčekáy ané celoroční yýsled ky liqsp qd a rení CÉZi o d rážej í současný stav energetiky V Eyropěj. Fakt", že na naše výsledky "tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitrní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneši. What is a good keyphase? in general: is the output of the program correct? i keyword/key p h rase detection is not a precisely formulated problem i how to measure difference between the output and the gold standard Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 13 / 24 Named Entity Recognition (rozpoznávání pojmenovaných entit) named entity = person name, location, organization, product name, brand name, artwork, date, time • often uppercase (counterexample: German, Arabic) • often several words (overlap with tasks concerning multi-word expressions, MWE) a often contains foreign words • often contain non-words (e.g. AK-47) Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 14 / 24 Named Entity Recognition: motivation(s) Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 15 / 24 Named Entity Recognition: motivation(s) Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 15 / 24 Named Entity Recognition: motivation(s) Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) / read I served the king of England and I watched it in the cinema. Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 15 / 24 Named Entity Recognition: motivation(s) Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) / read I served the king of England and I watched it in the cinema. Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 15 / 24 Named Entity Recognition: approaches • gazetteers ► list of person names (baby name suggestion sites, name statistics) ► list of location (post offices, Open Street Map) ► company register (Czech ARES) ► artwork listings (IMDB, CSFD, Goodreads, Databáze knih) ► product lists (Heureka.cz, Seznam zboží, Amazon, e-bay) • patterns in texts: e.g. acronym definitions, operating system (OS) • patterns in particular types of text: e.g. Mr. X, CTO of Y, ... ► Association for ... ► Urad pro ... o machine learning approaches: conditional random fields (CRFs) • deep learning: gazetteer information + CRFs incorporated into the neural network Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 16 / 24 Named Entity Recognition: approaches • gazetteers ► list of person names (baby name suggestion sites, name statistics) ► list of location (post offices, Open Street Map) ► company register (Czech ARES) ► artwork listings (IMDB, CSFD, Goodreads, Databáze knih) ► product lists (Heureka.cz, Seznam zboží, Amazon, e-bay) • patterns in texts: e.g. acronym definitions, operating system (OS) • patterns in particular types of text: e.g. Mr. X, CTO of Y, ... ► Association for ... ► Urad pro ... o machine learning approaches: conditional random fields (CRFs) • deep learning: gazetteer information + CRFs incorporated into the neural network Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 16 / 24 Named Entity Recognition: approaches • gazetteers ► list of person names (baby name suggestion sites, name statistics) ► list of location (post offices, Open Street Map) ► company register (Czech ARES) ► artwork listings (IMDB, CSFD, Goodreads, Databáze knih) ► product lists (Heureka.cz, Seznam zboží, Amazon, e-bay) • patterns in texts: e.g. acronym definitions, operating system (OS) • patterns in particular types of text: e.g. Mr. X, CTO of Y, ... ► Association for ... ► Urad pro ... o machine learning approaches: conditional random fields (CRFs) • deep learning: gazetteer information + CRFs incorporated into the neural network Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 16 / 24 Named Entity Recognition: approaches • gazetteers ► list of person names (baby name suggestion sites, name statistics) ► list of location (post offices, Open Street Map) ► company register (Czech ARES) ► artwork listings (IMDB, CSFD, Goodreads, Databáze knih) ► product lists (Heureka.cz, Seznam zboží, Amazon, e-bay) • patterns in texts: e.g. acronym definitions, operating system (OS) • patterns in particular types of text: e.g. Mr. X, CTO of Y, ... ► Association for ... ► Urad pro ... 9 machine learning approaches: conditional random fields (CRFs) • deep learning: gazetteer information + CRFs incorporated into the neural network Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 16 / 24 Named Entity Recognition: approaches • gazetteers ► list of person names (baby name suggestion sites, name statistics) ► list of location (post offices, Open Street Map) ► company register (Czech ARES) ► artwork listings (IMDB, CSFD, Goodreads, Databáze knih) ► product lists (Heureka.cz, Seznam zboží, Amazon, e-bay) • patterns in texts: e.g. acronym definitions, operating system (OS) • patterns in particular types of text: e.g. Mr. X, CTO of Y, ... ► Association for ... ► Urad pro ... o machine learning approaches: conditional random fields (CRFs) • deep learning: gazetteer information + CRFs incorporated into the neural network Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 16 / 24 Named Entity Recognition in Czech: project CNER • list of given names and family names (in all cases) • list of named entities from Wikipedia (mostly nominative) • list of product names from Heureka.cz (nominative only) • list of book/film names • regular expressions (date, time, amount+currency ...) • law identifiers Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 17 / 24 NER Challenges • NE boundary detection • punctuation inside NE (Čtyři vraždy stačí, drahoušku) Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 18 / 24 NER Challenges • NE boundary detection • punctuation inside NE (Čtyři vraždy stačí, drahoušku) 9 NE inflection (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 18 / 24 NER Challenges • NE boundary detection • punctuation inside NE (Čtyři vraždy stačí, drahoušku) 9 NE inflection (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) high ambiguity It is a scary novel by Stephen King. I know it. Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 18 / 24 NER Challenges • NE boundary detection • punctuation inside NE (Čtyři vraždy stačí, drahoušku) 9 NE inflection (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) high ambiguity It is a scary novel by Stephen King. I know it. • NE nesting (The picture of Dorian Gray) Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 18 / 24 NER Challenges • NE boundary detection • punctuation inside NE (Čtyři vraždy stačí, drahoušku) 9 NE inflection (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) high ambiguity It is a scary novel by Stephen King. I know it. • NE nesting (The picture of Dorian Gray) • NE synonymy (Karel Schwarzenberg-Karel Jan Nepomuk Josef Norbert Bedřich Antonín Vratislav Menas kníže ze Schwarzenbergu-Karl Johannes Nepomuk Josef Norbert Friedrich Antonius Wratislaw Mena Fürst zu Schwarzenberg-Sláfenberk) Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 18 / 24 NER Challenges • NE boundary detection • punctuation inside NE (Čtyři vraždy stačí, drahoušku) 9 NE inflection (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) high ambiguity It is a scary novel by Stephen King. I know it. • NE nesting (The picture of Dorian Gray) • NE synonymy (Karel Schwarzenberg-Karel Jan Nepomuk Josef Norbert Bedřich Antonín Vratislav Menas kníže ze Schwarzenbergu-Karl Johannes Nepomuk Josef Norbert Friedrich Antonius Wratislaw Mena Fürst zu Schwarzenberg-Sláfenberk) • homonymy (Queen Elisabeth: person, another person, ship, car, musical band) Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 18 / 24 NER Evaluation: Typical scheme 9 true positives (X is recognized as NE and it is a NE) • true negatives (X is recognized as non-NE and it is not a NE) • false positives (X is recognized as NE but it is not) • false negatives (X is recognized as non-NE but it is a NE) Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 19 / 24 NER Evaluation: Typical scheme 9 true positives (X is recognized as NE and it is a NE) • true negatives (X is recognized as non-NE and it is not a NE) • false positives (X is recognized as NE but it is not) • false negatives (X is recognized as non-NE but it is a NE) confusion matrix (matice záměn): prediction gold standard + — + true positive false negative — false positive true negative Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners NER Evaluation: Typical scheme 9 true positives (X is recognized as NE and it is a NE) • true negatives (X is recognized as non-NE and it is not a NE) • false positives (X is recognized as NE but it is not) • false negatives (X is recognized as non-NE but it is a NE) confusion matrix (matice záměn): prediction gold standard + — + true positive false negative — false positive true negative TP+T/V overall accuracy (celková správnost)\Acc — yp+tn+fp+fn overall error (celková chyba):Err = Tp ^+™p FN Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 19 / 24 NER Evaluation: Typical scheme 9 true positives (X is recognized as NE and it is a NE) • true negatives (X is recognized as non-NE and it is not a NE) • false positives (X is recognized as NE but it is not) • false negatives (X is recognized as non-NE but it is a NE) confusion matrix (matice záměn): prediction gold standard + — + true positive false negative — false positive true negative TP+T/V overall accuracy (celková správnost)\Acc — yp+tn+fp+fn overall error (celková chyba):Err = Tp ^+™p FN precision (přesnost): Tp+FP recall (pokrytí/úplnost): Tp+FN F-measures (F-miry): combination of precision and recall Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 19 / 24 Opinion mining, sentiment analysis: motivations Klidně se nazvou Věci veřejné, slíbí vám transparentnost, antikorupci, žádné dinosaury a již zítra si sednou do vlády s největšími dinosaury, sami iniciují zachování akcií na doručitele a uzavřou ,,veřejnou" tajnou hradní dohodu. Klidně se nazvou TOP - v překladu tradice - odpovědnost -prosperita a do čela si postaví provařeného politického turistu, nejneodpovednější persónu v oblasti financí v politice a sedřou z vás zaživa kO v ■ UZI. • to distinguish fact and opinions (levels of subjectivity) 9 to monitor public opinion Opinion mining: methods o key phrases detection: politika, odpovědnost, dinosaurus, dohoda o NER: Věci veřejné, TOP • evaluative expressions (hodnotící výrazy): provařený, nejneodpovednější, tajný, dinosaurus, persona, sedřít kůži zaživa • partial syntactic analysis: to assign opinion to the right target Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 21 / 24 Opinion Mining: sentiment lexicons positive: awesome, cool, great, beautiful, amazing, advantage, improve negative: stupid, over-complicated, break, lose, difficult, bad neutral, evaluative in particular contexts: thin (phone vs. steak), economy He: Do you want to go get some dinner on Friday night? You: Not with this economy1 Bing Liu's Sentiment Lexicon: https: //www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon challenges • the target of the evaluation • multiple targets with different sentiment • evaluative neologisms • sarcasm 1https://www.urbandictionary.com/define.php?term=Economy nSHRiPSHil WiSteQEM I^TEEf lO - Manic Miners 22 Conclusion: Extraction of * from texts • without complete NLP pipeline 9 tailored to needs of a particular NLP task o rule-based, statistical, machine learning, deep learning methods • different degree of language dependency • difficult to evaluate (difficult to set the correct output for all inputs) Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 23 / 24 Odkazy I Diatelová, I. (2013 [cit. 2013-11-24]). Urálivé, vulgární a rasistické projevy na internetových diskusních fórech [online]. Bakalá0ská práce, Masarykova univerzita, Filozofická fakulta. Liu, B. (2004-2012). Opinion mining, sentiment analysis, and opinion spam detection, http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html Rose, S., Engel, D., Cramer, N., and Cowley, W. (2010). Automatic Keyword Extraction from Individual Documents, pages 1 - 20. Karel Pala, Zuzana Nevěřilová PA153 Natural Language Processing 10 - Manic Miners 24