PA153 Počítačové zpracování přirozeného jazyka 10 - dolování témat, názorů, pojmenovaných entit Karel Pala, Zuzana Nevěřilová Centrum ZPJ, Fl MU, Brno 28. listopadu 2018 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 1/24 Q Analýza „bez analýzy" Q Rozpoznaní klíčových slov a frází Q Rozpoznávaní pojmenovaných entit Q Dolování názorů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Analýza textu ,,bez analýzy" Z textu můžeme získat dost informací bez analýzy obsahu textu (kódování nebo jazyk, délka textu, počet odstavců, počet slov ...). Můžeme získat informace o obsahu bez analýzy obsahu Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 3/24 Analýza textu ,,bez analýzy" Z textu můžeme získat dost informací bez analýzy obsahu textu (kódování nebo jazyk, délka textu, počet odstavců, počet slov ...). Můžeme získat informace o obsahu bez analýzy obsahu? Ano! Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 3/24 Analýza textu: proč? Při analýze obsahu textu: větná segmentace, tokenizace, morfologická desambiguace, rozdělení fráze, syntaktická analýza, lexikálni analýza, lexikálni desambiguace, sémantická analýza Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity Analýza textu: proč? Při analýze obsahu textu: větná segmentace, tokenizace, morfologická desambiguace, rozdělení na fráze, syntaktická analýza, lexikálni analýza, lexikálni desambiguace, sémantická analýza o na každé úrovni vznikají chyby o na každé úrovni zbyde část jazykových jevů, které nejsou pokryty o některé části analýzy nejsou příliš rychlé (časová složitost syntaktic analýzy) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 4 Analýza textu ,,bez analýzy": na druhou stranu .. .získáme některé informace o obsahu textu s určitou přesností, většinou rychle. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 5 / Analýza textu ,,bez analýzy": jak? • některé části textu jsou důležitější než jiné • pokud ty důležitější identifikujeme, můžeme dále pracovat jen s nimi Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Analýza textu ,,bez analýzy": jak? • některé části textu jsou důležitější než jiné • pokud ty důležitější identifikujeme, můžeme dále pracovat jen s nimi 175 - 150 - Díky Zipfovu rozložení můžeme zjistit, která slova jsou důležitá na základě jejich frekvencí. 1000 2000 3000 4000 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Rozpoznávaní klíčových slov a frází (keyword/keyphrase recognition) Čistý zisk energetické společnosti ČEZ za tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun. Tržby se meziročně snížily o 0,3 procenta na 161,9 miliardy korun. Hlavním důvodem poklesu byly odpisy aktiv kvůli regulacím evropského energetického sektoru a související snižovaní velkoobchodních cen elektřiny , sdělila firma . Výsledekje tak výrazně pod očekáváním. Analytici totiž předpokládali, že čistý zisk ČEZ stoupne o víc než čtyři procenta na 34,3 miliardy korun. Společnost také oznámila, že kvůli snížení velkoobchodních cen elektřiny a regulatorním zásahům do evropského energetického sektoru snížila celoroční výhled čistého zisku na 35 miliard korun . Původně počítala s výsledkem o 2,5 miliardy vyšším.11 Očekávané celoroční výsledky hospodaření ČEZ odrážejí současný stav energetiky v Evropě . Fakt, že na naše výsledky tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitřní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneš . Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Rozpoznávání klíčových slov a frází (keyword/keyphrase recognition) stý_ ?! s k en e rg et[cké s pq I e čno st[ C ^2 za tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun, tržby se meziročně snížily o 0,3 procenta na 161 ^miliardy _ kqrun._ Hlavní m důvodem poklesu byly odp i syakti v kvůli _reg_ujacím evropského Ě^JS^K^DP. sekioruj a související snižování Velkoobchodní , sdělila jfirm_ai. Výsledek je tak výrazně^ od o čeká váním. Analytici "totiž předpokládali, že čistý zisk ČEŽ stoupne o víc než ^/hPľP.^nJiaijia _3_4J3 miliardy korun. Společnost takě oznámila, že kvůli _s_nížení....... y e I ko q bchod n í ch_ cen e l_e_ ktri ny, a re g u I ato rn írn zä_ s ah um do e yrop s ké h o >e n e rg etické ho seíšo/u] snížila celoroční výhleď či sté ho _zj _s ku jna 3 5 mi I i _a_ r d _ko m_n:_._ P uvo d n ě po číta la s výs I e d ke m o 2,5 m i I i a r dy yy š š ím_.1' ^Očekávané ceíqr oční_ výsledky _lios_p od a rení CÉŽ o d rážej í současný stav energetiky y Eyrqpěj. Fakt", že na naše výsledky "tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitrní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneš. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Rozpoznávaní témat (topic recognition) • extrakce klíčových frází (key phrases) • klasifikace textu do kategorií (sport, fotbal, finance, půjčky, ekonomie, energetika.. .) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 8 / Rozpoznávaní témat (topic recognition) • extrakce klíčových frází (key phrases) • klasifikace textu do kategorií (sport, fotbal, finance, půjčky, ekonomie, energetika.. .) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 8 / Extrakce klíčových frází (key phrases) obecně 9 podobný úkol jako extrakce klíčových slov, ale více jazykově závislý (potřebujeme informaci o struktuře jmenné fráze) 9 klíčové n-gramy (slovo = unigram) • zkoumaný korpus a referenční korpus • potřebujeme (předpočítané) frekvence n-gramů • frekvence n-gramu není srovnatelná s frekvencí m-gramu pro n ^ m Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 9 / Extrakce klíčových frází (key phrases), projekt To P icks • zkoumaný korpus je (krátký) text o referenční korpus je (velký) korpus • text rozdělíme na možné fráze (pomocí regulární gramatiky) 9 každá fráze získá skóre: frekvence n-gramů v textu / frekvence n-gramů v korpusu • vyhledáváme základní tvary n-gramů (např. energetický společnost ČEZ) • skóre fráze posiluje, pokud má podfráze také nějaké skóre • skóre fráze posiluje, pokud fráze obsahuje pojmenovanou entitu • skóre fráze oslabuje, pokud je fráze krátká nebo pokud je číslo Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 10 / 24 Projekt To P icks: analýza „bez analýzy" • pracujeme s tokeny (použili jsme tokenizaci) • pracujeme s n-gramy lemmat (použili jsme lemmatizaci) • počítame poměr frekvencí (používame korpus konkrétního jazyka) o extrahujeme kandidáty pomocí regulární gramatiky (používáme parciální syntaktickou analýzu) • rozpoznáváme pojmenované entity • neprobíhá úplná analýza o nepracujeme s lexikálním významem Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 11 / 24 Projekt To|P|icks: hodnocení PJ^.^sk energetické spo^r^i CEŽza tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun, tržby se meziročně snížily o 0,3 procenta na 161_i9_mijia_rdy_ koru_n._ Hlavní m důvodem p o kl esu byly g dp [sy_ aktj y_ kyul i re gul a cím evropského |_e_nerg etické ha sekioru! a související snižování teíkqobchod nich cenejetóřjnjf , sdělila jfirmaj. Výsledek je tak výrazně gid o čeká váním. Analytici "totiž předpokládali, že čistý zisk ČÉŽ stoupne o víc než i^XrJ.Pr?.??/!^.1]?. A42?_II1!']?.r.^¥ konjn- Společnost také oznámila, že kvůli snížení....... Jí? ^99. ^ Ďpďnj ch_ cen e le ktri ny, a re g u I ato rn írn zá_ s ah um do e y rap s ké h o >e n e rg etické ho seíšo/u] snížila celoroční výhleď či sté ho _zj s ku jna 3 5 mi I i _a_ r ď _ko r u n:_._ P uyo ď n é po číta la s výs I e ď ke m o 2,5 m i I i a rdy yy š š ím_.1' -Opeká v ané celoroční výsledky liqsp od a rení CÉZi o d rážej í současný stav energetiky V Eyropěj. Fakt", že na naše výsledky "tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitrní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneši. Extrahuje program „ty správné klíčové fráze"? obecnější otázka: dává program správný výstup? > je třeba stanovit přesně cíl i je třeba stanovit vzdálenost (nejlépe metriku) mezi výstupem a cílem Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Rozpoznávaní pojmenovaných entit (named entity recognition) pojmenovaná entita = jméno osoby, instituce, místa, díla, výrobku, události o často začíná velkým písmenem • často se skládá z více slov (multi-word expressions, MWE) 9 často obsahuje slova z jiného jazyka • často obsahuje ,,nešlová" Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 13 / 24 Rozpoznávání pojmenovaných entit: proč? Rodiče, kteří chtějí vidět Idiota, necht se dostaví do ředitelny! (Obecná škola) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 14 / 24 Rozpoznávání pojmenovaných entit: proč? Rodiče, kteří chtějí vidět Idiota, necht se dostaví do ředitelny! (Obecná škola) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 14 / 24 Rozpoznávaní pojmenovaných entit: proč? Rodiče, kteří chtějí vidět Idiota, necht se dostaví do ředitelny! (Obecná škola) Četl jsem Obsluhoval jsem anglického krále a pak jsem to i viděl. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 14 / 24 Rozpoznávaní pojmenovaných entit: proč? Rodiče, kteří chtějí vidět Idiota, necht se dostaví do ředitelny! (Obecná škola) Četl jsem Obsluhoval jsem anglického krále a pak jsem to i viděl. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 14 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSČ) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) • vzory: ► zkratky: operační systém (dále jen OS) ► Association for ... ► Úřad pro ... ► jak uvedl ředitel ... • formátování textu: morfologický analyzátor májka o strojové učení: podmíněná náhodná pole (conditional random fields), neuronové sítě (Bi-LSTM a CNN) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 15 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSC) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) • vzory: ► zkratky: operační systém (dále jen OS) ► Association for ... ► Úřad pro ... ► jak uvedl ředitel ... • formátování textu: morfologický analyzátor májka o strojové učení: podmíněná náhodná pole (conditional random fields), neuronové sítě (Bi-LSTM a CNN) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 15 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSC) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) • vzory: ► zkratky: operační systém (dále jen OS) ► Association for ... ► Úřad pro ... ► jak uvedl ředitel ... • formátování textu: morfologický analyzátor májka o strojové učení: podmíněná náhodná pole (conditional random fields), neuronové sítě (Bi-LSTM a CNN) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 15 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSČ) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) • vzory: ► zkratky: operační systém (dále jen OS) ► Association for ... ► Úřad pro ... ► jak uvedl ředitel ... • formátování textu: morfologický analyzátor májka 9 strojové učení: podmíněná náhodná pole (conditional random fields), neuronové sítě (Bi-LSTM a CNN) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 15 / 24 Rozpoznávaní pojmenovaných entit: projekt CNER Czech NER: o seznam jmen a příjmení (ve všech pádech jednotného čísla) a seznam NE z (české) Wikipedie (někdy i v jiných pádech než nominativu) 9 seznam zboží z Heureka.cz • seznam knih a filmů • vzory pomocí regulárních výrazů (datum, číslo a jednotky, měna a číslo ...) • čísla zákonů a paragrafů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 16 / 24 Rozpoznávání pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. Franz Válek Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 17 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) • To je strašidelný román Stephena Kinga. To vím taky. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) • To je strašidelný román Stephena Kinga. To vím taky. • NE uvnitř NE (Obraz Doriana Graye) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) • To je strašidelný román Stephena Kinga. To vím taky. • NE uvnitř NE (Obraz Doriana Graye) • synonyma (Karel Schwarzenberg-Karel Jan Nepomuk Josef Norbert Bedřich Antonín Vratislav Menas kníže ze Schwarzenbergu-Karl Johannes Nepomuk Josef Norbert Friedrich Antonius Wratislaw Mena Fürst zu Schwarzenberg-kníže-Sláfenberk) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) • To je strašidelný román Stephena Kinga. To vím taky. • NE uvnitř NE (Obraz Doriana Graye) • synonyma (Karel Schwarzenberg-Karel Jan Nepomuk Josef Norbert Bedřich Antonín Vratislav Menas kníže ze Schwarzenbergu-Karl Johannes Nepomuk Josef Norbert Friedrich Antonius Wratislaw Mena Fürst zu Schwarzenberg-kníže-Sláfenberk) • homonyma (Queen Elisabeth: osoba, jiná osoba, loď, prezidentská limuzína, hudební skupina) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 19 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) matice záměn (confusion matrix): co určil systém správná klasifikace + — + true positive false negative — false positive true negative Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 19 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) matice záměn (confusion matrix): co určil systém správná klasifikace + — + true positive false negative — false positive true negative TP+T/V celková správnost (overall accuracy):/4cc = 7-p+7-A/+Fp+FA/ celková chyba (overall error):Err = fp+fn tp+tn+fp+fn Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 19 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já.) • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) matice záměn (confusion matrix): co určil systém správná klasifikace + — + true positive false negative — false positive true negative celková správnost (overall accuracy):/4cc = Tp+^+™+/r/v celková chyba (overall error):Err = Tp ^+™p FN presnost (precision): Tp+FP pokrytí/úplnost (recall): Tp+FN Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 19 / 24 Dolovaní názorů (opinion mining, sentiment analysis): proč? Klidně se nazvou Věci veřejné, slíbí vám transparentnost, antikorupci, žádné dinosaury a již zítra si sednou do vlády s největšími dinosaury, sami iniciují zachování akcií na doručitele a uzavřou ,,veřejnou" tajnou hradní dohodu. Klidně se nazvou TOP - v překladu tradice - odpovědnost -prosperita a do čela si postaví provařeného politického turistu, nejneodpovednější persónu v oblasti financí v politice a sedřou z vás zaživa ko v ■ uzi. • rozlišit fakta a názory • sledovat mediální obraz (lukrativní téma) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Dolovaní názorů: jak? • rozpoznání klíčových frází: politika, odpovědnost, dinosaurus, dohoda • rozpoznání pojmenovaných entit: Věci veřejné, TOP • hodnotící fráze: provařený, nejneodpovednější, tajný, dinosaurus, persona, sedřít kůži zaživa Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Dolovaní názorů: hodnotící fráze kladná: prima, super, kvalitní, ocenit, vážit si, pomoci, užitečný záporná: k ničemu, prolhaný, poďobanec, bastard, Arabáč, sgarb, vlezdobruselista neutrální, ale v kontextu hodnotící: (politický) turista, (o člověku) dinosaurus, (o elektronice) šumítko, (o člověku) plevel, (o politickém názoru) rudý, (o Václavu Klausovi) klimatológ • jak bez analýzy poznat, k čemu se hodnotící slovo vztahuje? Ani se nedivím, že tam dali Nokii C3. Vedle bliká reklama a tam se jasně píše, že má dotykový display:-DHolt naše milá redakce:-D o jak najít názor na některou část objektu (optika je výborná, ale firmware nestojí za nic) • jak objevit nová hodnotící slova? (eurohujer) 9 jak detekovat sarkasmus (to se vám tedy povedlo) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Závěr: dolování čehokoliv • většinou docela rychlé • často poměrně nepřesné neboje potřeba velké množství označkovaných dat • využívá informací z korpusu • používá vždy aspoň základní analýzu (tokenizace, slovní druhy, stemming) • pro jazyky s bohatou flexí je výhodnější použít více analytických nástrojů (extrakce frází, lemmatizace ...) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Odkazy I Diatelová, I. (2013 [cit. 2013-11-24]). Urážlivé, vulgární a rasistické projevy na internetových diskusních fórech [online]. Bakalářská práce, Masarykova univerzita, Filozofická fakulta. Liu, B. (2004-2012). Opinion mining, sentiment analysis, and opinion spam detection, http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 24