PA153 Počítačové zpracování přirozeného jazyka 10 - dolování témat, názorů, pojmenovaných entit Karel Pala, Zuzana Nevěřilová Centrum ZPJ, Fl MU, Brno 7. prosince 2017 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 1/24 Q Analýza „bez analýzy" Q Rozpoznání témat Q Rozpoznávaní pojmenovaných entit Q Dolování názorů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Analýza textu ,,bez analýzy" Z textu můžeme získat dost informací bez analýzy obsahu textu (kódování nebo jazyk, délka textu, počet odstavců, počet slov ...). Můžeme získat informace o obsahu bez analýzy obsahu? Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 3/24 Analýza textu ,,bez analýzy" Z textu můžeme získat dost informací bez analýzy obsahu textu (kódování nebo jazyk, délka textu, počet odstavců, počet slov ...). Můžeme získat informace o obsahu bez analýzy obsahu? Ano, ale Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 3/24 Analýza textu ,,bez analýzy": proč? Při analýze obsahu textu: větná segmentace, tokenizace, morfologická desambiguace, rozdělení fráze, syntaktická analýza, lexikálni analýza, lexikálni desambiguace, sémantická analýza Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity Analýza textu ,,bez analýzy": proč? Při analýze obsahu textu: větná segmentace, tokenizace, morfologická desambiguace, rozdělení na fráze, syntaktická analýza, lexikálni analýza, lexikálni desambiguace, sémantická analýza o na každé úrovni vznikají chyby o na každé úrovni zbyde část jazykových jevů, které nejsou pokryty • některé části analýzy nejsou příliš rychlé (časová složitost syntaktické analýzy) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 4/24 Analýza textu ,,bez analýzy": na druhou stranu .. .získáme některé informace o obsahu textu s určitou přesností, většinou rychle. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 5 / Analýza textu ,,bez analýzy": jak? • některé části textu jsou důležitější než jiné • pokud ty důležitější identifikujeme, můžeme dále pracovat jen s nimi Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Analýza textu ,,bez analýzy": jak? • některé části textu jsou důležitější než jiné • pokud ty důležitější identifikujeme, můžeme dále pracovat jen s nimi 175 - 150 - Díky Zipfovu rozložení můžeme zjistit, která slova jsou důležitá na základě jejich frekvencí. 1000 2000 3000 4000 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Rozpoznávaní témat (topic recognition) Čistý zisk energetické společnosti ČEZ za tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun. Tržby se meziročně snížily o 0,3 procenta na 161,9 miliardy korun. Hlavním důvodem poklesu byly odpisy aktiv kvůli regulacím evropského energetického sektoru a související snižování velkoobchodních cen elektřiny , sdělila firma . Výsledekje tak výrazně pod očekáváním. Analytici totiž předpokládali, že čistý zisk ČEZ stoupne o víc než čtyři procenta na 34,3 miliardy korun. Společnost také oznámila, že kvůli snížení velkoobchodních cen elektřiny a regulatorním zásahům do evropského energetického sektoru snížila celoroční výhled čistého zisku na 35 miliard korun . Původně počítala s výsledkem o 2,5 miliardy vyšším.11 Očekávané celoroční výsledky hospodaření ČEZ odrážejí současný stav energetiky v Evropě . Fakt, že na naše výsledky tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitřní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneš . Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Rozpoznávaní témat (topic recognition) stý_ ?! s k en e rg et[cké s pq I e čno st[ C ^2 za tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun, tržby se meziročně snížily o 0,3 procenta na 161 ^miliardy _ kqrun._ Hlavní m důvodem poklesu byly qdp i syakti v kvůli _reg_ujacím evropského fenerg etického sekioruj a související snižování Velkoobchodní , sdělila jfirm_ai. Výsledek je tak výrazně^ od o čeká váním. Analytici "totiž předpokládali, že čistý zisk ČEŽ stoupne o víc než ^/hPrpc?nta:_na 34,8 miliardy korun. Společnost také oznámila, že kvůli _s_nížení....... y e I ko q bchod n í ch_ cen e l_e_ ktri ny, a re g u I ato rn írn zä_ s ah um do e yrop s ké h o >e n e rg etické ho seŕäoru] snížila celoroční vyhleď či sté ho _zj s ku jna 3 5 mi I i _a_ rd _kq_r_u_ n:_._ P uvq d n ě pq číta la s výs I e d ke m o 2,5 m i I i a r dy yy š š ím_.1' ;Qčekáy ané celoroční yýsleďky jiosp od a rení CÉŽ o d rážej í současný stav energetiky y Eyrqpěj. Fakt", že na naše výsledky "tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitrní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneš. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Rozpoznávaní témat (topic recognition) • extrakce klíčových frází (key phrases) • klasifikace textu do kategorií (sport, fotbal, finance, půjčky, ekonomie, energetika.. .) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 8 / Rozpoznávaní témat (topic recognition) • extrakce klíčových frází (key phrases) • klasifikace textu do kategorií (sport, fotbal, finance, půjčky, ekonomie, energetika.. .) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 8 / Extrakce klíčových frází (key phrases) obecně 9 podobný úkol jako extrakce klíčových slov, ale více jazykově závislý (potřebujeme informaci o struktuře jmenné fráze) 9 klíčové n-gramy (slovo = unigram) • zkoumaný korpus a referenční korpus • potřebujeme (předpočítané) frekvence n-gramů • frekvence n-gramu není srovnatelná s frekvencí m-gramu pro n ^ m Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 9 / Extrakce klíčových frází (key phrases), projekt To P icks • zkoumaný korpus je (krátký) text o referenční korpus je (velký) korpus • text rozdělíme na možné fráze (pomocí regulární gramatiky) 9 každá fráze získá skóre: frekvence n-gramů v textu / frekvence n-gramů v korpusu • vyhledáváme základní tvary n-gramů (např. energetický společnost ČEZ) • skóre fráze posiluje, pokud má podfráze také nějaké skóre • skóre fráze posiluje, pokud fráze obsahuje pojmenovanou entitu • skóre fráze oslabuje, pokud je fráze krátká nebo pokud je číslo Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 10 / 24 Projekt To P icks: analýza „bez analýzy" • pracujeme s tokeny (použili jsme tokenizaci) • pracujeme s n-gramy lemmat (použili jsme lemmatizaci) • počítame poměr frekvencí (používame korpus konkrétního jazyka) o extrahujeme kandidáty pomocí regulární gramatiky (používáme parciální syntaktickou analýzu) • rozpoznáváme pojmenované entity • neprobíhá úplná analýza o nepracujeme s lexikálním významem Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 11 / 24 Projekt To|P|icks: hodnocení PJ^.^sk energetické spo^r^i CEŽza tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun, tržby se meziročně snížily o 0,3 procenta na 161_i9_mijia_rdy_ koru_n._ Hlavní m důvodem p o kl esu byly g dp [sy_ aktj y_ kyul i re gul a cím evropského |_e_nerg etické ha sekioru! a související snižování teíkqobchod nich cenejetóřjnjf , sdělila jfirmaj. Výsledek je tak výrazně od o čeká váním. Analytici "totiž předpokládali, že čistý zisk ČÉŽ stoupne o víc než i^XrJ.Pr?.??/!^.1]?. A42?_II1!']?.r.^¥ konjn- Společnost také oznámila, že kvůli _s_níže_ní....... Jí? ^99. ^ Ďpďnj ch_ cen e le ktri ny: a re g u I ato rn ím_ zá_ s ah um do e y rop s ké h o >e n e rg etické ho seírtoru] snížila celoroční vyhleď či sté ho _zj _s ku jna 3 5 mi I i _a_ r ď _ko r u n:_._ P uyo ď n é po číta la s výs I e ď ke m o 2,5 m i I i a rdy yy š:š im. _'' -Ôčelíä v ané celoroční yýsled ky liqsp qd aŕení CÉZi o d rážej í současný stav energetiky V Eyropěj. Fakt", že na naše výsledky "tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitrní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneši. Extrahuje program „ty správné klíčové fráze"? obecnější otázka: dává program správný výstup? > je třeba stanovit přesně cíl i je třeba stanovit vzdálenost (nejlépe metriku) mezi výstupem a cílem Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Rozpoznávaní pojmenovaných entit (named entity recognition) pojmenovaná entita = jméno osoby, instituce, místa, díla, výrobku, události o často začíná velkým písmenem • často se skládá z více slov (multi-word expressions, MWE) 9 často obsahuje slova z jiného jazyka • často obsahuje ,,nešlová" Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 13 / 24 Rozpoznávaní pojmenovaných entit: proč? Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 14 / 24 Rozpoznávaní pojmenovaných entit: proč? Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 14 / 24 Rozpoznávaní pojmenovaných entit: proč? Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) Četl jsem Obsluhoval jsem anglického krále a pak jsem to i viděl. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 14 / 24 Rozpoznávaní pojmenovaných entit: proč? Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) Četl jsem Obsluhoval jsem anglického krále a pak jsem to i viděl. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 14 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSČ) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) • zkratky zavedené v textu: operační systém (dále jen OS) • vzory: (určité) klíčové fráze ► Association for ... ► Úřad pro ... ► jak uvedl ředitel ... • formátování textu: morfologický analyzátor májka o syntaktická struktura: morfologický analyzátor/klgMnScl maj ka/klgFnScl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 15 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSČ) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) • zkratky zavedené v textu: operační systém (dále jen OS) • vzory: (určité) klíčové fráze ► Association for ... ► Úřad pro ... ► jak uvedl ředitel ... • formátování textu: morfologický analyzátor májka o syntaktická struktura: morfologický analyzátor/klgMnScl maj ka/klgFnScl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 15 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSČ) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) • zkratky zavedené v textu: operační systém (dále jen OS) • vzory: (určité) klíčové fráze ► Association for ... ► Úřad pro ... ► jak uvedl ředitel ... • formátování textu: morfologický analyzátor májka o syntaktická struktura: morfologický analyzátor/klgMnScl maj ka/klgFnScl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 15 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSČ) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) • zkratky zavedené v textu: operační systém (dále jen OS) • vzory: (určité) klíčové fráze ► Association for ... ► Úřad pro ... ► jak uvedl ředitel ... • formátování textu: morfologický analyzátor májka o syntaktická struktura: morfologický analyzátor/klgMnScl maj ka/klgFnScl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 15 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSČ) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) • zkratky zavedené v textu: operační systém (dále jen OS) • vzory: (určité) klíčové fráze ► Association for ... ► Úřad pro ... ► jak uvedl ředitel ... • formátování textu: morfologický analyzátor májka 9 syntaktická struktura: morfologický analyzátor/klgMnScl maj ka/klgFnScl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 15 / 24 Rozpoznávaní pojmenovaných entit: projekt CNER Czech NER: o seznam jmen a příjmení (ve všech pádech jednotného čísla) a seznam NE z (české) Wikipedie (někdy i v jiných pádech než nominativu) 9 seznam zboží z Heureka.cz • seznam knih a filmů • vzory pomocí regulárních výrazů (datum, číslo a jednotky, měna a číslo ...) • čísla zákonů a paragrafů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 16 / 24 Rozpoznávání pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. Franz Válek Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 17 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) • To je strašidelný román Stephena Kinga. To vím taky. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) • To je strašidelný román Stephena Kinga. To vím taky. • NE uvnitř NE (Obraz Doriana Graye) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) • To je strašidelný román Stephena Kinga. To vím taky. • NE uvnitř NE (Obraz Doriana Graye) • synonyma (Karel Schwarzenberg-Karel Jan Nepomuk Josef Norbert Bedřich Antonín Vratislav Menas kníže ze Schwarzenbergu-Karl Johannes Nepomuk Josef Norbert Friedrich Antonius Wratislaw Mena Fürst zu Schwarzenberg-kníže-Sláfenberk) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše. ..) • To je strašidelný román Stephena Kinga. To vím taky. • NE uvnitř NE (Obraz Doriana Graye) • synonyma (Karel Schwarzenberg-Karel Jan Nepomuk Josef Norbert Bedřich Antonín Vratislav Menas kníže ze Schwarzenbergu-Karl Johannes Nepomuk Josef Norbert Friedrich Antonius Wratislaw Mena Fürst zu Schwarzenberg-kníže-Sláfenberk) • homonyma (Queen Elisabeth: osoba, jiná osoba, loď, prezidentská limuzína, hudební skupina) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 18 / 24 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 19 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) matice záměn (confusion matrix): co určil systém správná klasifikace + — + true positive false negative — false positive true negative Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 19 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) matice záměn (confusion matrix): co určil systém správná klasifikace + — + true positive false negative — false positive true negative TP+T/V celková správnost (overall accuracy):/4cc = 7-p+7-A/+Fp+FA/ celková chyba (overall error):Err = fp+fn tp+tn+fp+fn Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 19 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já.) • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) matice záměn (confusion matrix): co určil systém správná klasifikace + — + true positive false negative — false positive true negative celková správnost (overall accuracy):/4cc = Tp+^+™+/r/v celková chyba (overall error):Err = Tp ^+™p FN presnost (precision): Tp+FP pokrytí/úplnost (recall): Tp+FN Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 19 / 24 Dolovaní názorů (opinion mining, sentiment analysis): proč? Klidně se nazvou Věci veřejné, slíbí vám transparentnost, antikorupci, žádné dinosaury a již zítra si sednou do vlády s největšími dinosaury, sami iniciují zachování akcií na doručitele a uzavřou ,,veřejnou" tajnou hradní dohodu. Klidně se nazvou TOP - v překladu tradice - odpovědnost -prosperita a do čela si postaví provařeného politického turistu, nejneodpovednější persónu v oblasti financí v politice a sedřou z vás zaživa ko v ■ UZI. • rozlišit fakta a názory • sledovat mediální obraz (lukrativní téma) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Dolovaní názorů: jak? • rozpoznání klíčových frází: politika, odpovědnost, dinosaurus, dohoda • rozpoznání pojmenovaných entit: Věci veřejné, TOP • hodnotící fráze: provařený, nejneodpovednější, tajný, dinosaurus, persona, sedřít kůži zaživa Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Dolovaní názorů: hodnotící fráze kladná: prima, super, kvalitní, ocenit, vážit si, pomoci, užitečný záporná: k ničemu, prolhaný, poďobanec, bastard, Arabáč, sgarb, vlezdobruselista neutrální, ale v kontextu hodnotící: (politický) turista, (o člověku) dinosaurus, (o elektronice) šumítko, (o člověku) plevel, (o politickém názoru) rudý, (o Václavu Klausovi) klimatológ • jak bez analýzy poznat, k čemu se hodnotící slovo vztahuje? Ani se nedivím, že tam dali Nokii C3. Vedle bliká reklama a tam se jasně píše, že má dotykový display:-DHolt naše milá redakce:-D o jak najít názor na některou část objektu (optika je výborná, ale firmware nestojí za nic) • jak objevit nová hodnotící slova? (eurohujer) 9 jak detekovat sarkasmus (to se vám tedy povedlo) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Závěr: dolování čehokoliv • většinou docela rychlé • často poměrně nepřesné • využívá informací z korpusu • používá vždy aspoň základní analýzu (tokenizace, slovní druhy, stemming) • pro jazyky s bohatou flexí je výhodnější použít více analytických nástrojů (extrakce frází, lemmatizace ...) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Odkazy I Diatelová, I. (2013 [cit. 2013-11-24]). Urážlivé, vulgární a rasistické projevy na internetových diskusních fórech [online]. Bakalářská práce, Masarykova univerzita, Filozofická fakulta. Liu, B. (2004-2012). Opinion mining, sentiment analysis, and opinion spam detection, http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - názory a entity 24