PA153 Počítačové zpracování přirozeného jazyka 10 - Hello Doly (dolování témat, názorů, pojmenovaných entit) Karel Pala, Zuzana Nevěřilová Centrum ZPJ, Fl MU, Brno 25. listopadu 2013 Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 1/24 Q Analýza „bez analýzy" Q Rozpoznání témat Q Rozpoznávaní pojmenovaných entit Q Dolování názorů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 2/24 Analýza textu ,,bez analýzy" Z textu můžeme získat dost informací bez analýzy obsahu textu (kódování nebo jazyk, délka textu, počet odstavců, počet slov ...). Můžeme získat informace o obsahu bez analýzy obsahu? Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 3/24 Analýza textu ,,bez analýzy" Z textu můžeme získat dost informací bez analýzy obsahu textu (kódování nebo jazyk, délka textu, počet odstavců, počet slov ...). Můžeme získat informace o obsahu bez analýzy obsahu? Ano, ale Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 3/24 Analýza textu ,,bez analýzy": proč? Při analýze obsahu textu: větná segmentace, tokenizace, morfologická desambiguace, rozdělení fráze, syntaktická analýza, lexikálni analýza, lexikálni desambiguace, sémantická analýza Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly Analýza textu ,,bez analýzy": proč? Při analýze obsahu textu: větná segmentace, tokenizace, morfologická desambiguace, rozdělení na fráze, syntaktická analýza, lexikálni analýza, lexikálni desambiguace, sémantická analýza o na každé úrovni vznikají chyby o na každé úrovni zbyde část jazykových jevů, které nejsou pokryty programy nejsou příliš rychlé Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 4 Analýza textu ,,bez analýzy": na druhou stranu .. .získáme některé informace o obsahu textu s určitou přesností, většinou rychle. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 5 / Analýza textu ,,bez analýzy": jak? některé části textu jsou důležitější než jiné pokud ty důležitější identifikujeme, můžeme dále pracovat jen s nimi Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 6/24 Analýza textu ,,bez analýzy": jak? • některé části textu jsou důležitější než jiné • pokud ty důležitější identifikujeme, můžeme dále pracovat jen s nimi Odbočka k PageRank: důležité jsou odkazy http://cs.wikipedia.org/wiki/Soubor:Pagerankl.png Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 6/24 Rozpoznávaní témat (topic recognition) Čistý zisk energetické společnosti ČEZ za tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun. Tržby se meziročně snížily o 0,3 procenta na 161,9 miliardy korun. Hlavním důvodem poklesu byly odpisy aktiv kvůli regulacím evropského energetického sektoru a související snižování velkoobchodních cen elektřiny , sdělila firma . Výsledekje tak výrazně pod očekáváním. Analytici totiž předpokládali, že čistý zisk ČEZ stoupne o víc než čtyři procenta na 34,3 miliardy korun. Společnost také oznámila, že kvůli snížení velkoobchodních cen elektřiny a regulatorním zásahům do evropského energetického sektoru snížila celoroční výhled čistého zisku na 35 miliard korun . Původně počítala s výsledkem o 2,5 miliardy vyšším.11 Očekávané celoroční výsledky hospodaření ČEZ odrážejí současný stav energetiky v Evropě . Fakt, že na naše výsledky tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitřní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneš . Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 7/24 Rozpoznávaní témat (topic recognition) stý_ ?! s k en e rg et[cké s pq I e čno st[ C ^2 za tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun, tržby se meziročně snížily o 0,3 procenta na 161 ^miliardy _ kqrun._ Hlavní m důvodem poklesu byly qdp i syakti v kvůli regulacím evropského fenerg etického sekioruj a související snižování Velkoobchodní , sdělila jfirm_ai. Výsledek je tak výrazně^ od o čeká váním. Analytici "totiž předpokládali, že čistý zisk ČEŽ stoupne o víc než ^/hPľP.^nJiaijia _3_4J3 miliardy korun. Společnost také oznámila, že kvůli _s_nížení....... y e I ko q bchod n í ch_ cen e l_e_ ktri ny, a re g u I ato rn írn zä_ s ah um do e yrop s ké h o >e n e rg etické ho seŕäoru] snížila celoroční vyhleď či sté ho _zj s ku jna 3 5 mi I i _a_ rd _kq_r_u_ n:_._ P uvq d n ě pq číta la s výs I e d ke m o 2,5 m i I i a r dy yy š š ím_.1' ;Qčekáy ané celoroční yýsleďky jiosp od a rení CÉŽ o d rážej í současný stav energetiky y Eyrqpěj. Fakt", že na naše výsledky "tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitrní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneš. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 7/24 Rozpoznávaní témat (topic recognition) • extrakce klíčových frází (key phrases) • klasifikace textu do kategorií (sport, fotbal, finance, půjčky, ekonomie, energetika.. .) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 8 / Rozpoznávaní témat (topic recognition) • extrakce klíčových frází (key phrases) • klasifikace textu do kategorií (sport, fotbal, finance, půjčky, ekonomie, energetika.. .) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 8 / Extrakce klíčových frází (key phrases) obecně podobný úkol jako extrakce klíčových slov 9 klíčové n-gramy (slovo = unigram) • zkoumaný korpus a referenční korpus • potřebujeme (předpočítané) frekvence n-gramů • frekvence n-gramu není srovnatelná s frekvencí m-gramu pro n ^ m Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 9/24 Extrakce klíčových frází (key phrases), projekt To P icks • zkoumaný korpus je (krátký) text o referenční korpus je (velký) korpus • text rozdělíme na možné fráze (pomocí regulární gramatiky) 9 každá fráze získá skóre: frekvence n-gramů v textu / frekvence n-gramů v korpusu • vyhledáváme základní tvary n-gramů (např. energetický společnost ČEZ) • skóre fráze posiluje, pokud má podfráze také nějaké skóre • skóre fráze posiluje, pokud fráze obsahuje pojmenovanou entitu • skóre fráze oslabuje, pokud je fráze krátká nebo pokud je číslo Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 10 Projekt To P icks: analýza „bez analýzy" • pracujeme s tokeny (použili jsme tokenizaci) • pracujeme s n-gramy lemmat (použili jsme lemmatizaci) • počítame poměr frekvencí (používame korpus konkrétního jazyka) o extrahujeme kandidáty pomocí regulární gramatiky (používáme parciální syntaktickou analýzu) • rozpoznáváme pojmenované entity • neprobíhá úplná analýza o nepracujeme s lexikálním významem Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 11 / 24 Projekt To|P|icks: hodnocení PJ^.^sk energetické spo^r^i CEŽza tri čtvrtletí letošního roku meziročně klesl o 4,7 procenta na 31,7 miliardy korun, tržby se meziročně snížily o 0,3 procenta na 161_i9_mijia_rdy_ koru_n_._ Hlavní m důvodem poklesu byly odp i syakti v Iwů li regulacím evropského |_energ etické ho sekioruj a související snižování teíkpo bichoď _n_ích cen ejelrtňnjŕ , sdělila jfirmaj. Výsledek je tak výrazně od o čeká váním. Analytici "totiž předpokládali, že čistý zisk ČÉŽ stoupne o víc než i^XrJ.Pr?.??/!^.1]?. A42?_II1!']?.r.^¥ konjn- Společnost také oznámila, že kvůli _s_nížení....... Jí? ^99. ^ Ďpďnj ch_ cen _e_ l_e_ ktři ny: a re g u I ato rn ím^ zá s ah um do e y rop s ké h o >e n e rg etické ho seíšo/u] snížila celoroční výhleď či sté ho _zj s ku jna 3 5 mi I i _a_ r ď _ko r_u_ n:_._ P uyo ď n ě po číta la s výs I e ď ke m o 2,5 m i I i a rdy yy š š ím_.1' ■Ôčekäy ané celoroční výsledky liqsp qd aŕení CÉZi o d rážej í současný stav energetiky V Eyropej. Fakt", že na naše výsledky "tato krize doléhá později a výrazně méně než na naše evropské konkurenty, reflektuje zejména naši úspěšnou strategii předprodejů elektřiny na roky dopředu a důraz na vnitřní úspory," uvedl k výsledkům předseda představenstva a generální ředitel Daniel Beneši. Extrahuje program „ty správné klíčové fráze"? obecnější otázka: dává program správný výstup? > je třeba stanovit přesně cíl i je třeba stanovit vzdálenost (nejlépe metriku) mezi výstupem a cílem Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka Rozpoznávaní pojmenovaných entit (named entity recognition) pojmenovaná entita = jméno osoby, instituce, místa, díla, výrobku, události o často začíná velkým písmenem • často se skládá z více slov (multi-word expressions, MWE) 9 často obsahuje slova z jiného jazyka • často obsahuje ,,nešlová" Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 13 / 24 Rozpoznávaní pojmenovaných entit: proč? Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 14 / 24 Rozpoznávaní pojmenovaných entit: proč? Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 14 / 24 Rozpoznávaní pojmenovaných entit: proč? Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) Četl jsem Obsluhoval jsem anglického krále a pak jsem to i viděl. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 14 / 24 Rozpoznávaní pojmenovaných entit: proč? Kdo chce vidět Idiota, necht se dostaví do ředitelny. (Obecná škola) Četl jsem Obsluhoval jsem anglického krále a pak jsem to i viděl. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 14 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSC) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) 9 zkratky zavedené v textu: operační systém (dále jen OS) o (určité) klíčové fráze ► Association for ... ► Úřad pro ... • formátování textu: morfologický analyzátor májka o syntaktická struktura: morfologický analyzátor/klgMnScl maj ka/klgFnScl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 15 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSČ) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) 9 zkratky zavedené v textu: operační systém (dále jen OS) o (určité) klíčové fráze ► Association for ... ► Úřad pro ... • formátování textu: morfologický analyzátor májka o syntaktická struktura: morfologický analyzátor/klgMnScl maj ka/klgFnScl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 15 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSČ) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) 9 zkratky zavedené v textu: operační systém (dále jen OS) • (určité) klíčové fráze ► Association for ... ► Úřad pro ... • formátování textu: morfologický analyzátor májka o syntaktická struktura: morfologický analyzátor/klgMnScl maj ka/klgFnScl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 15 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSČ) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) 9 zkratky zavedené v textu: operační systém (dále jen OS) o (určité) klíčové fráze ► Association for ... ► Úřad pro ... • formátování textu: morfologický analyzátor májka o syntaktická struktura: morfologický analyzátor/klgMnScl maj ka/klgFnScl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 15 / 24 Rozpoznávaní pojmenovaných entit: jak? • seznamy ► seznamy jmen, seznamy příjmení (CSU) ► seznam obcí (PSČ) ► seznam firem (ARES) ► seznam uměleckých děl (CSFD, Databáze knih) ► seznam výrobků (Heureka.cz, Seznam zboží) 9 zkratky zavedené v textu: operační systém (dále jen OS) o (určité) klíčové fráze ► Association for ... ► Úřad pro ... • formátování textu: morfologický analyzátor májka 9 syntaktická struktura: morfologický analyzátor/klgMnScl maj ka/klgFnScl Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 15 / 24 Rozpoznávání pojmenovaných entit: projekt CNER Czech NER: o seznam jmen a příjmení (ve všech pádech jednotného čísla) a seznam NE z (české) Wikipedie (někdy i v jiných pádech než nominativu) 9 seznam zboží z Heureka.cz • seznam knih a filmů • vzory pomocí regulárních výrazů (datum, číslo a jednotky, měna a číslo ...) • čísla zákonů a paragrafů Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly Rozpoznávání pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. Franz Válek Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 17 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše...) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 18 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše...) • To je strašidelný román Stephena Kinga. To vím taky. Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 18 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše...) • To je strašidelný román Stephena Kinga. To vím taky. • NE uvnitř NE (Obraz Doriana Graye) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 18 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše...) • To je strašidelný román Stephena Kinga. To vím taky. • NE uvnitř NE (Obraz Doriana Graye) • synonyma (Karel Schwarzenberg-Karel Jan Nepomuk Josef Norbert Bedřich Antonín Vratislav Menas kníže ze Schwarzenbergu-Karl Johannes Nepomuk Josef Norbert Friedrich Antonius Wratislaw Mena Fürst zu Schwarzenberg-kníže-Sláfenberk) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 18 / 24 Rozpoznávaní pojmenovaných entit: problémy • najít hranice NE (Opera Vladimíra Franze Válka s mloky vzbudila zasloužený ohlas. • interpunkce uvnitř NE (Čtyři vraždy stačí, drahoušku) • skloňování NE (Mnohé mám dodnes před očima: Erži z Kočičí hry, Runu z Radúze a Mahuleny, Čapkovu Matku, Bontovou z Přísných milenců, Isabelu z Cesty Karla IV. do Francie a zpět, Hejtmanku z Revizora, Matku z Kočky na rozpálené plechové střeše...) • To je strašidelný román Stephena Kinga. To vím taky. • NE uvnitř NE (Obraz Doriana Graye) • synonyma (Karel Schwarzenberg-Karel Jan Nepomuk Josef Norbert Bedřich Antonín Vratislav Menas kníže ze Schwarzenbergu-Karl Johannes Nepomuk Josef Norbert Friedrich Antonius Wratislaw Mena Fürst zu Schwarzenberg-kníže-Sláfenberk) • homonyma (Queen Elisabeth: osoba, jiná osoba, loď, prezidentská limuzína, hudební skupina) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 18 / 24 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 19 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) matice záměn (confusion matrix): co určil systém správná klasifikace + — + true positive false negative — false positive true negative Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 19 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) matice záměn (confusion matrix): co určil systém správná klasifikace + — + true positive false negative — false positive true negative TP+T/V celková správnost (overall accuracy):/4cc = 7-p+7-A/+Fp+FA/ celková chyba (overall error):Err = fp+fn tp+tn+fp+fn Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 19 Rozpoznávaní pojmenovaných entit: vyhodnocení • systém rozpozná NE a skutečně se jedná o NE (Můj oblíbenec Stephen King) o systém rozpozná NE, ale nejedná se o NE (To vím taky.) • systém nerozpozná NE a skutečně se nejedná o NE (To jsem celej já.) • systém nerozpozná NE, ale jedná se o NE (morfologický analyzátor maj ka) matice záměn (confusion matrix): co určil systém správná klasifikace + — + true positive false negative — false positive true negative celková správnost (overall accuracy):/4cc = Tp+^+™+/r/v celková chyba (overall error):Err = Tp ^+™p FN presnost (precision): Tp+FP pokrytí/úplnost (recall): Tp+FN Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 19 / 24 Dolovaní názorů (opinion mining, sentiment analysis): proč? Klidně se nazvou Věci veřejné, slíbí vám transparentnost, antikorupci, žádné dinosaury a již zítra si sednou do vlády s největšími dinosaury, sami iniciují zachování akcií na doručitele a uzavřou ,,veřejnou" tajnou hradní dohodu. Klidně se nazvou TOP - v překladu tradice - odpovědnost -prosperita a do čela si postaví provařeného politického turistu, nejneodpovednější persónu v oblasti financí v politice a sedřou z vás zaživa ko v ■ UZI. • rozlišit fakta a názory • sledovat mediální obraz (lukrativní téma) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 20 / 24 Dolovaní názorů: jak? • rozpoznání klíčových frází: politika, odpovědnost, dinosaurus, dohoda • rozpoznání pojmenovaných entit: Věci veřejné, TOP • hodnotící fráze: provařený, nejneodpovednější, tajný, dinosaurus, persona, sedřít kůži zaživa Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 21 / 24 Dolovaní názorů: hodnotící fráze kladná: prima, super, kvalitní, ocenit, vážit si, pomoci, užitečný záporná: k ničemu, prolhaný, poďobanec, bastard, Arabáč, sgarb, vlezdobruselista neutrální, ale v kontextu hodnotící: (politický) turista, (o člověku) dinosaurus, (o elektronice) šumítko, (o člověku) plevel, (o politickém názoru) rudý, (o Václavu Klausovi) klimatológ • jak bez analýzy poznat, k čemu se hodnotící slovo vztahuje? Ani se nedivím, že tam dali Nokii C3. Vedle bliká reklama a tam se jasně píše, že má dotykový display:-DHolt naše milá redakce:-D o jak najít názor na některou část objektu (optika je výborná, ale firmware nestojí za nic) • jak objevit nová hodnotící slova? (eurohujer) 9 jak detekovat sarkasmus (to se vám tedy povedlo) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 22 / 24 Závěr: dolování čehokoliv • většinou docela rychlé • často poměrně nepřesné • využívá informací z korpusu • používá vždy aspoň základní analýzu (tokenizace, slovní druhy, stemming) • pro jazyky s bohatou flexí je výhodnější použít více analytických nástrojů (extrakce frází, lemmatizace ...) Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly Odkazy I Diatelová, I. (2013 [cit. 2013-11-24]). Urážlivé, vulgární a rasistické projevy na internetových diskusních fórech [online]. Bakalářská práce, Masarykova univerzita, Filozofická fakulta. Liu, B. (2004-2012). Opinion mining, sentiment analysis, and opinion spam detection, http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html Karel Pala, Zuzana Nevěřilová PA153 Zpracování přirozeného jazyka 10 - Hello Doly 24 / 24