Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! PLIN021 Sémantická analýza v praxi OP VK Mezi bohemistikou a informatikou www. p roj e kt- i n o va. cz Zuzana Nevěřilová xpopelkOfi.muni.cz Centrum zpracování přirozeného jazyka, B203 Fakulta informatiky, Masarykova univerzita 30. března 2012 Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa í Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa Sémantické rámce Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! Formalismy pro reprezentaci znalostí WSD je zajímavá a „klasická" disciplína, řada vědců ale WSD odmítá kvůli uvedeným slabinám. Navíc, WSD je kvantitativní analýza, neříká nic o významu. Při studiu významu se chceme posunout dál, skutečně k jádru věci. Chceme pracovat nejen se slovy, ale i se znalostmi: jazykovými i obecnými... PLIN021 Sémantická analýza v praxi o n '—Formalismy pro reprezentaci znalostí ró o i r^í;™:.;.',1.". Ol — Formalismy pro reprezentaci znalostí O CN Může to vypadat, že dost bylo matematiky. Na chvíli si od ní odpočineme a osvěžíme termíny z lingvistiky. Časem se k matematice zase vrátíme. Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! Sémantické rysy (semantic features) matka = FEMALE + ADULT + HAS CHILD batole = HUMAN - ADULT • sémantické rysy jsou „atomy" významu • sémantické rysy jsou distinktivní rysy • význam je definován pomocí s. rysů a pravdivostních podmínek [Croft and Cruse, 2004] Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! Sémantické rysy: synonymie výraz fit procházet rysy MOTION MOTION ON FOOT ON FOOT SELF-PROPELLED SELF-PROPELLED MEDIUM VELOCITY MEDIUM VELOCITY Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické rysy: antonymie výraz fit běžet rysy MOTION MOTION ON FOOT ON FOOT SELF-PROPELLED SELF-PROPELLED MEDIUM VELOCITY HIGH VELOCITY Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémai Sémantické rysy: problém s antonymií výraz fit letět střemhlav rysy MOTION MOTION ON FOOT ON WINGS SELF-PROPELLED GRAVITY-PROPELLED MEDIUM VELOCITY HIGH VELOCITY Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické rysy: problém s antonymií výraz fit loudat se rysy MOTION MOTION ON FOOT ON FOOT SELF-PROPELLED SELF-PROPELLED MEDIUM VELOCITY LOW VELOCITY PLIN021 Sémantická analýza v praxi o '—Sémantické rysy 1 J* n LED SELF^PROPELLED 2012-0 '—Sémantické rysy: problém s antonymií Sémantické rysy (jako všechny ostatní teorie) mohou být užitečné. Při jejich formálním uchopení narazíme na problémy: kolik rysů má každý výraz? Jak poznáme, které jsou podstatné a které ne? Trošku to připomíná problém, jak najít vhodnou otázku ve hře Myslím si zvíře... Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! Výběrová omezení (selectional restrictions) slouží pro desambiguaci závislosti větných členů [Allen, 1995, kap. 10.1] • Koupila jsem si pletenou čepici a šálu. • Koupila jsem si nealkoholické pivo a křupky. pletená šála - OK, nealkoholické křupky - NOT OK Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! Výběrová omezení (selectional restrictions) slouží pro desambiguaci závislosti vetných členu [Alien, 1995, kap. 10.1] Rodinné domy postaví malé stavební firmy. AGENT = rodinné domy THEME = malé stavební firmy AGENT = malé stavební firmy THEME = rodinné domy (AGENT postavit PERSON | INSTITUTION) (THEME postavit BUILDING) rodinné malé stavební PLIN021 Sémantická analýza v praxi m '—Výběrová omezení ° I cn —Výběrová omezení (selectional restrictions) o Obrázek je ze syntaktického analyzátoru SET Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! Sémantické role (semantic role, thematic relation, theta-role, deep case) (AGENT postavit PERSON | INSTITUTION) (THEME postavit BUILDING) AGENT, EXPERIENCED THEME, PATIENT, INSTRUMENT, FORCE/NATURAL CAUSE, LOCATION, DIRECTION/GOAL, RECIPIENT, SOURCE/ORIGIN, TIME, BENEFICIARY, MANNER, PURPOSE, CAUSE Jména rolí jsou u různých autorů mírně různá (např. AGENT/ACTOR). Přiřazení rolí je někdy zřejmé (Karel/AGENT rozbil okno), jindy zřejmé není (Kladivo/AGENT?INSTRUMENT? rozbilo okno). [Fillmore, 1968] Sémantické role (semantic rola, thematic relation, theta-role, deep case) PLIN021 Sémantická analýza v praxi ■ [AGENT postavil PERSON | INSTITUTION) [THEME b a. t»i i BUILDING) o n 1—Sémantické role FORCE/NAT J BA CAUS OCATION ) -ifCTION/GOAL, oo Q MANNES, PURPOSE. CAUSe CN '—Sémantické role (semantic role, thematic relation, AGENT/ACTOR) PrfaLii rat nttd, [KhI/AGENT mílii <**,). >nd, nffil (KUdm/AGENTÍINSTRUPJENT? O CN theta-role, deep case) dobrý přehled sémantických rolí je kupodivu na Wikipedii Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! Sémantické role (semantic role, thematic relation, theta-role, deep case) sémantické role [Jackendoff, 1992, kap. 2.2] • jsou nositelé širšího významu • jsou součástí sémantické struktury promluvy (conceptual structure), ne syntaxe • typicky však odpovídají větným členům • objevují se v sémantických rámcích (o těch později) o PLIN021 Sémantická analýza v praxi '—Sémantické role -Sémantické role (semantic role, thematic relation, o theta-role, deep case) Terminologie je tady dost zmatená. Je to způsobeno faktem, že syntaktické struktury jsou často těsně spojeny s těmi sémantickými, typicky je např. podmět ACTOR/AGENT. Př.: Karel (AGENT) rozbil okno (THEME/BENEFICIARY). Existují ale i protipříklady (různá pasiva): Okno se rozbilo. Okno bylo rozbito. Někteří lingvisté striktně rozlišují mezi syntaxí a sémantikou, tím pádem nemůžou slučovat theta role s tématickými relacemi. Fillmorův Case for case se samozřejmě týká angličtiny. V češtině je situace zase trochu jiná: 1. kromě předložek máme i pády, 2. vzhledem k celkem volnému slovosledu uplatňujeme aktuální členění větné. Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! Sémantické role ve slovesných valencích sloveso je centrem věty - na slovese „visí" celý zbylý význam sloveso si lze představit jako rámec, do kterého zapadnou ostatní dílky slovník slovesných valencí VerbaLex [Hlaváčková, 2007] PLIN021 Sémantická analýza v praxi '—Sémantické role a slovesa CN i—I O ■ l_ Sémantické role ve slovesných valencíc Ukázka. Potom můžeme opět zkusit vzít libovolný skutečný text (třeba titulku z iDnes) a najít patřičný rámec. Uvidíme, že je to těžké. Když najdeme rámec, není zaplněný (je velmi těžké najít zaplněný). Co zbyde věty kromě zaplněného rámce? Ve VerbaLexu nejsou většinou uvedena příslovečná určení. Co ale ještě zbyde? Zbydou další větné členy, které zpravidla slouží jako prostředky koherence textu. Které to jsou? Co znamenají? Proč se jimi skoro nikdo nezabývá? Námět na referát/BP (zabývá se jimi prof. Joshi http://www.cis.upenn.edu/ joshi/) Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! Rámce - stereotypická informace [Minsky, 1974] objekty, vlastnosti, vztahy mezi objekty, odvozovací pravidla pro každý objekt jsou v rámci rubriky sloty (slots), každá rubrika má položky (links, facets) jako např. aktuální hodnotu, implicitní hodnotu, rozsah možných hodnot ... kočka domácí: • jedruhem zvíře • má_nepřítele pes • mázapotravu myš • nacházíse (blízkodomu, doma) • velikost malé zvíře Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! Rámce - skutečné projekty FrameNet, ConceptNet slovesa - VerbNet, VerbaLex PLIN021 Sémantická analýza v praxi '—Sémantické rámce CN i—I O CN l_ Rámce - skutečné projekty Ukázky FrameNetu Hrají v popisu rámců roli místní reálie? Lze nějak hromadně určit případy, ve kterých ano? Další námět na referát nebo BP.Zásadní rozdíl mezi VerbaLexem a FrameNetem je v propojení rámců: ve F. jsou zachyceny vztahy mezi slovesnými rámci (např. příčina-následek). Ve V. je zase více informací lingvistických (gramatické kategorie, slovesné třídy). Má cenu zmiňovat Levinovou a slovesné třídy? VerbNet a VerbaLex také neobsahují implicitní hodnoty (proč? není to námět na BP?), rozsah hodnot apod. FrameNet a ConceptNet jsou spíš hnány potřebou aplikace. VerbNet a VerbaLex jsou dílem lingvistů. Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! i Allen, J. (1995). Natural Language Understanding (2nd ed.). Benjamin-Cummings Publishing Co., Inc., Redwood City, CA, USA. i Croft, W. and Cruse, D. (2004). Cognitive linguistics. Cambridge textbooks in linguistics. Cambridge University Press. § Fillmore, C. (1968). The case for case. In Bach, E. and Harms, R., editors, Universa Is in Linguistic Theory. Holt, Rinehart, and Winston, New York. 1 Hlaváčková, D. (2007). Databáze slovesných valenčných rámců VerbaLex. PhD thesis, Masarykova univerzita, Filozofická fakulta, Ustav českého jazyka. Formalismy pro reprezentaci znalostí Sémantické rysy Výběrová omezení Sémantické role Sémantické role a slovesa ! 1 Jackendoff, R. (1992). Semantic Structures. Current Studies in Linguistics. MIT Press. i Minsky, M. (1974). A framework for representing knowledge. Technical report, Massachusetts Institute of Technology, Cambridge, MA, USA.