NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Named entity recognition Marek Medveď Faculty of informatics, Masaryk University Botanická 68a, 602 00 Brno, Czech Republic 7.12.2012 NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Named entity recognition (NER) Úlohou je zaradenie skúmaného slova do entitnej triedy. NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Named entity recognition (NER) Úlohou je zaradenie skúmaného slova do entitnej triedy. Možnosti využitia: NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Named entity recognition (NER) Úlohou je zaradenie skúmaného slova do entitnej triedy. Možnosti využitia: určenie postoja k danej entite NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Named entity recognition (NER) Úlohou je zaradenie skúmaného slova do entitnej triedy. Možnosti využitia: určenie postoja k danej entite question answering NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Stanford NER sytém na rozpoznávanie pomenovaných entít vytvorený na Stanfordskej univerzite. NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Stanford NER sytém na rozpoznávanie pomenovaných entít vytvorený na Stanfordskej univerzite. implementovaný v jazyku JAVA. NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Stanford NER sytém na rozpoznávanie pomenovaných entít vytvorený na Stanfordskej univerzite. implementovaný v jazyku JAVA. základná verzia rozpoznáva tri triedy PERSON, ORGANIZAATION, LOCATION. NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Stanford NER Stanford NER pozostáva z: NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Stanford NER Stanford NER pozostáva z: Conditional Random Fields (CRF) NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Stanford NER Stanford NER pozostáva z: Conditional Random Fields (CRF) Všeobecných vlastností textu NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Stanford NER Stanford NER pozostáva z: Conditional Random Fields (CRF) Všeobecných vlastností textu Trénovacích dát NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Conditional Random Fields (CRF) štatistická metóda pre štruktúrovanú predikciu NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Conditional Random Fields (CRF) štatistická metóda pre štruktúrovanú predikciu diskriminačný typ modelu NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Conditional Random Fields (CRF) štatistická metóda pre štruktúrovanú predikciu diskriminačný typ modelu používa sa na zakódovanie relácii medzi slovami v texte NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Conditional Random Fields (CRF) štatistická metóda pre štruktúrovanú predikciu diskriminačný typ modelu používa sa na zakódovanie relácii medzi slovami v texte v Stanford NER je táto metóda používaná práve na priradenie entitnej triedy ku skúmanému slovu NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Vzhľad slova (wordshape) Vzhľad skúmaného slova uľahčuje rozhodnutie pri určovaní jeho entitnej triedy. NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Vzhľad slova (wordshape) Vzhľad skúmaného slova uľahčuje rozhodnutie pri určovaní jeho entitnej triedy. Kódovanie znakov: NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Vzhľad slova (wordshape) Vzhľad skúmaného slova uľahčuje rozhodnutie pri určovaní jeho entitnej triedy. Kódovanie znakov: veľké písmeno je kódované na veľké X. NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Vzhľad slova (wordshape) Vzhľad skúmaného slova uľahčuje rozhodnutie pri určovaní jeho entitnej triedy. Kódovanie znakov: veľké písmeno je kódované na veľké X. malé písmeno je kódované na malé x. NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Vzhľad slova (wordshape) Vzhľad skúmaného slova uľahčuje rozhodnutie pri určovaní jeho entitnej triedy. Kódovanie znakov: veľké písmeno je kódované na veľké X. malé písmeno je kódované na malé x. číslo je kódované na malé d NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Vzhľad slova (wordshape) Vzhľad skúmaného slova uľahčuje rozhodnutie pri určovaní jeho entitnej triedy. Kódovanie znakov: veľké písmeno je kódované na veľké X. malé písmeno je kódované na malé x. číslo je kódované na malé d znaky ako :, _ atď. sa kódujú na samé seba NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Vzhľad slova (wordshape) Kódovanie slov: NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Vzhľad slova (wordshape) Kódovanie slov: ak je dĺžka slova nanajvýš 4 znaky potom sa berie do úvahy celý jeho wordshape Ahoj → Xxxx NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Vzhľad slova (wordshape) Kódovanie slov: ak je dĺžka slova nanajvýš 4 znaky potom sa berie do úvahy celý jeho wordshape Ahoj → Xxxx ak je slovo dlhšie ako 4 znaky potom sa stred slova kóduje na množinu znakov. Variceclla–zoster → Xx-xxx NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Kódovanie slov na triedy pomenovaných entít Existujú dva druhy kódovaní: NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Kódovanie slov na triedy pomenovaných entít Existujú dva druhy kódovaní: IO - rozlišuje entitné triedy Veta: Fred showed Sue Mangqiu Huang’s ... SUE → PER Mangqiu → PER Huang’s → PER NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Kódovanie slov na triedy pomenovaných entít Existujú dva druhy kódovaní: IO - rozlišuje entitné triedy Veta: Fred showed Sue Mangqiu Huang’s ... SUE → PER Mangqiu → PER Huang’s → PER IOB - rozlišuje medzi entitou A a entitou B tej istej triedy Sue → A_PER Mangqiu → B_PER Huang’s → I_PER NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Kódovanie slov na triedy pomenovaných entít Stanford NER používa IO kódovanie z dvoch dôvodov: NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Kódovanie slov na triedy pomenovaných entít Stanford NER používa IO kódovanie z dvoch dôvodov: IOB obsahuje 2e+1 značiek, zatiaľ čo IO iba e+1 značiek NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Kódovanie slov na triedy pomenovaných entít Stanford NER používa IO kódovanie z dvoch dôvodov: IOB obsahuje 2e+1 značiek, zatiaľ čo IO iba e+1 značiek IOB nefunguje vždy správne Sue → A_PER Mangqiu → I_PER Huang’s → I_PER NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Trénovacie dáta trénovacia sada dokumentov kde každé slovo má priradenú svoju entitnú triedu NER Stanford NER Conditional Random Fields (CRF) Všeobecné vlastnosti textu Trénovacie dáta Trénovacie dáta trénovacia sada dokumentov kde každé slovo má priradenú svoju entitnú triedu vytvorenie sekvenčného klasifikátora