TiMBL – Shallow parser Tomáš Drusa (256167) TiMBL • Open-source software z Tilburg University, NL • Implementace učení z instancí (memory-based learning) – IB1-IG (k nejbližších sousedů s váhováním) – IGTree (aproximace rozhodovacím stromem) 2Tomáš Drusa (256167@mail.muni.cz) Shallow parsing • Neboli chunking; „mělká“ analýza textu • Určení jmenných, předložkových a slovesných frází a vztahů mezi nimi v textu Tomáš Drusa (256167@mail.muni.cz) 3 [My sisters] [have not seen] [the old man] lately. NP NP Proč učení z instancí? • Strojové učení – minimalizace ruční práce (regulární výrazy…) – obecněji použitelné (jiná data, jazyk) • Učení z instancí – umožňuje lépe odlišit jazykové výjimky od šumu – podobnostní vyhlazování na neúplných datech Tomáš Drusa (256167@mail.muni.cz) 4 Chunking jako klasifikace • Analýza textu jako série klasifikačních úloh • Chunking – pro každé slovo na základě lemmat a POS tagů kontextu <2, 1> urči třídu = značku typu fráze Tomáš Drusa (256167@mail.muni.cz) 5 Pierre Vinken , 61 years old , will join the board as a nonexecutive director Nov 29 . NPi NPi O NPi NPi VPi VPi NPiO O NPi NPi NPi NPi NPiO ONPb Výsledky • Angličtina, korpus WSJ • Testování na 1/25 korpusu, trénink na zbytku • Průměrné hodnoty z 25 běhů Tomáš Drusa (256167@mail.muni.cz) 6 Vztahy frází jako klasifikace • Hledání a určování typů vztahů mezi frázemi – pro potenciální dvojici frází (slovesná – jmenná) – žádný vztah / je podmětem / je předmětem – na základě: • lemmatu a značky slovesa slovesné fráze • lemmat a značek kontextu <2, 1> jmenné fráze • vzdálenosti (počtu mezilehlých slov/frází) • počtu mezilehlých čárek (,) • počtu mezilehlých slovesných frází Tomáš Drusa (256167@mail.muni.cz) 7 Vztahy frází jako klasifikace • Které dvojice jsou potenciální? – příliš široký záběr -> zahlcení šumem a pomalost – praxe (AJ): maximálně 1 mezilehlá slovesná fráze • Hlasování – IGTree lépe zvládá předmětné, lepší precision – IB1-IG lépe zvládá podmětné, lepší recall Tomáš Drusa (256167@mail.muni.cz) 8 Výsledky Tomáš Drusa (256167@mail.muni.cz) 9 Závěr • Memory-Based Shallow Parsing – strojové učení s učitelem – jednoduchá, efektivní metoda – flexibilní (vnořené fráze, …) – úspěšností srovnatelná s konkurencí • TiMBL – využívaná open-source implementace – paralelní, python a ruby interface, vizualizace, … Tomáš Drusa (256167@mail.muni.cz) 10 Děkuji za pozornost. • Zdroje: – TiMBL: Timburg Memory-Based Learner [on-line]. 7. října 2012 [cit. 11. 12. 2012]. WWW adresa: . – DAELEMANS, Walter, BUCHHOLZ, Sabine, and VEERNSTRA, Jorn. Memory-based Shallow Parsing. In Proceedings of EMNLP/VLC-99, p. 239–246. University of Maryland, USA, June 1999. Dostupné on-line na . Tomáš Drusa (256167@mail.muni.cz) 11 Pokud zbývá čas, nyní je vhodná chvíle na vaše dotazy.