TiMBL – Shallow parser
Tomáš Drusa (256167)
TiMBL
• Open-source software z Tilburg University, NL
• Implementace učení z instancí (memory-based
learning)
– IB1-IG (k nejbližších sousedů s váhováním)
– IGTree (aproximace rozhodovacím stromem)
2Tomáš Drusa (256167@mail.muni.cz)
Shallow parsing
• Neboli chunking; „mělká“ analýza textu
• Určení jmenných, předložkových a slovesných
frází a vztahů mezi nimi v textu
Tomáš Drusa (256167@mail.muni.cz) 3
[My sisters] [have not seen] [the old man] lately.
NP NP
Proč učení z instancí?
• Strojové učení
– minimalizace ruční práce (regulární výrazy…)
– obecněji použitelné (jiná data, jazyk)
• Učení z instancí
– umožňuje lépe odlišit jazykové výjimky od šumu
– podobnostní vyhlazování na neúplných datech
Tomáš Drusa (256167@mail.muni.cz) 4
Chunking jako klasifikace
• Analýza textu jako série klasifikačních úloh
• Chunking
– pro každé slovo na základě lemmat a POS tagů
kontextu <2, 1> urči třídu = značku typu fráze
Tomáš Drusa (256167@mail.muni.cz) 5
Pierre Vinken , 61 years old , will join the
board as a nonexecutive director Nov 29 .
NPi NPi O NPi NPi VPi VPi NPiO O
NPi NPi NPi NPi NPiO ONPb
Výsledky
• Angličtina, korpus WSJ
• Testování na 1/25 korpusu, trénink na zbytku
• Průměrné hodnoty z 25 běhů
Tomáš Drusa (256167@mail.muni.cz) 6
Vztahy frází jako klasifikace
• Hledání a určování typů vztahů mezi frázemi
– pro potenciální dvojici frází (slovesná – jmenná)
– žádný vztah / je podmětem / je předmětem
– na základě:
• lemmatu a značky slovesa slovesné fráze
• lemmat a značek kontextu <2, 1> jmenné fráze
• vzdálenosti (počtu mezilehlých slov/frází)
• počtu mezilehlých čárek (,)
• počtu mezilehlých slovesných frází
Tomáš Drusa (256167@mail.muni.cz) 7
Vztahy frází jako klasifikace
• Které dvojice jsou potenciální?
– příliš široký záběr -> zahlcení šumem a pomalost
– praxe (AJ): maximálně 1 mezilehlá slovesná fráze
• Hlasování
– IGTree lépe zvládá předmětné, lepší precision
– IB1-IG lépe zvládá podmětné, lepší recall
Tomáš Drusa (256167@mail.muni.cz) 8
Výsledky
Tomáš Drusa (256167@mail.muni.cz) 9
Závěr
• Memory-Based Shallow Parsing
– strojové učení s učitelem
– jednoduchá, efektivní metoda
– flexibilní (vnořené fráze, …)
– úspěšností srovnatelná s konkurencí
• TiMBL
– využívaná open-source implementace
– paralelní, python a ruby interface, vizualizace, …
Tomáš Drusa (256167@mail.muni.cz) 10
Děkuji za pozornost.
• Zdroje:
– TiMBL: Timburg Memory-Based Learner [on-line]. 7. října 2012 [cit. 11. 12. 2012]. WWW
adresa: .
– DAELEMANS, Walter, BUCHHOLZ, Sabine, and VEERNSTRA, Jorn. Memory-based Shallow
Parsing. In Proceedings of EMNLP/VLC-99, p. 239–246. University of Maryland, USA,
June 1999. Dostupné on-line na .
Tomáš Drusa (256167@mail.muni.cz) 11
Pokud zbývá čas, nyní je vhodná chvíle na vaše dotazy.