Pražský závislostní korpus 2.0
Jiří Materna
4. března 2007
Pražský závislostní korpus 2.0
Co je PDT 2.0
Ručně anotovaný korpus českých textů
Značky postihují morfologii, syntax i sémantiku
Následník PDT 1.0
Celkem 2 miliony slov
2 mil. morfologie, 1.5 mil. syntax, 0.8 mil. sémantika
Pražský závislostní korpus 2.0
Určení PDT 2.0
Explicitně ověřit teorii funkčně generativním popisu (FGD)
použití závislostní syntaxe
zahrnutí hloubkové syntaktické roviny do lingvistického
popisu
formální popis informační struktury věty
Automatická analýza českých vět
Generování správně utvořených českých vět
Strojový překlad
Pražský závislostní korpus 2.0
Historie PDT
Pražský lingvistický kroužek
Inspirací anglický Penn Treebank
Nejprve pouze morfologická rovina
Po doplnění syntaktických závislostí vznikl PDT 1.0
V roce 2006 zveřejněna verze PDT 2.0, obsahující i
sémantické informace
Pražský závislostní korpus 2.0
Roviny anotace
Slovní rovina
Morfologická rovina
Analytická rovina
Tektogramatická rovina
Všechny roviny jsou navzájem propojené
Pražský závislostní korpus 2.0
Propojení rovin
Pražský závislostní korpus 2.0
Morfologická rovina
Rozdělení textu do vět a přiřazení atributů slovním
jednotkám
Pro každé slovo 3 hlavní atributy
lemma
tag ­ 15 pozic
id ­ jednoznačná identifikace slova ve větě
opravný atribut form
Pražský závislostní korpus 2.0
Morfologická rovina ­ anotace
Nejprve předzpracování morfologickým analyzátorem
Opravení chyb dvěma nezávislými anotátory
Neshody anotátorů opraveny třetím anotátorem
Pražský závislostní korpus 2.0
Analytická rovina
Reprezentována orientovaným závislostním stromem
Každému uzlu odpovídá slovní jednotka z morfologické
roviny
Hrany jsou ohodnoceny svým typem:
závislostní vztah
apozice
koordinace
apod.
Zaznamenáno pořadí slov ve větě
každý uzel má 6 atributů (id, ord, m.rf, . . . )
Pražský závislostní korpus 2.0
Analytická rovina ­ anotace
V první fázi úplná ruční anotace
Na hotových datech naučen parser
Parser spuštěn na zbytku dat
Data opravena anotátory
Neshody anotátorů rozhodnuty dalším anotátorem
Pražský závislostní korpus 2.0
Tektogramatická rovina
Reprezentována orientovaným závislostním stromem
Uzly zastupují pouze plnovýznamová slova
Ne všechny prvky morfologické roviny musí být
zastoupeny, nebo naopak (nevyjádřený podmět)
Aktuální členění (TFA, Topic-focus articulation)
kontextově zapojený
kontrastivně kontextově zapojený
kontextově nezapojený
Vyznačení koreference
Pražský závislostní korpus 2.0
Tektogramatická rovina ­ anotace
Stejný postup jako u analytické roviny
Aktuální členění, koreference a jiné atributy anotovány
ručně
Na závěr kontrola propojení mezi všemi rovinami
Pražský závislostní korpus 2.0
Zdroje dat
Textová data čerpána z:
Lidové noviny (deník), 1991, 1994, 1995
Mladá fronta Dnes (deník), 1992
Českomoravský Profit (ekonomický týdeník), 1994
Vesmír (populárně vědecký měsíčník), 1992, 1993
Odstraněny přepisy šachových partií, tabulky výsledků
sportovních utkání apod.
Pražský závislostní korpus 2.0
Rozdělení dat
Pražský závislostní korpus 2.0
Trénovací a testovací data
Data podle druhu učení rozdělena do 3 skupin
trénovací data (train)
vývojová testovací data (test)
evaluační testovací data (etest)
poměr rozdělení train/test/etest je přibližně 8:1:1
Pražský závislostní korpus 2.0
Nástroje ­ NetGraph
Aplikace pro prohledávání korpusu
Klient-server ­ současné prohledávání více uživateli
Server napsán v C/C++, klient v Javě
Dotazem je uzel nebo strom
Výsledkem dotazu všechny stromy, které zadaný strom
obsahují jako podstrom
Pražský závislostní korpus 2.0
Další Nástroje
TrEd ­ editace dat v korpusu
Btred/Ntred ­ perlovské skripty pro přímý přístup k datům
Dále několik prográmků pro konverzi dat mezi verzemi PDT
Pražský závislostní korpus 2.0
TrEd
Pražský závislostní korpus 2.0
Budoucnost PDT 2.0
Přidání mluvených dat
Přidání hlubší a širší anotace obzvláště pro koreferenci
Anotace jiného odlišného jazyka, např. angličtiny
přidání dalších vrstev anotace (reprezentace znalostí
založená na obsahu výpovědi)
Pražský závislostní korpus 2.0