Korpusová lingvistika – 4
Budování korpusů
Mluvené korpusy
Mgr. Dana Hlaváčková, Ph.D.
CJBB105
Budování korpusů
• specifikace cíle a účelu korpusu
• specifikace cílové skupiny uživatelů
• specifikace typu korpusu
• výběr a sběr jazykového materiálu
• autorská práva (anonymizace)
• zpracování textů – vertikál, kódování
• vnitřní a vnější značkování
• hardwarové a softwarové vybavení
• personální zajištění a finační podpora
Budování korpusů podle jejich typu
• tradiční synchronní psané korpusy
• webové synchronní psané korpusy
• specializované korpusy
• mluvené korpusy
Budování tradičních korpusů
• Český národní korpus (korpus.cz)
• výběr textů – vyváženost a reprezentativnost korpusu
• dohody s poskytovateli textů (autorská práva)
• texty v elektronické podobě
• odstranění netextového obsahu (obrázky, grafy, tabulky)
• sjednocení kódování
• záznam metatextových informací (autor, dílo, rok vydání)
• vertikál – tokenizace
• atributy – poziční (word, lemma, tag) a strukturní (opus,
doc, s)
• lemmatizace a morfologické (syntaktické) značkování
Budování webových korpusů
• Centrum zpracování přirozeného jazyka FI MU, czTenTen12, czTenTen17
• Sketch Engine (ske.fi.muni.cz)
• autorská práva – veřejně dostupné texty na Internetu
• web crawler SpiderLing – stahování textů
• jusText – odstranění boilerplate (netextového obsahu) z webové stránky
• vybírá text obsahující celé věty
• onion (ONE Instance ONly) – odstranění duplikátů
• chared (character encoding) – sjednocení kódování, pro řadu jazyků
• Corpus Architect – tvorba korpusů
• nahrávání textů v elektronické podobě uživatelem
• WebBootCaT – texty z webu
• seed words (klíčová slova)
• URLs (adresy webových stránek)
Budování mluvených korpusů – nahrávka
• specifikace typu zaznamenané promluvy
– monolog – dialog
– formální – neformální (poloformální)
– připravená – nepřipravená
• specifikace délky nahrávky
• specifikace mluvčích a sociolingvistických kategorií (pohlaví, věk,
vzdělání, teritoriální zařazení), vyváženost korpusu
• autorská práva (prohlášení nahrávajícího) a anonymizace
citlivých údajů
• pořízení kvalitní digitální nahrávky (diktafony), příp. úprava
nahrávky (oříznutí)
Budování mluvených korpusů – přepis
• korpusy řady ORAL – spontánní dialogy
• přepis nahrávek podle stanovených pravidel
• nástroj ELAN, dříve Transcriber
• segmentace přepisu a synchronizace segmentů
• ortografický přepis, fonetický přepis, ORTOFON (2017)
• pauzová interpunkce
• hezitační a jiné zvuky, přeřeknutí, smích, citoslovce,
nesrozumitelné úseky, neverbální zvuky
• simultánní úseky
• ideál – multimediální korpus, např. DIALOG (ÚJČ)
Pražský mluvený korpus
• první korpus mluvené češtiny, 675 tis. slov
• autentická mluvená čeština, tematicky nespecializovaná
• z městského prostředí Prahy a jejího okolí
• neformální dialogy, poloformální řízený rozhovor (dotazník)
• magnetofonové nahrávky (304), přepis do MS Word
• z let 1988–1996, odrážejí jazyk jak konce předchozího
společenského období, tak začátek nového
• pravidla přepisu ortografická, pro obecnou češtinu
• větná interpunkce
• bez záznamu překryvů (simultánních úseků)
Brněnský mluvený korpus
• první korpus mluvené češtiny z oblasti Moravy, 490 tis. slov
• běžně mluvený jazyk z městského prostředí Brna
• 250 anonymních magnetofonových nahrávek z let 1994–1999,
294 mluvčích
• prolíná se středomoravský interdialekt s obecnou češtinou
• v oblasti slovní zásoby zbytky někdejšího soužití brněnské češtiny
s německým jazykem a vliv brněnského slangu (hantecu)
• neformální a poloformální dialogy
• v pravidlech přepisu zohledněna specifika brněnské mluvy
• pauzová interpunkce
• zachyceny překryvy
Korpusy řady ORAL
• ORAL2006 – mluvená čeština z celé oblasti českých nářečí
• 221 nahrávek z let 2002–2006
• pouze neformální dialogy, přátelský vztah mezi mluvčími
• 111,5 hodin, 1 000 798 slov od 754 mluvčích
• ORAL2008 – plně vyvážený v základních sociolingvistických
kategoriích (pohlaví, věk, vzdělání, oblast pobytu v dětství)
• 297 nahrávek z let 2002–2007
• výhradně neformální situace
• 115 hodin, 1 000 097 slov od 995 mluvčích
Korpusy řady ORAL
• ORAL2013 – nahrávky pořízeny v Čechách, na Moravě i ve
Slezsku
• 835 nahrávek z let 2008–2011
• 2 785 189 textových slov, tj. celkem 3 285 508 pozic
• 2 544 mluvčích, z toho 1 297 unikátních
• délka téměř 300 hodin
Korpusy řady ORAL
• ORAL – sjednocuje předchozí korpusy
• (+ ORAL-Z)
• nevyvážený, referenční
• 5,4 mil. slov
• snaha o sjednocení transkripce
• lemmatizace a morfologické značkování
Korpus ORTOFON
• plně vyvážený
• Čechy, Morava, Slezsko
• ortografická a fonetická transkripce
• lemmatizace a morfologické značkování
• cca 1 mil. slov z let 2012–2017
Korpus DIALEKT
• 100 tis. slov, referenční
• dialektologická a ortografická transkripce
• celé území ČR, dělení dle Mapy nářečních oblastí
ČR
• starší část 50.–80. léta 20. st.
• novější část 90. léta – současnost
• starší generace (nad 60. let)
• řízený rozhovor (osvědčená témata)
• lemmatizace a morfologické značkování