MLUVENÉ KORPUSY PRAHA – BRNO - OLOMOUC Úvod do korpusové lingvistiky 6 Korpusy dostupné z ČNK Rozsah a synchronnost mluvených korpusů PMK —Pražský mluvený korpus (PMK) je prvním korpusem mluvené češtiny a zachycuje autentickou mluvenou češtinu, hlavně obecnou a tématicky nespecializovanou, resp. neomezovanou, z oblasti Prahy a jejího okolí. Vzhledem k centrálnímu a jedinečnému postavení Prahy tu jazykově dochází k velkému míšení lidí ze všech oblastí ČR a obraz jejího jazyka má tudíž do značné míry celonárodní povahu; z Prahy vychází také nejvýznamnější mediální ovlivnění celé země. Magnetofonové nahrávky (v počtu 304), které jsou plně anonymní a byly postupně přepisovány do počítače, pocházejí z let 1988-1996 a odrážejí tedy jazyk jak konce předchozího společenského období tak začátek nového. BMK —Brněnský mluvený korpus (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zaznamenává autentickou tematicky nespecializovanou mluvu města Brna. BMK je elektronickým přepisem 250 anonymních magnetofonových nahrávek z let 1994-1999 zachycujících 294 mluvčích. —Značná pestrost brněnské mluvené češtiny odráží složitost sociální struktury velkoměsta, ústřední postavení Brna v rámci Moravy (dochází zde k míšení obyvatel z celého dosud nářečně diferencovaného regionu) a dále teritoriální blízkost k jazykovému území vlastních Čech. V běžné mluvě Brňanů se prolíná zejména středomoravský interdialekt s pronikající obecnou češtinou (s níž se v řadě rysů tradiční dialekt okolí města shoduje), v oblasti slovní zásoby jsou patrny relikty někdejšího soužití brněnské češtiny s německým jazykem a vliv brněnského slangu (hantecu). Mluvený jazyk v Brně reflektuje také celomoravskou tendenci širšího funkčního využití češtiny spisovné. — ORAL2006 —Mluvený korpus ORAL2006 je v pořadí třetím mluveným korpusem, který je dostupný v rámci projektu Český národní korpus. Zachycuje mluvenou češtinu z celé oblasti českých nářečí v užším slova smyslu. Jedná se o přepis 221 nahrávek z let 2002 - 2006. Všechny nahrávky vznikaly v neformálních situacích, to znamená, že se mluvčí vzájemně znali a měli k sobě přátelský vztah. Celkem bylo nahráno 6 693 minut, tj. asi 111 a půl hodiny, a v jejich rámci zaznamenáno 1 000 798 slov od 754 mluvčích. ORAL2008 —Korpus ORAL2008 představuje v rámci projektu Český národní korpus v pořadí již čtvrtý korpus mluvené češtiny. Zachycuje stejně jako ORAL2006 mluvu ve výhradně neformálních situacích. Jde však o první mluvený korpus ÚČNK, který je plně vyvážený v základních sociolingvistických kategoriích mluvčích (pohlaví, věková skupina, výše dosaženého vzdělání a oblast pobytu v dětství). Korpus ORAL2008 vychází ze stejné materiálové základny jako ORAL2006, avšak žádný z přepisů zařazených do korpusu ORAL2008 nebyl použitý v korpusu ORAL2006. ORAL2008 —Korpus je sestaven z přepisů 297 nahrávek, které byly v letech 2002-2007 pořízeny na různých místech po celém území Čech (tj. ne Česka). Zachycují autentickou mluvenou češtinu v přirozeném prostředí na území tradičně vymezovaném jako oblast českých nářečí v užším smyslu. Vzhledem k postupu nivelizačních procesů jde v projevech nejčastěji o obecnou češtinu a její regionální varianty. Všem nahrávkám je společné to, že byly pořízeny výhradně v neformálních situacích, mluvčí se vzájemně znali a měli k sobě přátelský vztah. Mluvčí nebyli předem informováni o účelu nahrávání, ten jim byl sdělen až po ukončení nahrávání. Všichni následně souhlasili s použitím nahrávky pro potřeby Českého národního korpusu. Nahrávky pro ORAL2008 představují 6 883 minut, tj. necelých 115 hodin, a v jejich rámci byly zaznamenány projevy 995 mluvčích. Celý korpus zahrnuje 1 000 097 slov. ORAL2013 —Korpus ORAL2013 se skládá z 835 nahrávek z let 2008–2011 a obsahuje 2 785 189 textových slov, tj. celkem 3 285 508 pozic; v sondách vystupuje celkem 2 544 mluvčích, z toho 1 297 unikátních. Nahrávky byly pořizovány v Čechách, na Moravě i ve Slezsku, jejich celková délka je 17 471 minut, tj. téměř 300 hodin. ORTOFON 2017 —ortografická transkripce —zjednodušená fonetická transkripce —je možné spustit nahrávku KWIC: https://www.korpus.cz/kontext/view?viewmode=kwic&pagesize=40&attrs=word&attr_vmode=visible-kwic&bas e_viewattr=word&refs=%3Ddoc.id&q=~SWWc4ekWEA8W&cutoff=0 — DIALEKT —https://wiki.korpus.cz/doku.php/cnk:dialekt —Nahrávky pro ČJA + další sběr —50.-80.léta XX. stol. —90. l. XX. stol. – XXI. stol. —Aplikace MAPKA •zvukový záznam nářečního projevu, •dialektologický a ortografický přepis projevu, •rozbor nářečních jevů obsažených v ukázce, •sociolingvistické údaje o nahrávce a mluvčích — — MAPKA DIALEKT SCHOLA2010 —Řešitelem korpusu SCHOLA2010 je v rámci výzkumného záměru MSM 0021620825 (Jazyk jako lidská činnost, její produkt a faktor) Ústav českého jazyka a teorie komunikace (ÚČJTK) UK FF. Jedná se o sociologicky i didakticky jedinečný korpus, protože vychází ze školního prostředí a zaznamenává mluvený jazyk vyučovacích hodin (především standardních vyučovacích hodin s délkou cca 45 min.). Uživatelům se nabízí jazykový materiál, v němž je zachycena mluva učitelů i žáků během vyučování. Zatím je to jediný veřejně přístupný korpus tohoto typu. Uvedený korpus se od ostatních mluvených korpusů zveřejněných v Českém národním korpusu (ČNK) liší také tím, že obsahuje mluvu dětí a mládeže. SCHOLA2010 —Korpus SCHOLA2010 tvoří 204 přepisů nahrávek vyučovacích hodin, pořízených v letech 2005–2008. Sondy pocházejí z různých míst České republiky, viz oddíl Statistiky ke korpusu Schola2010. 131 nahrávek bylo nahráno ve středočeské nářeční oblasti, 57 nahrávek ve východomoravské nářeční oblasti (vymezení nářečních oblastí se opírá o pojetí Běličovo, Nástin české dialektologie, 1972, a o členění nářečních oblastí v Českém jazykovém atlasu, 1992–2005, viz mapa nářečních oblastí podle ČJA), jde tedy i o teritoriálně různorodý jazykový materiál. Korpus vyučovacích hodin SCHOLA2010 —Zastoupení dle vyučovacích předmětů PARLCORP —Korpus českých parlamentní projevů — — Korpus prezidentských projevů —speeches https://wiki.korpus.cz/doku.php/cnk:speeches —written to be spoken Zásady přepisu —pravopis a přepis x fonetický přepis —interpunkce „pauzová“ —pravopis i-y —pravopis ě —délka vokálů —asimilace znělosti —zdvojené souhlásky —artikulační asimilace —cizí slova a propria —přitákání, odmítnutí, smích, komentáře, nesrozumitelné úseky, překryvy Sociolingvistické značkování —pohlaví —věk —vzdělání —teritoriální zařazení Ochrana poskytovatelů —prohlášení dovolující uveřejnění nahrávky za stanovených podmínek —vynechání veškerých údajů, přes něž by bylo možné „vysledovat“ hovořící (jména, adresy, tel. čísla, ...) Olomoucký mluvený korpus —Projekt dr. P. Pořízky UPOL —foneticky přepsané texty —http://korpling.webnode.cz/olomoucky-mluveny-korpus/ Publikace —Čeština v mluveném korpusu —Marie Kopřivová a Martina Waclawičová — Ke značkování mluvených korpusů —HLAVÁČKOVÁ, Dana a Klára OSOLSOBĚ. Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky. Kopřivová, Marie, Waclawičová, Martina. In Čeština v mluveném korpusu. 1. vyd. Praha: Nakladatelství Lidové noviny/ Ústav Českého národního korpusu, 2008. s. 105-114, 10 s. ISBN 978-80-7106-982-9. —https://wiki.korpus.cz/doku.php/cnk:lemtag_mluv —Kopřivová, M. - Lukeš, D. - Komrsková, Z. - Poukarová, P. (2017): Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In Korpus - Gramatika - Axiologie, 15, 47-67. —Lukeš. D. - Klimešová, P. - Komrsková, Z. - Kopřivová, M. (2015) : Experimental Tagging of the ORAL Series Corpora: Insights on Using a Stochastic Tagger. In: TSD 2015, Ed. P. Král a V. Matoušek. Springer international Publishing, 342-350. — Publikace — Publikace —Čermák, F. (ed.): Frekvenční slovník mluvené češtiny. Karolinum, Praha 2007. ISBN 978-80-246-1425-0 Příklady otázek v testu —Který byl první mluvený korpus zveřejnění ÚČNK? —Která další pracoviště se podílí na budování korpusů mluveného jazyka zveřejněných ÚČNK? —V jaké podobě jsou uložena data mluvených korpusů (typy transkripce, přístup k nahrávkám)? —Které publikace vznikly na základě mluvených korpusů češtiny? —Které z mluvených korpusů jsou lemmatizovanéa morfologicky označkované?