Zkušenosti s tvorbou korpusů češtiny v ÚČJ FF MU v Brně Zdeňka Hladká Podkladem pro následující text byla přednáška v pobočce Jazykovědného sdružení ČR na Filozofické fakultě UK v Praze (9. 12. 2004). Úvod Práce s elektronickými korpusy umožňujícími rychlé vyhledávání a statistické hodnocení velkého množství autentických jazykových dat se v posledních letech stává samozřejmostí i v oblasti zkoumání slovanských jazyků. V českém prostředí je institucionálním centrem korpusové lingvistiky Ústav Českého národního korpusu založený v r. 1994 a fakticky fungující na Filozofické fakultě Karlovy univerzity od října 1996. Na tomto pracovišti vznikl Český národní korpus (ČNK), jehož zatím nejdůležitější částí je reprezentativní synchronní korpus SYN2000 obsahující cca 100 milionů slovních výskytů. Shromažďuje psané, tj. v zásadě spisovné texty ve stylových proporcích 60 % publicistiky, 25 % odborné literatury a 15 % beletrie. Snahou pražského korpusového centra je posílit reprezentativnost ČNK rozšířením pestrosti jeho skladby, a to zachycením mluveného jazyka a zařazením perifernějších typů textů do korpusu jazyka psaného. Do tohoto úsilí se zapojil i Ústav českého jazyka Filozofické fakulty Masarykovy univerzity: v počáteční fázi vytvořením korpusu běžné mluvy města Brna, v současné době přípravou korpusu soukromé korespondence. První z uvedených korpusů v následujícím příspěvku zmíníme pouze stručně, druhému, který je ve stadiu přípravy a testování, se budeme věnovat detailněji. 1. Korpusové zpracování mluveného jazyka Význam studia mluveného jazyka, který je z hlediska fylogenetického i ontogenetického primární formou jazykové komunikace a v reálu se na ní podílí devadesáti procenty, není třeba připomínat. Vytváření přístupných referenčních zdrojů pro toto studium je však obtížné a časově velmi náročné. S problémem zachycení mluveného jazyka se potýká i většina elektronických korpusů (např. British National Corpus, který je jakýmsi korpusovým vzorem, obsahuje pouze 10 % mluvených textů). 1.1 Sběr materiálu Pro korpusové účely je nejprve nutno mluvený jazyk zaznamenat v co nejpestřejší škále situací, a to tak, aby nahrávky byly technicky kvalitní a zároveň přinášely dostatečně spontánní, nestylizovaný projev. Optimální by bylo pořizovat nahrávky tajné, to však naráží Tento dokument byl zhotoven v Print2PDF. Po registraci Print2PDF se tato informace nebude zobrazovat. Produkt Print2PDF lze zakoupit na http://www.software602.cz na překážky legislativní a morální. Je tedy třeba volit různé kompromisní postupy, např. tajně nahrávat mluvčí z okruhu příbuzných a známých a následně od nich získat svolení ke korpusovému zveřejnění promluv. Nebo alespoň pořizovat nahrávky s fingovaným účelem (např. jako sociologický průzkum), aby mluvčí nevěnovali příliš pozornosti jazykové stránce svého projevu. Při nahrávání je třeba brát v úvahu i to, že záznam rozhovoru více než dvou mluvčích přináší komplikace při identifikaci a přepisu jednotlivých replik. 1.2 Přepis Náročnou prací je také přepis nahrávek. Elektronické nástroje, které by byly schopny přesně analyzovat zvukový záznam promluv od mnoha různých mluvčích, zatím nejsou k dispozici. Přepisy je tedy nutno pořizovat ručně. Důležitá je přitom volba transkripčních pravidel. V podstatě jde o rozhodování, zda korpusovou podobu co nejvíce přiblížit přesnému fonetickému znění, nebo naopak pravopisným konvencím užívaným v psaných spisovných textech. První způsob je přesnější a bližší realitě, druhý je čitelnější pro běžného uživatele korpusů a zároveň přístupnější pro korpusové nástroje, které jsou zatím primárně vytvářeny pro analýzu jazyka psaného (převážně spisovného), a jsou tedy ,,přivyklé" jeho pravopisné i grafické podobě. Dosavadní pokusy přepisu mluveného jazyka v elektronických korpusech češtiny (např. v PMK a BMK, viz dále) kompromisně spojují obě uvedené možnosti. Zčásti se řídí pravopisnými konvencemi, např. v reflexi znělostní asimilace, v psaní i/y, ě apod., zčásti uchovávají realitu projevu, např. při záznamu zjednodušené výslovnosti (du, sem, prože, šesnác, srce); k problematickým otázkám patří mj. reflexe splývavé výslovnosti na hranici slov, na jejíž zachycení se většinou rezignuje, protože by komplikovalo delimitaci lexikálních jednotek. 1.3 Morfologické značkování Dalším nelehkým úkolem při tvorbě korpusů, jejichž účelem je přinášet co nejvíce informací o jazyce, je lingvistické značkování shromážděného materiálu. Zatím nejčastější je značkování morfologické. Ruční značkování by bylo časově neúnosné, proto snahy korpusové lingvistiky směřují k vytváření nástrojů umožňujících automatickou morfologickou analýzu. Čeština je sice v tomto směru vzhledem k velké míře homonymie jazykem značně problematickým, v oblasti automatické morfologické analýzy a následné disambiguace psaných spisovných textů se však už podařilo dosáhnout značných úspěchů. Značkování korpusů mluveného jazyka je ale mnohem obtížnější, a to i v případě, že je přepis nahrávek v co největší míře přizpůsoben pravopisné konvenci, na niž jsou analyzátory ,,zvyklé". Běžně mluvený jazyk je totiž složitým konglomerátem různých jazykových útvarů a vrstev, má uvolněnou stavbu (takže např. při desambiguaci, tj. zjednoznačňování homonymních forem, Tento dokument byl zhotoven v Print2PDF. Po registraci Print2PDF se tato informace nebude zobrazovat. Produkt Print2PDF lze zakoupit na http://www.software602.cz v podstatě nelze užít pomocných syntaktických pravidel), objevují se v něm různá komolení, nedořečení, opakování apod. Tyto rysy komplikují automatické rozpoznávání slovních forem i určování kritérií pro jejich přiřazování k lexikálním lemmatům (podrobněji o problematice lemmatizace ­ i když zejména ve vztahu ke korpusům psaného jazyka ­ např. Petkevič, 2004). Morfologické značkování korpusů mluveného jazyka vyžaduje speciální úpravu nástrojů vytvořených pro analýzu psaných textů a zároveň mnohem větší podíl ruční práce. Z výše naznačených a z řady dalších důvodů je vytváření korpusů mluveného jazyka v českém prostředí (ale i v zahraničí) zatím v úplných začátcích. Také korpus brněnské mluvy, který následně stručně představíme, je nutno vzhledem k jeho velikosti a řadě metodologických nedokonalostí považovat pouze za cvičný pokus v dané oblasti. 1.4 Brněnský mluvený korpus Tzv. Brněnský mluvený korpus (BMK, resp. ORAL-BMK) je od r. 2002 veřejně přístupný jako součást ČNK (bližší informace http://ucnk.ff.cuni.cz). Vznikl výběrem materiálu z rozsáhlejšího pracovního souboru nahrávek a přepisů mluvené češtiny města Brna vytvářeného v 90. letech 20. století v ÚČJ FF MU. BMK obsahuje elektronický přepis 250 magnetofonových nahrávek z let 1994-1999 zachycujících 294 mluvčích (rodilých Brňanů). Rozsah korpusu je zhruba 600 tisíc pozic. Všechny texty byly digitalizovány i ve zvukové podobě, která je k dispozici v ÚČJ FF MU. BMK byl ve snaze o kompatibilitu vytvářen v souladu s hlavními zásadami už dříve vytvořeného Pražského mluveného korpusu (PMK), přístupného rovněž v rámci ČNK. Znamená to především, že se snažil ve vyvážených proporcích obsáhnout čtyři sociolingvistické proměnné: pohlaví mluvčího, věk (ve 4 věkových kategoriích), vzdělání (ve 3 kategoriích) a 2 typy promluvy: formální a neformální. BMK obsahuje 135 tzv. formálních nahrávek (vytvářených sledem odpovědí na otázky kladené podle jednotného dotazníku) a 115 nahrávek neformálních (tvořených tematicky volným dialogem blízkých osob). Každá nahrávka BMK byla dále doplněna zpřesňujícími informacemi o mluvčích, o roku svého vzniku, případně relevantními údaji o situaci promluvy (tyto informace jsou v ČNK skryté). Pravidla přepisu nahrávek v BMK také v základních rysech odpovídala pravidlům užívaným v PMK, šlo tedy o účelovou kombinaci fonetického zápisu a standardních pravopisných norem (detailnější informace o přepisu v BMK je možno vyhledat na výše zmíněné internetové adrese). Specifika BMK spočívají kromě drobností především v pokusu o nahrazení tradiční interpunkce interpunkcí pauzovou a ve striktním zachycování simultánnosti dialogických promluv. V řešení obou jevů mají jak pravidla PMK, tak pravidla BMK své přednosti i nevýhody. Způsob zvolený v PMK do jisté míry znásilňuje skutečnost Tento dokument byl zhotoven v Print2PDF. Po registraci Print2PDF se tato informace nebude zobrazovat. Produkt Print2PDF lze zakoupit na http://www.software602.cz (interpunkce podle pravopisné normy je do značné míry umělá, zvláště v neformálních dialogických promluvách nevystihuje reálně členění mluveného jazyka; nezdá se také pravděpodobné, že by se ve spontánním dialogu neobjevila simultánnost, kterou PMK nezachycuje), na druhé straně způsob užitý v BMK se ve výsledku ukázal jako ne příliš vhodný pro korpusové zpracování jazykového materiálu. Pauzová interpunkce je náročnější, což vedlo (i přes několik sjednocujících kontrol) k diferencím zápisu u jednotlivých přepisovatelů. Co se týče simultánnosti, v podstatě jakýkoli grafický systém jejího zachycení, který je naprosto transparentní v souvislých přepisech celého dialogu, je většinou méně transparentní pro uživatele korpusu pracujícího s množstvím krátkých, z kontextu vytržených úseků různých promluv. Způsob zápisu, který byl zvolen v BMK, sice s korpusovým užitím počítal a je v každém dokladu jednoznačně dešifrovatelný, poněkud však komplikuje vyhledávání konkordancí a vyžaduje od uživatele větší soustředěnost při filtraci získaných dat. Nabízí se tedy otázka k diskusi, zda regulovaná rezignace na přesnost zachycení reálné podoby jazykového projevu nemůže být při přípravě relativně rozsáhlých korpusových materiálů někdy přípustná, ba dokonce výhodná, jestliže zjednodušuje práci jak tvůrcům, tak i uživatelům korpusu a není v rozporu s hlavním účelem, který má korpus plnit (většina korpusů je zatím utvářena hlavně jako materiálový zdroj pro studium jevů lexikálních a morfologických). BMK je v ČNK zatím uložen bez morfologického značkování. Užití morfologického analyzátoru vytvořeného pro spisovný jazyk je v případě BMK komplikováno nejen obecně mluvenostními rysy textů, ale také zvláště výraznou hláskovou, tvarovou i lexikální variabilitou brněnské mluvy (tj. prolínáním dialektických, interdialektických, obecněčeských i spisovných podob). Na Fakultě informatiky Masarykovy univerzity se už delší dobu připravují úpravy analyzátoru ajka (vytvořeného primárně pro morfologickou analýzu spisovného jazyka; viz např. Sedláček ­ Smrž, 2001), které by se měly vyrovnat alespoň s některými specifiky brněnské mluvy a umožnit v co největším rozsahu její automatickou analýzu (detailněji např. Hlaváčková, 2002). I v případě užití tohoto analyzátoru bude nutné automatickou analýzu doplnit ručním značkováním. 2. Korpus soukromé korespondence Soukromá korespondence přináší řadu informací o jazykovém úzu, které lze jen obtížně čerpat z jiných zdrojů. K jejím přednostem patří především značná autenticita, neformálnost a spontánnost projevu (v tomto smyslu jsou se soukromými dopisy srovnatelné snad jen tajně pořízené nahrávky běžné mluvy). Významná je též pestrost teritoriální příslušnosti pisatelů, která umožňuje alespoň doplňkové studium územně diferenčních Tento dokument byl zhotoven v Print2PDF. Po registraci Print2PDF se tato informace nebude zobrazovat. Produkt Print2PDF lze zakoupit na http://www.software602.cz jazykových jevů, aniž by bylo nutno provádět náročný terénní výzkum. Lingvisticky relevantním znakem soukromé korespondence je i její oscilace mezi mluveností a psaností, nespisovností a spisovností. Korespondenční texty mají značnou přitažlivost také pro klasickou stylistiku, textovou lingvistiku, pragmalingvistiku apod. Kromě zmíněných hodnot je vytváření korpusu soukromé korespondence v současné době cenné i tím, že možná v poslední fázi zachycuje tradiční ručně psané dopisy a zároveň mapuje první stadium korespondence využívající elektronická media. 2.1 Sběr materiálu Korpus soukromé korespondence vzniká v ÚČJ FF MU od konce 90. let 20. století. V současné době se opírá o archiv obsahující zhruba 3000 elektronických přepisů ručně psaných dopisů, 1500 e-mailů a 1000 SMS zpráv. Datace shromážděné korespondence se pohybuje v rozmezí posledních 15 let, autoři pocházejí z celého území České republiky, jsou to většinou mladí lidé a převažují mezi nimi ženy. Dopisy jsou sbírány anonymně, jejich dárci uvádějí na kartičky připojené ke každému dopisu pouze standardizované základní údaje o pisateli a adresátovi. Legislativní (i morální) problém se zveřejněním soukromé korespondence je řešen tím, že dopisy jsou získávány od adresátů, tedy se svolením alespoň jednoho účastníka komunikace. Sám adresát z nich navíc vyškrtá všechny identifikační údaje (pokud to neudělá důsledně, jsou eliminovány ve fázi přepisu dopisu). 2.2 Přepis Při přepisu do elektronické verze je striktně dodržována původní podoba dopisů (pouze identifikační údaje jsou nahrazeny sjednocujícím znakem a skrytou vyvolatelnou informací, zda jde o příjmení, adresu, telefonní číslo apod.; nedořešenou otázkou zůstává, mají-li být ponechány, nebo odstraněny přezdívky). Zvláštními znaky jsou zachycovány také informace o grafické úpravě dopisů (např. o textovém členění pomocí odstavců, o typech písma, o obrázcích). Zvlášť označovány jsou také citátové pasáže (v rozsahu věty a více), které budou v korpusu sice odhalitelné, ale nebudou podléhat běžnému vyhledávání a statistickým analýzám, aby nezkreslovaly obraz jazyka soukromé korespondence. Přepisy důsledně zachovávají i pravopisné chyby. Tento postup je samozřejmě diskutabilní: na jedné straně je jistě informativní ­ umožňuje porovnávat dodržování pravopisných norem v klasické a e-mailové korespondenci nebo u různých věkových a vzdělanostních vrstev pisatelů, pomáhá hledat současné pravopisné tendence, což lze využít pro kodifikační účely nebo pro školskou praxi, apod. Na druhé straně pravopisné chyby komplikují automatickou analýzu textu při morfologickém značkování (buď analyzátoru Tento dokument byl zhotoven v Print2PDF. Po registraci Print2PDF se tato informace nebude zobrazovat. Produkt Print2PDF lze zakoupit na http://www.software602.cz vůbec znemožňují rozpoznat špatně napsané slovo ­ např. nábitek, což je ještě ta lepší varianta, protože pak na takové slovo upozorní právě fakt, že zůstalo neoznačkováno, nebo, což je horší možnost, vedou analyzátor k mylným závěrům ­ např. grafická podoba noví je analyzována jako nominativ plurálu životných maskulin, ale v dopise může jít o chybný zápis spisovného nominativu, příp. u neživotných i akuzativu singuláru maskulin, nebo o chybný zápis celé řady obecněčeských tvarů; takové mylně označkované případy se pak v korpusu obtížně odhalují). Pravopisné chyby mohou způsobovat komplikace i uživatelům elektronických korpusů, protože problematizují vyhledání a usouvztažnění všech výskytů téhož slova nebo tvaru při frekvenčních analýzách. Možným a asi nejvhodnějším řešením by bylo vytvářet hned při přepisu do elektronické podoby v případech narušení pravopisné normy dvě propojené podoby ­ pravopisně správnou a reálnou. V přípravě brněnského KSK se však postupovalo trochu jinak, tj. (ne)dodržování pravopisných pravidel se zachycovalo ve shodě s realitou a řešení pravopisné substandardnosti bylo přesunuto až do fáze morfologického značkování, resp. disambiguace. V této fázi je pak k pravopisně chybné formě, pokud je ovšem odhalena, přidáváno pravopisně správné lemma a zvláštní poznámka informující o pravopisné nekorektnosti. Lemma pak umožňuje při vyhledávání usouvztažnit graficky chybnou podobu s podobami správnými. Poměrně složitá pravidla jsou užívána pro přepis e-mailů nedodržujících diakritiku českých slov (v e-mailech, které vůbec neužily diakritiku, je diakritika doplňována, v e- mailech, které ji užily částečně, a je tedy zřejmé, že technické vybavení její užití umožňovalo, je ponecháván reálný stav. Je to samozřejmě opět problematické řešení mající svá pro a proti podobně jako zmíněné zachycování pravopisných chyb). SMS zprávy jsou zpracovávány zcela samostatným způsobem do zvláštní databáze, která nebude součástí elektronického korpusu (v SMS zprávách totiž ještě výrazněji narůstá problém s diakritikou, připojuje se komplikace časté nestandardní zkratkovistosti a především splývavého zápisu, který znemožňuje delimitaci slov ­ viz např. klasické spojení jaxemáš). 2.3 Základní parametry připravovaného korpusu korespondence Ze shromážděného přepsaného materiálu v současné době vzniká korpus 2000 klasických a 1000 e-mailových dopisů celkově reprezentujících 3 000 různých pisatelů. (Zajištění diferenčnosti pisatelů při anonymním sběru korespondence vyžadovalo mnohdy náročnou ruční kontrolu dopisů vykazujících shodu v obecných sociolingvistických charakteristikách, o nichž viz dále.) Tento korpus obsahuje v části shromažďující klasické dopisy cca 940 tisíc pozic, v části e-mailových dopisů cca 220 tisíc pozic. Zastoupeny jsou v něm všechny věkové kategorie, akcentována je však korespondence mladých lidí, která Tento dokument byl zhotoven v Print2PDF. Po registraci Print2PDF se tato informace nebude zobrazovat. Produkt Print2PDF lze zakoupit na http://www.software602.cz nejlépe dokládá vývojové tendence češtiny a také nejlépe vypovídá o proměnách žánru a stylu v souvislosti s přechodem mezi klasickou korespondencí a korespondencí elekronickou. Část korpusu obsahující elektronický přepis klasických dopisů by měla být v budoucnu propojena s digitálními fotokopiemi originálů, které už jsou k tomuto účelu připraveny. 2.4 Sociolingvistické charakteristiky Každý dopis v korpusu je označen kombinací značek reflektujících sociolingvistické parametry. Tvoří je: pohlaví, věk (4 kategorie) a vzdělání (3 kategorie) pisatele i adresáta (v těchto informacích korpus udržuje kompatibilitu s PMK a BMK), dále teritoriální (nářeční) zázemí pisatele (zpracované do číselných kódů podle nářečních oblastí v Českém jazykovém atlase), typ vztahu mezi pisatelem a adresátem a rok napsání dopisu. Vyhledávací program Bonito ­ Manatee (autor Pavel Rychlý, viz např. Rychlý, 2000; Rychlý ­ Smrž 2004), pod nímž je pracovní verze korpusu uložena, umožňuje v případě potřeby pracovat pouze s vybranou částí textů na základě zadané kombinace těchto charakteristik. Stávající velikost korpusu pochopitelně nedovoluje smysluplně využít všechny kombinace parametrů, už teď se ale ukazuje jako statisticky relevantní např. vyhledávání teritoriálně nebo genderově podmíněných jazykových jevů. 2.5 Morfologické značkování V současné době se začíná pracovat také na morfologickém značkování korpusu korespondence, konkrétně té části, která obsahuje ručně psané dopisy. Automatická analýza je ztěžována hraničním postavením korespondenčních textů mezi psaností a mluveností. To s sebou přináší v ještě větší míře nežli u mluveného jazyka střídání standardního (spisovného) jazykového kódu s kódy substandardními (často i v rámci jediné věty, např. ...učitelé jsou někteří dobrý...). Při analýze korpusu zahrnujícího dopisy pisatelů z Čech, Moravy a Slezska je nutno počítat nejen s prolínáním spisovné a obecné češtiny, ale i s potenciálním výskytem lexikálních, morfologických a hláskových prvků všech nářečí. Dopisy mladých lidí navíc často obsahují kreativní okazionalismy, citátová cizojazyčná slova, atypicky adaptované přejímky apod. V neposlední řadě ztěžují automatické zpracování i zatemňující pravopisné chyby, o nichž už byla řeč. Morfologické značkování korpusu korespondence je zatím v pokusné fázi. Podobně jako při značkování BMK se užívá modifikovaná verze automatického morfologického analyzátoru ajka (detailněji Hlaváčková ­ Sedláček, 2004). Zjednodušeně řečeno: analyzátor ajka, se opírá o morfologickou databázi i_par (autor Marek Veber, 2003), která vychází z algoritmického popisu české formální morfologie (Osolsobě, 1996). Podstatou je segmentace slov na kmen a koncovku. Kmen je ještě dále členěn na neměnnou základní část a na tu část, která se Tento dokument byl zhotoven v Print2PDF. Po registraci Print2PDF se tato informace nebude zobrazovat. Produkt Print2PDF lze zakoupit na http://www.software602.cz během flexe mění (nejčastěji kvůli hláskovým alternacím), tzv. intersegment. Výsledkem segmentace jsou tři inventáře segmentů ­ koncovkové množiny, intersegmenty a vlastní kmenové základy. I_par obsahuje slovník kmenů (opírající se o SSJČ), s nímž jsou propojeny množiny koncovek a intersegmentů a pravidla (vzory) určující, které z možných kombinací intersegmentů a koncovek jsou přípustné pro daný kmenový základ. Při automatické analýze textu je pak každá slovní forma analyzátorem zkoumána odzadu, a pokud je identifikována, je k ní přiřazeno lemma, tj. základní tvar (nominativ, infinitiv) a dále značky pro gramatickou charakteristiku zkoumaného tvaru. Protože jsou slovní formy zkoumány bezkontextově, v silně homonymní češtině přiřadí analyzátor ke zkoumanému slovnímu tvaru zpravidla více interpretací. Kontextové zjednoznačnění ­ tzv. desambiguace ­ se pak provádí buď ručně, nebo zčásti automaticky, např. na základě využití syntaktických pravidel. V první fázi byl korpus soukromé korespondence označkován neupraveným analyzátorem určeným pro spisovnou češtinu. Po vytřídění slov, která zůstala zcela bez morfologické značky, byl vytvořen jejich frekvenční seznam. Při přípravě modifikovaného analyzátoru se pak pracovalo jen s těmi, která měla frekvenci minimálně 5. V seznamu neoznačkovaných forem se objevila jednak slova lišící se od spisovné češtiny pouze koncovkou, jednak slova lišící se jiným způsobem, tj. hláskovou změnou kmene, slovotvornou či lexikální diferencí (slova pouze pravopisně substandardní byla vytříděna zvlášť). Úpravy analyzátoru reflektují uvedené dvě základní skupiny trochu rozdílně: případy nespisovných koncovek připojovaných ke spisovnému kmeni řeší rozšířením koncovkových množin analyzátoru o varianty substandardních útvarů, ostatní případy zahrnutím do databáze i_par. V prvním případě analyzátor k morfologickým značkám automaticky přidává atribut upozorňující na koncovkovou nespisovnost, ve druhém případě je připojena zatím skrytá, ale vyvolatelná poznámka o substandardnosti. Tyto informace by měly při vyhledávání v korpusu umožňovat identifikaci slovních forem neodpovídajících spisovné češtině. Přitom je třeba říci, že všechna textová slova v korpusu, která se liší se od spisovné varianty jen pravidelnou nářeční či obecněčeskou koncovkou nebo pravidelnou nářeční hláskovou obměnou kmene, příp. pouze pravopisem, by měla mít v konečné fázi spisovné lemma (na rozdíl od nářečních, slangových a různě okazionálních slovotvorných a lexikálních variant). Z koncovek nespisovných útvarů byly do analyzátoru v první fázi přidány zatím především některé koncovky obecné češtiny a středomoravských dialektů, tj. kódů, které se na podobě jazyka soukromé korespondence vedle spisovné češtiny podílejí nejvíce (jednak proto, že dopisy z území, kde jsou tyto kódy základem běžné mluvy, jsou v korpusu zastoupeny nejpočetněji, jednak proto, že obecná čeština a zčásti i středomoravský dialekt mají větší tendenci projevit se v psané korespondenci nežli další územně podmíněné variety; o tom viz Hladká ­ Šindlerová, 2004). Tento dokument byl zhotoven v Print2PDF. Po registraci Print2PDF se tato informace nebude zobrazovat. Produkt Print2PDF lze zakoupit na http://www.software602.cz Po zatím provedených úpravách je morfologický analyzátor schopen rozpoznávat cca o 40 tisíc slovních výskytů více nežli před úpravami. Je však třeba si uvědomit, že rozšířením ,,rozsahu" analyzátoru na druhé straně vzrůstá počet slov nabízených k desambiguaci. Dosud provedené změny analyzátoru jistě zdaleka neřeší automatické značkování korpusu korespondence v komplexnosti. Analyzátor bude dále upravován (i v souvislosti s úpravami pro korpusy mluveného jazyka), impulsy k vylepšení jistě přinesou i zkušenosti s desambiguací, s níž se teprve začíná. Bez zapojení ruční práce se však značkování korpusu korespondence podobně jako značkování korpusů běžné mluvy neobejde. *** Nejbližším cílem zpracovávání korespondenčních textů v Ústavu českého jazyka na Filozofické fakultě Masarykovy univerzity v Brně je do konce roku 2005 (v rámci projektu GAČR 405/03/0248 Současná soukromá korespondence. Vytvoření databáze a zpracování vybraných jevů z pohledu lexikologicko-lexikografického a dialektologického, s jehož podporou je vypracována i tato stať) připravit a pokud možno i morfologicky označkovat korpus klasické korespondence a předat ho do ČNK. Dále uložit korpus klasických dopisů společně s korpusem e-mailů, sbírkou SMS zpráv a databází dalších údajů týkajících se soukromé korespondence na CD, které by mělo být k dispozici odborné veřejnosti. Druhá část přednášky, o niž se opírá tento příspěvek, byla věnována konkrétním příkladům využití korpusu soukromé korespondence pro lingvistický výzkum. Z prostorových důvodů je zde neuvádíme a odkazujeme na články, které se této problematice věnují detailněji. Všechny dosavadní analýzy byly zatím prováděny pouze na cvičných sondách, tj. na souborech majících rozsah maximálně 500 dopisů. Ukázaly např.: 1) využitelnost korpusu korespondence pro lexikologicko-lexikografické účely, konkrétně pro mapování expresivní a kolokviální vrstvy slovní zásoby, kterou tradiční česká lexikografie ­ mj. pro nedostatek vhodných referenčních zdrojů ­ dosud poněkud opomíjela (např. Hladká, 2000; Hladká 2005); 2) přínosnost korpusu korespondence pro poznávání vztahu dichotomií psanost ­ mluvenost a spisovnost ­ nespisovnost a pro odhalování teritoriálních diferencí ve funkční škále užívání spisovné češtiny a substandardních útvarů národního jazyka: (např. Hladká, 2001; Hladká ­ Šindlerová, 2004); 3) možnosti využití korespondenčních textů pro studium některých pragmatických aspektů komunikace, např. pro hledání genderových diferencí v komunikačních strategiích, v jazyce a stylu korespondenčních textů (např. Hladká, 2004). Soukromá korespondence nabízí využití ještě v mnoha dalších směrech. Relevantnost dat zjistitelných z elektronických korpusů epistolárních textů však bude limitována rozsahem a kvalitou těchto korpusů. V tomto smyslu je výše popsaný brněnský pokus pouze iniciačním krokem na možné cestě. Tento dokument byl zhotoven v Print2PDF. Po registraci Print2PDF se tato informace nebude zobrazovat. Produkt Print2PDF lze zakoupit na http://www.software602.cz Literatura HLADKÁ, Zdeňka: Několik poznámek k výběru lexikálních jednotek pro výkladové slovníky. In: O. Martincová ­ J. Světlá (eds.), Nová slovní zásoba ve výkladových slovnících. Praha : ÚJČ AV ČR 2000, s. 35-42. HLADKÁ, Zdeňka.: Spisovnost a nespisovnost v jazyce soukromé korespondence (se zřetelem k teritoriální příslušnosti pisatelů). Naše řeč, 5, 84, 2001, s. 225-234. HLADKÁ, Zdeňka: Korpus soukromé korespondence jako zdroj poznání jazykového úzu. In: M. Šimková (ed.), Tradícia a perspektívy gramatického výskumu na Slovensku. Bratislava : Veda 2003, s. 130-135. HLADKÁ, Zdeňka: Soukromá korespondence z hlediska rodových diferencí. In: V. Patráš (ed.), Súčasná jazyková komunikácia v interdisciplinárnych súvislostiach. Banská Bystrica : Univerzita Mateja Bela 2004, s. 469-475. HLADKÁ, Zdeňka: Univerbizace ­ korpusy ­ slovníky (malá materiálová sonda). In: R. Blatná ­ V. Petkevič (eds.), Jazyky a jazykověda. Sborník k 65. narozeninám prof. Františka Čermáka. ÚČNK FF UK : Praha 2005, s. 503-514. HLADKÁ, Zdeňka ­ ŠINDLEROVÁ, Hana: Jakou češtinou si dopisujeme na Moravě. In: J. Fiala (ed.), AUPO, Fac. Phil., Moravica 1. Olomouc: UP 2004, s. 105-114. HLAVÁČKOVÁ, Dana: Korpus mluvené češtiny. Diplomová práce na FF MU (rkp.), Brno 1998. HLAVÁČKOVÁ, Dana: Morfologické značkování korpusu brněnské mluvy. In: Z. Hladká ­ P. Karlík (eds.), Čeština ­ univerzália a specifika, 4, Praha : Nakladatelství Lidové noviny, 311-312. HLAVÁČKOVÁ, Dana ­ SEDLÁČEK, Radek: Morfologické značkování korpusu soukromé korespondence. Příspěvek přednesený na XIV. kolokviu mladých jazykovedcov v Šintavě u Seredi, Slovensko ­ 8.-10. 12. 2004. V tisku. OSOLSOBĚ, Klára: Algoritmický popis české formální morfologie a strojový slovník češtiny. Disertační práce na FF MU (rkp.), Brno 1996. PETKEVIČ, Vladimír: Perspektivy morfologického značkování (českých korpusů). Příspěvek přednesený na pracovním semináři ,,Obecné a specifické aspekty tvorby korpusů českého jazyka". Praha 25. 3. 2004. RYCHLÝ, Pavel: Korpusové manažery a jejich efektivní implementace. Disertační práce na FI MU (rkp), Brno 2000. RYCHLÝ, Pavel ­ SMRŽ, Pavel: Manatee, Bonito and Word Sketches for Czech. In Proceedings of the Second International Conference on Corpus Linguisitcs. Saint-Petersburg : Saint-Petersburg State University Press, 2004. s. 124-132. SEDLÁČEK, Radek ­ SMRŽ, Pavel: A New Czech Morphological Analyser ajka. In: Proceedings of of the 4th International Conference TSD 2001, Berlin: Springer Verlag, 2001, s.100­107. Tento dokument byl zhotoven v Print2PDF. Po registraci Print2PDF se tato informace nebude zobrazovat. Produkt Print2PDF lze zakoupit na http://www.software602.cz