Korpusová lingvistika – 2
Vývoj korpusové lingvistiky
Mgr. Dana Hlaváčková, Ph.D.
CJBB105
Vývoj korpusové lingvistiky
• raná korpusová lingvistika, počítačová lexikografie,
frekvenční studie (90. léta 19. st. – 50. léta 20. st.)
• předěl – generativní lingvistika (50. léta 20. st.)
• rozvoj počítačové techniky (od. 60. let 20. st.)
Raná korpusová lingvistika
konec 19. st – 50. léta 20. st.
• strukturalistická tradice, americký deskriptivismus, metody
založené na zkoumání souborů textů a na empirii
• shromažďování jazykového materiálu, rozsah je důležitým
parametrem
• nemluvíme o korpusech ani o korpusové lingvistice – archiv,
kartotéka, deníky, seznamy, slovníky
• žánrová vyváženost souboru textů
• zkoumání významů slov a homonymie
• problematika slovní jednotky a lemmatizace
• morfologické, syntaktické i sémantické analýzy jazyka na
základě textového materiálu
Raná korpusová lingvistika
• počátky moderní lexikografie – excerpční lístky (ručně, na
stroji), výpisky z beletrie, novin, zapojení slova v kontextu
(konkordance)
– frekvenční studie – Käding, 1897–1898 (11 mil. slov), na dlouhou
dobu nejrozsáhlejší jazykový materiál v podobě frekvenčních
seznamů a frekvenčního slovníku
– výuka jazyka pro cizince – frekvenční seznamy slov, frekvenční
slovníky a navazující slovníky a učebnice k výuce jazyka pro cizince,
např. E. Thorndike – The Teacher’s Word Book, 1921
Raná korpusová lingvistika
• zápisy dětské mluvy – rodičovské deníky, studium
akvizice jazyka (1876–1926), od 1927 analýzy jazyka,
později malý vzorek dětí a dlouhodobé sledování
• William Thierry Preyer (1841–1897)
• narodil se v Anglii, studoval a žil v Německu
• vystudoval chemii a fyziologii v Heidelbergu a medicínu v
Bonnu
• působil v Jeně jako ředitel fyziologického ústavu
• zakladatel dětské psychologie
– založena na empirickém pozorování a experimentech
– k výzkumu využívá rodičovské deníky
– významné dílo Die Seele des Kindes – vývojová psychologie
Raná korpusová lingvistika
• komparativní lingvistika – srovnávání významů slov
z různých jazyků, studium jazyka Bible a dalších
kanonických textů (užívání konkordancí)
• zapisování indiánských jazyků
• Franz Boas (1858–1942), pův. Němec, zakladatel
moderní americké antropologie, studie indiánských
kmenů
– vystudoval fyziku a geografii
– při výpravě do severní Kanady ho okouzlil jazyk a kultura
domorodých kmenů
– emigroval do USA – profesorem antropologie na Columbia
University
– byl proti „vědeckému rasismu“ – např. stavba lebky se řídí rasou
– stavba kostry je ovlivněna okolním prostředím a výživou
– chování lidí není výsledkem biologické predispozice, ale ovlivněno
sociálním prostředím a výchovou
Korpusový přístup – kritika
Kritika
• kolem 1950 – Noam Chomsky – generativní
lingvistika, odpor ke korpusovému přístupu
k jazyku, korpusy nejsou v lingvistice potřebné,
poskytují pokřivená data
• předpočítačové období – ruční hledání
v rozsáhlých datech je příliš pracné
• X rozvoj počítačové techniky
Korpusová lingvistika a počítačová
lexikografie (od 60. let 20. st.)
• BROWN CORPUS – průkopníci korpusové lingvistiky
• Henry Kucera (Jindřich Kučera), 1925–2010
• studoval filozofii a lingvistiku na UK v Praze
• po r. 1948 emigrace do USA, doktorát na Harvardu, od r.
1955 profesor na Brown University (Slavic Department)
• autor jednoho z prvních automatických korektorů
pravopisu
• W. Nelson Francis, 1910–2002, americký lingvista
• studoval na Harvardu a University of Pennsylvania,
literatura, angličtina, řečtina, latina a francouzština
• profesor na Brown University (navštěvoval Kučerův kurz
počítačové lingvistiky)
Brown Corpus
• Brown Corpus (Brown Standard Corpus of Present-Day
American English), 1963–1964, Brown University
• americká angličtina rodilých mluvčích
• 500 textových vzorků (vždy 2000 slov)
• 15 žánrových kategorií (časopisy, noviny, beletrie, odborná
lit.), snaha o vyváženost
• 1 mil. slov, vše z roku 1961
• morfologicky označkován (PoS tagging – 80 kategorií)
• na delší dobu vzor pro další korpusy
• na MU dostupný přes Sketch Engine
• American Heritage Dictionary of the English Language,
1969 – 1. slovník založený na korpusu (Brown Corpus,
třířádkové citace, preskripce i deskripce), Boston
LOB
• Geoffrey Leech (1936–2014), Stig Johansson –
Lancaster-Oslo/Bergen Corpus (LOB), 1970–1978
• britský protějšek k Brown Corpus, stejná struktura (1 mil slov,
500 textových vzorků po 2000 slovech, 15 žánrů)
• psaná britská angličtina z r. 1961
• University of Lancaster, University of Oslo, Norwegian
Computing Centre for the Humanities, Bergen
• originální verze – 1976
• značkovaná verze (PoS tagging) – 1981–1986
SEU
• Randolph Quirk (1920) – The Survey of English Usage (SEU),
1959, University College London, první korpusové pracoviště
–v týmu také Jan Firbas (český jazykovědec, anglista)
–cílem bylo popsat gramatický repertoár dospělých,
vzdělaných rodilých mluvčích v Británii
–SEU – vzorky psané a mluvené britské angličtiny (půl na
půl), 200 textů, každý 5000 slov, mluvené – monology i
dialogy
–původně na papíře (lístky 6 x 4 palce), později převeden
do počítačově čitelné podoby (Svartvik)
• SEU byl použit pro jednu z nejdůležitějších korpusově
založených gramatik – Comprehensive Grammar of the
English Language (Quirk, Greenbaum, Leech, Svartvik, 1985)
LLC
• Jan Svartvik (1931), Sidney Greenbaum, R. Quirk, K. Hofland
• The London-Lund Corpus of Spoken English (LLC)
• 1. počítačový korpus mluveného jazyka (magnetické pásky)
• spojení dvou projektů
– Survey of Spoken English (SSE), Jan Svartvik, Lund
University, 1975 jako sesterský projekt SEU
• 87 textů mluvené angličtiny (britská angličtina
vzdělaných mluvčích)
– SEU – 13 textů mluvené angličtiny
• celkem 100 přepisů nahrávek, 500 tisíc slov, zveřejněn až
1980
– fonetická transkripce, značeny prozodické vlastnosti
– někteří mluvčí o nahrávání nevěděli (spontánní projev)
Propojení lexikografie s korpusovou
lingvistikou
• COBUILD – Collins Birmingham University International
Language Database, britské výzkumné centrum na University
of Birmingham, od r. 1980 založeno vydavatelstvím Collins
(dnes HarperCollins Publishers), na počátku vedl profesor
John Sinclair (1933–2007)
• cílem vydání slovníku pro výuku angličtiny
• korpus Birmingham Collection of English Text (BCE), 1980,
jako první využil OCR
– 20 mil. slov, hlavně psaná britská angličtina
– jiná struktura než první korpusy (noviny, brožury, letáky, knihy,
časopisy, korespondence), oproti LOB vyloučena poezie a drama
• Collins COBUILD English Language Dictionary, 1987
– pro výuku angličtiny jako cizího jazyka
– první slovník založený na současné, běžně užívané angličtině
British National Corpus (1991–1994)
• 100 mil. slov, vyvážený korpus (široké spektrum
textů)
• vzorky – 45 tis. slov od jednoho autora
• psaná (90 %) i mluvená (10 %) angličtina
(ortografická transkripce)
• značkování (PoS) – Lancaster University (Geoffrey
Leech, Roger Garside a Tony McEnery)
• zaštiťuje BNC Consortium (Oxford, Lancaster,
nakladatelství, firmy, akademie, knihovna apod.)
• subkorpusy
– BNC Sampler (1 mil. psaný, 1 mil. mluvený)
– BNC Baby (4 milionové vzorky ze čtyř různých žánrů)
Německo, Francie
• Deutsches Referenzkorpus (DeReKo), 1964, (Mannheim
corpora, IDS corpora, COSMAS corpora), Institut für Deutsche
Sprache
– dnes 29 mld. slov (největší na světě)
– texty cca od r. 1950
– nevyvážený
• LIMAS (Linguistik und Maschinelle Sprachbearbeitung), 1970,
Universität Bonn
– německá varianta Brown Corpus – 500 textů, 15 kategorií,
1 mil. slov, texty z let 1969–70
• Frantext – databáze literárních textů ve francouzštině, od 10.
do 21. st., (word, lemma, phrase), 500 děl, metainformace o
textech
Korpusová lingvistika v ČR
• Marie Těšitelová – Korpus věcného stylu (1971–1985),
• Ústav pro jazyk český ČSAV – Oddělení matematické a
aplikované lingvistiky
• věcný styl – odborná literatura, publicistika,
administrativní texty
• 540 000 slov, každý text 3 000 slov
• 75 % texty psané, 25 % mluvené projevy
• ručně morfologicky a syntakticky značkovaný (Český
akademický korpus, ÚFAL MFF UK, 2007)
– Jaroslav Jelínek, Josef V. Bečka, Marie Těšitelová – Frekvence
slov, slovních druhů a tvarů v českém jazyce, 1961
Korpusová lingvistika v ČR
• 1988 Iniciativní skupina pro přípravu počítačových
korpusů, textů a slovníků (Pala, Čermák,
Schmiedtová, Hajičová ad.)
• 1992 Počítačový fond češtiny, Skupina pro počítačový
fond češtiny – Čermák, Králík, Pala, Hajič, Hajičová,
Sgall, Schmiedtová, Benko, Kučera
• 1993–95 Počítačový korpus českých psaných textů
(GAČR)
• 1994 – založení Ústavu Českého národního korpusu
• první korpus SYN2000