PLIN041 Vývoj počítačové lingvistiky
Korpusová lingvistika
Mgr. Dana Hlaváčková, Ph.D.
Vývoj korpusové lingvistiky
• raná korpusová lingvistika (90. léta 19. st. - 50. léta 20. st.)
• předěl - generativní lingvistika (50. léta 20. st.)
• počátky výpočetní techniky (50.-80. léta 20. st.)
- první korpusy
• rozvoj výpočetní techniky (od. 80. let 20. st.)
- začátky moderních korpusů
Raná korpusová lingvistika
konec 19. st - 50. léta 20. st.
štrukturalistická tradice, americký deskriptivismus, metody založené na zkoumání souborů textů a na empirii shromažďování jazykového materiálu, nahrávky výpovědí (analýza bottom-up)
nejde o korpusy - archivy, kartotéky, deníky, seznamy, slovníky
společné prvky s pozdější korpusovou lingvistikou:
- rozsah je důležitým parametrem
- žánrová vyváženost souboru textů
- zkoumání významů slov a homonymie
- problematika slovní jednotky a lemmatizace (lemma = základní tvar slova)
- morfologické, syntaktické i sémantické analýzy jazyka na základě textového materiálu
Raná korpusová lingvistika
• frekvence a lexikografie
• akvizice jazyka (mateřského i cizího)
• komparativní lingvistika
• dialektologie a výzkum jazyků původních obyvatel Ameriky a Kanady
Raná korpusová lingvistika
1) frekvence a počátky moderní lexikografie - excerpční lístky (ručně, na stroji) - kartotéky, výpisky z beletrie, novin, zapojení slova v kontextu (konkordance)
- frekvenční studie - Friedrich Wilhelm Käding, 1897-1898 (vycházel z 11 mil. slov), Häufigkeitswörterbuch der deutschen Sprache, na dlouhou dobu nejrozsáhlejší jazykový materiál v podobě frekvenčních seznamů a frekvenčního slovníku
- výuka jazyka pro cizince - frekvenční seznamy slov, frekvenční slovníky, navazující slovníky a učebnice k výuce jazyka pro cizince, např. Edward L. Thorndike (am. psycholog) - The Teacher's Word Book, 1921
Raná korpusová lingvistika
• 2) akvizice jazyka - zápisy dětské mluvy, rodičovské deníky, později malý vzorek dětí a dlouhodobé sledování
• William Thierry Prever (1841-1897)
• narodil se v Anglii, studoval a žil v Německu
• působil v Jeně jako ředitel fyziologického ústavu
• zakladatel dětské psychologie
- založena na empirickém pozorovania experimentech
- k výzkumu využívá rodičovské deníky
- významné dílo Die Seele des Kindes - vývojová psychologie
Raná korpusová lingvistika
• 3) komparativní lingvistika - srovnávání významů slov z různých jazyků, studium jazyka Bible a dalších kanonických textů (užívání konkordancí)
• 4) dialektologie a zapisování jazyků domorodých kmenů
• dialektologie
- pro češtinu v souvislosti s národním obrozením (pol. 19. st.)
- historickosrovnávací a později štrukturalistický přístup
• Franz Boas (1858-1942), pův. Němec, zakladatel moderní americké antropologie, vystudoval fyziku a geografii
- při výpravě do severní Kanady ho okouzlil jazyk a kultura domorodých kmenů
- studie severoamerických domorodých kmenů (Inuité)
- emigroval do USA - profesorem antropologie na Columbia University (1899)
- důraz na interdisciplinární přístup a empirický výzkum
Korpusový přístup - kritika
Kritika
• kolem 1950 - Noam Chomsky - generativní lingvistika
• racionalismus x empirie, kompetence x performance
• odpor ke korpusovému přístupu k jazyku, korpusy (textové materiály) nejsou v lingvistice potřebné, poskytují pokřivená data
• předpočítačové období - ruční hledání v rozsáhlých papírových datech je příliš pracné
• X rozvoj počítačové techniky po 2. sv. v.
Korpusová lingvistika a počátky výpočetní techniky (50.-80. I. 20. st.)
• vývoj i pod kritikou N. Chomského a jeho stoupenců
• využívání prvních počítačů
• konkordanční seznamy, strojově čitelné texty 9 počátky Digital Humanities
- výzkum starověkých jazyků
- Roberto Busa (1913-2011) - italský jezuitský kněz, studium spisů Tomáše Akvinského, využití počítačů pro lingvistické a literární analýzy
- spojení s IBM, konkordance, lemmatizace, 30 let práce, 56 tištěných svazků (70. léta 20. st.)
- Index Thomisticus (webová verze 2005)
- The Busa Price v oblasti DH
Korpusová lingvistika a počítačová lexikografie
(od 60. let 20. st.)
BROWN CORPUS - průkopníci korpusové lingvistiky
Henry Kučera (Jindřich Kučera), 1925-2010
studoval filozofii a lingvistiku na UK v Praze
po r. 1948 emigrace do USA, doktorát na Harvardu, od r.
1955 profesor na Brown University (Slavic Department)
autor jednoho z prvních automatických korektorů
pravopisu
W. Nelson Francis, 1910-2002, americký lingvista studoval na Harvardu a University of Pennsylvania, literatura, angličtina, řečtina, latina a francouzština profesor na Brown University (navštěvoval Kučerův kurz počítačové lingvistiky)
Brown Corpus
• Brown Corpus (Brown Standard Corpus of Present-Day American English), 1963-1964, Brown University
• americká angličtina rodilých mluvčích
• 500 textových vzorků (vždy 2000 slov)
• 15 žánrových kategorií (časopisy, noviny, beletrie, odborná lit.), snaha o vyváženost
• 1 mil. slov, vše z roku 1961
• morfologicky označkován (PoS tagging - 80 kategorií)
• na delší dobu vzor pro další korpusy
• na MU dostupný přes Sketch Engine
• American Heritage Dictionary of the English Language, 1969 - 1. slovník založený na korpusu (Brown Corpus, třířádkové citace, preskripce i deskripce), Boston
LOB
Geoffrey Leech (1936-2014), Stig Johansson -Lancaster-Oslo/Bergen Corpus (LOB), 1970-1978
britský protějšek k Brown Corpus, stejná struktura (1 mil 500 textových vzorků po 2000 slovech, 15 žánrů) psaná britská angličtina z r. 1961 University of Lancaster, University of Oslo, Norwegian Computing Centre for the Humanities, Bergen značkovaná verze (PoS tagging) - 1981-1986
Frown - The Freiburg-Brown corpus of American English F-LOB - The Freiburg-LOB corpus of British English
- texty z r. 1992, zveřejnění 1999
Brown + LOB + Frown + F-LOB = Brown Family
SEU
• Randolph Quirk (1920-2017) - The Survey of English Usage (SEU), 1959, University College London, první korpusové pracoviště
- v týmu také Jan Firbas (český jazykovědec, anglista)
- cílem bylo popsat gramatický repertoár dospělých, vzdělaných rodilých mluvčích v Británii
- SEU - vzorky psané a mluvené britské angličtiny (půl na půl), 200 textů, každý 5000 slov, mluvené - monology i dialogy, z let 1955 až 1985
- původně na papíře (lístky 6x4 palce) s podrobnou gramatickou anotací, později převeden do počítačově čitelné podoby (Svartvik)
• SEU byl použit pro jednu z nejdůležitějších korpusově založených gramatik - Comprehensive Grammar of the English Language (Quirk, Greenbaum, Leech, Svartvik, 1985)
LLC
Jan Svartvik (1931), Sidney Greenbaum, R. Quirk, K. Hofland The London-Lund Corpus of Spoken English (LLC) 1. počítačový korpus mluveného jazyka (magnetické pásky) spojení dvou projektů
- Survey of Spoken English (SSE), Jan Svartvik, Lund University, 1975 jako sesterský projekt SEU
• 87 textů mluvené angličtiny (britská angličtina vzdělaných mluvčích)
- SEU - 13 textů mluvené angličtiny
celkem 100 přepisů nahrávek, 500 tisíc slov, zveřejněn až 1980
- fonetická transkripce, značeny prozodické vlastnosti
- někteří mluvčí o nahrávání nevěděli (spontánní projev)
Propojení lexikografie s korpusovou
lingvistikou
• COBUILD - Collins Birmingham University International Language Database, britské výzkumné centrum na University of Birmingham, od r. 1980 založeno vydavatelstvím Collins (dnes HarperCollins Publishers), na počátku vedl profesor John Sinclair (1933-2007)
• cílem vydání slovníku pro výuku angličtiny
• korpus Birmingham Collection of English Text (BCE), 1980, jako první využil OCR
- 20 mil. slov, hlavně psaná britská angličtina
- jiná struktura než první korpusy (noviny, brožury, letáky, knihy, časopisy, korespondence), oproti LOB vyloučena poezie a drama
• Collins COBUILD English Language Dictionary, 1987
- pro výuku angličtiny jako cizího jazyka
- první slovník založený na současné, běžně užívané angličtině
British National Corpus (1991-1994)
• 100 mil. slov, vyvážený korpus (široké spektrum textů)
• vzorky - 45 tis. slov od jednoho autora
• psaná (90 %) i mluvená (10 %) angličtina (ortografická transkripce)
• značkování (PoS) - Lancaster University (Geoffrey Leech, Roger Garside a Tony McEnery)
• zaštiťuje BNC Consortium (Oxford, Lancaster, nakladatelství, firmy, akademie, knihovna apod.)
• subkorpusy
- BNC Sampler (1 mil. psaný, 1 mil. mluvený)
- BNC Baby (4 milionové vzorky ze čtyř různých žánrů)
Německo, Francie
• Deutsches Referenzkorpus (DeReKo), 1964, Mannheim, Leibnitz-Institut für Deutsche Sprache
- dnes 50,6 mld. slov (největší na světě)
- texty cca od r. 1950
- otevřený, monitorovací, nevyvážený
• LIMAS (Linguistik und Maschinelle Sprachbearbeitung), 1970, Universität Bonn
- německá varianta Brown Corpus - 500 textů, 15 kategorií, 1 mil. slov, texty z let 1969-70
•  Frantext - databáze literárních textů ve francouzštině, od 10. do 21. st., (word, lemma, phrase), 264 mil. slov, metainformace o textech, Analyse et Traitement Informatique de la Langue Frangaise (ATILF, Universitě de Lorraine, Nancy)