1 Využití korpusů při výuce češtiny jako cizího jazyka PLIN022 5. Co se dnes dozvíte? • základní informace o žákovských korpusech • problémy spojené s budováním žákovských korpusů • co je to interlanguage Korpusová typologie 3 Obecné korpusy Specializované korpusy Korpusová typologie 3 korpusy řady SYN KSK, Totalita, Capek ... Korpusy pro výuku Korpusy z výuky Korpusová typologie: výuka Korpusy z výuky Žákovské korpusy Učebnicové korpusy Jiné (TTT) Specializované korpusy pro L2 • akviziční korpusy (žákovské korpusy) • korpusy jazyka pro specifické účely (např. akademický jazyk, profesní mluva) • pararelní korpusy • jiné (např. korpus vyučovacích hodin, učebnicový korpus) 6 Co si o češtině myslí studenti? 1.Hlavní problém bylo s jazykem jak jsem napsál nahoře ; s jazykem protože poprvé studuju v české skolu a take že studuju poprvé češtinu . To bylo a , to je moc těžké . Osobně si myslím že to je těžké protože nic v češtině vypádá jako ve Francouzštině nebo v angličtině ; Každy slov je jiný a to se musím naučit každý den ! Učit se pady ( co , koho , čeho ... ) ne byl asi těžký protože už to existuje v latíně ( studoval jsem latinu 6 let ) ale nejtěžší je psaní protože když píšu , musím se pamatovat všichní pravitka gramatiky , je respectovat a znát moc slov , to poslední neznám ( to je škoda ) … 2.Jsem z Turecka , ale už šesti měsící bydlím v Praze , protože studuju češtinu na Metropolitní Univerzitě v Praze . Čeština je těžká pro mě , ale jí naučím . Učím se češtinu , protože chci bydlet a pracovat v Praze . Tady jenom angličtina nestačí ke komunikace . 3. Každý čtvrtek nebo patek jím české jídlo . České pivo a bramborový salat se mi líbí ! Každý víkend chodíme se svém kamarádem na prochazky po Praze a mluvíme s českými lídmi . Jsem nemám problémy s češtinou , protože paní Uhlířová -dobrá učitelka ! Po příjezdu do ČR největší překvapení bylo samozřejme -český národ , protože jsou velmi dobrý ! 4. Když jsem jela do Prahy , myslela , že čeština je podobna ruštině , protože jsou slovánské jazyky . Na začátku studia jsem rozuměla , že čeština je těžká . Nemohla jsem mluvit jako Češi , a proto lidé mluvili se mnou anglický . Teď už mluvím dobře český a můžu uspěšně dostat na univerzitu . Čeština a ruština mají hodně společného . Některá slova v češtině vypadá jako v ruštině , protože mají společné kořeni . 5. Obvykle mluvím s kamarády a paní učitelkou z češtiny . Vadí mi trochu , že některá slovesa se používají s jinymi pády než v ruštině , i když mají stejný význam . 6. Psát v češtině pro mě je snadnější , než mluvit , protože , když mluvím , vždicky začínám myslet na pravidelnost řeči , v jakém pádu musí být slovo a t. d . Proto mluvím není velmi rychle . Ačkoli každý měsíc studia citím přírůstek znalostí a jistoty . 7. Když jsem přijela do Prahy , znála jsem jenom několik slov . Teď můžu docela dobře rozumět a trochu mluvit česky . Ale bohužel tento kurz češtiny nesplní mé očekávání . Měli jsme nejlepši profesorku , a také docela dobrý kurz gramatiky . Ale vůbec jsme se neměli možnost naučit hovornou češtinu Žákovské korpusy ang. learner corpus, studijní korpus (Čermák) = žákovský korpus snaha shromáždit objektivní data pro: ➔ popis žákovského jazyka ➔ popis odchylek a rozdílů (contrastive interlanguage analysis (S. Grangerová); computer aided error analysis) https://www.researchgate.net/publication/277578581_Contrastive_interlanguage_analysis_A_reappraisal ➔ popis mimojazykových vlivů na L2 (metadata) Jak probíhá osvojování druhého/cizího jazyka? ● L. Selinker (70. léta 20. století ) ● žákovský jazyk, mezijazyk, interlanguage ● svébytný jazykový útvar ● proměnlivý a dynamický systém, který obsahuje řadu nestandardních prvků ➔ míšení kódů ➔ chyby ➔ jazykový transfer: pozitivní (kognáty) a negativní (false friends) ➔ naučené fráze versus improvizace Výzkum je zaměřen na popis procesů a utváření mezijazyka či mimojazykové vlivy (např. věk). Výzkum žákovského jazyka cílový jazyk L2 výchozí jazyk L1 mezijazyk Čeština Andreje Babiše ● 2014: žádost o tlumočníka při projevech Andreje Babiše ve sněmovně ● Karel Oliva: Babišova úroveň je C2, žádost zamítnuta ● Vít Benešovský (2018): Analýza Babišova mezijazyka ○ analýza přepisu rozhovorů z let 2011, 2014, 2017 ○ případová studie projevu nerodilého mluvčího češtiny v českojazyčném prostředí ○ interferenční chyby (výslovnost, morfologie), slovakismy a střídání jazykového kódu ○ mírné zlepšení po roce 2014 (mimojazykové vlivy) Jak vznikají data pro žákovské korpusy? • elicitace (vznik projevu a jeho průběh iniciovaný a řízený druhou osobou, zprav. učitele) • řízené projevy • strukturované projevy • improvizace Jak vznikají data pro žákovské korpusy? 14 Zdroj: Tasks description, Spanish Learner Language Oral Corpora, online, 2016. Jak vznikají data pro žákovské korpusy? • certifikované zkoušky • jazykové školy • univerzity !!! = minimum přirozených (autentických) promluv Žákovské korpusy typologie podle různých kritérií • velikost, dostupnost • povaha dat a povaha sběru dat • L1, cílový jazyk • metadata a anotace Štindlová (2013): přehled 57 žákovských korpusů dominují psané korpusy střední velikosti (do 1 mil. slov) pokročilejších studentů s angličtinou jako cílovým jazykem Learner Corpus Association (2018): 167 žákovských korpusů Žákovské korpusy ve světě • Komerční korpusy CLC: Cambridge Learner Corpus (část přístupná přes Sketch Engine) • Lovaňské korpusy (Katolická univerzita v Lovani, Belgie; S. Grangerová) ICLE: International corpus of learner English LINDSEI: Louvain International Database of Spoken English Interlanguage LONGDALE: Longitudinal Database of Learner English VESPA: Varieties of English for Specific Purposes Database MUST: Multilingual Student Translation corpus TeMa: Corpus of teaching materials of English for general purposes • Korpusy slovanských jazyků RLC: Russian Learner Corpus; CroLTeC: Croatian Learner Text Corpus 18 Žákovské korpusy u nás • projekt AKCES (2005–2021) Ústav českého jazyka a teorie komunikace FF UK + další pracoviště prof. PhDr. Karel Šebesta, CSc. osvojování češtiny různými skupinami mluvčích (L1 i L2) žákovské korpusy CzeSL (Czech as a Second Language) • CzeSL–plain (bez anotace) • CzeSL–SGT (emmendace, lemmatizace, tagování vč. chyb) • CzeFL–LONG a CzeSL–LONG (budovaný) http://praha5.ff.cuni.cz/akces/ https://wiki.korpus.cz/doku.php/pojmy:akvizicni_korpus Kvíz o CzeSLu Co korpus obsahuje? a. pouze psané projevy b. pouze mluvené c. mluvené i psané Kolik metadat popisuje korpusová data? a. 10 b. 20 c. 30 Jaký je nejčastější L1 žáků? a. angličtina b. ruština c. arabština d. ukrajinština Jaká je nejčastější úroveň žáků? a. A1 b. A2 c. B1 d. B2 Jaká je nejčastější chyba? a. chyba v morfologii b. chyba lexikografická c. chyba v diakritice Práce na CzeSL a. jsou už dokončeny b. stále probíhají Kvíz o CzeSLu – řešení Co korpus obsahuje? a. pouze psané projevy b. pouze mluvené c. mluvené i psané Kolik metadat popisuje korpusová data? a. 10 b. 20 c. 30 Jaký je nejčastější L1 žáků? a. angličtina b. ruština c. arabština d. ukrajinština Jaká je nejčastější úroveň žáků? a. A1 b. A2 c. B1 d. B2 Jaká je nejčastější chyba? a. chyba v morfologii b. chyba lexikografická c. chyba v diakritice Práce na CzeSL a. jsou už dokončeny b. stále probíhají 18 Žákovské korpusy u nás • mezinárodní žákovský korpus MERLIN (2012–2014) (něm.-it.-čes. projekt) • databáze CHRUP (2013) (Chyby Rusů Ukrajinců a Poláků) http://chrup.ff.cuni.cz/ Databáze jazykových chyb v češtině mluvčích s prvním jazykem slovanským prof. Ph.Dr. Hana Gladkova, CSc., FF UK didaktický cíl: specifika osvojování L2, který je blízký L1 • další menší projekty http://merlin-platform.eu/C_mcorpus.php Žákovské korpusy – nepřímé využití ∙ ve slovnících a gramatických příručkách https://www.ldoceonline.com/dictionary/information Žákovské korpusy – nepřímé využití ∙ ve výukových materiálech 22 Šindelářová, J.; Škodová, S. (2012, s. 118–119) Literatura