Motivace pro jazykovou správnost Prezentace pro předmět Základy odborného stylu (VB000) K. Pala, Centrum ZPJ FI MU podzim 2014 Proč potřebujeme pravopis? •Abychom komplikovali život sobě (a studentům)? •Výchozí axiom: nelze nekomunikovat •Standardy pro komunikaci •Naše civilizace stojí na komunikaci – je to základ pro vědu, techniku, kulturu, veškeré znalosti lidstva •Většina lidské komunikace je v přirozeném jazyce •Musí splňovat jisté standardy, aby byla efektivní •Má dvě základní podoby: mluvenou a psanou •Jaký je mezi nimi vztah? •Která podoba je prvotní? • Mluvený a psaný jazyk •Mluvený jazyk je primární (cca 5000 jazyků světa) •Psaný jazyk je až sekundární – je to paměť lidstva •Efektivní komunikace vyžaduje přiřazení zvuků jazyka (hlásek) psaným znakům (písmenům) •Úplná reprezentace zvuků v jednotlivých jazycích – International Phonetic Alphabet (IPA) •Reprezentace zvuků – různé pravopisné systémy •Jsou základem civilizace •Abecední písma – latinka, cyrilice a mnohá další •Ideografická písma (logografická) – čínština •Slabičná písma – japonština Přiřazení zvuků znakům •Kolik hlásek (fonémů) má čeština? •Kolik písmen má čeština? •Kolik hlásek (fonémů) je v angličtině? •Kolik písmen je v angličtině? •40-42: 36 •40-44: 26 •Uvedená čísla naznačují povahu pravopisného systému – fonetický (čeština) vs. historický (angličtina) •Spřežkové a diakritické systémy (v češtině) Funkce pravopisných systémů •Zaznamenávací – aby se to dobře psalo •Vybavovací – aby se to dobře četlo •Která funkce je důležitější? Vyváženost? •Posílíme-li jednu, oslabíme druhou a naopak •Jaká je situace v praxi? •Historické systémy (typicky angličtina, 14. stol.) •Fonetické systémy (čeština, slovenština) •Který systém je obtížnější k naučení? •Spřežkové systémy – stará čeština, dnes zčásti polština •Lze získat přes milion liber za úspěšnou reformu anglického pravopisu? (nadace Bernarda Shawa, 1910) •Pravopisné systémy jsou velmi konzervativní • • • Pravopisné chyby •Jazyková správnost a gramotnost – podmínka úspěšné komunikace a úspěšnosti obecně •Pravopis není gramatika (popis struktury jazyka) •V čem se nejvíc chybuje? •Typy pravopisných chyb •Překlepy (prgram, studiijní, …) •Morfologické chyby – koncovky (hloupejma) •Syntaktické chyby – shoda (psaní y/i), vazby (valence) •Stylistické chyby – provedení nařízení •Typografické chyby – mezery, pomlčky, spojovníky, uvozovky, fonty, jednopísmenové předložky na konci řádků •Spisovnost : nespisovnost, formálnost : neformálnost • Opravování chyb v textech •Pravopisné a gramatické korektory: softwarové nástroje odhalující chyby (překlepy) v textech •Kde je lze najít? – v produktech, jako jsou Microsoft Office (Word), Open Office aj. •Co dovedou? Co musí umět uživatel? •Opravují jednotlivá slova v textu obsahující překlepy (chitrí, rozmný, právda, mluvým, …) •Nedovedou opravit slovní spojení (v kontextu), • např. šikovná student, dívka plakal apod. • Pravopisné korektory 2 •Jak jsou tyto nástroje konstruovány? •Hrubá síla nebo inteligence? •Kolik slov má čeština? Kolik slovních tvarů? •PSJČ – cca 250 000 základních tvarů slov •Slovních tvarů v češtině je cca 6, 5 milionu •Morfologická analýza a morfologický analyzátor – může sloužit jako korektor překl. •Pro češtinu – morf. analyzátor majka, cca 400 000 kmenů (ukázka v nástroji DebDict) Gramatické korektory •Dovedou opravovat slovní spojení v kontextu, např. uspěšná studentka šel do školi když pršel. •Chyby v gramatické shodě a vazbách •Opravují (snaží se) také chyby v interpunkci •Povaha české interpunkce je syntaktická •Pro češtinu je gr. korektor k dispozici jen v české verzi Wordu (Oliva, Květoň, Petkevič) •Aplikace Grammaticon od Lingey – kvalita? •Na rozdíl od korektoru překlepů gr. korektor podtrhává zeleně a opravy jen doporučuje • Gramatické korektory •Co umí nástroj Grammaticon (od firmy Lingea) – ukázat, falešné hlášky •Co gramatické korektory nedovedou? •Nakolik se na ně lze spolehnout? •Evaluační parametry: přesnost a pokrytí •Přesnost (úspěšnost) se dnes pohybuje do 70 %, jde o těžkou úlohu •Principy fungování gramatických korektorů? •Automatická syntaktická analýza – parsery (Set), •Plus další vhodná heuristická pravidla • Nebojme se pravidel českého pravopisu •Knižní podoba Pravidel českého pravopisu •Internetová jazyková příručka – ÚJČ a FI MU •Má dvě části – slovníkovou a normativní •Slovníková část pokrývá cca 60 000 čes. slov •Běží na serveru Centra ZPJ, denně až 30 000 přístupů (ukázka) •Příručka obsahuje automatickou morfologii a je nově doplněna o dva normativní slovníky •Doporučuji ji jako standardní pomůcku k psaní • Pravidla českého pravopisu •Je český pravopis obtížný? •Kombinace fonetického a historického principu, fonetický převažuje (piš, jak slyšíš) •V čem se nejvíc chybuje? •Stylistické chyby – cca 23 %, jde tu o formulaci myšlenek, ta je nesnadná •Interpunkční chyby – asi 20 % •Ostatní – překlepy, y/i, velká písmena, tvary mne/mě, typografické chyby aj. •Reformy českého pravopisu • Současný stav I •Poslední reforma čes. pravop. proběhla v r. 1993 •Pokus o tzv. demokratizaci prav. – byl úspěšný? •Úprava psaní slov cizího původu (kurs/kurz) •Ref. vedla k malé pravopisné válce (filos/zofie) •Výsledek: špinavý kompromis •Můžeme si ověřit úspěšnost reformy – dnes máme k dispozici velké soubory textů – korpusy • Takže jaký je současný stav? – je vidět, že norma je rozkolísaná – nejhorší možný výsledek • • Současný stav II •Korpusy (CzTenTen12) to potvrzují • kurs: 70,982 vs. kurz: 602,636, feminismus: 13,010 vs. feminizmus: 373 •Rozkolísanost standardů je obecně nežádoucí, komplikuje plynulost komunikace •Bezbolestná úprava by byla ú/ů •Za problém se pokládají velká písmena, volnost je značná •Pokud jde o y/i, situace pro úpravu není zralá •Případná inspirace slovenštinou Komunizmus: 3804 vs. komunismus: 107148, socializmus: 5,079 vs. socialismus: 91,734 Vyhlídky a perspektivy •Institucí, která se stará o jazykovou kulturu v ČR, je Ústav pro jazyk český AV ČR •Komunikuje s veřejností prostřednictvím Jazykové poradny (a nyní též IJP) •Jejich aktuální přístup k problematice českého pravopisu je velmi liberální •Lze očekávat nějaké reformy? •Pro absolventy FI je potřebné, aby se v č. prav. standardně orientovali a psali bez chyb • Další nástroje pro práci s jazykem •Elektronické slovníky české – nástroj DebDict •Vícejazyčné slovníky – např. produkty firmy Lingea •Google Translator •České překladače: Eurotran, PC Translator – málo kvalitní •Problematika strojového překladu •Morfologické a syntaktické analyzátory •Dialogové systémy •Porozumění přirozenému jazyku (extrakce inf.) Porozumění příběhům a zprávám, MUC, adresa: http://www-nlpir.nist.gov/related_projects/muc/proceedings/muc_7_toc.html Počítače a PJ •Komunikace mezi člověkem a počítačem je dnes primárně jednocestná •Její kvalita ve skutečnosti závisí na tom, jak dobře uživatel zná programové vybavení svého počítače (jeho OS) •Počítače s námi zatím nedovedou komunikovat •Potřeba dvoucestnosti – zde se dostáváme k umělé inteligenci – její součástí je mj. zpracování PJ (modelování funkcí lidského mozku) Doplnit adresu Loebnerovy ceny: http://www.loebner.net/Prizef/loebner-prize.html Počítače a PJ 2 •Reprezentace znalostí o světě, inference (logika), zvládnutí PJ (gramatika) – tři součásti •Dialogové systémy je musí obsahovat •Turingův test, Eliza, chatboty, každoroční soutěž o Loebnerovu cenu, roboty •Zpracování mluvené řeči – diktovací systémy •Dovedou přepisovat zvuky na znaky – pro češtinu: Newton Technologies, Dictate 4 •U těchto systémů zatím nejde o porozumění PJ • Mgr. Jiří Materna, Seznam •Vysokou školu jste neproseděl pouze u počítače, ale zahrál jste si například i ve fakultním divadle. Jaké to bylo, když se informatici pustili do divadla? Celá řada lidí si myslí, že divadlo na fakultě informatiky nemá co dělat, ale já jsem přesvědčený o opaku. Problémem českého školství je obrovská pasivita studentů a jejich neschopnost prezentovat své myšlenky na veřejnosti. Je to dáno především tím, že k tomu nejsou vedeni již od útlého věku. Často se stává, že si studenti sedají co nejdále od katedry a vůbec se nezapojují do diskuse, protože mají obavy, aby se neztrapnili. Později třeba něco prezentují na odborné konferenci, kuňkají, a přestože mají obsahově silné téma, nedokáží jej prodat. Sám jsem od přírody introvert a účinkování v divadle před lidmi nacpanou posluchárnou mi v tomhle hrozně pomohlo. •