Obsah před nášky Statistika O a zpracov ání jazyka Vyhledá' OO /ání kolokací N-grar O nové jazykové : modely Základy matematiky a statistiky pro humanitní obory Pavel Rychlý Vojtěch Kovář Fakulta informatiky, Masarykova univerzita Botanická 68a, 602 00 Brno, Czech Republic {pary, xkovar3}8fi.muni.cz 3.5.2011 □ S - = = >r)<\(y Pavel Rychlý, Vojtěch Kovář FI MU Bri Základy matematiky a statistiky pro hurr ■anitní obory II 1 Obsah předl nášky Statistika a zpracov O ání jazyka Vyhledá' OO /ání kolokací N-grar O nové jazykové modely Obsah i přednášky Q Statistika a zpracování jazyka B Vyhledávání kolokací Q N-gramové jazykové modely □ g - = = -o^o Pavel Rychlý, Vojtěch Kovář FI MU Bri Základy matematiky a statistiky pro hurr ■anitní obory II 1 Obsah přednášky Statistika a zpracování jazyka Vyhledávání kolokací N-gramové jazykové modely • OO O Statistika a zpracování jazyka Statistika a zpracování jazyka ■ Statistika je nástroj, který ■ umožňuje uchopit velké množství dat ■ na základě dat vyvozovat informace o zkoumané oblasti ■ — pravděpodobnosti jevů, predikce ■ Velké soubory dat o přirozeném jazyce ■ jazykové korpusy ■ v současnosti velikost až 10 miliard slov ■ umožňují statistický popis jevů v jazyce ■ Využití statistiky v NLP je obrovské ■ přiblížíme si to dvěma ukázkami □ g - = = -o^o Pavel Rychlý, Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro hurr ■anitní obory II Obsah přednášky Statistika a zpracov O ání jazyka Vyhledá^ •O /ání kolokací N-grar O nové jazykové r nodely Vyhledávání kolokací Vyhledávání kolokací ■ Kolokace ■ různé definice ■ fráze, jejíž význam se neskládá z významů jejích částí ■ nějakým způsobem „významné" spojení dvou slov ■ např. idiomy, ale nejen ■ základní škola, silný čaj, ... ■ Jakým způsobem vyhledat v korpusu kolokace? ■ případně statisticky určit „sílu" libovolné kolokace na základě dat? ■ odlišit „strong tea" od „powerful tea" □ g - = = -00,0 Pavel Rychlý, Vojtěch Kovář FI MU Bri Základy matematiky a statistiky pro hurr ■anitní obory II 1 Obsah přednášky Statistika a zpracování jazyka Vyhledávání kolokací N-gramové jazykové modely O 0« O Vyhledávání kolokací Jakým způsobem vyhledat v korpusu kolokace? ■ Prosté frekvence sekvencí slov v korpusu? ■ — „of the", „in the", ... ■ Frekvence filtrovaných sekvencí slov? ■ na základě slovních druhů jednotlivých slov ■ — „New York", „United States", ... ■ ale třeba i „last week" ■ T-test ■ aplikace testování hypotéz ■ předpokládáme, že se slova chovají standardně (nulová hypotéza) = podle svých obvyklých pravděpodobnostních rozložení ■ vyvrácení nulové hypotézy = kolokace ■ Další - vzájemná informace, logdice, ... Pavel Rychlý, Vojtěch Kovář FI MU Brno Základy matematiky a statistiky pro hurr ■anitní obory II Obsah přednášky Statistika a zpracování jazyka Vyhledávání kolokací N-gramové jazykové modely O OO • N-gramové jazykové modely N-gramové jazykové modely ■ N-gramový jazykový model ■ „hádáme další slovo" (značku) na základě předchozích P{wn|wi,w„_i) ■ z dat odvodíme pravděpodobnostní rozložení všech možných wn ■ Použití ■ strojový překlad, morfologické značkování, rozpoznávání řeči... ■ Problémy ■ pro N > 4 většinou výpočetně nezvládnutelné ■ „Snědl jsem velkou zelenou ..." ■ Data sparseness - pro slova, která se vyskytují méně často, není dost dat — špatný model 1 j Pavel Rychlý, Vojtěch Kovář FI MU Bri Základy matematiky a statistiky pro hurr ■anitní obory II 1