Základy matematiky a statistiky pro humanitní obory Pavel Rychlý Vojtěch Kovář Fakulta informatiky, Masarykova univerzita Botanická 68a, 602 00 Brno, Czech Republic {pary, xkovar3}@fi.muni.cz 3.5.2011 Pavel Rychlý, Vojtech Kovář (FI MU Brno) PLIN004 3.5.2011 1 /6 Obsah přednášky Obsah přednášky Statistika a zpracování jazyka Vyhledávání kolokací N-gramové jazykové modely Pavel Rychlý, Vojtěch Kovář (FI MU Brno) PLIN004 3.5.2011 2 /6 Statistika a zpracování jazyka Statistika a zpracování jazyka Statistika a zpracování jazyka ► Statistika je nástroj, který ► — pravděpodobnosti jevů, predikce Velké soubory dat o přirozeném jazyce ► ► ► ► ► Pavel Rychlý, Vojtěch Kovář (FI MU Brno) PLIN004 3.5.2011 3/6 Vyhledávání kolokací Vyhledávání kolokací Vyhledávání kolokací ► ► ► ► ► ► ► ► dat? ► Pavel Rychlý, Vojtěch Kovář (FI MU Brno) PLIN004 3.5.2011 4 /6 Vyhledávání kolokací Vyhledávání kolokací N-gramové jazykové modely IM-gramové jazykové modely Jakým způsobem vyhledat v korpusu kolokace? N-gramové jazykové modely ► Prosté frekvence sekvencí slov v korpusu? ► — „of the", „in the", ... ► N-gramový jazykový model ► Frekvence filtrovaných sekvencí slov? ► P(wn|wi, W„-l) ► ► z dat odvodíme pravděpodobnostní rozložení všech možných ► — „New York", „United States", ... wn Použití ► ► strojový překlad, morfologické značkování, rozpoznávání řeči... ► ► ► hypotéza) = podle svých obvyklých pravděpodobnostních rozložení ► ► ► pro N > 4 většinou výpočetně nezvládnutelné „Snědl jsem velkou zelenou ..." ► Data sparseness - pro slova, která se vyskytují méně často, není dost dat — špatný model ► Pavel Rychlý, Vojtěch Kovář (Fl MU Brno) PLIN004 3.5.2011 5/6 Pavel Rychlý, Vojtěch Kovář (Fl MU Brno) PLIN004 3.5.2011 6 /6