Základy matematiky a statistiky pro humanitní obory Pavel Rychlý    Vojtěch Kovář Fakulta informatiky, Masarykova univerzita Botanická 68a, 602 00 Brno, Czech Republic {pary, xkovar3}@fi.muni.cz 3.5.2011 Pavel Rychlý, Vojtech Kovář (FI MU Brno)                     PLIN004                                                     3.5.2011        1 /6	Obsah přednášky Obsah přednášky Statistika a zpracování jazyka Vyhledávání kolokací N-gramové jazykové modely Pavel Rychlý, Vojtěch Kovář (FI MU Brno)                     PLIN004                                                     3.5.2011        2 /6
Statistika a zpracování jazyka     Statistika a zpracování jazyka Statistika a zpracování jazyka ► Statistika je nástroj, který ► — pravděpodobnosti jevů, predikce Velké soubory dat o přirozeném jazyce ► ► ► ► ► Pavel Rychlý, Vojtěch Kovář (FI MU Brno)                     PLIN004                                                     3.5.2011 3/6	Vyhledávání kolokací     Vyhledávání kolokací Vyhledávání kolokací ► ► ► ► ► ► ► ► dat? ► Pavel Rychlý, Vojtěch Kovář (FI MU Brno)                     PLIN004                                                     3.5.2011        4 /6
Vyhledávání kolokací     Vyhledávání kolokací		N-gramové jazykové modely     IM-gramové jazykové modely
Jakým způsobem vyhledat v korpusu kolokace?	N-gramové jazykové modely	
► Prosté frekvence sekvencí slov v korpusu? ► — „of the", „in the", ...	► N-gramový jazykový model	
► Frekvence filtrovaných sekvencí slov?	►	P(wn|wi,     W„-l)
►	►	z dat odvodíme pravděpodobnostní rozložení všech možných
► — „New York", „United States", ...		wn
	Použití	
►	►	strojový překlad, morfologické značkování, rozpoznávání řeči...
►	►	
► hypotéza) = podle svých obvyklých pravděpodobnostních rozložení ►	► ►	pro N > 4 většinou výpočetně nezvládnutelné „Snědl jsem velkou zelenou ..."
	►	Data sparseness - pro slova, která se vyskytují méně často, není dost dat — špatný model
►		
Pavel Rychlý, Vojtěch Kovář (Fl MU Brno)                     PLIN004                                                     3.5.2011 5/6	Pavel Rychlý, Vojtěch Kovář (Fl MU Brno)                     PLIN004                                                     3.5.2011        6 /6