Obsah před	nášky	Statistika O	a zpracov	ání jazyka	Vyhledá' OO	/ání kolokací	N-grar O	nové jazykové	: modely
									
Základy matematiky a statistiky pro humanitní obory
Pavel Rychlý    Vojtěch Kovář
Fakulta informatiky, Masarykova univerzita Botanická 68a, 602 00 Brno, Czech Republic
{pary, xkovar3}8fi.muni.cz
3.5.2011
□       S       -       =       = >r)<\(y
Pavel Rychlý, Vojtěch Kovář		FI MU Bri
Základy matematiky a statistiky pro hurr	■anitní obory II	
1
Obsah předl	nášky            Statistika a zpracov O	ání jazyka	Vyhledá' OO	/ání kolokací	N-grar O	nové jazykové modely
						
Obsah	i přednášky					
Q Statistika a zpracování jazyka
B Vyhledávání kolokací
Q N-gramové jazykové modely
□     g     -     =     = -o^o
Pavel Rychlý, Vojtěch Kovář		FI MU Bri
Základy matematiky a statistiky pro hurr	■anitní obory II	
1
Obsah přednášky Statistika a zpracování jazyka Vyhledávání kolokací N-gramové jazykové modely
• OO O
Statistika a zpracování jazyka
Statistika a zpracování jazyka
■ Statistika je nástroj, který
■ umožňuje uchopit velké množství dat
■ na základě dat vyvozovat informace o zkoumané oblasti
■ — pravděpodobnosti jevů, predikce
■ Velké soubory dat o přirozeném jazyce
■ jazykové korpusy
■ v současnosti velikost až 10 miliard slov
■ umožňují statistický popis jevů v jazyce
■ Využití statistiky v NLP je obrovské
■ přiblížíme si to dvěma ukázkami
□     g     -     =     = -o^o
Pavel Rychlý, Vojtěch Kovář		FI MU Brno
Základy matematiky a statistiky pro hurr	■anitní obory II	
Obsah přednášky	Statistika a zpracov O	ání jazyka	Vyhledá^ •O	/ání kolokací	N-grar O	nové jazykové r	nodely
Vyhledávání kolokací							
Vyhledávání	kolokací						
■ Kolokace
■ různé definice
■ fráze, jejíž význam se neskládá z významů jejích částí
■ nějakým způsobem „významné" spojení dvou slov
■ např. idiomy, ale nejen
■ základní škola, silný čaj, ...
■ Jakým způsobem vyhledat v korpusu kolokace?
■ případně statisticky určit „sílu" libovolné kolokace na základě dat?
■ odlišit „strong tea" od „powerful tea"
□       g        -        =        = -00,0
Pavel Rychlý, Vojtěch Kovář		FI MU Bri
Základy matematiky a statistiky pro hurr	■anitní obory II	
1
Obsah přednášky Statistika a zpracování jazyka Vyhledávání kolokací N-gramové jazykové modely
O 0« O
Vyhledávání kolokací
Jakým způsobem vyhledat v korpusu kolokace?
■ Prosté frekvence sekvencí slov v korpusu?
■ — „of the", „in the", ...
■ Frekvence filtrovaných sekvencí slov?
■ na základě slovních druhů jednotlivých slov
■ — „New York", „United States", ...
■ ale třeba i „last week"
■ T-test
■ aplikace testování hypotéz
■ předpokládáme, že se slova chovají standardně (nulová hypotéza) = podle svých obvyklých pravděpodobnostních rozložení
■ vyvrácení nulové hypotézy = kolokace
■ Další - vzájemná informace, logdice, ...
Pavel Rychlý, Vojtěch Kovář		FI MU Brno
Základy matematiky a statistiky pro hurr	■anitní obory II	
Obsah přednášky Statistika a zpracování jazyka Vyhledávání kolokací N-gramové jazykové modely
O OO •
N-gramové jazykové modely
N-gramové jazykové modely
■ N-gramový jazykový model
■ „hádáme další slovo" (značku) na základě předchozích P{wn|wi,w„_i)
■ z dat odvodíme pravděpodobnostní rozložení všech možných wn
■ Použití
■ strojový překlad, morfologické značkování, rozpoznávání řeči...
■ Problémy
■ pro N > 4 většinou výpočetně nezvládnutelné
■ „Snědl jsem velkou zelenou ..."
■ Data sparseness - pro slova, která se vyskytují méně
často, není dost dat — špatný model
1 j
Pavel Rychlý, Vojtěch Kovář		FI MU Bri
Základy matematiky a statistiky pro hurr	■anitní obory II	
1