statistické zpracování
přirozeného jazyka
OJ205
• užití: vyhledávání kolokací
• problémy:
• - rozložení přirozeného jazyka
• - stoplist
• - nastavení vyhledávání
• - interpretace výsledků
statistické zpracování
přirozeného jazyka
• Jako n-gram označujeme obvykle posloupnost slov délky , která se
vyskytuje v korpusu.
• Známe posloupnost - 1 slov v korpusu. Jaké slovo za nimi bude
následovat?
• Formálně se n-gramový jazykový model skládá z ch
pravděpodobností:
( I 1,..., -1)
čili pravděpodobností, že se vyskytlo slovo za předpokladu, že před ním
se vyskytla slova 1, -1. Souhrn všech chto pravděpodobností
pro všechny možné kombinace slov v korpusu se vá n-gramový
jazykový model.
n-gramové jazykové modely
• 1, nemusí t pouze slova - můžeme vytvořit ngramový
model znaků, fonémů, pádů, ch
značek apod., případně i komplikovanější modely, kde
např. bude morfologická značka a 1, -1 budou
slova.
• Využití - ch modelů ve zpracování jazyka:
existuje jich velké množství, z nichž nejpoužívanější je
pravděpodobně trigramový ( =3) jazykový model.
n-gramové jazykové modely
• ( I ) = 3/4
• ( I ) = ' / 4
• ( | ) = 2/3
• ( | )= 1/3
• ( | ) = 1/2
• ( | ) = 1/2
• ( l ) = l
• ( I )=1
• ($|)=1
• ( | ) = 0 š h
rozbor vety: Mámamele maso