PA153 Počítačové zpracování přirozeného jazyka 12 - Strojové učení a ZPJ Jiří Materna Centrum ZPJ, Fl MU, Brno 9. prosince 2013 Jiří Matern; PA153 Zpracování přirozeného jazyka 12 - Strojové učení a ZPJ 1 / 18 Q Metody strojového učení Q Kasifikace dokumentů Q Skryté Markovovy modely Q) Modelování témat dokumentu Strojové učení • učení s učitelem (supervised) • učení bez učitele (unsupervised) • kombinace předchozího (semi-supervised) • zpětnovazební učení (reinforcement learnin • optimalizační úloha Nedostatečná expresivita Housing price prediction. Price (S) in 1000's Lineární regrese Regresní strom Polynomiální regrese Zdroj: https://class.coursera.org/ml/class 1000 1500 Size in feet' 2000 2500 PA153 Zpracování při 12 - Strojové učení a ZPJ 7/18 Problém s přeučováním Slze 00 + M High bias (underfit) Slze 00 +9ix + 92x2 "Just right" 0„- Slze 62x2 + ^ + 9aX4 High variance (overfit) Zdroj: http s: / / class. courser a. or g/ml/class PA153 Zpracování při 12 - Strojové učení a ZPJ 8/18 Bagging & Boosting Jiří Matern; PA153 Zpracování přirozeného jazyka 12 - Strojové učení a ZPJ 9/18 Klasifikace dokumentů Bag-of-words reprezentace dokumentu O the man walked the dog Q the man took the dog to the park O the dog went to the park [dog, man, park, the, to, took, walked, went] O [1, 1, 0, 1, 0, 0, 1, 0] © [1, 1, 1, 1, 1, 1, 0, 0] © [1, 0, 1, 1, 1, 0, 0, 1] TF-IDF TF(t,d) = -^- (1) IDF(ř) = log..[°[.. (2) \j ■ ti e dj\ TF-IDF(ř, d) = TF(t, d) x IDF(ř) (3) O [0, 0.18, 0, 0, 0, 0, 0.48, 0] O [0, 0.18, 0.18, 0, 0.18, 0.48, 0, 0] O [0, 0, 0.18, 0, 0.18, 0, 0, 0.48] PA153 Zpracování při 12 - Strojová učení a ZPJ 12 / 18 Morfologické značkovaní ower / i 0.076 P TQ.012 birds ĽtB Zdroj: http : //www. ese .unsw. edu. au/~billw/ 12 - Strojové učení a ZPJ 14 / 18 Zdroj: http://en.wikipedia.org/wiki/Latent_semantic_analysis