Cvičení 2
1.Príklad
Kolekcia dokumentov obsahuje 4 slová: a, b, c, d. Vzájomná frekvencia slov je a > b > c > d. Celkový počet tokenov v kolekcii je 5000. Predpokladajte, ze pre túto kolekciu presne platí Zipfov zákon. Aké su frekvencie vyššie uvedených štyroch slov?
2. Príklad
γ-kódy je neefektívny pre veľké čísla (napr. 1000 alebo 10 000) pretože kódujú dĺžku offsetu v unárnom kóde. δ-kódy používajú gamma kód pre zakódovanie tejto dĺžky.
γ-kód je definovaný ako
unárny_kód(dĺžka(ofset(G))),ofset(G)
δ-kód je definovaný ako
γ(dĺžka(ofset(G+1))),ofset(G+1)
Napríklad δ-kód pre G=6 je 10,0,11. 10,0 je γ-kód pre dĺžku (v tomto prípade 2). Kódovanie ofsetu (11) je rovnaké ako v prípade γ-kódu pre G = 7.
Vypočítajte γ- a δ- kódy pre 1, 2, 3, 4, 31, 63, 127, 1023.
3. Príklad
Vypočítajte variabilný byte- a γ- kód pre postings zoznam <777, 17743, 294068, 31251336>.
Používajte medzery namiesto docID tam kde je to možné. Binárne kódy napíšte v 8 bitových blokoch.
4. Príklad
Posúďte tabuľku s frekvenciami slov troch dokumentov Doc1, Doc2, Doc3 nižšie. Vypočítajte tf-idf váhy termov car, auto, insurance, best, pre
každý dokument. Idf hodnoty termov sú uvedené v tabuľke.
Doc1 | Doc2 | Doc3 | idf | |
---|---|---|---|---|
car | 27 | 4 | 24 | 1.65 |
auto | 3 | 33 | 0 | 2.08 |
insurance | 0 | 33 | 29 | 1.62 |
best | 14 | 0 | 17 | 1.5 |
5. Príklad
Vypočítajte normalizované Euclidovské vektory pre každý dokument z predchádzajúceho príkladu, kde každý vektor má štyri komponenty, jednu pre každý zo štyroch termov.
6. Príklad
S váhami slov ako boli vypočítané v predchádzajúcom príklade, oznámkujte tri dokumenty podľa vypočítaného skóre pre dotaz car insurance, pre každý z nasledujúcich prípadov váženia slov:
a) váha termu je 1 ak sa v dotaze nachádza, inak 0
b) Euclidovské normalizované idf
7. Príklad
Vypočítajte vektor-space podobnosť medzi dotazom "digital cameras" a dokumentom "digital cameras and video cameras" doplnením prázdných stĺpcov v tabulke nižšie. Predpokladajte N = 10 000 000, logaritmické váženie termov (stĺpce wf) pre dotaz aj dokumenty, idf váženie len pre dotaz a kosínovú normalizáciu len pre dokument.
"And" považujte za STOP slovo. Napíšte počty termov do tf stĺpca.
Aké je konečné skóre podobnosti?
Query | Document | Product | ||||||||
df | tf | wf | idf | qi=wf-idf | tf | wf | di=normalized wf | qi*di | ||
digital | 10 000 | |||||||||
video | 100 000 | |||||||||
cameras | 50 000 |
8. Príklad
Ukážte, že pre dotaz affection je radenie skóre troch dokumentov z tabuľky nižšie v opačnom poradí ako pre dotaz jealous gossip. Dotaz je vážený normalizáciou tf.
SaS | PaP | WH | |
affection | 0.996 | 0.993 | 0.847 |
jealous | 0.087 | 0.120 | 0.466 |
gossip | 0.017 | 0 | 0.254 |