Cvičení 3
1. Príklad
IR systém vráti 8 relevantných dokumentov a 10 nerelevantných dokumentov.
Dohromady je v kolekcii 20 relevantných dokumentov. Aká je presnosť a úplnosť (precision, recall)
systému pri tomto vyhľadávaní?
2. Príklad
Nasledujúci zoznam písmen R a písmen N reprezentuje relevantné (R) a nerelevantné (N) dokumenty vrátené v usporiadanom zozname 20 výsledkov ako odpoveď na dotaz z kolekcie 10 000 dokumentov. Prvý (najrelevantnejší) výsledok zoznamu je naľavo. Tento zoznam obsahuje 6 relevantných dokumentov.
Predpokladajte, že kolekcia obsahuje dohromady 8 relevantných dokumentov ku dotazu.
R R N N N N N N R N R N N N R N N N N R
a) Aká je presnosť systému na prvých 20 výsledkoch?
b) Aká je F1 na prvých 20 výsledkoch?
c) Aká je neinterpolovaná presnosť systému pri 25% pokrytí?
d) Aká je interpolovaná presnosť systému pri 33% pokrytí?
e) Predpokladajte, že týchto 20 dokumentov je úplný zoznam výsledkov systému. Aký je MAP systému pre tento dotaz?
Teraz predpokladajte, že systém vrátil všetkých 10 000 dokumentov v zoradenom zozname a hore je uvedených prvých 20 vrátených výsledkov.
f) Aký najvyšší možný MAP môže tento systém dosiahnuť?
g) Aký najnižší možný MAP môže tento systém dosiahnuť?
h) Pri sade experimentov bolo vyhodnotených len prvých 20 výsledkov. Výsledok (e) bol použitý na na aproximovanie rozsahu (f)-(g). Aká veľká môže byť chyba pre výpočet MAP pri počítani (e) namiesto (f) a (g) pre tento dotaz?
3. Príklad
Nižšie je tabuľka ukazujúca ako dvaja znalci ohodnotili relevanciu množiny 12 dokumentov k nejakej informačnej potrebe (0=nerelevantné, 1=relevantné).
Predpokladajme, že ste vyvinuli IR systém, ktorý pre tento dotaz vráti dokumenty {4, 5, 6, 7, 8}.
Doc ID | Judge 1 | Judge 2 |
1 | 0 | 0 |
2 | 0 | 0 |
3 | 1 | 1 |
4 | 1 | 1 |
5 | 1 | 0 |
6 | 1 | 0 |
7 | 1 | 0 |
8 | 1 | 0 |
9 | 0 | 1 |
10 | 0 | 1 |
11 | 0 | 1 |
12 | 0 | 1 |
a) Vypočítajte Kappa mieru zhody medzi týmito znalcami.
b) Vypočítajte presnosť, pokrytie a F1 vášho systému, ak je dokument relevantný len ak sa na ňom zhodli obaja znalci.
c) Vypočítajte presnosť, pokrytie a F1 vášho systému, ak je dokument relevantný ak si to myslí aspoň jeden zo znalcov.
4. Príklad
Užívateľov prvotný dotaz je "cheap CDs cheap DVDs extremely cheap CDs". Užívateľ preskúma dva dokumenty d1 a d2. Ohodnotí dokument d1 "CDs cheap software cheap CDs" ako relevantný a d2 "cheap thrills DVDs" nerelevantný. Predpokladajme, že používame jednoduchú tf bez dĺžkovej normalizácie vektorov. Použitím Rocchio relevance feedbacku aký by bol prepracovaný vektor dotazu po zvážení relevance feedbacku?
alpha=1, beta=0.75, gamma=0.25
5. Príklad
Prečo je pozitívny feedback pravdepodobne lepší ako negatívny feedback pre IR systém?
Prečo je možno lepšie použiť na feedback len jeden nerelevantný dokument ako ich použiť viac?
6. Príklad
Prečo je prírastková relevancia viacej realistické merítko užívateľskej spokojnosti?
Udajte príklad kde neprírastková metrika ako napríklad presnosť alebo úplnosť je zavádzajúce merítko užívateľskej spokojnosti a naopak prírastková je lepšía?