PV211 Úvod do získávání informací - Cvičení

Cvičení 5

1. Príklad

Pre XML dokument uvedený nižšie napíšte XPath výrazy.

a) Vráťte všetky názvy (title elementy), ako kurzu, tak oddelenia.

b) Vráťte názvy kurzov, ktoré majú v názve výraz "programming"

c) Vráťte priezviská inštruktorov učiacich aspon jeden kurz, ktorý má vo svojom popise slovo "software".

d) Vráťte priezviská profesorov učiacich aspon jeden kurz, ktorý má vo svojom popise slovo "software".


<Course_Catalog> 
  <Department Code="CS">    
    <Title>Computer Science</Title>    
    <Chair>
      <Professor>
        <First_Name>Jennifer</First_Name>
        <Last_Name>Widom</Last_Name> 
      </Professor>
    </Chair> 
    <Course Number="CS106A" Enrollment="1070">
      <Title>Programming Methodology</Title>
      <Description>Introduction to the engineering of computer applications emphasizing modern software engineering principles.</Description>
      <Instructors>
        <Lecturer> 
          <First_Name>Jerry</First_Name>
          <Middle_Initial>R.</Middle_Initial>
          <Last_Name>Cain</Last_Name>
        </Lecturer>
        <Professor>
          <First_Name>Eric</First_Name>
          <Last_Name>Roberts</Last_Name> 
        </Professor>
        <Professor>
          <First_Name>Mehran</First_Name>
          <Last_Name>Sahami</Last_Name>
        </Professor>
      </Instructors>
    </Course>    
    <Course Number="CS106B" Enrollment="620"> 
      <Title>Programming Abstractions</Title>
      <Description>Abstraction and its relation to programming.</Description>
      <Instructors>
        <Professor>
          <First_Name>Eric</First_Name>
          <Last_Name>Roberts</Last_Name>
        </Professor> 
        <Lecturer>
          <First_Name>Jerry</First_Name>
          <Middle_Initial>R.</Middle_Initial>
          <Last_Name>Cain</Last_Name>
        </Lecturer>
      </Instructors>
      <Prerequisites> 
        <Prereq>CS106A</Prereq>
      </Prerequisites>
    </Course>
    </Department>
</Course_Catalog>

2. Príklad

Vypočítajte podobnosť medzi dotazmi a im zodpovedajúcimi cestami v dokumente z Príkladu 1.

a) //Instructors//Last_Name#Cain

b) //Course/Instructors/Lecturer/Last_Name#Cain

3. Príklad

Spočítajte, koľko štruktúrnych termov (structural terms, dvojíc kontext/term <c,t>) je v XML strome na nižšie.

    <Course> 
      <Title>Programming Abstractions</Title>
      <Description>Abstraction and its relation to programming</Description>
      <Instructors>
        <Professor>
          <First_Name>Eric</First_Name>
          <Last_Name>Roberts</Last_Name>
        </Professor> 
      </Instructors>
    </Course>

4. Príklad

Ktorý z dokumentov uvedených nižšie má rovnaké alebo rozdielne bag of words reprezentácie pre Bernouliho a multinomický model? Aké sú rozdiely

Doc1: He moved from London, Ontario, to London, England.
Doc2: He moved from London, England, to London, Ontario.
Doc3: He moved from England to London, Ontario.

 

5. Príklad

Na základe dát z tabuľky nižšie

a) odhadnite multinomické Naive Bayes klasifikátory,

b) aplikujte ich na testovací dokument,

c) odhadnite Bernoulli Naive Bayes klasifikátor,

d) aplikujte ho na testovací dokumnet

Nemusíte odhadovať parametre, ktore na klasifikáciu dokumnetu nie sú potrebné.

 

  docID obsah dokumentu je v c = China?
trénovacia množ. 1 Taipei Taiwan áno
  2 Macao Taiwan Shanghai áno
  3 Japan Sapporo nie
  4 Sapporo Osaka Taiwan nie
testovacia množ. 5 Taiwan Taiwan Sapporo ?

 

 

Následující