dbpedia
Václav Zeman
December 2015
KIZI - VŠE
co je dbpedia?
2
co je dbpedia?
• DBpedia je komunita lidí zaměřující se na získávání informací a
znalostí z Wikipedie.
• DBpedia je sada nástrojů, které extrahují informace z Wikipedie.
• DBpedia je báze propojených a strojově čitelných dat získaných z
Wikipedie.
3
co je dbpedia?
• DBpedia je služba, která dovoluje uživateli vyhledávat informace z
Wikipedie soﬁstikovanějším způsobem.
• DBpedia je Wikipedie přizpůsobena ke strojovému zpracování
informací.
4
co je dbpedia?
Wikipedia
Sdílená tvorba obsahu, Web 2.0
DBpedia
Sémantický web, propojená data, Web 3.0
5
k čemu je dbpedia?
6
k čemu je dbpedia?
• Strojové čtení a zpracování informací obsažených na Wikipedii.
• Soﬁstikované vyhledávání informací.
• Využití pro objevování nových znalostí.
• Jednoduché a přímé odpovídání na otázky, které uživatele zajímají:
Otázka
Nejvyšší hora v Česku?
Odpověď
Sněžka
7
k čemu je dbpedia?
Nejvyšší hora v Česku?
Otázka v podobě sémantického dotazu (SPARQL)
SELECT ?hora {
<http://cs.dbpedia.org/resource/Česko>
<http://dbpedia.org/ontology/highestMountain>
?hora
}
Odpověď
http://cs.dbpedia.org/resource/Sněžka
8
k čemu je dbpedia?
Všechny ﬁlmy, které režíroval Jan Svěrák?
Otázka v podobě sémantického dotazu (SPARQL)
SELECT ?film {
?film
<http://dbpedia.org/ontology/director>
<http://cs.dbpedia.org/resource/Jan_Svěrák>
}
Odpověď
http://cs.dbpedia.org/resource/Jízda_(film)
http://cs.dbpedia.org/resource/Akumulátor_1
http://cs.dbpedia.org/resource/Kolja
http://cs.dbpedia.org/resource/Kuky_se_vrací
http://cs.dbpedia.org/resource/Obecná_škola_(film)
http://cs.dbpedia.org/resource/Tmavomodrý_svět_(film)
http://cs.dbpedia.org/resource/Tři_bratři_(film)
http://cs.dbpedia.org/resource/Vratné_lahve
9
k čemu je dbpedia?
Technicky, DBpedia nabízí:
• Vyextrahované informace z Wikipedie v podobě RDF datasetů.
• SPARQL endpoint pro sémantické dotazování.
• Vlastní rozsáhlou ontologii pro zajištění konzistence
vyextrahovaných dat.
• Možnost propojení s jinými informačními bázemi.
10
jak vzniká dbpedia?
11
jak vzniká dbpedia?
12
zdroj dat
Pro extrakci informací z Wikipedie je nejprve nutné stáhnout všechny
Wikipedia stránky. Jak toho docílit?
• Wikipedia dump = Jeden soubor obsahující všechny wiki stránky
• Dump je veřejně dostupný na adrese dumps.wikimedia.org
• Aktualizace dumpu probíhá jednou za měsíc.
• Velikost dumpu obsahující všechny stránky české Wikipedie je po
rozbalení cca 2.15 GB
13
extrakční framework
Jednotlivé informace z Wikipedia stránek jsou získávány pomocí tzv.
extraktorů.
• Primární extrakční framework:
• je open source, veřejně dostupný na githubu
• obsahuje sadu extraktorů implementovaných v jazyce Scala/Java
• Každý extraktor extrahuje právě jeden typ informací z Wikipedie.
• Informace se extrahují hlavně pomocí regulárních výrazů, ale také
s použitím metod strojového učení (pokročilejší extraktory).
• Možnost zapojení vlastních extraktorů do DBpedie.
• Linked Hypernym Dataset1
= extraktor vyvinutý na VŠE, součástí
DBpedie od roku 2015.
1http://ner.vse.cz/datasets/linkedhypernyms/
14
extrakční workflow
Source: Zdrojem je Wikipedia stránka ve wiki formátu.
’’’Prague’’’ ({{IPAc-en|’|p|r|a:|g}};
{{lang-cs|Praha}}, {{IPA-cs|’praha||Cs-Praha.ogg}})
is the capital and [[List of cities in the
Czech Republic|largest city]] of the [[Czech Republic]]
WikiParser: Převádí obsah stránky v podobě prostého textu na
vlastní datovou strukturu.
Extractor: Z načtené Wikipedia stránky extrahuje informace v
podobě trojic.
Destination: Finální uložení trojic do RDF datasetů.
15
klíčové dbpedia extraktory
LabelExtractor
Extrahuje názvy Wikipedia stránek.
PageLinksExtractor
Extrahuje interní linky mezi Wikipedia stránkami.
CategoryLabelExtractor
Extrahuje kategorie Wikipedia stránek.
DisambiguationExtractor
Extrahuje rozcestníky.
RedirectExtractor
Extrahuje synonyma názvů Wikipedia stránek.
16
klíčové dbpedia extraktory
InfoboxExtractor
Extrahuje informace z takzvaných infoboxů (tabulky
v pravé části článků na Wikipedii).
• Problém: Názvy jednotlivých vlastností uvnitř
infoboxů nejsou konzistentní. Různé názvy
pro různé jazykové verze a typy infoboxů.
• Řešení: Mapování vlastností z infoboxů na
DBpedia vlastnosti deﬁnované v rámci jedné
konzistentní ontologie.
<http://cs.dbpedia.org/resource/Česko>
<http://cs.dbpedia.org/property/nejvyššíHora>
<http://cs.dbpedia.org/resource/Sněžka> .
17
klíčové dbpedia extraktory
MappingExtractor
Mapuje vlastnosti z infoboxů na vlastnosti z
DBpedia ontologie.
• Extraktor využívá tzv. mapovací pravidla.
• Mapovací pravidla se vytvářejí ručně na
stránce mappings.dbpedia.org
• Namapované vlastnosti jsou konzistentní v
rámci všech jazykových verzí DBpedie.
<http://cs.dbpedia.org/resource/Česko>
<http://dbpedia.org/ontology/highestMountain>
<http://cs.dbpedia.org/resource/Sněžka> .
18
kompletní workflow
19
publikování vyextrahovaných informací
• Jako množina souborů
obsahující strojově čitelná a
propojená data dle speciﬁkace
RDF (N-Triples, RDF/XML,
JSON-LD, CSV aj.).
• Jako služba, ve které je možné
vyhledávat informace dle
sémantických dotazů (SPARQL
endpoint).
• Jako webové stránky, které
vizualizují veškeré
vyextrahované informace.
20
dbpedia vs wikidata
• Akademický decentralizovaný
projekt
• Pouze extrahuje informace z
Wikipedia stránek
• Důraz je kladen na kvantitu
informací
• Aktualizováno 2x za rok
• Spravuje přímo Wikimedia
Foundation
• Informace jsou ručně vytvářeny
komunitou, stejně jako
Wikipedia
• Důraz je kladen na kvalitu
informací
• Aktualizováno v reálném čase
21
česká dbpedia
česká dbpedia
Obsahuje více než 29,5 miliónů výroků (trojic).
K dispozici je:
• Kompletní množina vyextrahovaných dat (volně ke stažení ∼6GB)
• Služba pro sémantické dotazování (SPARQL endpoint)
• Náhledy na vyextrahované informace pro jednotlivé Wikipedia
stránky
http://cs.dbpedia.org
23
využití dbpedie
Česká DBpedie je momentálně spravována katedrou informačního a
znalostního inženýrství na VŠE.
Školní projekty postavené na DBpedii:
• Targeted Hypernym Discovery:2
Automatická sémantická anotace
textu.
• Linked Hypernym Dataset:3
Nástroj využívající metod strojového
učení pro odvození typu Wikipedie stránky dle první věty abstraktu.
• DB-quiz:4
Vědomostní hra odvozená od populární televizní soutěže
AZ-kvíz. Otázky jsou automaticky generovány z české a anglické
DBpedie.
2http://ner.vse.cz/thd/
3http://ner.vse.cz/datasets/linkedhypernyms/
4http://mynarz.net/db-quiz/
24
děkuji za pozornost