Sémantický web, ontologie. Sociální sítě. http://blogs.oracle.com/fusionecm/ontology-dimensions-map_20070423b.png Sémantický web •Metody a techniky pro přiřazení významu (sémantiky) informacím na webu •Web rozšířený o metadata •Metadata = data o datech •Postaven na formátu RDF • Cíle sémantického webu •Integrovat data z různých zdrojů •Umožnit výměnu dat mezi aplikacemi napříč celým webem •Umožnit kvalitnější strojové vyhledávání informací na webu •Umožnit popsat vztahy mezi daty a objekty v reálném světě •Přiřadit informacím na webu přesný význam Metadata v HTML •Pomocí tagů: •Cíl: umožnit kvalitnější vyhledávání, než obyčejný full-text search •Zneužíváno ve velké míře spammery •Neumožňuje definovat vztahy a hierarchie objektů •Dnes vyhledávače dávají přednost jiným metodám, než prohledávání tagů RDF •RDF = Resource Description Framework •Framework pro popis zdrojů na webu •Navržen tak, aby byl strojově čitelný a pochopitelný •Doporučení W3C •Různé způsoby serializace (uložení do souboru), př. RDF/XML • • Princip RDF •Každému zdroji na webu přiřadí trojici: –Subject (subjekt, podmět) –Predicate (predikát, vlastnost) –Object (objekt, předmět) •Při definici subjektů a predikátů je typicky potřeba definovat URI (Unique Resource Identifier) pro jednoznačné přiřazení významu. •RDF dokumenty lze ukládat do triplestore databází (databáze optimalizované pro RDF trojice) nebo serializovat pomocí XML (formát RDF/XML) RDF/XML •Příklad: „Obloha má modrou barvu.“ –Podmět: „obloha“ –Vlastnost: „mít barvu“ –Předmět: „modrá“ („blue“) •Serializace ve formátu RDF/XML: – • • •1: •2: •3: •6: •7: blue •8: •9: Triplestores •Databáze optimalizované pro ukládání RDF trojic (subjekt, predikát, objekt) •Mnoho implementací v různých jazycích (C, C#, PHP, Java, Perl) •Postaveny buď nad existujícím relačním databázovým strojem (MySQL, PostgreSQL, MS SQL, Oracle), nebo vyvinuty kompletně od začátku přesně pro svůj účel (vyšší efektivita) Ontologie •Model pro popis světa složeného z typů, vlastností a vztahů •Využití v sémantickém webu pro přiřazení významu datům (tj. pro tvorbu metadatového modelu) •Při tvorbě ontologií je snaha o co nejpřesnější podobnost mezi objekty reálného světa a vlastnostmi modelu • Kategorie ontologií •Individua (instance a objekty) •Třídy (množiny, kolekce, pojmy, typy, druhy) •Atributy (aspekty, stavy, vlastnosti, charakteristiky a parametry, kterých mohou objekty/třídy nabývat) •Relace (způsoby, jakými k sobě mohou třídy a individua navzájem patřit) •Funkční výrazy (komplexní struktury nad relacemi) • Kategorie ontologií •Restrikce (formální popis platného vstupu) •Pravidla (Příkazy ve formě if-then (příčina-následek) popisující logické inference, které mohou být odvozeny z výroků v dané formě) •Axiomy (výroky (vč. pravidel) v logické formě, které dohromady skládají kompletní teorii, kterou ontologie popisuje. Nemusí obsahovat pouze apriorní znalosti, ale také odvozené teorie z jiných axiomů. •Události (změny atributů a relací) Inference znalostí •Pojem inference –1) dobře navržená logická heuristika pro odvozování nových znalostí –2) odvozená znalost •Inference znalostí - odvozování nových znalostí na základě existujících (známých) znalostí (inferencí) •Využití v sémantickém webu při strojovém vyhledávání nových znalostí Inferenční enginy •Počítačové programy, které zkouší odvodit odpověď z báze znalostí (knowledge base, množina axiomů/výroků/faktů/znalostí/popř. inferencí) •Data v bázi znalostí musí být uložena takovým způsobem, aby stroj/engine dokázal odvodit a porozumět jejich významu, tj. musí být explicitně vyjádřena jejich sémantika (samotná data musí být doplněna o metadata) SPARQL [„spa:kl“] •Jazyk / protokol pro inferenci znalostí z RDF dokumentů •Umožňuje provádět dotazy nad RDF trojicemi (triplestore databázemi) •Podobná syntax jako SQL •Výhoda SPARQL: dotazy jsou díky přítomnosti URI v RDF formátu globálně jednoznačné Sociální sítě •propojená skupina lidí, kteří se navzájem ovlivňují •Sociální software (socioware) - software, který umožňuje tvořit komunity pomocí počítačových propojení. •Virtuální komunita, e-komunita • Periferní (tj. lurker – číhající) - externí, nestrukturovaná účast • Příchozí (tj. nováček) – nově příchozí je vpuštěn do komunity a může se plně účastnit diskuze • Zasvěcenec (tj. stálý člen) – plně uznaný účastník • Strážce hranic (tj. vůdce) – podporuje členství a zprostředkovává interakce • Odchozí (tj. starý) – proces opouštění komunity kvůli novým vztahům, novým místům, novým vyhlídkám • • • • Sociální sítě •Facebook •Twitter (tweety, „SMS Internetu“) •MySpace – sdílení hudby a videa •Orkut – sdílení multimédií, chatování a hledání ztracených přátel. •Classmates (Spolužáci.cz) •Blackplanet - síť určená pro Afroameričany a jejich přátele •Hi5, Friendster, Bebo, … • • • • • • all_10_nolabel De profondes différences de réseaux sociaux en fonction des continents. Modelování a analýza sociálních sítí •Grafy •Matice •Vizualizace •Aplikace Graf •Jednoduchý meorientovaný graf je dvojice G = (V, E) , kde V je neprázdná množina vrcholů (uzlů) a E je množina dvouprvkových množin vrcholů, tzv. (neorientovaných) hran. •Jednoduchý orientovaný graf je dvojice G = (V, E) , kde V je neprázdná množina vrcholů (uzlů) a E je množina uspořádaných dvojic vrcholů, tzv. (orientovaných) hran. • • A Graph for the Maximum Clique Problem Maticová reprezentace grafu • A Bit Matrix Graph Representation • A Bit Matrix Graph Representation A Graph for the Maximum Clique Problem Clique - klika •social sciences: "clique" popisuje skupinu cca. 2 až 12 (průměr 5 - 6) osob které spolu interagují mnohem častěji a intensivněji než ostatní •Teorie grafů: clique je taková podmnožina neorientovaného grafu, ve které jsou každé dva uzly spojené hranou. Adolescent girls form cliques Klika - př., graf • http://t1.gstatic.com/images?q=tbn:ANd9GcSij-Mk_Uj-E0xII_vfLeoUOhq0xL-Pw_7wF5QwW1D2EUzZAsFn_w Typy klik – př. •Punkeři •Gangsteři •Mean girls •Šprti (nerds) •Skateři •Outsideři •Intelektuálové •… • Adolescent girls form cliques Některé další základní relevantní grafové pojmy •Cesta •Souvislost grafu •Cyklus •Strom •Most •Bipartitní graf •Orientovaný graf •Planární graf, multigraf Cesta v grafu • http://library.thinkquest.org/C0113380/media/graphs/graph3.gif Uzavřená cesta • • • • http://upload.wikimedia.org/wikipedia/commons/thumb/e/e7/Graph_cycle.gif/220px-Graph_cycle.gif Souvislý graf • http://www.leda-tutorial.org/en/unofficial/Pictures/NonBiconnectedGraph.png Most a bod řezu (cutpoint) • http://www.onion-router.net/Archives/Route/Bridge.gif Cyklus • http://upload.wikimedia.org/wikipedia/commons/thumb/e/e7/Graph_cycle.gif/220px-Graph_cycle.gif Strom • http://library.thinkquest.org/C0113380/media/graphs/graph5.gif Bipartitní graf • http://upload.wikimedia.org/wikipedia/commons/thumb/e/e8/Simple-bipartite-graph.svg/220px-Simple-bi partite-graph.svg.png (ohodnocený) orientovaný graf • http://stochastix.files.wordpress.com/2009/07/iou-graph-10-nodes-and-20-edges.png Multigraf • http://upload.wikimedia.org/wikipedia/commons/thumb/c/c9/Multi-pseudograph.svg/220px-Multi-pseudogr aph.svg.png Sociální graf senátu USA • •O'Reilly Media •Senatoři jsou propojeni hranou jestliže volí stejně v 65% případů během dvouletého období •http://www.slideshare.net/oreillymedia/us-senate-social-graph-1991-present?type=presentation • • http://image.slidesharecdn.com/partisanshipvisualization-090505090703-phpapp02/95/slide-2-728.jpg?1 241722623 • http://image.slidesharecdn.com/partisanshipvisualization-090505090703-phpapp02/95/slide-3-728.jpg?1 241722623 • http://image.slidesharecdn.com/partisanshipvisualization-090505090703-phpapp02/95/slide-4-728.jpg?1 241722623 • http://image.slidesharecdn.com/partisanshipvisualization-090505090703-phpapp02/95/slide-6-728.jpg?1 241722623 • http://image.slidesharecdn.com/partisanshipvisualization-090505090703-phpapp02/95/slide-9-728.jpg?1 241722623 http://image.slidesharecdn.com/partisanshipvisualization-090505090703-phpapp02/95/slide-10-728.jpg? 1241722623 Vizualizace • • • all_10_nolabel Fragment sítě Facebook • http://www.digitaltrainingacademy.com/images/sm_facebook_friends_map.JPG