Analýza sociálních sítí (ASS) 1 + 2 Petr Ocelík MEB421 25. 9. 2015 Osnova •Úvod •Teorie grafů •Organizace dat •Úvod do R Úvod •Společenskovědní disciplíny se – z definice – zabývají sociálními interakcemi. • •ASS umožňuje sbírat a analyzovat relační data. – Úvod •Hlavní předpoklad: sociální svět je organizován relačně. • •“...transactions, interactions, social ties, •and conversations constitute •central stuff of social life.” •(Tilly 2008: 7) • •uzel •spojnice • Terminologie (Guclu 2012) points lines vertices edges, arcs math nodes links computer science sites bonds physics actors ties, relations sociology Úvod: historie ASS •Počátky spadají do 30. let 20. století (Jacob Moreno). •ASS rozvíjena spíš na ad hoc základě v různých výzkumných centrech. •ASS se coby disciplína etabluje v 70. letech (Mark Granovetter 1973). •Revoluce sociální fyziky v 90. letech: –Watts and Strogatz (1998): sítě malého světa –Barabasi and Albert (1999): bezškálové sítě Jacob Moreno • C:\Users\Cernoch\Dropbox\Energy Section\Obor\Kurzy\MEB421 Vybrané metody výzkumu mezinárodních vztahů\přednášky\MEB421_sítě\moreno_sociogram.jpg Mark Granovetter • C:\Users\Cernoch\Dropbox\Energy Section\Obor\Kurzy\MEB421 Vybrané metody výzkumu mezinárodních vztahů\přednášky\MEB421_sítě\weak_ties.jpg Small-world network http://cdn.fansided.com/wp-content/blogs.dir/308/files/2014/08/19_Kevin_Bacon.jpg http://jasss.soc.surrey.ac.uk/12/2/3/Fig2c-smlwrld.jpg Scale-free network http://jasss.soc.surrey.ac.uk/8/4/8/Figure%201.gif Scale-free network https://c1.staticflickr.com/9/8473/8425835703_dd0f952b5b_z.jpg http://mathinsight.org/media/image/image/power_law_degree_distribution_scatter.png Teorie grafů •Graf = matematická struktura, která modeluje párové vztahy mezi objekty. •Graf (G) je uspořádaný pár sestávající se z množiny vrcholů (V) a množiny (neorientovaných) hran (E) nebo (orientovaných) oblouků (A). •G = (V, E v A) Teorie grafů •Síť je složena z množiny uzlů a množiny spojnic. • • uzel • spojnice • • •síť = graf Teorie grafů •řád (order) = # uzlů •velikost (size) = # hran •stupeň (degree) = # spojení jednotlivých uzlů Teorie grafů •řád (order) = 5 •velikost (size) = 7 Teorie grafů •Úplný graf je graf, jehož všechny vrcholy jsou vzájemně přilehlé. •Prázdný graf je graf, v němž není ani jedna spojnice. Teorie grafů • neorientované orientované • • •binární • • •vážené • • • • • Teorie grafů •Topologie sítě je definována dvěma koncepty: konektivitou a centralitou. •Konektivita popisuje propojenost uzlů v síti (zaměřuje se na toky). •Centralita popisuje umístění uzlů v sítí (zaměřuje se na pozice). Teorie grafů •Krok (step): pohyb podél jedné spojnice začínající a končící uzlem. •Sled (walk): posloupnost kroků, která začíná a končí uzlem. •Cesta (path): sled, kde se žádný uzel ani spojnice neopakují. •Geodetika: nejkratší cesta spojující dva různé uzly. •Vzdálenost dvou uzlů = geodetika. •Diametr: nejdelší vzdálenost jakýchkoli dvou uzlů v síti. Teorie grafů Teorie grafů •Přímo spojený uzel je přilehlý (adjacent). •Spojnice přímo spojená s uzlem je incidenční (incident). •Všechny přímo spojené uzly vytvářejí sousedství (neighbourhood). Teorie grafů •Přímo spojený uzel je přilehlý (adjacent). •Spojnice přímo spojená s uzlem je incidenční (incident). •Všechny přímo spojené uzly vytvářejí sousedství (neighbourhood). Teorie grafů •Subgraf je jakákoli podmnožina uzlů a spojnic grafu. •Komponent je souvislý subgraf. Teorie grafů •Dosažitelnost (reachability) je dána existencí cesty mezi uzly. •Izolát je uzel bez jediného spojení, tj. uzel se stupněm 0. • • Teorie grafů •Strukturální mezera (hole) is a lack of connection between two nodes or subgraphs. •Křižovatka (cutpoint) je uzel, jehož odnětím vznikne strukturální mezera. •Most (bridge) je spojnice, jejímž odnětím vznikne strukturální mezera. • • Teorie grafů •Strukturální mezera (hole) je absence spojení mezi dvěma uzly nebo subgrafy. • • Teorie grafů •Křižovatka (cutpoint) je uzel, jehož odnětím vznikne strukturální mezera. • • Teorie grafů •Most (bridge) je spojnice, jejímž odnětím vznikne strukturální mezera. • • • Teorie grafů •Inkluzivita je dána # propojených uzlů vzhledem k celkovému # uzlů v síti. •Hustota je podíl # pozorovaných spojnic na maximálním možném # spojnic v síti. • • Teorie grafů •Inkluzivita (inclusivity) je dána # propojených uzlů vzhledem k celkovému # uzlů v síti. • • • Teorie grafů •Inkluzivita (inclusivity) je dána # propojených uzlů vzhledem k celkovému # uzlů v síti. •Inkluzivita = 5 / 6 = 0.83 • • • Teorie grafů: notace •G = graf/síť •N = # uzlů v síti, n = jednotlivý uzel •e = spojnice, g = geodetika •i, j, … = indexy (označují vybrané prvky) •gij = geodetika spojující uzly i a j, ni = uzel i •k = # vybraných prvků (typicky uzlů) • •Velká písmena: globální indikátory •Malá písmena: lokální indikátory •cd(ni) = stupňová centralita uzlu i •Cd(G) = stupňová centralizace grafu G • • Teorie grafů •Hustota (density) dána # pozorovaných spojnic (∑ e) na celkovém možném # spojení v síti. •# všech možných spojení v neorientované síti = (N * (N – 1)) / 2 •# všech možných spojení v orientované síti = (N * (N – 1)) •Hustota (neoreint.): ∑ e / ((N * (N – 1)) / 2) • • • • Cvičení •Hustota (neorient.): ∑ e / ((N * (N – 1)) / 2) • •Předpokládejme, že vytváříte síť. Spojnice vzniká, pokud dva studenti sedí vedle sebe nebo „našikmo“. –Jaká je inkluzivita a hustota této sítě? • • • Teorie grafů •Bipartitní (někdy two-mode) síť obsahuje dvě oddělené množiny uzlů (U a V). •Spojnice jsou možné pouze mezi těmito dvěma množinami uzlů, nikoli uvnitř těchto množin. http://upload.wikimedia.org/wikipedia/commons/thumb/e/e8/Simple-bipartite-graph.svg/600px-Simple-bi partite-graph.svg.png Teorie grafů •Jednorozměrné projekce bipartitní sítě ukazují sítě aktérů a konceptů. •Aktéři jsou propojeni, pokud sdílejí alespoň jeden koncept. •Koncepty jsou propojeny, pokud jsou sdíleny alespoň jednou dvojicí aktérů. • Teorie grafů •Egocentrická síť je osobní síť daného jednotlivce (ega). •Počet kroků spojující uzel s egem klasifikuje uzel do příslušné zóny. •Zóna prvního řádu zahrnuje všechny přímo spojené uzly (alteri), zóna druhého řádu všechny uzly spojené dvěma kroky atd. Teorie grafů Teorie grafů •Multiplexní síť se skládá z jedné množiny uzlů a více než jedné množiny spojnic. •Např. tatáž skupina lidí propojená skrze různé online sociální sítě (Facebook, Twitter, Linkedin atd.). C:\Users\Cernoch\Dropbox\Energy Section\Obor\Kurzy\MEB421 Vybrané metody výzkumu mezinárodních vztahů\přednášky\MEB421_SNA\pics\networks_data\multiplexity.jpg Thurner 2012 Organizace dat •Atribuční data: individuální charakteristiky. –Např.: věk, příjem, vzdělání, HDP, TPES, atd. •Relační data: charakteristiky vztahů. –Např.: rodinné vztahy, obchodní toky, konflikty, atd. • • • • • Organizace dat: hranice sítě •Hranice sítě: vymezení zpravidla problematické. •Často žádné „přirozené hranice“. •Různé strategie vymezení hranic: –nominální (např. všichni členové EU) –poziční (např. všechny demokratické státy) –realistická (např. všechny státy prezentující se jako lidové demokracie) –relační (např. všechny státy, které jsou ostatními označovány za demokracie) –založená na událostech (např. všechny státy, které se účastnily války v Iráku) • • • • • Organizace dat: vzorkování •Často nemožné získat přístup k celé populaci. •Náhodný výběr není vhodný - proč? • • • • • Organizace dat: vzorkování •Často nemožné získat přístup k celé populaci. •Náhodný výběr není vhodný - proč? •Burtova formule ztráty informace = (100 - k)%. •Metody výběru vzorku: –Výběr nabalováním –Výběr založený na atributech • • • • • Organizace dat: sběr dat •Dotazníky / rozhovory •Generátor jmen (dotazník) • • • • •Pozorování / experiment •Archivní data • • C:\Users\Cernoch\Dropbox\Energy Section\Obor\Kurzy\MEB421 Vybrané metody výzkumu mezinárodních vztahů\přednášky\MEB421_SNA\pics\networks_data\name_generator.jpg Cvičení •Definujte výzkumnou otázku. •Definujte populaci a hranice sítě. •Definujte metodu výběru vzorku a sběru dat. • • • • Organizace dat •(Sociální) data, atribuční stejně jako relační, jsou typicky organizována v datových maticích. • •Case-by-variable matice je standardní způsob organizace dat v kvantitativním výzkumu. • •Není vhodné pro relační data. • • • • Case-by-variable matrix • • • • C:\Users\Ocelot\Dropbox\Energy Section\Obor\Kurzy\MEB421 Vybrané metody výzkumu mezinárodních vztahů\2012\přednášky\MEB421_SNA\case_by_variable.jpg Matice sousednosti (case-by-case) • • • • C:\Users\Cernoch\Dropbox\Energy Section\Obor\Kurzy\MEB421 Vybrané metody výzkumu mezinárodních vztahů\přednášky\MEB421_SNA\pics\networks_data\work_matrix_cooc.jpg Organizace dat: datové matice •Matice sousednosti (adjacency matrix) ukazuje, zda spolu uzly sousedí, či nikoli. •Incidenční matice (incidence matrix) zaznamenává vztahy mezi dvěma typy uzlů. –Řádky reprezentují jeden typ uzlů. –Sloupce reprezentují druhý typ uzlů. • • • • Neorientovaná binární síť • • • • C:\Users\Cernoch\Dropbox\Energy Section\Obor\Kurzy\MEB421 Vybrané metody výzkumu mezinárodních vztahů\přednášky\MEB421_SNA\pics\networks_data\adjacency_matrix_sociogram.jpg Thurner 2012 Orientovaná binární síť • • • • C:\Users\Cernoch\Dropbox\Energy Section\Obor\Kurzy\MEB421 Vybrané metody výzkumu mezinárodních vztahů\přednášky\MEB421_SNA\pics\networks_data\adjacency_matrix_digraph.jpg Thurner 2012 Neorientovaná vážená síť • • • • C:\Users\Cernoch\Dropbox\Energy Section\Obor\Kurzy\MEB421 Vybrané metody výzkumu mezinárodních vztahů\přednášky\MEB421_SNA\pics\networks_data\valued_relations_matrix_graph.jpg Thurner 2012 Incidenční matice (case-by-event) • • • • Matice sousednosti (case-by-case) • • • • Matice sousednosti (event-by-event) • • • • Operace s maticemi: jednorozměrná projekce •Jednorozměrnou projekci incidenční matice získáme, pokud tuto matici vynásobíme její transpozicí. –Transponovaná matice: řádky v pozici sloupců a naopak. •Pro případy (řádky) musí být transpozice na druhém místě. –matrix %*% t(matrix) •Pro události (sloupce) musí být transpozice na prvním místě. –t(matrix) %*% matrix • • • Transpozice matice •Incidenční matice • • • •Transpozice • • • 1 0 1 1 0 0 1 1 1 1 1 0 1 0 1 0 0 1 1 1 1 1 1 0 Násobení matic (případy) • • • %*% • • • •Tečkový součin: nejprve první řádek a první sloupec •(1, 0, 1, 1) a (1, 0, 1, 1), vynásobíme korespondující prvky a sečteme jejich produkty. •(1, 0, 1, 1) * (1, 0, 1, 1) = 1*1 + 0*0 + 1*1 + 1*1 = 3 1 0 1 1 0 0 1 1 1 1 1 0 1 0 1 0 0 1 1 1 1 1 1 0 Násobení matic (případy) • • • %*% • • • • = • • 1 0 1 1 0 0 1 1 1 1 1 0 1 0 1 0 0 1 1 1 1 1 1 0 3 2 2 2 2 1 2 1 3 Násobení matic (events) • • • • %*% • • • •Tečkový součin: nejprve první řádek a první sloupec •(1, 0, 1, 1) a (1, 0, 1, 1), vynásobíme korespondující prvky a sečteme jejich produkty. •(1, 0, 1) * (1, 0, 1) = 1*1 + 0*0 + 1*1 = 2 1 0 1 1 0 0 1 1 1 1 1 0 1 0 1 0 0 1 1 1 1 1 1 0 Násobení matic (events) • • • • %*% • • • = 1 0 1 1 0 0 1 1 1 1 1 0 1 0 1 0 0 1 1 1 1 1 1 0 2 1 2 1 1 1 1 0 2 1 3 2 1 0 2 2 Cvičení •Definujte jednorozměrné projekce této incidenční matice: • • • • • Jan Petr Hedvika Introduction 1 0 1 Methodology 1 1 0 Mini-case study •Příprava projektu hlubinného úložiště zahájena v roce 1990. • •Úložiště projektováno tak, aby umožnilo bezpečně uskladnit kontejnery s radioaktivním odpadem v řádu stovek tisíc let. • •V současnosti 7 kandidátských lokalit. • •Projekt je od počátku provázen projevy lokální opozice. • •Cíl výzkumu: zmapovat, jak je téma rámováno ze strany lokální opozice a akceptace. • • http://www.vae.lt/images/giluminio_kapinyno_schema_en.gif Diskursivní síť •Bipartitní síť sestávající se z aktérů a konceptů. • C:\Users\Ocelot\AppData\Local\Temp\ScreenClip.png Haunss, Dietz & Nullmeier 2013: 13 Rám •Sdílené interpretační schéma, skrze které aktéři chápou a prosazují určitou verzi reality (např. Benford a Snow 2000). • •Cílem je prosazení vlastní interpretace tématu. • •Aktéři – prostřednictvím rámů – strategicky zdůrazňují či potlačují určité prvky tématu. • •Operacionalizace: skupina kódů, které jsou v podobné pozici vůči zbytku sítě. • (Diskursivní) koalice •(Diskursivní) koalice je chápána jako “...skupina aktérů, kteří sdílejí sociální konstrukt [rám].” (Hajer 1995: 43) • •Operacionalizace: hustě propojený segment (komunita) v síti aktérů. • • • Incidenční matice buňka ij ukazuje kolikrát aktér i užil koncept j 0 3 . . . . . . . . . . . . 0 2 1 aktér 1 (rozhovor) aktér i koncept 1 koncept j . . . . . . . . . . C:\Users\Ocelot\Disk Google\ceners\Research\Grants\2013 GAMU\- disertace -\pics\cela_bipartite_1_red.jpg C:\Users\Ocelot\Disk Google\ceners\Research\Grants\2013 GAMU\- disertace -\pics\cela_akteri_red.jpg hustota 0.38 stupeň (centralizace) 0.36 mezilehlost (centralizace) 0.08 Komunita •Komunita je segment sítě tvořený množinou uzlů (členů), které jsou propojeny více navzájem nežli se zbytkem sítě (tj. s ne-členy komunity). • komunita 1 14 MAYs, 1 NGO, 4 STOs komunita 2 15 MAYs, 9 NGOs komunita 3 3 MAYs “komunita” 4 STO_046 p ≤ 0.001 korelace 0.37 p 0.013 hustota 0.31 stupeň (centralizace) 0.43 mezilehlost (centralizace) 0.12 C:\Users\Ocelot\Disk Google\ceners\Research\Grants\2013 GAMU\- disertace -\pics\cela_kody_bet.jpg Rekonstruované rámy Odpovědnost •Spotřebováváme elektřinu z jaderných elektráren a vytváříme radioaktivní odpad. •Máme proto morální (a rovněž právní) závazek se s touto zátěží vyrovnat. •Hlubinné úložiště je jediným ekonomicky a technologicky proveditelným řešením. •Odpor vůči projektu tedy toto břemeno pouze přenáší na další generace. •Opozice vůči projektu je proto nezodpovědná a založená na iracionálních a emocionálních argumentech. •Stát má (legitimně) poslední slovo; lokality budou finančně kompenzovány. Riziko •Proces výběru lokality a potenciální stavba a provoz úložiště je spojena s řadou rizik (environmetálních, ekonomických, sociálních, zdravotních). •Máme odpovědnost zachovat lokality pro další generace. •Projekt úložiště proto musí být zastaven či alespoň zpomalen, dokud nebude k dispozici alternativní (pravděpodobně technologické) řešení. Dysfunkční stát •Stát není schopen projekt úložiště kompetentně a legitimně řídit. •Lokality nejsou efektivně zapojeny do vyjednávacího procesu. •Pracovní skupina je fasáda; konečné rozhodnutí bude náležet pouze státu. •Mezi stakeholdery je nedostatek důvěry a proces výběru lokality postrádá legitimitu. • • C:\Users\Ocelot\Disk Google\ceners\Research\Grants\2013 GAMU\- disertace -\pics\ca_lokality.png R: výhody •Freeware •Open source •Celosvětová aktivní komunita •Flexibilní a rozvinuté • • • • • • http://developer.r-project.org/Logo/Rlogo-1.png R komunita / zdroje •Obrovské množství volně dostupných zdrojů •R balíky (packages) / manuály •Homepage: http://cran.r-project.org •Komunitní fóra: –http://stackoverflow.com –http://www.statmethods.net –http://www.r-bloggers.com •Youtube tutoriály: https://www.youtube.com/watch?v=qHfSTRNg6jE •Googlování (často nejrychlejší) • • • • • • R knihovny / balíky •Knihovna (library) / balík (package): –Rozšíření, které dodává novou funkcionalitu. –Knihovny musí být instalovány (pouze před prvním použitím) a nahrány. –Mezi knihovnami mohou vznikat konflikty (např. Různé funkce se stejnými názvy) – knihovny je možné deaktivovat. –Mezi knihovnami jsou často závislosti (pokud určitá knihovna využívá funkce z jiné knihovny). • • • • • • R: nevýhody •Méně přístupné než „klikací“ programy. •Příprava dat může být náročná / zdlouhavá. •R je pomalejší pro větší datové soubory. • • • • • • R jazyk •objektově orientované programování –objekt: případ určité datové třídy, s nímž může být dle určitých pravidel (metod) manipulováno. •funkčně orientované programování –funkce: vztah spojující vstup(y) s výstupem(y). • •V R můžeme definovat objekty, aplikovat na ně funkce a naopak. • • • • • Typy dat (data classes) •Numeric: spojitá numerická data (-1, 0.5, 10.49) • •Integer: diskrétní numerická data (-1, 0, 1, …) • •Character: řetězce (strings) = “cokolivzávorkách+ 9" • •Logical: výstup logické operace • 5 > 10 = FALSE • 5 < 7 | 7 > 10 = TRUE – – – • • • • • Typy dat: factor •Factor: proměnná mající omezený počet diskrétních hodnot/úrovní (levels). Kategorická proměnná. •Funkce faktorů mění vektor hodnot na vektor faktorových hodnot (vždy mají podobu character). •Faktory mohou být neuspořádané (unordered) –nominální p., nebo uspořádané (ordered) – ordinální p. – – – • • • • • http://www.r-tutor.com/ R: objekty a funkce •Object: –vector <- c(1,2,3,4,5) •Function: –fun <- function(x) { x^2 } •Output: –fun(vector) = 1, 4, 9, 16, 25 •Nesting: –fun_2 <- function(x) { fun(x) + 1 } – • • • • • R funkce •word() indikuje funkci •mean(vector) • •function(argument_1, argument_2, …) •sample(0:100, 10, rep=FALSE) • •Základní funkce (součást základního balíku R) •Funkce balíků (součást určitého balíku) •Uživatelské funkce (definované uživatelem) – • • • • • R objekty •Vector –Posloupnost (1-rozměrná) prvků stejného typu dat. •Matrix –2-rozměrné čtvercové uspořádání prvků stejného typu dat. –Pole (array): n-rozměrná matice. •List –Vector který může obsahovat různé typy dat. •Data frame –List vektorů o stejné délce. –Tabelární data. – – • • • • • Vector – – • • • • • http://www.r-tutor.com/ Matrix – – • • • • • http://www.r-tutor.com/ List – – • • • • • http://www.r-tutor.com/ Data frame – – • • • • • http://www.r-tutor.com/