Seminar 11 Definition 1 (Markov Transition Matrix) Given the graph ๐บ = (๐‘‰, ๐ธ) and teleport probability ๐›ผ, let ๐‘ = |๐‘‰ | and ๐ด be the ๐‘ ร— ๐‘ link matrix with elements โˆ€๐‘ข, ๐‘ฃ โˆˆ ๐‘‰ : ๐ด ๐‘ข๐‘ฃ = {๏ธƒ 1 (๐‘ข, ๐‘ฃ) โˆˆ ๐ธ 0 otherwise The transition probability matrix ๐‘ƒ is then calculated in the following way: 1. If a row of ๐ด has all 0s, then substitute all of them with 1s. 2. Divide each 1 by the number of 1s in that row. 3. Multiply each entry by 1 โˆ’ ๐›ผ. 4. Add ๐›ผ ๐‘ to each entry. Algorithm 1 (PageRank) 1: function PageRank(๐‘ƒ) 2: ๐‘– โ† 0 3: โˆ’โ†’๐‘ฅ ๐‘– โ† (1, 0, . . . , 0) 4: repeat 5: โˆ’โ†’๐‘ฅ ๐‘–+1 โ† โˆ’โ†’๐‘ฅ ๐‘– ยท ๐‘ƒ 6: ๐‘– โ† ๐‘– + 1 7: until ๐‘ฅ๐‘– = ๐‘ฅ๐‘–โˆ’1 8: end function Definition 2 (Hubs and authorities) Given the link matrix ๐ด, let โ„Ž(๐‘ฃ) denote the hub score and ๐‘Ž(๐‘ฃ) the authority score. First, set the โ„Ž(๐‘ฃ) a ๐‘Ž(๐‘ฃ) vectors to 1 ๐‘ for all vertices ๐‘ฃ โˆˆ ๐‘‰ . The scores are calculated as โ„Ž(๐‘ฃ) = ๐ด ยท ๐‘Ž(๐‘ฃ) ๐‘Ž(๐‘ฃ) = ๐ด ๐‘‡ ยท โ„Ž(๐‘ฃ) which is equivalent to โ„Ž(๐‘ฃ) = ๐ด ยท ๐ด ๐‘‡ ยท โ„Ž(๐‘ฃ) ๐‘Ž(๐‘ฃ) = ๐ด ๐‘‡ ยท ๐ด ยท ๐‘Ž(๐‘ฃ) Exercise 11/1 Assume the web graph ๐บ = (๐‘‰ = {๐‘Ž, ๐‘, ๐‘}, ๐ธ = {(๐‘Ž, ๐‘), (๐‘Ž, ๐‘), (๐‘, ๐‘), (๐‘, ๐‘)}). Count PageRank, hub and authority scores for each of the web pages. Rank the pages by the individual scores and observe the connections. You can assume that in each step of the random walk we teleport to a random page with probability 0.1 and uniform distribution. Normalize the hub and authority scores so that the maximum is 1. By Definition 1, rewrite the graph as a link matrix โŽ› โŽ 0 1 1 0 0 1 0 1 0 โŽž โŽ  . 1 Trying to apply the step 1 the algorithm, does not contain a row with all 0s, so we proceed to step 2. First row contains two 1s so we divide both of them by 2. Second and third lines only contain one 1, so dividing them by 1 makes no change โŽ› โŽ 0 1 1 0 0 1 0 1 0 โŽž โŽ  : 2 : 1 : 1 = โŽ› โŽ 0 1 2 1 2 0 0 1 0 1 0 โŽž โŽ  . Now apply step 3. Since ๐›ผ = 0.1, multiply all entries by 0.9 โŽ› โŽ 0 1 2 1 2 0 0 1 0 1 0 โŽž โŽ  ยท 0.9 = โŽ› โŽ 0 9 20 9 20 0 0 9 10 0 9 10 0 โŽž โŽ  and by step 4 add ๐›ผ ๐‘ = 0.1 3 = 1 30 โŽ› โŽ 0 9 20 9 20 0 0 9 10 0 9 10 0 โŽž โŽ  + 1 30 = โŽ› โŽ 1 30 29 60 29 60 1 30 1 30 14 15 1 30 14 15 1 30 โŽž โŽ  = ๐‘ƒ. Using the Algorithm 1 for PageRank, we select โˆ’โ†’๐‘ฅ 0 = (1, 0, 0) and the transition probability matrix ๐‘ƒ from the previous calculation. โˆ’โ†’๐‘ฅ 1 = โˆ’โ†’๐‘ฅ 0 ยท ๐‘ƒ (1) โˆ’โ†’๐‘ฅ 1 = (1, 0, 0) ยท โŽ› โŽ 1 30 29 60 29 60 1 30 1 30 14 15 1 30 14 15 1 30 โŽž โŽ  (2) โˆ’โ†’๐‘ฅ 1 = (๏ธ‚ 1 30 , 29 60 , 29 60 )๏ธ‚ (3) โˆ’โ†’๐‘ฅ 2 = โˆ’โ†’๐‘ฅ 1 ยท ๐‘ƒ (4) โˆ’โ†’๐‘ฅ 2 = (๏ธ‚ 1 30 , 29 60 , 29 60 )๏ธ‚ ยท โŽ› โŽ 1 30 29 60 29 60 1 30 1 30 14 15 1 30 14 15 1 30 โŽž โŽ  (5) โˆ’โ†’๐‘ฅ 2 = (๏ธ‚ 1 30 , 29 60 , 29 60 )๏ธ‚ (6) Since ๐‘ฅ๐‘– = ๐‘ฅ๐‘–โˆ’1, we claim the entries of ๐‘ฅ2 as PageRanks of the individual web pages. By Definition 2, we set the hub score โ„Ž(๐‘ฃ) and the authority score ๐‘Ž(๐‘ฃ) to 1s ๐‘Ž(๐‘ฃ) = โŽ› โŽ 1 1 1 โŽž โŽ  , โ„Ž(๐‘ฃ) = โŽ› โŽ 1 1 1 โŽž โŽ  . 2 Substituting into the second equation in the definition, we get the hub score โ„Ž(๐‘ฃ) = ๐ด ยท ๐ด ๐‘‡ ยท โ„Ž(๐‘ฃ) โ„Ž(๐‘ฃ) = โŽ› โŽ 0 1 1 0 0 1 0 1 0 โŽž โŽ  ยท โŽ› โŽ 0 0 0 1 0 1 1 1 0 โŽž โŽ  ยท โŽ› โŽ 1 1 1 โŽž โŽ  โ„Ž(๐‘ฃ) = โŽ› โŽ 2 1 1 1 1 0 1 0 1 โŽž โŽ  ยท โŽ› โŽ 1 1 1 โŽž โŽ  โ„Ž(๐‘ฃ) = โŽ› โŽ 4 2 2 โŽž โŽ  and the authority score ๐‘Ž(๐‘ฃ) = ๐ด ๐‘‡ ยท ๐ด ยท ๐‘Ž(๐‘ฃ) ๐‘Ž(๐‘ฃ) = โŽ› โŽ 0 0 0 1 0 1 1 1 0 โŽž โŽ  ยท โŽ› โŽ 0 1 1 0 0 1 0 1 0 โŽž โŽ  ยท โŽ› โŽ 1 1 1 โŽž โŽ  ๐‘Ž(๐‘ฃ) = โŽ› โŽ 0 0 0 0 2 1 0 1 2 โŽž โŽ  ยท โŽ› โŽ 1 1 1 โŽž โŽ  ๐‘Ž(๐‘ฃ) = โŽ› โŽ 0 3 3 โŽž โŽ  . Finally, we normalize them to obtain โ„Ž(๐‘ฃ) = โŽ› โŽ 4 2 2 โŽž โŽ  โŽ› โŽ 1 0.5 0.5 โŽž โŽ  and ๐‘Ž(๐‘ฃ) = โŽ› โŽ 0 3 3 โŽž โŽ  โŽ› โŽ 0 1 1 โŽž โŽ  . 3