Rozpoznání anomálních
uživatelů na českém Twitteru
Petr Jirásek
Vedoucí práce: doc. RNDr. Lubomír Popelínský, Ph.D.
Osnova
• Úvod a cíle práce
• Navržená metoda a výsledky
• Charakteristika anomálních uživatelů
• Klasifikace sentimentu
• Shrnutí dosažených výsledků
Úvod
• Sociální síť Twitter
• 300 miliónů uživatelů
• Příspěvek s délkou maximálně 140 znaků
• …
• Kdo jsou anomální uživatelé?
• Spam účty, roboti, RSS čtečky, uživatelé se zvláštním slovníkem …
• Jaká je motivace pro hledání anomálních uživatelů?
• Analýza a studium
• Porušování pravidel
• Možný negativní vliv na učící data
Cíle práce
• Navrhnout metodu pro rozpoznání anomálních uživatelů
• Provést charakteristiku anomálních uživatelů
• Ověřit vliv metody na výsledky klasifikace
Data a anotace
• Sběr dat (konec ledna 2015)
• Využití navržených heuristik a Twitter API
• CZ: > 40 000 uživatelů
• EN: > 25 000 uživatelů
• 200 posledních příspěvků
• Anotace
• Pokud bylo třeba značkovat data, byla provedena anotace
• Dva anotátoři
• Oba se znalostí prostředí Twitteru
• V případě jejich neshody rozhodl třetí anotátor
Metoda pro rozpoznání anomálních uživatelů
• Chování uživatele
• Počty pozitivních a negativních příspěvků, zmíněných uživatelů, URL odkazů,
klíčových slov, přiložených médií atd.
• Aktivita v čase
• Doba přispívání, časové intervaly mezi příspěvky, …
• Dokument uživatele
• 200 posledních příspěvků
Výběr atributů
• Distribuce hodnot
• Histogramy
• Krabicové diagramy
• Selektivní algoritmy
• Experimenty
• …
• Vybráno 48 atributů
• + atributy z dokumentu uživatele
Vybrané atributy
• Počet pozitivních příspěvků
• Počet negativních příspěvků
• Počet zmínek
• Počet klíčových slov
• Počet URL odkazů
• Počet médií
• Počet převzatých příspěvků
• Počet odpovědí
• Unikátní počet filtrovaných slov
• Směr. odchylka délky příspěvků
• Směr. odchylka zaokrouhlené
délky příspěvků
• Maximální denní aktivita
• Směr. odchylka denní aktivity
• Atributy aktivity během dne
• Atributy z dokumentu uživatele
Testované přístupy a výsledky
• Učení bez učitele
• LOF, OR
• Učení s učitelem
• NBM, SVM, RF, J48, Vote (majoritní hlasování NBM, RF a J48)
• Učení z klasifikovaných a neklasifikovaných příkladů
• YATSI, CF
• Nejlepší výsledky
• RF až 94 %
• LOF až 98 %
Charakteristika anomálních uživatelů
• Shluková analýza
• K-means
• Hierarchické shlukování
• Nalezené skupiny uživatelů
• Robotické účty
• Spam účty
• RSS, propagační a informační účty
• Jednosměrně tematicky zaměřené účty
Klasifikace sentimentu
• Založena na učení z emotikonů
• Testované klasifikátory NBM, SVM a RF
• Klasifikace do tří tříd
• CZ: nejlepší správnost 62,9 %
• EN: nejlepší správnost 64,5 %
• Klasifikace do dvou tříd
• CZ: nejlepší správnost 80,6 %
• EN: nejlepší správnost 82,5 %
Klasifikace sentimentu a vliv metody
• Metoda smaže z učících množin příspěvky nejvíce anomálních
uživatelů s využitím LOF
• Klasifikace do tří tříd
• CZ: zlepšení o 0,7 %
• EN: zlepšení o 1,3 %
• Klasifikace do dvou tříd
• CZ: zlepšení o 1,3 %
• EN: zlepšení o 2,1 %
Shrnutí dosažených výsledků
• Navržená metoda pro rozpoznání anomálních uživatelů
• Nalezeny typy anomálních uživatelů a analyzováno jejich chování
• Klasifikace sentimentu na Twitteru
• Aplikace navržené metody na klasifikaci sentimentu
• Srovnání všech experimentů s anglickým Twitterem
• Dále
• Navrženy heuristiky pro získání dat na Twitteru
• Nástroj pro anotaci uživatelů
Děkuji za pozornost