Rozpoznání anomálních uživatelů na českém Twitteru Petr Jirásek Vedoucí práce: doc. RNDr. Lubomír Popelínský, Ph.D. Osnova • Úvod a cíle práce • Navržená metoda a výsledky • Charakteristika anomálních uživatelů • Klasifikace sentimentu • Shrnutí dosažených výsledků Úvod • Sociální síť Twitter • 300 miliónů uživatelů • Příspěvek s délkou maximálně 140 znaků • … • Kdo jsou anomální uživatelé? • Spam účty, roboti, RSS čtečky, uživatelé se zvláštním slovníkem … • Jaká je motivace pro hledání anomálních uživatelů? • Analýza a studium • Porušování pravidel • Možný negativní vliv na učící data Cíle práce • Navrhnout metodu pro rozpoznání anomálních uživatelů • Provést charakteristiku anomálních uživatelů • Ověřit vliv metody na výsledky klasifikace Data a anotace • Sběr dat (konec ledna 2015) • Využití navržených heuristik a Twitter API • CZ: > 40 000 uživatelů • EN: > 25 000 uživatelů • 200 posledních příspěvků • Anotace • Pokud bylo třeba značkovat data, byla provedena anotace • Dva anotátoři • Oba se znalostí prostředí Twitteru • V případě jejich neshody rozhodl třetí anotátor Metoda pro rozpoznání anomálních uživatelů • Chování uživatele • Počty pozitivních a negativních příspěvků, zmíněných uživatelů, URL odkazů, klíčových slov, přiložených médií atd. • Aktivita v čase • Doba přispívání, časové intervaly mezi příspěvky, … • Dokument uživatele • 200 posledních příspěvků Výběr atributů • Distribuce hodnot • Histogramy • Krabicové diagramy • Selektivní algoritmy • Experimenty • … • Vybráno 48 atributů • + atributy z dokumentu uživatele Vybrané atributy • Počet pozitivních příspěvků • Počet negativních příspěvků • Počet zmínek • Počet klíčových slov • Počet URL odkazů • Počet médií • Počet převzatých příspěvků • Počet odpovědí • Unikátní počet filtrovaných slov • Směr. odchylka délky příspěvků • Směr. odchylka zaokrouhlené délky příspěvků • Maximální denní aktivita • Směr. odchylka denní aktivity • Atributy aktivity během dne • Atributy z dokumentu uživatele Testované přístupy a výsledky • Učení bez učitele • LOF, OR • Učení s učitelem • NBM, SVM, RF, J48, Vote (majoritní hlasování NBM, RF a J48) • Učení z klasifikovaných a neklasifikovaných příkladů • YATSI, CF • Nejlepší výsledky • RF až 94 % • LOF až 98 % Charakteristika anomálních uživatelů • Shluková analýza • K-means • Hierarchické shlukování • Nalezené skupiny uživatelů • Robotické účty • Spam účty • RSS, propagační a informační účty • Jednosměrně tematicky zaměřené účty Klasifikace sentimentu • Založena na učení z emotikonů • Testované klasifikátory NBM, SVM a RF • Klasifikace do tří tříd • CZ: nejlepší správnost 62,9 % • EN: nejlepší správnost 64,5 % • Klasifikace do dvou tříd • CZ: nejlepší správnost 80,6 % • EN: nejlepší správnost 82,5 % Klasifikace sentimentu a vliv metody • Metoda smaže z učících množin příspěvky nejvíce anomálních uživatelů s využitím LOF • Klasifikace do tří tříd • CZ: zlepšení o 0,7 % • EN: zlepšení o 1,3 % • Klasifikace do dvou tříd • CZ: zlepšení o 1,3 % • EN: zlepšení o 2,1 % Shrnutí dosažených výsledků • Navržená metoda pro rozpoznání anomálních uživatelů • Nalezeny typy anomálních uživatelů a analyzováno jejich chování • Klasifikace sentimentu na Twitteru • Aplikace navržené metody na klasifikaci sentimentu • Srovnání všech experimentů s anglickým Twitterem • Dále • Navrženy heuristiky pro získání dat na Twitteru • Nástroj pro anotaci uživatelů Děkuji za pozornost