IT pro prevenci a detekci podvodného jednání Mgr. Tomáš Foltýnek, Ph.D. foltynek@fi.muni.cz Etika a IT 1 Osnova dnešní přednášky ̶ Opakování: Plagiátorství a akademická etika ̶ Dilemma game: Chyby v datech ̶ IT pro prevenci a detekci podvodného jednání ̶ Certifikace s využitím blockchainu ̶ Detekce plagiátorství ̶ Proctoringové systémy ̶ Detekce finančních podvodů Etika a IT 2 Opakování: Definice plagiátorství využití (myšlenek, obsahu, nebo struktury) jiného díla bez řádného uvedení odkazu na zdroj k získání určité výhody tam, kde se očekává původní dílo the use of ideas, content, or structures without appropriately acknowledging the source to benefit in a setting where originality is expected Foltýnek, T., Meuschke, N., & Gipp, B. (2019). Academic Plagiarism Detection: A Systematic Literature Review. ACM Comput. Surv., 52(6), 112:1--112:42. https://doi.org/10.1145/3345317 Etika a IT 3 Opakování: Definice plagiátorství ̶ Obecně využití jiných zdrojů bez jejich řádného uvedení ̶ Typicky zahrnuje ̶ Použití práce někoho jiného a její prezentování jako práce vlastní ̶ Nesprávné citování a odkazování na práci někoho jiného ̶ Okopírování tabulek, obrázků, grafů atd. bez uvedení zdroje ̶ Nepřiznání cizího přispění k prezentované práci ̶ Autoplagiátorství (opětovné využití vlastního díla) ̶ Může být úmyslné či neúmyslné Etika a IT 4 Opakování: Co není plagiátorství ̶ Zdroj nemusíme uvádět u: ̶ Všeobecně známých informací ̶ Informací všeobecně známých v rámci daného oboru ̶ Cizí přispění, které neovlivňuje obsah a myšlenky: ̶ Jazyková korektura ̶ Typografická korektura ̶ Formátování práce Etika a IT 5 Opakování: Tři „O“ proti plagiátorství ̶ Odlišit převzaté myšlenky od vlastních ̶ Odkázat na původní zdroj ̶ Označit původní zdroj tak, aby šel dohledat ̶ Foltýnek a kol.: Jak se vyhnout plagiátorství: Příručka pro studenty ̶ https://karolinum.cz/knihy/foltynek-jak-se-vyhnout- plagiatorstvi-24022 Etika a IT 6 Opakování: Kritéria (spolu)autorství ̶ COPE (Comittee for Publication Ethics) převzalo kritéria od ICMJE (International Committee of Medical Journal Editors) ̶ (Spolu)autorem se osoba stává právě tehdy, když splní každé z následujících kritérií: ̶ Významný přínos k myšlence a návrhu díla, nebo sběr, analýza nebo interpretace dat ̶ Vytváření díla nebo kritické zhodnocení jeho myšlenek ̶ Souhlas s výslednou podobou díla k publikování ̶ Přijetí (spolu)odpovědnosti za dílo jako celek Etika a IT 7 Opakování: Fabrikace (vytváření) dat ̶ Diederik Stapel ̶ Bývalý profesor sociální psychologie ̶ Tilburg University, Nizozemsko ̶ Metodika jeho práce ̶ Vymyslel experiment (hypotézy, metodika, dotazník,…) ̶ Předstíral, že jej provedl ̶ Vytvořil všechna data tak, aby podporovala hypotézu ̶ Obří skandál v roce 2011 otřásl Nizozemskem ̶ Ztráta důvěry společnosti ve vědeckou komunitu ̶ Příležitost k nastavení procesů, které významně zvýšily kvalitu výzkumu Zdroj obrázku: https://retractionwatch.com/category/diederik-stapel/ Etika a IT 8 Opakování: Falšování dat Wakefield, A., et al. (1998): Ileal-lymphoid-nodular hyperplasia, nonspecific colitis, and pervasive developmental disorder in children. The Lancet. 351 (9103): 637–41 ̶ Článek „prokazující“ spojitost MMR vakcíny a autismu ̶ Zmanipulovaný výběr pacientů ̶ Výzkum financován výrobcem konkurenční vakcíny ̶ Stažen v roce 2010 ̶ Stále žije na konspiračních serverech ̶ Posiluje nedůvěru k očkování Etika a IT Opakování: Důsledky ̶ Důsledky plagiátorství politiků (Tudoroiu, 2017) ̶ Občané vnímají vzdělávací systém jako zkorumpovaný ̶ Skandály snižují důvěru občanů v demokratické instituce ̶ „[Plagiátorství] představuje přímou, agresivní a účinnou hrozbu pro demokracii jako takovou“ ̶ Lze zobecnit i mimo plagiátorství a mimo politiku ̶ Skandály nejsou jen problém konkrétní osoby či instituce! Etika a IT 10 Opakování: Důsledky podvádění ̶ Studenti dostávají kredity/diplomy za práci, kterou neudělali ̶ Nedosáhli požadovaných výstupů z učení ̶ Je ohrožena důvěra ve vysokoškolské diplomy Etika a IT Opakování: Příčiny podvodného jednání ̶ Tlak / Motiv ̶ Potřebuji ukončit předmět/studium ̶ Potřebuji více publikací ̶ Příležitost ̶ Nedostatečná detekce ̶ Racionalizace ̶ Pocit, že to dělají to všichni ̶ Zhodnocení rizik a zisku DavidBailey [CC BY-SA 4.0] Etika a IT 12 Dilemma Game Obrázky generovány nástrojem Midjourney /imagine people arguing ethical dilemmas Dilema: Chyby v datech V rámci svojí závěrečné práce zpracováváte data z datasetu, který je na fakultě běžně využíván. Zjistíte, že data obsahují značné množství chyb (chybějící údaje, zjevně chybné hodnoty,…), kterými se dosud nejspíš nikdo nezabýval. Opravit chyby by vám zabralo půl roku a alternativní dataset neexistuje. Vedoucí práce navrhuje držet se „běžné praxe“, tedy o chybách mlčet. Co je správné v této situaci udělat? A. Najdete si čas na důkladné prozkoumání problému, i kdybyste měl(a) odložit odevzdání práce. B. Zajdete za vedoucím katedry či děkanem a požádáte o prověření všech výzkumných projektů, které dataset využívaly. C. Změníte téma práce, abyste s těmito daty nemusel(a) pracovat. D. Spojíte se s těmi, kteří používali data před vámi. Pokud budou chtít, abyste o chybách pomlčel(a), tak to uděláte. Etika a IT 14 Využití blockchainu pro ověřování certifikátů Falešné diplomy ̶ Falešné diplomy existujících univerzit ̶ „Pravé“ diplomy neexistujících univerzit ̶ Falešné „Transcript of records“ výměnných studentů ̶ Přibližně 30 % lidí uvádí nepravdivé údaje v CV ̶ Řešením je důvěryhodné potvrzení, že určitý dokument ̶ Existoval (byl vytvořen) v daném čase ̶ Byl vydán určitou institucí (osobou) ̶ Tato instituce (osoba) měla právo dokument vydat ̶ Je třeba nemanipulovatelná databáze s časovými razítky Etika a IT 16 Základní princip blockchainu ̶ Každý blok obsahuje ̶ Data ̶ Časové razítko ̶ Hash předchozího bloku ̶ Změna dat v jednom bloku → Změna hashe → změna všech násl. bloků ̶ Distribuovanost blockchainu + vhodný konsenzuální algoritmus zajistí neměnnost dat Block 1 GENESIS Timestamp DATA Block 2 Prev_Hash Timestamp DATA Block 3 Prev_Hash Timestamp DATA Block 4 Prev_Hash Timestamp DATA Block 5 Prev_Hash Timestamp DATA Etika a IT 17 Využití blockchainu ̶ Kdy má smysl použít blockchain? ̶ Neměnná data ̶ Hashovaná nebo šifrovaná data ̶ Více účastníků ̶ Vzájemná nedůvěra ̶ Kryptoměny ̶ Chytré kontrakty ̶ Logování informací ̶ Logistika, pojišťovnictví, časová razítka,… ̶ Blockchain poskytuje důvěryhodnou platformu Etika a IT 18 Ověřování certifikátů pomocí blockchainu Etika a IT 19 ̶ Hash údajů z certifikátu je uložený na blockchain ̶ Spolu s časovým razítkem a digitálním podpisem vydavatele ̶ Kdokoliv může ověřit pravost ̶ Z hashe nelze zjistit osobní údaje Detekce plagiátorství Tři úrovně detekce plagiátorství Předpisy Nástroje Metody Etika a IT 21 Detekce plagiátorství: Formulace problému ̶ Extrinsic plagiarism detection ̶ Nalézt potenciální zdroje plagiátorství ̶ Hledáme podobnosti mezi různými dokumenty ̶ Instrinsic plagiarism detection ̶ Nalézt místa, kde se mění autorský styl ̶ Hledáme různorodé části v rámci jednoho dokumentu Etika a IT 22 Detekce plagiátorství: Typologie metod ̶ Lexikální vrstva ̶ Znakové nebo slovní n-gramy ̶ Vektorové prostory ̶ Syntaktická vrstva ̶ Slovní druhy, skladba věty ̶ Syntaktické grafy ̶ Sémantická vrstva ̶ Latentní sémantická analýza, explicitní sémantická analýza ̶ Knowledge graphs ̶ Kombinace metod ̶ Strojové učení Etika a IT 23 Přesnost metod ̶ Copy-paste ≈ 100 % ̶ Nahrazení synonym ≈ 90 % ̶ Přeskládání slov ≈ 90 % ̶ Identifikace parafrází ≈ 80 % ̶ Sumarizace ≈ 75% ̶ Překladové plagiátorství ≈ 70 % ̶ Strukturní či myšlenkové plagiátorství ??? Etika a IT 24 Implementováno, využíváno Probíhá vývoj Obtížný problém Rozpoznávání autorství ̶ Přesnost současných metod ̶ Rozpoznání změny stylu ≈ 60 % ̶ Seskupování podle autorství ≈ 60 % ̶ Predikce mateřského jazyka ≈ 65 – 85 % ̶ Rozpoznání pohlaví autora ≈ 80 % ̶ Odhad věku autora ≈ 50 – 55 % ̶ Robert Galbraith: The Cuckoo’s Calling (2013) ̶ Skutečná autorka: J.K. Rowling ̶ Viz https://www.scientificamerican.com/article/how-a- computer-program-helped-show-jk-rowling-write-a- cuckoos-calling/ Etika a IT 25 Detekce plagiátorství z Wikipedie Maximum score: 5 Foltýnek et al. (2020): Testing of Support Tools for Plagiarism Detection. International Journal of Educational Technology in Higher Education, 17(46). DOI 10.1186/s41239-020-00192-4 Etika a IT 26 TeSToP Testing of support tools for plagiarism detection Osa X: Úspěšnost Osa Y: Použitelnost Žádný systém není dokonalý Žádný systém nenajde vše Etika a IT Pozor na podezřelé nástroje zdarma! ̶ How does Viper use my essay/dissertation? ̶ “When you scan your work for plagiarism using Viper Premium it will never be published on any of our study sites.” ̶ Některé nástroje jsou napojené na parafrázovací služby Etika a IT 30 Zdroj obrázku: https://www.duplichecker.com/ article-rewriter.php Proctoringové systémy Big brother is watching you. Free photobank torrange.biz https://torange.biz/fx/big-brother-watching-you-video-172966 Proctoringové systémy ̶ Problém: Podvádění během (online) zkoušek ̶ Proctoringové systémy umožňují ̶ Ověření totožnosti rozpoznáváním obličejů a průkazů totožnosti ̶ Detekce a upozornění v případě, že ̶ Zkoušený není přítomen ̶ Je přítomna jiná osoba ̶ Objeví se nepovolený předmět (mobilní telefon, kniha) ̶ Jsou slyšet hlasy ̶ Pravidelné snímání obrazovky ̶ Jak vnímáte využití takovýchto systémů? ̶ Na univerzitě ̶ V jiném prostředí (jazykové a další certifikace, najímání nových pracovníků,…) Etika a IT 32 Stanovisko MU k online proctoringu ̶ Jednoznačně nedoporučující ̶ Etické a koncepční důvody ̶ Neslučitelnost s hodnotami MU – důvěra, respekt, důstojnost ̶ Možnost obejít systém ̶ Nepřiměřený zásah do soukromí ̶ Problematické využívání umělé inteligence ̶ Právní důvody ̶ Zásah do práv studentů → Nutnost souhlasu studentů ̶ Jiná forma ukončení pro studenty, kteří odmítnou ̶ Ukládání videozáznamů, GDPR ̶ Technické důvody ̶ Nároky na technické vybavení (2 kamery) ̶ Nároky na internetové připojení ̶ Potřeba IT asistence pro studenty Etika a IT 33 Detekce finančních podvodů Detekce finančních podvodů ̶ Falšování účetních dat, pojistné podvody, podvodné platby ̶ Strojové učení z historických dat ̶ Známí podvodníci ̶ Známé vzorce chování podvodníků ̶ Detekce abnormálních aktivit ̶ Příklad odhalování podvodu: Benfordův zákon ̶ První číslice nemají rovnoměrné rozdělení ̶ Číslice 1 je na prvním místě cca v 1/3 případů, nejméně častá je číslice 9 ̶ Rovnoměrné rozdělení → větší pravděpodobnost podvodu Etika a IT 35 Příští týden (4. května) ̶ Téma: Etika umělé inteligence ̶ Přednáška bude pouze online!!! ̶ Úkoly: Přečíst si ̶ Ethics in AI: Introduction to the special issue ̶ Scientists Built an AI to Give Ethical Advice, But It Turned Out Super Racist ̶ 11. května přednáška bude i přes rektorské volno Etika a IT 36