IT pro prevenci a detekci neetického jednání Mgr. Tomáš Foltýnek, Ph.D. foltynek@fi.muni.cz Etika a IT 1 Osnova dnešní přednášky ̶ Opakování: Autorská práva a Creative commons ̶ Prezentace: Lucián Prodan – Open source licence ̶ IT pro prevenci a detekci podvodného jednání ̶ Certifikace s využitím blockchainu ̶ Detekce plagiátorství ̶ Proctoringové systémy ̶ Detekce textu vygenerovaného umělou inteligencí ̶ Dilemma game: Chyby v datech Etika a IT 2 Opakování: Commons Etika a IT 3 Obrázek převzat z knihy Made with Creative Commons (Paul Stacey and Sarah Hinchliff ) Opakování: Dílo ̶ Co je dílo, tj. předmět autorskoprávní ochrany? ̶ „…dílo literární a jiné dílo umělecké a dílo vědecké, které je jedinečným výsledkem tvůrčí činnosti autora a je vyjádřeno v jakékoli objektivně vnímatelné podobě včetně podoby elektronické, trvale nebo dočasně, bez ohledu na jeho rozsah, účel nebo význam… ̶ „idea-expression dichotomy“ ̶ „Dílem podle tohoto zákona není zejména námět díla sám o sobě, denní zpráva nebo jiný údaj sám o sobě, myšlenka, postup, princip, metoda, objev, vědecká teorie, matematický a obdobný vzorec, statistický graf a podobný předmět sám o sobě.“ Etika a IT 4 Obrázek: Midjourney painting Midjourney Opakování: Oprávněné užití díla Do práva autorského nezasahuje ten, kdo a) užije v odůvodněné míře výňatky ze zveřejněných děl jiných autorů ve svém díle, b) užije výňatky z díla nebo drobná celá díla pro účely kritiky nebo recenze vztahující se k takovému dílu, vědecké či odborné tvorby, a užití bude v souladu s poctivými zvyklostmi a v rozsahu vyžadovaném konkrétním účelem, c) užije dílo při vyučování pro ilustrační účel nebo při vědeckém výzkumu (…) a nepřesáhne rozsah odpovídající sledovanému účelu Vždy se musí uvést (je-li to možné): jméno autora, název díla a pramen §31 zákona č. 121/2000 Sb. (Autorský zákon) Etika a IT 5 Opakování: Druhy CC licencí Etika a IT 6 Využití blockchainu pro ověřování certifikátů Falešné diplomy ̶ Falešné diplomy existujících univerzit ̶ „Pravé“ diplomy neexistujících univerzit ̶ Falešné „Transcript of records“ výměnných studentů ̶ Přibližně 30 % lidí uvádí nepravdivé údaje v CV ̶ Řešením je důvěryhodné potvrzení, že určitý dokument ̶ Existoval (byl vytvořen) v daném čase ̶ Byl vydán určitou institucí (osobou) ̶ Tato instituce (osoba) měla právo dokument vydat ̶ Je třeba nemanipulovatelná databáze s časovými razítky Etika a IT 8 Základní princip blockchainu ̶ Každý blok obsahuje ̶ Data ̶ Časové razítko ̶ Hash předchozího bloku ̶ Změna dat v jednom bloku → Změna hashe → změna všech násl. bloků ̶ Distribuovanost blockchainu + vhodný konsenzuální algoritmus zajistí neměnnost dat Block 1 GENESIS Timestamp DATA Block 2 Prev_Hash Timestamp DATA Block 3 Prev_Hash Timestamp DATA Block 4 Prev_Hash Timestamp DATA Block 5 Prev_Hash Timestamp DATA Etika a IT 9 Využití blockchainu ̶ Kdy má smysl použít blockchain? ̶ Neměnná data ̶ Hashovaná nebo šifrovaná data ̶ Více účastníků ̶ Vzájemná nedůvěra ̶ Kryptoměny ̶ Chytré kontrakty ̶ Logování informací ̶ Logistika, pojišťovnictví, časová razítka,… ̶ Blockchain poskytuje důvěryhodnou platformu Etika a IT 10 Ověřování certifikátů pomocí blockchainu Etika a IT 11 ̶ Hash údajů z certifikátu je uložený na blockchain ̶ Spolu s časovým razítkem a digitálním podpisem vydavatele ̶ Kdokoliv může ověřit pravost ̶ Z hashe nelze zjistit osobní údaje Detekce plagiátorství Definice plagiátorství využití (myšlenek, obsahu, nebo struktury) jiného díla bez řádného uvedení odkazu na zdroj k získání určité výhody tam, kde se očekává původní dílo the use of ideas, content, or structures without appropriately acknowledging the source to benefit in a setting where originality is expected Foltýnek, T., Meuschke, N., & Gipp, B. (2019). Academic Plagiarism Detection: A Systematic Literature Review. ACM Comput. Surv., 52(6), 112:1--112:42. https://doi.org/10.1145/3345317 Etika a IT 13 Tři úrovně detekce plagiátorství Předpisy Nástroje Metody Etika a IT 14 Detekce plagiátorství: Formulace problému ̶ Extrinsic plagiarism detection ̶ Nalézt potenciální zdroje plagiátorství ̶ Hledáme podobnosti mezi různými dokumenty ̶ Instrinsic plagiarism detection ̶ Nalézt místa, kde se mění autorský styl ̶ Hledáme různorodé části v rámci jednoho dokumentu Etika a IT 15 Detekce plagiátorství: Typologie metod ̶ Lexikální vrstva ̶ Znakové nebo slovní n-gramy ̶ Vektorové prostory ̶ Syntaktická vrstva ̶ Slovní druhy, skladba věty ̶ Syntaktické grafy ̶ Sémantická vrstva ̶ Latentní sémantická analýza, explicitní sémantická analýza ̶ Knowledge graphs ̶ Kombinace metod ̶ Strojové učení Etika a IT 16 Přesnost metod ̶ Copy-paste ≈ 100 % ̶ Nahrazení synonym ≈ 90 % ̶ Přeskládání slov ≈ 90 % ̶ Identifikace parafrází ≈ 80 % ̶ Sumarizace ≈ 75% ̶ Překladové plagiátorství ≈ 70 % ̶ Strukturní či myšlenkové plagiátorství ??? Etika a IT 17 Implementováno, využíváno Probíhá vývoj Obtížný problém Rozpoznávání autorství ̶ Přesnost současných metod ̶ Rozpoznání změny stylu ≈ 60 % ̶ Seskupování podle autorství ≈ 60 % ̶ Predikce mateřského jazyka ≈ 65 – 85 % ̶ Rozpoznání pohlaví autora ≈ 80 % ̶ Odhad věku autora ≈ 50 – 55 % ̶ Robert Galbraith: The Cuckoo’s Calling (2013) ̶ Skutečná autorka: J.K. Rowling ̶ Viz https://www.scientificamerican.com/article/how-a- computer-program-helped-show-jk-rowling-write-a-cuckoos- calling/ Etika a IT 18 Detekce plagiátorství z Wikipedie Maximum score: 5 Foltýnek et al. (2020): Testing of Support Tools for Plagiarism Detection. International Journal of Educational Technology in Higher Education, 17(46). DOI 10.1186/s41239-020-00192-4 Etika a IT 19 TeSToP Testing of support tools for plagiarism detection Osa X: Úspěšnost Osa Y: Použitelnost Žádný systém není dokonalý Žádný systém nenajde vše Etika a IT Pozor na podezřelé nástroje zdarma! ̶ How does Viper use my essay/dissertation? ̶ “Whenyou scan your work for plagiarism using Viper Premium it will never be published on any of our study sites.” ̶ Některé nástroje jsou napojené na parafrázovací služby Etika a IT 23 Zdroj obrázku: https://www.duplichecker.com/ article-rewriter.php Proctoringové systémy Big brother is watching you. Free photobank torrange.biz https://torange.biz/fx/big-brother-watching-you-video-172966 Proctoringové systémy ̶ Problém: Podvádění během (online) zkoušek ̶ Proctoringové systémy umožňují ̶ Ověření totožnosti rozpoznáváním obličejů a průkazů totožnosti ̶ Detekce a upozornění v případě, že ̶ Zkoušený není přítomen ̶ Je přítomna jiná osoba ̶ Objeví se nepovolený předmět (mobilní telefon, kniha) ̶ Jsou slyšet hlasy ̶ Pravidelné snímání obrazovky ̶ Jak vnímáte využití takovýchto systémů? ̶ Na univerzitě ̶ V jiném prostředí (jazykové a další certifikace, najímání nových pracovníků,…) Etika a IT 25 Stanovisko MU k online proctoringu ̶ Jednoznačně nedoporučující ̶ Etické a koncepční důvody ̶ Neslučitelnost s hodnotami MU – důvěra, respekt, důstojnost ̶ Možnost obejít systém ̶ Nepřiměřený zásah do soukromí ̶ Problematické využívání umělé inteligence ̶ Právní důvody ̶ Zásah do práv studentů → Nutnost souhlasu studentů ̶ Jiná forma ukončení pro studenty, kteří odmítnou ̶ Ukládání videozáznamů, GDPR ̶ Technické důvody ̶ Nároky na technické vybavení (2 kamery) ̶ Nároky na internetové připojení ̶ Potřeba IT asistence pro studenty Etika a IT 26 Detekce textu vygenerovaného umělou inteligencí Testování detektorů AI-textů ̶ Jaro 2023 ̶ 12 volně dostupných a 2 komerční nástroje ̶ 54 dokumentů v 6 kategoriích 01-Hum: human-written 02-MT: human-written + machine translation to English 03-AI: AI-generated text 04-AI: AI-generated text 05-ManEd: AI-generated text + manual edits 06-Para: AI-generated text + machine paraphrase Weber-Wulff,D., Anohina-Naumeca, A., Bjelobaba,S., Foltýnek, T., Guerrero-Dib,J., Popoola,O., Šigut, P., & Waddington,L. (2023).Testing of detectiontools forAI-generatedtext. International Journal for Educational Integrity,19(1),26. https://doi.org/10.1007/s40979-023-00146-z Etika a IT 28 Výsledky testu #Hastag Konference 29 Fungují nástroje na detekci textu vytvořeného umělou inteligenci? ̶ Nefungují☺ ̶ Zkreslení směrem k “napsáno člověkem” ̶ I tak produkujífalešně pozitivní výsledky ̶ Neposkytují důkaz ̶ Nelze prokázat discipliární přestupek ̶ Nemožnost obrany ̶ Text vytvořený AI a parafrázovaný AI je většinou klasifikován jako napsaný člověkem Etika a IT 30 Průměrná přesnost klasifikace (accuracy = správně klasifikované / všechny) 01-Hum a 02-MT: správně = napsané člověkem 03-AI, 04-AI, 05-ManEd, 06-Para: správně = vygenerované AI Další experimenty ̶ Text vygenerovaný GPT-4 lze detekovat hůře než text vygenerovaný GPT-3.5 ̶ Obecně: čím lepší model, tím obtížnější detekce ̶ Text vygenerovaný s extra prompty lze detekovat hůře ̶ Přidat občasné gramatické chyby do textu ̶ Míchat krátké a dlouhé věty ̶ Přepiš text tak, aby byl lingvisticky komplikovanější ̶ Detektor používá jazykový model ➔ Hůře detekuje texty vygenerované jiným modelem ̶ Čím více různých modelů, tím obtížnější detekce Perkins, M., Roe, J., Vu, B. H., Postma, D., Hickerson, D., McGaughran, J., & Khuat, H. Q. (2024). GenAI Detection Tools, Adversarial Techniques and Implications for Inclusivity in Higher Education. arXiv preprint Etika a IT 31 AI-texty nelze spolehlivě detekovat ̶ Detektory pracují s odlišnostmi v textu (perplexity, burstiness,…) ̶ Pomocí promptu lze generátoru vnutit „více lidský“ styl psaní ̶ Stovky videí na YouTube o tom, jak přelstít detektory ̶ U běžných znalostí není možné určit zdroj ̶ Jak hodnotit výsledek spolupráce AI + člověk? ̶ Generátor ve spojení s detektorem tvoří „neporazitelnou“ dvojici ̶ Generátor může obměňovat text tak dlouho, dokud neprojde detektorem 32Etika a IT Dilemma Game Obrázky generovány nástrojem Midjourney /imagine people arguing ethical dilemmas Dilema: Chyby v datech V rámci svojí závěrečné práce zpracováváte data z datasetu, který je na fakultě běžně využíván. Zjistíte, že data obsahují značné množství chyb (chybějící údaje, zjevně chybné hodnoty,…), kterými se dosud nejspíš nikdo nezabýval. Opravit chyby by vám zabralo půl roku a alternativní dataset neexistuje. Vedoucí práce navrhuje držet se „běžné praxe“, tedy o chybách mlčet. Co je správné v této situaci udělat? A. Najdete si čas na důkladné prozkoumání problému, i kdybyste měl(a) odložit odevzdání práce. B. Zajdete za vedoucím katedry či děkanem a požádáte o prověření všech výzkumných projektů, které dataset využívaly. C. Změníte téma práce, abyste s těmito daty nemusel(a) pracovat. D. Spojíte se s těmi, kteří používali data před vámi. Pokud budou chtít, abyste o chybách pomlčel(a), tak to uděláte. Etika a IT 36 Příští týden (2. května) ̶ Téma: Etika umělé inteligence ̶ Úkoly: Přečíst si ̶ Ethics in AI: Introduction to the special issue ̶ Scientists Built an AI to Give Ethical Advice, But It Turned Out Super Racist Etika a IT 37