Velké jazykové modely v právu I. Tereza Novotná, tereza.novotna@law.muni.cz 2 Osnova 1. LLMs a jak fungují 1. Algoritmy 2. Data 2. Seznam modelů a seznam témat 3. LLMs v právu a jak je používat 4. Regulace a metodiky 3 Large Language Models 4 Large Language Models ̶ LLMs (velké jazykové modely) jsou modely strojového učení, které jsou navrženy tak, aby se naučily statistické vlastnosti obsahu textu a generovaly nový text, který napodobuje styl původního vstupního textu. ̶ Modely LLM jsou vytvářeny pomocí techniky strojového učení známé jako Deep Learning. Hluboké učení je podmnožinou umělé inteligence, která je schopna učit se složité vzory v datech. Hluboké učení je realizováno pomocí neuronových sítí, což jsou výpočetní systémy, které jsou inspirovány schopností mozku učit se ze zkušeností. Algoritmy hlubokého učení lze zpracovávat velké datasety a mohou se učit z dat, která nejsou strukturovaná nebo označená. Díky tomu jsou vhodné pro zpracování přirozeného jazyka (NLP). 5 Large Language Models ̶ LLM používají neuronové sítě založené na transformátoru (model strojového učení), který si poradí s velkým množstvím dat, protože může paralelizovat trénování, a vytvářet tak opravdu velké modely. ̶ Přístup, který LLM používají, se nazývá autoregresní model, což je feed-forward model, který předpovídá další slovo z množiny slov dané kontextem. ̶ Výkonnost LLM je založena na množství dat a počtu parametrů. Parametry jsou synonymem pro váhy, což je termín používaný pro parametry neuronových sítí. Váhy jsou to, co se učící algoritmus naučí během trénování. ̶ Data pro trénování modelů se používají z internetu, knih a dalších zdrojů, aby se natrénovalo hluboké porozumění lidskému jazyku. 6 Large Language Models ̶ LLM jsou dnes známé především pro generování textů (chatboty), lze je však využít i pro různé úlohy související s textem (vyhledávání informací, sumarizace apod.). ̶ Chatboty založené na LLM jsou aplikace postavené na LLM, které se dokážou přizpůsobit různým vstupům od uživatelů, chápat nuance a poskytovat relevantní odpovědi. ̶ Generativní umělá inteligence jsou modely, které mohou zahrnovat celou řadu úloh nad rámec generování jazyka, včetně generování obrázků a videí, skládání hudby a dalších. ̶ Fine-tuning LLM je proces přetrénování předem natrénovaného jazykového modelu na konkrétní úlohu nebo soubor dat s cílem přizpůsobit jej pro konkrétní aplikaci. 7 Neuronové sítě ̶ Simulace trénování modelu strojového učení a neuronových sítí: https://machinelearningforkids.co.uk/ 8 Chatboty 1. ChatGPT: založený na GPT modelech (OpenAI GPT-4, GPT-4o, GPT-4o mini, o1 models, nebo DALL·E 3), nová funkce je vyhledávač a reasoner 2. Copilot: provozuje Microsoft, ale založený na modelech GPT, pod licencí MUNI máte přístup s ochranou dat, tj. zadávaná data nejsou poskytována Microsoftu 3. Google Gemini: založený na modelu Gemini 4. Perplexity: Využívá modelů GPT společnosti OpenAI. Funguje jako vyhledávač, tj. poskytuje odkazy. 5. Claude: založený na modelech Claude 3 Haiku, 3.5 Sonnet, and 3 Opus, vyvíjí Anthropic 6. Mistral: založený na modelu Mistral, který je vyvíjen ve Francii 7. SciSpace: Jedná se o nástroj k rešerši odborných zdrojů a vědeckých článků i se zdroji. 9 LLMs v právu a jak je používat ̶ LLM generuje odpověď pouze v případě, že informace (data) byly poskytnuty během tréninkové fáze. ̶ Velký problém u právních otázek týkajících se národních právních systémů (jako je CZ nebo jakýkoli jiný "menší" a neanglický národní právní systém) - nedostatek údajů nebo velmi omezené množství údajů a z irelevantních zdrojů. ̶ Problém související s daty - nedostupnost dat a datových souborů (korpusů) právních textů (soudních rozhodnutí, právních předpisů). 10 LLMs v právu a jak je používat Kdy může pronajímatel zvednout nájemné dle české právní úpravy? 11 LLMs v právu a jak je používat ̶ Právní rešerše ̶ Sumarizace ̶ Anotace, shrnutí případů – FIRAC, extrakce argumentů ̶ Editace ̶ Psaní smluv 12 Limity LLMs v právu ̶ Nikdy nevkládejte osobní údaje ani neveřejné informace! ̶ Ptejte se na zdroje a argumentaci. ̶ Vždy kontrolujte výsledek, odpovědnost je vždy na uživateli. 13 Tipy pro používání ̶ Poskytni co nejvíc detailů. ̶ Iteruj otázku. ̶ Požaduj uvažování, které vedlo k odpovědi, krok za krokem. 14 Metodiky ̶ Stanovisko MUNI k užití AI ve výuce ̶ Stanovisko ČAKu 15 Regulace ̶ AI Act ̶ Záruky ochrany práv čl. 22 GDPR ̶ Autorskoprávní otázky – práva k datům a algoritmům 16 Díky za pozornost!