Velké jazykové modely (LLM) Úvod do ICT Jiří Poláček Text z pohledu LLM Token: • Fragment slova, často písmeno nebo slabika, ale patří sem i interpunkce či ustálená slovní spojení (např. „ty jsi“ apod.) • Má tisíce atributů či vah, které pomáhají porozumět významu ocitové zabarvení, odbornost, modernost apod. • LLM modely se odlišují: o„slovníkem“ tokenů o velikostí tohoto slovníku (desítky až stovky tisíc tokenů) o kapacitou odpovědi, tj. kolik tokenů je schopen přečíst a vypsat https://platform.openai.com/tokenizer Jak LLM „píše“ své odpovědi • LLM je v principu generátor náhodných slov • Na základě vstupu a toho, co již bylo vypsáno, je pro každý token spočítána pravděpodobnost, s jakou bude vybrán a vypsán o Např. pro text „do těsta přidej“ to bude „vejce“ (20 %), „mléko“ (15 %), „olej“ (12 %), „prášek“ (5%) „pepř“ (1 %), „bagr“ (0 %) … oPřesněji řečeno, v příkladu výše je naznačena pravděpodobnost, s jakou bude vybrána sekvence tokenů, která dohromady dává dané slovo • Náhodně vybrán může být také speciální token sdělující STOP o Jednou musí bát vybrán – čím delší odpověď, tím pravděpodobněji konec oLze specifikovat délku odpovědi nebo nastavit „stop sekvence“ Rozmanitost odpovědí • Teplota – ovlivňuje výpočet distribuce pravděpodobnosti oNejnižší (nulová) teplota = vždy bude vybrán nejpravděpodobnější token o Vyšší teplota = méně pravděpodobné tokeny mají větší šanci na výběr • TopP – omezuje počet tokenů, ze kterých se vybírá o Např. hodnota 0,5 znamená, že se bude vybírat jen z poloviny tokenů (těch více pravděpodobných) o Podobně TopK vybírá jenom z k nejvíce pravděpodobných tokenů • Penalizace – zamezení opakování stejných slov o Snižuje pravděpodobnost modelu opakovaně psát stejné odpovědi Asistenti • Podobně jako se do komunikace s lidmi promítá jejich osobnost, může i AI asistent, se kterým si píšeme, být různě naladěn • Výchozí asistent nejpoužívanějších modelů: o Zdvořilý, úslužný, přející, pomáhající, omlouvající se za chyby, na všechny naše prompty reaguje se samozřejmostí • Možné redefinice asistentů: oTón komunikace (věcný, sarkastický, …) o Kompetence (učitel matematiky, šachový velmistr, …) o Funkce (možnost práce se soubory, vyhledávání na webu, …) https://character.ai/ Další zajímavé odkazy • Hřiště pro vývojáře ohttps://platform.openai.com/playground o https://studio.ai21.com/ • Rozcestníky AI nástrojů o https://ejaj.cz/ o https://allthingsai.com/ • Perličky ohttps://huggingface.co/ (AI komunita) o https://lmarena.ai/?arena (hodnotí se, který LLM dal lepší odpověď)