Týden 9
Čtecí týden
Téma 1: NLP v éře transformerů a klasické (symbolic) NLP
Je nějaká úloha, kterou současné velké jazykové modely (LLM) neumí vyřešit dobře?
Ano, LLM nejsou moc dobré v úlohách, které zpracovávají pragmatiku. Např. https://arxiv.org/pdf/2212.06801.pdf ukazuje, že text-davinci-002 je docela dobrý v odhadu záměru, ale zdaleka ne tak dobrý jako lidé (zejména v kategorii humor a ironie). Pozor, jde o článek z roku 2022 a věci se rychle mění.
Na druhou stranu, GPT-4 dokáže člověka překonat (podle tohoto článku https://arxiv.org/ftp/arxiv/papers/2312/2312.09545.pdf). V obou článcích poměrně malé vzorky lidí: v prvním 30 lidí přes Amazon Mechanical Turk (AMT), v druhém 71 lidí z různých skupin. Také počet otázek je poměrně malý. Anotátoři z AMT můžou mít problém se znalostí jazyka, který jim znemožňuje rozhodnout pragmatiku. V druhém článku se zkoumá menší počet pragmatických kontextů.
Jiný článek na téma teorie mysli a selhávání jazykových modelů: https://arxiv.org/pdf/2302.08399.pdf Proč by měla Sam věřit, že v sáčku není popcorn, ale čokoládové bonbony? Jen proto, že je to na sáčku napsané?
Téma 2: Věci kolem AI se tak rychle mění! Kde mám pořád brát čerstvé informace?
Osvědčily se mi dva zdroje: The gradient (https://thegradient.pub/) a ImportAI (https://importai.substack.com/ ve formě newsletteru).
Na Gradientu je např. text o starém dobrém genderovém zkreslení (gender bias): s článkem z roku 2016 s vtipným a provokativním názvem "Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings" (https://arxiv.org/abs/1607.06520) a spoustou novějších pozorování tohoto zkreslení v neurálních modelech. Celý přehled zde: https://thegradient.pub/gender-bias-in-ai/
Články na IAI jsou techničtější (např. https://importai.substack.com/p/import-ai-368-500-faster-local-llms), ale dobře se čtou, protože jsou super stručné a obsahují nejdůležitější informace ve "Why this matters".
Téma 3: moc informatiky, málo lingvistiky - to už nikoho nezajímá?
Ale ano. Počítačová lingvistika má pořád své úkoly. Sledujte na sociálních sítích CLARIN Café (https://www.clarin.eu/content/clarin-cafe). Můžete se na nějaké pozdější Café zaregistrovat (stačí den dopředu vyplnit formulář, dostanete odkaz na zoom mailem). K minulým nahrávkám se nedá dostat, pokud jste nebyli zaregistrovaní, ale témata stojí za prohlédnutí i tak.