Form. a exper. sémantika ll/Exper. syntax a sémantika II JS 2023 Mojmír Dočekal & Lucia Vlášková ÚJABLMUNI 24/02/2023 Cíle, ukončení, literatura, obsah Intro • vzájemné představení,... • materiály: v ISu Cíle • kurz o statistice, formální lingvistice a experimentech • dílčí cíle: ■ příprava k samostatné práci na lingvistickém experimentu (diplomka) ■ lingvistika a data science ■ soft-skills: statistika, grafy, R (R Core Team (2019)),... Úvod Proč statistika v lingvistice? • čím jsou data víc plná šumu, tím víc je potřeba statistika • v lingvistice: a. Petr neviděl nikoho. b. *Petrviděl nikoho. c. ne-roz-šiř-ova-t d. ... • oproti: a. Petr nechtěl, aby nikdo přišel. b. Petr nechtěl, aby přišel ani jeden student. c. Aleš a Bára věří, že na půdě FF žijí dva duchové, (kumulativní čtení?) Statistika • statistika je kontra-ituitivní • lidé mají dobré intuice o: ■ gramatičnosti ■ vyplývání ■ aritmetice ■ nikdy o statistice (Kahneman & Tversky, Koralus & Mascarenhas) Ilustrativní příklad: • Bayesovská statistika • Thomas Bayes • Signál a šum, kap. 8 • náhled do RStudia Lehké připomenutí statistiky • pravděpodobnost: frekventistická verze • pravděpodobnost narození syna nebo dcery • součet: 1 • vtipy: meteorolog předpovídající 50% pravděpodobnost deště na sobotu i na neděli: 100% deště během víkendu, muž s 2 bombami v letadle Konjunkce, disjunkce, negace a podmíněná pravděpodobnost • pravděpodobnostní protějšky logických spojek Konjunkce • mají-li Novákovi dvě děti, jaká je pravděpodobnost toho, že jsou obě dcery? • obecně: p (A A B) = p(A) * p(B) • obě události muzí být nezávislé • ilustrace problému: Meadowův zákon Disjunkce pravděpodobností mají-li Novákovi 2 děti, jaká je pravděpodobnost, že alespoň jedna z nich j dívka? obecně: p (A V B) = p (A) + p(B) - p (A A B) případně přes počítání kombinací počasí: 1/2 + 1/2 - (1/2 * 1/2) pravděpodobnosti vzájemně exkluzivních událostí se sčítají: v sobotu buď nebo neprší,... Pravděpodobnost komplementu/negace události • 1-P(A) • pravděpodobnost toho, že Novákovi mají alespoň 1 dceru = (1 - p(dva synové)) ... (1-0.25) • pravděpodobnost toho, že za 10 let nevypukne válka (baserate: 10% každý rok) = (1-0.9x0.9... 0.9) = (1-0.35) Podmíněná pravděpodobnost nejslozitejsi xkcd • p(zabit-v-bouřce|mimo-bouřku) 7^ p(zabit-v-bouřce|v-bouřce) • příklad: je-li Novákovic starší dítě dívka, jaká je pravděpodobnostně mají dvě dcery? • obecně: p(a|b) = p(a A b)/p(b) • ještě komplikovanější: Bayesova věta (založená na podmíněné pravděpodobnosti) 1 library(LaplacesDemon) 2 3 help(BayesTheorem) 4 5 # Pr(Hell|Consort) = 6 PrA <- c(0.75,0.25) 7 PrBA <- c(6/9, 5/7) 8 (BayesTheorem(PrA, PrBA)) [1] 0.7368421 0.2631579 attr(,"class") [1] "bayestheorem" 1 # > [1] 0.7368421 • Bayes teorém aplikovaný na klasický případ chybného úsudku podmíněné pravděpodobnosti: 1.1% žen v populaci má rakovinu prsu 2. citlivost testu (true-positive) je 90% 3. false-positive je 9% 4. Má-li žena pozitivní test, jaká je pravděpodobnost toho, že má opravdu rakovinu? (nejpopulárnější odpověď lékařů: 80-90%) 1 library(LaplacesDemon) 2 3 help(BayesTheorem) 4 5 # Pr(Nemoc|Test) = 6 PrA <- 0(0.01,0.99) 7 PrBA <- c(9/10, 0.9/10) 8 9 BT <- BayesTheorem(PrA, PrBA) 10 11 print(paste("V procentech (pravděpodobnost nemoci): 11, round(E [1] "V procentech (pravděpodobnost nemoci): 9 %" • a obráceně: 1 # Pr(Test|Nemoc) = 2 PrA <- 0(9/10, 0.9/10) 3 PrBA <- 0(0.01,0.99) 4 5 # (0.9*0.99)/©.99 6 7 BT <- BayesTheorem(PrA, PrBA) 8 print(paste("V procentech (pravděpodobnost nemoci): ",round(B1 [1] "V procentech (pravděpodobnost nemoci): 91 %" Dokumentace k Bayesově větě (LaplacesDemon) • RDocumentation Nejznámější chyby ve statistických inferencích Konjunkce (připomenutí) • mají-li Novákovi dvě děti, jaká je pravděpodobnost toho, že jsou obě dcery? • obecně: p (A A B) = p (A) * p(B) • obecně: prox pokusů z n je pravděpodobnost určena binomickým rozdělením ■ typ probability mass function (pravděpodobnostní funkce) pro diskrétní proměnné 1 x <- seq(0,3) 2 3 y <- dbinom(x, 3, prob = 1/2) 4 5 df <- data.frame(x,y) 6 7 df x y 1 0 0.125 2 1 0.375 3 2 0.375 4 3 0.125 • napr. pravděpodobnost toho, že se narodí dvě dcery v rodině s třemi dětmi 1 library(ggplot2) 2 3 qplot(x,y) t n q _ U.o no. < » i » i 0 1 ■ i 2 3 X • pomocí frekvenčního stromu: narození jedné dcery je možné 3 způsoby, tj. stejná pravděpodonbost (3/8=0.375) • ale pravděpodobnost narození jedné dcery je větší než narození dvou dcer (pro rodinu s 2 dětmi) 1 x <- seq(0,2) 2 3 y <- dbinom(x, 2, prob = 1/2) 4 5 df <- data.frame(x,y) 6 7 df x y 1 0 0.25 2 1 0.50 3 2 0.25 obecně: P (A A B) < • z Kahneman (2011) • kontext: Linda is thirty-one years old, single, outspoken, and very bright. She majored in philosophy. As a student, she was deeply concerned with issues of discrimination and social justice, and also participated in antinuclear demonstrations. • úkol subjektu: následujících 8 scénářů seřadit podle pravděpodobnosti (nebo reprezentativnosti): 1. Linda is a teacher in elementary school. 2. Linda works in a bookstore and takes yoga classes. 3. Linda is active in the feminist movement. 4. Linda is a psychiatric social worker. 5. Linda is a member of the League of Women Voters. 6. Linda is a bank teller. 7. Linda is an insurance salesperson. 8. Linda is a bank teller and is active in the feminist movement. • nejdulezitejsi kontrast: 6. Linda is a bank teller, vs. 8. Linda is a bank teller and is active in the feminist movement. • původním designu byl kontrast testován between-subjects: 7 podmínek, jen 1 z 6xor8 • výsledek: všichni testovaní seřadili 8 s větší pravděpodobností než 6 • nový experiment: within-subject (v podstatě jen kontrola) - tj. všech 8 podmínek • výsledek znovu 8 více pravděpodobné než 6 • chyba statistického uvažování: p (A A B) ^ p (A) (p(A A B) ^ p(B)) • nebo jasněji: p(A A B) < p (A) • Kahnemanovo vysvětlení: chyba Systému 2, Systém 1 je natolik silný, že zablokuje Systém 2 • výsledky (80. leta): 89% BA studentů chyba, stejné pro Stanford Graduate School of Business - 85% chybovost • pokusy o nápravu: redukce na pouhé dvě podmínky: 1. Linda is a bank teller, vs. 2. Linda is a bank teller and is active in the feminist movement. • úsudková chyba stále zůstala u 85% - 90% BA studentů • Stephen Jay Gould: He knew the correct answer, of course, and yet, he wrote, "a little homunculus in my head continues to jump up and down, shouting at me—'but she can't just be a bank teller; read the description.'" • možná cesta (psychologické řešení) ven: převedení otázky na relativní frekvenci: Imagine a thousand women like Linda. How many of them do you think are bank tellers? How many of them do you think are bank tellers who are active in the feminist movement? • lepší výsledky: Tversky and Kahneman (1983),Hertwig and Gigerenzer (1999) • lingvistické řešení: Asudeh and Giorgolo (2020) I Méně známý problém: chyby v usuzování o podmíněné I pravděpodobnosti 1« z Kahneman et al. (1982) I • scénář: svědek nehody způsobené taxíkem pozdě v noci I • dvě taxikářské společnosti: Zelené taxi (85%), Modré taxi (15%) - base rate I (priors) I • svědek prohlašuje, že taxi bylo modré • svědek na testu prokázal 80% spolehlivost k rozeznání barvy za stejných podmínek • jaká je pravděpdobnost p(Modré|priors) • base rate (priors): pravděpodobnost hypotézy • p(Data|Hypotéza): likelihood - jak pravděpodobná by byla data, pokud by hypotéza byla pravdivá ■ tj. ze 100 náhodných taxíků (85 zelených, 15 modrých) by svědek identifikoval 20 jako modrých (20% chybovost) 1 library(LaplacesDemon) 2 3 # Pr(Hypothesis|Data) = 4 PrHypothesis <- c(0.85,0.15) 5 PrDataHypothesis <- c(2/10, 8/10) 6 7 HypothesisData <- BayesTheorem(PrHypothesis, PrDataHypothesis) 8 9 print(paste("V procentech (pravděpodobnost modrého taxiku): 11, [1] "V procentech (pravděpodobnost modrého taxiku): 41 %" • v původním experimentu byla odpověď (medián): 80% ve prospěch hypotézy (byl to modrý taxík) • tj. dvakrát víc než správná odpověď • psychologická odpověď: převést na frekvence a ještě ulehčit vizualizací Slue cabs Blue cabs ID'd as "Blue" | y Blue cabs / ID'd as "Green" Blue cabs ID'd as "Blue" _ III ■ \ \ Green cabs ID'd as "Blue" / Green cabs < 1 jreen cabs D'd as "Biu Green cabs e" ID'd as "Green" Pinker (2022) Príklady lingvistických studií užívajících: 1. frekventistická analýza projekce presupozic: Chemla 2009 • Chemla (2009) 2. bayesovská statistika skalárních implikatur: Franke & Jäger 2016 References Asudeh, Ash, and Gianluca Giorgolo. 2020. Enriched Meanings: Natural Language Semantics with Category Theory. Vol. 13. Oxford University Press. Chemla, Emmanuel. 2009. "Presuppositions of Quantified Sentences: Experimental Data." Natural Language Semantics 17 (4): 299-340. Hertwig, Ralph, and Gerd Gigerenzer. 1999. "The 'Conjunction Fallacy'revisited: How Intelligent Inferences Look Like Reasoning Errors." Journal of Behavioral Decision Making 12 (4): 275-305. Kahneman, Daniel. 2011. Thinking, Fast and Slow, macmillan. Kahneman, Daniel, Stewart Paul Slovic, Paul Slovic, and Amos Tversky. 1982. Judgment Under Uncertainty: Heuristics and Biases. Cambridge university press. Pinker, Steven. 2022. Rationality: What It Is, Why It Seems Scarce, Why It Matters. Penguin. R Core Team. 2019. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org. Tversky, Amos, and Daniel Kahneman. 1983. "Extensional Versus Intuitive Reasoning: The Conjunction Fallacy in Probability Judgment." Psychological Review 90 (4): 293. Error X