11. Galtonův – Watsonův proces větvení 11.1. Definice: Nechť jedinec tvořící nultou generaci může dát vznik 0, 1, 2, ... jedincům (potomkům) první generace. Analogicky každý jedinec z první generace může dát vznik 0, 1, 2, ... jedincům druhé generace atd. Přitom předpokládáme, že a) počet potomků X náhodně zvoleného jedince má pravděpodobnostní funkci ( )    = == jinak0 0,1,2,...kprop kXP k , která nezávisí na zvoleném jedinci ani na generaci, do níž přísluší; b) jedinci z dané generace dávají vzniknout svým potomkům vzájemně nezávisle. Označme Xn počet jedinců n-té generace (speciálně je X0 = 1). Za uvedených předpokladů posloupnost náhodných veličin { }0n Nn;X ∈ tvoří homogenní markovský řetězec s množinou stavů J = {0, 1, 2, ...}. Tento řetězec se nazývá Galtonův – Watsonův proces větvení. 11.2. Označení: Zavedeme náhodné veličiny Unk, k = 1, 2, ... které mají stejné rozložení jako náhodná veličina X1 a jsou stochasticky nezávislé jak mezi sebou, tak na veličinách X0, X1, ... Veličina Unk udává počet potomků k-tého jedince v n-té generaci. Je zřejmé, že Xn+1 = Un1 + Un2 + ... + UnXn. Ilustrace: ……………………………………………… 11.3. Věta: Pravděpodobnosti přechodu pij = P(Xn = j / Xn-1 = i) splňují vztah: { }*i jij pp:Jj,i =∈∀ s počáteční podmínkou    = = jinak0 0proj1 p j0 , tedy matice přechodu má tvar               + = KKKK K K K 20 2 110 2 0 210 pp2ppp2p ppp 001 P . Důkaz: ( ) { }*i j i 1k k,1n1n X 1k k,1n1nnij pjUPiX/jUPiX/jXPp 1n =      ==      ======  = −− = −− − podle věty 10.10. 11.4. Příklad: Nechť { }0n Nn;X ∈ je Galtonův – Watsonův proces větvení s množinou stavů J = {0, 1, 2, ...} a vektorem počátečních pravděpodobností p(0) = (¼, ¼ , ½ , 0, ...). Najděte matici přechodu P. Řešení:               =               + = KKKK K K K KKKK K K K 16/516/216/1 2/14/14/1 001 ppp2pp2p ppp 001 P 2 12010 2 0 210 11.5. Věta: Pro pravděpodobnostní vytvořující funkci náhodné veličiny Xn+1 platí:    = = =+ 0pron0 ,2,1pron))z(g(g )z(g XX X n 1n K , kde gX(z) je pravděpodobnostní vytvořující funkce náhodné veličiny X1. Důkaz: Protože = + = nX 1k nk1n UX je součet náhodného počtu náhodných veličin, tvrzení plyne z věty 10.15. 11.6. Příklad: Nechť { }0n Nn;X ∈ je Galtonův – Watsonův proces větvení, přičemž náhodná veličina X1 se řídí rozložením A( ϑ ), tedy její pravděpodobnostní vytvořující funkce má tvar ϑ+ϑ−= z1)z(gX . Najděte pravděpodobnostní vytvořující funkci náhodné veličiny Xn. Řešení: ( )ϑ−ϑ−=ϑ+ϑ−= 11z1)z(gX ( ) ( )z11z11))z(g(g)z(g 2 XXX2 −ϑ−=ϑ+ϑ−ϑ+ϑ−== ( )[ ] ( )ϑ−ϑ−=ϑ+ϑ−−ϑ−== 11z111))z(g(g)z(g 32 XXX 23 Obecně: ( )ϑ−ϑ−= 11)z(g n Xn pro n = 1, 2, ... 11.7. Věta: Nechť μ je střední hodnota a σ2 je rozptyl náhodné veličiny X1. Pak pro střední hodnotu a rozptyl náhodné veličiny Xn platí: ,)X(E n n µ= ( )      =µσ ≠µ −µ −µµσ = − 1pron 1pro 1 1 )X(D 2 n1n2 n . Důkaz: Provedeme matematickou indukcí. Z věty 10.15. plyne: 1nn nX,1n1,1n1n )X(E)UU(E)X(E n + +++ µ=µµ=µ=++= K . Nechť μ ≠ 1. Pak ( ) ( ) 1 1 1 1 1 )X(E)X(D)UU(D)X(D 1nn2n21n21n21n22 2n2 n1n2 2 n 2 nX,1n1,1n1n n −µ −µµσ = −µ µσ−µσ+µσ−µσ = =σµ+µ −µ −µµσ =σ+µ=++= ++++ − +++ K Nechť μ = 1. Pak D(Xn+1) = D(Xn) + σ2 = n σ2 + σ2 = (n + 1) σ2 . 11.8. Příklad: Pro zadání příkladu 11.4. vypočtěte střední hodnotu a rozptyl počtu potomků v nté generaci. (Připomeňme, že vektor počátečních pravděpodobností p(0) = (¼, ¼ , ½ , 0, ...).) Řešení: ( ) 4 5 2 1 2 4 1 1 4 1 0XE 1 =⋅+⋅+⋅=µ= , ( ) ( ) ( )[ ] 16 11 4 5 2 1 2 4 1 1 4 1 0XEXEXD 2 2222 1 2 1 2 1 =      −⋅+⋅+⋅=−=σ= ( ) n n 4 5 XE       = ( ) ( )         −      ⋅      ⋅      ⋅= −µ −µµσ = −− 1 4 5 4 5 16 11 4 1 1 XD n1n2n1n2 n 11.9. Věta: Označme qn = P(Xn = 0) pravděpodobnost vyhynutí v n-té generaci. Pak platí: )0(gq nXn = . Důkaz: ( ) ( ) nnX 0k k nX q0XP)0(gzkXP)z(g nn =====  ∞ = . 11.10. Věta: Nechť 0 < p0 < 1. (Krajní případy p0 = 0 a p0 = 1 vylučujeme, protože pro p0 = 0 je qn = 0 pro všechna n = 1, 2, ... a pro p0 = 1 je qn = 1 pro všechna n = 1, 2, ...) a) Je-li μ ≤ 1, pak 1qlim n n = ∞→ . b) Je-li μ > 1, pak ξ= ∞→ n n qlim , kde ( )1,0∈ξ je nejmenší kladný kořen rovnice z = gX(z). Interpretace: Je-li μ ≤ 1, pak s pravděpodobností 1 proces dosáhne jen konečně mnoha generací. Je-li μ > 1, pak s pravděpodobností ξ proces dosáhne konečně mnoha generací a s pravděpodobností 1 – ξ dosáhne nekonečně mnoha generací. Důkaz: nebudeme provádět. 11.11. Příklad: Pro Galtonův – Watsonův proces z příkladu 11.4. najděte limitní hodnotu pravděpodobnosti vyhynutí. Řešení: V příkladu 11.8. bylo vypočteno, že ( ) 4 5 XE 1 = . Protože 1 4 5 > , podle tvrzení b) věty 11.10. ξ= ∞→ n n qlim , kde ( )1,0∈ξ je nejmenší kladný kořen rovnice z = gX(z) = == 2 0k k k zp 2 1 1 4 893 z01z3z2,z2z1z4z 2 1 z 4 1 4 1 12 222 = −± ==+−++=++= . Podmínku splňuje kořen ½, tedy limitní hodnota pravděpodobnost i vyhynutí je 0,5. 11.12. Poznámka: Předchozí výsledky lze snadno zobecnit na případ, kdy nultá generace je tvořena k0 ≥ 1 jedinci. Pak pro n = 1, 2, ... platí. a) ( ) n 0n kXE µ= b) ( )      =µσ ≠µ −µ −µµσ = − 1pronk 1pro 1 1 k )X(D 2 0 n1n2 0 n c)    >µξ ≤µ = ∞→ 1pro 1pro1 qlim 0kn n Lze si totiž představit, že vedle sebe se navzájem nezávisle větví k0 populací, z nichž každá vznikla z právě jednoho jedince. Proces zániku příjmení V r. 1845 francouzský statistik Irenée Jules Bienaymé uveřejnil článek „O zákonu násobení a trvání rodin“. V něm si položil otázku, jaká je pravděpodobnost, že muž bude mít po n generacích mužské potomky nesoucí jeho příjmení. Uvádí zde, že je-li průměrný počet synů jednoho muže nejvýše 1, je pravděpodobnost zániku příjmení 1. Je-li však průměrný počet synů větší než 1, není zánik příjmení jistý jev a pravděpodobnost zániku příjmení lze vypočítat jako řešení jisté algebraické rovnice. Na Bienaymého práci navázal v roce 1847 jeho přítel, matematik a ekonom Antoine-Augustin Cournot. Uvedeme zde speciální případ, kterým se Cournot zabýval. Předpokládejme, že každý muž má nejvýše dva syny. p0 … pravděpodobnost, že nemá žádného syna p1 … pravděpodobnost, že má jednoho syna p2 … pravděpodobnost, že má dva syny p0 + p1 + p2 = 1 Pravděpodobnost vymření v 1. generaci: q1 = p0 Pravděpodobnost vymření ve 2. generaci: mohou nastat tři různé situace. 1. Rod vymře již v 1. generaci s pravděpodobností q1 = p0. 2. Muž má právě jednoho syna, který nemá žádné mužské potomky. To nastane s pravděpodobností p1q1. 3. Muž má právě dva syny, žádný z nich nemá mužské potomky. K tomu dojde s pravděpodobností p2q1 2 . Celkem: q2 = p0 + p1q1 + p2q1 2 . Pravděpodobnost vymření ve 3. generaci: opět mohou nastat tři situace, stejně jako ve 2. generaci. Jejich pravděpodobnosti jsou p0, p1q1, p2q1 2 . Tedy q3 = p0 + p1q2 + p2q2 2 . Obecně: qn = p0 + p1qn-1 + p2qn-1 2 . Platí, že posloupnost { }∞ =1nnq pravděpodobností vymření je rostoucí posloupnost, 1qn ≤ pro Nn ∈∀ . Tato posloupnost má limitu 1x ≤ , která je řešením kvadratické rovnice 2 210 xpxppx ++= . Protože 1ppp 210 =++ , vyjádříme 1p jako 201 p-p-1p = . Pak ( ) 2 2200 xpxpp1px +−−+= , ( ) ( ) ( )( ) 22020 p:/xppx1x1xpx1p0 −−=−−−= ( )       −−= x p p x10 2 0 Odtud je vidět, že rovnice má dva kořeny 1x = a 2 0 p p x = . Dáme tyto kořeny do souvislosti se střední hodnotou počtu synů libovolného muže: 2022021210 pp1p2pp1p2pp2p1p0 +−=+−−=+=⋅+⋅+⋅=µ Mohou nastat tři různé situace. Je-li μ < 1, tj. 1 - p0 + p2 < 1, pak 1 p p 2 0 > . Avšak x je pravděpodobnost, tedy jedinou možnou limitou je 1. Je-li μ = 1, tj. 1 - p0 + p2 = 1, pak 1 p p 2 0 = a limitou je 1. Je-li μ > 1, tj. 1 - p0 + p2 > 1, pak 1 p p 2 0 < a limita je 2 0 p p . Zamená to, že při střední hodnotě počtu synů μ ≤ 1 příjmení určitě zanikne, zatímco při μ > 1 příjmení zanikne jenom s pravděpodobností 2 0 p p . Praktická aplikace Galtonova – Watsonova procesu větvení v demografii Výchozí data Budeme vyšetřovat sled generací ženské populace Československa. Máme k dispozici údaje z roku 1961, které popisují rozdělení žen ve věkovém intervalu (45 let, 50 let) (tedy na konci reprodukčního období) podle počtu živě narozených dětí. Žen v tomto věkovém intervalu bylo 450259. počet dětí označení počet žen 0 c0 65387 1 c1 78901 2 c2 136150 3 c3 79878 4 c4 39387 5 c5 19856 6 c6 15365 7 c7 7683 8 c8 3841 9 c9 1921 10 c10 960 11 c11 480 12 c12 240 13 c13 120 14 c14 60 15 c15 30 Tabulka 1 - výchozí data Stanovení pravděpodobnosti narození dcery, která se dožije reprodukčního věku 25 let Zajímají nás pouze potomci ženského pohlaví. Je známo, že v r. 1961 byl poměr počtu živě narozených chlapců k počtu živě narozených dívek 1,055 (tzv. ukazatel maskulinity). Tedy pravděpodobnost narození dívky je 055,11 1 + . Dále je známo z úmrtnostních tabulek ČSR pro rok 1961, že pravděpodobnost dožití 25 let pro ženu je 0,96788. Tedy hodnotu h = 0,96788 . 055,11 1 + = 0,470988 lze považovat za pravděpodobnost, že živě narozený potomek je dcera, která se dožije věku 25 let. Rozložení počtu žen podle počtu dcer, které se dožijí reprodukčního věku 25 let Nechť ci je počet žen s i potomky. Z vlastností binomického rozložení s parametry i a h plyne, že z počtu ci připadá (1-h)i ci na ženy s žádnou 25 letou dcerou, ih(1-h)i-1 ci na ženy s právě jednou 25 letou dcerou atd. rozdělení žen podle počtu 25 letých dcerpočet potomků počet žen 0 1 2 … 0 c0 c0 0 0 … 1 c1 (1-h)c1 hc1 0 … 2 c2 (1-h)2 c2 2h(1-h)c2 h2 c2 … 3 c3 (1-h)3 c3 3h(1-h)2 c3 3h2 (1-h)c3 … 4 c4 (1-h)4 c4 4h(1-h)3 c4 6h2 (1-h)2 c4 … . . . . . … . . . . . … . . . . . … suma c p0c p1c p2c Tabulka 2 – rozdělení p0, p1, ... žen podle počtu 0, 1, ... 25 letých dcer konstruované na základě počtů c0, c1, ... žen s 0, 1, ... potomky. Numerické vyhodnocení tabulky 2: rozdělení žen podle počtu 25 letých dcerpočet potomků počet žen 0 1 2 3 4 … 0 65387 65387 0 0 0 0 … 1 78901 41740 37161 0 0 0 … 2 136150 38102 67846 30202 0 0 … 3 79878 11826 31586 28121 8645 0 … 4 39387 3045 10985 14671 8708 1938 0 . . . . . … . . . . . … . . . . . … suma 450259 161420 153833 85789 31330 11549 Na základě této tabulky lze stanovit pravděpodobnosti p0, p1, p2, … ,358504,0 450259 161420 p0 == p1 = 0,3416544, p2 = 0,1905325, p3 =0,0695821, … Střední hodnota μ = p1 + 2p2 + 3p3 + ... = 0,341655 + 2.0,190533 + 3.0,069583 + ... = 1,111166 >1 Matice pravděpodobností přechodu               + = LLLL L L L 10 2 110 2 0 210 pp2ppp2p ppp 001 P . V našem případě tedy dostáváme:                 = LLLLL L L L L 206734,0199067,0131733,0046077,0 180085,0253342,0244969,0128525,0 069583,0190533,0341655,0358504,0 0001 P . Pravděpodobnostní rozložení počtu 25 letých dcer v n-té generaci Pro vektor absolutních pravděpodobností platí zákon evoluce: p(n) = p(0)Pn . V následující tabulce jsou uvedeny složky vektoru p(n) pro n = 0, 1, ..., 10 n i 0 1 2 3 4 5 6 7 ... 0 1,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 ... 1 0,358504 0,341655 0,190533 0,065830 0,025651 0,009428 0,003191 0,001013 ... 2 0,509170 0,174495 0,131214 0,078222 0,046294 0,026754 0,015134 0,008447 ... 3 0,593159 0,105974 0,090446 0,064523 0,045799 0,031962 0,022014 0,015040 ... 4 0,646756 0,071021 0,065064 0,051054 0,039920 0,030799 0,023537 0,017881 ... 5 0,683843 0,050729 0,048627 0,040485 0,033619 0,027604 0,022493 0,018246 ... 6 0,710930 0,037884 0,037477 0,032484 0,028103 0,024071 0,020485 0,017367 ... 7 0,731494 0,029234 0,029590 0,026409 0,023533 0,020781 0,018246 0,015970 ... 8 0,747563 0,023131 0,023824 0,021736 0,019805 0,017894 0,016085 0,014416 . 9 0,760402 0,018665 0,019489 0,180087 0,016768 0,015422 0,014117 0,012887 . 10 0,770845 0,015300 0,016151 0,015194 0,014281 0,013322 0,012371 0,011460 . . . . . . . . . . Tabulka 3 – pravděpodobnostní rozložení pi(n) počtu i 25 letých dcer v n-té generaci V prvním sloupci jsou pravděpodobnosti vyhynutí (v ženské linii). Je vidět, že v 10. generaci je pravděpodobnost vyhynutí p0(10) = 0,770845 hodně vysoká. Naproti tomu pravděpodobnosti libovolného nenulového počtu dcer jsou velice malé (např. pro jednu dceru p1(10) = 0,015300 a s rostoucím počtem generací se stále snižují. Vytvořující funkce počtu 25 letých dcer v n-té generaci  ∞ = = 0k k nkX zp)z(g n z g1(z) g2(z) g3(z) g4(z) g5(z) 0,0 0,358504 0,509170 0,593159 0,646756 0,683843 0,1 0,394647 0,528015 0,604730 0,654564 0,689446 0,2 0,435057 0,550027 0,618573 0,664047 0,696322 0,3 0,480260 0,575893 0,635302 0,675717 0,704892 0,4 0,530872 0,606507 0,655773 0,690318 0,715785 0,5 0,587619 0,643056 0,681205 0,708964 0,729979 0,6 0,651360 0,687140 0,713398 0,733401 0,749073 0,7 0,723115 0,740967 0,755101 0,766513 0,775872 0,8 0,804109 0,807566 0,810729 0,813400 0,815726 0,9 0,895811 0,891733 0,887770 0,883881 0,880022 1,0 1,000000 1,000000 1,000000 1,000000 1,000000 Tabulka 4 – hodnoty vytvořující funkce gn(z) počtu 25 letých dcer v n-té generaci Průběhy vytvořujících funkcí Pravděpodobnost vyhynutí Limitní hodnotu pravděpodobnosti vyhynutí lze získat jako nejmenší kladný kořen rovnice z = g(z), kde g(z) = g1(z) = p0 + p1z + p2z2 + ... V našem případě řešíme rovnici z = 0,358504 + 0,341655z + 0,190533z2 + 0,069583z3 + ... Výsledek: 834043,0=ξ . Je zajímavé posoudit rychlost konvergence posloupnosti qn pravděpodobnosti vyhynutí potomků v ženské linii v jednotlivých generacích k příslušné limitní hodnotě 834043,0=ξ - viz 1. sloupec v tabulce 3. Pro zajímavost ještě uvedeme limitní hodnoty pravděpodobnosti vyhynutí potomků v ženské linii pro různé země (údaje jsou z roku 1960). země ξ Peru 0,2620 Japonsko 0,3242 Mexiko 0,4066 Maďarsko 0,7130 USA 0,8209