# CMU Pronouncing Dictionary

V tomto úkolu si vyzkoušíme práci s grafickým rozhraním Jupyter Notebook, které je vhodné pro postupné spouštění kódu. Naučíme se importovat knihovny do Pythonu a dále s nimi pracovat. Nejdůležitější knihovnou pro nás v tomto notebooku bude NLTK. V rámci této knihovny použijeme slovník CMU Pronouncing Dictionary, pomocí kterého budeme schopni vypsat výslovnost anglické věty. Pokračovat budeme s hledáním slov, která lze vyslovit dvěma a více způsoby. V neposlední řadě prozkoumáme slova, jejichž různé výslovnostní varianty se liší i v počtu slabik. Nakonec si vyzkoušíme tvorbu jednoduchých grafů pro lepší znázornění výsledků.

Poznámka: Kvůli možné záměně slovníku jako seřazeného seznamu slovní zásoby a slovníku jako datového typu v Pythonu se v tomto notebooku pro datové typy používají anglické názvy (tj. dictionary pro slovník, list pro seznam, tuple pro n-tici apod.).

## 1. S čím budeme pracovat

### 1.1 Jupyter Notebook

Právě se nacházíte v prostředí Jupyter Notebook. Jedná se o webovou aplikaci umožňující spouštět tzv. notebooky, dokumenty obsahující jak spustitelný kód (v našem případě v programovacím jazyce Python), tak textové prvky jako například odstavce, odkazy, obrázky, grafy, rovnice. Největší výhodou těchto notebooků je právě možnost kombinovat kód a prostý text, což umožňuje přímo komentovat jednotlivé kroky programu bez nutnosti tyto komentáře ukládat do samostatného souboru.

Více informací na [Project Jupyter](https://jupyter.org/) a [Jupyter Notebook dokumentaci](https://jupyter-notebook.readthedocs.io/en/stable/).

### 1.2 NLTK

NLTK (Natural Language Toolkit) je knihovna pro programovací jazyk Python. Knihovny jsou zaměřené na různé oblasti, například datovou vědu, strojové učení, vizualizaci dat a poskytují znovupoužitelný kód, nejčastěji ve formě funkcí. Programátor pak není nucen pokaždé vymýšlet vlastní řešení pro běžný problém, ale zakomponuje do svého programu část z nějaké knihovny, kterou potřebuje. Knihovny navíc bývají optimalizovány tak, aby výsledný kód fungoval rychleji nebo nezabíral příliš výpočetní paměti, proto v mnoha případech ani není na místě snažit se o napsání vlastního řešení, pokud známe vhodnou knihovnu pro daný problém.

Pomocí NLTK zpracováváme přirozený jazyk. Kromě užitečných funkcí na tokenizaci, tagování, parsování, stemování apod. NLTK obsahuje velké množství korpusů a lexikálních zdrojů (např. WordNety). Nevýhodou NLTK je její zaměření na angličtinu.

Více informací na [NLTK dokumentaci](https://www.nltk.org/index.html), [NLTK Wiki](https://github.com/nltk/nltk/wiki) a [NLTK Book](https://www.nltk.org/book/).

### 1.3 CMU Pronouning Dictionary

Carnegie Mellon University Pronouncing Dictionary (zkráceně CMU Dict) je slovník, který obsahuje přepis výslovnosti anglických slov. Zaměřuje se na výslovnost angličtiny Severní Ameriky. CMU Dict obsahuje kolem 134 000 slov, ke každému slovu je přiřazen alespoň jeden výslovnostní přepis. Narozdíl od běžných fonetických přepisů, na které jsme zvyklí, CMU Dict používá ARPAbet, fonetickou transkripci, která je vhodná pro zpracování na počítači. Obsahuje totiž pouze znaky ASCII. CMU Dict je navíc zabudován do knihovny NLTK, nemusíme tedy data složitě stahovat, na vše nám bude stačit Python.

Více informací na [CMU Dictionary](http://www.speech.cs.cmu.edu/cgi-bin/cmudict) a [ARPAbet](https://en.wikipedia.org/wiki/ARPABET).

### 1.4 Matplotlib

Matplotlib je knihovna pro Python vhodná pro vizualizaci dat. Umožňuje vytvářet grafy, uživatel si může vybrat z velkého množství různých typů. Největší výhodou této knihovny je možnost velmi jednoduše a rychle měnit hodnoty v grafech pomocí proměnných.

Více informací na [Matplotlib](https://matplotlib.org/).

## 2. Instalace

V této části popíšeme, jak nainstalovat potřebné knihovny. Instalace se zaměřuje na unixové operační systémy.

### Jupyter Notebook

Jupyter Notebook nainstalujete pomocí příkazu `pip3 install --user -U notebook`. 

Notebook také můžete otevřít přes [Google Colab](https://colab.research.google.com/). Výhoda druhého způsobu spočívá v tom, že na svůj počítač nemusíte instalovat žádné dodatečné knihovny či software. Pokud se pro tuto možnost rozhodnete, můžete přeskočit následující kroky a pokračovat na sekci 3.

### NLTK

1. Zkontrolujte, že máte verzi Python 3.6, 3.7, 3.8, nebo 3.9. 
2. Do příkazové řádky zadejte příkaz `pip3 install --user -U nltk`. 

### CMU Dict

1. Zkontrolujte, že máte nainstalovanou knihovnu NLTK.
2. V příkazové řádce spusťte Python pomocí příkazu `python3`.
3. Do interpretu zadejte `import nltk`.
4. Do interpretu zadejte `nltk.download()`.
5. Objeví se menu, zadejte `d`.
6. Interpret vás vyzve k zadání jména package, zadejte `cmudict`.
7. Proběhne stažení CMU Dict, po úspěšné instalaci interpret opustíte kombinací `Ctr+D`

### Punkt

Kvůli tokenizaci textu si musíme také stáhnout Punkt. Opakujte stejný postup jako při instalování CMU Dict, ovšem v bodě 6. zadejte `punkt` místo cmudict.

### Matplotlib

1. Do příkazové řádky zadejte `pip3 install --user -U matplotlib`.


## 3. Import knihoven a modulů

Než budeme moct začít s psaním programu, musíme importovat všechny knihovny a moduly, které budeme potřebovat. Patří mezi ně:

- nltk
- re
- string
- word_tokenize
- defaultdict
- matplotlib

Spusťte následující buňku. Knihovny a moduly se vám importují.

Poznámka: Po každém otevření notebooku je nutné kód spustit znovu.

In [None]:
import nltk, re, string
import matplotlib.pyplot as plt
from nltk.tokenize import word_tokenize
from collections import defaultdict

## 4. Struktura slovníku CMU Dict

Nejprve si uložíme celý slovník CMU Dict do proměnné `entries`. Ke slovníku poté budeme přistupovat přes tuto proměnnou.

In [None]:
entries = nltk.corpus.cmudict.entries()

Než začneme programovat, měli bychom vědět, jak je slovník strukturovaný. 

**Úkol 1:** Pomocí příkazu `print` vypište celý slovník.

In [None]:
""" TO-DO """


Slovník se nám sice nevypíše celý, ale předchozí příkaz nám pomůže vypozorovat alespoň 4 zásadní věci, které nám ulehčí programování:

1. Slovník je uložen v datovém typu list,
2. jednotlivá slova jsou uložena v datovém typu tuple,
3. výslovnost jednotlivých slov je uložena v datovém typu list,
4. slovník je seřazen podle abecedy.

Jelikož datovým typem slovníku je list, k jednotlivým slovům můžeme přistupovat i přes indexy. Následující tři úkoly se týkají indexace.

**Úkol 2:** Vypište, kolik položek má slovník celkem.

In [None]:
""" TO-DO """


**Úkol 3:** Vyberte si číslo z intervalu 0 až celkový počet položek a vypište slovo, které se ve slovníku nachází pod tímto indexem.

In [None]:
""" TO-DO """


**Úkol 4:** Vypište slovo, které se nachází pod indexem 33330.

In [None]:
""" TO-DO """


Minimálně u čtvrtého úkolu se nám podařilo vypsat slovo skládající se z více než jednoho písmene. Můžeme si všimnout, že:

- Pár slovo-výslovnost je uložený v datovém typu tuple,
- slovo je vždy psáno s malými písmeny,
- výslovnost slova je uložena v datovém typu list,
- každý prvek v listu u výslovnosti odpovídá jednomu fonému,
- čísla u fonémů značí přízvuk.

## 5. Výslovnost anglické věty

Teď již víme, jak CMU Dict vypadá, a můžeme začít programovat. V této sekci napíšeme jednoduchý program, který vyzve uživatele, aby zadal anglickou větu, a poté vypíše výslovnost všech slov této věty. 

**Úkol 5:** Vyzvěte uživatele, aby zadal anglickou větu. Tuto větu uložte do proměnné `sent`. Po spuštění kódu vás notebook požádá o anglickou větu. Vyberte si libovolnou větu v angličtině, mějte ale na paměti, že ve slovníku je pouze 134 000 slov, volte proto slova běžné slovní zásoby.

V tomto řešení budeme pracovat s větou "I will meet you tomorrow."

In [None]:
""" TO-DO """


Se zadanou větou nemůžeme pracovat jen tak, musíme ji tzv. normalizovat. Všechna velká písmena převedeme na malá, větu očistíme od interpunkce a na konec ji tokenizujeme.

Pro normalizaci vytvoříme funkci `normalize`, která bude brát parametr `sentence` (větu, kterou zadal uživatel). Vracet bude tokenizovanou větu, kterou později uložíme do proměnné.

**Úkol 6:**

1. Vytvořte funkci `normalize`, která požaduje parametr `sentence`,
2. zbavte se všech velkých písmen,
3. odstraňte interpunkci (řešení používá knihovnu `re`, ale můžete přijít i na jiný způsob bez regulárních výrazů),
4. vraťte normalizovanou větu.

In [None]:
""" TO-DO """


**Úkol 7:** 

1. Normalizujte větu `sent` a uložte ji do nové proměnné `sent_norm`,
2. vypište normalizovanou větu,
3. zkontrolujte výstup, vypsat by se měl string s malými písmeny bez interpunkce.

In [None]:
""" TO-DO """


**Úkol 8:**

1. Vytvořte funkci `tokenize`, která požaduje parametr `sentence`,
2. tokenizujte větu pomocí tokenizátoru `word_tokenize`, který jsme naimportovali na začátku notebooku z knihovny `NLTK`,
3. vraťte tokenizovanou větu.

In [None]:
""" TO-DO """


**Úkol 9:**

1. Tokenizujte větu `sent_norm` a uložte ji do nové proměnné `sent_tok`,
2. vypište tokenizovanou větu,
3. zkontrolujte výstup, vypsat by se měl list s jednotlivými slovy jako prvky listu.

In [None]:
""" TO-DO """


Nyní máme větu připravenou a můžeme pro každé slovo najít výslovnost ve CMU Dict. 

**Úkol 10:**

1. Vytvořte funkci `pronunciation`, která požaduje parametr `sentence`,
2. připravte prázdnou proměnnou `pron`, kam později uložíte všechny způsoby výslovnosti všech slov v proměnné `sent_tok` (o vhodném datovém typu rozhodněte),
3. iterujte přes všechna slova ve slovníku CMU Dict, pokud se slovo nachází i v listu `sent_tok`, uložte jeho výslovnost do předpřipravené proměnné `pron` (dopředu přemýšlejte o tom, jak později vypíšete výslovnost jednotlivých slov, vhodně rozhodněte, jakým způsobem jednotlivé fonémy uložíte),
4. vraťte proměnnou `pron`, která obsahuje výslovnost jednotlivých slov.

V řešení úkolů 10 a 11 je rovnou naprogramované uložení výslovnosti s mezerami mezi fonémy a oddělením slov pomocí | (úkol navíc).

In [None]:
""" TO-DO """


**Úkol 11:**

1. Uložte výslovnost všech slov do proměnné `sent_pron`,
2. vypište výslovnost všech slov.

In [None]:
""" TO-DO """


**Úkol navíc:** V ARPAbet zápisu se fonémy oddělují mezerou. Zkuste funkci `pronunciation` a následně výpis výslovnosti všech slov upravit tak, aby jednotlivé fonémy byly odděleny mezerou. Pro slova vyberte jiný oddělovač.

V závislosti na tom, jakou větu jste zvolili, jste buď našli nebo nenašli slova, která lze vyslovit vícero způsoby. V řešení pracujeme s větou "I will meet you tomorrow.", u které si můžeme všimnout, že nesedí počet slov ve výslovnostním přepisu. Program nám našel dvě slova (tomorrow a will), která se dají vyslovit více než jedním způsobem.

V další sadě úkolů se budeme zaobírat právě tímto problémem.

## 6. Slova, která lze vyslovit vícero způsoby

V předchozí sekci jsme narazili na slova, která se dají vyslovit dvěma různými způsoby. V následujících úkolech si vyzkoušíme, jak vyhledat pouze tato specifická slova a vypsat je se všemi výslovnostními variantami. 

Procvičíme si programování s datovým typem dictionary, jelikož je to jeden z nejpřehlednějších způsobů řešení tohoto problému. V řešení tohoto notebooku si práci usnadníme pomocí modulu `defaultdict` a porovnáme ho s běžným dictionary.

**Úkol 12:** Stejně jako v úkolu 5 požádejte uživatele o zadání anglické věty. Vstup uložte do proměnné `sent2`.

In [None]:
""" TO-DO """


**Úkol 13:** Normalizujte větu v `sent2`.

In [None]:
""" TO-DO """


**Úkol 14:** Tokenizujte normalizovanou větu `sent2`.

In [None]:
""" TO-DO """


V závislosti na výběru věty se může stát, že se nějaká slova budou ve větě opakovat. Našim cílem není vypsat úplně vše, ale pouze slova, která se vyslovují více než jedním způsobem, proto se můžeme zbavit duplicitních slov.

**Úkol 15:** Zbavte se opakujících se slov ve větě `sent2`.

In [None]:
""" TO-DO """


Nyní si připravíme funkci, která bude iterovat přes CMU Dict a hledat slova vyskytující se v naší větě. Jelikož budeme mít pro některá slova více než jednu možnou výslovnost, výsledky si uložíme do datového typu dictionary. Jako klíče použijeme slova, jejichž hodnoty budou všechny výslovnostní varianty.

Pro tuto funkci je možné využít jak standardní dictionary, tak modul defaultdict, který ulehčuje přidávání klíčů do dictionary. V řešení si ukážeme jak variantu s běžným dictionary, tak variantu s modulem defaultdict.

**Úkol 16:** 

1. Vytvořte funkci `pron_dict`, která vyžaduje parametr `sentence`,
2. připravte prázdnou proměnnou datového typu dictionary, kam uložíte výsledky prohledávání CMU Dict (případně použijte defaultdict),
3. všechna slova ve větě `sent2` vyhledejte ve CMU Dict,
4. nalezená slova uložte do dictionary jako klíče, nalezené výslovnostní varianty uložte do dictionary jako hodnoty (o vhodných datových typech pro klíče a hodnoty rozhodněte),
5. vraťte celý dictionary.

Poznámka: V tuto chvíli se nezaobírejte, kolika způsoby je možné dané slovo vyslovit, do dictionary uložte i ta slova, která mají pouze jednu výslovnostní variantu.

In [None]:
""" TO-DO """


**Úkol 17:** Zjistěte, kolika způsoby se dá každé slovo v dictionary vyslovit. Na výstup vypište jak slovo, tak počet jeho výslovnostních variant.

In [None]:
""" TO-DO """


V závislosti na výběru vaší anglické věty narazíte na různý počet výslovnostních variant u různých slov.

**Úkol 18:** 

1. Napište funkci `more_pron_dict` s parametrem `sent_pron`,
2. vytvořte nový dictionary, do kterého uložíte pouze ta slova, která mají dvě a více výslovnostních variant,
3. ponechte slova jako klíče a výslovnostní varianty jako hodnoty,
4. vraťte dictionary.

In [None]:
""" TO-DO """


**Úkol 19:** Nový dictionary uložte do proměnné a vypište.

In [None]:
""" TO-DO """


Výpis takto můžeme nechat, došli jsme ke správnému řešení. Je ale těžké se ve výsledcích vyznat, proto upravíme výstup, aby byl přehlednější.

**Úkol 20:** Vytvořte funkci `pron_no_list` s parametrem `diff_pron`, ve které se zbavíte jednotlivých listů u výslovnostních variant. Spojte prvky listu do stringu. Např. slovo "are" tedy nebude vypadat jako `'are': [['AA1', 'R'], ['ER0']]`, ale jako `'are': ['AA1 R', 'ER0']`. Na výstupu zachovejte datový typ dictionary.

In [None]:
""" TO-DO """


**Úkol 21:** Nový dictionary uložte do proměnné a vypište.

In [None]:
""" TO-DO """


V tuto chvíli dictionary výsledek vypadá mnohem lépe, k ideálnímu výstupu nám už ale zbývá pouze jeden krok. Slova budeme vypisovat ve formátu `slovo: výslovnost1 | výslovnost2 | výslovnost3`. K tomu nám bude stačit jeden for cyklus, [metoda join](https://www.geeksforgeeks.org/python-string-join-method/) a tzv. [list comprehension](https://www.geeksforgeeks.org/python-list-comprehension/).

K tomuto kroku nemusíte vymýšlet kód, následující buňku pouze spusťte a podívejte se na výsledek.

In [None]:
for key, val in diff_pron_no_lst.items():
    print(key + ': ' + ' | '.join(w for w in val))

## 7. Slabiky

Z našeho pozorování u úkolu 4 víme, že čísla u jednotlivých fonémů značí přízvuk. Díky těmto číslům jsme ale kromě přízvuku schopni i odvodit počet slabik. V následující sadě úkolů napíšeme funkci vypisující počet slabik a poté ve slovníku vyhledáme lexikální jednotky, které mají výslovnostní varianty lišící se v počtu slabik.

**Úkol 22:**

1. Požádejte uživatele o zadání anglické věty. Vstup uložte do proměnné `sent3`,
2. normalizujte větu,
3. tokenizujte větu,
4. vytvořte dictionary s výslovnostními variantami, použijte funkci `pron_dict` nebo `pron_defdict` z řešení, dictionary dále nijak neupravujte.

Poznámka: Řešení používá funkci `pron_defdict`.


In [None]:
""" TO-DO """


Všimněte si, že pokud do samostatné buňky zadáte pouze proměnnou, po stisku klávesy Enter se daná proměnná vypíše.

In [None]:
sent3

Nyní máme větu předpřipravenou a můžeme napsat funkci `find_syllab`, která vyhledá počet slabik. Výsledky uloží do nového dictionary, kde klíč bude hledané slovo a hodnota bude list obsahující počet slabik ke každé výslovnostní variantě.

**Úkol 23:** 

1. Vytvořte funkci `find_syllab` s parametrem `sentence_dict`,
2. deklarujte nový dictionary `syllab` (použijte buď klasický dictionary nebo defaultdict),
3. projděte všechny key-value páry v dictionary `sentence_dict`,
4. u každé výslovnostní varianty zjistěte, kolik má slabik,
5. výsledek uložte do dictionary `syllab`, kde klíč bude slovo a hodnoty budou počet slabik, např. pro slovo "record" by tedy záznam v dictionary vypadal následovně: `'record': [2, 2, 2]`,
6. vraťte dictionary `syllab`.

In [None]:
""" TO-DO """


**Úkol 24:** Nový dictionary uložte do proměnné a vypište.

In [None]:
""" TO-DO """


V závislosti na vámi zvolené anglické větě můžete vidět počet slabik pro dané slovo, případně počet slabik pro každou výslovnostní variantu. S největší pravděpodobností tato čísla budou stejná, znamená to tedy, že dané slovo má pokaždé stejný počet slabik. Mohli bychom se ale ptát, zda existují i slova, u kterých se kromě výslovnosti liší i počet slabik u jejich výslovnostních variant. V následující funkci bude naším cílem zjistit, jestli se taková slova ve CMU Dict vyskytují.

**Úkol 25:** V další funkci budeme pracovat s proměnnou `entries`, kterou jsme deklarovali na úplném začátku tohoto notebooku. Proměnnou `entries` vypište a připomeňte si její strukturu.

In [None]:
""" TO-DO """


**Úkol 26:** Napište funkci `syllab_entries` s parametrem `entries`, která projde celý slovník CMU Dict, a každou lexikální jednotku uloží do datového typu dictionary ve formátu `'slovo': [pocetslabik1]`, čili pro slovo "record" bude struktura v dictionary vypadat jako: `'record': [2, 2]`. Na výstup vraťte celý dictionary.

In [None]:
""" TO-DO """


**Úkol 27:** Nový dictionary uložte do proměnné a vypište.

In [None]:
""" TO-DO """


**Úkol 28:** Vytvořte funkci `diff_syllabs` požadující parametr `syllabs`, která projde dictionary uložený do proměnné z předchozího úkolu a do datového typu list uloží pouze ta slova, jejichž výslovnostní varianty se liší v počtu slabik.

In [None]:
""" TO-DO """


**Úkol 29:** Výsledek uložte do proměnné a vypište ji.

In [None]:
""" TO-DO """


**Úkol 30:** Zjistěte, kolik slov, jejichž výslovnostní varianty se liší v počtu slabik, CMU Dict obsahuje.

In [None]:
""" TO-DO """


## 8. Jednoduché grafy

V posledním úkolu se naučíme, jak v Pythonu vygenerovat jednoduché grafy. Největší výhodou vykreslování grafů pomocí knihoven Pyhonu je využití proměnných jako hodnot. Grafy se tedy dají velmi jednoduše a rychle upravit pouze změnou proměnných.

Pracovat budeme s knihovnou Matplotlib. Naším úkolem bude vygenerovat jednoduchý koláčový graf. Využijeme základní funkce z [ukázkového grafu](https://matplotlib.org/stable/gallery/pie_and_polar_charts/pie_features.html#sphx-glr-gallery-pie-and-polar-charts-pie-features-py) na stránkách Matplotlib a pár vylepšení, díky kterým si budeme moct graf vizuálně upravit.

**Úkol 31:** Vytvořte koláčový graf, díky kterému uvidíte poměr slov, jejichž výslovnostní varianty se liší v počtu slabik, ku celkovému počtu slov ve slovníku.

Nejprve deklarujeme proměnné, které použijeme jako parametry k funkci, která generuje koláčový graf. Každá proměnná _musí_ být datového typu list.

- Do první proměnné `slices` uložte jednotlivé hodnoty grafu. První hodnota budou slova, jejichž výslovnostní varianty se liší v počtu slabik. Jako druhou hodnotu použijte celkový počet slov ve slovníku. Nezapomeňte ale slova s výslovnostními variantami odečíst od celkového počtu slov ve slovníku.
- Další proměnnou jsou `labels`. Vymyslete vhodné popisky pro hodnoty, do listu je uložte jako stringy.

In [None]:
""" TO-DO """


Pro nejjednodušší koláčový graf tyto dva parametry stačí. Graf můžeme nyní vykreslit. 

Na úplném začátku tohoto notebooku jsme si importovali matplotlib.pyplot jako plt. Jak již víme, Matplotlib je knihovna umožňující vytvářet grafy. Pyplot je rozhraní, pomocí kterého se grafy generují. Příkaz `import matplotlib.pyplot as plt` našemu programu říká, že budeme chtít generovat grafy pomocí pyplot z knihovny Matplotlib, ale že nechceme psát zdlouhavý název `matplotlib.pyplot`, proto ho zkrátíme pouze na `plt`. Pyplot má spoustu užitečných funkcí, nám však budou stačit tři nejzákladnější: [`figure`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.figure.html#matplotlib.pyplot.figure) (vytvoří nový obrázek), [`pie`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.pie.html#matplotlib.pyplot.pie) (koláčový graf) a [`show`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.show.html#matplotlib.pyplot.show) (zobrazení obrázku s grafem).

Funkci `figure` můžeme použít bez jakýchkoliv parametrů, pokud ale generujete vícero grafů v jednom programu, je vhodné je očíslovat. Naopak funkce `pie` potřebuje parametry, které jsme si předpřipravili v předchozí funkci. První parametr je nutné mít vždy pojmenovaný `slices`, u dalších parametrů (jako v našem případě `labels`) už specifikujeme, jak se proměnná obsahující popisky jmenuje. Pokud chceme graf zobrazit, použijeme funkci `show` s parametrem udávajícím číslo zobrazovaného grafu.

Následující buňku pouze spusťte.

In [None]:
plt.figure(1) #create a new figure
plt.pie(slices, labels=labels) #create a new pie chart with parameters slices and labels
plt.show(1) #show the figure

Pokud by se nám výsledný graf nelíbil, můžeme použít další funkce a parametry modifikující vzhled grafu. Nalézt je můžete v [pyplot dokumentaci](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.html#module-matplotlib.pyplot) a v [přehledu parametrů](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.pie.html#matplotlib.pyplot.pie) pro funkci pie.

Následující buňku pouze spusťte.

In [None]:
slices = [len(diff_words), len(entries)-len(diff_words)] #values
labels = ['Slova s výsl. variant. růz. slab.', 'Ostatní slova'] #value labels
colors = ['#FAD0C9FF', '#C7D3D4FF'] #colours of the slices
explode = [0, 0.5] #offset each wedge

plt.figure(2) #create a new figure
plt.pie(slices, labels=labels, colors=colors, explode=explode, autopct='%1.1f%%') #create a new pie chart
plt.title("Procentuální zastoupení slov, jejichž výslovnostní varianty se liší v počtu slabik ve CMU Dict") #title
plt.tight_layout() #adjust the padding around plots
plt.show(2) #show the figure

Můžete si vyzkoušet upravení grafu pomocí funkcí a parametrů použitých v předchozí buňce, popřípadě si najít další v dokumentaci. Použijte jiná data pro další grafy, neomezujte se pouze na dvě hodnoty. Projděte si různé typy grafů v [galerii](https://matplotlib.org/stable/gallery/index.html) a změňte koláčový graf na jiný typ.