<style> 
    code { font-family: Consolas, monospace; } 
    table { width: 100%; }
</style>

### C2184 Úvod do programování v Pythonu

# 5. Kolekce

## Kolekce

Jsou objekty, které obsahují strukturovaně více hodnot. 

Mezi základní typy kolekcí patří:

- **n-tice** (`tuple`) – soubor *n* hodnot s daným pořadím, `(1, 5, 1)`

- **seznam** (`list`) – upravovatelný soubor hodnot s daným pořadím, `[1, 5, 1]`

- **množina** (`set`) – upravovatelný soubor unikátních hodnot bez pořadí, `{1, 5}`

- **slovník** (`dict`) – upravovatelný soubor pojmenovaných hodnot, `{'x': 1, 'y': 5}`

Všechny kolekce jsou iterovatelné objekty.

## Seznam (`list`)

- **Upravovatelný** soubor hodnot **s daným pořadím**

- Vytváříme je:

  - pomocí `[]` z jednotlivých prvků
  
  - pomocí funkce `list` z jiného iterovatelného objektu

- Seznam lze modifikovat (narozdíl od řetězce): měnit, přidávat, odebírat prvky

- Používáme, když máme více obdobných objektů, např. seznam čísel, seznam studentů

- Nejčastěji používaný typ kolekce

In [None]:
numbers = [1, 2, 3, 4, 5]
numbers

In [None]:
numbers = []
numbers

In [None]:
letters = list('hello')
letters

In [None]:
numbers = list(range(5))
numbers

- Některé funkce vrací seznam

In [None]:
words = 'Prasátko Peppa'.split()
words

- Na pořadí záleží

In [None]:
[1, 2, 3] == [1, 2, 3]

In [None]:
[1, 2, 3] == [1, 3, 2]

### Indexování

- Jako u řetězců, počítáme zleva od 0, zprava od -1

In [None]:
numbers = [1, 2, 3, 4, 5]
numbers[2]

In [None]:
numbers[-1]

In [None]:
numbers[1:4]

In [None]:
numbers[:-2]

### Operace se seznamy

Podobné jako u řetězců

- `len` – délka

- `in, not in` – přítomnost prvku

- `.count` – počet výskytů prvku

- `.index` – první výskyt prvku

In [None]:
numbers = [1, 2, 5, 2]
len(numbers)

In [None]:
5 in numbers

In [None]:
numbers.count(2)

In [None]:
numbers.index(2)

- Sřetězení

In [None]:
[1, 2] + [5, 2, 8]

- Opakování

In [None]:
[1, 2] * 3

- Matematické operace `sum`, `min`, `max`

In [None]:
numbers = [1, 2, 5, 2]
sum(numbers)

In [None]:
min(numbers)

In [None]:
max(numbers)

- (Tyto operace fungují na všech iterovatelných objektech, pokud to typově dává smysl.)

In [None]:
sum(range(5))

In [None]:
min('hello')  # Minimum u řetězců = první v abecedě

- Logické funkce `all` (všechny prvky pravdivé) a `any` (aspoň jeden prvek pravdivý)

In [None]:
all([True, True, True, False])

In [None]:
any([True, True, True, False])

### Modifikace seznamů

In [None]:
numbers = [1, 2, 3, 4, 5]
numbers

In [None]:
numbers[2] = 8

In [None]:
numbers

### Přidávání prvků

- Metoda `.append(item)` přidá nový prvek `item` na konec seznamu

- Metoda `.insert(i, item)` přidá prvek `item` na pozici `i` (následující prvky se posouvají o 1 doprava)

In [None]:
numbers = [1, 2, 3]
numbers

In [None]:
numbers.append(4)

In [None]:
numbers

In [None]:
numbers.insert(2, 10)

In [None]:
numbers

- Metoda `.extend(iterable)` přidá na konec seznamu všechny prvky z jiného iterovatelného objektu

In [None]:
numbers.extend([1, 2, 3])

In [None]:
numbers

### Odebírání prvků

- Metoda `.pop()` odebere poslední prvek a vrátí ho jako výsledek

- Metoda `.pop(i)` odebere *i*-tý prvek a vrátí ho jako výsledek (následující prvky se posouvají o 1 doleva)

In [None]:
x = numbers.pop()
print(x)
print(numbers)

In [None]:
x = numbers.pop(2)
print(x)
print(numbers)

- Metoda `.remove(item)` odebere první výskyt prvku `item` (následující prvky se posouvají o 1 doleva)

In [None]:
numbers = [1, 2, 3, 4, 5]
numbers.remove(2)

In [None]:
numbers

- Metoda `.clear()` odstraní všechny prvky

In [None]:
numbers.clear()

In [None]:
numbers

### Změna směru

- Metoda `.reverse()`

In [None]:
numbers = [1, 2, 3, 0, 0]

In [None]:
numbers.reverse()

In [None]:
numbers

### Řazení

- Metoda `.sort()`

In [None]:
numbers.sort()

In [None]:
numbers

In [None]:
numbers.sort(reverse=True)

In [None]:
numbers

In [None]:
animals = ['pes', 'kočka', 'slon']
animals.sort()
animals

In [None]:
animals.sort(key=len)
animals

## n-tice (`tuple`)

- **Neupravovatelný** soubor *n* hodnot s daným pořadím

- Vytváříme je:

  - pomocí `()` z jednotlivých prvků

  - pomocí funkce `tuple` z jiného iterovatelného objektu

- n-tici nelze modifikovat

- Používáme, když jednotlivé prvky mají svůj specifický význam a není nutné přidávat/odebírat prvky, např. `address = (street, number, city)`

In [None]:
address = ('Vlhká', 5, 'Brno')
address

In [None]:
coordinates = (1.0, 2.5)
coordinates

In [None]:
animals

In [None]:
animals_tuple = tuple(animals)
animals_tuple

### Indexování n-tic

- Jako u řetězců a seznamů

In [None]:
address[0]

In [None]:
address[1]

In [None]:
address[2]

In [None]:
address[:2]

### "Nultice" (*empty tuple*)

In [None]:
empty = ()
empty

### "Jednice" (*singleton*)

In [None]:
singleton = (5,)  # Zápis n-tice s jedním prvkem
singleton

In [None]:
number = (5)  # Pouze zápis čísla v závorce
number

- Pozor na rozdíl mezi "jednicí" a samotným prvkem

In [None]:
(5,) == 5

### Operace s n-ticemi

- Jako u seznamů

In [None]:
address

In [None]:
len(address)

In [None]:
address.count(8)

In [None]:
address + address[::-1]

In [None]:
address * 3

## Množina (`set`)

- Upravovatelný soubor **unikátních** hodnot **bez daného pořadí**

- Vytváříme je:

  - pomocí `{}` z jednotlivých prvků
  
  - pomocí funkce `set` z jiného iterovatelného objektu

- Množinu lze modifikovat

- Každý prvek obsažen nejvíc jednou

- Nemá dané pořadí, tudíž nelze ji indexovat

In [None]:
colors = {'red', 'yellow', 'brown'}
colors

In [None]:
letters = set('hello')
letters

- Každý prvek je obsažen nejvíc jednou

In [None]:
{1, 1, 2, 2, 2, 3}

- Pořadí není dané

In [None]:
{1, 2, 3} == {3, 2, 1}

- Nelze indexovat

In [None]:
numbers = {1, 2, 3}
numbers[0]

- Prázdná množina se zapisuje `set()`, protože `{}` je rezervováno pro prázdný slovník

In [None]:
type(set())

In [None]:
type({})

### Množinové operace

- `len()` – počet prvků

- `in`, `not in` – přítomnost prvku (efektivnější než u seznamu, nemusí se kontrolovat všechny prvky)

In [None]:
A = {1, 2, 3}

In [None]:
len(A)

In [None]:
2 in A

In [None]:
5 in A

- `&`, `set.intersection()` – průnik $A \cap B$

- `|`, `set.union()` – sjednocení $A \cup B$

- `-`, `set.difference()` – množinový rozdíl $A \setminus B$

- `^`, `set.symmetric_difference()` – symetrický rozdíl $A \triangle B$

- `<=` – inkluze $A \subseteq B$

- `<` – ostrá inkluze $A \subset B$

In [None]:
A = {1, 2, 3}
B = {2, 4, 6}

In [None]:
A & B  # Průnik A ∩ B

In [None]:
A | B  # Sjednocení A ∪ B

In [None]:
A - B  # Rozdíl množin A - B (prvky A kromě prvků B)

In [None]:
A ^ B  # Symetrický rozdíl A ∆ B (prvky A kromě prvků B plus prvky B kromě prvků A)

In [None]:
A <= B  # A je podmnožinou B (A ⊆ B, tj. B obsahuje všechno z A)

In [None]:
A < B  # A je vlastní podmnožinou B (A ⊂ B, tj. B obsahuje všechno z A a ještě něco navíc)

### Přidávání prvků

- Metoda `.add(x)` přidá prvek `x`

In [None]:
A = set()
A.add(5)
A.add(6)
A

In [None]:
A.add(5)
A

### Odebírání prvků

- Metoda `.discard(x)` odebere prvek `x` (neudělá nic, pokud tam `x` není)

- Metoda `.remove(x)` odebere prvek `x` (skončí chybou, pokud tam `x` není)

In [None]:
A = set(range(5))
A

In [None]:
A.discard(2)

In [None]:
A

- Metoda `.pop()` odebere jeden libovolný prvek a vrátí ho jako výsledek

In [None]:
A

In [None]:
x = A.pop()
print(x)
print(A)

- Metoda `.clear()` odebere všechny prvky

In [None]:
A.clear()

In [None]:
A

## Slovník (`dict`, *dictionary*)

- Upravovatelný soubor dvojic **klíč:hodnota**

- Vytváříme je:

  - pomocí `{}` z jednotlivých dvojic klíč:hodnota
  
  - pomocí funkce `dict` z jiného iterovatelného objektu

- Slovník lze modifikovat

- Každý klíč obsažen nejvíc jednou

- Na pořadí nezáleží

- Indexujeme podle klíčů (ne podle pořadí)

In [None]:
en2cz = {'apple': 'jablko', 'carrot': 'mrkev'}
en2cz

In [None]:
my_vocabulary = {}  # Prázdný slovník
my_vocabulary

In [None]:
tuples = [('jack', 4098), ('sape', 4139), ('guido', 4127)]
phonebook = dict(tuples)
phonebook

### Indexování slovníku

- Pomocí klíče

In [None]:
phonebook

In [None]:
phonebook['jack']

In [None]:
phonebook['bob']

- Metoda `.get()` je jako `[]`, ale řeší i chybějící klíče 

In [None]:
print(phonebook.get('guido'))

In [None]:
print(phonebook.get('bob'))

In [None]:
print(phonebook.get('bob', 'number_not_found'))

### Testování přítomnosti klíče

- U slovníku se pomocí `in` dotazujeme na klíče (ne na hodnoty)

In [None]:
'jack' in phonebook

In [None]:
4127 in phonebook

In [None]:
4127 in phonebook.values()

### Přidání nebo úprava stávajících hodnot

- Pokud klíč není ve slovníku, přidá se a přiřadí se mu hodnota

- Pokud klíč je ve slovníku, stará hodnota se zahodí a přiřadí se nová

In [None]:
phonebook

In [None]:
phonebook['bob'] = 1234
phonebook

In [None]:
phonebook['guido'] = 666
phonebook

- Metoda `.update()` přijímá jako parametr další slovník, kterým upraví stávající 

In [None]:
phonebook.update({'guido': 1111, 'alice': 9876})
phonebook

### Odebírání hodnot

- Pomocí metody `.pop()` jako u seznamů

In [None]:
jacks_phone = phonebook.pop('jack')
print(jacks_phone)
print(phonebook)

- Metoda `.clear()` vyprázdní celý slovník

In [None]:
phonebook.clear()
phonebook

### Pořadí v slovníku

- Nezáleží na pořadí

In [None]:
{1: 10, 2: 20} == {2: 20, 1: 10}

- Slovník si pamatuje, v jakém pořadí byly klíče přidány (platí pouze od Pythonu 3.6)

In [None]:
print({1: 10, 2: 20})
print({2: 20, 1: 10})

## Homogenní a heterogenní kolekce, kolekce v kolekci

- *Homogenní kolekce* – hodnoty stejného typu, `[1, 2, 3]`

- *Heterogenní kolekce* – hodnoty smíšeného typu, `[1, 'ahoj', True]`

- Kolekce mohou v sobě obsahovat další kolekce

  - Výjimka: Klíče v slovníku a prvky množiny mohou být pouze nemodifikovatelné objekty.

In [None]:
[1, '2', 3.0, [4, 5], (6, 7)]

In [None]:
{'a': [(1,),(1,2)], 'b': [(2,3),(1,)], 'c': [(9,),(1,)], 'd':[]}

## Shrnutí

|          | n-tice  | Seznam  | Množina | Slovník          |
|:--------:|:-------:|:-------:|:-------:|:----------------:|
| Typ      | `tuple`  | `list` | `set`   | `dict` |
| Prázdná  | `()`     | `[]`    | `set()` | `{}` |
| S prvky  | `(1, 2, 3)`  | `[1, 2, 3]` | `{1, 2, 3}` | `{1: 10, 2: 20}` |
| Pořadí            | `✔` | `✔` | `✘` | `✘`nezáleží/`✔`drží |
| Duplikáty         | `✔` | `✔` | `✘` | `✘`klíč/`✔`hodnota |
| Modifikace        | `✘` | `✔` | `✔` | `✔` |
| Využití           | spojení hodnot se specifickým významem | obdobné objekty v pevném pořadí | obdobné objekty bez pořadí | asociace klíčů s hodnotami |
| Efektivní operace | `[]`           | `[]`, `append`, `pop`                                    | `in`, `add`, `discard`, `pop`         | `[]`, `in`, `pop`          |

## Další typy kolekcí

Další specializované typy kolekcí nabízí modul `collections`: 

- `namedtuple`

  - jako `tuple`, jednotlivé prvky lze pojmenovat (`address.street` místo `address[0]`)

- `defaultdict`

  - jako `dict`, chybějící hodnotu umí doplnit podle zadané factory funkce

- `Counter`

  - jako `dict`, vhodný k počítání různých typů něčeho

- `frozenset`
  
  - jako `set`, nemodifikovatelný

- `deque`
 
  - jako `list`, umí efektivně pridávat/mazat z obou stran

- ...

## Volba typu kolekce

Jaké typy kolekcí byste použili v těchto případech? Jaké budou typy hodnot (klíčů)?

- Každý den měříme teplotu vzduchu, chceme uložit naměřené hodnoty za celý měsíc.

- Měříme teplotu vzduchu 25.9. v Brně, Praze, Plzni a Ostravě.

- Ve třídě je několik studentů, u každého si chceme pamatovat jméno, příjmení a UČO.

- Vedeme si seznam zemí, které jsme navštívili.

- Čteme knihu a počítáme, kolikrát byla zmíněna každá z postav.

- Fakulta má několik ústavů, u každého si potřebujeme pamatovat jména zaměstnanců.

## Rozbalování (*unpacking*)

- Pomocí operátoru `*`

- Vytáhneme všechny prvky z iterovatelného objektu

In [None]:
numbers = [1, 2, 3, 4]
print(numbers)

In [None]:
print(*numbers)  # Stejné jako print(1, 2, 3, 4)

In [None]:
[0, numbers, 5, 6]

In [None]:
[0, *numbers, 5, 6]  # Stejné jako [0, 1, 2, 3, 4, 5, 6]

- Pomocí více proměnných na levé straně přiřazení

In [None]:
a, b, c, d = numbers
print('a:', a)
print('b:', b)
print('c:', c)
print('d:', d)

In [None]:
name, middle_name, surname = 'Karel Hynek Mácha'.split()
print('name:', name)
print('middle_name:', middle_name)
print('surname:', surname)

In [None]:
first, second, *rest, last = range(10)
print('first:', first)
print('second:', second)
print('rest:', rest)
print('last:', last)

## Procházení kolekcí

- Pomocí cyklu `for`

In [None]:
for prvek in {1, 2, 3, 2}:
    print(prvek)

### Procházení slovníků

- Přes klíče

In [None]:
phonebook = {'guido': 4127, 'jack': 4098}

In [None]:
for name in phonebook:
    print(name)

In [None]:
for name in phonebook.keys():
    print(name)

- Přes hodnoty

In [None]:
for phone in phonebook.values():
    print(phone)

- Přes klíče a hodnoty

In [None]:
for name, phone in phonebook.items():
    print(f'{name}: {phone}')

## Chytré procházení kolekcí

- Funkce `enumerate` očísluje prvky

In [None]:
names = ['Bob', 'Alice', 'Cyril']
for i, name in enumerate(names):
    print(f'{i}. {name}')

In [None]:
for i, name in enumerate(names, 1):
    print(f'{i}. {name}')

- Funkce `reversed` prochází od konce

In [None]:
for name in reversed(names):
    print(name)

- Funkce `sorted` prochází vytváří nový seřazený seznam

In [None]:
for name in sorted(names):
    print(name)

- Funkce `zip` prochází více objektů najednou

In [None]:
for name, letter in zip(names, 'XYZW'):
    print(name, letter)

- Pozor, funkce `enumerate`, `reversed`, `zip` nevytváří kolekci, pouze *iterátor* určen k jednorázovému projdění prvků

- `sorted` vrací normální seznam

In [None]:
iterator = reversed(names)
for name in iterator:
    print(name)

In [None]:
for names in iterator:
    print(names)

## Generátorové výrazy (*generator expression*)

- Pomocí `… for … in …` můžeme vytvářet a filtrovat kolekce

In [None]:
numbers = [1, 2, 3, 4, 5, 6]

In [None]:
[str(x) for x in numbers]

In [None]:
{i: i**2 for i in numbers}

- Filtrujeme přidáním `if`

In [None]:
{x for x in numbers if x % 2 == 0}

- Typ výsledné kolekce je dán typem závorek:

  - `[… for … in …]` – *list comprehension*

  - `{… for … in …}` – *set comprehension*
  
  - `{…: … for … in …}` – *dictionary comprehension*
  
  - Výjimka: `(… for … in …)` vytváří iterátor, nikoliv *n*-tici


In [None]:
(x for x in numbers if x >= 3)  # iterátor

In [None]:
tuple(x for x in numbers if x >= 3)  # n-tice

### Metoda `join`

- Opak `split`

- Spojuje prvky pomocí separatorů, funguje ale pouze na prvky typu `str`

In [None]:
' - '.join(['1', '2', '3'])

## Vytvoření nového objektu vs modifikace objektu

- Vytvoření nového objektu:

In [None]:
old = 'Spam spam spam.'
new = old.replace('spam', 'ham')
print('Old:', old)
print('New:', new)

In [None]:
old = [1, 8, 5, 2]
new = sorted(old)
print('Old:', old)
print('New:', new)

- Modifikace objektu:

In [None]:
old = [1, 8, 5, 2]
new = old.sort()
print('Old:', old)
print('New:', new)

In [None]:
old = [1, 8, 5, 2]
new = old.append(0)
print('Old:', old)
print('New:', new)

## Stejné objekty vs ten samý objekt

- Operátory `==`, `!=` testují, jestli jsou dva objekty stejné

- Operátory `is`, `is not` testují, jestli se jedná o ten samý objekt

- Dva stejné objekty:

In [None]:
a = [1, 2, 3]
b = [1, 2, 3]

In [None]:
a == b

In [None]:
a is b

In [None]:
a.append(4)
print('a:', a)
print('b:', b)

- Ten samý objekt:

In [None]:
a = [1, 2, 3]
b = a

In [None]:
a == b

In [None]:
a is b

In [None]:
a.append(4)
print('a:', a)
print('b:', b)

- Všechny modifikovatelné kolekce můžeme duplikovat pomocí metody `.copy()` (vytváříme tak nový objekt)

In [None]:
a = [6, 8, 3, 1]
b = a.copy()
a.sort()
print('a:', a)
print('b:', b)