MASARYKOVA UNIVERZITA

FAKULTA INFORMATIKY

Videoformáty, videokodeky

Bakalářská práce

Tomáš Závodný

podzim 2002

Prohlášení

Prohlašuji, že tato bakalářská práce je mým původním autorským dílem, které jsem vypracoval samostatně. Všechny zdroje, prameny a literaturu, které jsem při vypracování používal nebo z nich čerpal, v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj.

Vedoucí práce

unknown

Shrnutí

Obsah

Úvod

I. Videoformáty, videokodeky

1. Základní pojmy

Princip televizního přenosu obrazu

Prokládání

Rozlišení

Barva

Barevný formát YUV
Barevný formát RGB

Zachytávání videa, digitalizace

Digitální video formátu AVI, VCD, DVD, ...
DV, iLink, FireWire, IEEE 1394
Zachytávací karty, TV-karty, A/D převodníky

2. Komprese videa

Bezeztrátové kodeky

RAW
HuffYUV

Ztrátové kodeky

Indeo® Video 5.10
Microsoft H.261 a H.263
Microsoft Video 1
MJPEG
MPEG-1
MPEG-2
MPEG-3
MPEG-4
ASF, WMV
Quicktime
RealVideo
DivX 3.11a Alpha
DivX 4, DivX 5
XviD
DV

3. Komprese zvuku

Vzorkování zvuku

Zvukové kodeky

PCM
MP1 (MPEG1 - Layer 1)
MP2 (MPEG1 - Layer 2)
MP3 (MPEG1 - Layer 3)
Microsoft WMA
Další (AC3, Digital 5.1, DTS, ...)

4. Komprese videa

Bezeztrátové kodeky

RAW
HuffYUV

Ztrátové kodeky

Indeo® Video 5.10
Microsoft H.261 a H.263
Microsoft Video 1
MJPEG
MPEG-1
MPEG-2
MPEG-3
MPEG-4
ASF, WMV
Quicktime
RealVideo
DivX 3.11a Alpha
DivX 4, DivX 5
XviD
DV

5. Závěr

II. Praktická část

6. Zadání
7. Předběžný scénář

Přehled použitých informačních zdrojů

Seznam obrázků

1.1. Vykreslování lichých řádků na obrazovce televizoru
1.2. Prokládání - obraz obsahující liché a sudé řádky z jiného časového okamžiku
1.3. Televize: A -625 vykreslovaných řádků v systému PAL, B -přibližně jen 540 obsahuje obrazovou informaci
1.4. Vzorkování barevného formátu YUV 4:2:2

Seznam rovnic

1.1. Vzorce pro převod barevného formátu RGB na YUV
1.2. Vzorce pro převod barevného formátu YUV na RGB

Úvod

V dnešní době jsou již digitální kamery poměrně cenově dostupné, stejně tak není problém pořídit levný, ale zároveň výkonný počítač schopný nelineárního střihu videa v domácích podmínkách. Firmy vyrábějící videokamery se snaží podbíhat zákazníkovi a digitální videokamery prodávají jako kompletní balíčky obsahující kromě kamery také hardware a jednoduchý software na střih videa. Střih digitálního videa na počítači je již poměrně jednoduchý, ale problém může vyvstat při zachytávání, konverzi a exportu výsledného videa. Tato práce si klade za cíl přiblížit čtenáři právě různé formáty videa, ukázat problém několika video norem, ale především podat kompletní přehled o videokodecích a formátech pro uchování videa.

V první kapitole nastíním problém digitalizace analogového obrazu. Popíši různé způsoby a postupy sloužící k digitalizaci obrazu. Povíme si také něco o poměrně novém a prosazujícím se digitálním rozhraní Firewire. Obsahem druhé kapitoly je přehled nejvýznamnějších video kodeků jako je MJPEG, povíme si o kodecích z rodiny MPEG a v neposlední řadě představím několik kodeků vhodných pro stream videa, čili vhodné pro vysílání videa v reálném čase přes lokální sítě a internet. Jelikož už je to poměrně dost dlouhá doba, kdy byly filmy pouze němé, musím se také zmínit o kompresi zvuku, což bude obsahem třetí kapitoly. Výsledné video je potřeba nějakým vhodným způsobem archivovat a skladovat. Ve čtvrté kapitole se tedy zabývám formáty ve kterých lze vhodně ukládat video. Na závěr si zrekapitulujeme, co jsme si řekli o videokodecích, a zkusím odhadnout, jakým směrem se bude video dále ubírat.

V druhé praktické části popisuji průběh tvorby krátkého dokumentárního filmu SLT 2002.

Videoformáty, videokodeky

Kapitola 1. Základní pojmy

Nejdříve bychom si měli ujasnit, co vlastně pojem video znamená. Pod tímto pojmem si mnoho lidí představí přístroj na zaznamenávání televizních pořadů a pro přehrávání vypůjčených filmů třeba z videopůjčoven. V počítačovém světě si pod tímto pojmem zase většina lidí představí multimediální soubory s příponou AVI obsahující třeba prezentaci nějaké firmy. Obecně je video sekvencí obrázků rychle po sobě jdoucích tak, že vznikne pro diváka iluze pohybu. Samozřejmou součástí videa je zvukový doprovod pohybujícího se obrazu. Bylo zjištěno, že postačuje poměrně nízká snímková frekvence, aby došlo k iluzi pohybu. Nejdůležitějšími parametry pro video jsou především právě snímková frekvence, rozlišení a barevná hloubka. V této kapitole vysvětlím několik nejdůležitějších pojmů, bez kterých se v dalších kapitolách neobejdeme.

Princip televizního přenosu obrazu

Jiskrový výboj blesku trvá méně než 0,0001 sekundy, ale jeho klikatou čáru na obloze vidíme mnohem déle. Sítnice oka má totiž určitou světelnou setrvačnost trvající přibližně jednu desetinu sekundy, a tak vnímáme obraz blesku i v okamžicích, kdy již na sítnici žádné světelné paprsky nedopadají. Na světelné setrvačnosti sítnice oka je založeno i filmové promítání. Zachytíme-li pohybový děj na filmovém pásu rychostí 24 snímků za sekundu a takto získané snímky stejnou rychlostí promítáme, pak rychlé střídání jednotlivých obrazů vnímá naše oko jako plynulý pohyb. Přenos pohybových dějů televizí je založen na podobném principu. I v tomto případě zachycujeme pohyb snímací kamerou a pak promítáme na stínítko rychlostí 25 obrazů za sekundu. Na rozdíl od filmového promítání však tyto obrazy nepřenášíme najednou, ale po jednotlivých řádcích, a ty pak po jednotlivých bodech. V televizi pak paprsek elektronů vykresluje postupně všechny body v řádcích a takto všechny řádky, až je vykreslen celý obrázek.

Při skutečném televizním přenosu se pohyb paprsku rozdělí na 625 řádků, přičemž se používá tzv. prokládané řádkování, kdy se snímají nejdříve liché řádky a pak řádky sudé. Každý řádek se přitom skládá přibližně z 830 jednotlivých izolovaných bodů, takže celkový obraz je rozložen přibližně na 625x830=520 000 bodů. Přenesením těchto 520 000 bodů, bychom však vytvořili na obrazovce našeho televizoru jen jeden jediný nepohyblivý obraz trvající 0,04 sekundy. A protože k vytvoření pohybového vjemu musíme promítnout na stínítko obrazovky 25 obrazů za sekundu, znamená to, že každou sekundu musí paprsek elektronů vytvořit celkem 25x520 000 = 13 000 000 jednotlivých obrazových signálů.

U barevné televize je to ještě mnohem složitější, a proto její princip popíši jen velice zjednodušeně. Každou barvu lze rozložit na složky barev červené, zelené a modré. To je právě využito u barevné televize. V té jsou tři paprsky, každý pro jednu barvu. Tyto paprsky pak vykreslují celou obrazovku a na stínítku obrazovky je asi 400 000 trojúhelníčků, které se skládají vždy z červené, modré a zelené luminescenční vrstvy. Paprsky pak vždy podle intenzity rozsvěcují příslušné červené, modré a zelené body a ty pak vytváří patřičné barvy. Trinitronové obrazovky nemají barvy složené do trojúhelníčků, ale všechny trojice jsou vedle sebe v řadách.

Prokládání

Při promítání videa na televizních obrazovkách frekvencí 25 snímků za vteřinu bylo vypozorováno velmi nepříjemné blikání. To je způsobeno tím, že zatímco paprsek vykreslí na obrazovce bod vlevo nahoře a bod vpravo dole, uplyne nějaká určitá doba (přesně 0,04 sekundy), a dříve vykreslené body a řádky mezitím pohasínají. Takto vznikne nepříjemný efekt blikání, který se však vědcům podařilo omezit. Zvýší se frekvence zobrazovaných snímků za vteřinu a použije se jiného způsobu vykreslování snímků. Nejdříve se vykreslí všechny liché řádky snímku a sudé řádky se nevykreslují. Při dalším průchodu paprsku obrazovkou se již vykreslují sudé řádky snímku a zase se nevykreslují liché řádky. Zvýší se frekvence zobrazování na dvojnásobek, tedy na 50Hz (v normě PAL). Prakticky to znamená 25 půlsnímků s lichými řádky a 25 půlsnímků se sudými řádky.

Obrázek 1.1. Vykreslování lichých řádků na obrazovce televizoru

Zvýšením frekvence promítání, ale i snímání, je každá dvojice půlsnímku s lichými řádky a půlsnímku se sudými řádky z jiného časového okamžiku. Půlsnímky jsou totiž mezi sebou vzdáleny o 0,02 sekundy. Při promítání na televizi to ovšem není vůbec na škodu, ba naopak. Luminescenční stínítko v obrazovce totiž plynule pohasíná a to, že jsou půlsnímky z jiného časového okamžiku vůbec nevadí. Obraz plynule přechází z jednoho půlsnímku do druhého atd. Iluze pohybu na obrazovce je tedy mnohem dokonalejší, protože video bylo nasnímáno frekvencí 50 půlsnímků za sekundu. Jen pro doplnění se v americkém systému NTSC promítá na obrazovky frekvencí přibližně 60Hz, a to s 30 lichými a 30 sudými půlsnímky.

Promítání prokládaného videa na počítačích skýtá drobné problémy. Obrazovky monitorů jsou mnohem dokonalejší zařízení, než televizní obrazovky. Nejenže zvládají mnohem vyšší snímkové (obnovovací) frekvence (75, 85, 100, některé až 150Hz), ale také vykreslují celý obraz najednou. Zachytávací karty, ale i video z digitálních kamer ukládají video frekvencí 25 snímků za vteřinu a to tak, že zkombinují dva půlsnímky, jeden s lichými řádky a druhý se sudými řádky, do jednoho snímku. Při přehrávání obyčejným přehrávačem je přehrávání špatné, protože přehrávač zobrazuje 25 snímků za sekundu. Každý snímek ale obsahuje dva půlsnímky z jiného časového okamžiku a půlsnímky mohou být vůči sobě posunuty. Při přehrávání tedy dochází k nepříjemnému efektu proužkování.

Obrázek 1.2. Prokládání - obraz obsahující liché a sudé řádky z jiného časového okamžiku

Některé softwarové přehrávače naštěstí podporují přehrávání takto prokládaných videí. Důležité je také vědět, který půlsnímek je první, jestli je to půlsnímek s lichými nebo sudými řádky. Záleží totiž na zachytávacím hardware v jakém pořadí půlsnímky zachytává a kombinuje do složených snímků. Podle toho se pak snímky začínající lichými řádky nazývají „Field A“ nebo „Top first“ , nebo v druhém případě, když začíná půlsnímek se sudými řádky, pak „Field B“ nebo „Bottom first“ . Neprokládané snímky se pak nazývají „Progresive frames“ .

Jak jsem již naznačil, prokládání není pro výsledné přehrávání videa na počítačích vhodné, a proto existuje několik metod k odstranění prokládání. První metoda Bob spočívá v tom, že každý půlsnímek je vždy rozšířen na celý snímek (zduplikují se řádky) a promítá se celých 50 půlsnímků rozšířených na celé snímky. Metoda se nazývá Bob , protože při přehrávání může docházet k nepatrnému efektu - poskakování o jeden řádek nahoru a dolů. To je způsobeno tím, že půlsnímek obsahující liché řádky je zduplikován i na sudé řádky a naopak. Tento efekt je ale zanedbatelný. Další metoda Weave je vlastně obyčejné zobrazování 25 snímků složených vždy ze dvou půlsnímků. Při tomto způsobu zobrazování je při pohybech pozorovatelné rušivé proužkování, které je způsobeno zobrazením dvou půlsnímků, kde je každý z jiného časového okamžiku. Pro přehrávání na počítačích je tato metoda nevhodná. Další metoda Blending vychází z metody Weave . Existuje několik variant této metody. Nejjednodušší varianta zpracuje obraz tak, že zprůměruje vždy lichý a sudý řádek. Tímto se dva různé půlsnímky mezi sebou rozmažou a odstraní se tak rušivé proužkování. Nevýhodou pak je viditelné prolnutí dvou snímků. Jiná varianta metody nazývaná Blended clipping porovnává jasovou hodnotu bodů lichých a sudých řádků a pokud je rozdíl větší než nastavený limit, zduplikuje se bod z jednoho řádku do druhého. Jiná další varianta Motion blended clipping , která rozšiřuje předchozí metodu navíc porovnává rozdíly snímku s předchozím snímkem.

Pro výsledné přehrávání videa na počítačích se nejvíce hodí pravděpodobně metoda Blended clipping , případně metoda Bob . Samozřejmě existuje mnoho jiných způsobů pro odstranění prokládání. Liší se vždy svými výhodami, ale i nevýhodami.

Rozlišení

Rozlišení je dalším důležitým parametrem určující kvalitu zpracovávaného videa. V digitálním světě je rozlišení chápáno poněkud jinak než v analogovém světě. V analogových systémech byl dán pouze počet řádek, horizontální rozlišení pak bylo určeno frekvenční šířkou pásma. Signál s vyšší frekvencí, než je šířka pásma, již nelze zobrazit (přenést, uložit). Digitální obraz je proti tomu definován přesně, rozlišením v počtech bodů horizontálně a vertikálně, např. 352x288. Při převodu analogového videa na digitální pak záleží pouze na vzorkovací frekvenci, kolik bodů získáme. Takže informace o digitálním rozlišení analogového signálu je poměrně zavádějící.

Obrázek 1.3. Televize: A -625 vykreslovaných řádků v systému PAL, B -přibližně jen 540 obsahuje obrazovou informaci

Mezi digitálním a analogovým rozlišením je ale přesto pevně definovaný vztah. U DV formátu se postupovalo (zjednodušeně) takto: Analogové systémy používají 625 řádek, z nichž obraz obsahuje přibližně jen 540 řádek, takže vertikální rozlišení bylo ustanoveno na 576 řádků. V horizontálním směru potřebujeme dosáhnout stejné rozlišení jako v analogových systémech, tedy asi 830 bodů. Při vzorkování bychom tedy potřebovali minimálně dvojnásobek vzorků. Protože ideální rozlišení TV s nízkým zkreslením je přibližně 830 bodů na řádku a videokamery stejně většinou nepoužívají jako zdroj analogový signál (digitální CCD čip, jehož rozlišení je předem definované a nemůže tedy dojít k převzorkování), bylo zvoleno jako kompromis 720 bodů, tedy rozlišení 720x576. To odpovídá vzorkování analogového videa frekvencí 13,5MHz. V americké normě NTSC je použito rozlišení 720x480. Pro systém PAL se tedy používá rozlišení 720x576, kterému se také říká plný PAL. Zachytávací karty podporují také jiné rozlišení, především pak poloviční PAL, což je rozlišení 352x288. Toto rozlišení má poloviční počet řádků a vypadávají tak liché, či sudé řádky. Získáváme tedy poloviční snímkovou frekvenci pouze 25Hz. Taktéž v horizontálním směru máme poloviční vzorkovací frekvenci a to 352 bodů na řádek. Když si vezmeme rozlišení 720x576, tak velmi jednoduchým výpočtem dojdeme k tomu, že rozlišení není vůbec v poměru 4:3, což je poměr rozměrů šířky a výšky klasických televizních obrazovek. Proč tomu tak je? Vysvětlení je poměrně jednoduché. 576 řádků se na televizní obrazovce zobrazí jako 2x288 řádků (2 půlsnímky) a body na řádkách se pouze namodulují na širší pásmo, tedy se roztáhnou na celou šírku obrazovky. Obraz je tedy zobrazen v teoretickém rozlišení 768x576. U rozlišení 720x576 se říká, že má jinačí pixel aspect ratio, což je poměr stran jednoho zobrazovaného bodu. Konkrétně je to 1,0667:1 (768/720)

Barva

Barevné televize přišly až o několik desítek let později po černobílých televizích. To mělo za následek, že inženýři museli vyvinout systém, který by byl kompatibilní, aby bylo možné zobrazovat barevný obraz na černobílých televizích, samozřejmě černobíle, a naopak aby bylo možné přehrávat černobílé vysílání na barevných televizích, samozřejmě černobíle. Výsledkem byl systém při němž se dále vysílá jasová složka stejně jako u černobílých televizích a navíc pro barevné televize je barevná složka namodulována s dvakrát nižší šířkou pásma. Barevná informace má tedy dvakrát nižší rozlišení než jasová složka, a proto jsou velké kontrasty zatíženy i „arevnou duhou“ . Při střídajících se svislých pruzích v obraze je pak vidět barevné moiré. Toto není způsobeno nízkou kvalitou tuneru, vychází to z principu přenosu obrazu (a barevné složky). Je viditelné jak na televizní kartě v PC, tak na klasické televizi. Novější televizory vyšší cenové kategorie se snaží tyto nectnosti skrýt. Při pozorování normálního obrazu však vůbec nevadí, že obraz obsahuje 2x méně informací o barvě, protože lidské oko je mnohem citlivější na změnu jasu, než na změnu barvy.

Z tohoto také vychází základní formáty pro ukládání videa v počítačích. Před převodem do číslicové formy se nejprve oddělí jasová složka (Y) od barevné. Následuje převod pomocí rychlých A/D převodníků, každá složka zvlášť, přičemž barevné složky se vzorkují poloviční frekvencí než jasová, protože informace v signálu stejně není. Vetšinou se ještě používá oversampling, tedy vzorkování vyšší frekvencí než potřebnou a následná digitální úprava do požadované velikosti. Ve výsledku pak máme pro jeden snímek 576 řádků po 720 jasových a 360 barevných bodech, což odpovídá šířce pásma (rozlišení) normy PAL.

Máme tedy tři složky: jasovou Y a barevné U, V. Tomuto formátu se pak říká YUV. Existuje spusta možností, jak uložit tyto složky do paměti - po bodech (YUVYUVYUV...), po řádcích, po plochách atd. Zdigitalizovaný formát je vždy ve formátu YUV 4:2:2, význam tohoto číselného zápisu si vzápětí vysvětlíme. S těmito formáty se ale pracuje špatně, protože je nelze jednoduše sčítat, průměrovat apod., tedy editovat. Převádí se proto do formátu RGB, kdy se přepočítá jasová a barevné složky na známou trojici červená R, zelená G a modrá B. S tímto formátem již lze provádět výpočty, které jsou potřeba například pro počítání přechodových efektů, korekci barev atp. Převody mezi formáty RGB a YUV ale nejsou přesné a při převodech dochází ke ztrátě informace, a proto je třeba se vyhnout zbytečným několikanásobným převodům mezi těmito formáty.

Barevný formát YUV

Formát YUV se dělí do dvou skupin - packed a planar, lišící se uložením jasové a barevné složky v paměti. Formáty packed mají uloženy všechny složky YUV do tzv. makropixelů (shluk několika pixelů, např. 4) a jdou po sobě. Planar formáty mají uloženy všechny složky zvlášť, tvoří tedy tři virtuální plochy, které jsou ve výsledku složeny dohromady.

Obrázek 1.4. Vzorkování barevného formátu YUV 4:2:2

Pro formáty YUV se vžilo třičíselné označení, např. YUV 4:2:2. Udává vždy poměr mezi počtem barevné složky vůči jasové a někdy i počet bytů na makropixel (někdy se to ale nedodržuje). V tomto případě je poměr 4:2 a barevná složka tedy obsahuje polovinu bodů vůči jasové - na dva jasové body odpovídá pouze jeden barevný. Podobně YUV 4:1:1 obsahuje pouze čtvrtinu barevné složky oproti jasové a YUV 4:4:4 má rovnocenné kódovnání jasové i barevných složek a měla by tedy být kvalitnější, jenže se přepočítává z YUV 4:2:2 a žádná informace navíc zde tedy není (výhodné pouze pro zpracování).

Přehled formátů YUV packed

YUY2 (4:2:2, 16 bitů/bod) - makropixel obsahuje dva body v jednom 32 bitovém slově - 2x Y a 1xUV, spolu s UYVY nejpoužívanější
UYVY (4:2:2, 16 bitů/bod) - stejný jako YUY2, pouze s jiným sledem YUV složek
CYUV (4:2:2, 16 bitů/bod) - stejný jako UYVY, pouze řazení řádků naopak - spodní řádek nejdříve
V422 - stejný jako YUY2
Y41P (4:1:1, 12 bitů/bod) - makropixel obsahuje 8 pixelů ve 3 32-bitových slovech
Y41T - stejný jak Y41P, ale nejnižší bit složky Y značí průhlednost
Y42T - stejný jako UYVY, ale nejnižší bit složky Y značí průhlednost
YUVP (4:2:2, 24 bitů/bod) - jako YUY2, ale s vyšším počtem bitů na bod
UYVP (4:2:2, 24 bitů/bod) - jako UYVY, ale s vyšším počtem bitů na bod
Y211 (2:1:1, 8 bitů/bod) - sampluje pouze každé druhé Y a každé čtvrté UV
Y800 (8:0:0, 8 bitů/bod) - obsahuje pouze Y pro monochromatický obraz

Přehled formátů YUV planar

YV12 (4:1:1, 12 bitů/bod) - nejprve 8 bitů Y, následovaný 2x2 subsamplovaným UV v horizontálním i vertikálním směru, používá se u MPEG1/2
YVU9 (8:1:1, 9 bitů/bod) - nejprve 8 bitový Y následovaný 4x4 subsamplovaný UV
I420 (4:1:1, 12 bitů/bod) - nejprve 8 bitový Y následovaný 2x2 subsamplovaný UV
IYUV - shodný s I420
Y800 (8:0:0, 8 bitů/bod) - obsahuje pouze Y pro monochromatický obraz

Z přehledu formátů je vidět, že nejčastějšími a nejpoužívanějšími formáty jsou packed formáty s kódováním YUV 4:2:2 - a mezi nimi YUY2 a UYVY. Ty se také nejvíce používají pro harwarový overlay na grafických kartách. Overlay je buffer v paměti grafické karty, obsahující definici obrazu a dále je harwarově zpracován pro zobrazení (změna velikosti, jas, barevná korekce, transparence apod.), což ulehčuje procesoru při zobrazování. Pro overlay buffery se RGB formáty nepoužívají.

Barevný formát RGB

Barevný formát RGB je nativním barevným formátem v počítačích. Pro video se používá především kvůli jednodušší (oproti formátu YUV) aritmetice barev obrazu. Obsahuje tři barevné složky - červenou R, zelenou G a modrou B, které tvoří dohromady vždy jeden obrazový bod. Standardní (nejběžnější) barevný formát RGB má označení RGB24 a udává počet bitů na jeden obrazový pixel. 24bitů, tedy 8 bitů pro každou barvu (R, G a B). Samozřejmě existuje více RGB formátů, ale liší se buď jinačím pořadím barev, nebo jinačím počtem bitů na jeden obrazový bod.

Přehled formátů RGB

RGBx, kde x je z (1, 4, 8, 16, 24, 32). číslo udává počet bitů na 1 barevý bod. V případě RGB1 je obraz černobílý. RGB4 - 16 barev, RGB8 - 256 barev, atp.
RGBA, počet bitů 16 nebo 32. Podobně jako RGB, navíc je aplpha kanál

Rovnice 1.1. Vzorce pro převod barevného formátu RGB na YUV

Rovnice 1.2. Vzorce pro převod barevného formátu YUV na RGB

Zachytávání videa, digitalizace

Digitální video se pro zpracování v počítačích získává několika způsoby. Některé jsou, dá se říct nativní, jiné se zase do digitální podoby převádí digitalizací. Způsoby získávání digitálního videa lze rozdělit na dvě základní skupiny. Do první skupiny lze zařadit video již zdigitalizované, do druhé skupiny můžeme zařadit video, které teprve čeká na digitalizaci.

Digitální video formátu AVI, VCD, DVD, ...

Takovéto video máme již na dlani v digitální podobě. Jsou jimi např. video ve formátu AVI, film na Video CD (VCD), Super Video CD (SVCD), či třeba DVD. Toto video již lze jen zkopírovat do počítače na pevný disk a ihned s ním začít pracovat, stříhat a upravovat.

Výhody

video je již zdigitalizované, tedy žádná další ztráta kvality

Neýhody

DVD - může být chráněné šifrováním. Záznam, který sami nahrajeme ale nešifrujeme.
VCD, SVCD - z důvodu menšího počtu opravných kódů používaných na médiích VCD a SVCD se nemusí podařit video získat zpět v nezměněné nebo nepoškozené formě. Prakticky se to spíš málo kdy podaří.
všechny formáty - pokud je video v nízké kvalitě, v nízkém rozlišení nebo s nízkým počtem snímků za sekundu, již nelze nijak zlepšit.
VCD, SVCD, DVD a AVI může mít nízký počet klíčových snímků, což je nevhodné pro střih, nicméně použitelné.

DV, iLink, FireWire, IEEE 1394

Digitální kamery (Digital8, MiniDV, DV)jsou v dnešní době špičkové zařízení, které ukládají na nějaké médium video v digitální podobě DV. Avšak neukládá se čistě nekomprimovaně z důvodu vysokého datového toku. Ke kompresi obrazu se používá tzv. algoritmus DCT (diskrétní kosínová transformace ) při němž se dosáhne přesného kompresního poměru 5:1 a datového toku 25Mbit/s. Není to vlastně ani tak komprese, jak způsob kódování obrazu. Obraz je ve formátu YUV 4:2:0. Zápis 4:2:0 je poněkud zavádějící. Znamenalo by to 4xY, 2xCr a 0xCb, tedy ztracená barevná informace Cb. Funguje to ovšem poněkud jinak. Podle zjištění, systému PAL lépe vyhovuje rovnoměrné vzorkování barevné složky ve vertikálním i horizontálním směru. Jasová informace je vzorkována standartním způsobem, informace Cr se vzorkuje každý lichý řádek a informace Cb se vzorkuje zase na sudých řádcích, každé s poloviční frekvencí vůči jasové složce. Vzorec 4:2:0 ovšem vyjadřuje pouze vzorkování v horizontálním směru.

Jistě si lze také všimnout několika spolu existujících formátů, jako je MiniDV, DVCAM, DVCPRO, Digital8. Jsou to různé formáty od různých firem, přesto všechny tyto formáty používají stejné kódování obrazu, tedy DV kompresi. Rozdíl je pouze v používaném médiu. Formáty DVCAM a DVCPRO jsou určeny pro poloprofesionální až profesionální využití a liší se tedy kvalitou a odolností úložného média. Jinak je to ale se systémem D-9 a DVCPRO50. I tyto systémy používají klasickou DV kompresi, ale používají současně (paralelně) dva kodeky. Datový tok je pak dvojnásobný, ale i kvalita je vyšší.

Význam digitálního záznamu je samozřejmý. Vlivem stárnutí, či přehrávání nedochází absolutně k žádné ztrátě kvality, vyjma případu, kdy dojde k poškození úložného média. Samotné digitální kamery by však ztrácely význam, pokud by nebylo možné pořízený video záznam nějakým způsobem dostat do počítače k dalšímu zpracování. Jako rozhraní pro komunikaci osobních počítačů s digitálními kamerami bylo vybráno rozhraní Fire Wire, u jehož zrodu stály firmy Apple a Hewlet Packard. Rozhraní bylo později patentováno pod označením IEEE 1394, přesto některé firmy označují rozhraní po svém, např. firma Sony jej nazývá rozhraní iLink. Rozhraní Fire Wire má vysokou podporu v hardware. Podporuje systém Plug and Play, a připojení k jednomu portu až 73 zařízení, jako jsou pevné disky, digitální kamery, digitální fotoaparáty, skenery a jiné multimediální zařízení. Rozhraní bylo navrženo pro vysoké datové toky a dosahuje rychlosi 400Mbit/s. Klasické amatérské digitální kamery mají konstantní datový 25Mbit/s, takže je vidět dostatečná předimenzovanost. Přehrání záznamu z videokamery do počítače, či jiného zařízení pracující s digitálním videem se pak děje 1:1. Tudíž se celý záznam přenese bez ztráty jakékoliv informace.

Rád bych zde zmínil důležitý fakt. Některé digitální videokamery obsahují funkci průchozího A/D a D/A převodníku. Tato funkce je, dle mého názoru, asi nejlepší způsob, jak lze získat digitální kopii analogového záznamu s nejmenší ztrátou kvality. Převodníku na vstup přijde buď kompozitní nebo SVHS propojením analogový signál, převodník jej převede a na výstupu je již 25Mbitový proud záznamu v DV formátu. Přes kameru lze takto zdigitalizovat třeba nahrávky ze starší videokamery, či nahrávky z VHS nebo S-VHS videa.

Výhody

video je již zdigitalizované v DV kodeku, tedy žádná další ztráta kvality
konstantní 25Mbit datový tok

Nevýhody

poškození obrazu v případě poškození úložného média - pásky
přesně definovaný formát DV 720x576 4:2:0 neumožňuje záznam v jiné (vyšší) kvalitě. Nové digitální HD (High Definition) kamery budou mít vyšší rozlišení až 1920x1080

Zachytávací karty, TV-karty, A/D převodníky

Zachytávací karty a TV-karty jsou zařízení obsahující A/D převodník, který provádí převod analogového signálu do jeho digitální podoby. Většinou také karty, určené pro polo-profesionální využití, obsahují čip provádějící hardwarovou kompresi obrazu. Nejčastěji se používá hardware M-JPEG komprese, protože je vhodná pro střih, ale existují i karty provádějící MPEG1 a MPEG2 hardwarovou kompresi. Nevýhodou často bývá těsná svázanost zdigitalizovaného videa s hardwarovou kartou. Softwarová část kodeku bývá totiž vázána na detekci hardware a nelze takto zachycené video přehrát v jiném počítači. Řešením je konverze do jiného a kompatibilnějšího formátu. Na druhou stranu může softwarová část kodeku využívat hardware i k jiným účelům. Různé převody obrazu, aplikované efekty, korekce barev mohou být hardwarově urychlované a převod videa pak může být mnohonásobně rychlejší, než při použití slabého procesoru k náročným výpočtům.

Výhody

digitalizace z jakéhokoliv analogového zdroje
možný výběr kompresoru, rozlišení, snímkové frekvence a datového toku

Nevýhody

v případě použití kompresoru bez hardwarové podpory vysoké zatížení procesoru
kvalita obrazu amatérských zachytávacích karet není nijak úžasná

Kapitola 2. Komprese videa

Video, jak jsem si již řekli, je sekvence po sobě jdoucích obrázků. My bysme chtěli toto video ukládat do počítače, abychom jej mohli dále zpracovávat, sestříhat střihovým programem, a výsledek pak exportovat do nějakého vhodného formátu, ať už pro vysílání přes internet, či k promítání v DVD přehrávači. Surové video by ale bylo poměrně velké. Mějme rozlišení 720x576 v barevném formátu RGB (což je standartně 3x8bitů, tedy 3 bajty na jeden obrazový bod) a snímkovou frevenci 25Hz. Pak jednoduchým výpočtem zjistíme, že k uložení jedné sekundy videa potřebujeme 720x576x3x25 = 31nbsp104 000 bajtů. Současné pevné disky počítačů tak tak dosahují takovéto přenosové rychlosti. Pokud si vezmeme 80GB disk, pak bysme tento disk zaplnili přibližně nahráním 42 minut videa. To není příliš a navíc by nezbylo žádné místo k samotnému zpracování videa. Odtud tedy plyne potřeba video komprimovat a používají se k tomu tzv. kodeky (KOmpresor + DEKompresor). Kodek je tedy nějaký mechanismus, který snímky daného videa zakóduje do menší podoby a při přehrávání videa jej zase dekóduje již v reálném čase. Kodeky můžeme dále rozdělit na ztrátové a bezeztrátové. Bezeztrátové kodeky mají tu výhodu, že video neztratí žádnou informaci. To je ale vykoupeno nízkým komprimačním poměrem, většinou se poměr komprese pohybuje 1:2. Ztrátové kodeky naopak využívají toho, že obraz nemusí být naprosto dokonalý, dokonce může být zkreslený, až drasticky. Různé kodeky se dále liší kvalitou, rychlostí a výslednou velikostí komprimovaného videa, která je většinou v poměru k nekomprimovanému originálu 1:4-1:100. Nyní si uvedeme přehled těch nejdůležitějších kodeků.

Bezeztrátové kodeky

RAW

RAW není vlastně žádný kodek, ale již zmíněný nekomprimovaný formát. Pro plný PAL (720x576) má datový tok 31,1 MB/s, pro poloviční PAL (352X288) má datový tok 7,6 MB/s

HuffYUV

Tento kodek komprimuje video s použítím Huffmanova kódování. V nejlepším případě komprimuje až na 40% původní velikosti. Zvládá kompresi obrazu v barevném formátu RGB i YUV, je velmi rychlý a je zdarma.

Ztrátové kodeky

Indeo® Video 5.10

Tento kodek byl vyvinut společností Intel. Má poměrně dobrou kvalitu obrazu. Lze nastavit, aby každý snímek byl klíčový. Při nastavení kvality na 100% je výsledný obraz téměř k nerozeznání od nekomprimovaného.

Microsoft H.261 a H.263

H.261 je standard pro videokonference a videotelefonii přes ISDN. Umožňuje regulovat tok dat v závislosti na propustnosti sítě. Přenos dat je 64kbit/s nebo 128kbit/s (dva kanály ISDN). Kodek H.263 implementuje vyšší přesnost při pohybu než H.261. Jeho použití je pro monitorovací systémy a pro videokonference s velkou obrazovkou.

Microsoft Video 1

Tento kodek je standardní součástí všech operačních systémů firmy Microsoft od verze Windows 95. Kvalitou výsledného obrazu je ovšem velice špatný. I při nastavené 100% kvalitě je pozorovatelné čtverečkování a jiné nepříjemné vady v obraze. Kodek je navíc poměrně pomalý a takto zakódované video je dokonce větší než stejné video zakomprimované bezeztrátovým kodekem HuffYUV!

MJPEG

Kompresní kodek MJPEG (Motion JPEG) je založen na kompresi jednotlivých snímků použitím komprese JPEG. Tento kodek má většinou volitelný kompresní poměr v rozmezí 6:1 do 16:1. Při kompresním poměru 1:8 je kvalita obrazu stále ještě velmi dobrá a datový tok se pohybuje kolem 4 MB/s a dosahuje tak dobrého poměru kvalita/velikost. Velikou předností tohoto kodeku je, že každý snímek je komprimován samostatně a je tedy vždy klíčový. Proto je tento kodek velmi vhodný pro střih videa na počítači. Zároveň je implementován hardwarově v mnoha polo-profesionálních zachytávacích kartách a zachytávání pak funguje bezproblémově i na velmi pomalých počítačích ( stačí CPU 300MHz). Častou nevýhodou takto hardwarově implementovaného kodeku je nemožnost přehrát zachycené video na jiném počítači bez tohoto hardware. Softwarový kodek komprimující video kodekem MJPEG je například PICVideo MJPEG Codec.

Výhody

každý snímek je klíčový, ideální pro střih
bývá implementován hardwarově
podpora prokládaného obrazu
poměrně vysoká kvalita obrazu
bývá implementován hardwarově

Nevýhody

vysoké zatížení CPU
velký datový tok

MPEG-1

MPEG je zkratkou pro Motion Pictures Experts Group. Cílem práce této skupiny bylo standardizovat metody komprese videosignálu a vytvořit oteveřenou a efektivní kompresi. Formát MPEG-1 byl dokončen v roce 1991 a jako norma přijat roku 1992 - ISO/IEC-11172. Byl navržen pro práci s videem o rozlišení 352x288 bodů a 25 snímků/s při datovém toku 1500kbit/s. Parametry komprese MPEG-1 jsou srovnávány s analogovým formátem VHS. Formát MPEG-1 se stal součástí tzv. „White Book“ , což je definováno jako norma pro záznam pohyblivého obrazu na CD (74 minut videa).

MPEG komprese používá ke kompresi videa I, P a B snímky. I snímky (Intra Pictures) jsou snímky klíčové, jsou komprimovány obdobně jako MJPEG, ale navíc s možností komprimovat různé části obrazu různým stupněm komprese. P-snímky (Predicted Pictures) jsou kódovány s ohledem na nejbližší předchozí I nebo P-snímek. B-snímky (Bidirectional Pictures) jsou pak dopočítávané jako rozdílové snímky mezi nejbližším předchozím I nebo P-snímekm a nebližším následujícím I nebo P-snímkem. Celá sekvence snímků (od jednoho I po další I snímek) se pak nazývá GOP (Group of Pictures) a standardní MPEG stream pro VCD, SVCD a DVD používá pořadí IBBPBBPBBPBBPBBPBB. Přesto MPEG standard neurčuje žádná pravidla a omezení pro vzdálenost I a P snímků. Komprese navíc umožňuje kdykoliv ukončit GOP a předčasně tak použít další sekvenci GOP začínající snímkem I. Toto vede především ke zlepšení kvality videa. Komprimované video obsahující proměnlivé vzdálenosti mezi klíčovými snímky se pak nazývá VKI (Variable Keyframe Interval). Počet I, P a B snímků lze většinou nastavit, záleží na implementaci kompresoru. Z pohledu zabíraného místa pak I snímky zabírají nejvíce místa, po nich jsou P snímky a úplně nejméně místa zabírají snímky B. Komprese MPEG-1 se nehodí pro střih videa z důvodu vzdálených klíčových snímků. Většina střihových programů však umožňuje export do formátu MPEG-1. Tento kodek je totiž jeden z nejrozšířenějších formátů a lze jej softwarově přehrát téměř na každém počítači a stejně tak na 95% všech stolních DVD přehrávačích. Tento formát lze také streamovat. Bohužel v dnešní době je již tento kodek zastaralý, přesto je to nejkompatibilnější formát. Co se týče kvality je v porovnání s jinými kodeky na tom poněkud hůře, protože abysme dosáhly dobré kvality obrazu, potřebuje mnohem více bitů na kompresi než u jiných kodeků (DivX, XviD)

Výhody

vysoká podpora přehrávačů softwarových i hardwarových, kompresor i dekompresor je zdarma
používá se pro Video CD
vhodný i pro stream videa

Nevýhody

nepodporuje prokládané snímky
nízká kvalita při nízkém datovém toku
jen konstantní datový tok
nevhodný pro střih

MPEG-2

Po dokončení MPEG1 standardu jej začali lidé používat, a snažili se jej používat i na vyšší rozlišení. Narazili ale na několik problémů, kvůli kterému byl MPEG1 nepoužitelný. Komprese MPEG1 zvládá komprimovat pouze celé snímky. Nepodporuje však kompresi snímků prokládaných. Formát MPEG-2 byl dokončen v roce 1994 a stal se standardem pro kompresi digitálního videa. Byl navržen tak, aby dosahoval vysílací kvality videa. Oproti MPEG-1 přináší komprese MPEG-2 podporu pro prokládané snímky, tedy půlsnímky. Dále proměnlivý datový tok, což umožňuje v náročnějších scénách videa použít více bitů pro kompresi a naopak v klidnějších scénách se použije méně bitů. Samozřejmě dále podporuje i konstantní datový tok.

Při stejném datovém toku a plném rozlišení (720x576) dosahuje MPEG2 mnohem vyšší kvality obrazu než MPEG1 komprese. Nevýhodou komprese MPEG2, je na druhou stranu velmi vysoké zatížení procesoru při přehrávání, a prakticky žádný rozdíl v kvalitě oproti MPEG1 kompresi při nízkých rozlišeních. Pro streamování v nízké kvalitě je tedy vhodnější komprese MPEG1, zatímco pro plné rozlišení a vysoké datové toky zase MPEG2.

Výhody

používá se pro SVCD, DVD
používá se pro digitální vysílání (DVB - Digital Video Broadcast)
Vysoká kvalita při vysokém datovém toku (6Mbit/s a více)
podpora proměnlivého datového toku

Nevýhody

pro osobní počítače nutnost hardware či software přehrávače, při softwarovém přehrávání je vysoké zatížení procesoru
nízká kvalita při nízkém datovém toku
nevhodný pro střih

MPEG-3

Pro HDTV (High Definition TV) měl být určen MPEG-3. Jeho vývoj byl ale zastaven, protože pro požadavky HDTV plně postačuje formát MPEG-2.

MPEG-4

MPEG-4 byl vyvinut opět společností Motion Picture Experts Group. Není to již přesná definice komprese a komprimačních algoritmů, nýbrž je to množina parametrů a vlastností, které musí kompresor splňovat, aby byl MPEG-4 kompatibilní. Známe tedy různé implementace MPEG-4, které vybírají z definice MPEG-4 vždy to, co je pro daný formát vhodnější. Kodeky využívající způsoby komprese MPEG-4 jsou např. Microsoft MPEG-4 v1, v2 a v3, DivX 4, DivX 5, XviD a další

ASF, WMV

Firma Microsoft si všimla úspěchů na poli streamovaného videa, kterých dosahovali společnosti Apple a RealNetworks svými formáty Quicktime, MOV a RM, a vyvinula vlastní formát ASF (Advanced Streaming Format), určený především pro stream videa. ASF je formát i komprese, vychází z formátu AVI a dovoluje použít pouze kompresi Microsoft MPEG4. Firma Microsoft uvedla i formát WMV, který je novější verzí ASF. Komprese ASF částečně implementuje MPEG4, nepodporuje totiž B-snímky.

Výhody

vhodný pro stream

Nevýhody

uzavřenost formátu, nemožnost využití jinými programy než firmy Microsoft, zakázáno převádění do jiného formátu z formátu ASF
maximální rozlišení 352x288; kompresor zahazuje snímky aby dodržel datový tok; formát doplňuje soubor ASF o nadbytečné data, aby udržoval konstantní datový tok proudu, čímž se zvětšuje velikost celkového souboru až o 25% oproti přímé kopii video proudu

Quicktime

Quicktime je formát vyvinutý firmou Apple, který byl v dřívější době, kdy mu nekonkuroval MPEG velmi zajímavý a používaný. Je přenositelný mezi PC a Macintosh platformami, používá kompresi 5:1 až 25:1. Dnes se používá například na prezentačních CD a pro video streaming. Přesto v dnešní době již tento formát netrhá žádné rekordy a nelze jej příliš doporučit pro použití v praxi. Nutný je také přehrávač, který ale není součástí operačních systémů, a je tedy nutné si jej z webových stránek firmy Apple stáhnout. Také firma Apple tvrdí, že Quicktime je plně kompatibilní MPEG4 kodek, ale v přehrávači Quicktime verze 6.0 nebylo možné přehrát opravdový MPEG4 stream.

RealVideo

Real Video a Real System G2 jsou formáty komprese vyvinuté firmou Real Networks. Má podobné vlastnosti jako Quicktime, ale je více zaměřen na kompresi streamovaného videa.

DivX 3.11a Alpha

DivX 3.11a Aplha je nelegální a upravená verze kodeku ASF MS-MPEG4v3. Microsoft v beta verzi tohoto kodeku umožňoval ukládání videa do formátu AVI, ale ve finální verzi toto zakázal. Přesto se jednomu počítačovému pirátovi podařilo upravit finální kodek tak, aby umožňoval dále kompresi do formátu AVI. Vznikem tohoto nelegálně upraveného kodeku byly také odstraněné některé špatné vlastnosti kodeku ASF. Již nebylo omezeno maximální rozlišení na 352x288.

Tento kodek, přestože je nelegální, zahýbal světem digitálního videa na počítačích. Na 1CD se jeho pomocí podaří uložit až 1 hodina filmu ve velmi uspokojivé kvalitě. Snížením datového toku lze samozřejmě nahrát více, ale na úkor kvality. V dnešní době je ale tento nelegální kodek již překonán a není tedy důvod jej nelegálně používat.

DivX 4, DivX 5

Skupina lidí majících prsty v upraveném kodeku DivX 3.11 Alpha se rozhodla vytvořit vlastní kodek. Z výchozího projektu nazvaný OpenDivX vyšla první verze nazvaná DivX 4, která byla sice dostupná i se zdrojovými kódy, ale kvalita kodeku nedosahovala kvalit kodeku DivX 3.11a. Kodek DivX 4 podporuje několik variant komprese. Jednoprůchodová s daným datovým tokem, jednoprůchodová s danou kvalitou a dvouprůchodová. První zmíněná varianta komprese se snaží při kompresi videa dodržet daný datový tok. Mnohdy jej ale nedodrží a vytvoří kódované video mnohem větší než předpokládané. Varianta komprese s danou kvalitou pak komprimuje tak, aby kodek dosáhl dané konstantní kvality. Nevýhodou je nepředvídatelná velikost souboru. Poslední varianta je dvouprůchodová komprese. Provádí se dvěma průchody komprimovaného videa. Při prvním průchodu se analyzuje komprimované video a zapisují se získané informace do logovacího souboru. Při druhém průchodu se využívá informace z prvního průchodu a efektivněji se využívá datový tok. Pro scény s vyšší Komprese DivX 4 používá I a P snímky. Podporuje také proměnlivou vzdálenost I-snímků (VKI).

Verze DivX 5 kodeku

DivX 5.0.2 Standard - standardní verze, která je zdarma. Neobsahuje všechny vymoženosti plné verze
DivX 5.0.2 Pro GAIN - plná verze, která do počítače nainstaluje software pro zobrazování internetových reklam.
DivX 5.0.2 Pro - plná verze, bez reklam. Cena 30 USD

DivX 5 má integrované některé nástroje/filtry v sobě a umožňuje tak přímo při kompresi změnit rozměry obrazu, aplikovat filtr rozprokládání, ořezat obraz a jiné. Dále implementuje algoritmy pro zvýšení komprese využitím tzv. psychovizuálního modelu. Při něm se dosahuje lepší komprese bez znatelné ztráty kvality a to díky znalostem o lidském vizuálním systému. Implementuje obousměrnou kompresi, tedy B-snímky. Dále tzv. globální kompenzaci pohybu, což je algoritmus, který optimalizuje kompresi pro panorámování, roztmívání obrazu, přibližování, náhlé změny jasu (exploze), stagnující plochy (voda) a další. Kodek také umí export čistě do MPEG-4 formátu a konverzi mezi ním a AVI formátem. Jak je vidět kodek DivX 5 toho přinesl poměrně dost, ale jeho nevýhodou je placená/reklamová plná verze.

Výhody

vysoká kvalita videa při nízkém datovém toku
lze použít jakékoliv rozlišení dělitelné 4 až do 1920x1088
pokročilé kompresní techniky
podpora barevných formátů YUV a RGB
MPEG-4 kompatibilní

Nevýhody

vysoké zatížení CPU
přehrávatelné jen na osobních počítačích

XviD

V momentě, kdy se OpenDivX stal uzavřeným, se toto nelíbilo některým programátorům pracujícím na OpenDivXu, vzali si zdrojové kódy, ještě otevřeného OpenDivXu, a začali vyvíjet vlastní verzi kodeku nazvanou XviD. XviD je opět MPEG-4 kompatibilní kodek a implementuje mnoho vlastností MPEGu 4, bohužel zatím nepodporuje obousměrné kódování (B-snímky). Kodek XviD obsahuje mnoho nastavení a k dosažení kvalitního výstupu je potřeba vědět o tomto kodeku opravdu hodně a správné nastavení kodeku je poměrně obtížné. Také umí produkovat MPEG-4 kompatibilní datové proudy.

Výhody

kodek je zdarma
vysoká kvalita videa při nízkém datovém toku
lze použít jakékoliv rozlišení dělitelné 4 až do 1920x1088
velké množství nastavení kodeku
podpora barevných formátů YUV a RGB
MPEG-4 kompatibilní

Nevýhody

vysoké zatížení CPU
přehrávatelné jen na osobních počítačích

DV

Dlouho jsem váhal, kam zařadit tento kodek. V mnoha pramenech se píše, že je to kodek bezeztrátový, realita je ovšem jiná. Aby dosáhl v minulé kapitole zmíněného konstantního poměru 5:1, tak dochází ke ztrátě informace. Přesto je kompresní algoritmus velmi dokonalý a obraz lze srovnávat s kompresemi bezeztrátovými.

Výhody

každý snímek je klíčový
vysoká kvalita obrazu srovnatelná s profesionálními zařízeními

Nevýhody

velký datový tok

Kapitola 3. Komprese zvuku

Video bývá téměř vždy doplněno zvukovou stopou - doprovodem. Nekomprimovaný zvuk má také velmi vysoký datový tok. Ten je třeba také komprimovat. Ke kompresi zvuku se používají různé zvukové kodeky.

Vzorkování zvuku

Abychom mohli se zvukem pracovat v počítači, je třeba ho převést do digitální formy. Jak jistě víme, zvuk se skládá z vln u nichž se rozlišuje frekvence a amplituda. Amplituda udává sílu (hlasitost) zvuku, a frekvence udává výšku tónu. Převod zvuku do digitální podoby se děje vzorkováním. Na vstupu zvukové karty je A/D převodník, který velmi často (např. 44100Hz) snímá úroveň vlny a převádí ji do číselné podoby. Takto se v počítači získá zvuk ve formátu PCM, což je pulzní kódová modulace. Kvalita digitálního zvuku je pak určena vzorkovací frekvencí a rozsahem hodnot zaznamenávané amplitudy vlny. Lidské ucho se spokojí se vzorkovací frekvencí 44100Hz a rozsahem 65536 hodnot, tedy 16 bit.

Zvukové kodeky

PCM

PCM, jak jsme si již řekli, ukládá zvuk nekomprimovaně. Toto lze použít pouze pro nahrávání, kvůli svému velkému objemu se nehodí na archivaci.

MP1 (MPEG1 - Layer 1)

Tento kodek se přestal používat, pro nízkou kvalitu zvuku a vysoký datový tok.

MP2 (MPEG1 - Layer 2)

MP2 nahradilo MP1. Kodek se používá ke kompresi zvuku ve formátech MPEG1, MPEG2, VCD, SVCD, DVD. Pro uložení stereo zvuku se používá konstantní datový tok 224kbit/s a vzorkovací frekvence 32-48kHz. Kódování do tohoto formátu zvládají všechny programy implementující export do MPEG1 nebo MPEG2 formátu. Samostatnou aplikaci pro kódování do MP2 lze nalézt velmi kvalitní program tooLame.

MP3 (MPEG1 - Layer 3)

MP3 je náhradou pro MP1 a MP2. Při nižších datových tocích dosahuje vyšší kvality. Nevýhodou je, že není podporován ani v MPEG1 ani v MPEG2 kompresi a je určen výhradně na kompresi zvuku. V dnešní době se tento kodek používá nejvíce k ukládání písniček. Při nízkém datové toku dosahuje kvality zvuku kompaktního disku. Kodek lze různě nastavovat, především datový tok, čímž je dána také výsledná kvalita zvuku. Některé komprimační programy umožňují také, kromě konstantního datového toku nastavit také datový tok proměnlivý, což má za následek opět zvýšení výsledné kvality. Například pro datový tok 192kbitů/s, 44100Hz, stereo je datový tok jen 24KB/s. Kromě použití pro ukládání písniček se také používá pro kompresi zvukové stopy videa v AVI formátu. Jako kvalitní programy pro kódování zvuku do MP3 lze považovat programy LAME a kodek institutu Frauenhofer.

Microsoft WMA

Firma Microsoft pro své formáty WMV a ASF vyvinula tento zvukový kodek. Udává, že při 64kbit je kvalita zvuku srovnatelná s kompaktním diskem, ale rozhodně to tak není. Kvalitu lze spíše srovnávat s kvalitami kodeku MP3. Zvuk lze enkódovat pouze s Windows Media Tools.

Další (AC3, Digital 5.1, DTS, ...)

Existuje mnohem více zvukových formátů, které dosahují vyšších kvalit. Nabízejí vyšší datové toky, podporu více reproduktorových systémů. V amatérských podmínkách ale neexistují volně dostupné nástroje k jejich výrobě.

Kapitola 4. Komprese videa

Video, jak jsem si již řekli, je sekvence po sobě jdoucích obrázků. My bysme chtěli toto video ukládat do počítače, abychom jej mohli dále zpracovávat, sestříhat střihovým programem, a výsledek pak exportovat do nějakého vhodného formátu, ať už pro vysílání přes internet, či k promítání v DVD přehrávači. Surové video by ale bylo poměrně velké. Mějme rozlišení 720x576 v barevném formátu RGB (což je standartně 3x8bitů, tedy 3 bajty na jeden obrazový bod) a snímkovou frevenci 25Hz. Pak jednoduchým výpočtem zjistíme, že k uložení jedné sekundy videa potřebujeme 720x576x3x25 = 31 104 000 bajtů. Současné pevné disky počítačů tak tak dosahují takovéto přenosové rychlosti. Pokud si vezmeme 80GB disk, pak bysme tento disk zaplnili přibližně nahráním 42 minut videa. To není příliš a navíc by nezbylo žádné místo k samotnému zpracování videa. Odtud tedy plyne potřeba video komprimovat a používají se k tomu tzv. kodeky (KOmpresor + DEKompresor). Kodek je tedy nějaký mechanismus, který snímky daného videa zakóduje do menší podoby a při přehrávání videa jej zase dekóduje již v reálném čase. Kodeky můžeme dále rozdělit na ztrátové a bezeztrátové. Bezeztrátové kodeky mají tu výhodu, že video neztratí žádnou informaci. To je ale vykoupeno nízkým komprimačním poměrem, většinou se poměr komprese pohybuje 1:2. Ztrátové kodeky naopak využívají toho, že obraz nemusí být naprosto dokonalý, dokonce může být zkreslený, až drasticky. Různé kodeky se dále liší kvalitou, rychlostí a výslednou velikostí komprimovaného videa, která je většinou v poměru k nekomprimovanému originálu 1:4-1:100. Nyní si uvedeme přehled těch nejdůležitějších kodeků.

Bezeztrátové kodeky

RAW

RAW není vlastně žádný kodek, ale již zmíněný nekomprimovaný formát. Pro plný PAL (720x576) má datový tok 31,1 MB/s, pro poloviční PAL (352X288) má datový tok 7,6 MB/s

HuffYUV

Ztrátové kodeky

Indeo® Video 5.10

Microsoft H.261 a H.263

Microsoft Video 1

MJPEG

Výhody

každý snímek je klíčový, ideální pro střih
bývá implementován hardwarově
podpora prokládaného obrazu
poměrně vysoká kvalita obrazu
bývá implementován hardwarově

Nevýhody

vysoké zatížení CPU
velký datový tok

MPEG-1

Výhody

vysoká podpora přehrávačů softwarových i hardwarových, kompresor i dekompresor je zdarma
používá se pro Video CD
vhodný i pro stream videa

Nevýhody

nepodporuje prokládané snímky
nízká kvalita při nízkém datovém toku
jen konstantní datový tok
nevhodný pro střih

MPEG-2

Výhody

používá se pro SVCD, DVD
používá se pro digitální vysílání (DVB - Digital Video Broadcast)
Vysoká kvalita při vysokém datovém toku (6Mbit/s a více)
podpora proměnlivého datového toku

Nevýhody

pro osobní počítače nutnost hardware či software přehrávače, při softwarovém přehrávání je vysoké zatížení procesoru
nízká kvalita při nízkém datovém toku
nevhodný pro střih

MPEG-3

Pro HDTV (High Definition TV) měl být určen MPEG-3. Jeho vývoj byl ale zastaven, protože pro požadavky HDTV plně postačuje formát MPEG-2.

MPEG-4

ASF, WMV

Výhody

vhodný pro stream

Nevýhody

uzavřenost formátu, nemožnost využití jinými programy než firmy Microsoft, zakázáno převádění do jiného formátu z formátu ASF
maximální rozlišení 352x288; kompresor zahazuje snímky aby dodržel datový tok; formát doplňuje soubor ASF o nadbytečné data, aby udržoval konstantní datový tok proudu, čímž se zvětšuje velikost celkového souboru až o 25% oproti přímé kopii video proudu

Quicktime

RealVideo

Real Video a Real System G2 jsou formáty komprese vyvinuté firmou Real Networks. Má podobné vlastnosti jako Quicktime, ale je více zaměřen na kompresi streamovaného videa.

DivX 3.11a Alpha

DivX 4, DivX 5

Verze DivX 5 kodeku

DivX 5.0.2 Standard - standardní verze, která je zdarma. Neobsahuje všechny vymoženosti plné verze
DivX 5.0.2 Pro GAIN - plná verze, která do počítače nainstaluje software pro zobrazování internetových reklam.
DivX 5.0.2 Pro - plná verze, bez reklam. Cena 30 USD

Od verze DivX 5 je již kodek uzavřený, bez zdrojových kódů. Kodek je kompatibilní s MPEG-4, komprimuje do formátu MPEG-4 Simple Profile a zvládá přehrávání předchozích verzí kodeku DivX, MPEG-4 Simple Profile, MPEG-4 Advanced Simple Profile a H.263 (videokonference). DivX 5 používá pokročilejší techniky při kompresi a oproti DivX verze 4 dosahuje zlepšení kvality až o 25% při zachování velikosti souboru. DivX 5 má integrované některé nástroje/filtry v sobě a umožňuje tak přímo při kompresi změnit rozměry obrazu, aplikovat filtr rozprokládání, ořezat obraz a jiné. Dále implementuje algoritmy pro zvýšení komprese využitím tzv. psychovizuálního modelu. Při něm se dosahuje lepší komprese bez znatelné ztráty kvality a to díky znalostem o lidském vizuálním systému. Implementuje obousměrnou kompresi, tedy B-snímky. Dále tzv. globální kompenzaci pohybu, což je algoritmus, který optimalizuje kompresi pro panorámování, roztmívání obrazu, přibližování, náhlé změny jasu (exploze), stagnující plochy (voda) a další. Kodek také umí export čistě do MPEG-4 formátu a konverzi mezi ním a AVI formátem. Jak je vidět kodek DivX 5 toho přinesl poměrně dost, ale jeho nevýhodou je placená/reklamová plná verze.

Výhody

vysoká kvalita videa při nízkém datovém toku
lze použít jakékoliv rozlišení dělitelné 4 až do 1920x1088
pokročilé kompresní techniky
podpora barevných formátů YUV a RGB
MPEG-4 kompatibilní

Nevýhody

vysoké zatížení CPU
přehrávatelné jen na osobních počítačích

XviD

Výhody

kodek je zdarma
vysoká kvalita videa při nízkém datovém toku
lze použít jakékoliv rozlišení dělitelné 4 až do 1920x1088
velké množství nastavení kodeku
podpora barevných formátů YUV a RGB
MPEG-4 kompatibilní

Nevýhody

vysoké zatížení CPU
přehrávatelné jen na osobních počítačích

DV

Výhody

každý snímek je klíčový
vysoká kvalita obrazu srovnatelná s profesionálními zařízeními

Nevýhody

velký datový tok

Kapitola 5. Závěr

Dostupnost mnoha komprimačních algoritmů a kodeků umožnilo velký boom v oblasti zpracování digitálního videa na počítačích. Cílem této práce bylo udělat celkový přehled nad různými formáty videa, předvést různé video kodeky a udělat tak čtenáři jasno na poli digitálního zpracování videa na osobních počítačích. Po přečtení by již měl vědět jaký formát má použít pro daný účel a video.

Je pouze otázkou času, kdy se objeví nové kompresní algoritmy ještě zvyšující kvalitu obrazu a zvuku při zachování datového toku. Také lze předpokládat větší rozvoj na poli digitálního vysílání. S největší pravděpodobností se dá očekávat brzký přechod jen na digitální vysílání v období do 10-15 let. Zároveň bude otázkou co bude s formátem MPEG-4, který se tak začíná v obrovských masách používat na počítačích. V dnešní době neexistuje žádný hardwarový přehrávač tohoto formátu. Tak jako v dnešní době vytláčejí DVD přehrávače videorekordéry, které se držely několik desítek let, bude otázkou jestli někdy nové přehrávače formátu MPEG4 vytlačí DVD. Také se v dnešní době nachází techniky, kterými lze uložit na upravené CD médium přes 80GB. Bude to znamenat konec honění se za lepšími kompresními algoritmy?

Praktická část

Krátký dokument

Kapitola 6. Zadání

Praktická část obsahovala následující úkol. Seznámit se s principy vytváření dokumentárního filmu, vytvořit scénář dokumentu a po schválení vedoucím natočit, sestříhat, ozvučit a připravit k šíření. Tématem mého dokumentu byl seminář SLT 2002.

Seminář SLT (Seminář o Linuxu a TeXu) je prestižní seminář pořádaný Českým sdružením uživatelů operačního systému Linux (CZLUG) a Československým sdružením uživatelů TeXu (CSTUG). Seminář se pořádal poprvé již v roce 1998 a klade si za cíl informovat o novinkách odborníky a lidi zainteresované v oblasti informačních technologií a týkající se Linuxu a TeXu. Tento krátký dokumentární film bude monitorovat průběh semináře SLT2002. Měl by to být taktéž velice zajímavý materiál určený pro lidi s případným zájmem účastnit se semináře někdy v budoucnu.

Kapitola 7. Předběžný scénář

pátek:

příjezd, registrace účastníků
1. ? záběr na značku „eč u Chrudimi“ a projíždějící auto ?
2. záběr na silnici (C, roztmívačka), přijíždějící auto, panorámování parkujícího auta na parkoviště před budovou, stále panorámování až na budovu (C) podržení v pohledu asi 10 sec. V tomto místě se objeví titulek „Tomáš Závodný\nve spolupráci s\nlemma@fi.muni.cz\nuvádí“ „Krátký dokumentární film\n SLT 2002“ . (záběr asi 15 sec.)
3. záběr v budově na vchod (C), přicházející účastníci na recepci (panorámování) (8 sec) zastavení pohledem na recepci.
4. záběr na registrující se lidi na recepci (PD) ( 5 sec )
5. záběr na recepční (PD) ( 5 sec )
6. záběr z místa 2. záběru. odchod lidí na pokoje ( 10 sec ) zatmívačka
přednášky
1. (roztmívačka) záběr z přednáškového sálu na dveře, přicházející účastníci, panorámování procházejících lidí, jejich zasedání do lavic. (10-15 sec)
2. záběr na prvního přednášejícího (C), jeho nějaké uvítání (cca 30-50 sec.), (zvuk poběží dál, prostřihne se záběrem na posluchače), PD na přednášejícího (rychlá zatmívačka do bíla)
3. několik záběrů na přednášejícího jak něco kreslí na tabuli, vysvětluje nějaké schéma, probírá nějakou zajímavost.
4. z ostatních zajímavých přednášek taktéž podobné záběry (záběr na nějakou zajímavost, vysvětlování něčeho). vždy bude k záběru titulek popisující Název přednášky, jméno přednášejícího. (přechodový efekt bude stíračka)
5. potřeba natočit také několik záběrů na posluchače, které se pak pro-vloží do předchozích záběrů. (PD) Záběr na posluchače píšícího si poznámky, ...
6. zatmívačka
oběd
1. roztmívačka, (C) pohled na přicházející účastníky do restaurace (8 sec),
2. (PC) záběr na švédský stůl plný jídla (5 sec),
3. (D) na nějaké pěkné pikantní kousky jídla, ovoce,
4. (PC) záběr na obědvající lidi,
5. (C) záběr na celou restauraci.
6. záběr na spokojené najezené účastníky odcházející z restaurace (záběr lidí přicházející ke dveřím, záběr je od dveří), po odchodu dozní záběr.
odpoledne volný program
1. (PC)záběr bavícího se hloučku lidí
2. (D) záběr na obličej někoho mluvícího
3. v případě nějakého volného programu udělat pár záběrů....
4. odpolední volný program - jestli bude nějaké zábava, tak je to třeba natočit, aby bylo vidět, že jsou to taky jenom lidi :-)
večeře
1. večeře - záběr do restaurace na přicházející účastníky ke švédskému stolu, (PD) na někoho držíce na talíři něco pěkného, (PC) záběr na číšnici, jak něco přináší, (C) restaurace, (PC) odcházející lidé
2. zvuk z další přednášky bude překrývat cca 1-2 sec. předchozího záběru, pak střih na přednášku.
3. jestli bude nějaká večerní zábava, tak taky potřeba natočit...

sobota

(C) přicházející lidé na snídani. ( 8 sec )
(PC) záběr na číšnici nesoucí jídlo. ( 4 sec )
(C) záběr na snídající účastníky ( 6 sec )
zatmívačka, roztmívačka až na přednášce
prakticky je možné tvořit tytéž záběry, jako v pátek. V pátek se určitě vymyslí něco nového, co by se dalo natočit, tak se to v sobotu může zkusit..
pravděpodobně nebude třeba natáčet znovu oběd/večeře/snídaně, jen v případě, že by to jídlo vypadalo lákavěji :-)

neděle

přicházející lidé na přednášku. ( 8 sec )
opět nějaká přednáška
oběd?
(C) budova, panorámování na auta odjíždějící v dál
(PD) záběr auta jak projíždí, pak „un-zoom“ se záběrem na značku konec obce..

Přehled použitých informačních zdrojů

Stránky o videu na počítačích. http://www.tvfreak.cz/ .

Stránky o grafice. http://www.grafika.cz/ .

Stránky o formátech videa. http://www.animemusicvideo.org/guides/avtech/ .

Stránky zpracování videa na počítačích. http://www.vendy.host.sk/ .

Popis formátu DivX 5. http://martinkp.hyperlinx.cz/navody/help/divx5.htm .

Stránky o digitálním videu. http://www.digitaltv.cz/ .

Informace o formátu AVI. http://www.volny.cz/esmeralda13/zpracovani-dv/stranky/avi.htm .