1 ZVUK A HUDBA Bitrate - Datový tok Digitalizace analogového zvuku, která je nezbytná pro práci se zvukem prostřednictvím digitálních zařízení (CD/DVD/MP3 přehrávač, počítač, tablet, mobilní telefon, elektronické hudební nástroje atd.), převádí spojité vlnové průběhy zvuku na konečný počet hodnot amplitudy zvukového signálu, které se zjišťují v určitých časových okamžicích, tyto převádí do digitální podoby a postupně se ukládají do paměti digitálního zařízení. Takto digitalizovaný a uložený zvuk má základní dva parametry, je to vzorkovací frekvence (jak často se zjišťuje úroveň analogového signálu na vstupu zařízení) a jak velký prostor v paměti zařízení (buňka) se vymezí pro uložení jedné úrovně (počet bitů). Velikost vzorkovací frekvence odpovídá kvalitě převodu, především co do frekvenčního rozsahu, velikost paměťové buňky zase určuje dynamiku digitalizovaného zvuku. Pro kvalitu audio CD byly stanoveny parametry vzorkovací frekvence 44,1kHz a velikost paměťové buňky 16 bitů. Tyto hodnoty se mohou pro různé jiné případy lišit a je logické, že vyšší hodnoty zabezpečují vyšší kvalitu převodu analogového signálu do digitální podoby. Tyto formáty ne nazývají nekomprimované, nejčastěji označované, jako PCM (Pulse-Code Modulation) a pro Windows systémy WAV (Audio for Windows), pro Apple (Mac) je to formát AIFF. Z důvodu úspory místa v paměti zařízení byly zavedeny různé možnosti zmenšení velikosti zvukových souborů prostřednictvím komprimace, tato může být bezztrátová (zachování zvukové kvality) nebo ztrátová (snížení zvukové kvality). Bezztrátové (lossless) formáty: FLAC, WMA, ALAC Ztrátové (lossy) formáty: MP3, AAC V případě digitalizovaného zvuku byla zavedena veličina Datový tok (Bitrate), je to rychlost přenosu dat za určitou dobu. Používá se b/s (počet bitů za sekundu), bps (bits per second), častěji kb/s (kilobitů za sekundu), kbps (kilobits per second). Vztah se může lišit podle použití dekadické nebo dvojkové soustavy: 1kbps = 1000bps nebo 1Kibibit = 1024bps. U kvality audio CD (44,1kHz/16bit) je datový tok 1411,2 kbit/s. Pro případ komprimovaných formátů, např. pro použití MPEG 1 layer III (MP3) kódování, se datový tok zmenší a ve stejném poměru se zmenší i výsledná velikost souboru. Příklad: Výpočet velikosti stereo zvukového soboru (skladby) o délce 3 minuty: Audio CD: Datový tok = 16bitů x 44,1kHz = 705,6kb/s x 2 (stereo) = 1411,2kb/s = 176,4kB/s = 10584kB/min. = 10,584MB/min. = 31,752MB/3minuty MP3 128kb/s: Datový tok = 128kb/s = 16kB/s = 960kB/min = 0,960MB/min. = 2,880MB/3minuty. Kompresní poměr je přibližně: 11:1 Prakticky, i když v současnosti většina posluchačů využívá k poslechu komprimované formáty, se doporučuje provádět záznam v nekomprimovaném formátu a tento uchovávat pro případné i budoucí, nové možnosti zařízení nebo systémy, které budou posluchači používat. Při rychlosti vývoje nových technologií již nebude třeba „šetřit“ místem a tím pádem ani kvalitou. 2 MP3 MP3 (MPEG-1 nebo MPEG-2 Audio Layer III) je ztrátový formát kódování audia, založený na kompresním algoritmu definovaném MPEG (Motion Picture Experts Group). MP3, jako ztrátová komprese, se snaží odstranit redundanci (nadbytečnost) zvukového signálu na základě psychoakustického modelu, ze vstupního signálu se odeberou informace, které člověk neslyší, nebo si je neuvědomuje. Využívá se principů časového a frekvenčního maskování. Komprese zvuku podle standardu MPEG-1 obsahuje 3 vrstvy, jež se liší kvalitou a obtížností implementace. S největší intenzitou vnímáme frekvence v rozmezí 1000 - 5000 Hz. Průměrné lidské ucho je schopno zachytit zvuk v těchto mezích: frekvenční rozsah 20Hz - 20kHz, dynamický rozsah (ticho - hluk) asi 98 dB. V decibelech se měří dynamický rozsah lidského sluchu (udávají rozdíl tlaku vzduchu), nejmenší rozdíl tlaku zvuku postižitelný lidským sluchem je 20mPa, tento rozdíl je brán jako referenční hodnota 0dB (pro zajímavost: hlasitost normální konverzace okolo nás je asi 50 dB, rušná ulice je 80dB a mezní hodnota na prahu bolesti je 130 dB). Vše, co je nad a pod hranicí lidské slyšitelnosti (20Hz - 20 kHz), se při kompresi odstraní. Kromě mezí slyšitelnosti se ke komprimaci používají i další metody: Frequence Masking - ve zvuku se ve stejnou dobu překrývají různé frekvence o různé intenzitě a lidské ucho to není schopno postřehnout Temporal Masking - využívá potřeby sluchu pro adaptaci na změnu zvuku - Premasking (před změnou) a Postmasking (po změně) Kompresní poměr, tedy poměr mezi původní velikostí a velikostí souboru prošlého kompresním algoritmem závisí také na požadované kvalitě výstupního signálu. MP3 formát může být např. v rozsahu od 96 do 320kbps, a streamovací služby, jako třeba Spotify od 96 do 160kbps. Nejčastěji používané hodnoty jsou: 96, 128, 160, 192, 256, 320 kbps. CBR (konstantní datový tok) versus VBR (variabilní datový tok). Jde o kompromis mezi kvalitou a velikostí souboru. Pro převod mezi CD a MP3, WMA nebo AAC je dobré vědět více detailů. CBR (Constant Bit Rate)  Neměnná, nastavitelná, kontrolovatelná kvalita  Zaručení nejvyšší kvality  Rychlejší převod  Vhodné pro streamování, kde je definována horní hranice přenosové rychlosti  Bez optimalizace kvality zvuku a velikosti souboru  Širší kompatibilita VBR (Variable Bit Rate)  Menší velikost souboru  Přizpůsobení datového toku povaze a parametrům zvuku (ticho = nižší datový tok)  Efektivnější využití místa na úložišti  Minimální, ale možné snížení kvality  Pomalejší převod  Méně vhodné pro streamování s určenou horní hranicí přenosové rychlosti  Částečně omezená podpora (pro starší zařízení) LAME převodník - mění datový tok od 65 kbps do 320 kbps. 3 Další komprimované formáty AAC Advanced Audio Coding je standard pro ztrátovou kompresi zvuku. Byl vyvinut jako následovník formátu MP3 na středních až vyšších datových tocích v rámci standardu MPEG4. I když zvuková kvalita tohoto komprimovaného formátu je vyšší než u MP3, nedosáhl tak širokého využití, jako MP3. I tak se používá v systémech YouTube, Android, iOS, iTunes, Nintendo a PlayStations. FLAC Free Lossless Audio Codec je komprimovaný, ale bezztrátový formát digitálního zvuku. Umožňuje komprimaci velikosti souboru až 60% bez ztráty jediného bitu. Jde o zcela volně dostupný a šiřitelný formát. Často bývá označován, jako nejlepší zvukový formát. ALAC Apple Lossless Audio Codec je komprimovaný a bezztrátový audio formát, je určený pro platformu Apple (Mac), není tak účinný, jako FLAC, ale tento nemá takovou podporu pro Apple platformu. VORBIS Vorbis je ztrátový audio formát, který se měl stát náhradou formátu MP3. Jde o volně dostupný formát. Kvalitou je podobná formátu WMA. Tento formát bývá často součástí datového kontejneru OGG Vorbis, kde v jednom souboru je synchronizováno více typů dat (video stopy, audio stopy, titulky, jazykové mutace,…). OPUS Jde o otevřený, volně dostupný, bez nutnosti licenčních poplatků, ztrátový formát navržený s ohledem na internetové využití, např. videokonference, streamování hudby a další. Dosahuje dobré komprese pro mluvené slovo i hudbu s využitím dokonalé analýzy typu zvuku. Oproti jiným komprimovaným formátům má nižší latenci a vysokou kvalitu zvuku. 4 Fechner - Weberův zákon Oba zákony popisují vnímání zvuku lidským sluchem v závislosti na jeho intenzitě. Výsledkem je, že lidské tělo vnímá podněty logaritmicky v závislosti na jejich intenzitě, tedy i velké změny silných podnětů jsou vnímány, jako změny malé. Definice Weberova zákona zní: „Vzrůstá-li intenzita podnětu řadou geometrickou, pak roste intenzita počitku řadou aritmetickou“ Fechnerův zákon lépe popisuje to, že pro intenzivnější podněty je složitější poznat rozdíl intenzity podnětu než pro slabší podněty. Jednoduše to lze odvodit z grafu matematické formulace Fechnerova zákona, lze zjednodušit na přirozený logaritmus. Pokud vezmeme dvě stejné Δx, které umístíme různě daleko od počátku, Δy které k nim patří, budou různě velké, pro vzdálenější Δx bude Δy vždy menší. Praktické využití tohoto zákona lze pozorovat na ovladačích hlasitosti u různých zařízení nebo aplikací, a to nelineární stupnicí hodnot hlasitosti. U zařízení (směšovací pulty) nebo u hudebních nástrojů (kytara, baskytara) pak lze zjistit, že ovladače hlasitosti - potenciometry mají logaritmický průběh odporové dráhy. Další využití je v programech pro záznam a úpravy zvuku (DAW) při nastavování průběhu pro postupné zesilování (Fade In) a postupné zeslabování (Fade Out). 5 Fletcher - Munsonovy křivky stejné vnímané hlasitosti Harvey Fletcher a Wilden Munson na základě svých výzkumů přišli na to, že lidský sluch nevnímá hlasitost zvuku ve všech frekvenčních pásmech se stejnou intenzitou a na základě svých testů vytvořili grafy, které ukazují jak lidský sluch vnímá stejnou hlasitost v celém frekvenčním pásmu od 20Hz - 20 kHz. Zajímavé je pásmo 3 kHz and 4 kHz, kde je lidské sluch nejcitlivější. Dále bylo zjištěno že lidský sluch nejenom že nevnímá všechny frekvence o stejné amplitudě stejnou hlasitosti, ale rozpětí citlivosti našeho sluchu se mění s měnící se intenzitou vnímaného zvuku. Jinými slovy lze říci, že určité části frekvenčního spektra budeme vnímat hlasitěji či slaběji než ostatní i když všechny frekvence budou mít stejnou amplitudu. Fletcher-Munsonův graf znázorňuje rozdíl potřebný k tomu aby lidský sluch vnímal všechny frekvence se stejnou hlasitostí. Na svislé ose je znázorněn akustický tlak SPL - Sound Pressure Level (dB SPL) a na vodorovné ose je znázorněn frekvenční rozsah (Hz). Hlasitost je uvedena v Phon jednotkách. Tato jednotka se používá pro vyjádření subjektivního vnímání hlasitosti zvuku či šumu a je používána pouze pro vyjádření stejné hlasitosti zvuku. To znamená že křivka znázorňuje vztah mezi akustickým tlakem a frekvenčním spektrem pro stav, který lidský sluch vnímá jako stejnou hlasitost. Praktické využití Pokud pomineme akustiku a další faktory, pak má při mixáži na rozhodování velký vliv právě hlasitost monitorovacího systému. Pokud posloucháme na velmi nízké úrovni pak budeme vnímat jako nejhlasitější právě středové pásmo a výsledkem pak bude neúměrná kompenzace (zesílení) nízkých a vysokých frekvencí. Pokud je náš monitorovací level velmi hlasitý pak se naše rozhodování o kompenzaci zaměří na střední pásmo. Pokud se podíváme na křivky pak bude dávat větší smysl doporučovaná hladina mezi 80-85 dB SPL. V této hladině vnímá lidský sluch nejvíce vyváženě. Tuto hladinu lze změřit SPL metry které je možné zakoupit buď jako hardware v prodejnách hudebních nástrojů nebo jako software pro mobilní zařízení a to jak placené či zdarma. Pak již nezbývá nic jiného než spustit růžový šum (pink noise) a zesilovat hlasitost až do požadované hodnoty (např. 83 dB SPL) a tuto pozici buď uložit, pokud nám to ovladač monitorů umožňuje, nebo si tuto pozici označit na mixu nebo zvukové kartě. Pokud budeme potřebovat zesílit poslech určité pasáže návrat na základní poslechovou hladinu bude věcí okamžiku. 6 Decibel - dB Decibel je jednotka pro měření hladiny intenzity zvuku, ale ve skutečnosti se jedná o obecné měřítko podílu dvou hodnot, které se používá v mnoha oborech. Jedná se o fyzikálně bezrozměrnou veličinu s logaritmickým průběhem, jejíž definice souvisí s objevením Fechner-Weberova zákona, že lidské tělo vnímá podněty logaritmicky v závislosti na jejich Na základě měření v necitlivější oblasti vnímání zvuku (1Khz) se zjistilo, že průměrný jedinec začne vnímat akustický tlak o hodnotě 20mPa (p0 = 2×10−5 Pa). Logaritmováním poměru zvukového tlaku a tohoto stanoveného nejslabšího slyšitelného zvuku vznikne relativní (bezrozměrné) číslo, jehož jednotka je označena jako bel. Běžně se ovšem pracuje s desetkrát menší jednotkou. Označíme-li hladinu akustického tlaku Lp, pak: Proč druhé mocniny? Ukazuje se výhodné zavést jednotku tak, aby pracovala primárně raději s výkonem a výkon vzrůstá se čtvercem tlaku (mikrofony při měřeních ovšem reagují na tlak). Zvuk S nástupem digitální techniky přišla další varianta decibelu: pokud máme analogově/digitální převodník, kterým zpracováváme zvuk, pak: w0 je v takovém případě největší slovo, které je převodník schopen zpracovat. V případě údajů převodníků jde o fyzikálně bezrozměrné jednotky. Písmena FS značí Full Scale, tedy plný rozsah (rozuměj převodníku). 7 LUFS https://magazin.disk.cz/cs/dodrzujete-normy-hlasitosti-ebu-r128 Loudness War - boj s hlasitostí Protože dříve média kontrolovala pouze špičkové úrovně hlasitosti, v nevýhodě vůči reklamám a jiným, na sebe více upozorňujícím programům, byly ty pořady a ta hudba, kde autoři a zvukoví mistři pracovali s velkým dynamickým rozsahem hudby či mluveného slova. Průlomovým rokem se stal rok 2006. Tehdy vydal Radiokomunikační sektor Mezinárodní Telekomunikační Unie nové doporučení ITU-R BS.1770-1. To už respektovalo subjektivní vnímání hlasitosti a definovalo nový algoritmus pro měření hlasitosti televizního a rozhlasového vysílání. Tato kritéria se stala posléze celosvětovým standardem, který funguje dodnes. Na nich bylo postaveno Technické doporučení R 128, vydané v roce 2011 společností EBU. Základním kamenem současné normalizace je tak v ČR kombinace dvou dokumentů: Technického doporučení EBU R 128 ´Normalizace hlasitosti a maximální povolená úroveň zvukových signálů´ a Doporučení ITU-R BS.1770 ´Algoritmy k měření hlasitosti zvukových pořadů a skutečné špičkové úrovně zvuku´. Komprese  Kompresí se zruší dynamické rozdíly mezi hlasitostně rozdílnými pasážemi.  Snížení dynamiky způsobuje u posluchače fyzickou únavu, bolesti hlavy,…  Komprese nad nastavenou pracovní úrovní (prahem – trashhold) mění tvar vlny. Ořezává ji a zplošťuje. Pak existuje rozdíl mezi oblou vlnou s nízkým počtem harmonických složek, do které se ořezáním dostává nežádoucí množství lichých složek, a pilovitým signálem s vyrovnaným zastoupením sudých a lichých, u kterého plochým ořezáním převáží liché složky, pak ostrý pilovitý tón zbledne.  Tvrdou kompresí vstupují do celkové barvy ruchy a šumy, tím se zastírá čitelnost nástrojových sekcí a hlavně harmonie. K-Weighting Jedná se o vyrovnání frekvenční křivky vzhledem k lidskému vnímání úrovně hlasitosti (Fletcher Munson). Jde o upravený hornopropustný filtr (Hi-pass Filter) začínající od 1 kHz a dále zachovávající konstantní úroveň zdvihu + 4dB.  A-Weighting - obecné vyvážení, vhodné pro nízké frekvence s nízkými hodnotami úrovně akustického tlaku. Jsou to především šumy a ruchy.  B-Weighting - pro střední rozsah úrovní akustického tlaku  C-Weighting - pro vysoké úrovně akustického tlaku, 100 phons  D-Weighting - velmi vysoké úrovně, např. ve vojenském prostředí  Flat-Weighting - starší norma, nahrazena Z  L (Linear)-Weighting - starší norma, nahrazena Z  Z-Weighting - Z = Zero Frequency, bez vyrovnání křivky, v celém rozsahu od 10Hz do 20kHz, v pásmu +/-1,5dB. 8 V praxi se křivka aplikuje na všechny měřené kanály a následně se vypočítá střední kvadratická hodnota úrovně. Výsledek se zobrazí jako ´LKFS´ (Loudness, K-Weighting, referenced to digital Full Scale) aneb vážená K hlasitost vztažená k digitální plné stupnici. Tuto jednotku je dle EBU možné zapsat i jako LUFS (Loudness Unit referenced to digital Full Scale). Pro relativní měření, tedy měření nevázané na subjektivní vnímání a žánr se používá jednotka hlasitosti LU, kde se 1 LU rovná 1 dB. Pro techniku měření i pro dodržování nových norem je třeba pochopit tři hlavní pojmy: hlasitost pořadu (Programme Loudness), rozsah hlasitosti (Loudness Range) a skutečná špičková úroveň (True Peak Level). Hlasitost pořadu (Loudness) Hlasitost pořadu se dá zjednodušeně definovat jako průměrná úroveň pořadu či vybrané stopy. Výsledek se zobrazuje v jednotkách LUFS. Důležitou roli zde hraje tzv. hradlovací funkce. Hradlo slouží k vymezení spodní hranice. Pokud vysílaný signál poklesne totiž pod určitou úroveň, měření se přeruší a znovu se spustí až ve chvíli, kdy je signál nad touto minimální úrovní. Rozsah hlasitosti (LRA) Rozsah hlasitosti (LRA) je nově definovaný parametr. Popisuje celkový rozsah v celé délce pořadu, od nejslabší až po nejhlasitější část. Tento rozsah je měřen v jednotce LU. Aby se zabránilo tomu, že extrémní výkyvy pořadu budou ovlivňovat celkový výsledek, je horních 5% a spodních 10% celkového rozsahu hlasitosti z měření vyloučeno. Skutečná špičková úroveň (TPL) Třetím a rovněž podstatným parametrem zvukové úrovně v doporučení R 128 je skutečná špičková úroveň (True Peak Level, zkratka TPL). Udává maximální hodnotu signálu v měřené časové doméně. Jeho hodnota může být vyšší než nejvyšší hodnota v časově omezených vzorcích. 9 Měření hlasitosti K měření hlasitosti se doporučuje používat měřič hlasitosti s režimem EBU. Tento režim definovaný v EBU Tech Doc 3341 a nabízí 3 rozdílné časové stupnice:  Okamžitou hlasitost (Momentary Loudness, zkratka “M“), ta pracuje s časovým intervalem 400 ms  Krátkodobou hlasitost (Short-term Loudness, zkratka “S“) ta porovnává úrovně v časovém intervalu 3 s  Integrovanou hlasitost (Integrated Loudness, zkratka “I“) vyhodnocující hlasitost od začátku do konce. Doporučení Televize Stanovení úrovně LUFS dle EBU R 128 EBU na základě série měření a výpočtů stanovilo průměrnou hlasitost pořadu na -23 LUFS (s tolerancí ±0,5 LU) pro všechny Evropské televizní vysílatele. Toleruje jen maximální možnou odchylku ± 1 LU u pořadů, u kterých nelze dosáhnout přesné úrovně. Např. u živých vysílání s nepředvídatelnými úrovněmi hlasitosti. Rozhlas Rozhlasová vysílání a podcasty jsou trochu jiné kafe. Často jsou totiž přehrávány na mobilních zařízeních a v hlučném prostředí. Většina hardwarových zařízení navíc neposkytuje dostatečné zesílení pro programy normalizované na -23 LUFS. Audio Engineering Society (AES) proto vydala dokument AES TD1004.1.15-10 ´Doporučení pro hlasitost audio streamování a přehrávání internetových souborů´. Jsou v něm stanoveny úrovně hlasitosti mezi -20 LUFS a -16 LUFS (s tolerancí ±0,5 LU). Závisí na dané platformě. Další A do hry rovněž vstoupily společnosti, jejichž produkty či služby jsou úzce spojené se zvukem. Každá z nich pak doporučila svou vlastní úroveň, např.:  Apple Music a Google -16 LUFS  Amazon Alexa, Spotify a Tidal hodnotu -14 LUFS  YouTube -13 LUFS. 10 RMS - LUFS RMS Efektivní hodnota (Root Mean Square) elektrických veličin – proudu, napětí nebo výkonu RMS (root mean squared) – měření trvalého výstupního výkonu zesilovače při dané úrovni zkreslení. Obecně je RMS výkon zhruba polovinou hudebního (špičkového, chvilkového) výkonu, např. 7 W RMS odpovídá zhruba 11–13 W hudebního výkonu. Efektivní hodnota je statistická hodnota měřící velikost měnící se veličiny. Užitečná je zejména u periodických veličin, v elektrotechnice, v elektronice a teorii obvodů u hlavních obvodových veličin – napětí a proudu. V silnoproudé elektrotechnice se napětí i intenzita střídavého proudu zpravidla udává v efektivních, nikoli v maximálních hodnotách. Odmocnina ze 2 = 1.4, 1/1.4 = 0.7 (70%). 11 Efektivní hodnota střídavého proudu (Ief) je rovna hodnotě stejnosměrného proudu, který by při průchodu odporovou zátěží dával stejný průměrný výkon. Efektivní hodnota střídavého napětí (Uef) je rovna hodnotě stejnosměrného napětí, které by při přiložení na odporovou zátěž dávalo stejný průměrný výkon. V praxi se většinou používá zkrácený termín efektivní proud, nebo efektivní napětí. Pokud se v silnoproudé elektrotechnice mluví o jinak nespecifikovaných hodnotách střídavých napětí nebo proudů, téměř vždy se automaticky předpokládá, že jde o efektivní hodnoty. LUFS  Díky LUFS lze jednoduše nastavit, zda posloucháme populární hudbu nebo koukáme na televizi.  Měření LUFS je přesné s ohledem na vnímání zvuku lidským sluchem, tím je objektivnější než RMS.  Pokud se mixuje hudba na úroveň -14 dB LUFS, nebude problém s publikováním  Nejlepší je zachovat velkou dynamiku hudby a mít úrovně loudness pod kontrolou  Pokud budou loudness úrovně hudby nižší, streamovací služby ji automaticky zvýší