Akustická a auditivní fonetika zaměřuje svou pozornost na výsledný signál lidské řeči bez ohledu na artikulační mechanismy, jimiž byl vytvořen. Předmětem zkoumání se blíží fyziologické akustice, odvětví fyziky zabývajícímu se otázkami lidského hlasu, problémy slyšení zvuků a akustice jako součásti fyziky.
Pohled akustické fonetiky je soustředěn na studium autentického, nezobecněného signálu lidské řeči, který je objektivními fyzikálními metodami a pomocí experimentu zkoumán a popisován v celé složitosti. Toto odvětví výzkumu se velmi rozvíjí v posledních desetiletích dík rozvoji fyzikálních metod analýzy zvuku a dík nebývalým možnostem vyhodnocovat zjištěné údaje pomocí počítače a verifikovat výsledky analýz pomocí modelů. Výsledky jsou pak využívány nejen pro hlubší poznání lidské řeči, ale mají také praktické využití v nejrůznějších oblastech komunikace mezi člověkem a strojem (hlasové vstupy, hlasové výstupy, počítačové programy schopné "číst" srozumitelně nahlas jakýkoli psaný text apod.) nebo usnadňují komunikaci mezi lidmi. Akustická analýza umožní také identifikaci mluvčího a má pak využití mj. v kriminalistice. Možnosti akustických zkoumání a jejich uvádění do praxe nejsou ani zdaleka vyčerpány.
Na základě poznání akustiky řeči byla vybudována poměrně exaktní terminologie popisující jednotlivé hlásky i prozodické prostředky řeči. Pracuje s ní hlavně literatura oboru a šířeji speciální fonetická literatura, zatímco lingvistika věrna tradicím dává přednost terminologii artikulačně-auditivní.
Auditivní pohled na lidskou řeč je mnohem starší: je založen na analýze a hodnocení řeči sluchem. Není ani zdaleka tak přesný jako pohled akustický, protože lidské ucho má omezenou možnost vnímání (srov. i 6.6) a není ani možno jej dokonale objektivizovat, protože je do jisté míry poznamenán subjektem člověka, který výzkum provádí. Na druhé straně je vzhledem k roli řeči v komunikaci daleko adekvátnější než studium akustiky, protože přirozenou cestou umožní zachytit a zhodnotit ty zvukové prostředky řeči, které jsou percipovatelné, a tedy v řeči důležité. V současnosti můžeme konstatovat, že akustická zkoumání podstatně upřesnila poznatky, k nimž filologové došli auditivní cestou, umožnila interpretovat souvislosti, které zůstávaly skryty, a celkově posunula obor na daleko exaktnější úroveň, než byla tradiční cestou možné. Na druhé straně sluchové hodnocení, ovšem připravené do podoby testů a co nejobjektivněji zpracované, zůstává první orientací ve zvukovém materiálu a je součástí verifikace poznatků experimentálních.
Auditivní fonetika je paralelou fonetiky artikulační (5), zjednodušeně můžeme říci, že určité znění, přesněji znění, které ucho vnímá jako "obvyklé", vzniká vždy jedním a týmž mechanismem tvoření. Výjimky v této zjednodušené souvislosti existují a jsou dobře známy, mj. i logopedům, pro lingvistiku jsou však nevýznamné. Důsledkem paralelnosti je však pro lingvistiku skutečnost, že vedle termínů postihujících artikulaci jednotlivých hlásek je tu i tradiční terminologie založená na jejich auditivním hodnocení. A navíc, autoři užívají obě terminologické soustavy promiskue. Je proto nutno i soubor termínů, na který dále upozorníme, ovládat.
Akustický signál řeči je vnímán posluchačem také opticky. Okrajově si těchto složek všímá artikulační fonetika, detailněji se stává optický signál artikulace důležitý pro neslyšící, ale také např. při dabingu.
Ve vizuálním kontaktu mezi mluvčím a posluchačem je zvukový signál provázen signály kinetickými, mimikou, gesty, postojem apod. Mnozí mluvčí tak provázejí i ostatní mluvené projevy (při telefonování, při samomluvě). Tyto signály, významně usnadňující a modifikující komunikaci, analyzuje např. psychologie a sémiotika.
Nositelkou akustického signálu řeči je zvuková vlna, jejíž podstatou jsou podélné kmity molekul vzduchu.
Podnět pro toto kmitání je dán mluvními orgány. V zásadě existuje vztah mezi typem artikulace a vzniklým zvukem, v některých případech však vznikají akusticky velmi blízké (a sluchem neodlišované) zvuky různým způsobem artikulace (např. výslovnost souhlásky [l] horní plochou špičky jazyka a [ĺ] vyslovované retroflexně), a naopak někdy i nevelká obměna tvoření má pro posluchače patrné akustické důsledky (rozdíl mezi spojením [t]+[s] a [ʦ] (=c) je v češtině dobře slyšitelný - srovnej vyslovené přece - před sebe (-ts-).
Fonetik zabývající se akustickou fonetikou užívá přirozeně příslušné fyzikální terminologie. Pro běžné výklady kurzu pro lingvisty vystačíme s několika základními termíny; jejich definice a složitý matematický aparát s nimi spojený ponecháme exaktním vědám.
Výška zvuku je dána u jednoduchého tónu kmitočtem jeho zdroje, u složeného tónu interferencí výšek tónů částkových. Udává se v hertzích (značka Hz) : kmitočet rovný 1 Hz má takový periodický děj, jehož 1 (dvoj)kmit trvá 1 sekundu.
Intenzita zvuku je dána velikostí akustického výkonu, jenž projde určitou plochou kolmou na směr šíření zvuku. V běžném životě se mezi akustickým výkonem a intenzitou nerozlišuje: mluvíme o síle hluku, hudby apod. a vyjadřujeme ji v decibelech (dB), desetinách základní jednotky akustického výkonu, jíž je bel.
Pro subjektivní vnímání, při němž se sluchový dojem opírá jak o výšku, tak o sílu zvuku, se čistě fyzikální jednotky nehodí, pracuje se se speciální jednotkou fón. 1 fón je u čistého tónu s frekvencí 1 kHz při intenzitě 1 dB.
Hlasitost zvuku je sluchovým odhadem poměru síly hodnoceného zvuku a síly referenčního zvuku s hladinou hlasitosti 40 fónů. Je mírou subjektivně posuzované intenzity zvuku a její jednotkou je son.
Barva zvuku řeči vzniká interferencí výšek a intenzit všech tónových a šumových složek.
Zvuky dělíme podle průběhu zvukových vln na pravidelné a nepravidelné. Pravidelné (periodické) označujeme jako tóny, nepravidelný průběh mají šumy. Nejjednodušší periodické zvuky jsou jednoduché tóny, běžnější jsou však tóny složené. Mnohé zvuky v přírodě jsou kombinací tónové a šumové složky. I v lidské řeči se uplatňují tóny (samohlásky), zvuky kombinující tónovou a šumovou složku (např. [l], [r] nebo - jinak složené - znělé souhlásky) a čisté šumy (neznělé souhlásky).
Chceme-li sledovat průběh zvukové vlny v počítači, musíme ji takzvaně digitalizovat. Digitalizace je proces, při kterém se původní analogový signál (tedy v našem případě tlak vzduchu v určitém místě) převede na nějakou číslicovou reprezentaci.
Představme si tedy člověka, který mluví do mikrofonu. Proud vzduchu, který tento člověk vytváří, vychyluje jazýček v mikrofonu z jeho základní polohy. Mikrofon vysílá (stále ještě v analogové podobě) tuto výchylku do zvukové karty počítače. Zvuková karta v pravidelných intervalech (např. 22050krát za sekundu) zjistí hodnotu výchylky a převede ji na číslo v intervalu např. 0-255. 0 odpovídá maximální výchylce směrem dolů, 127 klidové hodnotě jazýčku a 255 maximální výchylce směrem nahoru. Tato čísla se potom dají zobrazit graficky jako posloupnost bodů v rovině (viz obrázek). Osa x odpovídá časové ose, osa y akustické intenzitě.
Žádné z výše uvedených čísel není natolik magické, jak by se mohlo na první pohled zdát. Frekvence 22050 Hz se používá pro záznam řeči proto, že zvuk vzorkovaný na této frekvenci dokáže spolehlivě zachytit i nejvyšší frekvence, které člověk při mluvení vytváří (zhruba 6kHz, hlavně u sykavek). Je samozřejmě možné vzorkovat i na jiných frekvencích, typicky se používají např. 12 kHz a 16 kHz. Pro záznam hudby v CD kvalitě, kde je potřeba vyšší rozlišení, se používá frekvence 44,1 kHz.
Klasifikace polohy jazýčku pomocí jedné z 256 hodnot se používá z ryze praktických důvodů. Čísla 0-255 jsou právě ta čísla, která se dají vyjádřit pomocí 8 bitů, neboli jednoho bytu, což je základní jednotka uložení informací v počítači. V dnešní době se vzhledem k rostoucímu výkonu počítačů používá spíše šestnáctibitové kódování, které je daleko přesnější popisuje polohu jazýčku pomocí čísla v intervalu -32768 –32767.
Složené tóny lidské řeči vznikají jednak interferencí pulzů kmitů tělesa, které je zdrojem zvuku (vedle pružného tělesa kmitajícího jako celek vznikají periodické kmity jeho jednotlivých částí - důsledkem jsou tzv. tóny harmonické), jednak tím, že se základní tón doplňuje při průchodu prostředím rezonancí, tj. vynucenými změnami kmitání částic vzduchu v částečně uzavřených prostorech - rezonátorech; v těchto rezonátorech dochází buď k doplnění tónu, nebo k zesílení existujících svrchních harmonických tónů, tedy ke skutečné rezonanci, nebo jsou naopak existující svrchní tóny utlumeny : tento jev se nazývá antirezonance. Vyšší neharmonické složky lidského hlasu vznikající při artikulaci řeči rezonancí dutiny hrdelní, ústní a nosní se nazývají formanty hlásek.
Složený tón lze analyzovat harmonickou analýzou na jednotlivé složky. Starší způsob analýzy založený na matematických vztazích mezi interferujícími tóny a výsledným složeným tónem dnes nahradila analýza pomocí přístrojů. Je rychlá, kvalitní, umožňuje tedy analyzovat všechny přechodové zvuky v časovém průběhu a na základě zjištění také jejich stavbu a sled napodobit.
Spektra ("plátky" spektrogramu) v časech 7, 14 a 30 ms. Značky v původním obrázku ukazují místa, ze kterých byly plátky vyříznuty.
Akustická struktura lidské řeči je velmi složitá a je dosud prozkoumána jen z části. Při popisu vydělujeme obvykle jednotlivé řečové zvuky ze souvislého proudu. V něm jedna složka plynule navazuje na druhou, vzájemně se ovlivňují a pozměňují, a to někdy do té míry, že se charakteristické vlastnosti jen vzdáleně podobají témuž typu zvuku v jiném hláskovém okolí. Proto jsou akustické popisy jednotlivých hlásek zobecněním (podobně jako popisy artikulační).
Výsledky studia přechodových zvuků, dnes velmi rozvinutého a důležitého i pro syntézu řeči, se zatím do popisu akustické struktury řeči zařazují také v zobecněné formě. Zvuk řeči je v celém průběhu významně ovlivňován i modulací celku promluvy (intonací, silou řeči apod.); o těchto vlastnostech se pojednává dále.
Základem zvuku lidské řeči je u mnoha hlásek hlas vytvářející se činností hlasivek. Jeho výška je individuálně proměnlivá: hlasové rozpětí se běžně pohybuje v 1-1,5 oktávy při řeči, při zpěvu se (dík vrozeným dispozicím i hlasové výchově) výrazně zvětšuje (2-4,5 oktávy). Výška mluvního hlasu u mužů se uvádí kolem 120 Hz, u žen 220 Hz, děti mají obvykle hlas vyšší. Při zpěvu však může výška dostoupit až 1000 Hz. U souhlásek neznělých, kde se hlasivky na tvorbě řeči nepodílejí, je akustická charakteristika založena na šumu různé výšky a typu, ve znělých souhláskách se na jejich akustické struktuře podílí šum i tón, vokály jsou hlásky tónové.
Výška a síla hlasu jsou společně prostředkem vyjádření intonace (blíže 7.2).