Vokály jsou hlásky s tónovou strukturou. Jejich tón je složený, vedle laryngálního hlasu se na nich podílejí i rezonance vzniklé v nadhrtanových dutinách (a další svrchní tóny). Diferenciace vokálů vychází z toho, že u každé samohlásky jde o jinou kombinaci rezonancí, které vedou k soustředění zvukové energie v jistých tónových pásmech; každý vokál má tedy jinou strukturu a jiný vzájemný poměr tónových složek. Složený tón jednotlivých vokálů je pak nápadně odlišný.
Laryngální hlas je pro všechny vokály stejný (kromě „němých“ v některých jazycích), k diferenciaci dochází při průchodu hlasu rezonančním prostorem tvořeným hrdlem a ústní dutinou zakončenou rty, popřípadě dutinou nosní. Délka a šíře tohoto rezonátoru je do určité míry proměnlivá. Jde totiž o zahnutou trubici, kterou postavení jazyka dělí na dva "subrezonátory", na rezonátor "hrdelní" a "ústní".
Vzhledem k tomu, že pro mnohé vokály se zvuk modifikuje i v prostoru mezi rty, mluví někteří autoři i o rezonátoru „retním“; má to smysl hlavně pro jazkyky, kde existuje rozdíl labializované a nelabializované samohlásky se stejnou pozicí jazyka (např. v němčině – zaokrouhlené a nezaokrouhlené [i] × [y] = „ü“.
Rezonátory se musejí podílet na výslovnosti každého vokálu. V některých jazycích se navíc může uplatnit jako rezonátor i dutina nosní. Pohybem jazyka se mění vzájemný poměr rezonátorů; ve výsledném znění se odrážejí i proměny výstupního otvoru rezonátorů dané postavením rtů.
V této složité rezonanční soustavě dochází ke vzniku formantů, typických pásem zesílení zvukové energie. Pro vytvoření a identifikaci vokálů jsou nutné nejméně dva formanty, samohlásky lidské řeči jich však mají více (uvádí se až 6 formantů, k nim přibývají i další -svrchní tóny). Při hlasité řeči se připojuje formant laryngálního hlasu, který je "budičem charakteristiky" formantů ostatních.
Vztah mezi laryngálním hlasem a formantovou strukturou vokálů vysvětluje několik teorií. Jako nejpřesvědčivější se jeví pulzační teorie Hermannova. Zvukové vlny vzniklé činností hlasivek podle ní rozechvívají sloupec vzduchu v hrdelní a ústní dutině. Tím vznikají oba základní formanty. Sloupec vzduchu v ústech a hrdle má u jednotlivce přibližně stálý objem pro každou samohlásku, formanty mají proto ustálený charakter.
Základní tón řeči se naproti tomu může obměňovat (např. při zpěvu). Proto lze i ve zpívaném textu rozeznávat jednotlivé samohlásky. Při extrémně vysokých polohách však může dojít u vokálů ke zkreslení. Při šeptaných samohláskách laryngální hlas chybí. Přesto mají i tyto samohlásky formantovou strukturu a jsou dobře poznatelné. Jako "budič charakteristiky" se u nich uplatňuje prostý výdechový proud doplněný šumem vzniklým při průchodu vzduchu mezi částečně sblíženými hlasivkami.
Výška formantů je pro jednotlivé vokály v daném jazyce omezena na jistá frekvenční pásma, nejde tedy o jediný tón. Tradiční fonetika označovala jednotlivé formanty podle předpokládaného místa vzniku termíny odvozenými z artikulační fonetiky: mluvilo se pak o formantu ústním, hrdelním.
Dnes se dává přednost označení číslicemi vycházejícími z výšky formantů, jak ji zachycují objektivní metody analýzy zvuku řeči. Formant základního hlasu má označení F0, nejbližší vyšší F1, další F2 atd. Např. v češtině se F1 (podle Hály, 1962) pohybuje v rozmezí 300 Hz [iː] - 800 Hz [aː], F2 700 Hz [uː] - 200 Hz [iː]; čísla jsou průměrná, skutečné realizace se pohybují v širokém rozmezí kolem těchto výšek.
Formanty jednotlivých vokálů jsou navzájem odlišeny. Zřetelně se liší rezonance vznikající v ústní dutině, rezonance vznikající v dutině hrdelní jsou odlišeny méně. Pro identifikaci vokálů však jsou důležité nikoli absolutní hodnoty formantů, nýbrž vzájemný poměr F1 a F2: pro vokály, které hodnotíme jako i-ové, je to např. velký výškový rozdíl mezi oběma formanty, a-ové zvuky mají oba formanty blízko sebe a jsou umístěny přibližně ve středu výškového pásma, u-ové vokály mají oba formanty nízké atd. Na základě toho hodnotíme i uměle vytvořené složené tónové zvuky jako podobné tomu či onomu vokálu. Kombinace neodpovídající modelu formantové struktury vokálů známého jazyka sice označíme také za samohlásku, ale nejsme s to ji identifikovat; podobné potíže můžeme mít při identifikaci zvláštních typů vokálů jazyka cizího.
V některých jazycích (polštině, francouzštině) se uplatňuje i nosní rezonátor. Akustická struktura těchto vokálů se tím pochopitelně mění. Jak ukázaly analýzy v polštině, nedochází však k připojení nosního formantu", nosní prostor je zřejmě zdrojem antirezonance.
Důležitou složkou akustiky vokálů je jejich časový průběh. Objektivně zjistitelná kvantita je jevem fonetickým. Měření ukázala, že skutečná délka vokálu závisí na jeho typu (vysoké vokály bývají v průměru kratší) a na pozici ve fonické řadě. Údaje o fyzikálně zjištěném trvání hlásek nejsou zcela přesné, jinak vyzní vokál např. v zavřené a otevřené= slabicem i když je oba můžeme sluchově vnímat jako „krátké“.
V mnoha jazycích se délka vokálu mění také v závislosti na přízvuku (v ruštině). Trvání vokálu se pozměňuje při emfázi - má móře peněz, vokál se může zkracovat v delších slovech nebo při rychlejší řeči apod.
Tyto objektivní vlastnosti mají pro rozlišování významu jen malý smysl : nutné je pouze zachovat minimální trvání hlásky (zkrácení pro tento limit způsobí, že vokál nelze identifikovat) a trvání „maximální“ - nadměrně prodloužený zvuk již neinterpretujeme jako hlásku, ale jako výkřik, povzdech apod. Pro odlišení významových jednotek se v jazycích jako je čeština využívá relativní kvantita, tj. poměr mezi krátkým a dlouhým vokálem takřka stejné formantové struktury.
Ukázka vlivu koartikulace
Nahrávka řečového segmentu kib.
Nahrávka řečového segmentu kib s hláskou 'i' dodanou ze segmentu bik.
Formantová struktura vokálu je typická pouze v jeho vrcholové fázi, v místech napojení k sousedním konsonantům se modifikuje. V přirozeně vyslovované řeči jsou tyto přechody tak samozřejmé, že je ani nevnímáme. Patří do celkového obrazu konkrétního jazyka.
Jinak je tomu při akustické analýze, kde je možno sledovat složení zvuku v kterémkoli vybraném momentu. Pro vazbu mezi segmenty svědčí to, že přeneseme-li (technicky) realizaci vokálu do jiného hláskového okolí, přirozeným sluchem vnímáme neobvyklost, nesprávnost výsledku. Srov. i 6.3.
Diftong je zvláštním typem hlásek s tónovou strukturou. Zatímco formantová charakteristika vokálu je v jeho průběhu celkem stálá, v diftongu dochází k plynulé proměně struktury.
Fonetická literatura připomíná dva typy dvojhlásek: Pravé diftongy, v nichž si obě složky zachovávají plnou vokaličnost (tento typ je velmi vzácný) a diftongy nepravé, v nichž si plnou vokalickou stavbu uchovává jen část, zatímco druhá složka ji částečně ztrácí, mění se na polosamohlásku. Podle postavení této oslabené složky se nepravé diftongy dělí na stoupavé, v nichž je oslabená složka počátkem diftongu (např. slovenské diftongy jsou stoupavé - mlieko - [mlɩeko], kôň - [kʋoň]), a klesavé, v nichž je oslabená část na konci (např. české [oʋ] (= psané ou). Termínem diftong se, pokud není jinak uvedeno, rozumí v literatuře obvykle diftong nepravý. Specifikum tónového průběhu diftongu, ev. složitějších vokalických zvuků (triftongů, polyftongů) odpovídá proměnlivosti jeho artikulace (5.3). Lze pak odlišit i diftong polohový, jehož fáze jsou relativně vymezitelné (např. české [oʋ] = ‚ou‘) a pohybový, kde jde o tendenci proměny zvuku,
V některých jazycích diftongy neexistují (např. v ruštině), v jiných jazycích mohou existovat i složitější kombinace vokalických a klouzavých prvků (např. v nám blízké slovenštině - dievča [ɟieʋʧa].
Proměny zvuku vokálu mohou vznikat v některých jazycích i při obměnách jejich tvoření v závislosti na artikulační bázi jazyka nebo na hláskovém okolí. V ruštině se např. vyslovuje po retnicích o s nádechem u, podobně se tu vyslovuje o i na počátku slova. Taková výslovnost se označuje jako diftongoidní (podle Ščerby).