Nelze použít přímo fonémy - koartikulace.
Alofóny - poziční varianta segmentu
obsahuje foném a okolí ovlivněné koartikulací (n3 alofónů, kde n je počet fonémů).
Difóny - začínají uprostřed jednoho fonému a končí uprostřed následujícího (n2 difónů).
často používané pro syntézu i pro rozpoznávání (např. syntetizér MBrola)
Trifóny - začínají uprostřed levého sousedního fonému a končí uprostřed pravého sousedního fonému. (n3 trifónů).
Často používané pro rozpoznávání a syntézu řeči.
Slabičné segmenty - umělá obdoba slabik.
Jaké je struktura slabiky?
Délka 1 - 3 fonémy.
Využívají se např. v TTS Demosthénes.