Logická
elementy
atributy
textové uzly
instrukce pro zpracování
komentáře
fyzická
Dokument může být ve více fyzických jednotkách - entitách
Vždy alespoň jedna entita dokumentu
typy entit
parsované - soubory se správně utvořeným značkováním
neparsované - např. binární data
textové
znaky
kódování (Unicode)
znakové sady (UTF-8, UTF-16, UTF-32)