Hlavní zásady konstrukce kanonického tvaru XML dokumentu:
kódování v UTF-8
zlomy řádků (CR, LF) jsou normalizovány podle algoritmu uvedeného v std. XML 1.0
hodnoty atributů jsou normalizovány
reference na znakové a parsované entity jsou nahrazeny jejich obsahem
CDATA sekce jsou nahrazeny jejich obsahem
hlavička "xml" a deklarace typu dokumentu jsou odstraněny
bílé znaky mimo kořenový element jsou normalizovány
jiné bílé znaky (vyjma normalizace zlomu řádků) jsou zachovány
hodnoty atributů jsou uvozeny "
speciální znaky v hodnotách atributů a textovém obsahu elementů jsou nahrazeny referencemi na entity
nadbytečné deklarace jmenných prostorů jsou z každého elementu odstraněny
implicitní hodnoty atributů jsou dodány do každého elementu (kde je to relevantní)
na pořadí atributů a deklarací jmenných prostorů se uplatní lexikografické řazení