UTF-8: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado
Linha 33:
Todos são idênticos no seu funcionamento, diferindo apenas na escala de "code points" usados, e na manipulação segura de ''input'' inválido. Os bits de um carácter Unicode são divididos em vários grupos, que são depois divididos entre as posições mais baixas dentro dos bytes do UTF-8.
 
Um carácter com um "code point" abaixo de U+0080 é codificado com apenas um byte que contém o seu "code point": estes correspondem exactamente aos 128 caracteres do ASCII de 7-bit. Noutros casos, são necessários até quatro bytes. O mais alto destes é 1, para evitar confusão com os caracteres do ASCII de 7-bit, e assim manter seguro o processamento das strings padrão orientadas a bytes. teste
 
{{Ken Thompson navbox}}