UTF-8: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado
Linha 1:
{{Sem-fontes|data=janeiro de 2011| angola=| arte=| Brasil=| ciência=| geografia=| música=| Portugal=| sociedade=|1=|2=|3=|4=|5=|6=}}
{{Tabela Unicode}}
'''UTF-8''' (8-[[bit]] [[Unicode|Unicode Transformation Format]]- informática avançada) é um tipo de codificação binária (Unicode) de comprimento variável criado por [[Ken Thompson]] e [[Rob Pike]]. Pode representar qualquer caracter universal padrão do Unicode, sendo também compatível com o [[ASCII]]. Por esta razão, está lentamente a ser adaptado como tipo de codificação padrão para email, páginas web, e outros locais onde os caracteres são armazenados.
 
UTF-8 usa de um a quatro [[byte]]s (estritamente, octetos) por carácter, dependendo do símbolo Unicode que representa. É necessário apenas um byte para codificar os 128 caracteres ASCII (Unicode U+0000 a U+007F). São necessários dois bytes para caracteres Latinos com [[diacrítico]]s. São também usados dois bytes para representar caracteres dos alfabetos [[Alfabeto grego|Grego]], [[Alfabeto cirílico|Cirílico]], Armênio, [[Alfabeto hebraico|Hebraico]], Sírio e Thaana (Unicode U+0080 a U+07FF). São necessários três bytes para o resto do [[Plano Multilingual Básico]] (que contém praticamente todos os caracteres comuns utilizados). Existem ainda outros caracteres que necessitam de quatro bytes.