Frequência de letras

A frequência de letras em um texto tem sido frequentemente estudada para uso em criptografia e análise de frequência em particular. Nenhuma distribuição de frequência de letras exata é subjacente a uma determinada língua, uma vez que todos os escritores escrevem um pouco diferente. As máquinas de linotipo classificaram as frequências das letras, como etaoin shrdlu cmfwyp vbgkqj xz com base na experiência e costume dos escritores manuais na língua inglesa. Da mesma forma, o moderno código Morse Internacional codifica as letras mais frequentes com o menor número de símbolos, organizando o alfabeto Morse em grupos de letras que exigem quantidades iguais de tempo para transmitir, e, em seguida, classificando os grupos em ordem crescente, resultando em uma ordem e it san hurdm wgvlfbk opjxcz yq. Ideias semelhantes são utilizadas em modernas técnicas de compressão de dados, tais como a Codificação de Huffman.

Análises mais recentes mostram que as frequências de letras, da mesma forma que as frequências de palavras, tendem a variar, tanto pelo escritor quanto pelo assunto. Não se pode escrever um ensaio sobre raios-x sem uso frequente de letras Xs, e a redação terá uma frequência de letras especialmente estranha se o ensaio é sobre o uso frequente de raios-x para o tratamento de zebras no Qatar. Diferentes autores têm hábitos que podem ser refletidos no uso das letras. O estilo de escrita de Hemingway, por exemplo, é visivelmente diferente do estilo de Faulkner. Letras, bigramas, trigramas, as frequências de palavras, o comprimento das palavras, e o comprimento das sentenças podem ser calculados por autor específico, e usados para provar ou negar a autoria dos textos, mesmo para os autores cujos estilos não são tão divergentes.

Uma média precisa de frequências de letras só pode ser adquirida através da análise de uma grande quantidade de textos representativos. Com a disponibilidade da computação moderna e coleções de grandes corpora de texto, esses cálculos são feitos facilmente.

Herbert S. Zim, em seu clássico texto introdutório de criptografia "Codes and Secret Writing", dá a sequência da frequência de letras em Inglês como sendo "ETAON RISHD LFCMU GYPWB VKXJQ Z", os pares de letras mais comuns como sendo "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO", e as letras dobradas mais comuns como sendo "LL EE SS OO TT FF RR NN PP CC".[1]

As doze letras mais frequentes incluem cerca de 80% do uso total. As oito letras mais frequentes incluem cerca de 65% do uso total. Um espião com a cifra VIC ou alguma outra cifra baseada em um tabuleiro de xadrez straddling normalmente utiliza um mnemônico, como "a sin to err" (deixando de lado o segundo "r") para lembrar as 8 letras (a,s,i,n,t,o,e,r) mais frequentes (neste exemplo, em inglês).

A utilização das frequências das letras e análise de frequência desempenha um papel fundamental em vários jogos, incluindo jogo da forca, palavras cruzadas(Scrabble), e criptogramas, entre outros.

Frequências de letras tem um forte impacto no projeto de alguns teclados. As letras mais frequentes ficam na linha superior do teclado AZERTY. As letras mais frequentes ficam na linha inferior do teclado Blickensderfer. As letras mais frequentes ficam na linha central do teclado Simplificado Dvorak.

Frequências relativas das letras em português editar

A frequência das letras na língua portuguesa estão listadas abaixo[2]

Letra Frequência
a 14.63%
b 1.04%
c 3.88%
d 4.99%
e 12.57%
f 1.02%
g 1.30%
h 1.28%
i 6.18%
j 0.40%
k 0.02%
l 2.78%
m 4.74%
n 5.05%
o 10.73%
p 2.52%
q 1.20%
r 6.53%
s 7.81%
t 4.34%
u 4.63%
v 1.67%
w 0.01%
x 0.21%
y 0.01%
z 0.47%

Frequências relativas das letras na língua inglesa editar

 
Frequências relativas das letras em textos. (língua inglesa)
 
Frequências relativas das letras ordenadas por frequência. (língua inglesa)

A frequência das letras na língua inglesa estão listadas abaixo.[3][4][5]

No entanto, esta tabela é um pouco diferente de outras, como a do Projeto da Universidade de Cornell Math Explorer[6] que avaliou mais de 40 000 palavras.

Letra Frequência
a 8.167%
b 1.492%
c 2.782%
d 4.253%
e 12.702%
f 2.228%
g 2.015%
h 6.094%
i 6.966%
j 0.153%
k 0.772%
l 4.025%
m 2.406%
n 6.749%
o 7.507%
p 1.929%
q 0.095%
r 5.987%
s 6.327%
t 9.056%
u 2.758%
v 0.978%
w 2.360%
x 0.150%
y 1.974%
z 0.074%

Em Inglês, o espaço é ligeiramente mais frequente do que a letra com mais frequência (7% mais frequentes do que, ou 107% mais frequente em relação à letra, e), e os caracteres não alfabéticos (dígitos, pontuação, etc) ocupam a quarta posição, entre t e a.[7]

Frequências relativas das primeiras letras de uma palavra no idioma inglês e português editar

Frequências de aparecimento como primeira letra de uma palavra:[8]

Letra Frequência
a 11.602%
b 4.702%
c 3.511%
d 2.670%
e 2.000%
f 3.779%
g 1.950%
h 7.232%
i 6.286%
j 0.631%
k 0.690%
l 2.705%
m 4.374%
n 2.365%
o 6.264%
p 2.545%
q 0.173%
r 1.653%
s 7.755%
t 16.671%
u 1.487%
v 0.619%
w 6.661%
x 0.005%
y 1.620%
z 0.050%

Frequências relativas das letras em outros idiomas editar

 
Frequência de uso de letras em espanhol
Letra Francês [9] Alemão [10] Espanhol [11] Português [12] Esperanto [13] Italiano[14] Turco Sueco[15] Polonês[16] Toki Pona [17] Holandês [18]
a 7.636% 6.51% 12.53% 14.63% 12.12% 11.74% 11.68% 9.3% 8.0% 17.2% 7.49%
b 0.901% 1.89% 1.42% 1.04% 0.98% 0.92% 2.95% 1.3% 1.3% 0.0% 1.58%
c 3.260% 3.06% 4.68% 3.88% 0.78% 4.5% 0.97% 1.3% 3.8% 0.0% 1.24%
d 3.669% 5.08% 5.86% 4.99% 3.04% 3.73% 4.87% 4.5% 3.0% 0.0% 5.93%
e 14.715% 17.40% 13.68% 12.57% 8.99% 11.79% 9.01% 9.9% 6.9% 7.4% 18.91%
f 1.066% 1.66% 0.69% 1.02% 1.03% 0.95% 0.44% 2.0% 0.1% 0.0% 0.81%
g 0.866% 3.01% 1.01% 1.30% 1.17% 1.64% 1.34% 3.3% 1.0% 0.0% 3.40%
h 0.737% 4.76% 0.70% 1.28% 0.38% 1.54% 1.14% 2.1% 1.0% 0.0% 2.38%
i 7.529% 7.55% 6.25% 6.18% 10.01% 11.28% 8.27%* 5.1% 7.0% 14.8% 6.50%
j 0.545% 0.27% 0.44% 0.40% 3.50% 0.00% 0.01% 0.7% 1.9% 3.0% 1.46%
k 0.049% 1.21% 0.01% 0.02% 4.16% 0.00% 4.71% 3.2% 2.7% 5.1% 2.25%
l 5.456% 3.44% 4.97% 2.78% 6.14% 6.51% 5.75% 5.2% 3.1% 10.2% 3.57%
m 2.968% 2.53% 3.15% 4.74% 2.99% 2.51% 3.74% 3.5% 2.4% 4.4% 2.21%
n 7.095% 9.78% 6.71% 5.05% 7.96% 6.88% 7.23% 8.8% 4.7% 11.6% 10.03%
o 5.378% 2.51% 8.68% 10.73% 8.78% 9.83% 2.45% 4.1% 7.1% 7.7% 6.06%
p 3.021% 0.79% 2.51% 2.52% 2.74% 3.05% 0.79% 1.7% 2.4% 3.7% 1.57%
q 1.362% 0.02% 0.88% 1.20% 0.00% 0.51% 0 0.007% - 0.0% 0.009%
r 6.553% 7.00% 6.87% 6.53% 5.91% 6.37% 6.95% 8.3% 3.5% 0.0% 6.41%
s 7.948% 7.27% 7.98% 7.81% 6.09% 4.98% 2.95% 6.3% 3.8% 4.1% 3.73%
t 7.244% 6.15% 4.63% 4.34% 5.27% 5.62% 3.09% 8.7% 2.4% 4.6% 6.79%
u 6.311% 4.35% 3.93% 4.63% 3.18% 3.01% 3.43% 1.8% 1.8% 3.2% 1.99%
v 1.628% 0.67% 0.90% 1.67% 1.90% 2.10% 0.98% 2.4% - 0.0% 2.85%
w 0.114% 1.89% 0.02% 0.01% 0.00% 0.00% 0 0.03% 3.6% 2.8% 1.52%
x 0.387% 0.03% 0.22% 0.21% 0.00% 0.00% 0 0.1% - 0.0% 0.04%
y 0.308% 0.04% 0.90% 0.01% 0.00% 0.00% 3.37% 0.6% 3.2% 0.0% 0.035%
z 0.136% 1.13% 0.52% 0.47% 0.50% 0.49% 1.50% 0.02% 5.1% 0.0% 1.39%
à 0.486% 0 0 ver a 0 ver a 0 0.0% 0 - ver a
å 0 0 0 0 0 0 0 1.6% 0 - -
ä 0 - 0 0 0 0 0 2.1% 0 - ver a
ą 0 - 0 0 0 0 0 0 ver a - -
œ 0.018% 0 0 0 0 0 0 0 0 - -
ç 0.085% 0 0 ver c 0 0 1.26% 0 0 - -
ĉ 0 0 0 0 0.66% 0 0 0 0 - -
ć 0 - 0 0 0 0 0 0 ver c - -
è 0.271% 0 0 0 0 ver e 0 0.0% 0 - ver e
é 1.904% 0 0 ver e 0 ver e 0 0.0% 0 - ver e
ê 0.225% 0 0 ver e 0 0 0 0 0 - -
ë 0.000% 0 0 0 0 0 0 0 0 - ver e
ę 0 - 0 0 0 0 0 0 see e - -
ĝ 0 0 0 0 0.69% 0 0 0 0 - -
ğ 0 0 0 0 0 0 1.13% 0 0 - -
ĥ 0 0 0 0 0.02% 0 0 0 0 - -
î 0.045% 0 0 0 0 0 0 0 0 0 -
ì 0 0 0 0 0 see i 0 0 0 - see i
ï 0.005% 0 0 0 0 0 0 0 0 - ver i
ı 0 0 0 0 0 0 5.20%* 0 0 - -
ĵ 0 0 0 0 0.12% 0 0 0 0 - -
ł 0 - 0 0 0 0 0 0 ver l - -
ñ 0 0 0.31% 0 0 0 0 0 0 - -
ń 0 - 0 0 0 0 0 0 ver n - -
ò 0 0 0 0 0 ver o 0 0 0 - ver o
ö 0 - 0 0 0 0 0.87% 1.5% 0 - ver o
ó 0 - 0 ver o 0 0 0 0 ver o - ver o
ŝ 0 0 0 0 0.38% 0 0 0 0 - -
ş 0 0 0 0 0 0 1.94% 0 0 - -
ś 0 - 0 0 0 0 0 0 ver s - -
ß 0 0.31% 0 0 0 0 0 0 0 - -
ù 0.058% 0 0 0 0 ver u 0 0 0 - ver u
ŭ 0 0 0 0 0.52% 0 0 0 0 - -
ü 0 - 0 0 0 0 1.99% 0 0 - ver u
ź 0 - 0 0 0 0 0 0 ver z - -
ż 0 - 0 0 0 0 0 0 0.7% - -

Com base nessas tabelas, os resultados do 'etaoin shrdlu'-equivalente para cada idioma é o seguinte:

  • Francês: 'esait nrulo'; (Indo-Europeu: Românico; tradicionalmente, 'esartinulop' é utilizada, em parte por sua facilidade de pronúncia[19])
  • Espanhol: 'eaosr nidlc'; (Indo-Europeu: Românico)
  • Português: 'aeosr indmt' (Indo-Europeu: Românico)
  • Italiano: 'eaion lrtsc'; (Indo-Europeu: Românico)
  • Esperanto: 'aieon lsrtk' (Língua planejada – influenciada por línguas indo-européias, Românico, Germanico em sua maioria)
  • Alemão: 'enisr atdhu'; (Indo-Europeu: Germanico)
  • Sueco: 'eantr slido'; (Indo-Europeu: Germanico)
  • Turco: 'aeinr ldkmu'; (Turkic: uma língua não indo-européia)
  • Holandês: 'enati rodsl'; (Indo-Europeu: Germanico)[20]
  • Polaco: 'aoiez nscwr'; (Indo-Europeu: Eslavo)

Todas estas línguas usam um alfabeto basicamente similar de 25+ caracteres alfabéticos.

Ver também editar

Referências

  1. Zim, Herbert Spencer. Codes and secret writing(abridged edition). Scholastic Book Services, fourth printing, 1962.Copyright 1948 Herbert S. Zim. Originally published by William Morrow.
  2. «Decifrando Textos em Português». Universidade Federal do Rio de Janeiro. Consultado em 30 de abril de 2021  |nome1= sem |sobrenome1= em Authors list (ajuda)
  3. Beker, Henry; Piper, Fred (1982). Cipher Systems: The Protection of Communications. [S.l.]: Wiley-Interscience. 397 páginas 
  4. Lewand, Robert (2010). Cryptological Mathematics. [S.l.]: The Mathematical Association of America. 36 páginas. ISBN 978-0883857199 
  5. «Cópia arquivada». Consultado em 8 de junho de 2010. Arquivado do original em 8 de julho de 2008 
  6. esta tabela
  7. Lee, E. Stewart; Essays about Computer Security; University of Cambridge Computer Laboratory, p. 181
  8. Calculado a partir de "Seleções do Projeto Gutenberg" disponível a partir de NLTK Corpora Arquivado em 22 de setembro de 2009, no Wayback Machine.
  9. «CorpusDeThomasTempé». Consultado em 15 de junho de 2007. Arquivado do original em 30 de setembro de 2007 
  10. Albrecht Beutelspacher, Kryptologie, 7. Aufl., Wiesbaden: Vieweg Verlagsgesellschaft, 2005, ISBN 3-8348-0014-7, p.10
  11. Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
  12. «Frequência da ocorrência de letras no Português». Consultado em 16 de junho de 2009 
  13. «La Oftecoj de la Esperantaj Literoj». Consultado em 14 de setembro de 2007 
  14. Simon Singh, Codici e Segreti, 1999, RCS, ISBN 88-17-12539-3
  15. Simon Singh, Kodboken, 1999, Norstedts, ISBN 91-1-1300708-4
  16. Wstęp do kryptologii, counting [space] 17.2%, [dot point] 0.9%, [comma] 0.9% and [semicolon] 0.5%
  17. «lipu pi jan Jakopo pi toki pona». Consultado em 14 de setembro de 2007. Arquivado do original em 14 de novembro de 2007 
  18. «Letterfrequenties». Genootschap OnzeTaal. Consultado em 17 de maio de 2009 
  19. Perec, Georges; Alphabets; Éditions Galilée, 1976
  20. «Letterfrequenties». Genootschap OnzeTaal. Consultado em 26 de dezembro de 2008 

Ligações externas editar