Na ciência da fala e na fonética, um formante é o máximo espectral amplo que resulta de uma ressonância acústica do trato vocal humano.[1][2] Na acústica, um formante é geralmente definido como um pico amplo ou máximo local no espectro.[3][4] Para sons harmônicos, com essa definição, a frequência do formante às vezes é considerada como a do harmônico que é mais ampliada por uma ressonância. A diferença entre essas duas definições reside no fato de os "formantes" caracterizarem os mecanismos de produção de um som ou o próprio som produzido. Na prática, a frequência de um pico espectral difere ligeiramente da frequência de ressonância associada, exceto quando, por sorte, os harmônicos estão alinhados com a frequência de ressonância. Pode-se dizer que uma sala tem formantes característicos dessa sala em particular, devido às suas ressonâncias, ou seja, à maneira como o som se reflete em suas paredes e objetos. Formantes de sala dessa natureza se reforçam ao enfatizar frequências específicas e absorver outras, como explorado, por exemplo, por Alvin Lucier em sua peça I Am Sitting in a Room.

Espectrograma das vogais do inglês americano [i, u, ɑ] mostrando os formantes F1 e F2
Por limitações técnicas, alguns navegadores podem não mostrar alguns caracteres especiais deste artigo.

Tanto na fala quanto nas salas, os formantes são características das ressonâncias do espaço. Diz-se que eles são estimulados por fontes acústicas, como a voz, e moldam (filtram) os sons das fontes, mas não são fontes em si.

História editar

Do ponto de vista acústico, a fonética tinha um sério problema com a ideia de que o comprimento efetivo do trato vocal mudava as vogais.[5] De fato, quando o comprimento do trato vocal muda, todos os ressonadores acústicos formados pelas cavidades bucais são dimensionados, assim como suas frequências de ressonância. Portanto, não estava claro como as vogais poderiam depender das frequências quando falantes com diferentes comprimentos de trato vocal, por exemplo, cantores graves e sopranos, podem produzir sons percebidos como pertencentes à mesma categoria fonética. Deveria haver alguma maneira de normalizar as informações espectrais que sustentam a identidade da vogal. Era preciso haver alguma maneira de normalizar as informações espectrais que sustentam a identidade das vogais. Hermann sugeriu uma solução para esse problema em 1894, cunhando o termo "formante". Uma vogal, segundo ele, é um fenômeno acústico especial, que depende da produção intermitente de uma característica parcial especial, ou "formante", ou "característico". A frequência do "formante" pode variar um pouco sem alterar o caráter da vogal. Para o "e longo" (ee ou iy), por exemplo, o "formante" de frequência mais baixa pode variar de 350 a 440 Hz, mesmo na mesma pessoa.[6]

Fonética editar

Formantes de vogais médios para uma voz masculina[7]
Vogal

(IPA)

Formante F1

(Hz)

Formante F2

(Hz)

Diferença

F2F1

(Hz)

i 240 2400 2160
y 235 2100 1865
e 390 2300 1910
ø 370 1900 1530
ɛ 610 1900 1290
œ 585 1710 1125
a 850 1610 760
ɶ 820 1530 710
ɑ 750 940 190
ɒ 700 760 60
ʌ 600 1170 570
ɔ 500 700 200
ɤ 460 1310 850
o 360 640 280
ɯ 300 1390 1090
u 250 595 345

Os formantes são componentes de frequência distintos do sinal acústico produzido pela fala, pelos instrumentos musicais[8] ou pelo canto.

As informações de que os seres humanos precisam para distinguir os sons da fala podem ser representadas de forma puramente quantitativa, especificando os picos no espectro de frequência. A maioria desses formantes é produzida pela ressonância do tubo e da câmara, mas alguns tons de apito derivam do colapso periódico das zonas de baixa pressão do efeito Venturi.[9]

O formante com a frequência mais baixa é chamado F1, o segundo F2 e o terceiro F3. A frequência fundamental ou o tom da voz às vezes é chamado de F0, mas não é um formante. Na maioria das vezes, os dois primeiros formantes, F1 e F2, são suficientes para identificar a vogal. A relação entre a qualidade da vogal percebida e as duas primeiras frequências de formantes pode ser apreciada ao ouvir "vogais artificiais" geradas pela passagem de um conjunto de cliques (para simular o conjunto de pulsos glóticos) por um par de filtros passa-banda (para simular as ressonâncias do trato vocal). As vogais anteriores têm F2 mais alto, enquanto as vogais baixas têm F1 mais alto. O arredondamento dos lábios tende a diminuir F1 e F2 nas vogais posteriores e F2 e F3 nas vogais anteriores.[10]

As consoantes nasais geralmente têm um formante adicional em torno de 2500 Hz. O [l] líquido geralmente tem um formante extra em 1500 Hz, enquanto o som do "r" inglês ([ɹ]) se distingue por um terceiro formante muito baixo (bem abaixo de 2000 Hz).

As plosivas (e, até certo ponto, as fricativas) modificam o posicionamento dos formantes nas vogais adjacentes. Os sons bilabiais (como /b/ e /p/ em "ball" ou "sap") causam um abaixamento dos formantes. Nos espectrogramas, os sons velares (/k/ e /ɡ/ em inglês) quase sempre mostram F2 e F3 se unindo em uma "pinça velar" antes da velar e se separando da mesma "pinça" quando a velar é liberada. Os sons alveolares (/t/ e /d/ do inglês) causam menos mudanças sistemáticas nos formantes das vogais vizinhas, dependendo parcialmente de qual vogal está presente. O curso de tempo dessas mudanças nas frequências dos formantes das vogais é chamado de "transições de formantes".

Na fala normal, a vibração subjacente produzida pelas pregas vocais se assemelha a uma onda em dente de serra, rica em sobretons harmônicos. Se a frequência fundamental ou (mais frequentemente) um dos sobretons for maior do que a frequência de ressonância do sistema, a ressonância será apenas fracamente estimulada e o formante normalmente transmitido por essa ressonância será praticamente perdido. Isso é mais evidente no caso de cantores de ópera soprano, que cantam em tons altos o suficiente para que suas vogais se tornem muito difíceis de distinguir.

O controle das ressonâncias é um componente essencial da técnica vocal conhecida como canto difônico, na qual o intérprete canta um tom fundamental baixo e cria ressonâncias agudas para selecionar os harmônicos superiores, dando a impressão de que vários tons estão sendo cantados ao mesmo tempo.

Os espectrogramas podem ser usados para visualizar os formantes. Nos espectrogramas, pode ser difícil distinguir os formantes dos harmônicos que ocorrem naturalmente quando alguém canta. Entretanto, é possível ouvir os formantes naturais em uma forma de vogal por meio de técnicas atonais, como em voz basal.

Estimativa de formantes editar

Os formantes, sejam eles vistos como ressonâncias acústicas do trato vocal ou como máximos locais no espectro da fala, como filtros passa-faixa, são definidos por sua frequência e por sua largura espectral (largura de banda).

Existem diferentes métodos para obter essas informações. As frequências de formantes, em sua definição acústica, podem ser estimadas a partir do espectro de frequência do som, usando um espectrograma (na figura) ou um analisador de espectro. Entretanto, para estimar as ressonâncias acústicas do trato vocal (ou seja, a definição de fala dos formantes) a partir de uma gravação de fala, pode-se usar a codificação preditiva linear. Uma abordagem intermediária consiste em extrair o envelope espectral neutralizando a frequência fundamental,[11] e só então procurar máximos locais no envelope espectral.

Gráficos de formantes editar

 
Diagrama dos formantes médios das vogais

Os dois primeiros formantes são importantes para determinar a qualidade das vogais e, com frequência, diz-se que correspondem às dimensões aberto/fechado (ou baixo/alto) e frente/trás (tradicionalmente associadas ao formato e à posição da língua). Assim, o primeiro formante F1 tem uma frequência mais alta para uma vogal aberta ou baixa, como [a], e uma frequência mais baixa para uma vogal fechada ou alta, como [i] ou [u]; e o segundo formante F2 tem uma frequência mais alta para uma vogal frontal, como [i], e uma frequência mais baixa para uma vogal posterior, como [u].[12][13]

As vogais quase sempre têm quatro ou mais formantes distinguíveis e, às vezes, mais de seis. No entanto, os dois primeiros formantes são os mais importantes na determinação da qualidade da vogal e são frequentemente colocados um contra o outro em diagramas de vogais,[14] embora essa simplificação não consiga captar alguns aspectos da qualidade da vogal, como o arredondamento.[15]

Muitos autores abordaram o problema de encontrar um alinhamento ideal das posições das vogais nos gráficos de formantes com aquelas no quadrilátero convencional das vogais. O trabalho pioneiro de Ladefoged[16] usou a escala MEL porque essa escala correspondia mais de perto à escala auditiva de tom do que à medida acústica da frequência fundamental expressa em Hertz. Duas alternativas à escala MEL são a escala de Bark e a escala de taxa de ERB.[17] Outra estratégia amplamente adotada é traçar a diferença entre F1 e F2 em vez de F2 no eixo horizontal.

Formante do cantor editar

Estudos do espectro de frequência de falantes treinados e cantores clássicos, especialmente cantores do sexo masculino, indicam um formante claro em torno de 3000 Hz (entre 2800 e 3400 Hz) que está ausente na fala ou nos espectros de falantes e cantores não treinados. Acredita-se que ele esteja associado a uma ou mais das ressonâncias mais altas do trato vocal.[18][19] É esse aumento de energia em 3000 Hz que permite que os cantores sejam ouvidos e compreendidos em uma orquestra. Esse formante é ativamente desenvolvido por meio do treinamento vocal, por exemplo, por meio dos chamados exercícios de voce di strega ou "voz de bruxa"[20] e é causado por uma parte do trato vocal que age como um ressonador.[21] Na música clássica e na pedagogia vocal, esse fenômeno também é conhecido como squillo.

Ver também editar

Referências editar

  1. Titze, Ingo R. (1994). Principles of voice production (em inglês). Englewood Cliffs, N.J: Prentice Hall 
  2. Titze, Ingo R.; Baken, Ronald J.; Bozeman, Kenneth W.; Granqvist, Svante; Henrich, Nathalie; Herbst, Christian T.; Howard, David M.; Hunter, Eric J.; Kaelin, Dean (maio de 2015). «Toward a consensus on symbolic notation of harmonics, resonances, and formants in vocalization». The Journal of the Acoustical Society of America (em inglês) (5): 3005–3007. ISSN 1520-8524. PMC 5392060 . PMID 25994732. doi:10.1121/1.4919349 
  3. Jeans, James Hopwood (1968). Science and music. Col: Dover books on music, music history (em inglês). New York: Dover Publications 
  4. Standards Secretariat, Acoustical Society of America, (1994). ANSI S1.1-1994 (R2004) American National Standard Acoustical Terminology, (12.41) Acoustical Society of America, Melville, NY.
  5. Hermann, Ludimar (1894). Phonophotographische Untersuchungen [Phonophotographical Studies] (em alemão) 5th ed. [S.l.: s.n.] 
  6. McKendrick, J. G. «Experimental phonetics - Annual report of the board of regents of the Smithsonian Institution for the year ending June 30, 1902» (PDF). Smithsonian Institution. Annual report of the board of regents of the Smithsonian Institution (em inglês): 241-259 
  7. Catford, John C. (1994). A practical introduction to phonetics (em inglês) Reprinted with corrections ed. Oxford: Clarendon. p. 161 
  8. Reuter, Christoph. «The role of formant positions and micro-modulations in blending and partial masking of musical instruments». Journal of the Acoustical Society of America (JASA) (em inglês). 126,4. 2237 páginas 
  9. Flanagan, James L. (1972). Speech Analysis Synthesis and Perception (em inglês). [S.l.: s.n.] 
  10. Thomas, Erik R. (2011). Sociophonetics: an introduction (em inglês). London: Palgrave Macmillan. p. 145 
  11. Kawahara, Hideki; Masuda-Katsuse, Ikuyo; de Cheveigné, Alain (abril de 1999). «Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds». Speech Communication (em inglês). 27 (3–4): 187–207. doi:10.1016/S0167-6393(98)00085-5 
  12. Ladefoged, Peter (2007). A course in phonetics (em inglês) 5. ed., 5. [pr.], internat. student ed ed. Boston, MA: Thomson Wadsworth. p. 188 
  13. Ladefoged, Peter (2004). Vowels and consonants: an introduction to the sounds of languages (em inglês) Repr ed. Malden, Mass: Blackwell. p. 40 
  14. Deterding, David (junho de 1997). «The Formants of Monophthong Vowels in Standard Southern British English Pronunciation». Journal of the International Phonetic Association (em inglês) (1-2): 47–55. ISSN 1475-3502. doi:10.1017/S0025100300005417 
  15. Hayward, Katrina (2000). Experimental phonetics. Col: Longman linguistics library (em inglês). London: Longman. p. 149 
  16. Ladefoged, Peter (1975). Three areas of experimental phonetics: stress and respiratory activity, the nature of vowel quality, units in the perception and production of speech. Col: Language and language learning (em inglês) 4. impr ed. London: Oxford Univ. Press. p. 87 
  17. Hayward, Katrina (2000). Experimental phonetics. Col: Longman linguistics library (em inglês). London: Longman 
  18. Sundberg, Johan (1 de abril de 1974). «Articulatory interpretation of the "singing formant"». The Journal of the Acoustical Society of America (em inglês) (4): 55, 838–844. ISSN 0001-4966. doi:10.1121/1.1914609 
  19. Bele, Irene Velsvik (dezembro de 2006). «The speaker's formant». Journal of Voice: Official Journal of the Voice Foundation (em inglês) (4): 555–578. ISSN 0892-1997. PMID 16325374. doi:10.1016/j.jvoice.2005.07.001 
  20. Frisell, Anthony (2007). Baritone Voice (em inglês). Boston: Branden Books. 84 páginas. ISBN 978-0-8283-2181-5 
  21. Sundberg, Johan (1987). The science of the singing voice (em inglês). DeKalb, Ill: Northern Illinois University Press. ISBN 0-87580-542-6 

Ligações externas editar