Modelo fonte-filtro da voz

O modelo Fonte-Filtro da voz descreve a voz falada ou cantada como uma combinação de uma fonte de som, como as cordas vocais, e um filtro acústico linear, o trato vocal , que modifica o som gerado na fonte. Uma suposição importante que geralmente é feita no uso do modelo de filtro de origem é a independência da fonte e do filtro. Ou seja, em princípio, o indivíduo poderia controlar separadamente o funcionamento da laringe e o do trato vocal, e este não afetaria em nada o comportamento da fonte sonora. Nesses casos, o modelo deve ser referido com mais precisão como o "modelo independente de filtro de origem".

Embora seja uma simplificação ao que de fato ocorre, o modelo é amplamente usado em várias aplicações devido à sua relativa comodidade. Em graus variados, diferentes fonemas podem ser distinguidos por sua estrutura espectral. Os sons vocais (por exemplo, as vogais) têm uma fonte que se manifesta como uma onda glótica periódica, que pode ser aproximada por um trem de impulso no domínio do tempo e por harmônicos no domínio da frequência, sendo que esta onda glótica passa pelo trato vocal ( o filtro) que depende da posição da língua , da abertura da mandíbula, da altura da laringe e a protrusão labial, dentre outros fatores secundários. Por outro lado, os fonemas fricativos têm uma fonte que gera ruído turbulento produzido por uma constrição na cavidade oral (por exemplo, os sons representados ortograficamente por "s" e "f"). As chamadas fricativas sonoras (como "z" e "v") têm duas fontes combinadas - uma na glote e outra na constrição supra-glótica.

O modelo fonte-filtro é aplicável tanto na síntese quanto na análise de fala, e pode ser operacionalizado através de diferentes métodos, o mais conhecido sendo o LPC (codificação da predição linear). O desenvolvimento do modelo se deve, em grande parte, aos primeiros trabalhos dos cientistas suecos Gunnar Fant e Johan Liljencrantz, embora outros, como Ken Stevens, também tenham contribuído substancialmente para os modelos subjacentes à análise acústica da fala e síntese de fala.

Na implementação do modelo fonte-filtro na produção da fala, a fonte de som ou sinal de excitação são frequentemente modelados como um trem de impulso periódico, para voz sonora, ou com ruído branco para voz não sonora. O filtro do trato vocal é, no caso mais simples, aproximado por um filtro polivalente, em que os coeficientes são obtidos através da predição linear para minimizar o erro quadrático médio no sinal de fala a ser reproduzido. A convolução do sinal de excitação com a resposta do filtro produz o discurso sintetizado.

Bibliografia editar