Reconhecimento de fala: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado
Resgatando 0 fontes e marcando 1 como inativas. #IABot (v2.0beta14)
Etiqueta: Inserção de predefinição obsoleta
Linha 1:
{{revisão}}
 
Reconhecimento de fala é uma área interdisciplinar originária da [[linguística computacional]] cujo objetivo é desenvolver métodos e tecnologias que permitam o reconhecimento e a transcrição de linguagem falada de maneira automática. As tecnologias de reconhecimento de fala são normalmente conhecidas pela sigla em inglês '''ASR''' de '''Automatic Speech Recognition''' (reconhecimento automático de fala), '''Computer Speech Recognition''' (reconhecimento de fala por computador) ou '''STT''' de '''Speech to Text''' (fala para texto).
Tecnologias de '''reconhecimento da fala''' (também denominado em alguns aparelhos como '''reconhecimento de voz''') permitem que [[computador]]es equipados com [[microfone]]s interpretem a fala humana, por exemplo, para transcrição ou como método de comando por voz.
Tais sistemas podem ser classificados por requererem, ou não, que o usuário treine o sistema a reconhecer seus padrões particulares de fala, por ter a habilidade de reconhecer fala contínua ou por requerer que o usuário fale pausadamente, e pelo tamanho do vocabulário que é capaz de reconhecer (pequeno, da ordem de dezenas a centenas de palavras, ou grande, com milhares de palavras).
 
 
Sistemas que requerem pouco treinamento podem capturar continuamente a fala com um amplo vocabulário, em ritmo normal, com precisão de cerca de 98% (duas palavras erradas em cem) enquanto sistemas que não requerem treinamento podem reconhecer um número pequeno de palavras como, por exemplo, os dez dígitos do [[sistema decimal]]. Tais sistemas são populares por direcionar chamadas telefônicas recebidas, em grandes organizações, aos seus destinos.
== Visão Geral ==
Tecnologias de '''reconhecimento da fala''' permitem que [[computador]]es equipados com [[microfone]]s reconheçam a fala humana, por exemplo, transcrevendo-a em texto que pode ser revertido em comandos. Por outro lado, o '''reconhecimento de voz''' é um problema distinto no qual o objetivo é identificar de maneira automática o falante em uma conversa. Em outras palavras, enquanto o reconhecimento de fala se preocupa em transcrever o áudio de uma fala para que um sistema computacional possa compreender a informação que está sendo falada, o reconhecimento de voz se preocupa em descobrir quem é o falante. As técnicas de reconhecimento de voz podem ter objetivo forense ou objetivarem a aplicação do sistema computacional a um ambiente com múltiplos falantes, como uma conversa entre seres humanos.
 
TaisOs sistemas de reconhecimento de fala podem ser classificados por requererem, ou não, que o usuário treine o sistema a reconhecer seus padrões particulares de fala, por ter a habilidade de reconhecer fala contínua ou por requerer que o usuário fale pausadamente, e pelo tamanho do vocabulário que é capaz de reconhecer (pequeno, da ordem de dezenas a centenas de palavras, ou grande, com milhares de palavras).
 
Sistemas que requerem pouco treinamento podem capturar continuamente a fala com um amplo vocabulário, em ritmo normal, com precisão de cerca de 98% (duas palavras erradas em cem) enquanto sistemas que não requerem treinamento podem reconhecer um número pequeno de palavras como, por exemplo, os dez dígitos do [[sistema decimal]]. Tais sistemas são populares por direcionar chamadas telefônicas recebidas, em grandes organizações, aos seus destinos. Além disso, sistemas com vocabulário restrito podem ser usados para implementar '''comandos por voz''', uma vez que se torna mais fácil para o sistema reconhecer palavras ou frases previamente estabelecidas. Essas palavras podem ser interpretadas pelo sistema como comandos e programadas para a execução de uma rotina específica pelo sistema.
 
Sistemas comerciais para reconhecimento da fala têm estado disponíveis desde os anos 90, porém é interessante notar que, apesar do aparente sucesso dessa tecnologia, poucas pessoas os usam.
Linha 17 ⟶ 22:
* A linguagem escrita precisa de pontuação de acordo com regras estritas que não estão fortemente presentes na fala e são difíceis de inferir sem conhecer o significado (vírgulas, fim de frase, citações).
 
O entendimento do significado das palavras ditas é pensado como um campo separado do entendimento natural da linguagem. Há vários exemplos de frases que soam iguais e só podem ser desambiguadas pela aparição dopelo contexto: uma famosa camisa vestida por pesquisadores da [[Apple Inc.]] dizia "I helped Apple wreck a nice beach" [Eu ajudei a Apple a destruir uma bela praia], o que, quando pronunciado, soa como "I helped Apple recognize speech" [Eu ajudei a Apple a reconhecer a fala].
 
Uma solução geral para muitos dos problemas acima requer efetivamente conhecimento humano, experiência e uma avançada tecnologia em [[inteligência artificial]]. Especificamente, modelos estatísticos de linguagem são frequentemente empregados para desambiguação e melhoramento da precisão do reconhecimento.
 
== História ==
As tecnologias de reconhecimento de fala tem seu início conjuntamente com a indústria telefônica, visando o aperfeiçoamento dos sistemas de comunicação. No anos de 1930, pesquisadores dos [[Laboratórios Bell]] propuseram o primeiro modelo para análise e síntese de fala <ref>{{cite journal|last1=Juang|first1=B. H.|last2=Rabiner|first2=Lawrence R.|title=Automatic speech recognition–a brief history of the technology development|page=6|url=http://www.ece.ucsb.edu/faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|accessdate=17 January 2015|deadurl=no|archiveurl=https://web.archive.org/web/20140817193243/http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|archivedate=17 August 2004|df=dmy-all}}</ref>.
 
== Soluções Comerciais ==
Atualmente existem diversas pesquisas em andamento em diferente universidades e empresas do mundo. Algumas soluções comerciais com diferentes graus de desempenhos são:
* [https://www.ibm.com/watson/services/speech-to-text/ Watson STT] Solução [[IBM]] [[Watson (supercomputador)|Watson]] de reconhecimento de fala.
* [https://aws.amazon.com/pt/transcribe/ Amazon Transcribe] Solução [[Amazon]] de reconhecimento de fala.
* [http://www.verbio.com/webverbio3/pt/tecnologia/verbio-asr.html Verbio ASR ]{{Ligação inativa|1=data=maio de 2019 }} Solução de reconhecimento da fala.
* [[Vocapia Research]], [http://www.vocapia.com/speech-to-text-technology.html Voxsigma Software Suite]
* [https://www.dvoz.org/index.php DVOZ Sistemas] Sistemas de Biometria para Programadores.
 
== Nota ==