Compreender o reconhecimento e a síntese da fala

Concluído

O reconhecimento de fala pega na palavra falada e converte-a em dados que podem ser processados - muitas vezes transcrevendo-a em texto. A linguagem falada pode assumir a forma de voz gravada num ficheiro de áudio ou áudio em tempo real de um microfone. Os padrões de voz são analisados no áudio para determinar padrões reconhecíveis que sejam mapeados a palavras. Para conseguir isso, o software normalmente usa vários modelos, incluindo:

  • Um modelo acústico que converte o sinal de áudio em fonemas (representações de sons específicos).
  • Um modelo de linguagem que mapeia fonemas para palavras, geralmente usando um algoritmo estatístico que prevê a sequência mais provável de palavras com base nos fonemas.

As palavras reconhecidas são normalmente convertidas em texto, que pode ser usado para vários fins, tais como:

  • Fornecer legendas para vídeos gravados ou em direto
  • Criar uma transcrição de uma reunião ou chamada
  • Ditados de notas automáticos
  • Determinar as informações pretendidas pelos utilizadores para processamento

A síntese de fala está preocupada com a vocalização de dados, geralmente convertendo texto em fala. Uma solução de sintetização de voz requer normalmente as seguintes informações:

  • O texto a ser falado
  • A voz a ser usada para vocalizar a fala

Para sintetizar a fala, o sistema normalmente tokeniza o texto para dividi-lo em palavras individuais e atribui sons fonéticos a cada palavra. Em seguida, quebra a transcrição fonética em unidades prosódicas (como frases, orações ou frases) para criar fonemas que serão convertidos para o formato de áudio. Esses fonemas são então sintetizados como áudio e podem ser atribuídos a uma voz, taxa de fala, tom e volume específicos.

Pode utilizar o resultado da sintetização de voz para muitas finalidades, incluindo:

  • Gerando respostas faladas à entrada do usuário
  • Criação de menus de voz para sistemas telefónicos
  • Ler e-mails ou mensagens de texto em voz alta em cenários mãos-livres
  • Anúncios de radiodifusão em locais públicos, como estações ferroviárias ou aeroportos