Introdução à voz no Azure

Concluído

O Microsoft Azure oferece recursos de reconhecimento e síntese de fala por meio do serviço Azure AI Speech , que oferece suporte a muitos recursos, incluindo:

  • Conversão de fala em texto
  • Conversão de texto em fala
  • Tradução de voz

Voz em texto

Você pode usar a API de Fala para texto do Azure AI para executar a transcrição em tempo real ou em lote de áudio em um formato de texto. A fonte de áudio para transcrição pode ser uma transmissão de áudio em tempo real de um microfone ou um ficheiro de áudio.

A API de Fala para texto da IA do Azure é baseada no Modelo de Linguagem Universal da Microsoft. Os dados para o modelo são de propriedade da Microsoft e implantados no Azure. O modelo é otimizado para dois cenários: conversação e ditado. Você também pode criar e treinar seus próprios modelos personalizados, incluindo acústica, linguagem e pronúncia, se os modelos pré-criados da Microsoft não fornecerem o que você precisa.

Transcrição em tempo real: Fala em tempo real para texto permite transcrever fluxos de áudio para texto. Pode utilizar a transcrição em tempo real para apresentações, demonstrações ou outros cenários com um orador.

Para que a transcrição em tempo real funcione, seu aplicativo precisa estar ouvindo o áudio recebido de um microfone ou outra fonte de entrada de áudio, como um arquivo de áudio. O código da aplicação transmite o áudio para o serviço, o qual devolve o texto transcrito.

Transcrição em lote: Nem todos os cenários de fala para texto são em tempo real. Você pode ter gravações de áudio armazenadas em um compartilhamento de arquivos, em um servidor remoto ou até mesmo no armazenamento do Azure. Pode apontar para ficheiros de áudio com um URI de assinatura de acesso partilhado (SAS) e receber os resultados de transcrição de forma assíncrona.

A transcrição em lote deve ser executada de forma assíncrona porque os trabalhos em lote são agendados em regime de melhor esforço. Normalmente, um trabalho começa a ser executado em poucos minutos após a solicitação, mas não há estimativa de quando um trabalho muda para o estado de execução.

Conversão de texto em voz

A API de conversão de texto em fala permite converter a entrada de texto em fala audível, que pode ser reproduzida diretamente através de um alto-falante do computador ou gravada em um arquivo de áudio.

Vozes de síntese de fala: ao usar a API de texto para fala, você pode especificar a voz a ser usada para vocalizar o texto. Esta capacidade oferece a flexibilidade de personalizar a sua solução de sintetização de voz e dar-lhe uma personalidade específica.

O serviço inclui várias vozes predefinidas com suporte para vários idiomas e pronúncia regional, incluindo vozes neurais que aproveitam as redes neurais para superar limitações comuns na síntese de fala no que diz respeito à entonação, resultando em uma voz de som mais natural. Você também pode desenvolver vozes personalizadas e usá-las com a API de texto para fala.

Tradução de voz

A Tradução de Fala do Azure é um recurso do serviço de Fala do Azure AI. A Tradução de Fala do Azure permite a tradução em tempo real do idioma falado obtendo entradas de fluxos de áudio e retornando texto em um idioma especificado. Ele funciona primeiro convertendo fala em texto usando reconhecimento automático de fala (ASR) e, em seguida, traduzindo o texto reconhecido para um ou mais idiomas de destino usando tradução automática. O serviço suporta uma ampla gama de idiomas de origem e de destino e pode fornecer traduções como texto ou fala sintetizada. Os desenvolvedores podem integrar essa funcionalidade em aplicativos usando APIs REST ou SDKs. Esses aplicativos funcionam bem em cenários como reuniões multilíngues, legendas de eventos ao vivo ou suporte ao cliente global.