Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Neste artigo, você aprenderá a ajustar uma voz profissional por meio do portal do Azure AI Foundry.
Importante
Atualmente, o ajuste de voz profissional só está disponível em algumas regiões. Depois que o modelo de voz for treinado em uma região com suporte, você poderá copiar o modelo de voz profissional para um recurso do Azure AI Foundry em outra região, conforme necessário. Para obter mais informações, confira as notas de rodapé na tabela do serviço de Fala.
A duração do treinamento varia dependendo da quantidade de dados que você usa. Leva cerca de 40 horas de computação em média para ajustar uma voz profissional. Com um recurso do Azure AI Foundry standard (S0), você pode treinar quatro vozes simultaneamente. Se o limite for alcançado, aguarde até que pelo menos um dos modelos de voz termine o treinamento; em seguida, tente novamente.
Observação
Embora o número total de horas necessárias por método de treinamento varie, o mesmo preço unitário se aplica a cada um. Para mais informações, confira os detalhes de preços de treinamento neural personalizado.
Escolher um método de treinamento
Depois de validar seus arquivos de dados, use-os para criar seu modelo de voz personalizado. Ao criar uma voz personalizada, você pode optar por treiná-la com um dos seguintes métodos:
Neural: criar uma voz no mesmo idioma dos dados de treinamento.
Neural – multilíngue: criar uma voz que fale um idioma diferente dos dados de treinamento. Por exemplo, com os dados de treinamento
zh-CN
, é possível criar uma voz que faleen-US
.O idioma dos dados de treinamento e o idioma de destino devem ser um dos idiomas com suporte para treinamento de voz entre idiomas diferentes. Você não precisa preparar dados de treinamento no idioma de destino, mas seu script de teste precisa estar no idioma de destino.
Neural – vários estilos: crie uma voz personalizada que fale em vários estilos e emoções, sem adicionar novos dados de treinamento. Vozes de vários estilos são úteis para personagens de videogame, chatbots de conversa, audiolivros, leitores de conteúdo e muito mais.
Para criar uma voz de vários estilos, você precisa preparar um conjunto de dados de treinamento geral com pelo menos 300 enunciados. Selecione um ou mais dos estilos de fala de destino predefinidos. Também é possível criar até dez estilos personalizados fornecendo exemplos de estilo, de pelo menos 100 enunciados por estilo, como dados de treinamento extras para a mesma voz. Os estilos predefinidos com suporte variam em idiomas diferentes. Confira Estilos predefinidos disponíveis em diferentes idiomas.
Neural – multilíngue (versão prévia): crie uma voz que fale vários idiomas usando os dados de treinamento de linguagem única. Por exemplo, com os dados de treinamento primários
en-US
, você pode criar uma voz que faleen-US
,de-DE
,zh-CN
etc., em idiomas secundários.O idioma principal dos dados de treinamento e dos idiomas secundários deve estar nos idiomas com suporte para treinamento de voz multilíngue. Você não precisa preparar dados de treinamento nos idiomas secundários.
O idioma dos dados de treinamento deve ser um dos idiomas com suporte para treinamento personalizado de voz, linguagem cruzada ou vários estilos.
Treinar seu modelo de voz personalizado
Para criar uma voz personalizada no portal do Azure AI Foundry, siga estas etapas para um dos seguintes métodos:
- Neuronal
- Neural – multilíngue
- Neural – vários estilos
- Neural – multilíngue (versão prévia)
- Neural – VOZ HD (versão prévia)
Entre no portal da Fábrica de IA do Azure.
Selecione Ajuste fino no painel esquerdo e selecione Ajuste fino do Serviço de IA.
Selecione a tarefa de ajuste de voz profissional (por nome do modelo) iniciada conforme descrito no artigo criar voz profissional.
Selecione Modelo de trem>+ Modelo de trem.
Selecione Neural como o método de treinamento para seu modelo. Para usar um método de treinamento diferente, consulte Neural - cross lingual, Neural - multi style, Neural - multilíngue (versão prévia) ou Neural - HD Voice (versão prévia).
Selecione uma versão da receita de treinamento para seu modelo. A versão mais recente é selecionada por padrão. Os recursos com suporte e o tempo de treinamento podem variar de acordo com a versão. Normalmente, recomendamos a versão mais recente. Em alguns casos, você pode escolher uma versão mais antiga para reduzir o tempo de treinamento. Confira o Treinamento bilíngue para obter mais informações sobre treinamento bilíngue e diferenças entre localidades.
Selecione Avançar.
Selecione os dados que você deseja usar para treinamento. Nomes de áudio duplicados são removidos do treinamento. Certifique-se de que os dados selecionados não contenham os mesmos nomes de áudio em vários arquivos .zip.
Você só pode selecionar conjuntos de dados processados com êxito para treinamento. Se você não vir o conjunto de treinamento na lista, verifique o status de processamento de dados.
Selecione um arquivo de locutor com a declaração do talento de voz que corresponde ao locutor em seus dados de treinamento.
Selecione Avançar.
Selecione um script de teste e selecione Avançar.
- Cada treinamento gera automaticamente 100 arquivos de áudio de exemplo, para ajudar você a testar o modelo com um script padrão.
- Como alternativa, você pode selecionar Adicionar meu próprio script de teste e fornecer seu próprio script de teste com até 100 enunciados para testar o modelo sem custo adicional. Os arquivos de áudio gerados são uma combinação dos scripts de teste automáticos e dos scripts de teste personalizados. Para mais informações, confira requisitos de script de teste.
Insira um nome de modelo de Voz. Escolha um nome com cuidado. O nome do modelo é usado como o nome de voz em sua solicitação de síntese de fala pela entrada do SDK e SSML. Apenas letras, números e alguns caracteres de pontuação são permitidos. Use nomes diferentes para modelos de voz neural diferentes.
Opcionalmente, insira a Descrição para ajudá-lo a identificar o modelo. Um uso comum do campo de descrição é registrar os nomes dos dados usados para criar o modelo.
Marque a caixa de seleção para aceitar os termos de uso e selecione Avançar.
Revise as configurações e selecione a caixa para aceitar os termos de uso.
Selecione Treinar para começar a treinar o modelo.
Treinamento bilíngue
Se selecionar o tipo de treinamento Neural, você poderá treinar uma voz para falar em vários idiomas. As localidades zh-CN
, zh-HK
e zh-TW
dão suporte ao treinamento bilíngue para que a voz fale chinês e inglês. Dependendo, em parte, dos seus dados de treinamento, a voz sintetizada pode falar inglês com sotaque de inglês nativo ou inglês com o mesmo sotaque dos dados de treinamento.
Observação
Para habilitar que uma voz na localidade zh-CN
fale inglês com o mesmo sotaque que os dados de exemplo, você deve carregar dados em inglês em um conjunto de treinamento contextual, ou escolher Chinese (Mandarin, Simplified), English bilingual
ao criar um projeto, ou ainda especificar a localidade zh-CN (English bilingual)
para os dados do conjunto de treinamento por meio da API REST.
Em seu conjunto de treinamento contextual, inclua pelo menos 100 frases ou 10 minutos de conteúdo em inglês e não exceda a quantidade de conteúdo chinês.
A tabela a seguir mostra as diferenças nas localidades:
Localidade do Speech Studio | Localidade da API REST | Suporte bilíngue |
---|---|---|
Chinese (Mandarin, Simplified) |
zh-CN |
Se a amostra de dados incluir o inglês, a voz sintetizada falará inglês com um sotaque de inglês nativo em vez do mesmo sotaque dos dados de exemplo, independentemente da quantidade de dados em inglês. |
Chinese (Mandarin, Simplified), English bilingual |
zh-CN (English bilingual) |
Se você quiser que a voz sintetizada fale inglês com o mesmo sotaque dos dados de exemplo, recomendamos incluir mais de 10% de dados em inglês no seu conjunto de treinamento. Caso contrário, o sotaque do inglês poderá não ser o ideal. |
Chinese (Cantonese, Simplified) |
zh-HK |
Se quiser treinar uma voz sintetizada capaz de falar inglês com o mesmo sotaque da sua amostra de dados, certifique-se de fornecer mais de 10% dos dados em inglês no seu conjunto de treinamento. Caso contrário, será usado o padrão com um sotaque de inglês nativo. O limite de 10% é calculado com base nos dados aceitos após um upload bem-sucedido, não nos dados anteriores ao upload. Se alguns dos dados em inglês carregados forem rejeitados devido a um defeito e o total não atingir o limite de 10%, a voz sintetizada usará como padrão um sotaque de inglês nativo. |
Chinese (Taiwanese Mandarin, Traditional) |
zh-TW |
Se quiser treinar uma voz sintetizada capaz de falar inglês com o mesmo sotaque da sua amostra de dados, certifique-se de fornecer mais de 10% dos dados em inglês no seu conjunto de treinamento. Caso contrário, será usado o padrão com um sotaque de inglês nativo. O limite de 10% é calculado com base nos dados aceitos após um upload bem-sucedido, não nos dados anteriores ao upload. Se alguns dos dados em inglês carregados forem rejeitados devido a um defeito e o total não atingir o limite de 10%, a voz sintetizada usará como padrão um sotaque de inglês nativo. |
Monitorar o processo de treinamento
A tabela Modelo de treinamento exibe uma nova entrada que corresponde ao modelo recém-criado. O status reflete o processo de conversão dos dados em um modelo de voz, conforme descrito nesta tabela:
Estado | Significado |
---|---|
Processamento | Seu modelo de voz está sendo criado. |
Teve êxito | Seu modelo de voz foi criado e pode ser implantado. |
Falhou | Seu modelo de voz falhou no treinamento. A causa da falha pode ser, por exemplo, problemas de dados ou problemas de rede não vistos. |
Cancelado | O treinamento para seu modelo de voz foi cancelado. |
Enquanto o status do modelo é Processamento, você pode selecionar o modelo e, em seguida, selecionar Cancelar treinamento para cancelar o treinamento. Você não será cobrado por esse treinamento cancelado.
Depois de concluir com sucesso o treinamento do modelo, examine os detalhes do modelo e Teste seu modelo de voz.
Renomear seu modelo
Você precisa clonar seu modelo para renomeá-lo. Você não pode renomear o modelo diretamente.
- Selecione o modelo.
- Selecione o modelo Clone para criar um clone do modelo com um novo nome no projeto atual.
- Insira o novo nome na janela Modelo de voz clonado.
- Selecione Enviar. O texto Neural é adicionado automaticamente como um sufixo ao seu novo nome do modelo.
Testar seu modelo de voz
Depois que o seu modelo de voz for criado com sucesso, você poderá usar os arquivos de áudio de exemplo gerados para testá-lo antes de implantá-lo.
Observação
Neural – multilíngue (versão prévia) e Neural – HD Voice (versão prévia) não dão suporte a esse tipo de teste.
A qualidade da voz depende de vários fatores, como:
- O tamanho dos dados de treinamento.
- A qualidade da gravação.
- A precisão do arquivo de transcrição.
- Quão bem a voz gravada nos dados de treinamento corresponde à personalidade da voz projetada para seu caso de uso pretendido.
Selecione DefaultTests em Teste para ouvir os arquivos de áudio de exemplo. Os exemplos de teste padrão incluem 100 arquivos de áudio de exemplo gerados automaticamente durante o treinamento para ajudar você a testar o modelo. Além desses 100 arquivos de áudio fornecidos por padrão, seus próprios enunciados de script de teste também são adicionadas ao conjunto DefaultTests. Essa adição é de no máximo 100 enunciados. Você não é cobrado pelo teste com DefaultTests.
Caso queira carregar seus próprios scripts de teste para testar ainda mais seu modelo, selecione Adicionar scripts de teste.
Antes de carregar o script de teste, verifique os requisitos de script de teste. Você é cobrado pelo teste extra com a síntese em lote com base no número de caracteres faturáveis. Confira preços da Fala de IA do Azure.
Sob Adicionar scripts de teste, selecione Procurar um arquivo para selecionar seu próprio script e selecione Adicionar para carregá-lo.
Requisitos de script de teste
O script de teste deve ser um arquivo .txt com menos de 1 MB de tamanho. Os formatos de codificação com suporte incluem ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE ou UTF-16-BE.
Ao contrário dos arquivos de transcrição de treinamento, o script de teste deve excluir a ID de enunciado, que é o nome de arquivo de cada enunciado. Caso contrário, essas IDs serão faladas.
Aqui está um exemplo de conjunto de enunciados em um arquivo .txt:
This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.
Cada parágrafo do enunciado resulta em um áudio separado. Se você quiser combinar todas as frases em um áudio, organize-as um único parágrafo.
Observação
Os arquivos de áudio gerados são uma combinação dos scripts de teste automáticos e dos scripts de teste personalizados.
Atualizar a versão do mecanismo para o modelo de voz
Os mecanismos de conversão de texto em fala do Azure são atualizados periodicamente para capturar o modelo de linguagem mais recente que define a pronúncia do idioma. Depois de treinar sua voz, você poderá aplicar sua voz ao novo modelo de linguagem atualizando para a versão mais recente do mecanismo.
- Quando um novo mecanismo está disponível, você é solicitado a atualizar seu modelo de voz neural.
- Vá para a página de detalhes do modelo e siga as instruções na tela para instalar o mecanismo mais recente.
- Como alternativa, selecione Instalar o mecanismo mais recente para atualizar seu modelo para a versão mais recente do mecanismo. Você não é cobrado pela atualização do mecanismo. As versões anteriores ainda são mantidas.
- Você pode verificar todas as versões do mecanismo para esse modelo na lista de Versão do mecanismo ou remover uma se não precisar mais dela.
A versão atualizada é definida automaticamente como padrão. Mas você pode alterar a versão padrão selecionando uma versão na lista suspensa e selecionando Definir como padrão.
Se quiser testar cada versão do mecanismo do modelo de voz, selecione uma versão na lista e selecione DefaultTests em Teste para ouvir os arquivos de áudio de exemplo. Se você quiser carregar seus próprios scripts de teste para testar ainda mais sua versão atual do mecanismo, primeiro verifique se a versão está definida como padrão e siga as etapas em Testar o seu modelo de voz.
A atualização do mecanismo cria uma nova versão do modelo sem custo adicional. Depois de atualizar a versão do mecanismo para o modelo de voz, você precisa implantar a nova versão para criar um novo ponto de extremidade. Você só pode implantar a versão padrão.
Depois de criar um novo ponto de extremidade, você precisará transferir o tráfego para o novo ponto de extremidade em seu produto.
Para saber mais sobre os recursos e os limites desse recurso e a prática recomendada para melhorar a qualidade do modelo, consulte Características e limitações para usar a voz personalizada.
Copiar seu modelo de voz para outro projeto
Observação
Nesse contexto, "projeto" refere-se a uma tarefa de ajuste fino em vez de um projeto do Azure AI Foundry.
Após o treinamento, você pode copiar seu modelo de voz para outro projeto para a mesma região ou outra região.
Por exemplo, você pode copiar um modelo de voz profissional treinado em uma região para um projeto de outra região. Atualmente, o ajuste de voz profissional só está disponível em algumas regiões.
Para copiar seu modelo de voz personalizado para outro projeto:
- Na guia Treinar modelo, selecione um modelo de voz que você deseja copiar e, em seguida, selecione Copiar para projeto.
- Selecione a assinatura, a região de destino, o recurso de serviço de IA conectado (recurso AI Foundry) e a tarefa de ajuste fino alvo onde você deseja copiar o modelo.
- Selecione Copiar para copiar o modelo.
- Selecione o Modelo de exibição na mensagem de notificação da cópia bem-sucedida.
Navegue até o projeto em que você copiou o modelo para implantar a cópia do modelo.
Próximas etapas
Neste artigo, você aprenderá a ajustar uma voz profissional por meio do portal do Speech Studio.
Importante
Atualmente, o ajuste de voz profissional só está disponível em algumas regiões. Depois que o modelo de voz for treinado em uma região com suporte, você poderá copiá-lo para um recurso de AI Foundry para Fala em outra região, conforme necessário. Para obter mais informações, confira as notas de rodapé na tabela do serviço de Fala.
A duração do treinamento varia dependendo da quantidade de dados que você usa. Leva cerca de 40 horas de computação em média para ajustar uma voz profissional. Usuários com assinatura Standard (S0) podem treinar até quatro vozes simultaneamente. Se o limite for alcançado, aguarde até que pelo menos um dos modelos de voz termine o treinamento; em seguida, tente novamente.
Observação
Embora o número total de horas necessárias por método de treinamento varie, o mesmo preço unitário se aplica a cada um. Para mais informações, confira os detalhes de preços de treinamento neural personalizado.
Escolher um método de treinamento
Depois de validar seus arquivos de dados, use-os para criar seu modelo de voz personalizado. Ao criar uma voz personalizada, você pode optar por treiná-la com um dos seguintes métodos:
Neural: criar uma voz no mesmo idioma dos dados de treinamento.
Neural – multilíngue: criar uma voz que fale um idioma diferente dos dados de treinamento. Por exemplo, com os dados de treinamento
zh-CN
, é possível criar uma voz que faleen-US
.O idioma dos dados de treinamento e o idioma de destino devem ser um dos idiomas com suporte para treinamento de voz entre idiomas diferentes. Você não precisa preparar dados de treinamento no idioma de destino, mas seu script de teste precisa estar no idioma de destino.
Neural – vários estilos: crie uma voz personalizada que fale em vários estilos e emoções, sem adicionar novos dados de treinamento. Vozes de vários estilos são úteis para personagens de videogame, chatbots de conversa, audiolivros, leitores de conteúdo e muito mais.
Para criar uma voz de vários estilos, você precisa preparar um conjunto de dados de treinamento geral com pelo menos 300 enunciados. Selecione um ou mais dos estilos de fala de destino predefinidos. Também é possível criar até dez estilos personalizados fornecendo exemplos de estilo, de pelo menos 100 enunciados por estilo, como dados de treinamento extras para a mesma voz. Os estilos predefinidos com suporte variam em idiomas diferentes. Confira Estilos predefinidos disponíveis em diferentes idiomas.
Neural – multilíngue (versão prévia): crie uma voz que fale vários idiomas usando os dados de treinamento de linguagem única. Por exemplo, com os dados de treinamento primários
en-US
, você pode criar uma voz que faleen-US
,de-DE
,zh-CN
etc., em idiomas secundários.O idioma principal dos dados de treinamento e dos idiomas secundários deve estar nos idiomas com suporte para treinamento de voz multilíngue. Você não precisa preparar dados de treinamento nos idiomas secundários.
Neural – VOZ HD (versão prévia): crie uma voz HD no mesmo idioma dos seus dados de treinamento. As vozes neurais HD do Azure são baseadas em LLM e otimizadas para conversas dinâmicas. Saiba mais sobre vozes hd neurais aqui.
O idioma dos dados de treinamento deve ser um dos idiomas com suporte para treinamento personalizado de voz, linguagem cruzada ou vários estilos.
Treinar seu modelo de voz personalizado
Para criar uma voz personalizada no Speech Studio, siga estas etapas para um dos seguintes métodos:
- Neuronal
- Neural – multilíngue
- Neural – vários estilos
- Neural – multilíngue (versão prévia)
- Neural – VOZ HD (versão prévia)
Entre no Speech Studio.
Selecione Voz personalizada><Nome do seu projeto>>Treinar modelo>Treinar um novo modelo.
Selecione Neural como o método de treinamentopara seu modelo e selecione Avançar. Para usar um método de treinamento diferente, veja Neural - cross lingual ou Neural - multi style ou Neural - multi lingual (versão prévia) ou Neural - HD Voice (versão prévia).
Selecione uma versão da receita de treinamento para seu modelo. A versão mais recente é selecionada por padrão. Os recursos com suporte e o tempo de treinamento podem variar de acordo com a versão. Normalmente, recomendamos a versão mais recente. Em alguns casos, você pode escolher uma versão mais antiga para reduzir o tempo de treinamento. Confira o Treinamento bilíngue para obter mais informações sobre treinamento bilíngue e diferenças entre localidades.
Observação
As versões dos modelos
V3.0
,V7.0
eV8.0
serão desativadas até 25 de julho de 2025. Os modelos de voz já criados nessas versões desativadas não serão afetados.Selecione os dados que você deseja usar para treinamento. Nomes de áudio duplicados são removidos do treinamento. Certifique-se de que os dados selecionados não contenham os mesmos nomes de áudio em vários arquivos .zip.
Você só pode selecionar conjuntos de dados processados com êxito para treinamento. Se você não vir o conjunto de treinamento na lista, verifique o status de processamento de dados.
Selecione um arquivo de locutor com a declaração do talento de voz que corresponde ao locutor em seus dados de treinamento.
Selecione Avançar.
Cada treinamento gera automaticamente 100 arquivos de áudio de exemplo, para ajudar você a testar o modelo com um script padrão.
Opcionalmente, você também pode selecionar Adicionar meu próprio script de teste e fornecer seu próprio script de teste com até 100 enunciados para testar o modelo sem custo extra. Os arquivos de áudio gerados são uma combinação dos scripts de teste automáticos e dos scripts de teste personalizados. Para mais informações, confira requisitos de script de teste.
Insira um nome para ajudar a identificar o modelo. Escolha um nome com cuidado. O nome do modelo é usado como o nome de voz em sua solicitação de síntese de fala pela entrada do SDK e SSML. Apenas letras, números e alguns caracteres de pontuação são permitidos. Use nomes diferentes para modelos de voz neural diferentes.
Opcionalmente, insira a Descrição para ajudá-lo a identificar o modelo. Um uso comum do campo de descrição é registrar os nomes dos dados usados para criar o modelo.
Selecione Avançar.
Revise as configurações e selecione a caixa para aceitar os termos de uso.
Selecione Enviar para começar a treinar o modelo.
Treinamento bilíngue
Se selecionar o tipo de treinamento Neural, você poderá treinar uma voz para falar em vários idiomas. As localidades zh-CN
, zh-HK
e zh-TW
dão suporte ao treinamento bilíngue para que a voz fale chinês e inglês. Dependendo, em parte, dos seus dados de treinamento, a voz sintetizada pode falar inglês com sotaque de inglês nativo ou inglês com o mesmo sotaque dos dados de treinamento.
Observação
Para habilitar que uma voz na localidade zh-CN
fale inglês com o mesmo sotaque que os dados de exemplo, você deve carregar dados em inglês em um conjunto de treinamento contextual, ou escolher Chinese (Mandarin, Simplified), English bilingual
ao criar um projeto, ou ainda especificar a localidade zh-CN (English bilingual)
para os dados do conjunto de treinamento por meio da API REST.
Em seu conjunto de treinamento contextual, inclua pelo menos 100 frases ou 10 minutos de conteúdo em inglês e não exceda a quantidade de conteúdo chinês.
A tabela a seguir mostra as diferenças nas localidades:
Localidade do Speech Studio | Localidade da API REST | Suporte bilíngue |
---|---|---|
Chinese (Mandarin, Simplified) |
zh-CN |
Se a amostra de dados incluir o inglês, a voz sintetizada falará inglês com um sotaque de inglês nativo em vez do mesmo sotaque dos dados de exemplo, independentemente da quantidade de dados em inglês. |
Chinese (Mandarin, Simplified), English bilingual |
zh-CN (English bilingual) |
Se você quiser que a voz sintetizada fale inglês com o mesmo sotaque dos dados de exemplo, recomendamos incluir mais de 10% de dados em inglês no seu conjunto de treinamento. Caso contrário, o sotaque do inglês poderá não ser o ideal. |
Chinese (Cantonese, Simplified) |
zh-HK |
Se quiser treinar uma voz sintetizada capaz de falar inglês com o mesmo sotaque da sua amostra de dados, certifique-se de fornecer mais de 10% dos dados em inglês no seu conjunto de treinamento. Caso contrário, será usado o padrão com um sotaque de inglês nativo. O limite de 10% é calculado com base nos dados aceitos após um upload bem-sucedido, não nos dados anteriores ao upload. Se alguns dos dados em inglês carregados forem rejeitados devido a um defeito e o total não atingir o limite de 10%, a voz sintetizada usará como padrão um sotaque de inglês nativo. |
Chinese (Taiwanese Mandarin, Traditional) |
zh-TW |
Se quiser treinar uma voz sintetizada capaz de falar inglês com o mesmo sotaque da sua amostra de dados, certifique-se de fornecer mais de 10% dos dados em inglês no seu conjunto de treinamento. Caso contrário, será usado o padrão com um sotaque de inglês nativo. O limite de 10% é calculado com base nos dados aceitos após um upload bem-sucedido, não nos dados anteriores ao upload. Se alguns dos dados em inglês carregados forem rejeitados devido a um defeito e o total não atingir o limite de 10%, a voz sintetizada usará como padrão um sotaque de inglês nativo. |
Monitorar o processo de treinamento
A tabela Modelo de treinamento exibe uma nova entrada que corresponde ao modelo recém-criado. O status reflete o processo de conversão dos dados em um modelo de voz, conforme descrito nesta tabela:
Estado | Significado |
---|---|
Processamento | Seu modelo de voz está sendo criado. |
Teve êxito | Seu modelo de voz foi criado e pode ser implantado. |
Falhou | Seu modelo de voz falhou no treinamento. A causa da falha pode ser, por exemplo, problemas de dados ou problemas de rede não vistos. |
Cancelado | O treinamento para seu modelo de voz foi cancelado. |
Quando o status do modelo estiver Em processamento, selecione Cancelar treinamento para cancelar seu modelo de voz. Você não será cobrado por esse treinamento cancelado.
Depois de concluir com sucesso o treinamento do modelo, examine os detalhes do modelo e Teste seu modelo de voz.
Você pode usar a ferramenta Criação de Conteúdo de Áudio no Speech Studio para criar áudio e ajustar sua voz implantada. Se aplicável à sua voz, você pode selecionar um dos vários estilos.
Renomear seu modelo
Caso queira renomear o modelo criado, selecione Clonar modelo para criar um clone do modelo com um novo nome no projeto atual.
Insira o novo nome na janela Clonar modelo de voz e selecione Enviar. O texto Neural é adicionado automaticamente como um sufixo ao seu novo nome do modelo.
Testar seu modelo de voz
Depois que o seu modelo de voz for criado com sucesso, você poderá usar os arquivos de áudio de exemplo gerados para testá-lo antes de implantá-lo.
Observação
Neural – multilíngue (versão prévia) e Neural – HD Voice (versão prévia) não dão suporte a esse tipo de teste.
A qualidade da voz depende de vários fatores, como:
- O tamanho dos dados de treinamento.
- A qualidade da gravação.
- A precisão do arquivo de transcrição.
- Quão bem a voz gravada nos dados de treinamento corresponde à personalidade da voz projetada para seu caso de uso pretendido.
Selecione DefaultTests em Teste para ouvir os arquivos de áudio de exemplo. Os exemplos de teste padrão incluem 100 arquivos de áudio de exemplo gerados automaticamente durante o treinamento para ajudar você a testar o modelo. Além desses 100 arquivos de áudio fornecidos por padrão, seus próprios enunciados de script de teste também são adicionadas ao conjunto DefaultTests. Essa adição é de no máximo 100 enunciados. Você não é cobrado pelo teste com DefaultTests.
Caso queira carregar seus próprios scripts de teste para testar ainda mais seu modelo, selecione Adicionar scripts de teste.
Antes de carregar o script de teste, verifique os requisitos de script de teste. Você é cobrado pelo teste extra com a síntese em lote com base no número de caracteres faturáveis. Confira preços da Fala de IA do Azure.
Sob Adicionar scripts de teste, selecione Procurar um arquivo para selecionar seu próprio script e selecione Adicionar para carregá-lo.
Requisitos de script de teste
O script de teste deve ser um arquivo .txt com menos de 1 MB de tamanho. Os formatos de codificação com suporte incluem ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE ou UTF-16-BE.
Ao contrário dos arquivos de transcrição de treinamento, o script de teste deve excluir a ID de enunciado, que é o nome de arquivo de cada enunciado. Caso contrário, essas IDs serão faladas.
Aqui está um exemplo de conjunto de enunciados em um arquivo .txt:
This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.
Cada parágrafo do enunciado resulta em um áudio separado. Se você quiser combinar todas as frases em um áudio, organize-as um único parágrafo.
Observação
Os arquivos de áudio gerados são uma combinação dos scripts de teste automáticos e dos scripts de teste personalizados.
Atualizar a versão do mecanismo para o modelo de voz
Os mecanismos de conversão de texto em fala do Azure são atualizados periodicamente para capturar o modelo de linguagem mais recente que define a pronúncia do idioma. Depois de treinar sua voz, você poderá aplicar sua voz ao novo modelo de linguagem atualizando para a versão mais recente do mecanismo.
Quando um novo mecanismo está disponível, você é solicitado a atualizar seu modelo de voz neural.
Vá para a página de detalhes do modelo e siga as instruções na tela para instalar o mecanismo mais recente.
Como alternativa, selecione Instalar o mecanismo mais recente para atualizar seu modelo para a versão mais recente do mecanismo.
Você não é cobrado pela atualização do mecanismo. As versões anteriores ainda são mantidas.
Você pode verificar todas as versões do mecanismo para esse modelo na lista de Versão do mecanismo ou remover uma se não precisar mais dela.
A versão atualizada é definida automaticamente como padrão. Mas você pode alterar a versão padrão selecionando uma versão na lista suspensa e selecionando Definir como padrão.
Se quiser testar cada versão do mecanismo do modelo de voz, selecione uma versão na lista e selecione DefaultTests em Teste para ouvir os arquivos de áudio de exemplo. Se você quiser carregar seus próprios scripts de teste para testar ainda mais sua versão atual do mecanismo, primeiro verifique se a versão está definida como padrão e siga as etapas em Testar o seu modelo de voz.
A atualização do mecanismo cria uma nova versão do modelo sem custo adicional. Depois de atualizar a versão do mecanismo para o modelo de voz, você precisa implantar a nova versão para criar um novo ponto de extremidade. Você só pode implantar a versão padrão.
Depois de criar um novo ponto de extremidade, você precisará transferir o tráfego para o novo ponto de extremidade em seu produto.
Para saber mais sobre os recursos e os limites desse recurso e a prática recomendada para melhorar a qualidade do modelo, consulte Características e limitações para usar a voz personalizada.
Copiar seu modelo de voz para outro projeto
É possível copiar seu modelo de voz para outro projeto para a mesma região ou outra região. Por exemplo, você pode copiar um modelo de voz neural que foi treinado em uma região, para um projeto para outra região.
Observação
Atualmente, o ajuste de voz profissional só está disponível em algumas regiões. Você pode copiar um modelo de voz neural dessas regiões para outras regiões. Para obter mais informações, consulte as regiões para obter voz personalizada.
Para copiar seu modelo de voz personalizado para outro projeto:
Na guia Treinar modelo, selecione um modelo de voz que você deseja copiar e, em seguida, selecione Copiar para projeto.
Selecione a Assinatura, Região, o Recurso de Fala e Projeto onde você deseja copiar o modelo. Você deve ter um recurso de fala e um projeto na região de destino, caso contrário, você precisa criá-los primeiro.
Selecione Enviar para copiar o modelo.
Selecione o Modelo de exibição na mensagem de notificação da cópia bem-sucedida.
Navegue até o projeto em que você copiou o modelo para implantar a cópia do modelo.
Próximas etapas
Neste artigo, você aprenderá a ajustar uma voz profissional por meio da API de voz personalizada.
Importante
Atualmente, o ajuste de voz profissional só está disponível em algumas regiões. Depois que o modelo de voz for treinado em uma região com suporte, você poderá copiá-lo para um recurso do AI Foundry em outra região, conforme necessário. Para obter mais informações, confira as notas de rodapé na tabela do serviço de Fala.
A duração do treinamento varia dependendo da quantidade de dados que você usa. Leva cerca de 40 horas de computação em média para ajustar uma voz profissional. Usuários com assinatura Standard (S0) podem treinar até quatro vozes simultaneamente. Se o limite for alcançado, aguarde até que pelo menos um dos modelos de voz termine o treinamento; em seguida, tente novamente.
Observação
Embora o número total de horas necessárias por método de treinamento varie, o mesmo preço unitário se aplica a cada um. Para mais informações, confira os detalhes de preços de treinamento neural personalizado.
Escolher um método de treinamento
Depois de validar seus arquivos de dados, use-os para criar seu modelo de voz personalizado. Ao criar uma voz personalizada, você pode optar por treiná-la com um dos seguintes métodos:
Neural: criar uma voz no mesmo idioma dos dados de treinamento.
Neural – multilíngue: criar uma voz que fale um idioma diferente dos dados de treinamento. Por exemplo, com os dados de treinamento
fr-FR
, é possível criar uma voz que faleen-US
.O idioma dos dados de treinamento e o idioma de destino devem ser um dos idiomas com suporte para treinamento de voz entre idiomas diferentes. Você não precisa preparar dados de treinamento no idioma de destino, mas seu script de teste precisa estar no idioma de destino.
Neural – vários estilos: crie uma voz personalizada que fale em vários estilos e emoções, sem adicionar novos dados de treinamento. Vozes de vários estilos são úteis para personagens de videogame, chatbots de conversa, audiolivros, leitores de conteúdo e muito mais.
Para criar uma voz de vários estilos, você precisa preparar um conjunto de dados de treinamento geral com pelo menos 300 enunciados. Selecione um ou mais dos estilos de fala de destino predefinidos. Também é possível criar até dez estilos personalizados fornecendo exemplos de estilo, de pelo menos 100 enunciados por estilo, como dados de treinamento extras para a mesma voz. Os estilos predefinidos com suporte variam em idiomas diferentes. Confira Estilos predefinidos disponíveis em diferentes idiomas.
- Neural – VOZ HD (versão prévia): crie uma voz HD no mesmo idioma dos seus dados de treinamento. As vozes neurais HD do Azure são baseadas em LLM e otimizadas para conversas dinâmicas. Saiba mais sobre vozes hd neurais aqui.
O idioma dos dados de treinamento deve ser um dos idiomas compatíveis com voz personalizada, linguagem cruzada ou treinamento de vários estilos ou voz HD.
Ciar um modelo de voz
- Neuronal
- Neural – multilíngue
- Neural – vários estilos
- Neural – multilíngue (versão prévia)
- Neural – VOZ HD (versão prévia)
Para criar uma voz neural, use a operação Models_Create da API de voz personalizada. Crie o corpo da solicitação de acordo com as seguintes instruções:
- Defina a propriedade
projectId
obrigatória. Consulte criar um projeto. - Defina a propriedade
consentId
obrigatória. Confira adicionar consentimento do talento de voz. - Defina a propriedade
trainingSetId
obrigatória. Confira criar um conjunto de treinamento. - Defina a propriedade da receita
kind
necessária comoDefault
para treinamento de voz neural. O tipo de receita indica o método de treinamento e não pode ser alterado posteriormente. Para usar um método de treinamento diferente, veja Neural - cross lingual ou Neural - multi style ou Neural - HD Voice (prévia). Confira o Treinamento bilíngue para obter mais informações sobre treinamento bilíngue e diferenças entre localidades. - Defina a propriedade
voiceName
obrigatória. Escolha um nome com cuidado. O nome de voz é usado em sua solicitação de síntese de fala pela entrada do SDK e SSML. Apenas letras, números e alguns caracteres de pontuação são permitidos. Use nomes diferentes para modelos de voz neural diferentes. - Opcionalmente, defina a propriedade
description
para a descrição da voz. A descrição da voz pode ser alterada posteriormente.
Faça uma solicitação HTTP PUT usando o URI, conforme mostrado no exemplo de Models_Create a seguir.
- Substitua
YourResourceKey
pela chave do recurso de Fala. - Substitua
YourResourceRegion
pela região do recurso de Fala. - Substitua
JessicaModelId
por uma ID de modelo de sua escolha. A ID que diferencia maiúsculas e minúsculas será usada no URI do modelo e não poderá ser alterada posteriormente.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
"voiceName": "JessicaNeural",
"description": "Jessica voice",
"recipe": {
"kind": "Default"
},
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"trainingSetId": "JessicaTrainingSetId"
} ' "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"
Você deverá receber um corpo de resposta no seguinte formato:
{
"id": "JessicaModelId",
"voiceName": "JessicaNeural",
"description": "Jessica voice",
"recipe": {
"kind": "Default",
"version": "V10.0"
},
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"trainingSetId": "JessicaTrainingSetId",
"locale": "en-US",
"engineVersion": "2023.07.04.0",
"status": "NotStarted",
"createdDateTime": "2023-04-01T05:30:00.000Z",
"lastActionDateTime": "2023-04-02T10:15:30.000Z"
}
Treinamento bilíngue
Se selecionar o tipo de treinamento Neural, você poderá treinar uma voz para falar em vários idiomas. As localidades zh-CN
, zh-HK
e zh-TW
dão suporte ao treinamento bilíngue para que a voz fale chinês e inglês. Dependendo, em parte, dos seus dados de treinamento, a voz sintetizada pode falar inglês com sotaque de inglês nativo ou inglês com o mesmo sotaque dos dados de treinamento.
Observação
Para habilitar que uma voz na localidade zh-CN
fale inglês com o mesmo sotaque que os dados de exemplo, você deve carregar dados em inglês em um conjunto de treinamento contextual, ou escolher Chinese (Mandarin, Simplified), English bilingual
ao criar um projeto, ou ainda especificar a localidade zh-CN (English bilingual)
para os dados do conjunto de treinamento por meio da API REST.
Em seu conjunto de treinamento contextual, inclua pelo menos 100 frases ou 10 minutos de conteúdo em inglês e não exceda a quantidade de conteúdo chinês.
A tabela a seguir mostra as diferenças nas localidades:
Localidade do Speech Studio | Localidade da API REST | Suporte bilíngue |
---|---|---|
Chinese (Mandarin, Simplified) |
zh-CN |
Se a amostra de dados incluir o inglês, a voz sintetizada falará inglês com um sotaque de inglês nativo em vez do mesmo sotaque dos dados de exemplo, independentemente da quantidade de dados em inglês. |
Chinese (Mandarin, Simplified), English bilingual |
zh-CN (English bilingual) |
Se você quiser que a voz sintetizada fale inglês com o mesmo sotaque dos dados de exemplo, recomendamos incluir mais de 10% de dados em inglês no seu conjunto de treinamento. Caso contrário, o sotaque do inglês poderá não ser o ideal. |
Chinese (Cantonese, Simplified) |
zh-HK |
Se quiser treinar uma voz sintetizada capaz de falar inglês com o mesmo sotaque da sua amostra de dados, certifique-se de fornecer mais de 10% dos dados em inglês no seu conjunto de treinamento. Caso contrário, será usado o padrão com um sotaque de inglês nativo. O limite de 10% é calculado com base nos dados aceitos após um upload bem-sucedido, não nos dados anteriores ao upload. Se alguns dos dados em inglês carregados forem rejeitados devido a um defeito e o total não atingir o limite de 10%, a voz sintetizada usará como padrão um sotaque de inglês nativo. |
Chinese (Taiwanese Mandarin, Traditional) |
zh-TW |
Se quiser treinar uma voz sintetizada capaz de falar inglês com o mesmo sotaque da sua amostra de dados, certifique-se de fornecer mais de 10% dos dados em inglês no seu conjunto de treinamento. Caso contrário, será usado o padrão com um sotaque de inglês nativo. O limite de 10% é calculado com base nos dados aceitos após um upload bem-sucedido, não nos dados anteriores ao upload. Se alguns dos dados em inglês carregados forem rejeitados devido a um defeito e o total não atingir o limite de 10%, a voz sintetizada usará como padrão um sotaque de inglês nativo. |
Estilos predefinidos disponíveis em diferentes idiomas
A tabela a seguir resume os diferentes estilos predefinidos de acordo com o idioma.
Estilo de fala | Idioma (localidade) |
---|---|
bravo | Inglês (Estados Unidos) (en-US )Japonês (Japão) ( ja-JP ) 1Chinês (mandarim, simplificado) ( zh-CN ) 1 |
calmo | Chinês (mandarim, simplificado) (zh-CN ) 1 |
bate-papo | Chinês (mandarim, simplificado) (zh-CN ) 1 |
alegre | Inglês (Estados Unidos) (en-US )Japonês (Japão) ( ja-JP ) 1Chinês (mandarim, simplificado) ( zh-CN ) 1 |
descontente | Chinês (mandarim, simplificado) (zh-CN ) 1 |
empolgado | Inglês (Estados Unidos) (en-US ) |
assustado | Chinês (mandarim, simplificado) (zh-CN ) 1 |
amigável | Inglês (Estados Unidos) (en-US ) |
esperançoso | Inglês (Estados Unidos) (en-US ) |
triste | Inglês (Estados Unidos) (en-US )Japonês (Japão) ( ja-JP ) 1Chinês (mandarim, simplificado) ( zh-CN ) 1 |
gritando | Inglês (Estados Unidos) (en-US ) |
sério | Chinês (mandarim, simplificado) (zh-CN ) 1 |
aterrorizado | Inglês (Estados Unidos) (en-US ) |
antipático | Inglês (Estados Unidos) (en-US ) |
sussurrante | Inglês (Estados Unidos) (en-US ) |
1 O estilo de voz neural está disponível em visualização pública. Os estilos em versão prévia pública estão disponíveis somente em três regiões de serviço: Leste dos EUA, Oeste da Europa e Sudeste da Ásia.
Obter status de treinamento
Para obter o status de treinamento de um modelo de voz, use a operação Models_Get da API de voz personalizada. Crie a URI de solicitação de acordo com as seguintes instruções:
Faça uma solicitação HTTP GET usando o URI, conforme mostrado no exemplo de Models_Get a seguir.
- Substitua
YourResourceKey
pela chave do recurso de Fala. - Substitua
YourResourceRegion
pela região do recurso de Fala. - Substitua
JessicaModelId
se você especificou uma ID de modelo diferente na etapa anterior.
curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"
Você deve receber um corpo de resposta no formato a seguir.
Observação
A receita kind
e outras propriedades dependem de como você treinou a voz. Neste exemplo, o tipo de receita é Default
para treinamento de voz neural.
{
"id": "JessicaModelId",
"voiceName": "JessicaNeural",
"description": "Jessica voice",
"recipe": {
"kind": "Default",
"version": "V7.2023.03"
},
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"trainingSetId": "JessicaTrainingSetId",
"locale": "en-US",
"engineVersion": "2023.07.04.0",
"status": "Succeeded",
"createdDateTime": "2023-04-01T05:30:00.000Z",
"lastActionDateTime": "2023-04-02T10:15:30.000Z"
}
Talvez seja necessário aguardar alguns minutos antes que o treinamento seja concluído. Eventualmente, o status será alterado para Succeeded
ou Failed
.