Compartilhar via


Modelos da Fábrica vendidos diretamente pelo Azure

Observação

Este documento refere-se ao portal do Microsoft Foundry (clássico ).

Observação

Este documento refere-se ao portal do Microsoft Foundry (novo ).

Este artigo lista uma seleção de Modelos do Microsoft Foundry vendidos diretamente pelo Azure, juntamente com seus recursos, tipos de implantação e regiões de disponibilidade, excluindo modelos preteridos e herdados. Para ver uma lista de modelos do Azure OpenAI compatíveis com o Serviço do Agente do Foundry, consulte os modelos compatíveis com o Serviço de Agente.

Os modelos vendidos diretamente pelo Azure incluem todos os modelos do Azure OpenAI e modelos específicos selecionados dos principais provedores.

Dependendo do tipo de projeto que você usa no Microsoft Foundry, você verá uma seleção diferente de modelos. Especificamente, se você usar um projeto do Foundry criado em um recurso do Foundry, verá os modelos disponíveis para implantação padrão em um recurso do Foundry. Como alternativa, se você usar um projeto baseado em hub hospedado por um hub do Foundry, verá modelos disponíveis para implantação para computação gerenciada e APIs sem servidor. Essas seleções de modelos geralmente se sobrepõem porque muitos modelos dão suporte a várias opções de implantação.

Modelos Foundry estão disponíveis para implantação padrão em recurso do Foundry.

Para saber mais sobre os atributos dos Modelos do Foundry vendidos diretamente pelo Azure, consulte Explorar os Modelos do Foundry.

Observação

Os modelos da Foundry vendidos diretamente pelo Azure também incluem modelos selecionados dos seguintes principais fornecedores de modelos:

  • Laboratórios de Floresta Negra: FLUX.1-Kontext-pro, FLUX-1.1-pro
  • DeepSeek: DeepSeek-V3.1, DeepSeek-V3-0324, , DeepSeek-R1-0528DeepSeek-R1
  • Meta: Llama-4-Maverick-17B-128E-Instruct-FP8, Llama-3.3-70B-Instruct
  • Microsoft: MAI-DS-R1
  • Mistral: mistral-document-ai-2505
  • xAI: grok-code-fast-1, grok-3, , grok-3-mini, grok-4-fast-reasoning, grok-4-fast-non-reasoning, grok-4

Para saber mais sobre esses modelos, alterne para Outras coleções de modelos na parte superior deste artigo.

Azure OpenAI em modelos do Microsoft Foundry

O Azure OpenAI é alimentado por um conjunto diversificado de modelos com diferentes funcionalidades e pontos de preço. A disponibilidade do modelo varia de acordo com a região e a nuvem. Para obter a disponibilidade de modelos do Azure Governamental, consulte OpenAI do Azure no Azure Governamental.

Models Description
Série GPT-5.1 NOVOgpt-5.1, gpt-5.1-chat, gpt-5.1-codex, gpt-5.1-codex-mini
Sora NOVO sora-2
Série GPT-5 gpt-5, gpt-5-mini, gpt-5-nano, gpt-5-chat
gpt-oss modelos de raciocínio com peso livre
codex-mini Versão ajustada do o4-mini.
Série GPT-4.1 gpt-4.1, gpt-4.1-mini, gpt-4.1-nano
model-router Um modelo que seleciona de forma inteligente entre um conjunto de modelos de chat subjacentes para responder a um determinado prompt.
computer-use-preview Um modelo experimental treinado para uso com a ferramenta de uso do computador da API de Respostas.
modelos da série o Modelos de raciocínio com resolução avançada de problemas e maior foco e capacidade.
GPT-4o, GPT-4o mini e GPT-4 Turbo Modelos do Azure OpenAI com versões multimodais que podem aceitar tanto texto quanto imagens como entrada.
GPT-4 Um conjunto de modelos que aprimoram o GPT-3.5 e podem entender e gerar código e linguagem natural.
GPT-3.5 Um conjunto de modelos que aprimoram o GPT-3 e podem entender e gerar código e linguagem natural.
Embeddings Um conjunto de modelos que podem converter texto em um formulário de vetor numérico para facilitar a similaridade de texto.
Geração de imagem Uma série de modelos que podem gerar imagens originais a partir de linguagem natural.
Video generation Um modelo que pode gerar cenas de vídeo originais a partir de instruções de texto.
Áudio Uma série de modelos para conversão de fala em texto, tradução e texto em fala. Modelos de áudio do GPT-4o que dão suporte a interações conversacionais de baixa latência entrada de fala, saída de fala ou geração de áudio.

GPT-5.1

Disponibilidade de região

Modelo Região
gpt-5.1 Leste dos EUA 2 e Suécia Central (Global Standard e DataZone Standard)
gpt-5.1-chat Leste dos EUA2 & Suécia Central (Padrão Global)
gpt-5.1-codex Leste dos EUA2 & Suécia Central (Padrão Global)
gpt-5.1-codex-mini Leste dos EUA2 & Suécia Central (Padrão Global)

O acesso será concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que anteriormente aplicaram e receberam acesso a um modelo de acesso limitado, não precisam se reaplicar, pois suas assinaturas aprovadas receberão automaticamente acesso após a versão do modelo.

ID do modelo Description Janela de Contexto Máx. de Tokens de Saída Dados de Treinamento (até)
gpt-5.1 (2025-11-13) - Raciocínio
– API de Preenchimentos de Chat.
- API de Respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
– Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 30 de setembro de 2024
gpt-5.1-chat (2025-11-13) - Raciocínio
– API de Preenchimentos de Chat.
- API de Respostas.
- Saídas estruturadas
– Funções, ferramentas e chamada de ferramenta paralela.
128,000

Entrada: 111.616
Saída: 16.384
16,384 30 de setembro de 2024
gpt-5.1-codex (2025-11-13) - Somente API de respostas .
- Processamento de texto e imagem
– Saídas estruturadas.
– Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos
- Otimizado para Codex CLI & Codex VS Code extension
400,000

Entrada: 272.000
Saída: 128.000
128,000 30 de setembro de 2024
gpt-5.1-codex-mini (2025-11-13) - Somente API de respostas .
- Processamento de texto e imagem
– Saídas estruturadas.
– Processamento de texto e imagem.
– Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos
- Otimizado para Codex CLI & Codex VS Code extension
400,000

Entrada: 272.000
Saída: 128.000
128,000 30 de setembro de 2024

Importante

  • gpt-5.1 reasoning_effort o padrão é none. Ao atualizar de modelos de raciocínio anteriores para o gpt-5.1, lembre-se de que talvez seja necessário atualizar o seu código para passar explicitamente um nível reasoning_effort se você quiser que o raciocínio ocorra.

  • gpt-5.1-chat adiciona funcionalidades internas de raciocínio. Assim como outros modelos de raciocínio , ele não dá suporte a parâmetros como temperature. Se você atualizar de um modelo que utiliza gpt-5-chat (que não é um modelo de raciocínio) para o gpt-5.1-chat, certifique-se de remover quaisquer parâmetros personalizados, como temperature, do seu código, que não são compatíveis com modelos de raciocínio.

GPT-5

Disponibilidade de região

Modelo Região
gpt-5 (2025-08-07) Consulte a tabela de modelos.
gpt-5-mini (2025-08-07) Consulte a tabela de modelos.
gpt-5-nano (2025-08-07) Consulte a tabela de modelos.
gpt-5-chat (2025-08-07) Consulte a tabela de modelos.
gpt-5-chat (2025-10-03) Leste dos EUA2 (Padrão Global) e Suécia Central (Padrão Global)
gpt-5-codex (2025-09-11) Leste dos EUA2 (Padrão Global) e Suécia Central (Padrão Global)
gpt-5-pro (2025-10-06) Leste dos EUA2 (Padrão Global) e Suécia Central (Padrão Global)

O acesso será concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que solicitaram e receberam acesso ao o3anteriormente, não precisam solicitar novamente, pois suas assinaturas aprovadas receberão automaticamente acesso após o lançamento do modelo.

ID do modelo Description Janela de Contexto Máx. de Tokens de Saída Dados de Treinamento (até)
gpt-5 (2025-08-07) - Raciocínio
– API de Preenchimentos de Chat.
- API de Respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
– Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 30 de setembro de 2024
gpt-5-mini (2025-08-07) - Raciocínio
– API de Preenchimentos de Chat.
- API de Respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
– Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 31 de maio de 2024
gpt-5-nano (2025-08-07) - Raciocínio
– API de Preenchimentos de Chat.
- API de Respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
– Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 31 de maio de 2024
gpt-5-chat (2025-08-07)
Preview
– API de Preenchimentos de Chat.
- API de Respostas.
- Entrada: texto/imagem
- Saída: somente texto
128,000 16,384 30 de setembro de 2024
gpt-5-chat (2025-10-03)
Visualizar1
– API de Preenchimentos de Chat.
- API de Respostas.
- Entrada: texto/imagem
- Saída: somente texto
128,000 16,384 30 de setembro de 2024
gpt-5-codex (2025-09-11) - Somente API de respostas .
- Entrada: texto/imagem
- Saída: somente texto
– Saídas estruturadas.
– Processamento de texto e imagem.
– Funções, ferramentas e chamada de ferramenta paralela.
- Resumo completo dos recursos
- Otimizado para Codex CLI & Codex VS Code extension
400,000

Entrada: 272.000
Saída: 128.000
128,000 -
gpt-5-pro (2025-10-06) - Raciocínio
- API de Respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
- Funções e ferramentas
- Resumo completo dos recursos.
400,000

Entrada: 272.000
Saída: 128.000
128,000 30 de setembro de 2024

Observação

A versão gpt-5-chat2025-10-03 apresenta um aprimoramento significativo focado na inteligência emocional e nas funcionalidades de saúde mental. Essa atualização integra conjuntos de dados especializados e estratégias de resposta refinadas para melhorar a capacidade do modelo de:

  • Entenda e interprete o contexto emocional de forma mais precisa, permitindo interações empáticas e cheias de nuances.
  • Forneça respostas responsáveis e solidárias em conversas relacionadas à saúde mental, garantindo sensibilidade e adesão às práticas recomendadas.

Essas melhorias visam tornar o GPT-5-chat mais consciente do contexto, centrado no homem e confiável em cenários em que o tom emocional e as considerações de bem-estar são críticas.

gpt-oss

Disponibilidade de região

Modelo Região
gpt-oss-120b Todas as regiões do OpenAI do Azure

Capabilities

ID do modelo Description Janela de Contexto Máx. de Tokens de Saída Dados de Treinamento (até)
gpt-oss-120b (versão prévia) – Somente entrada de texto/saída de texto
– API de Conclusões de Chat
-Streaming
– Chamada de função
- Saídas estruturadas
– Raciocínio
– Disponível para a implantação1 e por meio de computação gerenciada
131.072 131.072 31 de maio de 2024
gpt-oss-20b (versão prévia) – Somente entrada de texto/saída de texto
– API de Conclusões de Chat
-Streaming
– Chamada de função
- Saídas estruturadas
– Raciocínio
– Disponível por meio da computação gerenciada e da Fábrica local
131.072 131.072 31 de maio de 2024

1 Ao contrário de outros modelos gpt-oss-120b do Azure OpenAI, é necessário um projeto do Foundry para implantar o modelo.

Implantar com código

az cognitiveservices account deployment create \
  --name "Foundry-project-resource" \
  --resource-group "test-rg" \
  --deployment-name "gpt-oss-120b" \
  --model-name "gpt-oss-120b" \
  --model-version "1" \
  --model-format "OpenAI-OSS" \
  --sku-capacity 10 \
  --sku-name "GlobalStandard"

Série GPT-4.1

Disponibilidade de região

Modelo Região
gpt-4.1 (2025-04-14) Consulte a tabela de modelos.
gpt-4.1-nano (2025-04-14) Consulte a tabela de modelos.
gpt-4.1-mini (2025-04-14) Consulte a tabela de modelos.

Capabilities

Importante

Um problema conhecido está afetando todos os modelos da série GPT 4.1. Grandes definições de chamada de função ou ferramenta que excedem 300.000 tokens resultarão em falhas, mesmo que o limite de contexto de 1 milhão de tokens dos modelos não tenha sido atingido.

Os erros podem variar com base na chamada à API e nas características de conteúdo subjacentes.

Aqui estão as mensagens de erro para a API de Preenchimentos de Chat:

  • Error code: 400 - {'error': {'message': "This model's maximum context length is 300000 tokens. However, your messages resulted in 350564 tokens (100 in the messages, 350464 in the functions). Please reduce the length of the messages or functions.", 'type': 'invalid_request_error', 'param': 'messages', 'code': 'context_length_exceeded'}}

  • Error code: 400 - {'error': {'message': "Invalid 'tools[0].function.description': string too long. Expected a string with maximum length 1048576, but got a string with length 2778531 instead.", 'type': 'invalid_request_error', 'param': 'tools[0].function.description', 'code': 'string_above_max_length'}}

Esta é a mensagem de erro para a API de Respostas:

  • Error code: 500 - {'error': {'message': 'The server had an error processing your request. Sorry about that! You can retry your request, or contact us through an Azure support request at: https://go.microsoft.com/fwlink/?linkid=2213926 if you keep seeing this error. (Please include the request ID d2008353-291d-428f-adc1-defb5d9fb109 in your email.)', 'type': 'server_error', 'param': None, 'code': None}}
ID do modelo Description Janela de contexto Max_output_tokens Dados de treinamento (até)
gpt-4.1 (2025-04-14) – Entrada de texto e imagem
- Saída de texto
– API de conclusões de chat
- API de respostas
-Streaming
– Chamada de função
– Saídas estruturadas (preenchimentos de chat)
- 1,047,576
- 128.000 (implantações gerenciadas provisionadas)
- 300.000 (implantações em lote)
32,768 31 de maio de 2024
gpt-4.1-nano (2025-04-14) – Entrada de texto e imagem
- Saída de texto
– API de conclusões de chat
- API de respostas
-Streaming
– Chamada de função
– Saídas estruturadas (preenchimentos de chat)
- 1,047,576
- 128.000 (implantações gerenciadas provisionadas)
- 300.000 (implantações em lote)
32,768 31 de maio de 2024
gpt-4.1-mini (2025-04-14) – Entrada de texto e imagem
- Saída de texto
– API de conclusões de chat
- API de respostas
-Streaming
– Chamada de função
– Saídas estruturadas (preenchimentos de chat)
- 1,047,576
- 128.000 (implantações gerenciadas provisionadas)
- 300.000 (implantações em lote)
32,768 31 de maio de 2024

computer-use-preview

Um modelo experimental treinado para uso com a ferramenta de uso computacional da Responses API.

Ele pode ser usado com bibliotecas de terceiros para permitir que o modelo controle a entrada do mouse e do teclado, ao mesmo tempo em que recebe o contexto de capturas de tela do ambiente atual.

Cuidado

Não recomendamos o uso desses modelos de versão prévia em produção. Atualizaremos todas as implantações de modelos de versão prévia para versões prévias futuras ou para a versão estável e disponível mais recente. Os modelos que são versão prévia não seguem o ciclo de vida padrão do modelo do OpenAI do Azure.

O registro é necessário para acessar o computer-use-preview. O acesso é concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que têm acesso a outros modelos de acesso limitado ainda precisam solicitar acesso para esse modelo.

Para solicitar acesso, vá para computer-use-preview solicitação de modelo de acesso limitado. Quando o acesso for concedido, você precisa criar uma implantação para o modelo.

Disponibilidade de região

Modelo Região
computer-use-preview Consulte a tabela de modelos.

Capabilities

ID do modelo Description Janela de contexto Max_output_tokens Dados de treinamento (até)
computer-use-preview (2025-03-11) Modelo especializado para uso com a ferramenta de uso do computador da API de Respostas

-Ferramentas
-Streaming
– Texto (entrada/saída)
– Imagem (entrada)
8,192 1,024 Outubro de 2023

Modelos da série o

Os modelos da série o do Azure OpenAI são projetados para lidar com tarefas de raciocínio e solução de problemas com maior foco e capacidade. Esses modelos gastam mais tempo processando e entendendo a solicitação do usuário, o que os torna excepcionalmente competentes em áreas como ciência, programação e matemática, em comparação com as iterações anteriores.

ID do modelo Description Máx. de solicitações (tokens) Dados de treinamento (até)
codex-mini (2025-05-16) Versão ajustada do o4-mini.
- API de Respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
– Funções e ferramentas.
Resumo completo dos recursos.
Entrada: 200.000
Saída: 100.000
31 de maio de 2024
o3-pro (2025-06-10) - API de Respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
– Funções e ferramentas.
Resumo completo dos recursos.
Entrada: 200.000
Saída: 100.000
31 de maio de 2024
o4-mini (2025-04-16) - Novo modelo de raciocínio, oferecendo habilidades de raciocínio aprimoradas.
– API de Preenchimentos de Chat.
- API de Respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
– Funções e ferramentas.
Resumo completo dos recursos.
Entrada: 200.000
Saída: 100.000
31 de maio de 2024
o3 (2025-04-16) - Novo modelo de raciocínio, oferecendo habilidades de raciocínio aprimoradas.
– API de Preenchimentos de Chat.
- API de Respostas.
– Saídas estruturadas.
– Processamento de texto e imagem.
– Funções, ferramentas e chamada de ferramenta paralela.
Resumo completo dos recursos.
Entrada: 200.000
Saída: 100.000
31 de maio de 2024
o3-mini (31/01/2025) - Habilidades de raciocínio aprimoradas.
– Saídas estruturadas.
– Processamento somente de texto.
– Funções e ferramentas.
Entrada: 200.000
Saída: 100.000
Outubro de 2023
o1 (2024-12-17) - Habilidades de raciocínio aprimoradas.
– Saídas estruturadas.
– Processamento de texto e imagem.
– Funções e ferramentas.
Entrada: 200.000
Saída: 100.000
Outubro de 2023
o1-preview (2024-09-12) Versão prévia mais antiga. Entrada: 128.000
Saída: 32.768
Outubro de 2023
o1-mini (2024-09-12) Uma opção mais rápida e econômica na série o1, ideal para codificar tarefas que exigem velocidade e menor consumo de recursos.
– Implantação Global Standard disponível por padrão.
– As implantações Standard (regionais) estão disponíveis apenas para clientes selecionados que receberam acesso como parte da versão de acesso limitado do o1-preview.
Entrada: 128.000
Saída: 65.536
Outubro de 2023

Para saber mais sobre modelos avançados da série O, consulte Introdução aos modelos de raciocínio.

Disponibilidade de região

Modelo Região
codex-mini Leste dos EUA2 & Suécia Central (Global Standard).
o3-pro Leste dos EUA2 & Suécia Central (Global Standard).
o4-mini Consulte a tabela de modelos.
o3 Consulte a tabela de modelos.
o3-mini Consulte a tabela de modelos.
o1 Consulte a tabela de modelos.
o1-preview Consulte a tabela de modelos. Esse modelo está disponível apenas para clientes que receberam acesso como parte do acesso limitado original.
o1-mini Consulte a tabela de modelos.

GPT-4o e GPT-4 Turbo

O GPT-4o integra texto e imagens em um único modelo, o que permite manipular vários tipos de dados simultaneamente. Essa abordagem multimodal melhora a precisão e a capacidade de resposta nas interações entre humanos e computadores. O GPT-4o tem as mesmas tarefas de codificação e texto em inglês que o GPT-4 Turbo, enquanto oferece um desempenho superior em idiomas diferentes do inglês e em tarefas de visão, definindo novos parâmetros de comparação para os recursos de IA.

Modelos de GPT-4 e GPT-4 Turbo

Esses modelos só podem ser usados com a API de Preenchimentos de Chat.

Consulte versões do Modelo para saber mais sobre como a OpenAI do Azure lida com atualizações de versão do modelo. Consulte Trabalhar com modelos para saber como exibir e definir as configurações de versão do modelo de suas implantações do GPT-4.

ID do modelo Description Máx. de solicitações (tokens) Dados de treinamento (até)
gpt-4o (2024-11-20)
GPT-4o (Omni)
– Saídas estruturadas.
– Processamento de texto e imagem.
– Modo JSON.
– Chamada de função paralela.
– Precisão e capacidade de resposta aprimoradas.
– Paridade com o texto em inglês e tarefas de codificação em comparação ao GPT-4 Turbo com o Visão.
– Desempenho superior em idiomas não ingleses e em tarefas de visão.
– Capacidade de escrita criativa aprimorada.
Entrada: 128.000
Saída: 16.384
Outubro de 2023
gpt-4o (2024-08-06)
GPT-4o (Omni)
– Saídas estruturadas.
– Processamento de texto e imagem.
– Modo JSON.
– Chamada de função paralela.
– Precisão e capacidade de resposta aprimoradas.
– Paridade com o texto em inglês e tarefas de codificação em comparação ao GPT-4 Turbo com o Visão.
– Desempenho superior em idiomas não ingleses e em tarefas de visão.
Entrada: 128.000
Saída: 16.384
Outubro de 2023
gpt-4o-mini (18/07/2024)
GPT-4o mini
- Modelo rápido, barato e capaz, ideal para substituir modelos da série GPT-3.5 Turbo.
– Processamento de texto e imagem.
– Modo JSON.
– Chamada de função paralela.
Entrada: 128.000
Saída: 16.384
Outubro de 2023
gpt-4o (2024-05-13)
GPT-4o (Omni)
– Processamento de texto e imagem.
– Modo JSON.
– Chamada de função paralela.
– Precisão e capacidade de resposta aprimoradas.
– Paridade com o texto em inglês e tarefas de codificação em comparação ao GPT-4 Turbo com o Visão.
– Desempenho superior em idiomas não ingleses e em tarefas de visão.
Entrada: 128.000
Saída: 4.096
Outubro de 2023
gpt-4 (turbo-2024-04-09)
GPT-4 Turbo com Visão
Novo modelo disponível em geral.
- Substituição de todos os modelos de versão prévia do GPT-4 anteriores (vision-preview, 1106-Preview, 0125-Preview).
- A disponibilidade do recurso é atualmente diferente, dependendo do método de entrada e do tipo de implantação.
Entrada: 128.000
Saída: 4.096
Dezembro de 2023

Cuidado

Não recomendamos que você use modelos de versão prévia em produção. Atualizaremos todas as implantações de modelos de versão prévia para versões prévias futuras ou para a versão estável e disponível mais recente. Os modelos que são versão prévia não seguem o ciclo de vida padrão do modelo do OpenAI do Azure.

GPT-3.5

Os modelos GPT-3.5 conseguem entender e gerar linguagem natural ou código. O modelo mais capaz e econômico da família GPT-3.5 é o GPT-3.5 Turbo, que é otimizado para chat e também funciona bem para tarefas de preenchimento tradicionais. O GPT-3.5 Turbo está disponível para uso com a API de Conclusão de Chat. O GPT-3.5 Turbo Instruct tem recursos semelhantes ao text-davinci-003 quando você usa a API de Preenchimentos em vez da API de Preenchimentos de Chat. Recomendamos o uso do GPT-3.5 Turbo e do GPT-3.5 Turbo Instruct em vez dos modelos herdados GPT-3.5 e GPT-3.

ID do modelo Description Máx. de solicitações (tokens) Dados de treinamento (até)
gpt-35-turbo (0125) novo – Modo JSON.
– Chamada de função paralela.
– Saída reproduzível (versão prévia).
– Maior precisão quando ele responde em formatos solicitados.
– Inclui uma correção para um bug que causou um problema de codificação de texto para chamadas de função de idioma que não o inglês.
Entrada: 16.385
Saída: 4.096
Setembro de 2021
gpt-35-turbo (1106) Modelo mais antigo disponível.
– Modo JSON.
– Chamada de função paralela.
– Saída reproduzível (versão prévia).
Entrada: 16.385
Saída: 4.096
Setembro de 2021
gpt-35-turbo-instruct (0914) Somente ponto de extremidade de preenchimentos.
– Substituição de modelos de preenchimento herdados.
4,097 Setembro de 2021

Para saber mais sobre como interagir com o GPT-3.5 Turbo e a API de Preenchimentos de Chat, confira nosso artigo de instruções detalhadas.

Embeddings

text-embedding-3-large é o modelo de inserção mais recente e mais capaz. Não é possível atualizar entre modelos de inserção. Para passar do uso de text-embedding-ada-002 para text-embedding-3-large, você precisa gerar novas inserções.

  • text-embedding-3-large
  • text-embedding-3-small
  • text-embedding-ada-002

A OpenAI informa que os testes mostram que os modelos de inserção de terceira geração grandes e pequenos oferecem melhor desempenho médio de recuperação de vários idiomas com o parâmetro de comparação MIRACL. Eles ainda mantêm o desempenho para tarefas em inglês com o parâmetro de comparação MTEB.

Parâmetro de comparação de avaliação text-embedding-ada-002 text-embedding-3-small text-embedding-3-large
Média MIRACL 31.4 44.0 54.9
Média MTEB 61.0 62.3 64.6

Os modelos de inserções de terceira geração dão suporte à redução do tamanho da inserção por meio de um novo parâmetro dimensions. Normalmente, inserções maiores são mais caras de uma perspectiva de computação, memória e armazenamento. Quando pode ajustar o número de dimensões, você obtém mais controle sobre o custo geral e o desempenho. Não há suporte para o parâmetro dimensions em todas as versões da biblioteca Python do OpenAI 1.x. Para aproveitar esse parâmetro, recomendamos que você atualize para a versão mais recente: pip install openai --upgrade.

O teste de parâmetro de comparação MTEB da OpenAI constatou que, mesmo quando as dimensões do modelo de terceira geração são reduzidas para menos do que as 1.536 dimensões de text-embeddings-ada-002, o desempenho permanece ligeiramente melhor.

Modelos de geração de imagem

Os modelos de geração de imagem geram imagens a partir de instruções de texto que o usuário fornece. Os modelos da série GPT-image-1 estão em versão prévia de acesso limitado. DALL-E 3 está geralmente disponível para uso com APIs REST. DALL-E 2 e DALL-E 3 com SDKs de cliente estão em versão prévia.

O registro é necessário para acessar gpt-image-1 ou gpt-image-1-mini. O acesso é concedido com base nos critérios de elegibilidade da Microsoft. Os clientes que têm acesso a outros modelos de acesso limitado ainda precisam solicitar acesso para esse modelo.

Para solicitar acesso, vá para gpt-image-1 solicitação de modelo de acesso limitado. Quando o acesso for concedido, você precisa criar uma implantação para o modelo.

Disponibilidade de região

Modelo Região
dall-e-3 Leste dos EUA
Leste da Austrália
Suécia Central
gpt-image-1 Oeste dos Estados Unidos 3 (Padrão Global)
Leste dos Estados Unidos 2 (Padrão Global)
Norte dos Emirados Árabes Unidos (Padrão Global)
Polônia Central (Padrão Global)
Suécia Central (Padrão Global)
gpt-image-1-mini Oeste dos Estados Unidos 3 (Padrão Global)
Leste dos Estados Unidos 2 (Padrão Global)
Norte dos Emirados Árabes Unidos (Padrão Global)
Polônia Central (Padrão Global)
Suécia Central (Padrão Global)

Modelos de geração de vídeo

Sora é um modelo de IA do OpenAI que pode criar cenas de vídeo realistas e imaginativas a partir de instruções de texto. O Sora está em versão prévia.

Disponibilidade de região

Modelo Região
sora Leste dos EUA 2 (Padrão Global)
Suécia Central (Padrão Global)
sora-2 Leste dos EUA 2 (Padrão Global)
Suécia Central (Padrão Global)

Modelos de áudio

Os modelos de áudio no Azure OpenAI estão disponíveis via as APIs realtime, completions e audio.

Modelos de áudio GPT-4o

Os modelos de áudio do GPT 4o fazem parte da família de modelos GPT-4o e oferecem suporte a interações de conversação de baixa latência, do tipo entrada de fala, saída de fala ou geração de áudio.

Cuidado

Não recomendamos o uso desses modelos de versão prévia em produção. Atualizaremos todas as implantações de modelos de versão prévia para versões prévias futuras ou para a versão estável e disponível mais recente. Os modelos que são versão prévia não seguem o ciclo de vida padrão do modelo do OpenAI do Azure.

Detalhes sobre o máximo de tokens de solicitação e dados de treinamento estão disponíveis na tabela a seguir:

ID do modelo Description Máx. de solicitações (tokens) Dados de treinamento (até)
gpt-4o-mini-audio-preview (2024-12-17)
Áudio GPT-4o
Modelo de áudio para geração de áudio e texto. Entrada: 128.000
Saída: 16.384
Setembro de 2023
gpt-4o-audio-preview (2024-12-17)
Áudio GPT-4o
Modelo de áudio para geração de áudio e texto. Entrada: 128.000
Saída: 16.384
Setembro de 2023
gpt-4o-realtime-preview (2025-06-03)
Áudio GPT-4o
Modelo de áudio para processamento de áudio em tempo real. Entrada: 128.000
Saída: 4.096
Outubro de 2023
gpt-4o-realtime-preview (2024-12-17)
Áudio GPT-4o
Modelo de áudio para processamento de áudio em tempo real. Entrada: 128.000
Saída: 4.096
Outubro de 2023
gpt-4o-mini-realtime-preview (2024-12-17)
Áudio GPT-4o
Modelo de áudio para processamento de áudio em tempo real. Entrada: 128.000
Saída: 4.096
Outubro de 2023
gpt-realtime (28-08-2025) (GA)
gpt-realtime-mini (2025-10-06)
gpt-audio(28/08/2025)
gpt-audio-mini(06-10-2025)
Modelo de áudio para processamento de áudio em tempo real. Entrada: 28.672
Saída: 4.096
Outubro de 2023

Para comparar a disponibilidade de modelos de áudio GPT-4o em todas as regiões, consulte a tabela de modelos.

API de áudio

Os modelos de áudio por meio da /audio API podem ser usados para conversão de fala em texto, tradução e conversão de texto em fala.

Modelos de conversão de fala em texto

ID do modelo Description Solicitação máxima (tamanho do arquivo de áudio)
whisper Modelo de reconhecimento de fala de uso geral. 25 MB
gpt-4o-transcribe Modelo de conversão de fala em texto da plataforma GPT-4o. 25 MB
gpt-4o-mini-transcribe Modelo de conversão de fala em texto da plataforma MINI GPT-4o. 25 MB
gpt-4o-transcribe-diarize Modelo de conversão de fala em texto com reconhecimento automático de fala. 25 MB

Modelos de tradução de fala

ID do modelo Description Solicitação máxima (tamanho do arquivo de áudio)
whisper Modelo de reconhecimento de fala de uso geral. 25 MB

Modelos de conversão de texto em fala (versão prévia)

ID do modelo Description
tts Modelo de conversão de texto em fala otimizado para velocidade.
tts-hd Modelo de conversão de texto em fala otimizado para qualidade.
gpt-4o-mini-tts Modelo de conversão de texto em fala da plataforma GPT-4o mini.

Você pode orientar a voz a falar em um estilo ou tom específico.

Para obter mais informações, consulte Disponibilidade da região de modelos de áudio mais adiante neste artigo.

Tabela de resumo de modelos e disponibilidade por região

Modelos por tipo de implantação

O OpenAI do Azure fornece aos clientes opções sobre a estrutura de hospedagem que se ajusta aos seus padrões de negócios e de uso. O serviço oferece dois tipos principais de implantação:

  • Standard: tem uma opção de implantação global, roteando o tráfego globalmente para fornecer uma taxa de transferência mais alta.
  • Provisionado: também tem uma opção de implantação global, permitindo que os clientes comprem e implantem unidades produtividade provisionadas em toda a infraestrutura global do Azure.

Todas as implantações podem executar exatamente as mesmas operações de inferência, mas a cobrança, a escala e o desempenho são substancialmente diferentes. Para saber mais sobre os tipos de implantação do OpenAI do Azure, confira nosso Guia de tipos de implantação.

Disponibilidade de modelo Standard Global

Região gpt-5, 2025-08-07 gpt-5-mini, 2025-08-07 gpt-5-nano, 2025-08-07 gpt-5-chat, 2025-08-07 o3-pro, 2025-06-10 codex-mini, 2025-05-16 sora, 2025-05-02 model-router, 2025-08-07 model-router, 2025-05-19 o3, 2025-04-16 o4-mini, 2025-04-16 gpt-image-1, 2025-04-15 gpt-image-1-mini, 2025-10-06 gpt-4.1, 2025-04-14 gpt-4.1-nano, 2025-04-14 gpt-4.1-mini, 2025-04-14 pré-visualização-do-uso-do-computador, 2025-03-11 o3-mini, 2025-01-31 o1, 2024-12-17 o1-mini, 2024-09-12 gpt-4o, 2024-05-13 gpt-4o, 2024-08-06 gpt-4o, 2024-11-20 gpt-4o-mini, 2024-07-18 gpt-4, turbo-2024-04-09 text-embedding-3-small, 1 text-embedding-3-large, 1 text-embedding-ada-002, 2 gpt-4o-realtime-preview, 2024-12-17 gpt-4o-realtime-preview, 2025-06-03 gpt-4o-audio-preview, 2024-12-17 gpt-4o-mini-realtime-preview, 2024-12-17 gpt-4o-mini-audio-preview, 2024-12-17 gpt-4o-transcribe, 2025-03-20 gpt-4o-mini-tts, 2025-03-20 gpt-4o-mini-transcribe, 2025-03-20 gpt-5-codex, 2025-09-15 gpt-audio, 2025-08-28 gpt-realtime, 2025-08-28 pesquisa o3 profunda, 2025-06-26
australiaeast - - - - - - - - - - - - - - - - - - - - - - - -
Brasil Sul - - - - - - - - - - - - - - - - - - - - - - - - - -
Canadá Oriental - - - - - - - - - - - - - - - - - - - - - - - - -
eastus - - - - - - - - - - - - - - - - - - - - -
eastus2
francecentral - - - - - - - - - - - - - - - - - - - - - - - - - -
alemanhacentro-oeste - - - - - - - - - - - - - - - - - - - - - - - - - -
italynorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
japaneast - - - - - - - - - - - - - - - - - - - - - - - -
koreacentral - - - - - - - - - - - - - - - - - - - - - - - -
northcentralus - - - - - - - - - - - - - - - - - - - - - - - -
noruega-leste - - - - - - - - - - - - - - - - - - - - - - - - - -
Polônia Central - - - - - - - - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - - - - - - - - - - - - - - -
southcentralus - - - - - - - - - - - - - - - - - - - - - - - - -
sul da Índia - - - - - - - - - - - - - - - - - - - - - - - -
spaincentral - - - - - - - - - - - - - - - - - - - - - - - - - -
swedencentral - - - - -
Suíça Norte - - - - - - - - - - - - - - - - - - - - - - - -
uaenorth - - - - - - - - - - - - - - - - - - - - - - - - -
uksouth - - - - - - - - - - - - - - - - - - - - - - - -
westeurope - - - - - - - - - - - - - - - - - - - - - - - - - -
westus - - - - - - - - - - - - - - - - - - - - - - - - -
westus3 - - - - - - - - - - - - - - - - - - - - - - - -

Observação

o3-deep-research atualmente está disponível apenas com o Serviço do Foundry Agent. Para saber mais, confira as diretrizes da ferramenta De Pesquisa Profunda.

Essa tabela não inclui informações de ajuste fino de disponibilidade regional. Consulte a seção de ajuste fino para obter essas informações.

Modelos de implantação padrão (regionais) por ponto de extremidade

Finalizações de chat

Região o1-preview, 2024-09-12 o1-mini, 2024-09-12 gpt-4o, 2024-05-13 gpt-4o, 2024-11-20 gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18 gpt-4, turbo-2024-04-09 gpt-35-turbo, 1106 gpt-35-turbo, 0125
australiaeast - - - - - -
Canadá Oriental - - - - - -
eastus -
eastus2 -
francecentral - - - - - -
japaneast - - - - - - -
northcentralus -
noruega-leste - - - - - - - -
southcentralus -
sul da Índia - - - - - -
swedencentral
Suíça Norte - - - - - - -
uksouth - - - - - -
westeurope - - - - - - - -
westus
westus3 -

Observação

O o1-mini atualmente está disponível para todos os clientes de implantação Standard Global.

Os clientes selecionados receberam acesso de implantação padrão (regional) ao o1-mini como parte da versão de acesso limitada do o1-preview. No momento, o acesso a implantações Standard (regionais) o1-mini não está sendo expandido.

Para saber mais sobre como a OpenAI do Azure lida com atualizações de versão de modelo, consulte Versões de modelo. Para saber como exibir e definir as configurações de versão do modelo das implantações do GPT-3.5 Turbo, consulte Como trabalhar com modelos.

Modelos de ajuste fino

Observação

As regiões com suporte para ajuste fino podem variar se você usar modelos do Azure OpenAI em um projeto do Microsoft Foundry em vez de fora de um projeto.

ID do modelo Regiões de treinamento Standard Treinamento global Máx. de solicitações (tokens) Dados de treinamento (até) Modality
gpt-4o-mini
(2024-07-18)
Centro-Norte dos EUA
Suécia Central
Entrada: 128.000
Saída: 16.384
Comprimento do contexto de exemplo de treinamento: 65.536
Outubro de 2023 Texto para texto
gpt-4o
(2024-08-06)
Leste dos EUA 2
Centro-Norte dos EUA
Suécia Central
Entrada: 128.000
Saída: 16.384
Comprimento do contexto de exemplo de treinamento: 65.536
Outubro de 2023 Texto e visão para texto
gpt-4.1
(2025-04-14)
Centro-Norte dos EUA
Suécia Central
Entrada: 128.000
Saída: 16.384
Comprimento do contexto de exemplo de treinamento: 65.536
Maio de 2024 Texto e visão para texto
gpt-4.1-mini
(2025-04-14)
Centro-Norte dos EUA
Suécia Central
Entrada: 128.000
Saída: 16.384
Comprimento do contexto de exemplo de treinamento: 65.536
Maio de 2024 Texto para texto
gpt-4.1-nano (2025-04-14) Centro-Norte dos EUA
Suécia Central
Entrada: 128.000
Saída: 16.384
Comprimento do contexto do exemplo de treinamento: 32.768
Maio de 2024 Texto para texto
o4-mini
(2025-04-16)
Leste dos EUA 2
Suécia Central
- Entrada: 128.000
Saída: 16.384
Comprimento do contexto de exemplo de treinamento: 65.536
Maio de 2024 Texto para texto

Observação

O treinamento global fornece treinamento mais acessível por token, mas não oferece residência de dados. Atualmente, ele está disponível para recursos do Azure OpenAI nas seguintes regiões:

  • Leste da Austrália
  • Sul do Brasil
  • Canadá Central
  • Leste do Canadá
  • Leste dos EUA
  • Leste dos EUA2
  • França Central
  • Centro-oeste da Alemanha
  • Norte da Itália
  • Leste do Japão (sem suporte à visão)
  • Coreia Central
  • Centro-Norte dos EUA
  • Leste da Noruega
  • Polônia Central (sem suporte de 4,1 nano)
  • Sudeste Asiático
  • Norte da África do Sul
  • Centro-Sul dos EUA
  • Sul da Índia
  • Espanha Central
  • Suécia Central
  • Oeste da Suíça
  • Norte da Suíça
  • Sul do Reino Unido
  • Oeste da Europa
  • Oeste dos EUA
  • Oeste dos EUA 3

Assistentes (versão prévia)

Para Assistentes, você precisa de uma combinação de um modelo com suporte e uma região com suporte. Determinadas ferramentas e funcionalidades exigem os modelos mais recentes. Os modelos a seguir estão disponíveis na API, no SDK e no Foundry dos Assistentes. A tabela a seguir é para implantação padrão. Para obter informações sobre a disponibilidade da unidade de produtividade provisionada, consulte Taxa de transferência provisionada. Os modelos e regiões listados podem ser usados com os Assistentes v1 e v2. Você poderá usar modelos Standard Global se eles tiverem suporte nas regiões a seguir.

Região gpt-4o, 2024-05-13 gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18 gpt-4, 0613 gpt-4, Versão Prévia 1106 gpt-4, 0125-Preview gpt-4, turbo-2024-04-09 gpt-4-32k, 0613 gpt-35-turbo, 0613 gpt-35-turbo, 1106 gpt-35-turbo, 0125 gpt-35-turbo-16k, 0613
australiaeast - - - - -
eastus - - - -
eastus2 - - - -
francecentral - - - - - -
japaneast - - - - - - - - -
noruega-leste - - - - - - - - - - -
sul da Índia - - - - - - - - -
swedencentral - -
uksouth - - - - - -
westus - - - - -
westus3 - - - - - -

Aposentadoria modelo

Para obter as informações mais recentes sobre descontinuações modelo, consulte o guia de descontinuação modelo.

Observação

Os Foundry Modelos vendidos pelo Azure também incluem todos os modelos do Azure OpenAI. Para saber mais sobre esses modelos, alterne para a coleção de modelos do Azure OpenAI na parte superior deste artigo.

Modelos do Black Forest Labs vendidos diretamente pelo Azure

A coleção BFL (Black Forest Labs) de modelos de geração de imagem inclui FLUX.1 Kontext [pro] para geração e edição no contexto e FLUX1.1 [pro] para geração de texto para imagem.

Você pode executar esses modelos por meio da API do provedor de serviços BFL e também por meio dos pontos de extremidade images/generations e images/edits.

Modelo Tipo e Ponto de Extremidade de API Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
FLUX.1-Kontext-pro Geração de imagem
- API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations
e
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Entrada: texto e imagem (5.000 tokens e 1 imagem)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais recursos: Consistência de caracteres, edição avançada
- Parâmetros adicionais:(Somente na API específica do provedor)seed, aspect ratio, , input_image, prompt_unsampling, , safety_toleranceoutput_format
– Global padrão (todas as regiões) Foundry, baseado em Hub
FLUX-1.1-pro Geração de imagem
- API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Entrada: texto (5.000 tokens e 1 imagem)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais recursos: Velocidade de inferência rápida, forte adesão de prompt, preços competitivos, geração escalonável
- Parâmetros adicionais:(Somente na API específica do provedor)width, height, , prompt_unsampling, seed, , safety_toleranceoutput_format
– Global padrão (todas as regiões) Foundry, baseado em Hub
Modelo Tipo e Ponto de Extremidade de API Capabilities Tipo de implantação (disponibilidade da região)
FLUX.1-Kontext-pro Geração de imagem
- API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations
e
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Entrada: texto e imagem (5.000 tokens e 1 imagem)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais recursos: Consistência de caracteres, edição avançada
- Parâmetros adicionais:(Somente na API específica do provedor)seed, aspect ratio, , input_image, prompt_unsampling, , safety_toleranceoutput_format
– Global padrão (todas as regiões)
FLUX-1.1-pro Geração de imagem
- API de imagem: https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- API do provedor de serviços BFL: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Entrada: texto (5.000 tokens e 1 imagem)
- Saída: Uma imagem
- Chamada de ferramenta: Não
- Formatos de resposta: Imagem (PNG e JPG)
- Principais recursos: Velocidade de inferência rápida, forte adesão de prompt, preços competitivos, geração escalonável
- Parâmetros adicionais:(Somente na API específica do provedor)width, height, , prompt_unsampling, seed, , safety_toleranceoutput_format
– Global padrão (todas as regiões)

Consulte esta coleção de modelos no portal do Microsoft Foundry.

Modelos deepSeek vendidos diretamente pelo Azure

A família de modelos DeepSeek inclui o DeepSeek-R1, que se destaca em tarefas de raciocínio usando um processo de treinamento passo a passo, como linguagem, raciocínio científico e tarefas de codificação.

Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
DeepSeek-V3.1 chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (131.072 tokens)
- Saída: (131.072 tokens)
- Idiomas:en e zh
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
– Global padrão (todas as regiões) Foundry, baseado em Hub
DeepSeek-R1-0528 chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Idiomas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
– Global padrão (todas as regiões)
– Global provisionado (todas as regiões)
Foundry, baseado em Hub
DeepSeek-V3-0324 chat-completion - Entrada: texto (131.072 tokens)
- Saída: (131.072 tokens)
- Idiomas:en e zh
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
– Global padrão (todas as regiões)
– Global provisionado (todas as regiões)
Foundry, baseado em Hub
DeepSeek-R1 chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Idiomas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
– Global padrão (todas as regiões)
– Global provisionado (todas as regiões)
Foundry, baseado em Hub
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
DeepSeek-V3.1 chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (131.072 tokens)
- Saída: (131.072 tokens)
- Idiomas:en e zh
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
– Global padrão (todas as regiões)
DeepSeek-R1-0528 chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Idiomas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
– Global padrão (todas as regiões)
– Global provisionado (todas as regiões)
DeepSeek-V3-0324 chat-completion - Entrada: texto (131.072 tokens)
- Saída: (131.072 tokens)
- Idiomas:en e zh
- Chamada de ferramenta: Sim
- Formatos de resposta: Texto, JSON
– Global padrão (todas as regiões)
– Global provisionado (todas as regiões)
DeepSeek-R1 chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Idiomas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
– Global padrão (todas as regiões)
– Global provisionado (todas as regiões)

Consulte esta coleção de modelos no portal do Foundry.

Meta modelos vendidos diretamente pelo Azure

Os modelos e ferramentas do Meta Llama são uma coleção de modelos gerativos de IA para raciocínio textual e visual, pré-treinados e ajustados. Os modelos Meta variam em escala para incluir:

  • SLM (pequenos modelos de linguagem) como modelos base 1B e 3B e instrução para inferência no dispositivo e borda
  • LLM (grandes modelos de linguagem) de tamanho médio, como modelos de base e instrução de 7B, 8B e 70B
  • Modelos de alto desempenho, como o Meta Llama 3.1-405B Instruct para casos de uso de destilação e geração de dados sintéticos.
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
Llama-4-Maverick-17B-128E-Instruct-FP8 chat-completion - Entrada: texto e imagens (tokens de 1M)
- Saída: texto (tokens de 1M)
- Idiomas:ar, en, fr, de, hi, id, it, pt, es, tl, th, e vi
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
– Global padrão (todas as regiões) Foundry, baseado em Hub
Llama-3.3-70B-Instruct chat-completion - Entrada: texto (128.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas:en, de, fr, , it, pt, hi, ese th
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
– Global padrão (todas as regiões) Foundry, baseado em Hub
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
Llama-4-Maverick-17B-128E-Instruct-FP8 chat-completion - Entrada: texto e imagens (tokens de 1M)
- Saída: texto (tokens de 1M)
- Idiomas:ar, en, fr, de, hi, id, it, pt, es, tl, th, e vi
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
– Global padrão (todas as regiões)
Llama-3.3-70B-Instruct chat-completion - Entrada: texto (128.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas:en, de, fr, , it, pt, hi, ese th
- Chamada de ferramenta: Não
- Formatos de resposta: Texto
– Global padrão (todas as regiões)

Consulte esta coleção de modelos no portal do Foundry. Você também pode encontrar vários modelos Meta disponíveis de parceiros e da comunidade.

Modelos da Microsoft vendidos diretamente pelo Azure

Os modelos da Microsoft incluem vários grupos de modelos, como modelos mai, modelos Phi, modelos de IA de serviços de saúde e muito mais.

Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
MAI-DS-R1 chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Idiomas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
– Global padrão (todas as regiões) Foundry, baseado em Hub
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
MAI-DS-R1 chat-completion
(com conteúdo de raciocínio)
- Entrada: texto (163.840 tokens)
- Saída: (163.840 tokens)
- Idiomas:en e zh
- Chamada de ferramenta: Não
- Formatos de resposta: Texto.
– Global padrão (todas as regiões)

Consulte a coleção de modelos da Microsoft no portal do Foundry. Você também pode encontrar vários modelos da Microsoft disponíveis de parceiros e da comunidade.

Modelo de roteador

Um roteador de modelos é um grande modelo de linguagem que seleciona de maneira inteligente um conjunto de modelos de chat subjacentes para responder a determinado prompt. Para obter mais informações, consulte a visão geral do roteador de modelo.

Disponibilidade de região

Modelo Região
model-router (2025-08-07) Leste dos EUA 2 (Global Standard e Zonas de Dados Standard), Suécia Central (Global Standard e Zonas de Dados Standard)
model-router (2025-05-19) Leste dos EUA 2 (Global Standard e Zonas de Dados Standard), Suécia Central (Global Standard e Zonas de Dados Standard)
model-router (2025-11-18) Leste dos EUA 2 (Global Standard e Zonas de Dados Standard), Suécia Central (Global Standard e Zonas de Dados Standard)

A cobrança para implantações de roteador de modelo Padrão da Zona de Dados começará não antes de 1º de novembro de 2025.

Capabilities

ID do modelo Description Janela de contexto Max_output_tokens Dados de treinamento (até)
model-router (2025-08-07) Um modelo que seleciona de forma inteligente um conjunto de modelos subjacentes para responder a um determinado prompt. 200,000 32.768 (GPT-4.1 series)
100.000 (o4-mini)
128.000 (gpt-5 reasoning models)
16.384 (gpt-5-chat)
-
model-router (2025-05-19) Um modelo que seleciona de forma inteligente um conjunto de modelos subjacentes para responder a um determinado prompt. 200,000 32.768 (GPT-4.1 series)
100.000 (o4-mini)
31 de maio de 2024
model-router (2025-11-18) Um modelo que seleciona de forma inteligente um conjunto configurável de modelos de chat subjacentes para responder a um determinado prompt. TBD TBD TBD

Janelas de contexto maiores são compatíveis com alguns dos modelos subjacentes. Isso significa que uma chamada à API com um contexto maior só terá êxito se o prompt for roteado para o modelo certo. Caso contrário, a chamada falhará.

Modelos mistral vendidos diretamente pelo Azure

Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
mistral-document-ai-2505 Imagem em Texto - Entrada: imagem ou páginas PDF (30 páginas, no máximo 30 MB de arquivo PDF)
- Saída: texto
- Idiomas: en
- Chamada de ferramenta: não
- Formatos de resposta: Texto, JSON, Markdown
– Global padrão (todas as regiões)
- Padrão de zona de dados (EUA e UE)
Fundição
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
mistral-document-ai-2505 Imagem em Texto - Entrada: imagem ou páginas PDF (30 páginas, no máximo 30 MB de arquivo PDF)
- Saída: texto
- Idiomas: en
- Chamada de ferramenta: não
- Formatos de resposta: Texto, JSON, Markdown
– Global padrão (todas as regiões)
- Padrão de zona de dados (EUA e UE)

Consulte a coleção de modelos mistral no portal do Foundry. Você também pode encontrar vários modelos Mistral disponíveis de parceiros e da comunidade.

Modelos xAI vendidos diretamente pelo Azure

Os modelos Grok da xAI nos Modelos do Foundry incluem um conjunto diversificado de modelos projetados para se destacarem em vários domínios empresariais com diferentes funcionalidades e preços, incluindo:

  • O Grok 3, um modelo de raciocínio não-inteligente pré-treinado pelo datacenter do Colossus, é adaptado para casos de uso de negócios, como extração de dados, codificação e resumo de texto, com excelentes capacidades de seguir instruções. Ele dá suporte a uma janela de contexto de 131.072 tokens, permitindo lidar com inputs extensos com coerência e profundidade, e é hábil em estabelecer conexões entre domínios e idiomas.

  • Por outro lado, o Grok 3 Mini é um modelo de raciocínio leve, treinado para enfrentar problemas de agentes, codificação, matemática e ciência avançada com computação em tempo de teste. Também dá suporte a uma janela de contexto de 131.072 tokens para reconhecer bases de código e documentos empresariais e destaca-se no uso de ferramentas para resolver problemas lógicos complexos em ambientes novos, oferecendo rastreamento de raciocínio bruto para inspeção do usuário com orçamentos de pensamento ajustáveis.

  • O Grok Code Fast 1, um modelo de raciocínio rápido e eficiente projetado para uso em aplicativos de codificação agente. Ele foi pré-treinado em uma mistura de dados focada em codificação, depois pós-treinado em demonstrações de várias tarefas de codificação e uso de ferramentas, bem como demonstrações de comportamentos corretos de recusa com base na política de segurança do xAI. O registro é necessário para acesso ao modelo grok-code-fast-1.

  • O Grok 4 Fast, um modelo de linguagem otimizado para eficiência que oferece capacidades de raciocínio comparáveis ao Grok 4, mas com latência e custo significativamente menores. Além disso, ele pode eliminar completamente o processo de raciocínio para aplicações ultra-rápidas. Ele é treinado para o uso seguro e eficaz de ferramentas, com comportamentos de recusa embutidos, um prompt fixo do sistema que reforça a segurança e filtros de entrada para evitar o uso indevido.

  • O Grok 4 é o modelo de raciocínio mais recente do xAI com recursos avançados de raciocínio e uso de ferramentas, permitindo que ele obtenha um novo desempenho de última geração em comparação com os parâmetros de comparação acadêmicos e do setor desafiadores. O registro é necessário para acesso ao modelo grok-4.

Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região) Tipo de projeto
grok-4 chat-completion - Entrada: texto, imagem (256.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões) Foundry, baseado em Hub
grok-4-fast-reasoning chat-completion - Entrada: texto, imagem (2.000.000 tokens)
- Saída: texto (2.000.000 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões)
– Zona de dados padrão (US)
Foundry, baseado em Hub
grok-4-fast-non-reasoning chat-completion - Entrada: texto, imagem (2.000.000 tokens)
- Saída: texto (2.000.000 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões)
– Zona de dados padrão (US)
Foundry, baseado em Hub
grok-code-fast-1 chat-completion - Entrada: texto (256.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões) Foundry, baseado em Hub
grok-3 chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (131.072 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões)
– Zona de dados padrão (US)
Foundry, baseado em Hub
grok-3-mini chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (131.072 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões)
– Zona de dados padrão (US)
Foundry, baseado em Hub
Modelo Tipo Capabilities Tipo de implantação (disponibilidade da região)
grok-4 chat-completion - Entrada: texto, imagem (256.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões)
grok-4-fast-reasoning chat-completion - Entrada: texto, imagem (2.000.000 tokens)
- Saída: texto (2.000.000 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões)
– Zona de dados padrão (US)
grok-4-fast-non-reasoning chat-completion - Entrada: texto, imagem (2.000.000 tokens)
- Saída: texto (2.000.000 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões)
– Zona de dados padrão (US)
grok-code-fast-1 chat-completion - Entrada: texto (256.000 tokens)
- Saída: texto (8.192 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões)
grok-3 chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (131.072 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões)
– Zona de dados padrão (US)
grok-3-mini chat-completion - Entrada: texto (131.072 tokens)
- Saída: texto (131.072 tokens)
- Idiomas:en
- Chamada de ferramenta: sim
- Formatos de resposta: texto
– Global padrão (todas as regiões)
– Zona de dados padrão (US)

Consulte a coleção de modelos xAI no portal do Foundry.

Disponibilidade da região do modelo por tipo de implantação

O Foundry Models oferece opções para a estrutura de hospedagem que se ajusta aos seus padrões de negócios e de uso. O serviço oferece dois tipos principais de implantação:

  • Standard: tem uma opção de implantação global, roteando o tráfego globalmente para fornecer uma taxa de transferência mais alta.
  • Provisionado: Também oferece uma opção de implantação global, permitindo que você compre e implante unidades de capacidade provisionada em toda a infraestrutura global do Azure.

Todas as implantações executam as mesmas operações de inferência, mas a cobrança, a escala e o desempenho diferem. Para obter mais informações sobre tipos de implantação, consulte Tipos de implantação em Modelos de Fundimento.

Disponibilidade de modelo Standard Global

Região DeepSeek-R1-0528 DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-V3.1 FLUX.1-Kontext-pro FLUX-1.1-pro grok-4 grok-4-fast-reasoning grok-4-fast-non-reasoning grok-code-fast-1 grok-3 grok-3-mini Llama-4-Maverick-17B-128E-Instruct-FP8 Llama-3.3-70B-Instruct MAI-DS-R1 mistral-document-ai-2505
australiaeast
Brasil Sul
Canadá Oriental
eastus
eastus2
francecentral
alemanhacentro-oeste
italynorth
japaneast
koreacentral
northcentralus
noruega-leste
Polônia Central
southafricanorth
southcentralus
sul da Índia
spaincentral
swedencentral
Suíça Norte
switzerlandwest
uaenorth
uksouth
westeurope
westus
westus3

Modelos abertos e personalizados

O catálogo de modelos oferece uma seleção maior de modelos, de uma variedade maior de provedores. Para esses modelos, você não pode usar a opção de implantação padrão em recursos do Microsoft Foundry, em que os modelos são fornecidos como APIs. Em vez disso, para implantar esses modelos, talvez seja necessário hospedá-los em sua infraestrutura, criar um hub de IA e fornecer a cota de computação subjacente para hospedar os modelos.

Além disso, esses modelos podem ser protegidos por IP ou acesso aberto. Em ambos os casos, você precisa implantá-las em ofertas de computação gerenciada no Foundry. Para começar, confira Como implantar na computação gerenciada.