Partilhar via


Azure OpenAI: Modelos do Azure AI Foundry - cotas e limites

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites do Azure OpenAI.

Âmbito de aplicação do contingente

As quotas e os limites não são aplicados ao nível do inquilino. Em vez disso, o nível mais alto de restrições de cota tem como escopo o nível de assinatura do Azure.

Atribuição de quotas regionais

Os limites de tokens por minuto (TPM) e solicitações por minuto (RPM) são definidos por região, por assinatura e por modelo ou tipo de implantação.

Por exemplo, se o modelo Padrão Global estiver listado com uma cota gpt-4.1 de 5 milhões de TPM e 5.000 RPM, cada região onde esse modelo ou tipo de implantação está disponível terá seu próprio pool de cotas dedicado desse valor para cada uma de suas assinaturas do Azure. Em uma única assinatura do Azure, é possível usar uma quantidade maior de cota total de TPM e RPM para um determinado modelo e tipo de implantação, desde que você tenha recursos e implantações de modelo espalhados por várias regiões.

Referência a quotas e limites

A seção a seguir fornece um guia rápido para as cotas e limites padrão que se aplicam ao Azure OpenAI:

Nome do limite Valor-limite
Recursos do Azure OpenAI por região, por assinatura do Azure 30.
Limites de quota padrão do DALL-E 2 2 pedidos simultâneos.
Limites de quota padrão do DALL-E 3 2 unidades de capacidade (6 pedidos por minuto).
Limites de cota GPT-image-1 padrão 2 unidades de capacidade (6 pedidos por minuto).
Limites de cota padrão do Sora 60 pedidos por minuto.
Limites de cota padrão da API de áudio de fala para texto 3 pedidos por minuto.
Número máximo de tokens de prompt por pedido Varia de acordo com o modelo. Para obter mais informações, consulte Modelos do Azure OpenAI.
Máximo de implantações padrão por recurso 32.
Máximo de implantações de modelo ajustado 5.
Número total de empregos de formação por recurso 100.
Máximo de trabalhos de treinamento em execução simultânea por recurso 1
Máximo de trabalhos de treinamento na fila 20.
Máximo de arquivos por recurso (ajuste fino) 50.
Tamanho total de todos os arquivos por recurso (ajuste fino) 1 GB.
Tempo máximo de trabalho de formação (o trabalho falha se for excedido) 720 horas.
Dimensão máxima do trabalho de formação (tokens in training file) x (# of epochs) 2 mil milhões.
Tamanho máximo de todos os ficheiros por carregamento (Azure OpenAI nos seus dados) 16 MB.
Número máximo ou entradas na matriz com /embeddings 2,048.
Número máximo de /chat/completions mensagens 2,048.
Número máximo de /chat/completions funções 128.
Número máximo de /chat completions ferramentas 128.
Número máximo de unidades de taxa de transferência provisionadas por implantação 100,000.
Máximo de arquivos por assistente ou thread 10.000 ao usar a API ou o portal do Azure AI Foundry.
Tamanho máximo de arquivo para assistentes e ajuste fino 512 MB

200 MB através do portal Azure AI Foundry.
Máximo de solicitações de upload de arquivos por recurso 30 pedidos por segundo.
Tamanho máximo de todos os ficheiros carregados para assistentes 200 GB.
Limitação de token do assistente Limite de 2.000.000 tokens.
GPT-4o e GPT-4.1 máximo de imagens por solicitação (número de imagens na matriz de mensagens ou histórico de conversas) 50.
GPT-4 vision-preview e GPT-4turbo-2024-04-09 tokens máximos padrão 16.

Aumente o valor do max_tokens parâmetro para evitar respostas truncadas. GPT-4o O padrão máximo de tokens é 4.096.
Número máximo de cabeçalhos personalizados em solicitações de API1 10
Limite de caracteres de mensagem 1,048,576.
Tamanho da mensagem para arquivos de áudio 20 MB.

1 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Alguns clientes agora excedem essa contagem de cabeçalhos, o que resulta em erros HTTP 431. Não há solução para esse erro, a não ser reduzir o volume do cabeçalho. Em versões futuras da API, não passaremos por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados em arquiteturas de sistema futuras.

Observação

Os limites das quotas estão sujeitos a alterações.

Série GPT-5

Modelo Padrão global
Tokens por minuto (TPM)
Empresas e MCA-E Globais
Tokens por minuto (TPM)
Padrão da zona de dados
Tokens por minuto (TPM)
Data Zone Enterprise e MCA-E
Tokens por minuto (TPM)
gpt-5 1 milhão 10 milhões 300 Kelvin 3 milhões
gpt-5-mini 1 milhão 10 milhões 300 Kelvin 3 milhões
gpt-5-nano 5 milhões 150 milhões 2 milhões 50 milhões
gpt-5-chat 1 milhão 5 milhões N/A N/A
gpt-5-codex 1 milhão 10 milhões N/A N/A
Modelo Padrão global
Pedidos por minuto (RPM)
Empresas e MCA-E Globais
Pedidos por minuto (RPM)
Padrão da zona de dados
Pedidos por minuto (RPM)
Data Zone Enterprise e MCA-E
Pedidos por minuto (RPM)
gpt-5 10 K 100 K 3K 30 K
gpt-5-mini 1 K 10 K 300 3K
gpt-5-nano 5 K 150 K 2 K 50 K
gpt-5-chat 1 K 5 K N/A N/A
gpt-5-codex 1 K 10 K N/A N/A

Limites de lotes

Nome do limite Valor-limite
Máximo de arquivos por recurso 500
Tamanho máximo do arquivo de entrada 200 MB
Máximo de pedidos por ficheiro 100,000

Limite de lotes

A tabela mostra o limite de cota de lote. Os valores de cota para lote global são representados em tokens enfileirados. Quando você envia um arquivo para processamento em lote, o número de tokens no arquivo é contado. Até que o trabalho em lote atinja um estado terminal, esses tokens contam em relação ao seu limite total de tokens enfileirados.

Lote mundial

Modelo Enterprise e MCA-E Predefinido Subscrições mensais baseadas em cartão de crédito Assinaturas do MSDN Azure para Estudantes, versões experimentais gratuitas
gpt-4.1 5 B 200 milhões 50 M. 90K N/A
gpt-4.1 mini 15 B 1 B 50 M. 90K N/A
gpt-4.1-nano 15 B 1 B 50 M. 90K N/A
gpt-4o 5 B 200 milhões 50 M. 90K N/A
gpt-4o-mini 15 B 1 B 50 M. 90K N/A
gpt-4-turbo 300 milhões 80 milhões 40 milhões 90K N/A
gpt-4 150 milhões 30 milh 5 milhões 100.000 N/A
gpt-35-turbo 10 B 1 B 100 milhões 2 milhões 50K
o3-mini 15 B 1 B 50 M. 90K N/A
o4-mini 15 B 1 B 50 M. 90K N/A

B = mil milhões | M = milhão | K = mil

Agrupamento de dados por zonas

Modelo Enterprise e MCA-E Predefinido Subscrições mensais baseadas em cartão de crédito Assinaturas do MSDN Azure para Estudantes, versões experimentais gratuitas
gpt-4.1 500 milhões 30 milh 30 milh 90K N/A
gpt-4.1-mini 1,5 B 100 milhões 50 M. 90K N/A
gpt-4o 500 milhões 30 milh 30 milh 90K N/A
gpt-4o-mini 1,5 B 100 milhões 50 M. 90K N/A
o3-mini 1,5 B 100 milhões 50 M. 90K N/A

GPT-OSS

Modelo Tokens por minuto (TPM) Pedidos por minuto (RPM)
gpt-oss-120b 5 milhões 5 K

Restrições de utilização do GPT-4

GPT-4.5 preview Padrão Global

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
gpt-4.5 Enterprise e MCA-E 200K 200
gpt-4.5 Predefinido 150K 150

Padrão Global da série GPT-4.1

Modelo Escalão de serviço Limite de cota em tokens por minuto (TPM) Pedidos por minuto
gpt-4.1 (2025-04-14) Enterprise e MCA-E 5 milhões 5K
gpt-4.1 (2025-04-14) Predefinido 1 Milhão 1K
gpt-4.1-nano (2025-04-14) Enterprise e MCA-E 150 milhões 150K
gpt-4.1-nano (2025-04-14) Predefinido 5 milhões 5K
gpt-4.1-mini (2025-04-14) Enterprise e MCA-E 150 milhões 150K
gpt-4.1-mini (2025-04-14) Predefinido 5 milhões 5K

Padrão de zona de dados da série GPT-4.1

Modelo Escalão de serviço Limite de cota em tokens por minuto (TPM) Pedidos por minuto
gpt-4.1 (2025-04-14) Enterprise e MCA-E 2 milhões 2K
gpt-4.1 (2025-04-14) Predefinido 300K 300
gpt-4.1-nano (2025-04-14) Enterprise e MCA-E 50 M. 50K
gpt-4.1-nano (2025-04-14) Predefinido 2 milhões 2K
gpt-4.1-mini (2025-04-14) Enterprise e MCA-E 50 M. 50K
gpt-4.1-mini (2025-04-14) Predefinido 2 milhões 2K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) tem níveis de limite de taxa com limites mais elevados para determinados tipos de clientes.

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
gpt-4 (turbo-2024-04-09) Enterprise e MCA-E 2 milhões 12K
gpt-4 (turbo-2024-04-09) Predefinido 450K 2,7K

Limitações de velocidade do roteador modelo

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
model-router (2025-05-19) Enterprise e MCA-E 10 milhões 10.000
model-router (2025-05-19) Predefinido 1 Milhão 1K

Limites de taxa padrão global de uso do computador

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
computer-use-preview Enterprise e MCA-E 30 milh 300K
computer-use-preview Predefinido 450K 4,5K

Limites de taxa da série O

Importante

A proporção de solicitações por minuto para tokens por minuto para cota pode variar de acordo com o modelo. Quando você implanta um modelo programaticamente ou solicita um aumento de cota, não tem controle granular sobre tokens por minuto e solicitações por minuto como valores independentes. A quota é atribuída em termos de unidades de capacidade, que têm quantidades correspondentes de pedidos por minuto e fichas por minuto.

Modelo Capacidade Pedidos por minuto (RPM) Tokens por minuto (TPM)
Modelos de chat mais antigos 1 unidade 6 RPM 1.000 TPM
o1 e o1-preview 1 unidade 1 rotação por minuto (RPM) 6.000 TPM
o3 1 unidade 1 rotação por minuto (RPM) 1.000 TPM
o4-mini 1 unidade 1 rotação por minuto (RPM) 1.000 TPM
o3-mini 1 unidade 1 rotação por minuto (RPM) 10.000 TPM
o1-mini 1 unidade 1 rotação por minuto (RPM) 10.000 TPM
o3-pro 1 unidade 1 rotação por minuto (RPM) 10.000 TPM

Esse conceito é importante para a implantação do modelo programático, pois alterações na relação RPM/TPM podem resultar em má alocação acidental da cota.

Padrão Global da série O

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
codex-mini Enterprise e MCA-E 10 milhões 10.000
o3-pro Enterprise e MCA-E 16 milhões 1,6K
o4-mini Enterprise e MCA-E 10 milhões 10.000
o3 Enterprise e MCA-E 10 milhões 10.000
o3-mini Enterprise e MCA-E 50 M. 5K
o1 e o1-preview Enterprise e MCA-E 30 milh 5K
o1-mini Enterprise e MCA-E 50 M. 5K
codex-mini Predefinido 1 Milhão 1K
o3-pro Predefinido 1,6 milhões 160
o4-mini Predefinido 1 Milhão 1K
o3 Predefinido 1 Milhão 1K
o3-mini Predefinido 5 milhões 500
o1 e o1-preview Predefinido 3 milhões 500
o1-mini Predefinido 5 milhões 500

série o Data Zone Standard

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
o3 Predefinido 10 milhões 10.000
o4-mini Predefinido 10 milhões 10.000
o3-mini Enterprise e MCA-E 20 milhões 2K
o3-mini Predefinido 2 milhões 200
o1 Enterprise e MCA-E 6 M. 1K
o1 Predefinido 600K 100

o1-preview e o1-mini Standard

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
o1-preview Enterprise e MCA-E 600K 100
o1-mini Enterprise e MCA-E 1 Milhão 100
o1-preview Predefinido 300K 50
o1-mini Predefinido 500K 50

Limites de taxa GPT-4O

gpt-4o e gpt-4o-mini têm níveis de limite de taxa com limites mais elevados para determinados tipos de clientes.

gpt-4o Padrão Global

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
gpt-4o Enterprise e MCA-E 30 milh 180K
gpt-4o-mini Enterprise e MCA-E 150 milhões 1,5 milhões
gpt-4o Predefinido 450K 2,7K
gpt-4o-mini Predefinido 2 milhões 12K

gpt-4o Padrão de zona de dados

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
gpt-4o Enterprise e MCA-E 10 milhões 60K
gpt-4o-mini Enterprise e MCA-E 20 milhões 120K
gpt-4o Predefinido 300K 1,8K
gpt-4o-mini Predefinido 1 Milhão 6K

gpt-4o Padrão

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
gpt-4o Enterprise e MCA-E 1 Milhão 6K
gpt-4o-mini Enterprise e MCA-E 2 milhões 12K
gpt-4o Predefinido 150K 900
gpt-4o-mini Predefinido 450K 2,7K

Áudio GPT-4o

Durante a pré-visualização, os limites de taxa para cada gpt-4o implantação de modelo em tempo real são de pelo menos 100.000 tokens por minuto e 1.000 solicitações por minuto, mesmo que um limite inferior seja mostrado no portal do Azure AI Foundry.

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
gpt-4o-audio-preview Predefinido 450K 1K
gpt-4o-realtime-preview Predefinido 800K 1K
gpt-4o-mini-audio-preview Predefinido 2 milhões 1K
gpt-4o-mini-realtime-preview Predefinido 800K 1K
gpt-audio Predefinido 100.000 30
gpt-realtime Predefinido 100.000 30

Limitação de taxa GPT-image-1

Padrão Global GPT0-image-1

Modelo Escalão de serviço Limite de cotas em tokens por minuto Pedidos por minuto
gpt-image-1 Enterprise e MCA-E N/A 20
gpt-image-1 Predefinido N/A 6

Níveis de utilização

As implantações do Padrão Global usam a infraestrutura global do Azure. Eles encaminham dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Da mesma forma, as implantações do Data Zone Standard permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. Essa prática permite uma latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com altos níveis sustentados de uso podem ver maior variabilidade na latência de resposta.

O limite de uso determina o nível de uso acima do qual os clientes podem ver maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo. É o número total de tokens consumidos em todas as implantações em todas as assinaturas em todas as regiões para um determinado locatário.

Observação

As camadas de uso aplicam-se somente aos tipos de implantação Padrão, Padrão de Zona de Dados e Padrão Global. As camadas de uso não se aplicam a implantações globais em lote e largura de banda provisionada.

Padrão Global, Padrão de Zona de Dados e Padrão

Modelo Níveis de utilização por mês
gpt-4 + gpt-4-32k (todas as versões) 6 bilhões de tokens
gpt-4o 12 bilhões de tokens
gpt-4o-mini 85 bilhões de tokens
o3-mini 50 bilhões de tokens
o1 4 bilhões de tokens
o4-mini 50 bilhões de tokens
o3 5 bilhões de tokens
gpt-4.1 30 bilhões de tokens
gpt-4.1-mini 150 bilhões de tokens
gpt-4.1-nano 550 bilhões de tokens

Outros tipos de oferta

Se sua assinatura do Azure estiver vinculada a determinados tipos de oferta, seus valores máximos de cota serão inferiores aos valores indicados nas tabelas anteriores.

  • A cota do modelo de raciocínio GPT-5 é de 20K TPM e 200 RPM para todos os tipos de oferta que não têm acesso à cota MCA-E ou padrão. GPT-5-chat é de 50K e 50 RPM.

  • Alguns tipos de oferta são restritos apenas a implantações de Padrão Global nas regiões Leste dos EUA2 e Suécia Central.

Escalão de serviço Limite de cotas em tokens por minuto
Azure for Students 1K (todos os modelos)
Exceção o-series, GPT-4.1 e GPT 4.5 Preview: 0
MSDN GPT-4o-mini: 200K
GPT 3.5 Série Turbo: 200K
Série GPT-4: 50K
computador-uso-visualização: 8K
gpt-4o-visualização em tempo real: 1K
Série O: 0
GPT 4.5 Prévia: 0
GPT-4.1: 50K
GPT-4.1-nano: 200K
Standard& Pay-as-you-go GPT-4o-mini: 200K
GPT 3.5 Série Turbo: 200K
Série GPT-4: 50K
computador-uso-visualização: 30K
Série O: 0
GPT 4.5 Prévia: 0
GPT-4.1: 50K
GPT-4.1-nano: 200K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200K
GPT 3.5 Série Turbo: 200K
Série GPT-4: 50K
CSP Integration Sandbox * Todos os modelos: 0
Lightweight trial
Free trials
Azure Pass
Todos os modelos: 0

*Esse limite se aplica apenas a um pequeno número de assinaturas de área restrita CSP herdadas. Use a consulta a seguir para determinar qual quotaId valor está associado à sua assinatura.

Para determinar o tipo de oferta associado à sua subscrição, pode verificar o seu quotaId valor. Se o seu quotaId valor não estiver listado nesta tabela, a sua subscrição qualifica-se para a quota predefinida.

Consulte a referência da API.

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

Resultado

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
Atribuição de quotas/Tipo de oferta ID da quota de subscrição
Enterprise e MCA-E EnterpriseAgreement_2014-09-01
Pagamento conforme o consumo PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
Sandbox de integração CSP CSPDEVTEST_2018-05-01
Azure para Estudantes AzureForStudents_2018-01-01
Versão experimental gratuita FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
Predefinido Qualquer ID de cota não listado nesta tabela

Melhores práticas gerais para se manter dentro dos limites das taxas

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:

  • Implemente a lógica de repetição na aplicação.
  • Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente.
  • Teste diferentes padrões de aumento de carga.
  • Aumente a cota atribuída para a sua implantação. Mova a quota de outra implantação, se necessário.

Solicitar aumento de cota

Os pedidos de aumento de quota podem ser apresentados através do formulário de pedido de aumento de quota. Devido à alta demanda, os pedidos de aumento de cota são aceitos e preenchidos na ordem em que são recebidos. A prioridade é dada aos clientes que geram tráfego que consome a alocação de cota existente. Sua solicitação pode ser negada se essa condição não for atendida.

Você pode enviar uma solicitação de serviço para outros limites de tarifa.

Limites regionais de capacidade das quotas

Você pode exibir a disponibilidade de cota por região para sua assinatura no portal do Azure AI Foundry.

Para exibir a capacidade da cota por região para um modelo ou versão específica, você pode consultar a API de capacidade da sua assinatura. Forneça um subscriptionId, model_namee model_version e a API retorna a capacidade disponível para esse modelo em todas as regiões e tipos de implantação para sua assinatura.

Observação

Atualmente, o portal do Azure AI Foundry e a API de capacidade retornam informações de cota/capacidade para modelos que foram desativados e não estão mais disponíveis.

Consulte a referência da API.

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))