次の方法で共有


Azure AI Foundry モデルにおける Azure OpenAI のクォータと制限

この記事には、Azure OpenAI のクォータと制限のクイック リファレンスと詳細な説明が含まれています。

クォータと制限のリファレンス

以降のセクションでは、Azure OpenAI に適用されるデフォルトのクォータと制限のクイック ガイドを提供します。

制限名 制限値
各 Azure サブスクリプションのリージョンあたりの Azure OpenAI リソース数 30
既定の DALL-E 2 クォータ制限 2 同時要求
既定の DALL-E 3 クォータ制限 2 容量ユニット (1 分あたり 6 要求)
既定の GPT-image-1 クォータ制限 2 容量ユニット (1 分あたり 6 要求)
既定の Sora クォータ制限 1 分あたり 60 件の要求
音声テキスト変換での既定のオーディオ API クォータ制限 1 分あたり 3 要求
要求あたりの最大プロンプト トークン数 モデルごとに異なります。 詳細については、Azure OpenAI モデルに関するページを参照してください。
リソースあたりの最大 Standard デプロイ数 32
微調整済みモデルのデプロイ数の上限 5
リソースあたりのトレーニング ジョブの合計数 100
リソースあたりの同時実行トレーニング ジョブの最大数 1
キューに登録されたトレーニング ジョブの最大数 20
リソースあたりの最大ファイル数 (微調整) 50
リソースあたりのすべてのファイルの合計サイズ (微調整) 1 GB
トレーニングジョブの最大時間 (超過した場合、ジョブは失敗します) 720 時間
トレーニング ジョブの最大サイズ (トレーニング ファイル内のトークン) x (エポックの数) 20 億
アップロードごとのすべてのファイルの最大サイズ (データに対する Azure OpenAI) 16 MB
/embeddings を含む配列内の最大数または入力数 2048
/chat/completions メッセージの最大数 2048
/chat/completions 関数の最大数 128
/chat completions ツールの最大数 128
デプロイあたりのプロビジョニングされたスループット ユニットの最大数 100,000
アシスタント/スレッドあたりの最大ファイル数 API または Azure AI Foundry ポータルを使用する場合は 10,000。
アシスタントと微調整のための最大ファイルサイズ 512 MB

Azure AI Foundry ポータル経由で 200 MB
アシスタント用にアップロードされたすべてのファイルの最大サイズ 200 GB
アシスタント トークンの制限 2,000,000 トークンの制限
GPT-4o および GPT-4.1 要求あたりの最大イメージ数 (メッセージ配列/会話履歴内の画像の数) 50
GPT-4 vision-preview と GPT-4 turbo-2024-04-09 既定の最大トークン数 16

応答が切り詰められないように max_tokens パラメーターの値を増やします。 GPT-4o 最大トークン数の既定値は 4096 です。
API 要求内のカスタム ヘッダーの最大数1 10
メッセージ文字の制限 1048576
オーディオ ファイルのメッセージ サイズ 20 MB

1 現在の API は最大 10 個のカスタム ヘッダーを許容しており、これらはパイプラインを通過して返されます。 現在、一部のお客様はこのヘッダー数を超えており、HTTP 431 エラーが発生しています。 ヘッダー ボリュームを減らす以外に、このエラーの解決策は存在しません。 今後の API バージョンでは、カスタム ヘッダーの通過を停止します。 今後のシステム アーキテクチャでは、カスタム ヘッダーに依存しないことをお勧めします。

注記

クォータの制限は変更される可能性があります。

バッチ制限

制限名 制限値
リソースあたりの最大ファイル数 500
最大入力ファイル サイズ 200 MB
ファイルあたりの最大要求数 100,000

バッチ クォータ

次の表はバッチ処理のクォータ制限値を示しています。 グローバル バッチのクォータ値は、エンキューされたトークンの数で表されます。 バッチ処理用のファイルを送信すると、ファイル内に存在するトークンの数がカウントされます。 バッチジョブが最終状態に達するまで、これらのトークンは、エンキューされたトークンの総数制限に対してカウントされます。

グローバル バッチ

モデル エンタープライズ契約 既定値 月単位のクレジット カード ベースのサブスクリプション MSDN サブスクリプション Microsoft Azure for Students、無料試用版
gpt-4.1 5 B 200メートル 50メートル 90 K 該当なし
gpt-4.1 mini 15 B 1 B 50 M 90k 該当なし
gpt-4.1-nano 15 B 1 B 50メートル 90 K 該当なし
gpt-4o 5 B 200メートル 50メートル 90 K 該当なし
gpt-4o-mini 15 B 1 B 50メートル 90 K 該当なし
gpt-4-turbo 300メートル 80百万 40 M 90 K 該当なし
gpt-4 150 M 30 M 5百万 100 キロ 該当なし
gpt-35-turbo 10 B 1 B 100 M 2メガ 5万
o3-mini 15 B 1 B 50メートル 90 K 該当なし
o4-mini 15 B 1 B 50メートル 90 K 該当なし

B = 10 億 | M = 100万 | K = 1,000

データ ゾーン バッチ

モデル エンタープライズ契約 既定値 月単位のクレジット カード ベースのサブスクリプション MSDN サブスクリプション Microsoft Azure for Students、無料試用版
gpt-4.1 500メートル 30 M 30 M 90 K 該当なし
gpt-4.1-mini 1.5 B 100 M 50メートル 90 K 該当なし
gpt-4o 500メートル 30 M 30 M 90 K 該当なし
gpt-4o-mini 1.5 B 100 M 50メートル 90 K 該当なし
o3-mini 1.5 B 100 M 50メートル 90 K 該当なし

GPT-4 レート制限

GPT-4.5 preview グローバル標準

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4.5 エンタープライズ層 200 K 200
gpt-4.5 既定値 150 K 150

GPT-4.1 シリーズ

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4.1 (2025-04-14) エンタープライズ層 5百万 5キロ
gpt-4.1 (2025-04-14) 既定値 1メートル 1 K
gpt-4.1-nano (2025-04-14) エンタープライズ層 5百万 5キロ
gpt-4.1-nano (2025-04-14) 既定値 1メートル 1 K
gpt-4.1-mini (2025-04-14) エンタープライズ層 5百万 5キロ
gpt-4.1-mini (2025-04-14) 既定値 1メートル 1 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) には、特定の顧客の種類に対して高い制限を持つレート制限レベルがあります。

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4 (turbo-2024-04-09) エンタープライズ契約 2メガ 12 K
gpt-4 (turbo-2024-04-09) 既定値 450 K 2.7 K

model-router のレート制限

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
model-router (2025-05-19) エンタープライズ層 10 M 10 K
model-router (2025-05-19) 既定値 1メートル 1 K

computer-use-preview グローバル標準のレート制限

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
computer-use-preview エンタープライズ層 30 M 300 K
computer-use-preview 既定値 450 K 4.5 K

o-series レート制限

重要

クォータに対する 1 分あたりの要求数 (RPM) とトークン/分 (TPM) の比率は、モデルによって異なる場合があります。 プログラムを使用してモデルをデプロイしたり 、クォータの引き上げを要求 したりする場合、TPM と RPM を独立した値としてきめ細かく制御することはできません。 クォータは、RPM と TPM の対応する量を持つ容量の単位で割り当てられます。

モデル 能力 1 分あたりの要求数 (RPM) 1 分あたりのトークン数 (TPM)
以前のチャット モデル: 1 ユニット 6 RPM 1,000 TPM
o1 および o1プレビュー: 1 ユニット 1 RPM 6,000 TPM
o3 1 ユニット 1 RPM 1,000 TPM
o4-mini 1 ユニット 1 RPM 1,000 TPM
o3-mini: 1 ユニット 1 RPM 10,000 TPM
o1-mini: 1 ユニット 1 RPM 10,000 TPM
o3-pro: 1 ユニット 1 RPM 10,000 TPM

これは、RPM/TPM 比の変更によってクォータが誤って割り当てされる可能性があり、プログラムによるモデルのデプロイでは特に重要です。

o シリーズのグローバル標準

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
codex-mini エンタープライズ契約 10 M 10 K
o3-pro エンタープライズ契約 16 M 1.6 K
o4-mini エンタープライズ契約 10 M 10 K
o3 エンタープライズ契約 10 M 10 K
o3-mini エンタープライズ契約 50メートル 5キロ
o1 および o1-preview エンタープライズ契約 30 M 5キロ
o1-mini エンタープライズ契約 50メートル 5キロ
codex-mini 既定値 1メートル 1 K
o3-pro 既定値 1.6 M 160
o4-mini 既定値 1メートル 1 K
o3 既定値 1メートル 1 K
o3-mini 既定値 5百万 500
o1 および o1-preview 既定値 ۳百万 500
o1-mini 既定値 5百万 500

Oシリーズデータ領域標準

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
o3-mini エンタープライズ契約 20,000,000 2 K
o3-mini 既定値 2メガ 200
o1 エンタープライズ契約 6百万 1 K
o1 既定値 600 K 100

o1-preview と o1-mini の標準

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
o1-preview エンタープライズ契約 600 K 100
o1-mini エンタープライズ契約 1メートル 100
o1-preview 既定値 300 K 50
o1-mini 既定値 500 K 50

gpt-4o レート制限

gpt-4ogpt-4o-mini には、特定の顧客の種類に対してより高い制限を持つレート制限レベルがあります。

gpt-4o グローバル標準

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4o エンタープライズ契約 30 M 180キロメートル
gpt-4o-mini エンタープライズ契約 50メートル 300 K
gpt-4o 既定値 450 K 2.7 K
gpt-4o-mini 既定値 2メガ 12 K

M = 100 万 | K = 1,000

gpt-4o データ ゾーン標準

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4o エンタープライズ契約 10 M 60 K
gpt-4o-mini エンタープライズ契約 20,000,000 120 K
gpt-4o 既定値 300 K 1.8 K
gpt-4o-mini 既定値 1メートル 6 K

M = 100 万 | K = 1,000

gpt-4o Standard

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4o エンタープライズ契約 1メートル 6 K
gpt-4o-mini エンタープライズ契約 2メガ 12 K
gpt-4o 既定値 150 K 900
gpt-4o-mini 既定値 450 K 2.7 K

M = 100 万 | K = 1,000

gpt-4o audio

gpt-4o オーディオ モデルのデプロイのレート制限は、100 K TPM と 1 K RPM です。 プレビュー期間中、 Azure AI Foundry ポータル と API では、異なるレート制限が不正確に表示される可能性があります。 別のレート制限を設定しようとしても、実際のレート制限は 100 K TPM と 1 K RPM です。

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4o-audio-preview 既定値 450 K 1 K
gpt-4o-realtime-preview 既定値 80万 1 K
gpt-4o-mini-audio-preview 既定値 2メガ 1 K
gpt-4o-mini-realtime-preview 既定値 80万 1 K

M = 100 万 | K = 1,000

GPT-image-1 レート制限

GPT0-image-1 グローバル標準

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-image-1 エンタープライズ契約 該当なし 20
gpt-image-1 既定値 該当なし 6

使用量レベル

グローバル標準のデプロイでは、Azure のグローバル インフラストラクチャが使われて、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータ センターに動的にルーティングされます。 同様に、データ ゾーン標準デプロイでは、Azure グローバル インフラストラクチャを使用して、要求ごとに最適な可用性を持つ Microsoft 定義データ ゾーン内のデータ センターにトラフィックを動的にルーティングできます。 これにより、トラフィックのレベルが低から中程度のお客様に対して、より一貫した待機時間が可能になります。 使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが大きくなる可能性があります。

使用制限は、使用量が一定のレベルを超えた場合に、応答待ち時間の変動が大きくなる可能性のある水準を決定します。 顧客の使用量はモデルごとに定義され、この量は、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。

注記

使用量レベルは、標準、データ ゾーン標準、グローバル標準のデプロイの種類に対してだけ適用されます。 使用レベルは、グローバル バッチおよびプロビジョニング スループットのデプロイには適用されません。

GPT-4o のグローバル標準、データゾーン標準、および標準

モデル 1 か月あたりの使用量レベル
gpt-4o 120 億トークン
gpt-4o-mini 850 億トークン

GPT-4 標準

モデル 1 か月あたりの使用量レベル
gpt-4 + gpt-4-32k (すべてのバージョン) 60 億

その他のプランの種類

Azure サブスクリプションが特定の オファーの種類にリンクされている場合、最大クォータ値は上記の表に示されている値より小さくなります。

レベル クォータ制限 (トークン/分) (TPM)
Azure for Students 1 K (すべてのモデル)
例外 o シリーズおよび GPT-4.1 と GPT 4.5 プレビュー: 0
MSDN GPT-4o-mini: 200 K
GPT 3.5 ターボシリーズ:200 K
GPT-4 シリーズ: 50 K
コンピュータ使用プレビュー: 8 K
gpt-4oリアルタイムプレビュー: 1 K
o シリーズ: 0
GPT 4.5 プレビュー: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Standard GPT-4o-mini: 200 K
GPT 3.5 ターボシリーズ:200 K
GPT-4 シリーズ: 50 K
コンピューター使用プレビュー: 30 K
o シリーズ: 0
GPT 4.5 プレビュー: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200 K
GPT 3.5 ターボシリーズ:200 K
GPT-4 シリーズ: 50 K
CSP Integration Sandbox* すべてのモデル: 0
Lightweight trial
Free Trials
Azure Pass
すべてのモデル: 0

*これは、少数のレガシ CSP サンドボックス サブスクリプションにのみ適用されます。 サブスクリプションに関連付けられている quotaId を確認するには、次のクエリを使用します。

サブスクリプションに関連付けられているオファーの種類を確認するには、 quotaIdを確認します。 quotaIdがこの表に記載されていない場合、サブスクリプションは既定のクォータの対象となります。

API リファレンス

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

アウトプット

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
クォータの割り当て/オファーの種類 サブスクリプション クォータ ID
エンタープライズ EnterpriseAgreement_2014-09-01
従量課金制 PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
CSP 統合サンドボックス CSPDEVTEST_2018-05-01
Azure for Students AzureForStudents_2018-01-01
無料試用版 FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
既定値 この表に示されていないクォータ ID

レート制限内に収まるようにするための一般的なベスト プラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

  • アプリケーションで再試行ロジックを実装します。
  • ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。
  • さまざまな負荷増加パターンをテストします。
  • デプロイに割り当てられているクォータを増やします。 必要に応じて、別のデプロイからクォータを移動します。

クォータの引き上げを要求する方法

クォータの引き上げ要求は、クォータ増加リクエスト フォームを使用して送信できます。 需要が高いため、クォータの引き上げ要求は受け入れられ、受け取った順序で入力されます。 既存のクォータ割り当てを消費するトラフィックを生成するお客様が優先され、この条件を満たしていない場合は要求が拒否される場合があります。

その他のレート制限については、サービス要求を送信してください

リージョンのクォータ容量の制限

Azure AI Foundry ポータルでは、サブスクリプションのリージョン別のクォータの可用性を表示できます。

または、特定のモデル/バージョンのリージョン別にクォータ容量を表示するには、サブスクリプションの 容量 API に対してクエリを実行します。 subscriptionIdmodel_name、およびmodel_versionを指定すると、API は、サブスクリプションのすべてのリージョンとデプロイの種類にわたって、そのモデルで使用可能な容量を返します。

注記

現在、Azure AI Foundry ポータルと容量 API の両方で、 廃止され 、使用できなくなったモデルのクォータ/容量情報が返されます。

API リファレンス

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

次のステップ

Azure OpenAI デプロイのクォータを管理する方法を確認してください。 Azure OpenAI をサポートする基となるモデルに関する記事を確認します。