Azure AI Foundry モデルにおける Azure OpenAI のクォータと制限

2025-06-27

この記事には、Azure OpenAI のクォータと制限のクイックリファレンスと詳細な説明が含まれています。

クォータと制限のリファレンス

以降のセクションでは、Azure OpenAI に適用されるデフォルトのクォータと制限のクイックガイドを提供します。

制限名	制限値
各 Azure サブスクリプションのリージョンあたりの Azure OpenAI リソース数	30
既定の DALL-E 2 クォータ制限	2 同時要求
既定の DALL-E 3 クォータ制限	2 容量ユニット (1 分あたり 6 要求)
既定の GPT-image-1 クォータ制限	2 容量ユニット (1 分あたり 6 要求)
既定の Sora クォータ制限	1 分あたり 60 件の要求
音声テキスト変換での既定のオーディオ API クォータ制限	1 分あたり 3 要求
要求あたりの最大プロンプトトークン数	モデルごとに異なります。詳細については、Azure OpenAI モデルに関するページを参照してください。
リソースあたりの最大 Standard デプロイ数	32
微調整済みモデルのデプロイ数の上限	5
リソースあたりのトレーニングジョブの合計数	100
リソースあたりの同時実行トレーニングジョブの最大数	1
キューに登録されたトレーニングジョブの最大数	20
リソースあたりの最大ファイル数 (微調整)	50
リソースあたりのすべてのファイルの合計サイズ (微調整)	1 GB
トレーニングジョブの最大時間 (超過した場合、ジョブは失敗します)	720 時間
トレーニングジョブの最大サイズ (トレーニングファイル内のトークン) x (エポックの数)	20 億
アップロードごとのすべてのファイルの最大サイズ (データに対する Azure OpenAI)	16 MB
`/embeddings` を含む配列内の最大数または入力数	2048
`/chat/completions` メッセージの最大数	2048
`/chat/completions` 関数の最大数	128
`/chat completions` ツールの最大数	128
デプロイあたりのプロビジョニングされたスループットユニットの最大数	100,000
アシスタント/スレッドあたりの最大ファイル数	API または Azure AI Foundry ポータルを使用する場合は 10,000。
アシスタントと微調整のための最大ファイルサイズ	512 MB Azure AI Foundry ポータル経由で 200 MB
アシスタント用にアップロードされたすべてのファイルの最大サイズ	200 GB
アシスタントトークンの制限	2,000,000 トークンの制限
GPT-4o および GPT-4.1 要求あたりの最大イメージ数 (メッセージ配列/会話履歴内の画像の数)	50
GPT-4 `vision-preview` と GPT-4 `turbo-2024-04-09` 既定の最大トークン数	16 応答が切り詰められないように `max_tokens` パラメーターの値を増やします。 GPT-4o 最大トークン数の既定値は 4096 です。
API 要求内のカスタムヘッダーの最大数¹	10
メッセージ文字の制限	1048576
オーディオファイルのメッセージサイズ	20 MB

¹ 現在の API は最大 10 個のカスタムヘッダーを許容しており、これらはパイプラインを通過して返されます。現在、一部のお客様はこのヘッダー数を超えており、HTTP 431 エラーが発生しています。ヘッダーボリュームを減らす以外に、このエラーの解決策は存在しません。 今後の API バージョンでは、カスタムヘッダーの通過を停止します。今後のシステムアーキテクチャでは、カスタムヘッダーに依存しないことをお勧めします。

注記

クォータの制限は変更される可能性があります。

バッチ制限

制限名	制限値
リソースあたりの最大ファイル数	500
最大入力ファイルサイズ	200 MB
ファイルあたりの最大要求数	100,000

バッチクォータ

次の表はバッチ処理のクォータ制限値を示しています。グローバルバッチのクォータ値は、エンキューされたトークンの数で表されます。バッチ処理用のファイルを送信すると、ファイル内に存在するトークンの数がカウントされます。バッチジョブが最終状態に達するまで、これらのトークンは、エンキューされたトークンの総数制限に対してカウントされます。

グローバルバッチ

モデル	エンタープライズ契約	既定値	月単位のクレジットカードベースのサブスクリプション	MSDN サブスクリプション	Microsoft Azure for Students、無料試用版
`gpt-4.1`	5 B	200メートル	50メートル	90 K	該当なし
`gpt-4.1 mini`	15 B	1 B	50 M	90k	該当なし
`gpt-4.1-nano`	15 B	1 B	50メートル	90 K	該当なし
`gpt-4o`	5 B	200メートル	50メートル	90 K	該当なし
`gpt-4o-mini`	15 B	1 B	50メートル	90 K	該当なし
`gpt-4-turbo`	300メートル	80百万	40 M	90 K	該当なし
`gpt-4`	150 M	30 M	５百万	100 キロ	該当なし
`gpt-35-turbo`	10 B	1 B	100 M	2メガ	5万
`o3-mini`	15 B	1 B	50メートル	90 K	該当なし
`o4-mini`	15 B	1 B	50メートル	90 K	該当なし

B = 10 億 | M = 100万 | K = 1,000

データゾーンバッチ

モデル	エンタープライズ契約	既定値	月単位のクレジットカードベースのサブスクリプション	MSDN サブスクリプション	Microsoft Azure for Students、無料試用版
`gpt-4.1`	500メートル	30 M	30 M	90 K	該当なし
`gpt-4.1-mini`	1.5 B	100 M	50メートル	90 K	該当なし
`gpt-4o`	500メートル	30 M	30 M	90 K	該当なし
`gpt-4o-mini`	1.5 B	100 M	50メートル	90 K	該当なし
`o3-mini`	1.5 B	100 M	50メートル	90 K	該当なし

GPT-4 レート制限

GPT-4.5 preview グローバル標準

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4.5`	エンタープライズ層	200 K	200
`gpt-4.5`	既定値	150 K	150

GPT-4.1 シリーズ

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4.1` (2025-04-14)	エンタープライズ層	５百万	5キロ
`gpt-4.1` (2025-04-14)	既定値	1メートル	1 K
`gpt-4.1-nano` (2025-04-14)	エンタープライズ層	５百万	5キロ
`gpt-4.1-nano` (2025-04-14)	既定値	1メートル	1 K
`gpt-4.1-mini` (2025-04-14)	エンタープライズ層	５百万	5キロ
`gpt-4.1-mini` (2025-04-14)	既定値	1メートル	1 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) には、特定の顧客の種類に対して高い制限を持つレート制限レベルがあります。

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4` (turbo-2024-04-09)	エンタープライズ契約	2メガ	12 K
`gpt-4` (turbo-2024-04-09)	既定値	450 K	2.7 K

model-router のレート制限

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`model-router` (2025-05-19)	エンタープライズ層	10 M	10 K
`model-router` (2025-05-19)	既定値	1メートル	1 K

computer-use-preview グローバル標準のレート制限

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`computer-use-preview`	エンタープライズ層	30 M	300 K
`computer-use-preview`	既定値	450 K	4.5 K

o-series レート制限

重要

クォータに対する 1 分あたりの要求数 (RPM) とトークン/分 (TPM) の比率は、モデルによって異なる場合があります。プログラムを使用してモデルをデプロイしたり、クォータの引き上げを要求したりする場合、TPM と RPM を独立した値としてきめ細かく制御することはできません。クォータは、RPM と TPM の対応する量を持つ容量の単位で割り当てられます。

モデル	能力	1 分あたりの要求数 (RPM)	1 分あたりのトークン数 (TPM)
以前のチャットモデル:	1 ユニット	6 RPM	1,000 TPM
o1 および o1プレビュー:	1 ユニット	1 RPM	6,000 TPM
o3	1 ユニット	1 RPM	1,000 TPM
o4-mini	1 ユニット	1 RPM	1,000 TPM
o3-mini:	1 ユニット	1 RPM	10,000 TPM
o1-mini:	1 ユニット	1 RPM	10,000 TPM
o3-pro:	1 ユニット	1 RPM	10,000 TPM

これは、RPM/TPM 比の変更によってクォータが誤って割り当てされる可能性があり、プログラムによるモデルのデプロイでは特に重要です。

o シリーズのグローバル標準

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`codex-mini`	エンタープライズ契約	10 M	10 K
`o3-pro`	エンタープライズ契約	16 M	1.6 K
`o4-mini`	エンタープライズ契約	10 M	10 K
`o3`	エンタープライズ契約	10 M	10 K
`o3-mini`	エンタープライズ契約	50メートル	5キロ
`o1` および `o1-preview`	エンタープライズ契約	30 M	5キロ
`o1-mini`	エンタープライズ契約	50メートル	5キロ
`codex-mini`	既定値	1メートル	1 K
`o3-pro`	既定値	1.6 M	160
`o4-mini`	既定値	1メートル	1 K
`o3`	既定値	1メートル	1 K
`o3-mini`	既定値	５百万	500
`o1` および `o1-preview`	既定値	۳百万	500
`o1-mini`	既定値	５百万	500

Oシリーズデータ領域標準

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`o3-mini`	エンタープライズ契約	20,000,000	2 K
`o3-mini`	既定値	2メガ	200
`o1`	エンタープライズ契約	6百万	1 K
`o1`	既定値	600 K	100

o1-preview と o1-mini の標準

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`o1-preview`	エンタープライズ契約	600 K	100
`o1-mini`	エンタープライズ契約	1メートル	100
`o1-preview`	既定値	300 K	50
`o1-mini`	既定値	500 K	50

gpt-4o レート制限

gpt-4o と gpt-4o-mini には、特定の顧客の種類に対してより高い制限を持つレート制限レベルがあります。

gpt-4o グローバル標準

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4o`	エンタープライズ契約	30 M	180キロメートル
`gpt-4o-mini`	エンタープライズ契約	50メートル	300 K
`gpt-4o`	既定値	450 K	2.7 K
`gpt-4o-mini`	既定値	2メガ	12 K

M = 100 万 | K = 1,000

gpt-4o データゾーン標準

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4o`	エンタープライズ契約	10 M	60 K
`gpt-4o-mini`	エンタープライズ契約	20,000,000	120 K
`gpt-4o`	既定値	300 K	1.8 K
`gpt-4o-mini`	既定値	1メートル	6 K

M = 100 万 | K = 1,000

gpt-4o Standard

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4o`	エンタープライズ契約	1メートル	6 K
`gpt-4o-mini`	エンタープライズ契約	2メガ	12 K
`gpt-4o`	既定値	150 K	900
`gpt-4o-mini`	既定値	450 K	2.7 K

M = 100 万 | K = 1,000

gpt-4o audio

各 gpt-4o オーディオモデルのデプロイのレート制限は、100 K TPM と 1 K RPM です。プレビュー期間中、 Azure AI Foundry ポータルと API では、異なるレート制限が不正確に表示される可能性があります。別のレート制限を設定しようとしても、実際のレート制限は 100 K TPM と 1 K RPM です。

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4o-audio-preview`	既定値	450 K	1 K
`gpt-4o-realtime-preview`	既定値	80万	1 K
`gpt-4o-mini-audio-preview`	既定値	2メガ	1 K
`gpt-4o-mini-realtime-preview`	既定値	80万	1 K

M = 100 万 | K = 1,000

GPT-image-1 レート制限

GPT0-image-1 グローバル標準

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-image-1`	エンタープライズ契約	該当なし	20
`gpt-image-1`	既定値	該当なし	6

使用量レベル

グローバル標準のデプロイでは、Azure のグローバルインフラストラクチャが使われて、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータセンターに動的にルーティングされます。同様に、データゾーン標準デプロイでは、Azure グローバルインフラストラクチャを使用して、要求ごとに最適な可用性を持つ Microsoft 定義データゾーン内のデータセンターにトラフィックを動的にルーティングできます。これにより、トラフィックのレベルが低から中程度のお客様に対して、より一貫した待機時間が可能になります。使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが大きくなる可能性があります。

使用制限は、使用量が一定のレベルを超えた場合に、応答待ち時間の変動が大きくなる可能性のある水準を決定します。顧客の使用量はモデルごとに定義され、この量は、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。

注記

使用量レベルは、標準、データゾーン標準、グローバル標準のデプロイの種類に対してだけ適用されます。使用レベルは、グローバルバッチおよびプロビジョニングスループットのデプロイには適用されません。

GPT-4o のグローバル標準、データゾーン標準、および標準

モデル	1 か月あたりの使用量レベル
`gpt-4o`	120 億トークン
`gpt-4o-mini`	850 億トークン

GPT-4 標準

モデル	1 か月あたりの使用量レベル
`gpt-4` + `gpt-4-32k` (すべてのバージョン)	60 億

その他のプランの種類

Azure サブスクリプションが特定のオファーの種類にリンクされている場合、最大クォータ値は上記の表に示されている値より小さくなります。

レベル	クォータ制限 (トークン/分) (TPM)
`Azure for Students`	1 K (すべてのモデル) 例外 o シリーズおよび GPT-4.1 と GPT 4.5 プレビュー: 0
`MSDN`	GPT-4o-mini: 200 K GPT 3.5 ターボシリーズ:200 K GPT-4 シリーズ: 50 K コンピュータ使用プレビュー: 8 K gpt-4oリアルタイムプレビュー: 1 K o シリーズ: 0 GPT 4.5 プレビュー: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Standard`	GPT-4o-mini: 200 K GPT 3.5 ターボシリーズ:200 K GPT-4 シリーズ: 50 K コンピューター使用プレビュー: 30 K o シリーズ: 0 GPT 4.5 プレビュー: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Azure_MS-AZR-0111P` `Azure_MS-AZR-0035P` `Azure_MS-AZR-0025P` `Azure_MS-AZR-0052P`	GPT-4o-mini: 200 K GPT 3.5 ターボシリーズ:200 K GPT-4 シリーズ: 50 K
`CSP Integration Sandbox`^*	すべてのモデル: 0
`Lightweight trial` `Free Trials` `Azure Pass`	すべてのモデル: 0

^*これは、少数のレガシ CSP サンドボックスサブスクリプションにのみ適用されます。サブスクリプションに関連付けられている quotaId を確認するには、次のクエリを使用します。

サブスクリプションに関連付けられているオファーの種類を確認するには、 quotaIdを確認します。 quotaIdがこの表に記載されていない場合、サブスクリプションは既定のクォータの対象となります。

レスト
CLI

API リファレンス

az login
access_token=$(az account get-access-token --query accessToken -o tsv)

curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

az rest --method GET --uri "https://management.azure.com/subscriptions/{sub-id}?api-version=2020-01-01"

アウトプット

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}

クォータの割り当て/オファーの種類	サブスクリプションクォータ ID
エンタープライズ	`EnterpriseAgreement_2014-09-01`
従量課金制	`PayAsYouGo_2014-09-01`
MSDN	`MSDN_2014-09-01`
CSP 統合サンドボックス	`CSPDEVTEST_2018-05-01`
Azure for Students	`AzureForStudents_2018-01-01`
無料試用版	`FreeTrial_2014-09-01`
Azure Pass	`AzurePass_2014-09-01`
Azure_MS-AZR-0111P	`AzureInOpen_2014-09-01`
Azure_MS-AZR-0150P	`LightweightTrial_2016-09-01`
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P	`MPN_2014-09-01`
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G	`MSDNDevTest_2014-09-01`
既定値	この表に示されていないクォータ ID

レート制限内に収まるようにするための一般的なベストプラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

アプリケーションで再試行ロジックを実装します。
ワークロードが急激に変化しないようにします。ワークロードは徐々に増やします。
さまざまな負荷増加パターンをテストします。
デプロイに割り当てられているクォータを増やします。必要に応じて、別のデプロイからクォータを移動します。

クォータの引き上げを要求する方法

クォータの引き上げ要求は、クォータ増加リクエストフォームを使用して送信できます。需要が高いため、クォータの引き上げ要求は受け入れられ、受け取った順序で入力されます。既存のクォータ割り当てを消費するトラフィックを生成するお客様が優先され、この条件を満たしていない場合は要求が拒否される場合があります。

その他のレート制限については、サービス要求を送信してください。

リージョンのクォータ容量の制限

Azure AI Foundry ポータルでは、サブスクリプションのリージョン別のクォータの可用性を表示できます。

または、特定のモデル/バージョンのリージョン別にクォータ容量を表示するには、サブスクリプションの容量 API に対してクエリを実行します。 subscriptionId、model_name、およびmodel_versionを指定すると、API は、サブスクリプションのすべてのリージョンとデプロイの種類にわたって、そのモデルで使用可能な容量を返します。

注記

現在、Azure AI Foundry ポータルと容量 API の両方で、廃止され、使用できなくなったモデルのクォータ/容量情報が返されます。

API リファレンス

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

次のステップ

Azure OpenAI デプロイのクォータを管理する方法を確認してください。 Azure OpenAI をサポートする基となるモデルに関する記事を確認します。

次の方法で共有

Azure AI Foundry モデルにおける Azure OpenAI のクォータと制限

クォータと制限のリファレンス

バッチ制限

バッチ クォータ

グローバル バッチ

データ ゾーン バッチ

GPT-4 レート制限

GPT-4.5 preview グローバル標準

GPT-4.1 シリーズ

GPT-4 Turbo

model-router のレート制限

computer-use-preview グローバル標準のレート制限

o-series レート制限

o シリーズのグローバル標準

Oシリーズデータ領域標準

o1-preview と o1-mini の標準

gpt-4o レート制限

gpt-4o グローバル標準

gpt-4o データ ゾーン標準

gpt-4o Standard

gpt-4o audio

GPT-image-1 レート制限

GPT0-image-1 グローバル標準

使用量レベル

GPT-4o のグローバル標準、データゾーン標準、および標準

GPT-4 標準

その他のプランの種類

アウトプット

レート制限内に収まるようにするための一般的なベスト プラクティス

クォータの引き上げを要求する方法

リージョンのクォータ容量の制限

次のステップ

フィードバック

その他のリソース

バッチクォータ

グローバルバッチ

データゾーンバッチ

gpt-4o データゾーン標準

レート制限内に収まるようにするための一般的なベストプラクティス