Azure AI Foundry モデルにおけるAzure OpenAIのクォータと制限

2025-10-10

この記事には、Azure OpenAI のクォータと制限のクイックリファレンスと詳細な説明が含まれています。

クォータのスコープ

クォータと制限は、テナントレベルでは適用されません。代わりに、最高レベルのクォータ制限は、Azure サブスクリプションレベルでスコープ設定されます。

リージョンクォータの割り当て

1 分あたりのトークン (TPM) と 1 分あたりの要求数 (RPM) の制限は、リージョンごと、サブスクリプションごと、モデルまたはデプロイの種類ごとに定義されます。

たとえば、gpt-4.1 Global Standard モデルが 500 万 TPM と 5,000 RPM のクォータで一覧表示されている場合、そのモデルまたはデプロイの種類が使用可能な各リージョンには、Azure サブスクリプションごとにその量の専用クォータプールがあります。 1 つの Azure サブスクリプション内で、リソースとモデルのデプロイが複数のリージョンに分散している限り、特定のモデルとデプロイの種類に対して、TPM と RPM の合計クォータを大量に使用できます。

クォータと制限のリファレンス

次のセクションでは、Azure OpenAI に適用される既定のクォータと制限に関するクイックガイドを示します:

制限名	制限値
リージョンあたり、Azure サブスクリプションあたりの Azure OpenAI リソース数	30.
既定の DALL-E 2 クォータ制限	2 個の同時要求。
既定の DALL-E 3 クォータ制限	2 個の容量ユニット (1 分あたり 6 件の要求)。
デフォルトの GPT-image-1 クォータ制限	2 個の容量ユニット (1 分あたり 6 件の要求)。
既定の Sora クォータ制限	1 分あたり 60 件の要求。
音声テキスト変換での既定のオーディオ API クォータ制限	1 分あたり 3 件の要求。
要求あたりの最大プロンプトトークン数	モデルごとに異なります。詳細については、Azure OpenAI モデルに関するページを参照してください。
リソースあたりの標準デプロイの最大数	32.
微調整されたモデルの最大デプロイ数	5
リソースあたりのトレーニングジョブの合計数	100。
リソースごとに同時に実行されるトレーニングジョブの最大数	1。
キューに入れられたトレーニングジョブの最大数	20。
リソースあたりの最大ファイル数 (微調整)	50 を使用しています。
リソースあたりのすべてのファイルの合計サイズ (微調整)	1 GB。
トレーニングジョブの最大時間 (超過した場合にジョブは失敗する)	720 時間。
トレーニングジョブの最大サイズ `(tokens in training file) x (# of epochs)`	20 億。
アップロードあたりのすべてのファイルの最大サイズ (データに対する Azure OpenAI)	16 MB。
`/embeddings` を含む配列内の最大数または入力	2,048。
`/chat/completions` メッセージの最大数	2,048。
`/chat/completions` 関数の最大数	128。
`/chat completions` ツールの最大数	128。
デプロイあたりのプロビジョニングされたスループットユニットの最大数	100,000。
アシスタントまたはスレッドあたりの最大ファイル数	API または Azure AI Foundry ポータルを使用する場合は 10,000。
アシスタントの最大ファイルサイズと微調整	512 MB Azure AI Foundry ポータル経由で 200 MB。
リソースあたりの最大ファイルアップロード要求数	1 秒あたり 30 件の要求。
アシスタント用にアップロードされたすべてのファイルの最大サイズ	200 GB。
アシスタントトークンの制限	2,000,000 トークンの制限。
要求あたり `GPT-4o` および `GPT-4.1` の最大画像数 (メッセージアレイまたは会話履歴内の画像数)	50 を使用しています。
`GPT-4` `vision-preview` および `GPT-4turbo-2024-04-09` 個の既定の最大トークン	16。応答が切り詰められないように `max_tokens` パラメーターの値を増やします。 `GPT-4o` 最大トークンの既定値は 4,096 です。
API 要求のカスタムヘッダーの最大数¹	10.
メッセージ文字の制限	1,048,576
オーディオファイルのメッセージサイズ	20 MB。

¹ 現在の API は最大 10 個のカスタムヘッダーを許容しており、これらはパイプラインを通過して返されます。一部のお客様はこのヘッダー数を超えるようになり、HTTP 431 エラーが発生します。ヘッダーボリュームを減らす以外に、このエラーの解決策は存在しません。今後の API バージョンでは、カスタムヘッダーを通過しません。今後のシステムアーキテクチャでは、カスタムヘッダーに依存しないことをお勧めします。

注

クォータの制限は変更される可能性があります。

GPT-5 シリーズ

モデル	グローバルデフォルト 1 分あたりのトークン数 (TPM)	グローバルエンタープライズと MCA-E 1 分あたりのトークン数 (TPM)	データゾーンの既定値 1 分あたりのトークン数 (TPM)	Data Zone Enterprise と MCA-E 1 分あたりのトークン数 (TPM)
`gpt-5`	1メートル	10 M	300 K	۳百万
`gpt-5-mini`	1メートル	10 M	300 K	۳百万
`gpt-5-nano`	５百万	150 M	2メガ	50メートル
`gpt-5-chat`	1メートル	５百万	なし	なし
`gpt-5-codex`	1メートル	10 M	なし	なし
`gpt-5-pro`	160 K	1.6 M	なし	なし

モデル	グローバルデフォルト 1 分あたりの要求数 (RPM)	グローバルエンタープライズと MCA-E 1 分あたりの要求数 (RPM)	データゾーンの既定値 1 分あたりの要求数 (RPM)	Data Zone Enterprise と MCA-E 1 分あたりの要求数 (RPM)
`gpt-5`	10K	100 K	3 K	30 K
`gpt-5-mini`	1 K	10 K	300	3 K
`gpt-5-nano`	5キロ	150 K	2 K	50 K
`gpt-5-chat`	1 K	5キロ	なし	なし
`gpt-5-codex`	1 K	10 キロ	なし	なし
`gpt-5-pro`	1.6 K	16 K	なし	なし

バッチ制限

制限名	制限値
リソースあたりの最大ファイル数	500
最大入力ファイルサイズ	200 MB
ファイルあたりの最大要求数	100,000

バッチクォータ

次の表はバッチ処理のクォータ制限値を示しています。グローバルバッチのクォータ値は、エンキューされたトークンの数で表されます。バッチ処理のためにファイルを送信すると、ファイル内のトークンの数がカウントされます。バッチジョブが終了状態になるまで、これらのトークンは、エンキューされたトークンの合計制限に対してカウントされます。

グローバルバッチ

モデル	Enterprise および MCA-E	既定値	月単位のクレジットカードベースのサブスクリプション	MSDN サブスクリプション	Microsoft Azure for Students、無料試用版
`gpt-4.1`	5B	200M	50 M	90K	なし
`gpt-4.1 mini`	15 B	1 B	50 M	90K	なし
`gpt-4.1-nano`	15 B	1 B	50 M	90K	なし
`gpt-4o`	5B	200M	50 M	90K	なし
`gpt-4o-mini`	15 B	1 B	50 M	90K	なし
`gpt-4-turbo`	300M	80M	40M	90K	なし
`gpt-4`	150M	30M	5 M	100K	なし
`gpt-35-turbo`	10B	1 B	100M	2M	50K
`o3-mini`	15 B	1 B	50 M	90K	なし
`o4-mini`	15 B	1 B	50 M	90K	なし

B = 10 億 | M = 100万 | K = 1,000

データゾーンバッチ

モデル	Enterprise および MCA-E	既定値	月単位のクレジットカードベースのサブスクリプション	MSDN サブスクリプション	Microsoft Azure for Students、無料試用版
`gpt-4.1`	500M	30M	30M	90K	なし
`gpt-4.1-mini`	1.5B	100M	50 M	90K	なし
`gpt-4o`	500M	30M	30M	90K	なし
`gpt-4o-mini`	1.5B	100M	50 M	90K	なし
`o3-mini`	1.5B	100M	50 M	90K	なし

gpt-oss

モデル	1 分あたりのトークン数 (TPM)	1 分あたりの要求数 (RPM)
`gpt-oss-120b`	５百万	5キロ

GPT-4 レート制限

GPT-4.5 プレビューグローバルスタンダード

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`gpt-4.5`	Enterprise および MCA-E	200K	200
`gpt-4.5`	既定値	150K	150

GPT-4.1シリーズグローバルスタンダード

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4.1` (2025-04-14)	Enterprise および MCA-E	5 M	5,000
`gpt-4.1` (2025-04-14)	既定値	1M	1,000
`gpt-4.1-nano` (2025-04-14)	Enterprise および MCA-E	150M	150K
`gpt-4.1-nano` (2025-04-14)	既定値	5 M	5,000
`gpt-4.1-mini` (2025-04-14)	Enterprise および MCA-E	150M	150K
`gpt-4.1-mini` (2025-04-14)	既定値	5 M	5,000

GPT-4.1 シリーズデータゾーン標準

モデル	レベル	クォータ制限 (トークン/分) (TPM)	1 分あたりの要求数
`gpt-4.1` (2025-04-14)	Enterprise および MCA-E	2M	2K
`gpt-4.1` (2025-04-14)	既定値	300K	300
`gpt-4.1-nano` (2025-04-14)	Enterprise および MCA-E	50 M	50K
`gpt-4.1-nano` (2025-04-14)	既定値	2M	2K
`gpt-4.1-mini` (2025-04-14)	Enterprise および MCA-E	50 M	50K
`gpt-4.1-mini` (2025-04-14)	既定値	2M	2K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) には、特定の顧客の種類に対して高い制限を持つレート制限レベルがあります。

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`gpt-4` (turbo-2024-04-09)	Enterprise および MCA-E	2M	12K
`gpt-4` (turbo-2024-04-09)	既定値	450K	2.7K

model-router のレート制限

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`model-router` (2025-05-19)	Enterprise および MCA-E	10M	10,000
`model-router` (2025-05-19)	既定値	1M	1,000

computer-use-preview Global Standard のレート制限

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`computer-use-preview`	Enterprise および MCA-E	30M	300K
`computer-use-preview`	既定値	450K	4.5K

o-series レート制限

Von Bedeutung

クォータの 1 分あたりのトークンに対する 1 分あたりの要求の比率は、モデルによって異なる場合があります。プログラムを使用してモデルをデプロイしたり、クォータの引き上げを要求したりする場合、1 分あたりのトークンと 1 分あたりの要求を独立した値としてきめ細かく制御することはできません。クォータは容量の単位で割り当てられます。それには、1 分あたりの要求量と 1 分あたりのトークン数に対応します。

モデル	能力	1 分あたりの要求数 (RPM)	1 分あたりのトークン数 (TPM)
以前のチャットモデル	1 ユニット	毎分6回転	1,000 TPM
`o1` と `o1-preview`	1 ユニット	1 回転/分	6,000 TPM
`o3`	1 ユニット	1 回転/分	1,000 TPM
`o4-mini`	1 ユニット	1 回転/分	1,000 TPM
`o3-mini`	1 ユニット	1 回転/分	10,000 TPM
`o1-mini`	1 ユニット	1 回転/分	10,000 TPM
`o3-pro`	1 ユニット	1 回転/分	10,000 TPM

RPM と TPM の比率を変更すると、クォータが誤って割り当てられなかった可能性があるため、この概念はプログラムモデルのデプロイに重要です。

o シリーズグローバル標準

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`codex-mini`	Enterprise および MCA-E	10M	10,000
`o3-pro`	Enterprise および MCA-E	16 M	1.6K
`o4-mini`	Enterprise および MCA-E	10M	10,000
`o3`	Enterprise および MCA-E	10M	10,000
`o3-mini`	Enterprise および MCA-E	50 M	5,000
`o1` と `o1-preview`	Enterprise および MCA-E	30M	5,000
`o1-mini`	Enterprise および MCA-E	50 M	5,000
`codex-mini`	既定値	1M	1,000
`o3-pro`	既定値	1.6M	160
`o4-mini`	既定値	1M	1,000
`o3`	既定値	1M	1,000
`o3-mini`	既定値	5 M	500
`o1` と `o1-preview`	既定値	3M	500
`o1-mini`	既定値	5 M	500

oシリーズデータゾーン標準

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`o3`	既定値	10M	10,000
`o4-mini`	既定値	10M	10,000
`o3-mini`	Enterprise および MCA-E	20M	2K
`o3-mini`	既定値	2M	200
`o1`	Enterprise および MCA-E	6M	1,000
`o1`	既定値	600K	100

o1-preview および o1-mini Standard

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`o1-preview`	Enterprise および MCA-E	600K	100
`o1-mini`	Enterprise および MCA-E	1M	100
`o1-preview`	既定値	300K	50
`o1-mini`	既定値	500K	50

gpt-4o レート制限

gpt-4o と gpt-4o-mini には、特定の顧客の種類に対してより高い制限を持つレート制限レベルがあります。

gpt-4o Global Standard

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`gpt-4o`	Enterprise および MCA-E	30M	180K
`gpt-4o-mini`	Enterprise および MCA-E	150M	1,500,000 回
`gpt-4o`	既定値	450K	2.7K
`gpt-4o-mini`	既定値	2M	12K

gpt-4o データゾーンスタンダード

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`gpt-4o`	Enterprise および MCA-E	10M	60K
`gpt-4o-mini`	Enterprise および MCA-E	20M	120K
`gpt-4o`	既定値	300K	1.8K
`gpt-4o-mini`	既定値	1M	6K

gpt-4o Standard

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`gpt-4o`	Enterprise および MCA-E	1M	6K
`gpt-4o-mini`	Enterprise および MCA-E	2M	12K
`gpt-4o`	既定値	150K	900
`gpt-4o-mini`	既定値	450K	2.7K

GPT-4オーディオ

プレビュー期間中、各 gpt-4o リアルタイムモデルデプロイのレート制限は、 Azure AI Foundry ポータルに下限が表示されている場合でも、1 分あたり少なくとも 100,000 トークンと 1 分あたり 1,000 要求です。

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`gpt-4o-audio-preview`	既定値	450K	1,000
`gpt-4o-realtime-preview`	既定値	800K	1,000
`gpt-4o-mini-audio-preview`	既定値	2M	1,000
`gpt-4o-mini-realtime-preview`	既定値	800K	1,000
`gpt-audio`	既定値	100K	30
`gpt-audio-mini`	既定値	100K	30
`gpt-realtime`	既定値	100K	30
`gpt-realtime-mini`	既定値	100K	30

GPT-image-1 レート制限

GPT-image-1 Global Standard

モデル	レベル	1 分あたりのトークン数のクォータ制限	1 分あたりの要求数
`gpt-image-1`	Enterprise および MCA-E	なし	20
`gpt-image-1`	既定値	なし	6
`gpt-image-1-mini`	Low	なし	12
`gpt-image-1-mini`	ミディアム	なし	36
`gpt-image-1-mini`	High	なし	120

使用量レベル

Global Standard デプロイでは、Azure のグローバルインフラストラクチャが使用されます。顧客の推論要求に最適な可用性で、顧客のトラフィックをデータセンターに動的にルーティングします。同様に、Data Zone Standard デプロイを使用すると、Azure のグローバルインフラストラクチャを使用して、要求ごとに最適な可用性を持つ Microsoft が定義したデータゾーン内のデータセンターにトラフィックを動的にルーティングできます。この方法により、トラフィックレベルが低い方から中レベルの顧客に対して、一貫した待機時間を実現できます。使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが大きくなる可能性があります。

使用制限は、その使用量レベルを超えると応答待ち時間にばらつきが増える可能性がある顧客を決定するものです。顧客の使用状況はモデルごとに定義されます。これは、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計数です。

注

使用レベルは、Standard、Data Zone Standard、および Global Standard のデプロイの種類にのみ適用されます。使用レベルは、グローバルバッチおよびプロビジョニングスループットのデプロイには適用されません。

Global Standard、Data Zone Standard、および Standard

モデル	1 か月あたりの使用量レベル
`gpt-4` + `gpt-4-32k` (すべてのバージョン)	60 億トークン
`gpt-4o`	120 億トークン
`gpt-4o-mini`	850 億トークン
`o3-mini`	500 億トークン
`o1`	40 億トークン
`o4-mini`	500 億トークン
`o3`	50 億トークン
`gpt-4.1`	300 億トークン
`gpt-4.1-mini`	1500 億トークン
`gpt-4.1-nano`	5500 億トークン

その他のプランの種類

Azure サブスクリプションが特定のオファーの種類にリンクされている場合、クォータの最大値は前の表で示した値よりも小さくなります。

GPT-5-pro クォータは、MCA-E と既定のクォータサブスクリプションでのみ使用できます。他のすべてのオファーの種類には、デフォルトでこのモデルのクォータはゼロに設定されています。
GPT-5 推論モデルのクォータは、MCA-E または既定のクォータにアクセスできないすべてのオファーの種類について 20,000 TPM と 200 RPM です。 GPT-5-chat は 50,000 と 50 RPM です。
一部のオファーの種類は、米国東部 2 とスウェーデン中部リージョンのグローバル標準デプロイのみに制限されます。

レベル	1 分あたりのトークン数のクォータ制限
`Azure for Students`	1K (すべてのモデル) 例外 o-series、GPT-4.1、GPT 4.5 Preview: 0
`MSDN`	GPT-4o-mini: 200K GPT 3.5 ターボシリーズ: 200K GPT-4 シリーズ: 50K コンピュータ使用プレビュー: 8K gpt-4o-realtime-preview: 1K o シリーズ: 0 GPT 4.5 プレビュー: 0 GPT-4.1: 50K GPT-4.1-nano: 200K
`Standard`& `Pay-as-you-go`	GPT-4o-mini: 200K GPT 3.5 ターボシリーズ: 200K GPT-4 シリーズ: 50K コンピュータ使用プレビュー: 30K o シリーズ: 0 GPT 4.5 プレビュー: 0 GPT-4.1: 50K GPT-4.1-nano: 200K
`Azure_MS-AZR-0111P` `Azure_MS-AZR-0035P` `Azure_MS-AZR-0025P` `Azure_MS-AZR-0052P`	GPT-4o-mini: 200K GPT 3.5 ターボシリーズ: 200K GPT-4 シリーズ: 50K
`CSP Integration Sandbox` ^*	すべてのモデル: 0
`Lightweight trial` `Free trials` `Azure Pass`	すべてのモデル: 0

^*この制限は、少数のレガシ CSP サンドボックスサブスクリプションにのみ適用されます。次のクエリを使用して、サブスクリプションに関連付けられている quotaId 値を確認します。

サブスクリプションに関連付けられているオファーの種類を確認するには、quotaId 値を確認します。 quotaId の値がこの表に表示されていない場合、サブスクリプションは既定のクォータの対象となります。

レスト
CLI

API リファレンスを参照してください。

az login
access_token=$(az account get-access-token --query accessToken -o tsv)

curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

az rest --method GET --uri "https://management.azure.com/subscriptions/{sub-id}?api-version=2020-01-01"

アウトプット

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}

クォータの割り当て/オファーの種類	サブスクリプションクォータ ID
Enterprise および MCA-E	`EnterpriseAgreement_2014-09-01`
従量課金制	`PayAsYouGo_2014-09-01`
MSDN	`MSDN_2014-09-01`
CSP 統合サンドボックス	`CSPDEVTEST_2018-05-01`
Azure for Students	`AzureForStudents_2018-01-01`
無料試用版	`FreeTrial_2014-09-01`
Azure Pass	`AzurePass_2014-09-01`
Azure_MS-AZR-0111P	`AzureInOpen_2014-09-01`
Azure_MS-AZR-0150P	`LightweightTrial_2016-09-01`
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P	`MPN_2014-09-01`
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G	`MSDNDevTest_2014-09-01`
既定値	この表に示されていないクォータ ID

レート制限内に収まるようにするための一般的なベストプラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

アプリケーションで再試行ロジックを実装します。
ワークロードが急激に変化しないようにします。ワークロードは徐々に増やします。
さまざまな負荷増加パターンをテストします。
デプロイに割り当てられているクォータを増やします。必要に応じて、別のデプロイからクォータを移動します。

クォータの増加を要求

クォータの引き上げ要求は、クォータ増加リクエストフォームを使用して送信できます。需要が高いため、クォータ増加のご依頼は、受け付け順に対応させていただきます。既存のクォータ割り当てを使用するトラフィックを生成する顧客に優先順位が与えられます。この条件が満たされていない場合、要求が拒否される可能性があります。

他のレート制限については、サービス要求を送信できます。

リージョンのクォータ容量の制限

Azure AI Foundry ポータルでは、サブスクリプションのリージョン別のクォータの可用性を表示できます。

特定のモデルまたはバージョンのリージョン別のクォータ容量を表示するには、サブスクリプションの Capacity API に対してクエリを実行します。 subscriptionId、model_name、model_version を指定すると、API はサブスクリプションのすべてのリージョンとデプロイの種類にわたって、そのモデルで使用可能な容量を返します。

注

現在、Azure AI Foundry ポータルと容量 API の両方で、廃止され、使用できなくなったモデルのクォータ/容量情報が返されます。