次の方法で共有


Azure AI Foundry モデルにおけるAzure OpenAIのクォータと制限

この記事には、Azure OpenAI のクォータと制限のクイック リファレンスと詳細な説明が含まれています。

クォータのスコープ

クォータと制限は、テナント レベルでは適用されません。 代わりに、最高レベルのクォータ制限は、Azure サブスクリプション レベルでスコープ設定されます。

リージョン クォータの割り当て

1 分あたりのトークン (TPM) と 1 分あたりの要求数 (RPM) の制限は、リージョンごとサブスクリプションごとモデルまたはデプロイの種類ごとに定義されます。

たとえば、gpt-4.1 Global Standard モデルが 500 万 TPM5,000 RPM のクォータで一覧表示されている場合、そのモデルまたはデプロイの種類が使用可能各リージョンには、Azure サブスクリプションごとにその量の専用クォータ プールがあります。 1 つの Azure サブスクリプション内で、リソースとモデルのデプロイが複数のリージョンに分散している限り、特定のモデルとデプロイの種類に対して、TPM と RPM の合計クォータを大量に使用できます。

クォータと制限のリファレンス

次のセクションでは、Azure OpenAI に適用される既定のクォータと制限に関するクイック ガイドを示します:

制限名 制限値
リージョンあたり、Azure サブスクリプションあたりの Azure OpenAI リソース数 30.
既定の DALL-E 2 クォータ制限 2 個の同時要求。
既定の DALL-E 3 クォータ制限 2 個の容量ユニット (1 分あたり 6 件の要求)。
デフォルトの GPT-image-1 クォータ制限 2 個の容量ユニット (1 分あたり 6 件の要求)。
既定の Sora クォータ制限 1 分あたり 60 件の要求。
音声テキスト変換での既定のオーディオ API クォータ制限 1 分あたり 3 件の要求。
要求あたりの最大プロンプト トークン数 モデルごとに異なります。 詳細については、Azure OpenAI モデルに関するページを参照してください。
リソースあたりの標準デプロイの最大数 32.
微調整されたモデルの最大デプロイ数 5
リソースあたりのトレーニング ジョブの合計数 100。
リソースごとに同時に実行されるトレーニング ジョブの最大数 1。
キューに入れられたトレーニング ジョブの最大数 20。
リソースあたりの最大ファイル数 (微調整) 50 を使用しています。
リソースあたりのすべてのファイルの合計サイズ (微調整) 1 GB。
トレーニング ジョブの最大時間 (超過した場合にジョブは失敗する) 720 時間。
トレーニング ジョブの最大サイズ (tokens in training file) x (# of epochs) 20 億。
アップロードあたりのすべてのファイルの最大サイズ (データに対する Azure OpenAI) 16 MB。
/embeddings を含む配列内の最大数または入力 2,048。
/chat/completions メッセージの最大数 2,048。
/chat/completions 関数の最大数 128。
/chat completions ツールの最大数 128。
デプロイあたりのプロビジョニングされたスループット ユニットの最大数 100,000。
アシスタントまたはスレッドあたりの最大ファイル数 API または Azure AI Foundry ポータルを使用する場合は 10,000。
アシスタントの最大ファイル サイズと微調整 512 MB

Azure AI Foundry ポータル経由で 200 MB。
リソースあたりの最大ファイル アップロード要求数 1 秒あたり 30 件の要求。
アシスタント用にアップロードされたすべてのファイルの最大サイズ 200 GB。
アシスタント トークンの制限 2,000,000 トークンの制限。
要求あたり GPT-4o および GPT-4.1 の最大画像数 (メッセージ アレイまたは会話履歴内の画像数) 50 を使用しています。
GPT-4 vision-preview および GPT-4turbo-2024-04-09 個の既定の最大トークン 16。

応答が切り詰められないように max_tokens パラメーターの値を増やします。 GPT-4o 最大トークンの既定値は 4,096 です。
API 要求のカスタム ヘッダーの最大数1 10.
メッセージ文字の制限 1,048,576
オーディオ ファイルのメッセージ サイズ 20 MB。

1 現在の API は最大 10 個のカスタム ヘッダーを許容しており、これらはパイプラインを通過して返されます。 一部のお客様はこのヘッダー数を超えるようになり、HTTP 431 エラーが発生します。 ヘッダー ボリュームを減らす以外に、このエラーの解決策は存在しません。 今後の API バージョンでは、カスタム ヘッダーを通過しません。 今後のシステム アーキテクチャでは、カスタム ヘッダーに依存しないことをお勧めします。

クォータの制限は変更される可能性があります。

GPT-5 シリーズ

モデル グローバル デフォルト
1 分あたりのトークン数 (TPM)
グローバル エンタープライズと MCA-E
1 分あたりのトークン数 (TPM)
データ ゾーンの既定値
1 分あたりのトークン数 (TPM)
Data Zone Enterprise と MCA-E
1 分あたりのトークン数 (TPM)
gpt-5 1メートル 10 M 300 K ۳百万
gpt-5-mini 1メートル 10 M 300 K ۳百万
gpt-5-nano 5百万 150 M 2メガ 50メートル
gpt-5-chat 1メートル 5百万 なし なし
gpt-5-codex 1メートル 10 M なし なし
gpt-5-pro 160 K 1.6 M なし なし
モデル グローバル デフォルト
1 分あたりの要求数 (RPM)
グローバル エンタープライズと MCA-E
1 分あたりの要求数 (RPM)
データ ゾーンの既定値
1 分あたりの要求数 (RPM)
Data Zone Enterprise と MCA-E
1 分あたりの要求数 (RPM)
gpt-5 10K 100 K 3 K 30 K
gpt-5-mini 1 K 10 K 300 3 K
gpt-5-nano 5キロ 150 K 2 K 50 K
gpt-5-chat 1 K 5キロ なし なし
gpt-5-codex 1 K 10 キロ なし なし
gpt-5-pro 1.6 K 16 K なし なし

バッチ制限

制限名 制限値
リソースあたりの最大ファイル数 500
最大入力ファイル サイズ 200 MB
ファイルあたりの最大要求数 100,000

バッチ クォータ

次の表はバッチ処理のクォータ制限値を示しています。 グローバル バッチのクォータ値は、エンキューされたトークンの数で表されます。 バッチ処理のためにファイルを送信すると、ファイル内のトークンの数がカウントされます。 バッチ ジョブが終了状態になるまで、これらのトークンは、エンキューされたトークンの合計制限に対してカウントされます。

グローバルバッチ

モデル Enterprise および MCA-E 既定値 月単位のクレジット カード ベースのサブスクリプション MSDN サブスクリプション Microsoft Azure for Students、無料試用版
gpt-4.1 5B 200M 50 M 90K なし
gpt-4.1 mini 15 B 1 B 50 M 90K なし
gpt-4.1-nano 15 B 1 B 50 M 90K なし
gpt-4o 5B 200M 50 M 90K なし
gpt-4o-mini 15 B 1 B 50 M 90K なし
gpt-4-turbo 300M 80M 40M 90K なし
gpt-4 150M 30M 5 M 100K なし
gpt-35-turbo 10B 1 B 100M 2M 50K
o3-mini 15 B 1 B 50 M 90K なし
o4-mini 15 B 1 B 50 M 90K なし

B = 10 億 | M = 100万 | K = 1,000

データ ゾーン バッチ

モデル Enterprise および MCA-E 既定値 月単位のクレジット カード ベースのサブスクリプション MSDN サブスクリプション Microsoft Azure for Students、無料試用版
gpt-4.1 500M 30M 30M 90K なし
gpt-4.1-mini 1.5B 100M 50 M 90K なし
gpt-4o 500M 30M 30M 90K なし
gpt-4o-mini 1.5B 100M 50 M 90K なし
o3-mini 1.5B 100M 50 M 90K なし

gpt-oss

モデル 1 分あたりのトークン数 (TPM) 1 分あたりの要求数 (RPM)
gpt-oss-120b 5百万 5キロ

GPT-4 レート制限

GPT-4.5 プレビュー グローバルスタンダード

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
gpt-4.5 Enterprise および MCA-E 200K 200
gpt-4.5 既定値 150K 150

GPT-4.1シリーズ グローバルスタンダード

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4.1 (2025-04-14) Enterprise および MCA-E 5 M 5,000
gpt-4.1 (2025-04-14) 既定値 1M 1,000
gpt-4.1-nano (2025-04-14) Enterprise および MCA-E 150M 150K
gpt-4.1-nano (2025-04-14) 既定値 5 M 5,000
gpt-4.1-mini (2025-04-14) Enterprise および MCA-E 150M 150K
gpt-4.1-mini (2025-04-14) 既定値 5 M 5,000

GPT-4.1 シリーズ データ ゾーン標準

モデル レベル クォータ制限 (トークン/分) (TPM) 1 分あたりの要求数
gpt-4.1 (2025-04-14) Enterprise および MCA-E 2M 2K
gpt-4.1 (2025-04-14) 既定値 300K 300
gpt-4.1-nano (2025-04-14) Enterprise および MCA-E 50 M 50K
gpt-4.1-nano (2025-04-14) 既定値 2M 2K
gpt-4.1-mini (2025-04-14) Enterprise および MCA-E 50 M 50K
gpt-4.1-mini (2025-04-14) 既定値 2M 2K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) には、特定の顧客の種類に対して高い制限を持つレート制限レベルがあります。

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
gpt-4 (turbo-2024-04-09) Enterprise および MCA-E 2M 12K
gpt-4 (turbo-2024-04-09) 既定値 450K 2.7K

model-router のレート制限

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
model-router (2025-05-19) Enterprise および MCA-E 10M 10,000
model-router (2025-05-19) 既定値 1M 1,000

computer-use-preview Global Standard のレート制限

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
computer-use-preview Enterprise および MCA-E 30M 300K
computer-use-preview 既定値 450K 4.5K

o-series レート制限

Von Bedeutung

クォータの 1 分あたりのトークンに対する 1 分あたりの要求の比率は、モデルによって異なる場合があります。 プログラムを使用してモデルをデプロイしたり、クォータの引き上げを要求したりする場合、1 分あたりのトークンと 1 分あたりの要求を独立した値としてきめ細かく制御することはできません。 クォータは容量の単位で割り当てられます。それには、1 分あたりの要求量と 1 分あたりのトークン数に対応します。

モデル 能力 1 分あたりの要求数 (RPM) 1 分あたりのトークン数 (TPM)
以前のチャット モデル 1 ユニット 毎分6回転 1,000 TPM
o1o1-preview 1 ユニット 1 回転/分 6,000 TPM
o3 1 ユニット 1 回転/分 1,000 TPM
o4-mini 1 ユニット 1 回転/分 1,000 TPM
o3-mini 1 ユニット 1 回転/分 10,000 TPM
o1-mini 1 ユニット 1 回転/分 10,000 TPM
o3-pro 1 ユニット 1 回転/分 10,000 TPM

RPM と TPM の比率を変更すると、クォータが誤って割り当てられなかった可能性があるため、この概念はプログラム モデルのデプロイに重要です。

o シリーズグローバル標準

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
codex-mini Enterprise および MCA-E 10M 10,000
o3-pro Enterprise および MCA-E 16 M 1.6K
o4-mini Enterprise および MCA-E 10M 10,000
o3 Enterprise および MCA-E 10M 10,000
o3-mini Enterprise および MCA-E 50 M 5,000
o1o1-preview Enterprise および MCA-E 30M 5,000
o1-mini Enterprise および MCA-E 50 M 5,000
codex-mini 既定値 1M 1,000
o3-pro 既定値 1.6M 160
o4-mini 既定値 1M 1,000
o3 既定値 1M 1,000
o3-mini 既定値 5 M 500
o1o1-preview 既定値 3M 500
o1-mini 既定値 5 M 500

oシリーズ データゾーン標準

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
o3 既定値 10M 10,000
o4-mini 既定値 10M 10,000
o3-mini Enterprise および MCA-E 20M 2K
o3-mini 既定値 2M 200
o1 Enterprise および MCA-E 6M 1,000
o1 既定値 600K 100

o1-preview および o1-mini Standard

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
o1-preview Enterprise および MCA-E 600K 100
o1-mini Enterprise および MCA-E 1M 100
o1-preview 既定値 300K 50
o1-mini 既定値 500K 50

gpt-4o レート制限

gpt-4ogpt-4o-mini には、特定の顧客の種類に対してより高い制限を持つレート制限レベルがあります。

gpt-4o Global Standard

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
gpt-4o Enterprise および MCA-E 30M 180K
gpt-4o-mini Enterprise および MCA-E 150M 1,500,000 回
gpt-4o 既定値 450K 2.7K
gpt-4o-mini 既定値 2M 12K

gpt-4o データゾーンスタンダード

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
gpt-4o Enterprise および MCA-E 10M 60K
gpt-4o-mini Enterprise および MCA-E 20M 120K
gpt-4o 既定値 300K 1.8K
gpt-4o-mini 既定値 1M 6K

gpt-4o Standard

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
gpt-4o Enterprise および MCA-E 1M 6K
gpt-4o-mini Enterprise および MCA-E 2M 12K
gpt-4o 既定値 150K 900
gpt-4o-mini 既定値 450K 2.7K

GPT-4オーディオ

プレビュー期間中、各 gpt-4o リアルタイム モデル デプロイのレート制限は、 Azure AI Foundry ポータルに下限が表示されている場合でも、1 分あたり少なくとも 100,000 トークンと 1 分あたり 1,000 要求です。

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
gpt-4o-audio-preview 既定値 450K 1,000
gpt-4o-realtime-preview 既定値 800K 1,000
gpt-4o-mini-audio-preview 既定値 2M 1,000
gpt-4o-mini-realtime-preview 既定値 800K 1,000
gpt-audio 既定値 100K 30
gpt-audio-mini 既定値 100K 30
gpt-realtime 既定値 100K 30
gpt-realtime-mini 既定値 100K 30

GPT-image-1 レート制限

GPT-image-1 Global Standard

モデル レベル 1 分あたりのトークン数のクォータ制限 1 分あたりの要求数
gpt-image-1 Enterprise および MCA-E なし 20
gpt-image-1 既定値 なし 6
gpt-image-1-mini Low なし 12
gpt-image-1-mini ミディアム なし 36
gpt-image-1-mini High なし 120

使用量レベル

Global Standard デプロイでは、Azure のグローバル インフラストラクチャが使用されます。 顧客の推論要求に最適な可用性で、顧客のトラフィックをデータ センターに動的にルーティングします。 同様に、Data Zone Standard デプロイを使用すると、Azure のグローバル インフラストラクチャを使用して、要求ごとに最適な可用性を持つ Microsoft が定義したデータ ゾーン内のデータ センターにトラフィックを動的にルーティングできます。 この方法により、トラフィック レベルが低い方から中レベルの顧客に対して、一貫した待機時間を実現できます。 使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが大きくなる可能性があります。

使用制限は、その使用量レベルを超えると応答待ち時間にばらつきが増える可能性がある顧客を決定するものです。 顧客の使用状況はモデルごとに定義されます。 これは、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計数です。

使用レベルは、Standard、Data Zone Standard、および Global Standard のデプロイの種類にのみ適用されます。 使用レベルは、グローバル バッチおよびプロビジョニング スループットのデプロイには適用されません。

Global Standard、Data Zone Standard、および Standard

モデル 1 か月あたりの使用量レベル
gpt-4 + gpt-4-32k (すべてのバージョン) 60 億トークン
gpt-4o 120 億トークン
gpt-4o-mini 850 億トークン
o3-mini 500 億トークン
o1 40 億トークン
o4-mini 500 億トークン
o3 50 億トークン
gpt-4.1 300 億トークン
gpt-4.1-mini 1500 億トークン
gpt-4.1-nano 5500 億トークン

その他のプランの種類

Azure サブスクリプションが特定の オファーの種類にリンクされている場合、クォータの最大値は前の表で示した値よりも小さくなります。

  • GPT-5-pro クォータは、MCA-E と既定のクォータ サブスクリプションでのみ使用できます。 他のすべてのオファーの種類には、デフォルトでこのモデルのクォータはゼロに設定されています。

  • GPT-5 推論モデルのクォータは、MCA-E または既定のクォータにアクセスできないすべてのオファーの種類について 20,000 TPM と 200 RPM です。 GPT-5-chat は 50,000 と 50 RPM です。

  • 一部のオファーの種類は、米国東部 2 とスウェーデン中部リージョンのグローバル標準デプロイのみに制限されます。

レベル 1 分あたりのトークン数のクォータ制限
Azure for Students 1K (すべてのモデル)
例外 o-series、GPT-4.1、GPT 4.5 Preview: 0
MSDN GPT-4o-mini: 200K
GPT 3.5 ターボ シリーズ: 200K
GPT-4 シリーズ: 50K
コンピュータ使用プレビュー: 8K
gpt-4o-realtime-preview: 1K
o シリーズ: 0
GPT 4.5 プレビュー: 0
GPT-4.1: 50K
GPT-4.1-nano: 200K
Standard& Pay-as-you-go GPT-4o-mini: 200K
GPT 3.5 ターボ シリーズ: 200K
GPT-4 シリーズ: 50K
コンピュータ使用プレビュー: 30K
o シリーズ: 0
GPT 4.5 プレビュー: 0
GPT-4.1: 50K
GPT-4.1-nano: 200K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200K
GPT 3.5 ターボ シリーズ: 200K
GPT-4 シリーズ: 50K
CSP Integration Sandbox * すべてのモデル: 0
Lightweight trial
Free trials
Azure Pass
すべてのモデル: 0

*この制限は、少数のレガシ CSP サンドボックス サブスクリプションにのみ適用されます。 次のクエリを使用して、サブスクリプションに関連付けられている quotaId 値を確認します。

サブスクリプションに関連付けられているオファーの種類を確認するには、quotaId 値を確認します。 quotaId の値がこの表に表示されていない場合、サブスクリプションは既定のクォータの対象となります。

API リファレンスを参照してください。

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

アウトプット

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
クォータの割り当て/オファーの種類 サブスクリプション クォータ ID
Enterprise および MCA-E EnterpriseAgreement_2014-09-01
従量課金制 PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
CSP 統合サンドボックス CSPDEVTEST_2018-05-01
Azure for Students AzureForStudents_2018-01-01
無料試用版 FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
既定値 この表に示されていないクォータ ID

レート制限内に収まるようにするための一般的なベスト プラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

  • アプリケーションで再試行ロジックを実装します。
  • ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。
  • さまざまな負荷増加パターンをテストします。
  • デプロイに割り当てられているクォータを増やします。 必要に応じて、別のデプロイからクォータを移動します。

クォータの増加を要求

クォータの引き上げ要求は、クォータ増加リクエスト フォームを使用して送信できます。 需要が高いため、クォータ増加のご依頼は、受け付け順に対応させていただきます。 既存のクォータ割り当てを使用するトラフィックを生成する顧客に優先順位が与えられます。 この条件が満たされていない場合、要求が拒否される可能性があります。

他のレート制限については、サービス要求を送信できます

リージョンのクォータ容量の制限

Azure AI Foundry ポータルでは、サブスクリプションのリージョン別のクォータの可用性を表示できます。

特定のモデルまたはバージョンのリージョン別のクォータ容量を表示するには、サブスクリプションの Capacity API に対してクエリを実行します。 subscriptionIdmodel_namemodel_version を指定すると、API はサブスクリプションのすべてのリージョンとデプロイの種類にわたって、そのモデルで使用可能な容量を返します。

現在、Azure AI Foundry ポータルと容量 API の両方で、廃止され 、使用できなくなったモデルのクォータ/容量情報が返されます。

API リファレンスを参照してください。

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))