この記事には、Azure OpenAI のクォータと制限のクイック リファレンスと詳細な説明が含まれています。
クォータと制限のリファレンス
以降のセクションでは、Azure OpenAI に適用されるデフォルトのクォータと制限のクイック ガイドを提供します。
制限名 | 制限値 |
---|---|
各 Azure サブスクリプションのリージョンあたりの Azure OpenAI リソース数 | 30 |
既定の DALL-E 2 クォータ制限 | 2 同時要求 |
既定の DALL-E 3 クォータ制限 | 2 容量ユニット (1 分あたり 6 要求) |
既定の GPT-image-1 クォータ制限 | 2 容量ユニット (1 分あたり 6 要求) |
既定の Sora クォータ制限 | 1 分あたり 60 件の要求 |
音声テキスト変換での既定のオーディオ API クォータ制限 | 1 分あたり 3 要求 |
要求あたりの最大プロンプト トークン数 | モデルごとに異なります。 詳細については、Azure OpenAI モデルに関するページを参照してください。 |
リソースあたりの最大 Standard デプロイ数 | 32 |
微調整済みモデルのデプロイ数の上限 | 5 |
リソースあたりのトレーニング ジョブの合計数 | 100 |
リソースあたりの同時実行トレーニング ジョブの最大数 | 1 |
キューに登録されたトレーニング ジョブの最大数 | 20 |
リソースあたりの最大ファイル数 (微調整) | 50 |
リソースあたりのすべてのファイルの合計サイズ (微調整) | 1 GB |
トレーニングジョブの最大時間 (超過した場合、ジョブは失敗します) | 720 時間 |
トレーニング ジョブの最大サイズ (トレーニング ファイル内のトークン) x (エポックの数) | 20 億 |
アップロードごとのすべてのファイルの最大サイズ (データに対する Azure OpenAI) | 16 MB |
/embeddings を含む配列内の最大数または入力数 |
2048 |
/chat/completions メッセージの最大数 |
2048 |
/chat/completions 関数の最大数 |
128 |
/chat completions ツールの最大数 |
128 |
デプロイあたりのプロビジョニングされたスループット ユニットの最大数 | 100,000 |
アシスタント/スレッドあたりの最大ファイル数 | API または Azure AI Foundry ポータルを使用する場合は 10,000。 |
アシスタントと微調整のための最大ファイルサイズ | 512 MB Azure AI Foundry ポータル経由で 200 MB |
アシスタント用にアップロードされたすべてのファイルの最大サイズ | 200 GB |
アシスタント トークンの制限 | 2,000,000 トークンの制限 |
GPT-4o および GPT-4.1 要求あたりの最大イメージ数 (メッセージ配列/会話履歴内の画像の数) | 50 |
GPT-4 vision-preview と GPT-4 turbo-2024-04-09 既定の最大トークン数 |
16 応答が切り詰められないように max_tokens パラメーターの値を増やします。 GPT-4o 最大トークン数の既定値は 4096 です。 |
API 要求内のカスタム ヘッダーの最大数1 | 10 |
メッセージ文字の制限 | 1048576 |
オーディオ ファイルのメッセージ サイズ | 20 MB |
1 現在の API は最大 10 個のカスタム ヘッダーを許容しており、これらはパイプラインを通過して返されます。 現在、一部のお客様はこのヘッダー数を超えており、HTTP 431 エラーが発生しています。 ヘッダー ボリュームを減らす以外に、このエラーの解決策は存在しません。 今後の API バージョンでは、カスタム ヘッダーの通過を停止します。 今後のシステム アーキテクチャでは、カスタム ヘッダーに依存しないことをお勧めします。
注記
クォータの制限は変更される可能性があります。
バッチ制限
制限名 | 制限値 |
---|---|
リソースあたりの最大ファイル数 | 500 |
最大入力ファイル サイズ | 200 MB |
ファイルあたりの最大要求数 | 100,000 |
バッチ クォータ
次の表はバッチ処理のクォータ制限値を示しています。 グローバル バッチのクォータ値は、エンキューされたトークンの数で表されます。 バッチ処理用のファイルを送信すると、ファイル内に存在するトークンの数がカウントされます。 バッチジョブが最終状態に達するまで、これらのトークンは、エンキューされたトークンの総数制限に対してカウントされます。
グローバル バッチ
モデル | エンタープライズ契約 | 既定値 | 月単位のクレジット カード ベースのサブスクリプション | MSDN サブスクリプション | Microsoft Azure for Students、無料試用版 |
---|---|---|---|---|---|
gpt-4.1 |
5 B | 200メートル | 50メートル | 90 K | 該当なし |
gpt-4.1 mini |
15 B | 1 B | 50 M | 90k | 該当なし |
gpt-4.1-nano |
15 B | 1 B | 50メートル | 90 K | 該当なし |
gpt-4o |
5 B | 200メートル | 50メートル | 90 K | 該当なし |
gpt-4o-mini |
15 B | 1 B | 50メートル | 90 K | 該当なし |
gpt-4-turbo |
300メートル | 80百万 | 40 M | 90 K | 該当なし |
gpt-4 |
150 M | 30 M | 5百万 | 100 キロ | 該当なし |
gpt-35-turbo |
10 B | 1 B | 100 M | 2メガ | 5万 |
o3-mini |
15 B | 1 B | 50メートル | 90 K | 該当なし |
o4-mini |
15 B | 1 B | 50メートル | 90 K | 該当なし |
B = 10 億 | M = 100万 | K = 1,000
データ ゾーン バッチ
モデル | エンタープライズ契約 | 既定値 | 月単位のクレジット カード ベースのサブスクリプション | MSDN サブスクリプション | Microsoft Azure for Students、無料試用版 |
---|---|---|---|---|---|
gpt-4.1 |
500メートル | 30 M | 30 M | 90 K | 該当なし |
gpt-4.1-mini |
1.5 B | 100 M | 50メートル | 90 K | 該当なし |
gpt-4o |
500メートル | 30 M | 30 M | 90 K | 該当なし |
gpt-4o-mini |
1.5 B | 100 M | 50メートル | 90 K | 該当なし |
o3-mini |
1.5 B | 100 M | 50メートル | 90 K | 該当なし |
GPT-4 レート制限
GPT-4.5 preview グローバル標準
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4.5 |
エンタープライズ層 | 200 K | 200 |
gpt-4.5 |
既定値 | 150 K | 150 |
GPT-4.1 シリーズ
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4.1 (2025-04-14) |
エンタープライズ層 | 5百万 | 5キロ |
gpt-4.1 (2025-04-14) |
既定値 | 1メートル | 1 K |
gpt-4.1-nano (2025-04-14) |
エンタープライズ層 | 5百万 | 5キロ |
gpt-4.1-nano (2025-04-14) |
既定値 | 1メートル | 1 K |
gpt-4.1-mini (2025-04-14) |
エンタープライズ層 | 5百万 | 5キロ |
gpt-4.1-mini (2025-04-14) |
既定値 | 1メートル | 1 K |
GPT-4 Turbo
gpt-4
(turbo-2024-04-09
) には、特定の顧客の種類に対して高い制限を持つレート制限レベルがあります。
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4 (turbo-2024-04-09) |
エンタープライズ契約 | 2メガ | 12 K |
gpt-4 (turbo-2024-04-09) |
既定値 | 450 K | 2.7 K |
model-router のレート制限
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
model-router (2025-05-19) |
エンタープライズ層 | 10 M | 10 K |
model-router (2025-05-19) |
既定値 | 1メートル | 1 K |
computer-use-preview グローバル標準のレート制限
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
computer-use-preview |
エンタープライズ層 | 30 M | 300 K |
computer-use-preview |
既定値 | 450 K | 4.5 K |
o-series レート制限
重要
クォータに対する 1 分あたりの要求数 (RPM) とトークン/分 (TPM) の比率は、モデルによって異なる場合があります。 プログラムを使用してモデルをデプロイしたり 、クォータの引き上げを要求 したりする場合、TPM と RPM を独立した値としてきめ細かく制御することはできません。 クォータは、RPM と TPM の対応する量を持つ容量の単位で割り当てられます。
モデル | 能力 | 1 分あたりの要求数 (RPM) | 1 分あたりのトークン数 (TPM) |
---|---|---|---|
以前のチャット モデル: | 1 ユニット | 6 RPM | 1,000 TPM |
o1 および o1プレビュー: | 1 ユニット | 1 RPM | 6,000 TPM |
o3 | 1 ユニット | 1 RPM | 1,000 TPM |
o4-mini | 1 ユニット | 1 RPM | 1,000 TPM |
o3-mini: | 1 ユニット | 1 RPM | 10,000 TPM |
o1-mini: | 1 ユニット | 1 RPM | 10,000 TPM |
o3-pro: | 1 ユニット | 1 RPM | 10,000 TPM |
これは、RPM/TPM 比の変更によってクォータが誤って割り当てされる可能性があり、プログラムによるモデルのデプロイでは特に重要です。
o シリーズのグローバル標準
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
codex-mini |
エンタープライズ契約 | 10 M | 10 K |
o3-pro |
エンタープライズ契約 | 16 M | 1.6 K |
o4-mini |
エンタープライズ契約 | 10 M | 10 K |
o3 |
エンタープライズ契約 | 10 M | 10 K |
o3-mini |
エンタープライズ契約 | 50メートル | 5キロ |
o1 および o1-preview |
エンタープライズ契約 | 30 M | 5キロ |
o1-mini |
エンタープライズ契約 | 50メートル | 5キロ |
codex-mini |
既定値 | 1メートル | 1 K |
o3-pro |
既定値 | 1.6 M | 160 |
o4-mini |
既定値 | 1メートル | 1 K |
o3 |
既定値 | 1メートル | 1 K |
o3-mini |
既定値 | 5百万 | 500 |
o1 および o1-preview |
既定値 | ۳百万 | 500 |
o1-mini |
既定値 | 5百万 | 500 |
Oシリーズデータ領域標準
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
o3-mini |
エンタープライズ契約 | 20,000,000 | 2 K |
o3-mini |
既定値 | 2メガ | 200 |
o1 |
エンタープライズ契約 | 6百万 | 1 K |
o1 |
既定値 | 600 K | 100 |
o1-preview と o1-mini の標準
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
o1-preview |
エンタープライズ契約 | 600 K | 100 |
o1-mini |
エンタープライズ契約 | 1メートル | 100 |
o1-preview |
既定値 | 300 K | 50 |
o1-mini |
既定値 | 500 K | 50 |
gpt-4o レート制限
gpt-4o
と gpt-4o-mini
には、特定の顧客の種類に対してより高い制限を持つレート制限レベルがあります。
gpt-4o グローバル標準
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4o |
エンタープライズ契約 | 30 M | 180キロメートル |
gpt-4o-mini |
エンタープライズ契約 | 50メートル | 300 K |
gpt-4o |
既定値 | 450 K | 2.7 K |
gpt-4o-mini |
既定値 | 2メガ | 12 K |
M = 100 万 | K = 1,000
gpt-4o データ ゾーン標準
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4o |
エンタープライズ契約 | 10 M | 60 K |
gpt-4o-mini |
エンタープライズ契約 | 20,000,000 | 120 K |
gpt-4o |
既定値 | 300 K | 1.8 K |
gpt-4o-mini |
既定値 | 1メートル | 6 K |
M = 100 万 | K = 1,000
gpt-4o Standard
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4o |
エンタープライズ契約 | 1メートル | 6 K |
gpt-4o-mini |
エンタープライズ契約 | 2メガ | 12 K |
gpt-4o |
既定値 | 150 K | 900 |
gpt-4o-mini |
既定値 | 450 K | 2.7 K |
M = 100 万 | K = 1,000
gpt-4o audio
各 gpt-4o
オーディオ モデルのデプロイのレート制限は、100 K TPM と 1 K RPM です。 プレビュー期間中、 Azure AI Foundry ポータル と API では、異なるレート制限が不正確に表示される可能性があります。 別のレート制限を設定しようとしても、実際のレート制限は 100 K TPM と 1 K RPM です。
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4o-audio-preview |
既定値 | 450 K | 1 K |
gpt-4o-realtime-preview |
既定値 | 80万 | 1 K |
gpt-4o-mini-audio-preview |
既定値 | 2メガ | 1 K |
gpt-4o-mini-realtime-preview |
既定値 | 80万 | 1 K |
M = 100 万 | K = 1,000
GPT-image-1 レート制限
GPT0-image-1 グローバル標準
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-image-1 |
エンタープライズ契約 | 該当なし | 20 |
gpt-image-1 |
既定値 | 該当なし | 6 |
使用量レベル
グローバル標準のデプロイでは、Azure のグローバル インフラストラクチャが使われて、お客様のトラフィックはお客様の推論要求に最適な可用性を持つデータ センターに動的にルーティングされます。 同様に、データ ゾーン標準デプロイでは、Azure グローバル インフラストラクチャを使用して、要求ごとに最適な可用性を持つ Microsoft 定義データ ゾーン内のデータ センターにトラフィックを動的にルーティングできます。 これにより、トラフィックのレベルが低から中程度のお客様に対して、より一貫した待機時間が可能になります。 使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが大きくなる可能性があります。
使用制限は、使用量が一定のレベルを超えた場合に、応答待ち時間の変動が大きくなる可能性のある水準を決定します。 顧客の使用量はモデルごとに定義され、この量は、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。
注記
使用量レベルは、標準、データ ゾーン標準、グローバル標準のデプロイの種類に対してだけ適用されます。 使用レベルは、グローバル バッチおよびプロビジョニング スループットのデプロイには適用されません。
GPT-4o のグローバル標準、データゾーン標準、および標準
モデル | 1 か月あたりの使用量レベル |
---|---|
gpt-4o |
120 億トークン |
gpt-4o-mini |
850 億トークン |
GPT-4 標準
モデル | 1 か月あたりの使用量レベル |
---|---|
gpt-4 + gpt-4-32k (すべてのバージョン) |
60 億 |
その他のプランの種類
Azure サブスクリプションが特定の オファーの種類にリンクされている場合、最大クォータ値は上記の表に示されている値より小さくなります。
レベル | クォータ制限 (トークン/分) (TPM) |
---|---|
Azure for Students |
1 K (すべてのモデル) 例外 o シリーズおよび GPT-4.1 と GPT 4.5 プレビュー: 0 |
MSDN |
GPT-4o-mini: 200 K GPT 3.5 ターボシリーズ:200 K GPT-4 シリーズ: 50 K コンピュータ使用プレビュー: 8 K gpt-4oリアルタイムプレビュー: 1 K o シリーズ: 0 GPT 4.5 プレビュー: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Standard |
GPT-4o-mini: 200 K GPT 3.5 ターボシリーズ:200 K GPT-4 シリーズ: 50 K コンピューター使用プレビュー: 30 K o シリーズ: 0 GPT 4.5 プレビュー: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini: 200 K GPT 3.5 ターボシリーズ:200 K GPT-4 シリーズ: 50 K |
CSP Integration Sandbox * |
すべてのモデル: 0 |
Lightweight trial Free Trials Azure Pass |
すべてのモデル: 0 |
*これは、少数のレガシ CSP サンドボックス サブスクリプションにのみ適用されます。 サブスクリプションに関連付けられている quotaId
を確認するには、次のクエリを使用します。
サブスクリプションに関連付けられているオファーの種類を確認するには、 quotaId
を確認します。 quotaId
がこの表に記載されていない場合、サブスクリプションは既定のクォータの対象となります。
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
アウトプット
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
クォータの割り当て/オファーの種類 | サブスクリプション クォータ ID |
---|---|
エンタープライズ | EnterpriseAgreement_2014-09-01 |
従量課金制 | PayAsYouGo_2014-09-01 |
MSDN | MSDN_2014-09-01 |
CSP 統合サンドボックス | CSPDEVTEST_2018-05-01 |
Azure for Students | AzureForStudents_2018-01-01 |
無料試用版 | FreeTrial_2014-09-01 |
Azure Pass | AzurePass_2014-09-01 |
Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
既定値 | この表に示されていないクォータ ID |
レート制限内に収まるようにするための一般的なベスト プラクティス
レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。
- アプリケーションで再試行ロジックを実装します。
- ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。
- さまざまな負荷増加パターンをテストします。
- デプロイに割り当てられているクォータを増やします。 必要に応じて、別のデプロイからクォータを移動します。
クォータの引き上げを要求する方法
クォータの引き上げ要求は、クォータ増加リクエスト フォームを使用して送信できます。 需要が高いため、クォータの引き上げ要求は受け入れられ、受け取った順序で入力されます。 既存のクォータ割り当てを消費するトラフィックを生成するお客様が優先され、この条件を満たしていない場合は要求が拒否される場合があります。
その他のレート制限については、サービス要求を送信してください。
リージョンのクォータ容量の制限
Azure AI Foundry ポータルでは、サブスクリプションのリージョン別のクォータの可用性を表示できます。
または、特定のモデル/バージョンのリージョン別にクォータ容量を表示するには、サブスクリプションの 容量 API に対してクエリを実行します。 subscriptionId
、model_name
、およびmodel_version
を指定すると、API は、サブスクリプションのすべてのリージョンとデプロイの種類にわたって、そのモデルで使用可能な容量を返します。
注記
現在、Azure AI Foundry ポータルと容量 API の両方で、 廃止され 、使用できなくなったモデルのクォータ/容量情報が返されます。
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
次のステップ
Azure OpenAI デプロイのクォータを管理する方法を確認してください。 Azure OpenAI をサポートする基となるモデルに関する記事を確認します。