この記事には、Azure OpenAI のクォータと制限のクイック リファレンスと詳細な説明が含まれています。
クォータのスコープ
クォータと制限は、テナント レベルでは適用されません。 代わりに、最高レベルのクォータ制限は、Azure サブスクリプション レベルでスコープ設定されます。
リージョン クォータの割り当て
1 分あたりのトークン (TPM) と 1 分あたりの要求数 (RPM) の制限は、リージョンごと、サブスクリプションごと、モデルまたはデプロイの種類ごとに定義されます。
たとえば、gpt-4.1
Global Standard モデルが 500 万 TPM と 5,000 RPM のクォータで一覧表示されている場合、そのモデルまたはデプロイの種類が使用可能な各リージョンには、Azure サブスクリプションごとにその量の専用クォータ プールがあります。 1 つの Azure サブスクリプション内で、リソースとモデルのデプロイが複数のリージョンに分散している限り、特定のモデルとデプロイの種類に対して、TPM と RPM の合計クォータを大量に使用できます。
クォータと制限のリファレンス
次のセクションでは、Azure OpenAI に適用される既定のクォータと制限に関するクイック ガイドを示します:
制限名 | 制限値 |
---|---|
リージョンあたり、Azure サブスクリプションあたりの Azure OpenAI リソース数 | 30. |
既定の DALL-E 2 クォータ制限 | 2 個の同時要求。 |
既定の DALL-E 3 クォータ制限 | 2 個の容量ユニット (1 分あたり 6 件の要求)。 |
デフォルトの GPT-image-1 クォータ制限 | 2 個の容量ユニット (1 分あたり 6 件の要求)。 |
既定の Sora クォータ制限 | 1 分あたり 60 件の要求。 |
音声テキスト変換での既定のオーディオ API クォータ制限 | 1 分あたり 3 件の要求。 |
要求あたりの最大プロンプト トークン数 | モデルごとに異なります。 詳細については、Azure OpenAI モデルに関するページを参照してください。 |
リソースあたりの標準デプロイの最大数 | 32. |
微調整されたモデルの最大デプロイ数 | 5 |
リソースあたりのトレーニング ジョブの合計数 | 100。 |
リソースごとに同時に実行されるトレーニング ジョブの最大数 | 1。 |
キューに入れられたトレーニング ジョブの最大数 | 20。 |
リソースあたりの最大ファイル数 (微調整) | 50 を使用しています。 |
リソースあたりのすべてのファイルの合計サイズ (微調整) | 1 GB。 |
トレーニング ジョブの最大時間 (超過した場合にジョブは失敗する) | 720 時間。 |
トレーニング ジョブの最大サイズ (tokens in training file) x (# of epochs) |
20 億。 |
アップロードあたりのすべてのファイルの最大サイズ (データに対する Azure OpenAI) | 16 MB。 |
/embeddings を含む配列内の最大数または入力 |
2,048。 |
/chat/completions メッセージの最大数 |
2,048。 |
/chat/completions 関数の最大数 |
128。 |
/chat completions ツールの最大数 |
128。 |
デプロイあたりのプロビジョニングされたスループット ユニットの最大数 | 100,000。 |
アシスタントまたはスレッドあたりの最大ファイル数 | API または Azure AI Foundry ポータルを使用する場合は 10,000。 |
アシスタントの最大ファイル サイズと微調整 | 512 MB Azure AI Foundry ポータル経由で 200 MB。 |
リソースあたりの最大ファイル アップロード要求数 | 1 秒あたり 30 件の要求。 |
アシスタント用にアップロードされたすべてのファイルの最大サイズ | 200 GB。 |
アシスタント トークンの制限 | 2,000,000 トークンの制限。 |
要求あたり GPT-4o および GPT-4.1 の最大画像数 (メッセージ アレイまたは会話履歴内の画像数) |
50 を使用しています。 |
GPT-4
vision-preview および GPT-4 turbo-2024-04-09 個の既定の最大トークン |
16。 応答が切り詰められないように max_tokens パラメーターの値を増やします。
GPT-4o 最大トークンの既定値は 4,096 です。 |
API 要求のカスタム ヘッダーの最大数1 | 10. |
メッセージ文字の制限 | 1,048,576 |
オーディオ ファイルのメッセージ サイズ | 20 MB。 |
1 現在の API は最大 10 個のカスタム ヘッダーを許容しており、これらはパイプラインを通過して返されます。 一部のお客様はこのヘッダー数を超えるようになり、HTTP 431 エラーが発生します。 ヘッダー ボリュームを減らす以外に、このエラーの解決策は存在しません。 今後の API バージョンでは、カスタム ヘッダーを通過しません。 今後のシステム アーキテクチャでは、カスタム ヘッダーに依存しないことをお勧めします。
注
クォータの制限は変更される可能性があります。
GPT-5 シリーズ
モデル | グローバル デフォルト 1 分あたりのトークン数 (TPM) |
グローバル エンタープライズと MCA-E 1 分あたりのトークン数 (TPM) |
データ ゾーンの既定値 1 分あたりのトークン数 (TPM) |
Data Zone Enterprise と MCA-E 1 分あたりのトークン数 (TPM) |
---|---|---|---|---|
gpt-5 |
1メートル | 10 M | 300 K | ۳百万 |
gpt-5-mini |
1メートル | 10 M | 300 K | ۳百万 |
gpt-5-nano |
5百万 | 150 M | 2メガ | 50メートル |
gpt-5-chat |
1メートル | 5百万 | なし | なし |
gpt-5-codex |
1メートル | 10 M | なし | なし |
gpt-5-pro |
160 K | 1.6 M | なし | なし |
モデル | グローバル デフォルト 1 分あたりの要求数 (RPM) |
グローバル エンタープライズと MCA-E 1 分あたりの要求数 (RPM) |
データ ゾーンの既定値 1 分あたりの要求数 (RPM) |
Data Zone Enterprise と MCA-E 1 分あたりの要求数 (RPM) |
---|---|---|---|---|
gpt-5 |
10K | 100 K | 3 K | 30 K |
gpt-5-mini |
1 K | 10 K | 300 | 3 K |
gpt-5-nano |
5キロ | 150 K | 2 K | 50 K |
gpt-5-chat |
1 K | 5キロ | なし | なし |
gpt-5-codex |
1 K | 10 キロ | なし | なし |
gpt-5-pro |
1.6 K | 16 K | なし | なし |
バッチ制限
制限名 | 制限値 |
---|---|
リソースあたりの最大ファイル数 | 500 |
最大入力ファイル サイズ | 200 MB |
ファイルあたりの最大要求数 | 100,000 |
バッチ クォータ
次の表はバッチ処理のクォータ制限値を示しています。 グローバル バッチのクォータ値は、エンキューされたトークンの数で表されます。 バッチ処理のためにファイルを送信すると、ファイル内のトークンの数がカウントされます。 バッチ ジョブが終了状態になるまで、これらのトークンは、エンキューされたトークンの合計制限に対してカウントされます。
グローバルバッチ
モデル | Enterprise および MCA-E | 既定値 | 月単位のクレジット カード ベースのサブスクリプション | MSDN サブスクリプション | Microsoft Azure for Students、無料試用版 |
---|---|---|---|---|---|
gpt-4.1 |
5B | 200M | 50 M | 90K | なし |
gpt-4.1 mini |
15 B | 1 B | 50 M | 90K | なし |
gpt-4.1-nano |
15 B | 1 B | 50 M | 90K | なし |
gpt-4o |
5B | 200M | 50 M | 90K | なし |
gpt-4o-mini |
15 B | 1 B | 50 M | 90K | なし |
gpt-4-turbo |
300M | 80M | 40M | 90K | なし |
gpt-4 |
150M | 30M | 5 M | 100K | なし |
gpt-35-turbo |
10B | 1 B | 100M | 2M | 50K |
o3-mini |
15 B | 1 B | 50 M | 90K | なし |
o4-mini |
15 B | 1 B | 50 M | 90K | なし |
B = 10 億 | M = 100万 | K = 1,000
データ ゾーン バッチ
モデル | Enterprise および MCA-E | 既定値 | 月単位のクレジット カード ベースのサブスクリプション | MSDN サブスクリプション | Microsoft Azure for Students、無料試用版 |
---|---|---|---|---|---|
gpt-4.1 |
500M | 30M | 30M | 90K | なし |
gpt-4.1-mini |
1.5B | 100M | 50 M | 90K | なし |
gpt-4o |
500M | 30M | 30M | 90K | なし |
gpt-4o-mini |
1.5B | 100M | 50 M | 90K | なし |
o3-mini |
1.5B | 100M | 50 M | 90K | なし |
gpt-oss
モデル | 1 分あたりのトークン数 (TPM) | 1 分あたりの要求数 (RPM) |
---|---|---|
gpt-oss-120b |
5百万 | 5キロ |
GPT-4 レート制限
GPT-4.5 プレビュー グローバルスタンダード
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
gpt-4.5 |
Enterprise および MCA-E | 200K | 200 |
gpt-4.5 |
既定値 | 150K | 150 |
GPT-4.1シリーズ グローバルスタンダード
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Enterprise および MCA-E | 5 M | 5,000 |
gpt-4.1 (2025-04-14) |
既定値 | 1M | 1,000 |
gpt-4.1-nano (2025-04-14) |
Enterprise および MCA-E | 150M | 150K |
gpt-4.1-nano (2025-04-14) |
既定値 | 5 M | 5,000 |
gpt-4.1-mini (2025-04-14) |
Enterprise および MCA-E | 150M | 150K |
gpt-4.1-mini (2025-04-14) |
既定値 | 5 M | 5,000 |
GPT-4.1 シリーズ データ ゾーン標準
モデル | レベル | クォータ制限 (トークン/分) (TPM) | 1 分あたりの要求数 |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Enterprise および MCA-E | 2M | 2K |
gpt-4.1 (2025-04-14) |
既定値 | 300K | 300 |
gpt-4.1-nano (2025-04-14) |
Enterprise および MCA-E | 50 M | 50K |
gpt-4.1-nano (2025-04-14) |
既定値 | 2M | 2K |
gpt-4.1-mini (2025-04-14) |
Enterprise および MCA-E | 50 M | 50K |
gpt-4.1-mini (2025-04-14) |
既定値 | 2M | 2K |
GPT-4 Turbo
gpt-4
(turbo-2024-04-09
) には、特定の顧客の種類に対して高い制限を持つレート制限レベルがあります。
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
gpt-4 (turbo-2024-04-09) |
Enterprise および MCA-E | 2M | 12K |
gpt-4 (turbo-2024-04-09) |
既定値 | 450K | 2.7K |
model-router のレート制限
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
model-router (2025-05-19) |
Enterprise および MCA-E | 10M | 10,000 |
model-router (2025-05-19) |
既定値 | 1M | 1,000 |
computer-use-preview Global Standard のレート制限
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
computer-use-preview |
Enterprise および MCA-E | 30M | 300K |
computer-use-preview |
既定値 | 450K | 4.5K |
o-series レート制限
Von Bedeutung
クォータの 1 分あたりのトークンに対する 1 分あたりの要求の比率は、モデルによって異なる場合があります。 プログラムを使用してモデルをデプロイしたり、クォータの引き上げを要求したりする場合、1 分あたりのトークンと 1 分あたりの要求を独立した値としてきめ細かく制御することはできません。 クォータは容量の単位で割り当てられます。それには、1 分あたりの要求量と 1 分あたりのトークン数に対応します。
モデル | 能力 | 1 分あたりの要求数 (RPM) | 1 分あたりのトークン数 (TPM) |
---|---|---|---|
以前のチャット モデル | 1 ユニット | 毎分6回転 | 1,000 TPM |
o1 と o1-preview |
1 ユニット | 1 回転/分 | 6,000 TPM |
o3 |
1 ユニット | 1 回転/分 | 1,000 TPM |
o4-mini |
1 ユニット | 1 回転/分 | 1,000 TPM |
o3-mini |
1 ユニット | 1 回転/分 | 10,000 TPM |
o1-mini |
1 ユニット | 1 回転/分 | 10,000 TPM |
o3-pro |
1 ユニット | 1 回転/分 | 10,000 TPM |
RPM と TPM の比率を変更すると、クォータが誤って割り当てられなかった可能性があるため、この概念はプログラム モデルのデプロイに重要です。
o シリーズグローバル標準
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
codex-mini |
Enterprise および MCA-E | 10M | 10,000 |
o3-pro |
Enterprise および MCA-E | 16 M | 1.6K |
o4-mini |
Enterprise および MCA-E | 10M | 10,000 |
o3 |
Enterprise および MCA-E | 10M | 10,000 |
o3-mini |
Enterprise および MCA-E | 50 M | 5,000 |
o1 と o1-preview |
Enterprise および MCA-E | 30M | 5,000 |
o1-mini |
Enterprise および MCA-E | 50 M | 5,000 |
codex-mini |
既定値 | 1M | 1,000 |
o3-pro |
既定値 | 1.6M | 160 |
o4-mini |
既定値 | 1M | 1,000 |
o3 |
既定値 | 1M | 1,000 |
o3-mini |
既定値 | 5 M | 500 |
o1 と o1-preview |
既定値 | 3M | 500 |
o1-mini |
既定値 | 5 M | 500 |
oシリーズ データゾーン標準
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
o3 |
既定値 | 10M | 10,000 |
o4-mini |
既定値 | 10M | 10,000 |
o3-mini |
Enterprise および MCA-E | 20M | 2K |
o3-mini |
既定値 | 2M | 200 |
o1 |
Enterprise および MCA-E | 6M | 1,000 |
o1 |
既定値 | 600K | 100 |
o1-preview および o1-mini Standard
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
o1-preview |
Enterprise および MCA-E | 600K | 100 |
o1-mini |
Enterprise および MCA-E | 1M | 100 |
o1-preview |
既定値 | 300K | 50 |
o1-mini |
既定値 | 500K | 50 |
gpt-4o レート制限
gpt-4o
と gpt-4o-mini
には、特定の顧客の種類に対してより高い制限を持つレート制限レベルがあります。
gpt-4o Global Standard
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
gpt-4o |
Enterprise および MCA-E | 30M | 180K |
gpt-4o-mini |
Enterprise および MCA-E | 150M | 1,500,000 回 |
gpt-4o |
既定値 | 450K | 2.7K |
gpt-4o-mini |
既定値 | 2M | 12K |
gpt-4o データゾーンスタンダード
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
gpt-4o |
Enterprise および MCA-E | 10M | 60K |
gpt-4o-mini |
Enterprise および MCA-E | 20M | 120K |
gpt-4o |
既定値 | 300K | 1.8K |
gpt-4o-mini |
既定値 | 1M | 6K |
gpt-4o Standard
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
gpt-4o |
Enterprise および MCA-E | 1M | 6K |
gpt-4o-mini |
Enterprise および MCA-E | 2M | 12K |
gpt-4o |
既定値 | 150K | 900 |
gpt-4o-mini |
既定値 | 450K | 2.7K |
GPT-4オーディオ
プレビュー期間中、各 gpt-4o
リアルタイム モデル デプロイのレート制限は、 Azure AI Foundry ポータルに下限が表示されている場合でも、1 分あたり少なくとも 100,000 トークンと 1 分あたり 1,000 要求です。
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
gpt-4o-audio-preview |
既定値 | 450K | 1,000 |
gpt-4o-realtime-preview |
既定値 | 800K | 1,000 |
gpt-4o-mini-audio-preview |
既定値 | 2M | 1,000 |
gpt-4o-mini-realtime-preview |
既定値 | 800K | 1,000 |
gpt-audio |
既定値 | 100K | 30 |
gpt-audio-mini |
既定値 | 100K | 30 |
gpt-realtime |
既定値 | 100K | 30 |
gpt-realtime-mini |
既定値 | 100K | 30 |
GPT-image-1 レート制限
GPT-image-1 Global Standard
モデル | レベル | 1 分あたりのトークン数のクォータ制限 | 1 分あたりの要求数 |
---|---|---|---|
gpt-image-1 |
Enterprise および MCA-E | なし | 20 |
gpt-image-1 |
既定値 | なし | 6 |
gpt-image-1-mini |
Low | なし | 12 |
gpt-image-1-mini |
ミディアム | なし | 36 |
gpt-image-1-mini |
High | なし | 120 |
使用量レベル
Global Standard デプロイでは、Azure のグローバル インフラストラクチャが使用されます。 顧客の推論要求に最適な可用性で、顧客のトラフィックをデータ センターに動的にルーティングします。 同様に、Data Zone Standard デプロイを使用すると、Azure のグローバル インフラストラクチャを使用して、要求ごとに最適な可用性を持つ Microsoft が定義したデータ ゾーン内のデータ センターにトラフィックを動的にルーティングできます。 この方法により、トラフィック レベルが低い方から中レベルの顧客に対して、一貫した待機時間を実現できます。 使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが大きくなる可能性があります。
使用制限は、その使用量レベルを超えると応答待ち時間にばらつきが増える可能性がある顧客を決定するものです。 顧客の使用状況はモデルごとに定義されます。 これは、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計数です。
注
使用レベルは、Standard、Data Zone Standard、および Global Standard のデプロイの種類にのみ適用されます。 使用レベルは、グローバル バッチおよびプロビジョニング スループットのデプロイには適用されません。
Global Standard、Data Zone Standard、および Standard
モデル | 1 か月あたりの使用量レベル |
---|---|
gpt-4
+
gpt-4-32k (すべてのバージョン) |
60 億トークン |
gpt-4o |
120 億トークン |
gpt-4o-mini |
850 億トークン |
o3-mini |
500 億トークン |
o1 |
40 億トークン |
o4-mini |
500 億トークン |
o3 |
50 億トークン |
gpt-4.1 |
300 億トークン |
gpt-4.1-mini |
1500 億トークン |
gpt-4.1-nano |
5500 億トークン |
その他のプランの種類
Azure サブスクリプションが特定の オファーの種類にリンクされている場合、クォータの最大値は前の表で示した値よりも小さくなります。
GPT-5-pro クォータは、MCA-E と既定のクォータ サブスクリプションでのみ使用できます。 他のすべてのオファーの種類には、デフォルトでこのモデルのクォータはゼロに設定されています。
GPT-5 推論モデルのクォータは、MCA-E または既定のクォータにアクセスできないすべてのオファーの種類について 20,000 TPM と 200 RPM です。 GPT-5-chat は 50,000 と 50 RPM です。
一部のオファーの種類は、米国東部 2 とスウェーデン中部リージョンのグローバル標準デプロイのみに制限されます。
レベル | 1 分あたりのトークン数のクォータ制限 |
---|---|
Azure for Students |
1K (すべてのモデル) 例外 o-series、GPT-4.1、GPT 4.5 Preview: 0 |
MSDN |
GPT-4o-mini: 200K GPT 3.5 ターボ シリーズ: 200K GPT-4 シリーズ: 50K コンピュータ使用プレビュー: 8K gpt-4o-realtime-preview: 1K o シリーズ: 0 GPT 4.5 プレビュー: 0 GPT-4.1: 50K GPT-4.1-nano: 200K |
Standard & Pay-as-you-go |
GPT-4o-mini: 200K GPT 3.5 ターボ シリーズ: 200K GPT-4 シリーズ: 50K コンピュータ使用プレビュー: 30K o シリーズ: 0 GPT 4.5 プレビュー: 0 GPT-4.1: 50K GPT-4.1-nano: 200K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini: 200K GPT 3.5 ターボ シリーズ: 200K GPT-4 シリーズ: 50K |
CSP Integration Sandbox
*
|
すべてのモデル: 0 |
Lightweight trial Free trials Azure Pass |
すべてのモデル: 0 |
*この制限は、少数のレガシ CSP サンドボックス サブスクリプションにのみ適用されます。 次のクエリを使用して、サブスクリプションに関連付けられている quotaId
値を確認します。
サブスクリプションに関連付けられているオファーの種類を確認するには、quotaId
値を確認します。
quotaId
の値がこの表に表示されていない場合、サブスクリプションは既定のクォータの対象となります。
API リファレンスを参照してください。
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
アウトプット
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
クォータの割り当て/オファーの種類 | サブスクリプション クォータ ID |
---|---|
Enterprise および MCA-E | EnterpriseAgreement_2014-09-01 |
従量課金制 | PayAsYouGo_2014-09-01 |
MSDN | MSDN_2014-09-01 |
CSP 統合サンドボックス | CSPDEVTEST_2018-05-01 |
Azure for Students | AzureForStudents_2018-01-01 |
無料試用版 | FreeTrial_2014-09-01 |
Azure Pass | AzurePass_2014-09-01 |
Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
既定値 | この表に示されていないクォータ ID |
レート制限内に収まるようにするための一般的なベスト プラクティス
レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。
- アプリケーションで再試行ロジックを実装します。
- ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。
- さまざまな負荷増加パターンをテストします。
- デプロイに割り当てられているクォータを増やします。 必要に応じて、別のデプロイからクォータを移動します。
クォータの増加を要求
クォータの引き上げ要求は、クォータ増加リクエスト フォームを使用して送信できます。 需要が高いため、クォータ増加のご依頼は、受け付け順に対応させていただきます。 既存のクォータ割り当てを使用するトラフィックを生成する顧客に優先順位が与えられます。 この条件が満たされていない場合、要求が拒否される可能性があります。
他のレート制限については、サービス要求を送信できます。
リージョンのクォータ容量の制限
Azure AI Foundry ポータルでは、サブスクリプションのリージョン別のクォータの可用性を表示できます。
特定のモデルまたはバージョンのリージョン別のクォータ容量を表示するには、サブスクリプションの Capacity API に対してクエリを実行します。
subscriptionId
、model_name
、model_version
を指定すると、API はサブスクリプションのすべてのリージョンとデプロイの種類にわたって、そのモデルで使用可能な容量を返します。
注
現在、Azure AI Foundry ポータルと容量 API の両方で、廃止され 、使用できなくなったモデルのクォータ/容量情報が返されます。
API リファレンスを参照してください。
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
関連コンテンツ
- Azure OpenAI デプロイのクォータを管理する方法を確認してください。
- Azure OpenAI をサポートする基になるモデルの詳細について説明します。