この記事では、Microsoft Foundry モデルのクォータと制限のクイック リファレンスと詳細な説明を提供します。 Foundry モデルの Azure OpenAI に固有のクォータと制限については、「 Azure OpenAI のクォータと制限」を参照してください。
クォータと制限のリファレンス
Azure では、不正による予算超過を防ぎ、Azure の容量の制約を尊重するためにクォータと制限を使用しています。 運用環境のワークロードに合わせてスケーリングするときは、これらの制限事項について考慮してください。 次のセクションでは、Foundry の Azure AI モデル推論サービスに適用される既定のクォータと制限に関するクイック ガイドを提供します。
リソースの制限
| 制限名 | 制限値 |
|---|---|
| Azure サブスクリプションあたりのリージョンあたりの Foundry リソース数 | 100 |
| リソースあたりの最大プロジェクト数 | 250 |
| リソースあたりの最大デプロイ数 | 32 |
レート制限
次の表は、Foundry Models に適用される各レートの制限を一覧にしたものです。
- 1 分あたりのトークン数
- 1 分あたりの要求数
- 同時要求
| Models | 1 分あたりのトークン数 | 1 分あたりの要求数 | 同時要求数 |
|---|---|---|---|
| Azure OpenAI のモデル | モデルと SKU によって異なります。 Azure OpenAI の制限を参照してください。 | モデルと SKU によって異なります。 Azure OpenAI の制限を参照してください。 | 適用外 |
| - DeepSeek-R1 - DeepSeek-V3-0324 |
5,000,000 | 5,000 | 300 |
| - Llama 3.3 70B Instruct - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - グロク 3 ミニ |
400,000 | 1,000 | 300 |
| - Flux-Pro 1.1 - Flux.1-Kontext Pro |
適用外 | 2 容量ユニット (1 分あたり 6 要求) | 適用外 |
| 残りのモデル | 400,000 | 1,000 | 300 |
クォータを増やすには:
- Azure OpenAI の場合は、 Foundry Service: クォータの引き上げ要求 を使用して要求を送信します。
- その他のモデルについては、「既定の制限の引き上げをリクエストする方法」を参照してください。
需要が高いため、上限引き上げのリクエストは個別に審査されます。
その他の制限
| 制限名 | 制限値 |
|---|---|
| API 要求内のカスタム ヘッダーの最大数1 | 10 |
1 現在の API では、最大 10 件のカスタム ヘッダーを許可しており、これらはパイプラインを通過して返されます。 このヘッダー数を超えると、リクエストは HTTP 431 エラーになります。 このエラーを解消するには、ヘッダーの数を減らしてください。 将来の API バージョンでは、カスタム ヘッダーは通過しなくなります。 今後のシステム アーキテクチャでは、カスタム ヘッダーに依存しないことをお勧めします。
使用量レベル
Global Standard デプロイでは、Azure のグローバル インフラストラクチャを活用し、推論リクエストに対して最も可用性の高いデータセンターへ顧客のトラフィックを動的にルーティングします。 このインフラストラクチャにより、低から中程度のトラフィック量の顧客に対して、より安定したレイテンシが実現されます。 使用量が持続して高いレベルにあるお客様は、応答の待機時間のばらつきが増す可能性があります。
使用制限は、使用量が一定のレベルを超えた場合に、応答待ち時間の変動が大きくなる可能性のある水準を決定します。 お客様の使用量はモデルごとに定義され、これは、特定のテナントのすべてのリージョンのすべてのサブスクリプションのすべてのデプロイで使用されるトークンの合計です。
既定の制限の引き上げを要求する
クォータの引き上げ要求は、クォータ増加リクエスト フォームを使用して送信できます。 需要が高いため、クォータ増加のご依頼は、受け付け順に対応させていただきます。 既存のクォータ割り当てを使用するトラフィックを生成する顧客に優先順位が与えられます。 この条件が満たされていない場合、要求が拒否される可能性があります。
他のレート制限については、サービス要求を送信できます。
レート制限内で運用するための一般的なベスト プラクティス
レート制限に関連する問題を最小限に抑えるために、次の手法を使用してください。
- アプリケーションで再試行ロジックを実装します。
- ワークロードが急激に変化しないようにします。 ワークロードは徐々に増やします。
- さまざまな負荷増加パターンをテストします。
- デプロイに割り当てられているクォータを増やします。 必要に応じて、別のデプロイからクォータを移動します。
次のステップ
- Foundry モデルで使用できるモデルの詳細を確認する