Azure AI Foundry Models クォータで Azure OpenAI を管理する

2025-04-30

クォータを使用すると、サブスクリプション内のデプロイ全体で、レート制限の割り当てを柔軟に管理できます。この記事では、Azure OpenAI のクォータを管理するプロセスについて説明します。

前提条件

重要

使用可能なクォータの表示を必要とするタスクについては、Cognitive Services 使用状況閲覧者ロールの使用をお勧めします。このロールは、Azure サブスクリプション全体のクォータの使用状況を表示するために必要な最小限のアクセス権を提供します。このロールと、Azure OpenAI にアクセスするために必要なその他のロールの詳細については、 Azure ロールベースのアクセス制御ガイドを参照してください。

このロールを表示するには、Azure portal で [サブスクリプション]>[アクセス制御 (IAM)]>[ロールの割り当てを追加]>Cognitive Services 使用状況閲覧者を検索します。このロール はサブスクリプションレベルで適用する必要があります。リソースレベルには存在しません。

このロールを使用しない場合、サブスクリプション 閲覧者 ロールは同等のアクセス権を提供しますが、クォータとモデルのデプロイを表示するために必要な範囲を超える読み取りアクセス権も付与されます。

クォータの概要

Azure OpenAI のクォータ機能を使用して、"クォータ" と呼ばれるグローバル制限まで、デプロイにレート制限を割り当てることができます。クォータは、リージョンごと、モデルごとに、TPM (Tokens-per-Minute) 単位でサブスクリプションに割り当てられます。 Azure OpenAI にサブスクリプションをオンボードすると、最も使用可能なモデルの既定のクォータを受け取ります。次に、デプロイの作成時に各デプロイに TPM を割り当てます。そのモデルに対して使用可能なクォータは、その量により削減されます。クォータ制限に達するまで、デプロイを作成して TPM を割り当て続けることができます。これが発生する場合、そのモデルの新しいデプロイを作成するには、同じモデルの他のデプロイに割り当てられている TPM を減らす (これにより、TPM を解放して使用できるようにする) か、目的のリージョンでモデルクォータの増加を要求して承認される必要があります。

注

米国東部の GPT-4o 用に 240,000 TPM のクォータを使用すると、お客様は、240 K TPM の 1 つのデプロイ、120 K TPM の 2 つのデプロイ、または 1 つまたは複数の Azure OpenAI リソース内の任意の数のデプロイを、そのリージョンの合計で最大 240 K 未満に増やすことができます。

デプロイが作成されると、割り当てられた TPM は、推論要求で適用される TPM (Tokens-per-Minute) のレート制限に直接マップされます。 1 分あたりの要求 (RPM) レート制限も適用され、その値は次の比率を使用して TPM 割り当てに比例して設定されます。

重要

クォータに対する 1 分あたりの要求数 (RPM) とトークン/分 (TPM) の比率は、モデルによって異なる場合があります。プログラムを使用してモデルをデプロイしたり、クォータの引き上げを要求したりする場合、TPM と RPM を独立した値としてきめ細かく制御することはできません。クォータは、RPM と TPM の対応する量を持つ容量の単位で割り当てられます。

モデル	能力	1 分あたりの要求数 (RPM)	1 分あたりのトークン数 (TPM)
以前のチャットモデル:	1 ユニット	6 RPM	1,000 TPM
o1 および o1プレビュー:	1 ユニット	1 RPM	6,000 TPM
o3	1 ユニット	1回転/分	1,000 TPM
o4-mini	1 ユニット	1 RPM	1,000 TPM
o3-mini:	1 ユニット	1 RPM	10,000 TPM
o1-mini:	1 ユニット	1 RPM	10,000 TPM
o3-pro:	1 ユニット	1 RPM	10,000 TPM

これは、RPM/TPM 比の変更によってクォータが誤って割り当てされる可能性があり、プログラムによるモデルのデプロイでは特に重要です。詳細については、「クォータと制限」を参照してください。

サブスクリプションとリージョン内で TPM をグローバルに分散する柔軟性により、Azure OpenAI は他の制限を緩和できます。

リージョンあたりの最大リソース数は 30 まで増加します。
リソース内に同じモデルのデプロイを 1 つ以上作成できないという制限が削除されました。

クォータを割り当てる

モデルデプロイを作成するときに、そのデプロイに TPM (Tokens-per-Minute) を割り当てるオプションがあります。 TPM は 1,000 単位で変更でき、上で説明したように、デプロイに適用される TPM および RPM レート制限にマップされます。

Azure AI Foundry ポータル内から新しいデプロイを作成するには、デプロイ>モデルのデプロイ>基本モデルのデプロイ>モデルの選択>Confirm を選択します。

デプロイ後は、Azure AI Foundry ポータルの [デプロイ] ページからモデルを選択して編集することで、TPM の割り当てを調整できます。この設定は [管理]>[モデルクォータ] ページからも変更できます。

重要

クォータと制限は変更される可能性があります。最新情報については、クォータと制限に関する記事を参照してください。

さらにクォータを要求する

クォータの引き上げ要求は、クォータ増加リクエストフォームを使用して送信できます。要望が多いため、受け付け中のクォータ引き上げ要求は、受け付けられた順に処理されます。既存のクォータ割り当てを消費するトラフィックを生成するお客様が優先され、この条件を満たしていない場合は要求が拒否される場合があります。

モデル固有の設定

モデルクラスとも呼ばれるさまざまなモデルデプロイには、制御できるようになった一意の最大 TPM 値があります。 これは、特定のリージョン内のモデルデプロイのその種類に割り当てることができる TPM の最大値を表しています。

他のすべてのモデルクラスには、共通の最大 TPM 値があります。

注

クォータトークン-Per-Minute (TPM) の割り当ては、モデルの最大入力トークン制限とは関係ありません。モデル入力トークンの制限はモデルテーブルで定義され、TPM に加えられた変更の影響を受けません。

クォータの表示と要求

特定のリージョン内のデプロイ全体のクォータ割り当てをすべて表示するには、Azure AI Foundry ポータルで >Quota] を選択します。

デプロイ: モデルデプロイをモデルクラスで除算します。
クォータの種類: リージョンごとに各モデルの種類に対応する 1 つのクォータ値が存在します。クォータは、そのモデルのすべてのバージョンをカバーします。
クォータ割り当て: クォータ名に対して、デプロイによって使用されるクォータの量と、このサブスクリプションとリージョンに対して承認されたクォータの合計が表示されます。この使用量のクォータは、棒グラフでも表示されます。
クォータの要求: このアイコンをクリックすると、このフォームへ移動し、クォータを増やす要求を送信できます。

既存のデプロイを統合する

新しいクォータシステムと TPM ベースの割り当てへの移行の一環として、既存のすべての Azure OpenAI モデルデプロイがクォータを使用するように自動的に移行されています。以前のカスタムレート制限の増加により、既存の TPM/RPM 割り当てが既定値を超えた場合は、影響を受けるデプロイに同等の TPM が割り当てられます。

レート制限について理解する

デプロイに TPM を割り当てると、前述のように、デプロイの TPM (Tokens-per-Minute) と RPM (Requests-Per-Minute) レート制限が設定されます。 TPM レート制限は、要求の受信時に要求によって処理されると推定されるトークンの最大数に基づいています。これは、すべての処理が完了した後に計算される請求に使用されるトークン数と同じではありません。

各要求が受信されると、Azure OpenAI は以下を含む推定最大処理トークン数を計算します。

プロンプトテキストとカウント
max_tokens パラメーターの設定
best_of パラメーターの設定

要求がデプロイエンドポイントに入ると、推定最大処理トークン数は、1 分ごとにリセットされるすべての要求の実行中のトークン数に追加されます。この 1 分間のいずれかの時点で TPM レート制限値に達すると、カウンターがリセットされるまで、それ以降の要求は 429 応答コードを受け取ります。

重要

レート制限計算で使用されるトークン数は、API 要求の文字数に部分的に基づく推定値です。レート制限トークンの見積もりは、要求がモデルの入力トークン制限を下回っていることを課金/判断するために使用されるトークン計算と同じではありません。レート制限トークンの計算のおおよその性質上、各要求の正確なトークン数の測定と比較して、予想される値より前にレート制限をトリガーできる動作が予想されます。

RPM レート制限は、時間の経過と同時に受信した要求の数に基づいています。レート制限では、1 分間に要求が均等に分散されることを想定しています。この平均フローが維持されない場合、1 分間の測定で制限に達していなくても、要求に対して 429 応答を受け取る可能性があります。この動作を実装するために、Azure OpenAI は、一定期間 (通常は 1 秒または 10 秒) の受信要求の割合を評価します。その間に受信した要求の数が設定された RPM 制限で予想される数を超えた場合、新しい要求は次の評価期間まで 429 応答コードを受け取ります。たとえば、Azure OpenAI が 1 秒間隔で要求レートを監視している場合、1 秒ごとに 10 件を超える要求を受信すると、600 RPM デプロイでレート制限が発生します (1 分あたり 600 件の要求 = 1 秒あたり 10 件の要求)。

レート制限のベストプラクティス

レート制限に関連する問題を最小限に抑えるには、次の手法を使用することをお勧めします。

max_tokens と best_of を、シナリオのニーズに対応する最小値に設定します。たとえば、応答が小さいと予想される場合は、max-tokens 値を大きく設定しないようにします。
クォータ管理を使用して、トラフィックの多いデプロイで TPM を増やし、必要が限られたデプロイでの TPM を減らします。
アプリケーションで再試行ロジックを実装します。
ワークロードが急激に変化しないようにします。ワークロードは徐々に増やします。
さまざまな負荷増加パターンをテストします。

デプロイの自動化

このセクションには、クォータを使用して TPM レート制限を設定するデプロイの作成をプログラムで開始するのに役立つ簡単なテンプレートの例が含まれています。クォータの導入により、リソース管理関連のアクティビティには API バージョン 2023-05-01 を使用する必要があります。この API バージョンはリソースを管理するためのものであり、入力候補、チャットの完了、埋め込み、イメージの生成などの呼び出しの推論に使用される API バージョンには影響しません。

デプロイ

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

パスパラメーター

パラメーター	タイプ	必須	説明
`accountName`	ひも	必須	Azure OpenAI リソースの名前。
`deploymentName`	ひも	必須	既存のモデルをデプロイしたときに選択したデプロイ名、または新しいモデルデプロイに使用する名前。
`resourceGroupName`	ひも	必須	このモデルデプロイに関連付けられているリソースグループの名前。
`subscriptionId`	ひも	必須	関連付けられているサブスクリプションの ID。
`api-version`	ひも	必須	この操作に使用する API バージョン。これは、YYYY-MM-DD 形式に従います。

サポートされているバージョン

2023-05-01Swagger の仕様

要求本文

これは、使用可能な要求本文パラメーターのサブセットにすぎません。すべてのパラメーターの一覧については、REST API リファレンスドキュメントをご覧ください。

パラメーター	タイプ	説明
sku	Sku	SKU を表すリソースモデル定義。
capacity	整数	これは、このデプロイに割り当てるクォータの量を表します。値 1 は、1 分あたり 1,000 トークン (TPM) に相当します。値 10 は、1 分あたり 10,000 トークン (TPM) に相当します。

要求の例

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-4o-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-4o","version": "2024-11-20"}}}'

注

認証トークンを生成するには、複数の方法があります。初期テストを行うための最も簡単な方法は、Azure portal から Cloud Shell を起動することです。次に、az account get-access-token を実行します。このトークンは、API テストの一時的な認証トークンとして使用できます。

詳細については、使用法とデプロイに関する REST API リファレンスドキュメントを参照してください。

使用法

特定のサブスクリプションに関して特定のリージョンでクォータ使用量にクエリを実行するには:

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{___location}/usages?api-version=2023-05-01

パスパラメーター

パラメーター	タイプ	必須	説明
`subscriptionId`	ひも	必須	関連付けられているサブスクリプションの ID。
`___location`	ひも	必須	使用状況を表示する場所 (例: `eastus`)
`api-version`	ひも	必須	この操作に使用する API バージョン。これは、YYYY-MM-DD 形式に従います。

サポートされているバージョン

2023-05-01Swagger の仕様

要求の例

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN'

Azure CLI をインストールします。クォータには Azure CLI version 2.51.0 が必要です。既に Azure CLI がローカルにインストールされている場合は、az upgrade を実行して最新バージョンに更新します。

実行している Azure CLI のバージョンを確認するには、 az versionを使用します。 Azure Cloud Shell は現在まだ 2.50.0 を実行しているため、最新の Azure OpenAI 機能を利用するには、暫定的に Azure CLI をローカルにインストールする必要があります。

デプロイ

az cognitiveservices account deployment create --model-format
                                               --model-name
                                               --model-version
                                               --name
                                               --resource-group
                                               [--capacity]
                                               [--deployment-name]
                                               [--scale-capacity]
                                               [--scale-settings-scale-type {Manual, Standard}]
                                               [--sku]

CLI のローカルインストールにサインインするには、az login コマンドを実行します。

az login

以下のコマンドで sku-capacity を 10 に設定すると、このデプロイには 10K TPM 制限が設定されます。

az cognitiveservices account deployment create -g test-resource-group -n test-resource-name --deployment-name test-deployment-name --model-name gpt-4o --model-version "2024-11-20" --model-format OpenAI --sku-capacity 10 --sku-name "Standard"

使用法

特定のサブスクリプションに関して特定のリージョンでクォータ使用量にクエリを実行するには:

az cognitiveservices usage list --___location

例

az cognitiveservices usage list -l eastus

このコマンドは、Azure CLI の現在アクティブなサブスクリプションのコンテキストで実行されます。 az-account-set --subscription を使用してアクティブなサブスクリプションを変更します。

詳細については、Azure CLI リファレンスドキュメントを参照してください

Az PowerShell モジュールの最新バージョンをインストールします。既に Az PowerShell モジュールがローカルにインストールされている場合、Update-Module -Name Az を実行して最新バージョンに更新します。

実行している Az PowerShell モジュールのバージョンを確認するには、 Get-InstalledModule -Name Azを使用します。 Azure Cloud Shell では現在、最新の Azure OpenAI 機能を活用できるバージョンの Azure PowerShell が実行されています。

デプロイ

New-AzCognitiveServicesAccountDeployment
   [-ResourceGroupName] <String>
   [-AccountName] <String>
   [-Name] <String>
   [-Properties] <DeploymentProperties>
   [-Sku] <Sku>
   [-DefaultProfile <IAzureContextContainer>]
   [-WhatIf]
   [-Confirm]
   [<CommonParameters>]

Azure PowerShell のローカルインストールにサインインするには、Connect-AzAccount コマンドを実行します。

Connect-AzAccount

以下のコマンドで Sku の Capacity を 10 に設定すると、このデプロイは 10K TPM 制限に設定されます。

$cognitiveServicesDeploymentParams = @{
    ResourceGroupName = 'test-resource-group'
    AccountName = 'test-resource-name'
    Name = 'test-deployment-name'
    Properties = @{
        Model = @{
            Name = 'gpt-4o'
            Version = '2024-11-20'
            Format  = 'OpenAI'
        }
    }
    Sku = @{
        Name = 'Standard'
        Capacity = '10'
    }
}
New-AzCognitiveServicesAccountDeployment @cognitiveServicesDeploymentParams

使用法

特定のサブスクリプションに関して特定のリージョンでクォータ使用量にクエリを実行するには:

Get-AzCognitiveServicesUsage -Location <___location>

例

Get-AzCognitiveServicesUsage -Location eastus

このコマンドは、Azure PowerShell の現在アクティブなサブスクリプションのコンテキストで実行されます。 Set-AzContext を使用してアクティブなサブスクリプションを変更します。

New-AzCognitiveServicesAccountDeploymentとGet-AzCognitiveServicesUsageの詳細については、Azure PowerShell リファレンスドキュメントを参照してください。

//
// This Azure Resource Manager template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
{
    "type": "Microsoft.CognitiveServices/accounts/deployments",
    "apiVersion": "2023-05-01",
    "name": "arm-je-aoai-test-resource/arm-je-std-deployment",    // Update reference to parent Azure OpenAI resource
    "dependsOn": [
        "[resourceId('Microsoft.CognitiveServices/accounts', 'arm-je-aoai-test-resource')]"  // Update reference to parent Azure OpenAI resource
    ],
    "sku": {
        "name": "Standard",      
        "capacity": 10            // The deployment will be created with a 10K TPM limit
    },
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "gpt-4o",
            "version": "2024-11-20"       
        }
    }
}

詳細については、完全な Azure Resource Manager リファレンスドキュメントを参照してください。

//
// This Bicep template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
resource arm_je_std_deployment 'Microsoft.CognitiveServices/accounts/deployments@2023-05-01' = {
  parent: arm_je_aoai_resource   // Replace this with a reference to the parent Azure OpenAI resource
  name: 'arm-je-std-deployment'
  sku: {
    name: 'Standard'            
    capacity: 10                 // The deployment will be created with a 10K TPM limit
  }
  properties: {
    model: {
      format: 'OpenAI'
      name: 'gpt-4o'
      version: '2024-11-20'          
    }
  }
}

詳細については、完全な Bicep リファレンスドキュメントを参照してください。

# This Terraform template shows how to use the new schema introduced in the 2023-05-01 API version to 
# create deployments that set the model version and the TPM limits for standard deployments.
# 
# The new schema is not yet available in the AzureRM provider (target v4.0), so this template uses the AzAPI
# provider, which provides a Terraform-compatible interface to the underlying ARM structures.
# 
# For more details on these providers:
#     AzureRM: https://registry.terraform.io/providers/hashicorp/azurerm/latest/docs
#     AzAPI: https://registry.terraform.io/providers/azure/azapi/latest/docs
#

# 
terraform {
  required_providers {
    azapi   = { source  = "Azure/azapi" }
    azurerm = { source  = "hashicorp/azurerm" }
  }
}

provider "azapi" {
  # Insert auth info here as necessary
}

provider "azurerm" {
    # Insert auth info here as necessary  
    features {
    }
}

# 
# To create a complete example, AzureRM is used to create a new resource group and Azure OpenAI Resource
# 
resource "azurerm_resource_group" "TERRAFORM-AOAI-TEST-GROUP" {
  name     = "TERRAFORM-AOAI-TEST-GROUP"
  ___location = "canadaeast"
}

resource "azurerm_cognitive_account" "TERRAFORM-AOAI-TEST-ACCOUNT" {
  name                  = "terraform-aoai-test-account"
  ___location              = "canadaeast"
  resource_group_name   = azurerm_resource_group.TERRAFORM-AOAI-TEST-GROUP.name
  kind                  = "OpenAI"
  sku_name              = "S0"
  custom_subdomain_name = "terraform-test-account-"
  }


# 
# AzAPI is used to create the deployment so that the TPM limit and model versions can be set
#
resource "azapi_resource" "TERRAFORM-AOAI-STD-DEPLOYMENT" {
  type      = "Microsoft.CognitiveServices/accounts/deployments@2023-05-01"
  name      = "TERRAFORM-AOAI-STD-DEPLOYMENT"
  parent_id = azurerm_cognitive_account.TERRAFORM-AOAI-TEST-ACCOUNT.id

  body = jsonencode({
    sku = {                            # The sku object specifies the deployment type and limit in 2023-05-01
        name = "Standard",             
        capacity = 10                  # This deployment will be set with a 10K TPM limit
    },
    properties = {
        model = {
            format = "OpenAI",
            name = "gpt-4o",
            version = "2024-11-20"           
        }
    }
  })
}

詳細については、完全な Terraform リファレンスドキュメントを参照してください。

リソースの削除

Azure portal から Azure OpenAI リソースを削除しようとすると、デプロイがまだ存在する場合、関連するデプロイが削除されるまで削除はブロックされます。最初にデプロイを削除すると、クォータ割り当てが適切に解放され、新しいデプロイで使用できるようになります。

ただし、REST API またはその他のプログラムによる方法を使用してリソースを削除すると、最初にデプロイを削除する必要がなくなります。これが発生すると、リソースがパージされるまで 48 時間、関連するクォータ割り当てを新しいデプロイに割り当てることができなくなります。削除されたリソースの即時パージをトリガーしてクォータを解放するには、「削除されたリソースのパージ手順」に従ってください。

次のステップ

Azure OpenAI のクォータの既定値を確認するには、クォータと制限に関する記事を参照してください

次の方法で共有

Azure AI Foundry Models クォータで Azure OpenAI を管理する

前提条件

クォータの概要

クォータを割り当てる

さらにクォータを要求する

モデル固有の設定

クォータの表示と要求

既存のデプロイを統合する

レート制限について理解する

レート制限のベスト プラクティス

デプロイの自動化

デプロイ

要求の例

使用法

要求の例

リソースの削除

次のステップ

フィードバック

その他のリソース

レート制限のベストプラクティス