Azure AI Foundry 모델 할당량에서 Azure OpenAI 관리

2025-07-31

할당량은 구독 내에서 배포 전반에 걸쳐 비율 제한 할당을 적극적으로 관리할 수 있는 유연성을 제공합니다. 이 문서에서는 Azure OpenAI 할당량을 관리하는 프로세스를 안내합니다.

필수 조건

중요합니다

사용 가능한 할당량을 확인해야 하는 작업의 경우 Cognitive Services 사용 읽기 권한자 역할을 사용하는 것이 좋습니다. 이 역할은 Azure 구독 전체의 할당량 사용량을 보는 데 필요한 최소한의 액세스 권한을 제공합니다. 이 역할 및 Azure OpenAI에 액세스하는 데 필요한 다른 역할에 대해 자세히 알아보려면 Azure 역할 기반 액세스 제어 가이드를 참조하세요.

이 역할은 Azure Portal의 구독>액세스 제어(IAM)>역할 할당 추가>에서 Cognitive Services 사용 읽기 권한자를 검색하여 찾을 수 있습니다. 이 역할은 구독 수준에서 적용해야 하며 리소스 수준에 존재하지 않습니다.

이 역할을 사용하지 않으려는 경우 구독 읽기 권한자 역할은 동등한 액세스 권한을 제공하지만 할당량 및 모델 배포를 보는 데 필요한 범위를 벗어나는 읽기 액세스 권한도 부여합니다.

할당량 소개

Azure OpenAI의 할당량 기능을 사용하면 할당량이라는 전역 제한까지 배포에 속도 제한을 할당할 수 있습니다. 할당량은 TPM(분당 토큰) 단위로 지역별, 모델별로 구독에 할당됩니다. Azure OpenAI 구독을 온보딩하면 사용할 수 있는 대부분의 모델에 대한 기본 할당량을 받게 됩니다. 그런 다음 배포가 만들어질 때 각 배포에 TPM을 할당하면 해당 모델에 사용할 수 있는 할당량이 그만큼 줄어듭니다. 할당량 한도에 도달할 때까지 계속해서 배포를 만들고 TPM을 할당할 수 있습니다. 그런 일이 발생하면 동일한 모델의 다른 배포에 할당된 TPM을 줄이거나(따라서 TPM을 사용할 수 있게 됨) 원하는 지역에서 모델 할당량 증가를 요청하고 승인받아 해당 모델의 새 배포를 만들 수 있습니다.

비고

미국 동부에서 GPT-4o의 할당량이 240,000 TPM인 경우, 고객은 동일 지역에서 TPM의 합계가 240 K 미만인 한 240 K TPM의 단일 배포, 각각 120 K TPM의 2개 배포, 또는 하나 이상의 Azure OpenAI 리소스에서 원하는 만큼의 배포를 생성할 수 있습니다.

배포가 만들어지면 할당된 TPM은 유추 요청에 적용되는 분당 토큰 속도 제한에 직접 매핑됩니다. RPM(분당 요청) 속도 제한도 적용되며 이 값은 다음 비율을 사용하여 TPM 할당에 비례하여 설정됩니다.

중요합니다

할당량에 대한 RPM(분당 요청 수)과 TPM(분당 토큰)의 비율은 모델에 따라 달라질 수 있습니다. 모델을 프로그래밍 방식으로 배포하거나 할당량 증가를 요청하는 경우 TPM 및 RPM을 독립적인 값으로 세부적으로 제어할 수 없습니다. 할당량은 해당 양의 RPM 및 TPM이 있는 용량 단위로 할당됩니다.

모델	용량	분당 요청(RPM)	TPM(분당 토큰)
이전 채팅 모델:	단위 1	6 회전/분	1,000 TPM
o1 및 o1-preview:	단위 1	1 RPM (분당 회전수)	6,000 TPM
o3	단위 1	1 분당 회전수	1,000 TPM
o4-mini	단위 1	분당 회전수 1	1,000 TPM
o3-mini:	단위 1	1 RPM (회전수)	10,000 TPM
o1-mini:	단위 1	1 RPM	10,000 TPM
o3-pro:	단위 1	1 RPM(회전/분)	10,000 TPM

RPM/TPM 비율의 변경으로 인해 할당량이 실수로 잘못 할당될 수 있으므로 프로그래밍 방식 모델 배포에 특히 중요합니다. 자세한 내용은 할당량 및 제한을 참조하세요.

구독 및 지역 내에서 TPM을 전역적으로 배포할 수 있는 유연성을 통해 Azure OpenAI는 다른 제한을 완화할 수 있습니다.

지역당 최대 리소스가 30개로 늘어났습니다.
리소스에 동일한 모델의 배포를 두 개만 만들 수 있는 제한이 제거되었습니다.

할당량 할당

모델 배포를 만들 때 해당 배포에 TPM(분당 토큰)을 할당하는 옵션이 있습니다. TPM은 1,000 단위로 수정할 수 있으며 위에서 설명한 대로 배포에 적용되는 TPM 및 RPM 속도 제한에 매핑됩니다.

Azure AI Foundry 포털 내에서 새 배포를 만들려면 배포>배포 모델>배포 기본 모델>선택 모델>확인을 선택합니다.

배포 후 Azure AI Foundry 포털의 배포 페이지에서 모델을 선택하고 편집하여 TPM 할당을 조정할 수 있습니다. 관리>모델 할당량 페이지에서도 이 설정을 수정할 수 있습니다.

중요합니다

할당량 및 제한은 변경될 수 있습니다. 최신 정보를 보려면 할당량 및 제한 문서을 참조하세요.

추가 할당량 요청

할당량 증가 요청은 할당량 증가 요청 양식을 통해 제출할 수 있습니다. 높은 수요로 인해 할당량 증가 요청이 수락되고 수신된 순서대로 채워집니다. 기존 할당량 할당을 사용하는 트래픽을 생성하는 고객에게 우선 순위가 지정되며, 이 조건이 충족되지 않으면 요청이 거부될 수 있습니다.

모델별 설정

모델 클래스라고도 하는 다양한 모델 배포에는 이제 제어할 수 있는 고유한 최대 TPM 값이 있습니다. 이는 특정 지역에서 해당 형식의 모델 배포에 할당할 수 있는 최대 TPM 양을 나타냅니다.

다른 모든 모델 클래스에는 공통된 최대 TPM 값이 있습니다.

비고

할당량 토큰- TPM(Per-Minute) 할당은 모델의 최대 입력 토큰 제한과 관련이 없습니다. 모델 입력 토큰 제한은 모델 테이블에 정의되어 있으며 TPM 변경 내용의 영향을 받지 않습니다.

할당량 보기 및 요청

지정된 지역의 배포에서 할당량 할당을 모두 보려면 Azure AI Foundry 포털에서 >할당량을 선택합니다.

배포: 모델 배포를 모델 클래스로 나눕니다.
할당량 유형: 각 모델 유형에 대해 지역당 하나의 할당량 값이 있습니다. 할당량에는 해당 모델의 모든 버전이 포함됩니다.
할당량 할당: 할당량 이름의 경우 배포에서 사용되는 할당량과 이 구독 및 지역에 대해 승인된 총 할당량을 보여 줍니다. 사용된 할당량은 막대 그래프에도 표시됩니다.
할당량 요청: 아이콘을 클릭하면 할당량 증가 요청을 제출할 수 있는 양식으로 이동합니다.

기존 배포 마이그레이션

새로운 할당량 시스템 및 TPM 기반 할당으로의 전환에 대한 일환으로 모든 기존 Azure OpenAI 모델 배포는 할당량을 사용하도록 자동으로 마이그레이션되었습니다. 이전 사용자 지정 비율 제한 증가로 인해 기존 TPM/RPM 할당이 기본값을 초과하는 경우 영향을 받는 배포에 동등한 TPM이 할당되었습니다.

속도 제한 이해

배포에 TPM을 할당하면 위에서 설명한 대로 배포에 대한 TPM(분당 토큰) 및 RPM(분당 요청) 속도 제한이 설정됩니다. TPM 속도 제한은 요청이 수신될 때 요청에 의해 처리될 것으로 예상되는 최대 토큰 수를 기반으로 합니다. 모든 처리가 완료된 후 계산되는 청구에 사용되는 토큰 개수와는 다릅니다.

각 요청이 수신되면 Azure OpenAI는 다음을 포함하는 예상 최대 처리 토큰 수를 계산합니다.

프롬프트 텍스트 및 개수
max_tokens 매개 변수 설정
best_of 매개 변수 설정

요청이 배포 엔드포인트로 들어오면 예상되는 최대 처리 토큰 수가 1분마다 다시 설정되는 모든 요청의 실행 중인 토큰 수에 추가됩니다. 해당 분 동안 언제든지 TPM 속도 제한 값에 도달하면 카운터가 다시 설정될 때까지 추가 요청에 429 응답 코드가 수신됩니다.

중요합니다

속도 제한 계산에 사용되는 토큰 수는 부분적으로 API 요청의 문자 수를 기반으로 한 예상 비용입니다. 속도 제한 토큰 추정치는 요청이 모델의 입력 토큰 제한보다 낮다는 것을 청구/결정하는 데 사용되는 토큰 계산과 다릅니다. 속도 제한 토큰 계산의 대략적인 특성으로 인해 각 요청에 대한 정확한 토큰 수 측정과 비교하여 예상되기 전에 속도 제한을 트리거할 수 있는 동작이 예상됩니다.

RPM 속도 제한은 시간 경과에 따라 수신된 요청 수를 기준으로 합니다. 속도 제한은 요청이 1분 동안 균등하게 분산될 것으로 예상합니다. 이 평균 흐름이 유지되지 않으면 1분 동안 측정했을 때 한도에 도달하지 않았더라도 요청은 429 응답을 받을 수 있습니다. 이 동작을 구현하기 위해 Azure OpenAI는 일반적으로 1초 또는 10초의 짧은 기간 동안 들어오는 요청의 속도를 평가합니다. 해당 시간 동안 수신된 요청 수가 설정된 RPM 제한에서 예상되는 수를 초과하는 경우 새 요청은 다음 평가 기간까지 429 응답 코드를 받게 됩니다. 예를 들어, Azure OpenAI가 1초 간격으로 요청 속도를 모니터링하는 경우 1초마다 10개 이상의 요청이 수신되면(분당 600개 요청 = 초당 10개 요청) 600RPM 배포에 대해 속도 제한이 발생합니다. ).

속도 제한 모범 사례

속도 제한과 관련된 문제를 최소화하려면 다음 기술을 사용하는 것이 좋습니다.

max_tokens 및 best_of를 시나리오 요구 사항에 맞는 최솟값으로 설정합니다. 예를 들어, 응답이 작을 것으로 예상된다면 max-tokens 값을 크게 설정하지 마세요.
할당량 관리를 사용하여 트래픽이 많은 배포에서 TPM을 늘리고 요구 사항이 제한된 배포에서 TPM을 줄입니다.
애플리케이션에서 다시 시도 논리를 구현합니다.
워크로드가 급격히 변경되지 않도록 합니다. 워크로드를 점진적으로 늘립니다.
다양한 로드 증가 패턴을 테스트합니다.

배포 자동화

이 섹션에는 할당량을 사용하여 TPM 속도 제한을 설정하는 배포 만들기를 프로그래밍 방식으로 시작하는 데 도움이 되는 간략한 예 템플릿이 포함되어 있습니다. 할당량이 도입되면 리소스 관리 관련 작업에 API 버전 2023-05-01을 사용해야 합니다. 이 API 버전은 리소스를 관리하기 위한 것이며 완료, 채팅 완료, 포함, 이미지 생성 등과 같은 추론 호출에 사용되는 API 버전에는 영향을 주지 않습니다.

배치

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

경로 매개 변수

매개 변수	유형	필수?	설명
`accountName`	문자열	필수	Azure OpenAI 리소스의 이름입니다.
`deploymentName`	문자열	필수	기존 모델을 배포할 때 선택한 배포 이름 또는 새 모델 배포에 사용하려는 이름입니다.
`resourceGroupName`	문자열	필수	이 모델 배포에 연결된 리소스 그룹의 이름입니다.
`subscriptionId`	문자열	필수	연결된 구독의 구독 ID.
`api-version`	문자열	필수	이 작업에 사용할 API 버전입니다. YYYY-MM-DD 형식을 따릅니다.

지원되는 버전

2023-05-01Swagger 사양

요청 본문

이는 사용할 수 있는 요청 본문 매개 변수의 하위 집합일 뿐입니다. 매개 변수의 전체 목록을 보려면 REST API 참조 설명서를 참조하세요.

매개 변수	유형	설명
sku	SKU	SKU를 나타내는 리소스 모델 정의입니다.
용량	integer	이 배포에 할당하는 할당량 의 양을 나타냅니다. 값 1은 분당 토큰(TPM) 1,000개와 같습니다. 값 10은 분당 토큰(TPM) 10,000개와 같습니다.

요청 예제

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-4o-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-4o","version": "2024-11-20"}}}'

비고

권한 부여 토큰을 생성하는 방법에는 여러 가지가 있습니다. 초기 테스트를 위한 가장 쉬운 방법은 Azure Portal에서 Cloud Shell을 시작하는 것입니다. 그런 다음 az account get-access-token를 실행합니다. 이 토큰을 API 테스트를 위한 임시 권한 부여 토큰으로 사용할 수 있습니다.

자세한 내용은 사용법 및 배포에 대한 REST API 참조 설명서를 참조하세요.

사용법

특정 구독에 대해 특정 지역의 할당량 사용량을 쿼리하려면

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{___location}/usages?api-version=2023-05-01

경로 매개 변수

매개 변수	유형	필수?	설명
`subscriptionId`	문자열	필수	연결된 구독의 구독 ID.
`___location`	문자열	필수	사용량을 볼 수 있는 위치(예: `eastus`)
`api-version`	문자열	필수	이 작업에 사용할 API 버전입니다. YYYY-MM-DD 형식을 따릅니다.

지원되는 버전

2023-05-01Swagger 사양

요청 예제

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN'

Azure CLI를 설치합니다. 할당량에는 Azure CLI version 2.51.0이 필요합니다. 이미 Azure CLI를 로컬에 설치한 경우 az upgrade를 실행하여 최신 버전으로 업데이트합니다.

Azure CLI의 버전을 확인하려면 az version을(를) 사용하세요. Azure Cloud Shell은 현재 2.50.0을 계속 실행 중이므로 최신 Azure OpenAI 기능을 활용하려면 중간에 Azure CLI의 로컬 설치가 필요합니다.

배치

az cognitiveservices account deployment create --model-format
                                               --model-name
                                               --model-version
                                               --name
                                               --resource-group
                                               [--capacity]
                                               [--deployment-name]
                                               [--scale-capacity]
                                               [--scale-settings-scale-type {Manual, Standard}]
                                               [--sku]

CLI의 로컬 설치에 로그인하려면 az login 명령을 실행합니다.

az login

아래 명령에서 sku-capacity를 10으로 설정하면 이 배포는 10K TPM 제한으로 설정됩니다.

az cognitiveservices account deployment create -g test-resource-group -n test-resource-name --deployment-name test-deployment-name --model-name gpt-4o --model-version "2024-11-20" --model-format OpenAI --sku-capacity 10 --sku-name "Standard"

사용법

특정 지역에서 특정 구독에 대한 할당량 사용량을 쿼리하려면

az cognitiveservices usage list --___location

예시

az cognitiveservices usage list -l eastus

이 명령은 현재 활성화된 Azure CLI 구독의 컨텍스트에서 실행됩니다. az-account-set --subscription을 사용하여 활성 구독을 수정합니다.

자세한 내용은 Azure CLI 참조 설명서를 참조하세요.

최신 버전의 Az PowerShell 모듈을 설치합니다. Az PowerShell 모듈이 로컬에 이미 설치되어 있는 경우 Update-Module -Name Az를 실행하여 최신 버전으로 업데이트합니다.

Az PowerShell 모듈의 실행 중인 버전을 확인하려면 Get-InstalledModule -Name Az를 사용하세요. Azure Cloud Shell은 현재 최신 Azure OpenAI 기능을 활용할 수 있는 Azure PowerShell 버전을 실행하고 있습니다.

배치

New-AzCognitiveServicesAccountDeployment
   [-ResourceGroupName] <String>
   [-AccountName] <String>
   [-Name] <String>
   [-Properties] <DeploymentProperties>
   [-Sku] <Sku>
   [-DefaultProfile <IAzureContextContainer>]
   [-WhatIf]
   [-Confirm]
   [<CommonParameters>]

Azure PowerShell의 로컬 설치에 로그인하려면 Connect-AzAccount 명령을 실행합니다.

Connect-AzAccount

아래 명령에서 SKU 용량을 10으로 설정하면 이 배포는 10K TPM 제한으로 설정됩니다.

$cognitiveServicesDeploymentParams = @{
    ResourceGroupName = 'test-resource-group'
    AccountName = 'test-resource-name'
    Name = 'test-deployment-name'
    Properties = @{
        Model = @{
            Name = 'gpt-4o'
            Version = '2024-11-20'
            Format  = 'OpenAI'
        }
    }
    Sku = @{
        Name = 'Standard'
        Capacity = '10'
    }
}
New-AzCognitiveServicesAccountDeployment @cognitiveServicesDeploymentParams

사용법

특정 지역에서 특정 구독에 대한 할당량 사용량을 쿼리하려면:

Get-AzCognitiveServicesUsage -Location <___location>

예시

Get-AzCognitiveServicesUsage -Location eastus

이 명령은 Azure PowerShell의 현재 활성화된 구독 컨텍스트에서 실행됩니다. Set-AzContext을 사용하여 활성 구독을 수정합니다.

자세한 New-AzCognitiveServicesAccountDeploymentGet-AzCognitiveServicesUsage내용은 Azure PowerShell 참조 설명서를 참조하세요.

//
// This Azure Resource Manager template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
{
    "type": "Microsoft.CognitiveServices/accounts/deployments",
    "apiVersion": "2023-05-01",
    "name": "arm-je-aoai-test-resource/arm-je-std-deployment",    // Update reference to parent Azure OpenAI resource
    "dependsOn": [
        "[resourceId('Microsoft.CognitiveServices/accounts', 'arm-je-aoai-test-resource')]"  // Update reference to parent Azure OpenAI resource
    ],
    "sku": {
        "name": "Standard",      
        "capacity": 10            // The deployment will be created with a 10K TPM limit
    },
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "gpt-4o",
            "version": "2024-11-20"       
        }
    }
}

자세한 내용은 전체 Azure Resource Manager 참조 설명서를 참조하세요.

//
// This Bicep template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
resource arm_je_std_deployment 'Microsoft.CognitiveServices/accounts/deployments@2023-05-01' = {
  parent: arm_je_aoai_resource   // Replace this with a reference to the parent Azure OpenAI resource
  name: 'arm-je-std-deployment'
  sku: {
    name: 'Standard'            
    capacity: 10                 // The deployment will be created with a 10K TPM limit
  }
  properties: {
    model: {
      format: 'OpenAI'
      name: 'gpt-4o'
      version: '2024-11-20'          
    }
  }
}

자세한 내용은 전체 Bicep 참조 설명서를 참조하세요.

# This Terraform template shows how to use the new schema introduced in the 2023-05-01 API version to 
# create deployments that set the model version and the TPM limits for standard deployments.
# 
# The new schema is not yet available in the AzureRM provider (target v4.0), so this template uses the AzAPI
# provider, which provides a Terraform-compatible interface to the underlying ARM structures.
# 
# For more details on these providers:
#     AzureRM: https://registry.terraform.io/providers/hashicorp/azurerm/latest/docs
#     AzAPI: https://registry.terraform.io/providers/azure/azapi/latest/docs
#

# 
terraform {
  required_providers {
    azapi   = { source  = "Azure/azapi" }
    azurerm = { source  = "hashicorp/azurerm" }
  }
}

provider "azapi" {
  # Insert auth info here as necessary
}

provider "azurerm" {
    # Insert auth info here as necessary  
    features {
    }
}

# 
# To create a complete example, AzureRM is used to create a new resource group and Azure OpenAI Resource
# 
resource "azurerm_resource_group" "TERRAFORM-AOAI-TEST-GROUP" {
  name     = "TERRAFORM-AOAI-TEST-GROUP"
  ___location = "canadaeast"
}

resource "azurerm_cognitive_account" "TERRAFORM-AOAI-TEST-ACCOUNT" {
  name                  = "terraform-aoai-test-account"
  ___location              = "canadaeast"
  resource_group_name   = azurerm_resource_group.TERRAFORM-AOAI-TEST-GROUP.name
  kind                  = "OpenAI"
  sku_name              = "S0"
  custom_subdomain_name = "terraform-test-account-"
  }


# 
# AzAPI is used to create the deployment so that the TPM limit and model versions can be set
#
resource "azapi_resource" "TERRAFORM-AOAI-STD-DEPLOYMENT" {
  type      = "Microsoft.CognitiveServices/accounts/deployments@2023-05-01"
  name      = "TERRAFORM-AOAI-STD-DEPLOYMENT"
  parent_id = azurerm_cognitive_account.TERRAFORM-AOAI-TEST-ACCOUNT.id

  body = jsonencode({
    sku = {                            # The sku object specifies the deployment type and limit in 2023-05-01
        name = "Standard",             
        capacity = 10                  # This deployment will be set with a 10K TPM limit
    },
    properties = {
        model = {
            format = "OpenAI",
            name = "gpt-4o",
            version = "2024-11-20"           
        }
    }
  })
}

자세한 내용은 전체 Terraform 참조 설명서를 참조하세요.

리소스 삭제

배포가 여전히 존재하는 경우 Azure Portal에서 Azure OpenAI 리소스를 삭제하려고 시도하면 연결된 배포가 삭제될 때까지 삭제가 차단됩니다. 배포를 먼저 삭제하면 할당량 할당이 적절하게 해제되어 새 배포에서 사용할 수 있습니다.

그러나 REST API 또는 기타 프로그래밍 방식을 사용하여 리소스를 삭제하면 먼저 배포를 삭제할 필요가 없습니다. 이런 일이 발생하면 리소스가 제거될 때까지 48시간 동안 관련 할당량 할당을 새 배포에 할당할 수 없는 상태로 유지됩니다. 제거된 리소스를 즉시 제거하여 할당량을 확보하려면 제거된 리소스 제거 지침을 따릅니다.

다음 단계

Azure OpenAI의 할당량 기본값을 검토하려면 할당량 및 제한 문서를 참조하세요.

피드백

이 페이지가 도움이 되었나요?

다음을 통해 공유

Azure AI Foundry 모델 할당량에서 Azure OpenAI 관리

필수 조건

할당량 소개

할당량 할당

추가 할당량 요청

모델별 설정

할당량 보기 및 요청

기존 배포 마이그레이션

속도 제한 이해

속도 제한 모범 사례

배포 자동화

배치

요청 예제

사용법

요청 예제

리소스 삭제

다음 단계

피드백

추가 리소스