비고
이 문서는 Microsoft Foundry(클래식) 포털을 참조합니다.
비고
이 문서는 Microsoft Foundry(신규) 포털을 참조합니다.
팁 (조언)
프로비전된 처리량 제품의 최근 변경 내용에 대한 자세한 내용은 업데이트 문서를 참조하세요.
Microsoft Foundry 프로비전된 처리량 제품은 모델 배포에 필요한 처리량을 지정할 수 있는 모델 배포 유형입니다. 그런 다음 Foundry는 필요한 모델 처리 용량을 할당하고 준비가 되었는지 확인합니다. Azure에서 직접 판매하는 다양한 모델 포트폴리오에서 요청한 프로비전된 처리량을 사용할 수 있습니다. 이러한 모델에는 Azure OpenAI 모델 및 Foundry 모델 내에서 Azure DeepSeek, Azure Grok, Azure Llama 등과 같은 새로 도입된 플래그십 모델 제품군이 포함됩니다.
프로비전된 처리량은 다음을 제공합니다.
- 최신 플래그십 모델에 대한 광범위한 모델 선택
- 지정된 프로비전된 처리량 할당량을 사용하여 모델 및 배포를 전환할 수 있는 유연성
- 상당한 할인 및 보다 유연한 예약 선택으로 예약 사용률을 높일 수 있는 기능
- 균일한 워크로드에 대해 안정적인 최대 대기 시간 및 처리량을 제공하여 예측 가능한 성능을 제공합니다.
- 할당된 처리 용량: 배포는 처리량을 구성합니다. 일단 배포되면 사용 여부에 관계없이 처리량을 사용할 수 있습니다.
- 비용 절약: 처리량이 많은 워크로드는 토큰 기반 사용량에 비해 비용 절약 효과를 제공할 수 있습니다.
팁 (조언)
- Microsoft Foundry 프로비전된 처리량 예약을 구매할 때 더 많은 비용 절감을 활용할 수 있습니다.
- 프로비전된 처리량은 전역 프로비전된, 데이터 영역 프로비전된 및 지역 프로비전된 배포 유형으로 사용할 수 있습니다.
프로비전된 처리량을 사용하는 경우
잘 정의되고 예측 가능한 처리량 및 대기 시간 요구 사항이 있는 경우 표준 배포에서 프로비전된 처리량 배포로 전환하는 것이 좋습니다. 일반적으로 이 문제는 애플리케이션이 프로덕션에 대해 준비되었거나 프로덕션에 이미 배포되어 예상 트래픽을 이해하는 경우에 발생합니다. 이를 통해 사용자는 필요한 용량을 정확하게 예측하고 예기치 않은 청구를 방지할 수 있습니다. 프로비전된 처리량 배포는 실시간/대기 시간 중요 요구 사항이 있는 애플리케이션에도 유용합니다.
주요 개념
다음 섹션에서는 프로비전된 처리량 제품을 사용할 때 알아야 할 주요 개념을 설명합니다.
PTU(프로비전된 처리량 단위)
PTU(프로비전된 처리량 단위)는 프롬프트 처리 및 완료 생성에 필요한 처리량을 달성하기 위해 프로비전된 배포의 크기를 조정하는 데 사용할 수 있는 일반적인 모델 처리 용량 단위입니다. 프로비전된 처리량 단위는 구독에 할당량으로 부여되며 비용을 정의하는 데 사용됩니다. 각 할당량은 지역에 따라 지정되며 해당 구독 및 지역의 배포에 할당할 수 있는 최대 PTU 수를 정의합니다.
공유 PTU 예약에서의 비용 관리
PTU 기능을 사용하여 공유 PTU 예약에서 Foundry 모델의 비용을 원활하게 관리할 수 있습니다. 그러나 배포 및 처리량 성능에 필요한 PTU 단위는 선택한 모델에 동적으로 조정됩니다. PTU 비용 및 모델 대기 시간 지점에 대한 자세한 내용은 PTU와 관련된 비용 이해를 참조하세요.
기존 PTU 예약은 Foundry 모델을 배포할 때 향상된 효율성과 비용 절감을 통해 고객의 역량을 강화하도록 자동으로 업그레이드됩니다. 예를 들어 500 PTU를 구매한 기존 PTU 예약이 있다고 가정해 보겠습니다. Azure OpenAI 모델에는 300단원을 사용하고 PTU를 사용하여 Foundry 모델에서 PTU 기능이 있는 Azure DeepSeek, Azure Llama 또는 기타 모델을 배포하도록 선택합니다.
DeepSeek-R1에 나머지 200PTU를 사용하는 경우 200 PTU는 예약 할인을 자동으로 공유하고 예약의 총 사용량은 500 PTU입니다.
DeepSeek-R1에 300 PTU를 사용하는 경우 200 PTU는 예약 할인을 자동으로 공유하지만 100 PTU는 예약을 초과하며 DeepSeek-R1의 시간당 요금이 청구됩니다.
PTU 예약을 사용하여 비용을 절감하는 방법에 대한 자세한 내용은 Microsoft Foundry 프로비전된 처리량 예약을 사용하여 비용 절감을 참조하세요.
배포 형식
Foundry에서 프로비전된 배포를 만들 때 "배포 만들기" 대화 상자의 배포 유형은 지정된 워크로드에 대한 데이터 처리 요구 사항에 따라 전역 프로비전된 처리량, 데이터 영역 프로비전된 처리량 또는 지역 프로비전된 처리량 배포 유형으로 설정할 수 있습니다.
CLI 또는 API를 통해 Foundry에서 프로비전된 배포를 만들 때, 지정된 워크로드의 데이터 처리 요구 사항에 따라 sku-name를 GlobalProvisionedManaged, DataZoneProvisionedManaged, 또는 ProvisionedManaged로 설정할 수 있습니다.
| 배포 유형 | CLI의 sku-name |
|---|---|
| 전역 프로비전된 처리량 | GlobalProvisionedManaged |
| 데이터 영역 프로비전된 처리량 | DataZoneProvisionedManaged |
| 지역 프로비전된 처리량 | ProvisionedManaged |
다음 Azure CLI 예제 명령을 다른 배포 유형으로 조정하려면 배포하려는 배포 유형과 일치하도록 매개 변수를 업데이트 sku-name 합니다.
az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06 \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged
용량 투명성
Azure에서 직접 판매하는 모델은 고객 수요가 서비스 GPU 용량을 초과할 수 있는 매우 인기 있는 서비스입니다. Microsoft는 수요가 많은 모든 지역과 모델에 용량을 제공하기 위해 노력하지만, 특정 지역이 매진될 가능성이 항상 있습니다. 이 제약 조건은 해당 지역에서 사용 가능한 할당량이 있더라도 원하는 지역에서 원하는 모델, 버전 또는 PTU 수의 배포를 만드는 일부 고객의 기능을 제한할 수 있습니다. 일반적인 설명:
- 할당량은 구독 및 지역에 배포할 수 있는 최대 PTU 수에 제한을 두고 용량 가용성을 보장하지 않습니다.
- 용량은 배포 시점에 할당되며 배포가 존재하는 동안 유지됩니다. 서비스 용량을 사용할 수 없는 경우 배포가 실패합니다.
- 고객은 할당량/용량 가용성에 대한 실시간 정보를 사용하여 필요한 모델 용량으로 시나리오에 적합한 지역을 선택합니다.
- 배포를 축소하거나 삭제하면 해당 지역의 용량이 다시 확보됩니다. 나중에 배포를 강화하거나 다시 만들 경우 용량을 사용할 수 있다는 보장은 없습니다.
지역별 용량 지침
배포에 필요한 용량을 찾으려면 용량 API 또는 Foundry 배포 환경을 사용하여 용량 가용성에 대한 실시간 정보를 제공합니다.
Foundry에서 배포 환경은 지역에 모델을 배포하는 데 필요한 용량이 부족한 경우를 식별합니다. 원하는 모델, 버전 및 PTU 수를 확인합니다. 용량을 사용할 수 없는 경우 환경은 사용자에게 대체 지역을 선택하도록 지시합니다.
배포 환경에 대한 자세한 내용은 Foundry 프로비전 시작 가이드에서 확인할 수 있습니다.
모델 용량 API를 사용하여 지정된 모델의 최대 크기 배포를 프로그래밍 방식으로 식별할 수 있습니다. API는 해당 지역의 할당량과 서비스 용량을 모두 고려합니다.
원하는 모델, 버전 및/또는 PTU를 지원하기 위해 허용 가능한 지역을 사용할 수 없는 경우 고객은 다음 단계를 시도할 수도 있습니다.
- 적은 수의 PTU를 사용하여 배포를 시도합니다.
- 다른 시간에 배포를 시도합니다. 공급 용량은 고객 수요에 따라 동적으로 변경되며 나중에 더 많은 공급 용량이 생길 수도 있습니다.
- 모든 허용 지역에서 할당량을 사용할 수 있는지 확인합니다. 모델 용량 API 및 Foundry 환경에서는 배포를 만들기 위한 대체 지역을 반환할 때 할당량 가용성을 고려합니다.
용량을 어떻게 모니터링할 수 있나요?
Azure Monitor의 Provisioned-Managed Utilization V2 메트릭은 1분 단위로 특정 배포 사용률을 측정합니다. 모든 프로비전된 배포 유형은 승인된 호출이 일관된 모델 처리 시간으로 처리되도록 최적화되어 있습니다(실제 엔드투엔드 대기 시간은 호출의 특성에 따라 다름).
사용률 성능 작동 방식
프로비전된 배포는 특정 모델을 실행하기 위해 할당된 모델 처리 용량을 제공합니다.
프로비전된 모든 배포 유형에서 용량이 초과되면 API는 429 HTTP 상태 오류를 반환합니다. 빠른 응답을 통해 사용자는 트래픽을 관리하는 방법을 결정할 수 있습니다. 사용자는 요청을 별도의 배포, 표준 배포 인스턴스로 리디렉션하거나 재시도 전략을 사용하여 지정된 요청을 관리할 수 있습니다. 서비스는 이용률이 100% 미만으로 떨어질 때까지 429 HTTP 상태 코드를 계속 반환합니다.
429 응답을 받으면 어떻게 해야 하나요?
429 응답은 오류가 아니라 지정된 배포가 특정 시점에 완전히 활용된다는 것을 사용자에게 알리기 위한 디자인의 일부입니다. 빠른 실패 응답을 제공함으로써 애플리케이션 요구 사항에 가장 적합한 방식으로 이러한 상황을 처리하는 방법을 제어할 수 있습니다.
응답의 retry-after-ms 및 retry-after 헤더는 다음 호출이 수락되기까지 기다려야 하는 시간을 알려 줍니다. 이 응답을 처리하기 위해 선택하는 방법은 애플리케이션 요구 사항에 따라 다릅니다. 다음은 몇 가지 고려 사항입니다.
- 트래픽을 다른 모델, 배포 또는 환경으로 리디렉션하는 것을 고려할 수 있습니다. 이 옵션은 429 신호를 받는 즉시 조치를 취할 수 있으므로 대기 시간이 가장 짧은 솔루션입니다. 이 패턴을 효과적으로 구현하는 방법에 대한 아이디어는 이 커뮤니티 게시물을 참조하세요.
- 호출당 대기 시간이 길어도 괜찮다면 클라이언트 쪽 다시 시도 논리를 구현합니다. 이 옵션은 PTU당 최대 처리량을 제공합니다. Foundry 클라이언트 라이브러리에는 재시도를 처리하기 위한 기본 제공 기능이 포함되어 있습니다.
서비스는 429를 보낼 시기를 어떻게 결정하나요?
프로비전된 모든 배포 유형에서 각 요청은 프롬프트 크기, 예상 생성 크기 및 모델에 따라 개별적으로 평가되어 예상 사용률을 결정합니다. 이 동작은 예상 트래픽 부하에 따라 사용자 지정 속도 제한 동작 이 있는 표준 배포와는 대조적입니다. 표준 배포의 경우 이 사용자 지정 속도 제한 동작으로 인해 트래픽이 균등하게 분산되지 않는 경우 정의된 할당량 값을 초과하기 전에 HTTP 429 오류가 생성될 수 있습니다.
프로비전된 배포의 경우, 누출 버킷 알고리즘의 변형을 사용하여 트래픽에 약간의 버스트를 허용하는 동시에 사용률을 100% 미만으로 유지합니다. 개략적인 논리는 다음과 같습니다.
각 고객은 배포 시 활용할 수 있는 용량이 정해져 있습니다.
요청이 있을 때:
a. 현재 사용률이 100%를 초과하면 서비스는 사용률이 100% 미만이 될 때까지의 시간으로 설정된
retry-after-ms헤더와 함께 429 코드를 반환합니다.b. 그렇지 않은 경우 서비스는 프롬프트 토큰과 캐시된 토큰을 뺀 값, 호출에 지정된
max_tokens(을)를 결합하여 요청을 처리하는 데 필요한 증분적 사용률 변경을 예상합니다. 고객은 캐시된 토큰의 크기에 따라 최대 100%의 할인 혜택을 받을 수 있습니다. 매개 변수를max_tokens지정하지 않으면 서비스에서 값을 추정합니다. 이 예측은 실제 생성된 토큰의 수가 적을 때 예상보다 낮은 동시성을 초래할 수 있습니다. 동시성을 높이려면max_tokens값이 실제 생성 크기에 최대한 가까워야 합니다.요청이 완료되면 이제 호출에 대한 실제 컴퓨팅 비용을 알 수 있습니다. 정확한 계산을 보장하기 위해 다음 논리를 사용하여 사용률을 수정합니다.
a. 실제 >(이)가 예상된 경우, 그 차이는 배포 사용률에 추가됩니다.
b. 실제 <이 예상된 경우 차이가 차감됩니다.
전체 사용률은 배포된 PTU 수에 따라 연속 속도로 감소됩니다.
비고
사용률이 100%에 도달할 때까지 호출이 수락됩니다. 짧은 기간 동안 100개 이상의% 버스트가 허용될 수 있지만 시간이 지남에 따라 트래픽은 100% 사용률로 제한됩니다.
내 배포에서 동시 호출 수는 몇 개인가요?
동시에 수행할 수 있는 호출 수는 각 호출의 형태(프롬프트 크기, max_tokens 매개 변수 등)에 따라 달라집니다. 이 서비스는 이용률이 100%에 도달할 때까지 계속해서 호출을 접수합니다. 대략적인 동시 호출 수를 결정하려면 용량 계산기에서 특정 호출 형태에 대한 분당 최대 요청 수를 모델링할 수 있습니다. 시스템이 max_tokens 매개 변수에 대해 설정된 출력 토큰 수보다 적게 생성하는 경우 프로비전된 배포는 더 많은 요청을 허용합니다.
Azure에서 직접 판매하는 모델에 대한 프로비전된 처리량 기능
이 섹션에서는 프로비전된 처리량 기능을 지원하는 Foundry 모델을 나열합니다. 표에 표시된 모델에서 PTU 할당량 및 PTU 예약을 사용할 수 있습니다.
다음은 표에서 몇 가지 중요한 사항입니다.
모델 버전은 이 표에 포함되지 않습니다. Foundry 포털에서 배포 옵션을 선택할 때 각 모델에 대해 지원되는 버전을 확인합니다.
지역 프로비전된 처리량 배포 옵션은 지역에 따라 다릅니다.
Azure에서 직접 판매하는 새 모델은 먼저 전역 프로비전된 처리량 배포 옵션을 사용하여 온보딩됩니다. 데이터 영역 프로비전 옵션은 나중에 제공됩니다.
PTU는 지역 및 제품 유형별로 관리됩니다. PTU 할당량 및 모든 예약은 사용하려는 지역 및 셰이프(전역, 데이터 영역, 지역)에 있어야 합니다.
스필오버는 프로비전된 배포의 트래픽 변동을 관리하는 선택적 기능입니다. 스필오버에 대한 자세한 내용은 프로비전된 배포에 대한 스필오버를 사용하여 트래픽 관리를 참조하세요.
| 모델 패밀리 | 모델 이름 | 전역 프로비전 | 프로비전된 데이터 영역 | 지역별로 프로비전됨 | 스필오버 기능 |
|---|---|---|---|---|---|
| Azure OpenAI | GPT 5 | ✅ | ✅ | ✅ | |
| Gpt 4.1 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 mini | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 nano | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4o | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4o mini | ✅ | ✅ | ✅ | ✅ | |
| Gpt 3.5 Turbo | ✅ | ✅ | ✅ | ✅ | |
| o1 | ✅ | ✅ | ✅ | ✅ | |
| O3 mini | ✅ | ✅ | ✅ | ✅ | |
| O4 mini | ✅ | ✅ | ✅ | ✅ | |
| Azure DeepSeek | DeepSeek-R1 | ✅ | |||
| DeepSeek-V3-0324 | ✅ | ||||
| DeepSeek-R1-0528 | ✅ |
프로비전된 처리량 기능에 대한 지역 가용성
전역 프로비전된 처리량 모델의 가용성
| 지역 | gpt-5, 2025-08-07 | gpt-5-mini, 2025-08-07 | o3, 2025-04-16 | o4-mini, 2025-04-16 | gpt-4.1, 2025-04-14 | gpt-4.1-nano, 2025-04-14 | gpt-4.1-mini, 2025-04-14 | o3-mini, 2025-01-31 | o1, 2024-12-17 | gpt-4o, 2024-05-13 | gpt-4o, 2024-08-06 | gpt-4o, 2024-11-20 | gpt-4o-mini, 2024-07-18 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 오스트레일리아이스트 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 브라질 남부 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 캐나다센트럴 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 캐나다 동부 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 센트럴유에스 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 이스트유스 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| francecentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 독일 서중부 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 이탈리아 북부 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 노스센트럴러스 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 노르웨이 동부 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| polandcentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 사우스센트럴러스 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 동남 아시아 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 남인도 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 스페인 중부 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 스웨덴 중부 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 스위스 북부 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 스위스 서쪽 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| westeurope | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 웨스트어스 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
비고
gpt-4
버전:turbo-2024-04-09의 프로비전된 버전은 현재 텍스트로만 제한됩니다.