다음을 통해 공유


Azure AI Foundry 모델의 배포 유형

Azure AI Foundry 모델은 Azure AI Foundry Services(이전의 알려진 Azure AI Services)의 모델 배포 개념을 사용하여 모델을 사용할 수 있도록 합니다. 모델 배포는 Azure 리소스이기도 하며, 만들 때 특정 구성에서 지정된 모델에 대한 액세스 권한을 부여합니다. 이러한 구성에는 요청을 처리하는 데 필요한 인프라가 포함됩니다.

Azure AI Foundry 모델은 비즈니스 및 사용 패턴에 맞는 호스팅 구조에 대한 선택 항목을 고객에게 제공합니다. 이러한 옵션은 Azure AI Foundry 리소스의 모델 배포 시간에 사용할 수 있는 다양한 배포 유형(또는 SKU)으로 변환됩니다. 이 서비스는 두 가지 주요 배포 유형인 표준프로비저닝을 제공합니다. 지정된 배포 유형의 경우 고객은 Azure geography(또는 ), Microsoft에서 지정한 데이터 영역(Standard또는) 또는 Provisioned-Managed전역(DataZone-StandardDataZone Provisioned-Managed또는Global-StandardGlobal Provisioned-Managed) 처리 옵션을 선택하여 워크로드를 데이터 처리 요구 사항에 맞출 수 있습니다.

미세 조정된 모델의 경우 추가 Developer 배포 유형은 데이터 상주 없이 비용 효율적인 사용자 지정 모델 평가 수단을 제공합니다.

모든 배포는 정확히 동일한 유추 작업을 수행할 수 있지만 청구, 규모 및 성능은 크게 다릅니다. 솔루션 설계의 일부로 다음 두 가지 주요 결정을 내려야 합니다.

  • 데이터 처리 위치
  • Call volume

Azure AI Foundry 배포 데이터 처리 위치

표준 배포의 경우 전역, 데이터 영역 및 Azure 지리의 세 가지 배포 유형 옵션 중에서 선택할 수 있습니다. 프로비전된 배포의 경우 전역 및 Azure 지역의 두 가지 배포 유형 옵션 중에서 선택할 수 있습니다. 전역 표준으로 시작하는 것을 권장합니다.

전역 배포는 Azure의 글로벌 인프라를 활용하여 고객의 유추 요청에 가장 적합한 가용성으로 고객 트래픽을 데이터 센터로 동적으로 라우팅합니다. 즉, 전역 구성을 통해 작동 시간 SLA와 짧은 대기 시간을 제공하면서 가장 높은 초기 처리량 한도와 최상의 모델 가용성을 얻을 수 있습니다. 표준 및 전역 표준에서 지정된 사용 계층을 초과하는 대량 워크로드의 경우 대기 시간 변동이 증가할 수 있습니다. 대규모 워크로드 사용 시 대기 시간 차이가 낮아야 하는 고객의 경우 프로비전된 배포 유형을 활용하는 것이 좋습니다.

글로벌 배포는 모든 새 모델 및 기능의 첫 번째 위치가 됩니다. 호출 볼륨에 따라 볼륨이 크고 대기 시간 차이가 낮은 고객은 프로비전된 배포 유형을 고려해야 합니다.

데이터 영역 배포는 Azure의 글로벌 인프라를 활용하여 Microsoft에서 정의한 데이터 영역 내에서 고객의 유추 요청에 가장 적합한 가용성으로 고객 트래픽을 데이터 센터로 동적으로 라우팅합니다. Azure 지리와 전역 배포 제품 간에 배치되는 데이터 영역 배포는 Microsoft에서 지정한 데이터 영역 내에서 데이터 처리를 유지하면서 높은 할당량 제한을 제공합니다. 미사용 데이터에 저장된 데이터는 Azure AI Foundry 리소스의 지역에 계속 유지됩니다(예: 스웨덴 중앙 Azure 지역에서 만든 AI Foundry 리소스의 경우 Azure 지리는 스웨덴).

데이터 영역 배포에 사용되는 Azure AI Foundry 리소스가 미국에 있는 경우 데이터는 미국 내에서 처리됩니다. 데이터 영역 배포에 사용되는 Azure AI Foundry 리소스가 유럽 연합 회원국에 있는 경우 데이터는 유럽 연합 회원국 지리 내에서 처리됩니다. 모든 Azure AI Foundry 배포 유형의 경우 미사용 상태로 저장된 모든 데이터는 Azure AI Foundry 리소스의 지리적 위치에 계속 유지됩니다. Azure 데이터 처리 및 규정 준수 약정은 적용 가능한 상태로 유지됩니다.

'전역'이라는 레이블이 지정된 배포 유형의 경우 관련 Azure AI Foundry 모델이 배포되는 모든 지역에서 프롬프트 및 응답을 처리할 수 있습니다( 모델의 지역 가용성에 대한 자세한 정보). 'DataZone'으로 표시된 모든 배포 유형의 경우, 프롬프트와 응답은 Microsoft에서 정의한 대로 지정된 데이터 영역 내의 모든 지역에서 처리될 수 있습니다. 미국에 있는 Azure AI Foundry 리소스에 DataZone 배포를 만드는 경우 프롬프트 및 응답이 미국 내 어디에서나 처리될 수 있습니다. 유럽 연합 회원국에 있는 Azure AI Foundry 리소스에 DataZone 배포를 만드는 경우 해당 또는 다른 유럽 연합 회원국에서 프롬프트 및 응답을 처리할 수 있습니다. 글로벌 및 DataZone 배포 유형 모두에서 업로드된 데이터와 같이 저장된 모든 데이터는 고객이 지정한 지역에 저장됩니다. 고객이 Azure AI Foundry 리소스에서 글로벌 배포 유형 또는 DataZone 배포 유형을 사용하는 경우 처리 위치만 영향을 받습니다. Azure 데이터 처리 및 규정 준수 약정은 적용 가능한 상태로 유지됩니다.

Note

전역 표준 및 데이터 영역 표준 배포 유형을 사용하면 주 지역에서 서비스 중단이 발생하는 경우 이 지역으로 처음 라우팅된 모든 트래픽이 영향을 받게 됩니다. 자세한 내용은 비즈니스 연속성 및 재해 복구 가이드를 참조하세요.

Global standard

Important

미사용 상태로 저장된 데이터는 지정된 Azure 지리에 남아 있는 반면, 데이터는 모든 Azure AI Foundry 위치에서 유추를 위해 처리될 수 있습니다. 데이터 보존에 대해 자세히 알아보기.

코드의 SKU 이름:GlobalStandard

글로벌 배포는 비 전역 배포 유형과 동일한 Azure AI Foundry 리소스에서 사용할 수 있지만 Azure의 글로벌 인프라를 활용하여 각 요청에 가장 적합한 가용성으로 트래픽을 데이터 센터로 동적으로 라우팅할 수 있습니다. 글로벌 표준은 가장 높은 기본 할당량을 제공하고 여러 리소스에 걸쳐 부하를 분산할 필요성을 제거합니다.

일관된 볼륨이 높은 고객은 대기 시간 변동이 더 커질 수 있습니다. 임계값은 모델별로 설정됩니다. 자세한 내용은 할당량 페이지를 참조하세요. 대량 워크로드 사용 시 낮은 대기 시간 차이가 필요한 애플리케이션의 경우 프로비전된 처리량을 구매하는 것이 좋습니다.

Global provisioned

Important

미사용 상태로 저장된 데이터는 지정된 Azure 지리에 남아 있는 반면, 데이터는 모든 Azure AI Foundry 위치에서 유추를 위해 처리될 수 있습니다. 데이터 보존에 대해 자세히 알아보기.

코드의 SKU 이름:GlobalProvisionedManaged

글로벌 배포는 비 전역 배포 유형과 동일한 Azure AI Foundry 리소스에서 사용할 수 있지만 Azure의 글로벌 인프라를 활용하여 각 요청에 가장 적합한 가용성으로 트래픽을 데이터 센터로 동적으로 라우팅할 수 있습니다. 전역 프로비전된 배포는 Azure 글로벌 인프라를 사용하여 예측 가능한 높은 처리량을 위한 예약된 모델 처리 용량을 제공합니다.

Global batch

Important

미사용 상태로 저장된 데이터는 지정된 Azure 지리에 남아 있는 반면, 데이터는 모든 Azure AI Foundry 위치에서 유추를 위해 처리될 수 있습니다. 데이터 보존에 대해 자세히 알아보기.

글로벌 일괄 처리는 대규모 및 대용량 처리 작업을 효율적으로 처리하도록 설계되었습니다. 별도의 할당량으로 비동기 요청 그룹을 처리하고 24시간 대상 처리 시간을 제공하며, 글로벌 표준보다 50% 더 저렴한 비용을 제공합니다. 일괄 처리를 사용하면 한 번에 하나의 요청을 보내는 것이 아니라, 단일 파일에 많은 수의 요청을 보냅니다. 글로벌 일괄 처리 요청에는 별도의 큐 토큰 할당량이 있어 온라인 워크로드가 중단되지 않습니다.

코드의 SKU 이름:GlobalBatch

주요 사용 사례는 다음과 같습니다.

  • 대규모 데이터 처리: 방대한 데이터 세트를 병렬로 빠르게 분석합니다.

  • 콘텐츠 생성: 제품 설명이나 문서 등 방대한 양의 텍스트를 만듭니다.

  • 문서 검토 및 요약: 긴 문서의 검토 및 요약을 자동화합니다.

  • 고객 지원 자동화: 더 빠른 응답을 위해 여러 문의를 동시에 처리합니다.

  • 데이터 추출 및 분석: 방대한 양의 구조화되지 않은 데이터에서 정보를 추출하고 분석합니다.

  • NLP(자연어 처리) 작업: 대규모 데이터 세트에 대한 감정 분석이나 번역과 같은 작업을 수행합니다.

  • 마케팅 및 개인 설정: 대규모로 개인 설정 콘텐츠와 권장 사항을 생성합니다.

데이터 영역 표준

Important

미사용 상태로 저장된 데이터는 지정된 Azure 지역에 남아 있지만 Microsoft에서 지정한 데이터 영역 내의 모든 Azure AI Foundry 위치에서 유추를 위해 데이터를 처리할 수 있습니다. 데이터 보존에 대해 자세히 알아보기.

코드의 SKU 이름:DataZoneStandard

데이터 영역 표준 배포는 다른 모든 Azure AI Foundry 배포 유형과 동일한 Azure AI Foundry 리소스에서 사용할 수 있지만 Azure 글로벌 인프라를 활용하여 각 요청에 가장 적합한 가용성으로 Microsoft 정의 데이터 영역 내의 데이터 센터로 트래픽을 동적으로 라우팅할 수 있습니다. 데이터 영역 표준은 Azure 지리 기반 배포 유형보다 더 높은 기본 할당량을 제공합니다.

일관된 볼륨이 높은 고객은 대기 시간 변동이 더 커질 수 있습니다. 임계값은 모델별로 설정됩니다. 자세한 내용은 할당량 및 제한 페이지를 참조하세요. 대용량에서 짧은 대기 시간 분산이 필요한 워크로드의 경우 프로비전된 배포 제품을 활용하는 것이 좋습니다.

프로비전된 데이터 영역

Important

미사용 상태로 저장된 데이터는 지정된 Azure 지역에 남아 있지만 Microsoft에서 지정한 데이터 영역 내의 모든 Azure AI Foundry 위치에서 유추를 위해 데이터를 처리할 수 있습니다. 데이터 보존에 대해 자세히 알아봅니다.

코드의 SKU 이름:DataZoneProvisionedManaged

데이터 영역 프로비저닝된 배포는 다른 모든 Azure AI Foundry 배포 유형과 동일한 Azure AI Foundry 리소스에서 사용할 수 있지만, Azure 글로벌 인프라를 활용하여 각 요청에 가장 적합한 가용성으로 Microsoft 지정된 데이터 영역 내의 데이터 센터로 트래픽을 동적으로 라우팅할 수 있습니다. 데이터 영역 프로비전 배포는 Microsoft에서 지정한 데이터 영역 내의 Azure 인프라를 사용하여 높고 예측 가능한 처리량을 위한 예약된 모델 처리 용량을 제공합니다.

데이터 영역 일괄 처리

Important

미사용 상태로 저장된 데이터는 지정된 Azure 지역에 남아 있지만 Microsoft에서 지정한 데이터 영역 내의 모든 Azure AI Foundry 위치에서 유추를 위해 데이터를 처리할 수 있습니다. 데이터 보존에 대해 자세히 알아보기.

코드의 SKU 이름:DataZoneBatch

데이터 영역 일괄 배포는 전역 일괄 처리 배포와 동일한 기능을 모두 제공하는 동시에 Azure 글로벌 인프라를 활용하여 각 요청에 가장 적합한 가용성을 갖춘 Microsoft 정의 데이터 영역 내의 데이터 센터에만 트래픽을 동적으로 라우팅할 수 있습니다.

Standard

코드의 SKU 이름:Standard

표준 배포는 선택한 모델에 대해 호출당 지불 청구 모델을 제공합니다. 사용한 만큼만 비용을 지불하므로 시작하는 가장 빠른 방법을 제공합니다. 각 지역에서 사용 가능한 모델과 처리량이 제한될 수 있습니다.

표준 배포는 버스트가 높은 낮은 볼륨에서 중간 볼륨 워크로드에 최적화되어 있습니다. 일관된 볼륨이 높은 고객은 대기 시간 변동이 더 커질 수 있습니다.

Regional Provisioned

코드의 SKU 이름:ProvisionedManaged

지역 프로비전된 배포를 사용하면 배포에 필요한 처리량을 지정할 수 있습니다. 그런 다음 서비스는 필요한 모델 처리 용량을 할당하고 준비가 되었는지 확인합니다. 처리량은 배포에 대한 처리량을 나타내는 정규화된 방법인 PTU(프로비전된 처리량 단위)로 정의됩니다. 각 모델-버전 쌍에는 배포를 위해 서로 다른 양의 PTU가 필요하며 PTU당 서로 다른 양의 처리량을 제공합니다. 프로비전된 처리량 개념 문서에서 자세히 알아봅니다.

구독에서 글로벌 배포에 대한 액세스를 사용하지 않도록 설정하는 방법

Azure Policy를 사용하면 조직의 표준을 적용하고 규정 준수를 규모에 맞게 평가할 수 있습니다. 리소스별 정책별 세분성으로 드릴다운할 수 있는 기능을 사용하여 환경의 전체 상태를 평가할 수 있는 집계된 보기가 규정 준수 대시보드를 통해 제공됩니다. 또한 기존 리소스에 대한 대량 수정 및 새 리소스에 대한 자동 수정을 통해 리소스를 규정 준수 상태로 전환할 수 있습니다. Azure Policy 및 AI 서비스에 대한 특정 기본 제공 컨트롤에 대해 자세히 알아봅니다.

다음 정책을 사용하여 Azure AI Foundry 배포 유형에 대한 액세스를 사용하지 않도록 설정할 수 있습니다. 특정 배포 유형에 대한 액세스를 비활성화하려면 GlobalStandard를 액세스를 비활성화하려는 배포 유형의 sku 이름으로 바꿉니다.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

개발자(미세 조정된 모델용)

Important

미사용 상태로 저장된 데이터는 지정된 Azure 지리에 남아 있는 반면, 데이터는 모든 Azure AI Foundry 위치에서 유추를 위해 처리될 수 있습니다. 데이터 보존에 대해 자세히 알아보기.

코드의 SKU 이름:DeveloperTier

미세 조정된 모델은 사용자 지정 모델 평가를 지원하도록 특별히 설계된 개발자 배포를 지원합니다. 데이터 상주 보장을 제공하지 않으며 SLA를 제공하지도 않습니다. 개발자 배포 유형을 사용하는 방법에 대한 자세한 내용은 미세 조정 가이드를 참조하세요.

Deploy models

세 가지 배포 유형이 강조 표시된 Azure AI Foundry 포털의 모델 배포 대화 상자를 보여 주는 스크린샷.

리소스 만들기 및 모델 배포에 대해 알아보려면 리소스 만들기 가이드를 참조하세요.

See also