다음을 통해 공유


추론을 위해 미세 조정된 모델 배포

모델이 미세 조정되면 모델을 배포하고 자체 애플리케이션에서 사용할 수 있습니다.

모델을 배포할 때 모델을 추론할 수 있도록 설정하면 시간당 호스팅 요금이 부과됩니다. 그러나 미세 조정된 모델은 사용할 준비가 될 때까지 Azure AI Foundry에 비용 없이 저장할 수 있습니다.

Azure OpenAI는 표준,글로벌 표준 (미리 보기) 및 프로비전된 처리량 (미리 보기)과 같은 다양한 비즈니스 및 사용 패턴에 맞는 호스팅 구조에서 미세 조정된 모델에 대한 배포 유형을 선택할 수 있습니다. 미세 조정된 모델의 배포 유형모든 배포 유형의 개념에 대해 자세히 알아봅니다.

미세 조정된 모델을 배포하세요

사용자 지정 모델을 배포하려면 배포할 사용자 지정 모델을 선택한 다음 배포를 선택합니다.

모델 배포 대화 상자가 열립니다. 대화 상자에서 배포 이름에 이름을 입력한 다음, 만들기를 선택하여 사용자 지정 모델의 배포를 시작합니다.

Azure AI Foundry 포털에서 사용자 지정 모델을 배포하는 방법을 보여 주는 스크린샷

Azure AI Studio의 배포 창에서 배포 진행률을 모니터링할 수 있습니다.

UI는 지역 간 배포를 지원하지 않지만 Python SDK 또는 REST는 지원합니다.

Important

사용자 지정된 모델을 배포한 후 배포가 15일 이상 비활성 상태로 유지되면 배포가 삭제됩니다. 모델을 15일 이상 전에 배포하고 15일 연속으로 완료 또는 채팅 완료를 호출하지 않은 경우 사용자 지정된 모델의 배포가 비활성 상태입니다.

비활성 배포 삭제는 기본 사용자 지정된 모델을 삭제하거나 영향을 주지 않으며 사용자 지정된 모델을 언제든지 다시 배포할 수 있습니다. Azure AI Foundry 모델 가격 책정의 Azure OpenAI에 설명된 대로 배포된 각 사용자 지정(미세 조정된) 모델은 완료 또는 채팅 완료 호출이 모델에 대해 이루어지는지 여부에 관계없이 시간당 호스팅 비용이 발생합니다. Azure OpenAI를 사용하여 비용을 계획하고 관리하는 방법에 대한 자세한 내용은 Azure OpenAI에 대한 비용 관리 계획의 지침을 참조하세요.

배포된 미세 조정된 모델을 사용합니다.

사용자 지정 모델을 배포한 후에는 배포된 다른 모델과 마찬가지로 사용할 수 있습니다. Azure AI Foundry 포털에서 Playgrounds를 사용하여 새 배포를 실험할 수 있습니다. 배포된 다른 모델과 마찬가지로 사용자 지정 모델 temperaturemax_tokens(와)과 같은 동일한 매개 변수를 계속 사용할 수 있습니다.

섹션이 강조 표시된 Azure AI Foundry 포털의 플레이그라운드 창 스크린샷

프롬프트 캐싱

Azure OpenAI 미세 조정은 선택한 모델을 사용한 프롬프트 캐싱을 지원합니다. 프롬프트 캐싱을 사용하면 프롬프트 시작 시 콘텐츠가 동일한 긴 프롬프트에 대한 전체 요청 대기 시간과 비용을 줄일 수 있습니다. 프롬프트 캐싱에 대한 자세한 내용은 프롬프트 캐싱 시작을 참조 하세요.

배포 유형

Azure OpenAI 미세 조정은 다음과 같은 배포 유형을 지원합니다.

Standard

표준 배포는 배포된 지역에 제한된 데이터 보존을 사용하여 토큰당 지불 청구 모델을 제공합니다.

Models 미국 동부2 미국 중북부 스웨덴 중부 스위스 서부
o4-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4o
GPT-4o-mini
GPT-35-Turbo(1106)
GPT-35-Turbo(0125)

글로벌 표준

글로벌 표준 미세 조정 배포는 비용 절감을 제공하지만 사용자 지정 모델 가중치는 Azure OpenAI 리소스의 지리 외부에 일시적으로 저장될 수 있습니다.

글로벌 표준 배포는 다음 모델에 대해 모든 Azure OpenAI 지역에서 사용할 수 있습니다.

  • o4-mini
  • GPT-4.1
  • GPT-4.1-mini
  • GPT-4.1-nano
  • GPT-4o
  • GPT-4o-mini

미세 조정된 모델을 사용하는 글로벌 표준 배포 사용자 환경의 스크린샷.

개발자 계층

개발자 가 미세 조정한 배포는 시간당 호스팅 비용 없이 글로벌 표준 과 비슷한 환경을 제공하지만 가용성 SLA는 제공하지 않습니다. 개발자 배포는 프로덕션용이 아닌 모델 후보 평가를 위해 설계되었습니다.

개발자 배포는 다음 모델에 대해 모든 Azure OpenAI 지역에서 사용할 수 있습니다.

  • GPT-4.1
  • GPT-4.1-mini
  • GPT-4.1-nano

프로비전된 처리량

Models 미국 중북부 스웨덴 중부
GPT-4.1
GPT-4o
GPT-4o-mini

프로비전된 처리량 미세 조정 배포는 대기 시간에 민감한 에이전트 및 애플리케이션에 대한 예측 가능한 성능을 제공합니다. 기본 모델과 동일한 지역 프로비전된 처리량(PTU) 용량을 사용하므로 이미 지역 PTU 할당량이 있는 경우 지원 지역에 미세 조정된 모델을 배포할 수 있습니다.

배포 정리

배포를 삭제하려면 Deployments - REST API를 삭제 하고 HTTP DELETE를 배포 리소스에 보냅니다. 배포를 만드는 것과 마찬가지로 다음 매개 변수를 포함해야 합니다.

  • Azure 구독 ID
  • Azure 리소스 그룹 이름
  • Azure OpenAI 리소스 이름
  • 삭제할 배포의 이름

다음은 배포를 삭제하는 REST API 예제입니다.

curl -X DELETE "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>?api-version=2024-10-21" \
  -H "Authorization: Bearer <TOKEN>"

Azure AI Foundry 포털에서 배포를 삭제하거나 Azure CLI를 사용할 수도 있습니다.

다음 단계