이 문서에서는 Mosaic AI 모델 서비스 및 지원되는 엔드포인트 유형에 대한 제한 사항 및 지역 가용성을 요약합니다.
리소스 및 페이로드 제한
Mosaic AI 모델 서비스 제공은 안정적인 성능을 보장하기 위해 기본 제한을 적용합니다. 이러한 제한에 대한 피드백이 있는 경우 Databricks 계정 팀에 문의하세요.
다음 표에는 엔드포인트를 제공하는 모델에 대한 리소스 및 페이로드 제한 사항이 요약되어 있습니다.
기능 | 세분성 | 한계 |
---|---|---|
페이로드 크기 | 요청에 따라 | 16MB 기본 모델, 외부 모델, 또는 AI 에이전트을 제공하는 엔드포인트의 경우 제한은 4MB입니다. |
요청/응답 크기 | 요청에 따라 | 1MB를 넘는 요청/응답은 기록되지 않습니다. |
QPS(초당 쿼리 수) | 작업 영역당 | 200. QPS를 높이려면 경로 최적화를 사용하도록 설정합니다. |
모델 실행 기간 | 요청에 따라 | 120초 |
CPU 엔드포인트 모델 메모리 사용량 | 엔드포인트당 | 4GB |
GPU 엔드포인트 모델 메모리 사용량 | 엔드포인트당 | 할당된 GPU 메모리보다 크거나 같은 경우 GPU 워크로드 크기에 따라 달라집니다. |
프로비전된 동시 실행 | 모델 및 작업 영역당 | 200 동시 실행 Databricks 계정 팀에 문의하여 늘릴 수 있습니다. |
오버헤드 대기 시간 | 요청에 따라 | 50밀리초 미만 |
Init 스크립트 | Init 스크립트는 지원되지 않습니다. | |
기본 모델 API(토큰당 지불) 요금 제한 | 작업 영역당 | 사용 사례에 대해 다음 제한이 충분하지 않은 경우 Databricks는 프로비전된 처리량을 사용하는 것이 좋습니다.
|
기본 모델 API(프로비저닝된 처리량) 요금 제한 | 작업 영역당 | 초당 200개의 쿼리. |
네트워킹 및 보안 제한 사항
- 모델 제공 엔드포인트는 액세스 제어로 보호되며 IP 허용 목록 및 비공개 링크와 같이 작업 영역에 구성된 네트워킹 관련 침입 규칙을 준수합니다.
- 프라이빗 연결(예: Azure Private Link)은 프로비전된 처리량 또는 사용자 지정 모델을 제공하는 엔드포인트를 사용하는 엔드포인트를 제공하는 모델에 대해서만 지원됩니다.
- 기본적으로 모델 제공은 외부 엔드포인트(예: Azure OpenAI)에 대한 Private Link를 지원하지 않습니다. 이 기능에 대한 지원은 지역별로 평가 및 구현됩니다. 더 자세한 내용은 Azure Databricks 계정 팀에 문의하세요.
- 모델 제공은 프로덕션 배포에 대한 불안정의 위험 때문에 기존 모델 이미지에 보안 패치를 제공하지 않습니다. 새 모델 버전에서 만든 새 모델 이미지에는 최신 패치가 포함됩니다. 더 자세한 내용은 Databricks 계정 팀에 문의하세요.
규정 준수 보안 프로필 표준: CPU 워크로드
다음 표에서는 CPU 워크로드의 핵심 모델 서비스 기능에 대해 지원되는 규정 준수 보안 프로필 준수 표준을 나열합니다.
참고
이러한 규정 준수 표준을 사용하려면 가장 최근 30일 이내에 제공된 컨테이너를 빌드해야 합니다. Databricks는 사용자를 대신하여 오래된 컨테이너를 자동으로 다시 빌드합니다. 그러나 이 자동화된 작업이 실패하면 다음과 같은 이벤트 로그 메시지가 나타나고 엔드포인트가 규정 준수 요구 사항 내에서 유지되도록 하는 방법에 대한 지침을 제공합니다.
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."
지역 | 위치 | HIPAA | HITRUST | PCI-DSS | IRAP (아이랩) | CCCS 중간 보안 레벨 B | 영국 Cyber Essentials Plus |
---|---|---|---|---|---|---|---|
australiacentral |
오스트레일리아중부 | ||||||
australiacentral2 |
AustraliaCentral2 | ||||||
australiaeast |
오스트레일리아동부 | ✓ | ✓ | ✓ | |||
australiasoutheast |
오스트레일리아남동부 | ||||||
brazilsouth |
브라질 남부 | ✓ | ✓ | ✓ | |||
canadacentral |
캐나다중부 | ✓ | ✓ | ✓ | |||
canadaeast |
캐나다동부 | ||||||
centralindia |
CentralIndia | ✓ | ✓ | ✓ | |||
centralus |
미국 중부 | ✓ | ✓ | ✓ | |||
chinaeast2 |
ChinaEast2 | ||||||
chinaeast3 |
ChinaEast3 | ||||||
chinanorth2 |
ChinaNorth2 | ||||||
chinanorth3 |
ChinaNorth3 | ||||||
eastasia |
EastAsia | ✓ | ✓ | ✓ | |||
eastus |
미국 동부 | ✓ | ✓ | ✓ | |||
eastus2 |
EastUS2 | ✓ | ✓ | ✓ | |||
francecentral |
FranceCentral | ✓ | ✓ | ✓ | |||
germanywestcentral |
독일 서중부 | ✓ | ✓ | ✓ | |||
japaneast |
JapanEast | ✓ | ✓ | ✓ | |||
japanwest |
JapanWest | ||||||
koreacentral |
KoreaCentral | ✓ | ✓ | ✓ | |||
mexicocentral |
멕시코 센터 | ||||||
northcentralus |
NorthCentralUS | ✓ | ✓ | ✓ | |||
northeurope |
유럽 북부 | ✓ | ✓ | ✓ | |||
norwayeast |
노르웨이 동부 | ||||||
qatarcentral |
카타르 센터 | ||||||
southafricanorth |
남아프리카북부 | ||||||
southcentralus |
SouthCentralUS | ✓ | ✓ | ✓ | |||
southeastasia |
동남아시아 | ✓ | ✓ | ✓ | |||
southindia |
남인도 | ||||||
swedencentral |
SwedenCentral | ✓ | ✓ | ✓ | |||
switzerlandnorth |
스위스 북부 | ✓ | ✓ | ✓ | |||
switzerlandwest |
스위스 서부 | ||||||
uaenorth |
UAENorth | ✓ | ✓ | ✓ | |||
uksouth |
UKSouth | ✓ | ✓ | ✓ | ✓ | ||
ukwest |
UKWest | ||||||
westcentralus |
WestCentralUS | ||||||
westeurope |
웨스트유로프 | ✓ | ✓ | ✓ | |||
westindia |
WestIndia | ||||||
westus |
서부 미국 | ✓ | ✓ | ✓ | |||
westus2 |
WestUS2 | ✓ | ✓ | ✓ | |||
westus3 |
WestUS3 | ✓ | ✓ | ✓ |
파운데이션 모델 API 제한
참고
Foundation Model API를 제공하는 과정에서 Databricks는 데이터가 시작된 지역 외부에서 데이터를 처리할 수 있지만 관련 지리적 위치외부에는 처리하지 않을 수 있습니다.
토큰당 지불 및 프로비전된 처리량 워크로드의 경우 두 가지 모두:
- 작업 영역 관리자만 파운데이션 모델 API 엔드포인트에 대한 속도 제한과 같은 거버넌스 설정을 변경할 수 있습니다. 요금 제한을 변경하려면 다음 단계를 사용합니다.
- 작업 영역에서 서비스 UI를 열어 서비스 엔드포인트를 확인합니다.
- 편집하려는 Foundation Model API 엔드포인트의 케밥 메뉴에서 세부 정보 보기를 선택합니다.
- 엔드포인트 세부 정보 페이지의 오른쪽 위에 있는 케밥 메뉴에서 변경 속도 제한선택합니다.
- GTE Large(En) 임베딩 모델은 정규화된 임베딩을 생성하지 않습니다.
토큰당 종량제 한도
다음은 파운데이션 모델 API 토큰 당 종량제 워크로드와 관련된 제한 사항입니다.
-
토큰당 종량제 워크로드는 HIPAA를 준수합니다.
- 규정 준수 보안 프로필이 활성화된 고객의 경우, 규정 준수 표준 HIPAA 또는 없음이 선택된 경우 토큰당 지불 워크로드를 사용할 수 있습니다. 토큰당 종량제 워크로드에는 다른 규정 준수 표준이 지원되지 않습니다.
- 다음 토큰당 종량제 모델은 오직 미국 지역에서만 지원되는 Foundation Model API를 통해 지원됩니다.
- 인류 클로드 소네트 4
- 인류 클로드 오푸스 4
- 메타 라마 3.1 405B 지시
- BGE Large(En)
- Anthropic Claude 3.7 소네트 는 토큰당 EU 및 미국 지원 지역에서 사용할 수 있습니다. 작업 영역이 EU 또는 미국 지역에 있지 않지만 지원되는 모델 서비스 지역에 있는 경우 지역 간 데이터 처리를 사용하도록 설정하여 이 모델에 액세스할 수 있습니다.
- 작업 영역이 모델 서비스 지역에 있지만 미국 또는 EU 지역이 아닌 경우 지역 간 데이터 처리를 위해 작업 영역을 사용하도록 설정해야 합니다. 사용하도록 설정하면 토큰당 지불 워크로드가 미국으로 라우팅됩니다. Databricks Geo. 토큰당 종량제 워크로드를 처리하는 지리적 지역을 보려면 Databricks 지정 서비스를 참조 하세요.
프로비전된 처리량 제한
다음은 프로비전된 처리량 워크로드의 Foundation Model API와 관련된 제한 사항입니다.
프로비전된 처리량 은 HIPAA 규정 준수 프로필을 지원하며 규정 준수 인증이 필요한 워크로드에 권장됩니다.
Unity 카탈로그에서
system.ai
Meta Llama 모델을 배포하려면 적절한 Instruct 버전을 선택해야 합니다. Meta Llama 모델의 기본 버전은 Unity 카탈로그에서 배포할 수 없습니다. Unity 카탈로그 에서 [추천]으로 지정된 기본 모델 배포을 참조하세요.Llama 4 Maverick를 사용하는 프로비전된 처리량 워크로드의 경우:
- 프로비전된 처리량 워크로드에서 이 모델에 대한 지원은 공개 미리 보기로 제공됩니다.
- 자동 크기 조정은 지원되지 않습니다.
- 메트릭 패널은 지원되지 않습니다.
- 트래픽 분할은 Llama 4 Maverick를 제공하는 엔드포인트에서 지원되지 않습니다. Llama 4 Maverick를 제공하는 엔드포인트에서 여러 모델을 제공할 수 없습니다.
지역 가용성
참고
지원되지 않는 지역에 엔드포인트가 필요한 경우 Azure Databricks 계정 팀에 문의하세요.
작업 영역이 모델 제공을 지원하는 지역에 배포되었지만, 지원되지 않는 지역의 컨트롤 플레인에서 제공되는 경우 작업 영역은 모델 제공을 지원하지 않습니다. 이러한 작업 영역에서 제공하는 모델을 사용하려고 하면 작업 영역이 지원되지 않는다는 오류 메시지가 표시됩니다. 더 자세한 내용은 Azure Databricks 계정 팀에 문의하세요.
각 모델 서비스 기능의 지역별 가용성에 대한 자세한 내용은 지역 가용성을 제공하는 모델을 참조하세요.
Databricks에서 호스트되는 기본 모델 지역 가용성은 Databricks에서 호스트되는 Foundation 모델을 참조하세요.