다음을 통해 공유


Azure AI Foundry 포털의 모델 순위표(미리 보기)

중요합니다

이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure 미리 보기에 대한 추가 사용 약관을 참조하세요.

Azure AI Foundry 포털의 모델 순위표(미리 보기)를 사용하면 Azure AI Foundry 모델 카탈로그에서 모델 선택 프로세스를 간소화할 수 있습니다. 업계 표준 벤치마크를 통해 지원되는 모델 순위표는 사용자 지정 AI 솔루션에 가장 적합한 모델을 찾는 데 도움이 될 수 있습니다. 모델 카탈로그의 모델 순위표 섹션에서 다음과 같이 순위표를 찾아 사용 가능한 모델을 비교할 수 있습니다.

원하는 모델을 찾을 때마다 모델을 선택하고 모델 카탈로그 내에서 모델의 세부 벤치마킹 결과를 확대할 수 있습니다. 모델에 만족하는 경우 모델을 배포하거나, 플레이그라운드에서 사용해 보거나, 데이터에서 평가할 수 있습니다. 순위표는 텍스트 언어 모델(LLM(큰 언어 모델) 및 작은 언어 모델(SLLM))에서 벤치마킹 및 모델 포함을 지원합니다.

모델 벤치마크는 품질, 안전성, 비용 및 처리량 범주에서 LLM 및 SLLM을 평가합니다. 또한 표준 벤치마크를 사용하여 포함 모델의 품질을 평가합니다. 순위표는 더 나은 불포화 벤치마크가 등록되고 모델 카탈로그에 새 모델이 추가됨에 따라 정기적으로 업데이트됩니다.

언어 모델의 품질 벤치마크

Azure AI는 추론, 지식, 질문 답변, 수학 및 코딩과 같은 모델 기능을 측정하는 표준 포괄적인 벤치마크 데이터 세트의 정확도 점수를 사용하여 LLM 및 SLLM의 품질을 평가합니다.

인덱스 설명
품질 인덱스 품질 인덱스는 포괄적인 표준 벤치마크 데이터 세트에 대해 적용 가능한 정확도 점수(exact_match, pass@1, arena_hard)를 평균하여 계산됩니다.

품질 인덱스는 0에서 1까지의 크기로 제공됩니다. 품질 인덱스의 값이 높을수록 좋습니다. 품질 인덱스에 포함된 데이터 세트는 다음과 같습니다.

데이터 세트 이름 순위표 시나리오
아레나_하드 품질 보증 (QA)
빅벤치_하드 논리적 사고
gpqa 품질 보증 (QA)
humanevalplus 코딩
ifeval 논리적 사고
수학 수학
mbppplus 코딩
mmlu_pro 일반 지식

정확도 점수에 대한 자세한 내용을 참조하세요.

메트릭 설명
정확성 정확도 점수는 데이터 세트 및 모델 수준에서 사용할 수 있습니다. 데이터 세트 수준에서 점수는 데이터 세트의 모든 예제에 대해 계산된 정확도 메트릭의 평균 값입니다. 사용되는 정확도 메트릭은 exact-match 메트릭을 사용하는 HumanEvalMBPP 데이터 세트를 제외한 모든 경우에 사용됩니다 pass@1 . 정확한 일치는 모델 생성 텍스트를 데이터 세트에 따라 정답과 비교하고, 생성된 텍스트가 대답과 정확히 일치하는 경우 1을 보고하고, 그렇지 않으면 0을 보고합니다. 메트릭은 pass@1 코드 생성 태스크에서 단위 테스트 집합을 통과하는 모델 솔루션의 비율을 측정합니다. 모델 수준에서 정확도 점수는 각 모델에 대한 데이터 세트 수준 정확도의 평균입니다.

정확도 점수는 0에서 1까지의 척도로 제공됩니다. 값이 높을수록 좋습니다.

언어 모델의 안전 벤치마크

평가를 위한 안전 벤치마크 선택을 안내하기 위해 관련성과 엄격성을 모두 보장하도록 설계된 구조적 필터링 및 유효성 검사 프로세스를 적용합니다. 벤치마크는 우선 순위가 높은 위험을 해결하는 경우 온보딩할 자격이 있습니다. 안전 순위표의 경우 안전과 관련된 특정 관심 항목에 대한 신호를 제공할 수 있을 만큼 신뢰할 수 있는 것으로 간주될 수 있는 다양한 벤치마크를 살펴봅니다. 모델 보안을 프록시하기 위해 HarmBench 를 선택하고 다음과 같이 시나리오 순위표를 구성합니다.

데이터 세트 이름 순위표 시나리오 메트릭 해석
HarmBench(표준) 표준 유해한 동작 공격 성공률 값이 낮을수록 불법 표준 유해한 콘텐츠로 설계된 공격에 대한 견고성이 향상됩니다.
HarmBench(상황별) 상황에 맞는 유해한 동작 공격 성공률 값이 낮을수록 문맥상 유해한 불법 콘텐츠로 설계된 공격에 대한 견고성이 향상됩니다.
HarmBench(저작권 위반) 저작권 위반 공격 성공률 값이 낮을수록 불법 저작권 위반으로 설계된 공격에 대한 견고성이 향상됩니다.
WMDP 중요한 도메인에 대한 지식 정확성 값이 높을수록 중요한 도메인(사이버 보안, 생물 보안 및 화학 보안)에 대한 더 많은 지식이 표시됩니다.
Toxigen 독성 콘텐츠를 감지하는 기능 F1 점수 값이 높을수록 독성 콘텐츠를 더 잘 감지할 수 있습니다.

유해한 동작 모델링

HarmBench 벤치마크는 모델 유해 동작을 측정하고 모델의 불법적인 유해한 행동에 대한 프롬프트를 포함합니다. 안전과 관련하여 벤치마크는 7가지 의미 체계 동작 범주를 다룹니다.

  • 사이버 범죄 및 무단 침입
  • 화학 무기/약물
  • 저작권 위반
  • 잘못된 정보 및 허위 정보
  • 괴롭힘 및 따돌림
  • 불법 활동
  • 일반적인 피해

이러한 7개 범주는 3가지 기능 범주로 요약할 수 있습니다.

  • 표준 유해한 동작
  • 상황에 맞는 유해한 동작
  • 저작권 위반

각 기능 범주는 별도의 시나리오 순위표에 있습니다. HarmBench(공격 없음) 및 HarmBench 평가자의 직접 프롬프트를 사용하여 ASR(공격 성공률)을 계산합니다. ASR 값이 낮으면 모델이 더 안전합니다. 평가에 대한 공격 전략은 탐색하지 않으며 모델 벤치마킹은 Azure AI 콘텐츠 안전 필터를 해제하여 수행됩니다.

독성 콘텐츠를 감지하는 모델 기능

Toxigen 은 악의적이고 암시적인 증오 음성 검색을 위한 대규모 기계 생성 데이터 세트입니다. 그것은 13개의 소수 집단을 언급하면서 암시적으로 독성이 있는 문장과 양성 문장을 포함하고 있습니다. 평가를 위해 Toxigen의 주석이 추가된 샘플을 사용하고 F1 점수를 계산하여 분류 성능을 측정합니다. 이 데이터 세트에서 높은 점수를 매기면 모델이 독성 콘텐츠를 더 잘 감지할 수 있습니다. 모델 벤치마킹은 Azure AI 콘텐츠 안전 필터를 해제하여 수행됩니다.

중요한 도메인의 모델 지식

WMDP( 대량살상무기 프록시 ) 벤치마크는 생물 보안, 사이버 보안 및 화학 보안을 포함한 중요한 도메인의 모델 지식을 측정합니다. 순위표는 사이버 보안, 생물 보안 및 화학 보안 전반에서 평균 정확도 점수를 사용합니다. WMDP 정확도 점수가 높을수록 위험한 기능에 대한 더 많은 지식이 표시됩니다(안전 관점에서 더 나쁜 동작). 모델 벤치마킹은 기본 Azure AI 콘텐츠 안전 필터를 사용하여 수행됩니다. 이러한 안전 필터는 폭력, 자해, 성적, 증오 및 불공정에서 콘텐츠 피해를 감지하고 차단하지만 사이버 보안, 생물 보안 및 화학 보안의 범주를 대상으로 하지 않습니다.

안전 벤치마크의 제한 사항

우리는 안전이 복잡한 주제이며 여러 차원을 가지고 있음을 이해하고 인정합니다. 현재 오픈 소스 벤치마크는 다른 시나리오에서 시스템의 전체 안전성 테스트 또는 표시를 수행할 수 없습니다. 또한 이러한 벤치마크의 대부분은 포화 또는 벤치마크 디자인과 위험 정의 간의 정렬 불일치로 인해 발생할 수 있으며, 대상 위험이 개념화되고 운영되는 방식에 대한 명확한 설명서가 부족하여 벤치마크가 위험의 뉘앙스를 정확하게 포착하는지 여부를 평가하기가 어려울 수 있습니다. 이러한 제한으로 인해 실제 안전 시나리오에서 모델 성능을 과대 평가하거나 과소 평가할 수 있습니다.

언어 모델의 성능 벤치마크

성능 메트릭은 매 트레일 사이에 1시간 간격으로 매일 전송되는 24개의 트레일(트레일당 두 개의 요청)을 기반으로 14일 동안 집계로 계산됩니다. 모델 엔드포인트에 대한 각 요청에 다음 기본 매개 변수가 사용됩니다.

매개 변수 가치 적용 가능
지역 미국 동부/미국 동부2 서버리스 API 배포Azure OpenAI
TPM(분당 토큰) 속도 제한 비추론 모델의 경우 30k(Azure OpenAI 기반 180RPM) 및 추론 모델의 경우 100k
N/A(서버리스 API 배포)
Azure OpenAI 모델의 경우 배포 유형(서버리스 API, 전역, 글로벌 표준 등)에 따라 속도 제한 범위가 있는 사용자가 선택할 수 있습니다.
서버리스 API 배포의 경우 이 설정은 추상화됩니다.
요청 수 1시간당 1개 트레일에 2개의 요청(하루 24개 트레일) 서버리스 API 배포, Azure OpenAI
트레일/런 수 하루 24개 트레일, 336회 달리기로 14일 서버리스 API 배포, Azure OpenAI
프롬프트/컨텍스트 길이 보통 길이 서버리스 API 배포, Azure OpenAI
처리된 토큰 수(보통) 입력 토큰 대비 출력 토큰의 비율이 80:20입니다, 즉 800개의 입력 토큰에 대해 200개의 출력 토큰입니다. 서버리스 API 배포, Azure OpenAI
동시 요청 수 하나(요청이 차례로 순차적으로 전송됨) 서버리스 API 배포, Azure OpenAI
데이터 가상(정적 텍스트에서 준비된 입력 프롬프트) 서버리스 API 배포, Azure OpenAI
지역 미국 동부/미국 동부2 서버리스 API 배포 및 Azure OpenAI
배포 유형 서버리스 API Azure OpenAI에만 적용
스트리밍 진실 서버리스 API 배포 및 Azure OpenAI에 적용됩니다. 관리형 컴퓨팅을 통해 배포된 모델 또는 스트리밍이 지원되지 않는 엔드포인트의 경우 TTFT는 대기 시간 메트릭의 P50으로 표시됩니다.
재고 관리 번호 (SKU) Standard_NC24ads_A100_v4(24코어, 220GB RAM, 64GB 스토리지) Managed Compute에만 적용됩니다(비용 및 성능 메트릭을 예측하기 위해).

LLM 및 SLLM의 성능은 다음 메트릭에서 평가됩니다.

메트릭 설명
대기 시간 평균 요청을 처리하는 데 걸린 평균 시간(초)으로, 여러 요청을 통해 계산됩니다. 이 메트릭을 계산하기 위해 2주 동안 매시간 엔드포인트에 요청을 보내고 평균을 계산합니다.
대기 시간 P50 대기 시간의 50번째 백분위수 값(중앙값)(요청 간에 소요된 시간 및 성공적인 코드로 전체 응답을 수신하는 경우). 예를 들어 엔드포인트에 요청을 보내면 요청의 50개% 'x' 초 안에 완료되고 'x'는 대기 시간 측정값입니다.
대기 시간 P90 대기 시간의 90번째 백분위수 값입니다(요청 간에 소요된 시간과 성공적인 코드로 전체 응답을 수신하는 경우). 예를 들어, 엔드포인트에 요청을 보내면 요청의 90%가 'x'초 내에 완료되며, 'x'는 대기 시간 측정값입니다.
대기 시간 P95 대기 시간의 95번째 백분위수 값입니다(요청 간에 소요된 시간 및 성공적인 코드로 전체 응답을 수신하는 경우). 예를 들어, 엔드포인트에 요청을 보내면 요청의 95%가 'x'초 안에 완료됩니다. 여기서 'x'는 대기 시간 측정값입니다.
지연 시간 P99 대기 시간의 99번째 백분위수 값입니다(요청 간에 소요된 시간과 성공적인 코드로 전체 응답을 수신하는 경우). 예를 들어 엔드포인트에 요청을 보내면 요청의 99개% 'x' 초 안에 완료되고 'x'는 대기 시간 측정값입니다.
처리량 GTPS GTPS(초당 생성된 토큰)는 요청이 엔드포인트로 전송되는 시점부터 초당 생성되는 출력 토큰의 수입니다.
처리량 TTPS TTPS(초당 총 토큰 수)는 입력 프롬프트와 생성된 출력 토큰을 포함하여 초당 처리되는 총 토큰 수입니다. 스트리밍을 지원하지 않는 모델의 경우 ttft(Time to First 토큰)는 P50 대기 시간 값(응답을 받는 데 걸린 시간)을 나타냅니다.
대기 시간 TTFT TTFT(첫 번째 토큰에 대한 총 시간)는 스트리밍을 사용할 때 엔드포인트에서 반환되는 응답의 첫 번째 토큰에 걸리는 시간입니다.
토큰 간 시간 이 메트릭은 받은 토큰 사이의 시간입니다.

또한 Azure AI는 다음과 같이 대기 시간 및 처리량에 대한 성능 인덱스를 표시합니다.

인덱스 설명
대기 시간 인덱스 첫 번째 토큰에 도달하기까지의 평균 시간입니다. 값이 낮을수록 좋습니다.
처리량 인덱스 초당 평균 생성된 토큰입니다. 값이 높을수록 좋습니다.

대기 시간 또는 처리량과 같은 성능 메트릭의 경우 첫 번째 토큰에 대한 시간과 초당 생성된 토큰은 모델의 일반적인 성능 및 동작에 대한 전반적인 감각을 향상합니다. 정기적인 주기에 따라 성능 번호를 새로 고칩니다.

언어 모델의 비용 벤치마크

비용 계산은 Azure AI 플랫폼에서 호스트되는 LLM 또는 SLM 모델 엔드포인트를 사용하기 위한 추정치입니다. Azure AI는 서버리스 API 배포 및 Azure OpenAI 모델의 비용 표시를 지원합니다. 이러한 비용은 변경될 수 있으므로 정기적으로 비용 계산을 새로 고칩니다.

LLM 및 SLLM의 비용은 다음 메트릭에서 평가됩니다.

메트릭 설명
입력 토큰당 비용 1백만 개의 입력 토큰에 대한 서버리스 API 배포 비용
출력 토큰당 비용 1백만 개의 출력 토큰에 대한 서버리스 API 배포 비용
예상 비용 입력 토큰당 비용 및 출력 토큰당 비용의 합계에 대한 비용이며 비율은 3:1입니다.

또한 Azure AI는 다음과 같이 비용 인덱스를 표시합니다.

인덱스 설명
비용 인덱스 예상 비용입니다. 값이 낮을수록 좋습니다.

임베딩 모델의 품질 기준

포함 모델의 품질 인덱스는 정보 검색, 문서 클러스터링 및 요약 작업을 대상으로 하는 포괄적인 서버리스 API 벤치마크 데이터 세트 집합의 평균 정확도 점수로 정의됩니다.

각 데이터 세트와 관련된 정확도 점수 정의에 대한 자세한 내용을 참조하세요.

메트릭 설명
정확성 정확도는 처리된 총 예측 수 중 올바른 예측의 비율입니다.
F1 점수 F1 점수는 정밀도 및 재현율의 가중 평균이며, 가장 좋은 값은 1(완벽한 정밀도 및 재현율)이며 최악의 경우는 0입니다.
평균 정밀도(MAP) MAP는 순위 및 추천 시스템의 품질을 평가합니다. 제안된 항목의 관련성과 시스템이 더 관련성이 큰 항목을 맨 위에 배치하는 데 얼마나 좋은지 모두 측정합니다. 값의 범위는 0에서 1까지이며 MAP이 높을수록 시스템에서 관련 항목을 목록에 더 높게 배치할 수 있습니다.
정규화된 할인 누적 이득(NDCG) NDCG는 관련성에 따라 항목을 정렬하는 기계 학습 알고리즘의 기능을 평가합니다. 순위를 모든 관련 항목이 목록 맨 위에 있는 이상적인 순서와 비교합니다. 여기서 k는 순위 품질을 평가하는 동안 목록 길이입니다. 벤치마크에서 k=10은 메트릭 ndcg_at_10으로 표시됩니다. 즉, 상위 10개 항목을 살펴봅니다.
정밀성 정밀도는 특정 클래스의 인스턴스를 올바르게 식별하는 모델의 기능을 측정합니다. 정밀도는 대상 클래스를 예측할 때 기계 학습 모델이 올바른 빈도를 보여 줍니다.
스피어맨 상관 관계 코사인 유사성을 기반으로 하는 Spearman 상관 관계는 먼저 변수 간의 코사인 유사성을 계산한 다음, 이러한 점수의 순위를 지정하고 순위를 사용하여 Spearman 상관 관계를 계산하여 계산됩니다.
V 측정값 V 측정값은 클러스터링의 품질을 평가하는 데 사용되는 메트릭입니다. V 측정값은 동질성과 완전성의 조화 평균으로 계산되어 의미 있는 점수를 위해 둘 사이의 균형을 보장합니다. 가능한 점수는 0에서 1 사이이며, 1점은 완벽한 레이블링을 의미합니다.

점수 계산

개별 점수

벤치마크 결과는 언어 모델 평가에 일반적으로 사용되는 공용 데이터 세트에서 비롯됩니다. 대부분의 경우 데이터는 데이터의 작성자 또는 큐레이터가 유지 관리하는 GitHub 리포지토리에서 호스팅됩니다. Azure AI 평가 파이프라인은 원래 원본에서 데이터를 다운로드하고, 각 예제 행에서 프롬프트를 추출하고, 모델 응답을 생성한 다음, 관련 정확도 메트릭을 계산합니다.

프롬프트 생성은 데이터 세트 및 업계 표준을 소개하는 문서에서 지정한 대로 각 데이터 세트에 대한 모범 사례를 따릅니다. 대부분의 경우 각 프롬프트에는 여러 이 포함됩니다. 즉, 모델을 작업에 맞추어 준비시키기 위한 완전한 질문과 답변의 몇 가지 예가 있습니다. 평가 파이프라인은 평가에서 제외된 데이터의 일부에서 질문과 답변을 샘플링하여 샷을 만듭니다.