Azure AI Foundry 포털 평가 페이지를 사용하여 결과를 시각화하고 평가할 수 있습니다. 이를 제어 센터로 사용하여 배포 요구 사항에 적합한 AI 모델을 최적화, 문제 해결 및 선택할 수 있습니다. 포털은 Azure AI Foundry 프로젝트에서 데이터 기반 의사 결정 및 성능 향상에 도움이 될 수 있습니다. 흐름, 플레이그라운드 빠른 테스트 세션, 평가 제출 UI 및 SDK를 비롯한 다양한 원본의 결과에 액세스하고 해석할 수 있습니다. 워크플로 및 기본 설정에 가장 적합한 방식으로 결과와 상호 작용할 수 있는 유연성이 있습니다.
평가 결과를 시각화한 후에는 철저한 검사를 수행할 수 있습니다. 개별 결과를 보고 여러 평가 실행에서 이러한 결과를 비교할 수 있습니다. 추세, 패턴 및 불일치를 식별할 수 있으므로 다양한 조건에서 AI 시스템의 성능에 대한 귀중한 인사이트를 얻을 수 있습니다.
이 문서에서는 다음 방법을 알아봅니다.
- 평가 결과 및 메트릭을 봅니다.
- 평가 결과를 비교합니다.
- 성능을 향상시킵니다.
평가 결과 찾기
평가를 제출한 후 실행 목록 내에서 제출된 평가 실행을 찾을 수 있습니다. 평가 페이지로 이동합니다.
실행 목록 내에서 평가 실행을 모니터링하거나 관리할 수 있습니다. 열 편집기를 사용하여 열을 유연하게 수정하고 필터를 구현할 수 있으며 고유한 버전의 실행 목록을 사용자 지정하고 만들 수 있습니다. 또한 실행에서 집계된 평가 메트릭을 신속하게 검토하고 빠른 비교를 수행할 수 있습니다.
팁 (조언)
모든 버전의 promptflow-evals
SDK 또는 azure-ai-evaluation
버전 1.0.0b1, 1.0.0b2, 1.0.0b3을 사용하여 평가 실행을 볼 수 있습니다. 모든 실행 표시 토글을 켜서 실행을 찾습니다.
평가 메트릭이 파생되는 방식을 자세히 이해하려면 메트릭에 대한 자세한 정보 옵션을 선택하여 포괄적인 설명에 액세스할 수 있습니다. 이 자세한 리소스는 평가 프로세스에 사용되는 메트릭의 계산 및 해석에 대한 인사이트를 제공합니다.
평가 실행 테이블을 검토할 때 실행 세부 정보 페이지로 이동되는 특정 테이블을 선택할 수 있습니다. 여기에서 테스트 데이터 세트, 작업 유형, 프롬프트, 온도 등과 같은 평가 세부 정보를 포함하여 포괄적인 정보에 액세스할 수 있습니다. 각 데이터 샘플과 연결된 메트릭을 볼 수도 있습니다. 메트릭 대시보드는 테스트된 각 메트릭의 데이터 세트에 대한 통과률을 시각적으로 표현합니다.
주의
이전에 모델 배포를 관리하고 oai.azure.com
를 사용하여 평가를 실행한 후 Azure AI Foundry 개발자 플랫폼에 온보딩한 사용자는 ai.azure.com
을 사용할 때 다음과 같은 제한 사항이 있습니다.
- 이러한 사용자는 Azure OpenAI API를 통해 생성된 평가를 볼 수 없습니다. 이러한 평가를 보려면 그들은
oai.azure.com
로 돌아가야 합니다. - 이러한 사용자는 Azure OpenAI API를 사용하여 Azure AI Foundry 내에서 평가를 실행할 수 없습니다.
oai.azure.com
을 대신 이 작업에 계속 사용해야 합니다. 그러나 데이터 세트 평가 생성 옵션에서 Azure AI Foundry(ai.azure.com
)에서 직접 사용할 수 있는 Azure OpenAI 평가기를 사용할 수 있습니다. 배포가 Azure OpenAI에서 Azure AI Foundry로 마이그레이션되는 경우에는 미세 조정된 모델 평가 옵션이 지원되지 않습니다.
데이터 세트 업로드 및 사용자 고유의 스토리지 가져오기 시나리오의 경우 몇 가지 구성 요구 사항이 있습니다.
- 계정 인증은 Microsoft Entra ID여야 합니다.
- 스토리지를 계정에 추가해야 합니다. 프로젝트에 추가하면 서비스 오류가 발생합니다.
- 사용자는 Azure Portal에서 액세스 제어를 통해 스토리지 계정에 프로젝트를 추가해야 합니다.
Azure OpenAI 허브에서 OpenAI 평가 등급자를 사용하여 평가를 만드는 방법에 대한 자세한 내용은 Azure AI Foundry 모델 평가에서 Azure OpenAI를 사용하는 방법을 참조하세요.
메트릭 대시보드
메트릭 대시보드 섹션에서 집계 보기는 AI 품질(AI 지원),위험 및 안전성(미리 보기), NLP(AI 품질) 및 사용자 지정(해당하는 경우)을 포함하는 메트릭으로 세분화됩니다. 결과는 평가가 생성될 때 선택한 조건에 따라 통과/실패의 백분율로 측정됩니다. 메트릭 정의 및 계산 방법에 대한 자세한 내용은 평가자가란?을 참조하세요.
- AI 품질(AI 지원) 메트릭의 경우 결과는 각 메트릭의 모든 점수에서 평균을 계산하여 집계됩니다. Groundedness Pro 메트릭을 사용하여 계산하는 경우, 출력은 이진 형태이며 집계된 점수는 통과율입니다. 이 통과율은
(#trues / #instances) × 100
을 통해 계산됩니다. - 위험 및 안전성(미리 보기) 메트릭의 경우 결과는 각 메트릭에 대한 결함 비율을 계산하여 집계됩니다.
- NLP(AI 품질) 메트릭의 경우 결과는 각 메트릭의 모든 점수에서 평균을 계산하여 집계됩니다.
자세한 메트릭 결과 테이블
데이터 섹션 내에서 각 개별 데이터 샘플 및 관련 메트릭을 포괄적으로 검사할 수 있습니다. 여기서는 생성된 출력과 해당 평가 메트릭 점수를 면밀히 조사할 수 있습니다. 테스트가 실행되었을 때 통과된 성적에 따라 통과되었는지도 확인할 수 있습니다. 이 수준의 세부 정보를 통해 데이터 기반 결정을 내리고 특정 작업을 수행하여 모델의 성능을 향상시킬 수 있습니다.
평가 메트릭을 기반으로 하는 몇 가지 잠재적 작업 항목에는 다음이 포함될 수 있습니다.
- 패턴 인식: 숫자 값 및 메트릭을 필터링하여 점수가 낮은 샘플로 드릴다운할 수 있습니다. 이러한 샘플을 조사하여 모델의 응답에서 반복되는 패턴 또는 문제를 식별합니다. 예를 들어 모델이 특정 항목에서 콘텐츠를 생성할 때 낮은 점수가 자주 발생하는 것을 알 수 있습니다.
- 모델 구체화: 점수가 낮은 샘플의 인사이트를 사용하여 시스템 프롬프트 명령을 개선하거나 모델을 미세 조정합니다. 일관성 또는 관련성과 같은 일관된 문제가 관찰되는 경우 모델의 학습 데이터 또는 매개 변수를 적절하게 조정할 수도 있습니다.
- 열 사용자 지정: 열 편집기를 사용하여 평가 목표와 가장 관련된 메트릭 및 데이터에 중점을 두고 테이블의 사용자 지정된 보기를 만들 수 있습니다. 열 편집기를 사용하면 분석을 간소화하고 추세를 보다 효과적으로 파악할 수 있습니다.
- 키워드 검색: 검색 상자를 사용하여 생성된 출력에서 특정 단어 또는 구를 찾고 특정 토픽 또는 키워드와 관련된 문제 또는 패턴을 정확히 파악할 수 있습니다. 그런 다음 그러한 사항을 구체적으로 해결할 수 있습니다.
메트릭 세부 정보 테이블은 모델 개선 노력을 안내할 수 있는 풍부한 데이터를 제공합니다. 패턴을 인식하고, 효율적인 분석을 위해 보기를 사용자 지정하고, 식별된 문제에 따라 모델을 구체화할 수 있습니다.
다음은 질문 답변 시나리오에 대한 메트릭 결과의 몇 가지 예입니다.
일부 평가에는 하위 평가에서 결과의 JSON을 볼 수 있는 하위 평가기가 있습니다. 결과를 보려면 JSON에서 보기를 선택합니다.
JSON 미리 보기에서 JSON 보기:
다음은 대화 시나리오에 대한 메트릭 결과의 몇 가지 예입니다. 다중 턴 대화 전체에서 결과를 검토하려면 대화 열에서턴당 평가 결과 보기를 선택합니다.
턴당 평가 결과 보기를 선택하면 다음 화면이 표시됩니다.
다중 모달 시나리오(텍스트 및 이미지)의 안전성 평가를 위해 자세한 메트릭 결과 테이블의 입력 및 출력에서 이미지를 검토하여 평가 결과를 더 잘 이해할 수 있습니다. 다중 모달 평가는 현재 대화 시나리오에 대해서만 지원되므로 턴당 평가 결과 보기를 선택하여 각 턴에 대한 입력 및 출력을 검사할 수 있습니다.
이미지를 선택하여 확장하고 봅니다. 기본적으로 모든 이미지는 잠재적으로 유해한 콘텐츠로부터 보호하기 위해 흐리게 표시됩니다. 이미지를 명확하게 보려면 흐림 효과 확인 토글을 켭니다.
평가 결과는 여러 대상 그룹에서 서로 다른 의미가 있을 수 있습니다. 예를 들어 안전 평가는 특정 폭력 콘텐츠가 얼마나 심각한지에 대한 인간 검토자의 정의에 맞지 않을 수 있는 폭력적인 콘텐츠의 심각도가 낮은 레이블을 생성할 수 있습니다. 평가 작성 시 설정된 통과 기준은 통과 여부를 결정합니다. 평가 결과를 검토할 때 엄지 손가락 위로 또는 엄지 손가락 아래로 아이콘을 선택할 수 있는 휴먼 피드백 열이 있습니다. 이 열을 사용하여 사용자 검토자가 승인하거나 잘못된 것으로 플래그가 지정된 인스턴스를 기록할 수 있습니다.
각 콘텐츠 위험 메트릭을 이해하려면 보고서 섹션으로 돌아가 메트릭 정의를 보거나 메트릭 대시보드 섹션에서 테스트를 검토할 수 있습니다.
실행에 문제가 있는 경우 로그를 사용하여 평가 실행을 디버그할 수도 있습니다. 다음은 평가 실행을 디버그하는 데 사용할 수 있는 로그의 몇 가지 예입니다.
프롬프트 흐름을 평가하는 경우 흐름에서 보기 단추를 선택하여 평가된 흐름 페이지로 이동하여 흐름을 업데이트할 수 있습니다. 예를 들어 메타 프롬프트 지침을 추가하거나 일부 매개 변수를 변경하고 다시 평가하면 됩니다.
평가 결과 비교
둘 이상의 실행을 포괄적으로 비교하기 위해 원하는 실행을 선택하고 프로세스를 시작할 수 있습니다. 비교 단추를 선택하거나, 일반적인 세부 대시보드 보기의 경우 대시보드 보기로 전환 단추를 선택합니다. 여러 실행의 성능과 결과를 분석하고 대조할 수 있으므로 보다 정보에 입각한 의사 결정 및 목표 개선을 수행할 수 있습니다.
대시보드 보기에서는 메트릭 분포 비교 차트 와 비교 테이블이라는 두 가지 중요한 구성 요소에 액세스할 수 있습니다. 이러한 도구를 사용하여 선택한 평가 실행의 병렬 분석을 수행할 수 있습니다. 각 데이터 샘플의 다양한 측면을 쉽고 정밀하게 비교할 수 있습니다.
비고
기본적으로 이전 평가 실행에는 열 간에 일치하는 행이 있습니다. 그러나 새로 실행된 평가는 계산을 만드는 동안 일치하는 열을 갖도록 의도적으로 구성해야 합니다. 비교할 모든 평가에서 동일한 이름이 조건 이름 값으로 사용되는지 확인합니다.
다음 스크린샷은 필드가 동일한 경우의 환경을 보여 줍니다.
사용자가 평가를 만드는 데 동일한 조건 이름을 사용하지 않는 경우 필드가 일치하지 않으므로 플랫폼이 결과를 직접 비교할 수 없습니다.
비교 테이블 내에서 참조 지점으로 사용하려는 특정 실행을 마우스로 가리키고 기준선으로 설정하여 비교 기준을 설정할 수 있습니다. 델타 표시 토글을 활성화하여 기준 실행과 숫자 값에 대한 다른 실행 간의 차이를 쉽게 시각화할 수도 있습니다. 또한 테이블이 선택한 실행 간의 다른 행만 표시하도록 차이만 표시 토글을 선택하여 구별되는 변화를 식별할 수 있습니다.
이러한 비교 기능을 사용하여 적절한 버전을 선택하도록 정보에 입각한 결정을 내릴 수 있습니다.
- 기준 비교: 기준 실행을 설정하여 다른 실행을 비교할 참조 지점을 식별할 수 있습니다. 각 실행이 선택한 표준에서 어떻게 벗어나는지 확인할 수 있습니다.
- 숫자 값 평가: 델타 표시 옵션을 사용하도록 설정하면 기준선과 다른 실행 간의 차이 범위를 이해하는 데 도움이 됩니다. 이 정보는 특정 평가 메트릭 측면에서 다양한 실행이 수행되는 방식을 평가하는 데 도움이 될 수 있습니다.
- 차이 격리: 차이만 표시 기능은 실행의 차이점 있는 부분을 강조하여 분석을 더 효율적으로 할 수 있도록 합니다. 이 정보는 개선 또는 조정이 필요한 위치를 정확히 파악하는 데 중요한 역할을 할 수 있습니다.
이러한 비교 도구를 효과적으로 사용하면 정의된 기준 및 메트릭과 관련하여 최상의 성능을 나타내는 모델 또는 시스템의 버전을 식별할 수 있으므로 궁극적으로 애플리케이션에 가장 적합한 옵션을 선택하는 데 도움이 됩니다.
탈옥 취약성 측정
탈옥 취약성 평가는 AI 지원 메트릭이 아닌 비교 측정값입니다. 서로 다른 두 가지 레드 팀 데이터 세트에 대한 평가를 실행합니다. 즉, 기본 적대 테스트 데이터 세트와 첫 번째 탈옥 주입이 포함된 동일한 적대적 테스트 데이터 세트입니다. 악의적인 데이터 시뮬레이터를 사용하여 탈옥 주입 유무에 관계없이 데이터 세트를 생성할 수 있습니다. 실행을 구성할 때 조건 이름 값이 각 평가 메트릭에 대해 동일한지 확인합니다.
애플리케이션이 탈옥에 취약한지 이해하려면 기준을 지정한 다음 비교 테이블에서 탈옥 결함율 토글을 켤 수 있습니다. 탈옥 결함 비율은 테스트 데이터 세트에서 탈옥 주입이 기준 데이터 세트 전체 크기와 비교하여 콘텐츠 위험 메트릭의 심각도 점수를 더 높게 생성한 인스턴스의 백분율입니다. 비교 대시보드에서 여러 평가를 선택하여 결함율의 차이를 볼 수 있습니다.
팁 (조언)
탈옥 결함률은 데이터 세트들 간의 크기가 같고 모든 실행에 콘텐츠 위험과 안전 메트릭이 포함된 경우에만 비교적으로 계산됩니다.
기본 제공 평가 메트릭 이해
기본 제공 메트릭을 이해하는 것은 AI 애플리케이션의 성능과 효율성을 평가하는 데 매우 중요합니다. 이러한 주요 측정 도구에 대한 인사이트를 확보하면 결과를 해석하고, 정보에 입각한 결정을 내리고, 애플리케이션을 미세 조정하여 최적의 결과를 얻을 수 있습니다. 다음 측면에 대한 자세한 내용은 평가 및 모니터링 메트릭 을 참조하세요.
- 각 메트릭의 중요성
- 계산 방법
- 모델의 다양한 측면을 평가하는 역할
- 결과를 해석하여 데이터 기반 향상을 만드는 방법
관련 콘텐츠
생성 AI 애플리케이션을 평가하는 방법에 대해 자세히 알아봅니다.
피해 완화 기술에 대해 자세히 알아보세요.