중요합니다
이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
오늘날의 AI 기반 세계에서 GenAIOps(생성 AI Operations)는 조직이 지능형 시스템을 빌드하고 배포하는 방법에 혁명을 일으키고 있습니다. 기업이 점점 더 AI를 사용하여 의사 결정을 혁신하고, 고객 경험을 향상시키고, 혁신을 촉진함에 따라 강력한 평가 프레임워크라는 한 가지 요소가 가장 중요합니다. 평가는 단순히 검사점이 아닙니다. 이는 AI 애플리케이션에 대한 신뢰의 기반입니다. 엄격한 평가 없이 AI 시스템은 다음과 같은 콘텐츠를 생성할 수 있습니다.
- 조작되었거나 현실과 동떨어진
- 사용자 요구 사항과 관련이 없거나 일관되지 않습니다.
- 콘텐츠 위험 및 스테레오타입을 영속시키는 데 유해
- 잘못된 정보를 퍼뜨리면 위험합니다.
- 보안 악용에 취약
평가자가 필수적으로 되는 곳입니다. 이러한 특수 도구는 AI 출력의 위험 빈도와 심각도를 모두 측정하여 팀이 올바른 모델 선택에서 프로덕션 성능, 품질 및 안전 모니터링에 이르기까지 전체 AI 개발 과정에서 품질, 안전 및 보안 문제를 체계적으로 해결할 수 있도록 합니다.
평가자가란?
평가자는 AI 응답의 품질, 안전성 및 안정성을 측정하는 특수 도구입니다. 팀은 AI 개발 수명 주기 전반에 걸쳐 체계적인 평가를 구현하여 사용자에게 영향을 주기 전에 잠재적인 문제를 식별하고 해결할 수 있습니다. 지원되는 다음 평가자는 다양한 AI 애플리케이션 유형 및 문제에 걸쳐 포괄적인 평가 기능을 제공합니다.
일반적인 용도
평가기 | 목적 | 입력 |
---|---|---|
일관성 | 논리적 일관성 및 응답 흐름을 측정합니다. | 쿼리, 응답 |
유창성 | 자연어 품질 및 가독성을 측정합니다. | 응답 |
품질 보증 (QA) | 질문 답변의 다양한 품질 측면을 포괄적으로 측정합니다. | 쿼리, 컨텍스트, 응답, 지상 진실 |
자세한 내용은 범용 평가자를 참조하세요.
텍스트 유사성
평가기 | 목적 | 입력 |
---|---|---|
유사성 | AI 지원 텍스트 유사성 측정. | 쿼리, 컨텍스트, 접지 진실 |
F1 점수 | 토큰 중첩의 정밀도와 재현율의 조화 평균은 응답과 참값 간에 측정됩니다. | 응답, 지상 진실 |
블루 | 번역 품질에 대한 Bilingual Evaluation Understudy 점수는 응답과 참값 간 n-gram의 중첩을 측정합니다. | 응답, 지상 진실 |
GLEU | 문장 수준 평가에 대한 Google-BLEU 변형은 응답과 참값 간 n-gram의 중첩을 측정합니다. | 응답, 지상 진실 |
ROUGE | Recall-Oriented Understudy for Gisting Evaluation은 응답과 참값 간 n-gram의 중첩을 측정합니다. | 응답, 지상 진실 |
METEOR | Metric for Evaluation of Translation with Explicit Ordering은 응답과 참값 간 n-gram의 중첩을 측정합니다. | 응답, 지상 진실 |
자세한 내용은 텍스트 유사성 계산기를 참조하세요.
RAG(검색 보강된 생성)
평가기 | 목적 | 입력 |
---|---|---|
검색 | 시스템이 관련 정보를 얼마나 효과적으로 검색하는지 측정합니다. | 쿼리, 컨텍스트 |
문서 검색 | 참된 정보를 바탕으로 검색 결과의 정확성을 측정합니다. | 지상 진리, 검색된 문서, |
안정감 | 검색된 컨텍스트와 관련하여 응답의 일관성을 측정합니다. | 쿼리(선택 사항), 컨텍스트, 응답 |
그라운드니스 프로 | 응답이 검색된 컨텍스트와 일치하는지 여부를 측정합니다. | 쿼리, 컨텍스트, 응답 |
연관성 | 쿼리와 관련하여 응답이 얼마나 관련성이 있는지 측정합니다. | 쿼리, 응답 |
응답 완성도 | 지상 진실과 관련하여 응답이 완료되는 정도를 측정합니다(중요한 정보가 누락되지 않음). | 응답, 지상 진실 |
자세한 내용은 RAG(검색 보강 세대) 평가기를 참조하세요.
안전 및 보안(미리 보기)
평가기 | 목적 | 입력 |
---|---|---|
증오와 불공정 | 편견, 차별 또는 증오 콘텐츠를 식별합니다. | 쿼리, 응답 |
성 관련 | 부적절한 성적 콘텐츠를 식별합니다. | 쿼리, 응답 |
폭력 | 폭력적인 콘텐츠 또는 선동을 감지합니다. | 쿼리, 응답 |
자해 | 자해를 홍보하거나 설명하는 콘텐츠를 검색합니다. | 쿼리, 응답 |
콘텐츠 안전 | 다양한 안전 문제에 대한 포괄적인 평가입니다. | 쿼리, 응답 |
보호된 재질 | 저작권이 있거나 보호된 콘텐츠의 무단 사용을 검색합니다. | 쿼리, 응답 |
코드 취약성 | 생성된 코드의 보안 문제를 식별합니다. | 쿼리, 응답 |
근거 없는 특성 | 사용자 상호 작용에서 유추된 조작되거나 환각된 정보를 검색합니다. | 쿼리, 컨텍스트, 응답 |
자세한 내용은 위험 및 안전 평가자를 참조하세요.
에이전트(미리 보기)
평가기 | 목적 | 입력 |
---|---|---|
의도 확인 | 에이전트가 사용자 의도를 식별하고 해결하는 방법을 정확하게 측정합니다. | 쿼리, 응답 |
작업 준수 | 에이전트가 식별된 작업을 얼마나 잘 수행하는지 측정합니다. | 쿼리, 응답, 도구 정의(선택 사항) |
도구 호출 정확도 | 에이전트가 올바른 도구를 얼마나 잘 선택하고 호출하는지 측정합니다. | 쿼리, 응답 또는 도구 호출, 도구 정의 |
자세한 내용은 에이전트 평가자를 참조하세요.
Azure OpenAI 채점자(미리 보기)
평가기 | 목적 | 입력 |
---|---|---|
모델 라벨러 | 사용자 지정 지침 및 레이블을 사용하여 콘텐츠를 분류합니다. | 쿼리, 응답, 지상 진실 |
문자열 검사기 | 유연한 텍스트 유효성 검사 및 패턴 일치를 수행합니다. | 응답 |
텍스트 유사성 | 텍스트의 품질을 평가하거나 의미 체계의 근접성을 결정합니다. | 응답, 지상 진실 |
모델 스코어러 | 사용자 지정 지침에 따라 콘텐츠의 숫자 점수(사용자 지정 범위)를 생성합니다. | 쿼리, 응답, 지상 진실 |
자세한 내용은 Azure OpenAI Grader를 참조하세요.
개발 수명 주기의 평가자
개발 수명 주기 내내 이러한 평가자를 전략적으로 사용하면 팀은 잠재적인 위험을 최소화하면서 사용자 요구를 충족하는 보다 안정적이고 안전하며 효과적인 AI 애플리케이션을 빌드할 수 있습니다.
GenAIOps 평가의 세 단계
기본 모델 선택
애플리케이션을 빌드하기 전에 올바른 기반을 선택해야 합니다. 이 초기 평가는 다음을 기반으로 다양한 모델을 비교하는 데 도움이 됩니다.
- 품질 및 정확도: 모델의 응답은 얼마나 관련성이 있고 일관적입니까?
- 작업 성능: 모델이 특정 사용 사례를 효율적으로 처리하나요?
- 윤리적 고려 사항: 모델이 유해한 편견에서 자유롭습니까?
- 안전 프로필: 안전하지 않은 콘텐츠를 생성할 위험은 무엇인가요?
사용 가능한 도구: 공용 데이터 세트 또는 사용자 고유의 데이터에서 모델을 비교하기 위한 Azure AI Foundry 벤치마크 와 특정 모델 엔드포인트를 테스트하기 위한 Azure AI 평가 SDK.
사전 프로덕션 평가
기본 모델을 선택한 후 다음 단계는 AI 기반 챗봇, RAG(검색 보강 세대) 애플리케이션, 에이전트 AI 애플리케이션 또는 기타 생성 AI 도구와 같은 AI 애플리케이션을 개발하는 것입니다. 개발이 완료되면 사전 프로덕션 평가가 시작됩니다. 프로덕션 환경에 배포하기 전에 모델이 실제 사용 준비가 되었는지 확인하기 위해 철저한 테스트가 필요합니다.
사전 프로덕션 평가에는 다음이 포함됩니다.
- 평가 데이터 세트를 사용하여 테스트: 이러한 데이터 세트는 실제 사용자 상호 작용을 시뮬레이션하여 AI 애플리케이션이 예상대로 수행되도록 합니다.
- 에지 사례 식별: AI 애플리케이션의 응답 품질이 저하되거나 바람직하지 않은 출력을 생성할 수 있는 시나리오를 찾습니다.
- 견고성 평가: 모델이 품질이나 안전성을 크게 떨어뜨리지 않고 다양한 입력 변형을 처리할 수 있는지 확인합니다.
- 주요 메트릭 측정: 응답 근거, 관련성 및 안전성과 같은 메트릭을 평가하여 프로덕션 준비 상태를 확인합니다.
사전 프로덕션 단계는 최종 품질 검사 역할을 하여 원하는 성능 또는 안전 표준을 충족하지 않는 AI 애플리케이션을 배포할 위험을 줄입니다.
평가 도구 및 접근 방식:
- 사용자 고유의 데이터 가져오기: 세대 품질, 안전성 또는 사용자 지정 평가자를 비롯한 지원되는 평가자와 함께 자체 평가 데이터를 사용하여 사전 프로덕션 환경에서 AI 애플리케이션을 평가하고 Azure AI Foundry 포털을 통해 결과를 볼 수 있습니다. Azure AI Foundry의 평가 마법사 또는 생성 품질, 안전성 또는 사용자 지정 평가자를 포함하여 Azure AI Evaluation SDK의 지원되는 평가자를 사용하고 Azure AI Foundry 포털을 통해 결과를 확인합니다.
- 시뮬레이터 및 AI 레드 팀 에이전트(미리 보기): 평가 데이터(테스트 데이터)가 없는 경우 Azure AI Evaluation SDK의 시뮬레이터 는 토픽 관련 쿼리 또는 악의적 쿼리를 생성하여 도움이 될 수 있습니다. 이러한 시뮬레이터는 상황에 적합한 쿼리 또는 공격과 유사한 쿼리(에지 사례)에 대한 모델의 응답을 테스트합니다.
- 악의적인 시뮬레이터 는 잠재적인 안전 위험 또는 탈옥 시도와 같은 보안 공격을 모방하는 정적 쿼리를 삽입하여 제한을 식별하고 예기치 않은 조건에 대한 모델을 준비하는 데 도움을 줍니다.
- 상황에 맞는 시뮬레이터는 응답 품질을 테스트하기 위해 사용자가 기대하는 일반적인 관련 대화를 생성합니다. 상황에 맞는 시뮬레이터를 사용하면 생성된 응답의 접지성, 관련성, 일관성 및 유창성과 같은 메트릭을 평가할 수 있습니다.
- AI 레드 팀 에이전트(미리 보기) 는 Microsoft의 Python 위험 식별 도구 또는 PyRIT용 개방형 프레임워크를 사용하여 광범위한 안전 및 보안 공격을 사용하여 AI 시스템에 대한 복잡한 악의적 공격을 시뮬레이션합니다. AI 레드 팀 에이전트를 사용하는 자동화된 검사는 AI 애플리케이션에서 위험을 체계적으로 테스트하여 사전 프로덕션 위험 평가를 향상시킵니다. 이 프로세스에는 실제 배포 전에 모델 응답의 약점을 식별하는 시뮬레이션된 공격 시나리오가 포함됩니다. AI 레드 팀 검색을 실행하면 배포 전에 잠재적인 안전 문제를 감지하고 완화할 수 있습니다. 이 도구는 기존 AI 레드 팀 탐사와 같은 인간이 개입하는 과정과 함께 사용하여 위험 식별을 가속화하고 인간 전문가의 평가를 돕는 데 권장됩니다.
또는 Azure AI Foundry 포털의 평가 위젯 을 사용하여 생성 AI 애플리케이션을 테스트할 수도 있습니다.
만족스러운 결과가 달성되면 AI 애플리케이션을 프로덕션에 배포할 수 있습니다.
프로덕션 후 모니터링
배포 후 지속적인 모니터링은 AI 애플리케이션이 실제 조건에서 품질을 유지하도록 합니다.
- 성능 추적: 주요 메트릭을 정기적으로 측정합니다.
- 인시던트 대응: 유해하거나 부적절한 출력이 발생할 경우 신속한 조치입니다.
효과적인 모니터링은 사용자 신뢰를 유지하는 데 도움이 되며 신속한 문제 해결을 허용합니다.
Azure AI Foundry Observability는 오늘날의 복잡하고 빠르게 진화하는 AI 지형에 필수적인 포괄적인 모니터링 기능을 제공합니다. Azure Monitor Application Insights와 원활하게 통합된 이 솔루션을 사용하면 배포된 AI 애플리케이션을 지속적으로 모니터링하여 프로덕션 환경에서 최적의 성능, 안전성 및 품질을 보장할 수 있습니다. Foundry 관찰성 대시보드는 중요한 메트릭에 대한 실시간 인사이트를 제공하여 팀이 성능 문제, 안전 문제 또는 품질 저하를 신속하게 식별하고 해결할 수 있도록 합니다. 에이전트 기반 애플리케이션의 경우 Foundry는 품질 및 안전 메트릭에 대한 심층적인 가시성을 제공할 수 있는 향상된 연속 평가 기능을 제공하며, 높은 수준의 성능 및 안정성을 유지하면서 AI 애플리케이션의 동적 특성에 적응하는 강력한 모니터링 에코시스템을 만듭니다.
프로덕션 환경에서 AI 애플리케이션의 동작을 지속적으로 모니터링하여 고품질 사용자 환경을 유지하고 표면적인 문제를 신속하게 해결할 수 있습니다.
체계적인 평가를 통한 신뢰 구축
GenAIOps는 수명 주기 내내 AI 애플리케이션을 관리하기 위한 신뢰할 수 있는 프로세스를 설정합니다. 각 단계에서 모델 선택부터 배포 및 그 이후까지 철저한 평가를 구현함으로써 팀은 강력하지만 신뢰할 수 있고 안전한 AI 솔루션을 만들 수 있습니다.
평가 요령집
목적 | 프로세스 | 매개 변수 |
---|---|---|
무엇을 평가하고 있나요? | 관련 평가자 식별 또는 빌드 |
-
품질 및 성능 예시 노트북 - 에이전트 응답 품질 - 안전과 보안 (안전과 보안 샘플 노트북) - 사용자 지정 (사용자 지정 샘플 노트북) |
어떤 데이터를 사용해야 하나요? | 관련 데이터 세트 업로드 또는 생성 |
품질 및 성능을 측정하기 위한 제네릭 시뮬레이터(일반 시뮬레이터 샘플 Notebook) - 안전 및 보안을 측정하기 위한 적대적 시뮬레이터 (적대적 시뮬레이터 샘플 노트북) 자동화된 검사를 실행하여 안전 및 보안 취약성을 평가하기 위한 AI 레드 팀 에이전트(AI 레드 팀 에이전트 샘플 Notebook) |
평가를 수행해야 하는 리소스는 무엇인가요? | 평가 실행 |
-
로컬 실행 - 원격 클라우드 실행 |
내 모델/앱의 성능은 어땠나요? | 결과 분석 | 집계 점수 보기, 세부 정보 보기, 점수 세부 정보, 평가 실행 비교 |
어떻게 개선할 수 있나요? | 모델, 앱 또는 평가자를 변경합니다. | - 평가 결과가 사용자 피드백에 맞지 않는 경우 평가자를 조정합니다. - 평가 결과가 사용자 피드백에 부합하지만 품질/안전 임계값을 충족하지 않는 경우 대상 완화를 적용합니다. 적용 가능한 완화 조치의 예: Azure AI 콘텐츠 안전 |
지역 지원
현재 특정 AI 지원 평가자는 다음 지역에서만 사용할 수 있습니다.
지역 | 증오와 불공정, 성적, 폭력적, 자해, 간접 공격, 코드 취약성, 근거 없는 특성 | 그라운드니스 프로 | 보호 재질 |
---|---|---|---|
미국 동부 2 | 지원됨 | 지원됨 | 지원됨 |
스웨덴 중부 | 지원됨 | 지원됨 | 해당 없음(N/A) |
미국 중북부 | 지원됨 | 해당 없음(N/A) | 해당 없음(N/A) |
프랑스 중부 | 지원됨 | 해당 없음(N/A) | 해당 없음(N/A) |
스위스 서부 | 지원됨 | 해당 없음(N/A) | 해당 없음(N/A) |
가격 책정
위험 및 안전 평가 및 연속 평가와 같은 관찰 기능의 요금은 Azure 가격 책정 페이지에 나열된 대로 사용량에 따라 청구됩니다. 전체 AI 도구 체인 레이블이 있는 탭을 선택하여 평가에 대한 가격책정 세부 정보를 확인합니다.