다음을 통해 공유


평가 메트릭 설명 및 사용 사례 모니터링

이 문서에서는 Azure Machine Learning에서 생성 AI 모델을 모니터링하고 평가할 때 사용되는 메트릭과 생성 AI 모델 모니터링을 사용하기 위한 권장 사례에 대해 알아봅니다.

Important

이 제품은 현재 공개 미리 보기로 제공됩니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며 프로덕션 워크로드에는 사용하지 않는 것이 좋습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

모델 모니터링은 프로덕션에서 모델 성능을 추적하고 데이터 과학 및 운영 관점에서 이를 이해하는 것을 목표로 합니다. 모니터링을 구현하기 위해 Azure Machine Learning은 스트리밍된 데이터에 대한 데이터 분석을 통해 획득한 모니터링 신호를 사용합니다. 각 모니터링 신호에는 하나 이상의 메트릭이 있습니다. 모델 또는 데이터 변칙에 대한 경고를 받기 위해 Azure Machine Learning 또는 Azure Monitor를 통해 이러한 메트릭에 대한 임계값을 설정할 수 있습니다.

접지

근거성은 모델의 생성된 답변이 입력 소스의 정보와 얼마나 잘 일치하는지 평가합니다. 답변은 사용자 정의 참값 원본의 맥락에 대한 클레임으로 확인됩니다. 답변이 참(사실상 정확함)이더라도 원본 텍스트에 대해 확인할 수 없는 경우 근거가 없는 것으로 채점됩니다. 응답은 참값 원본(예: 입력 원본 또는 데이터베이스)에서 "맥락"에 대한 클레임으로 확인된 응답입니다.

  • 사용하는 경우: 애플리케이션이 생성 AI의 학습된 지식의 일부로 포함되지 않은 정보(확인할 수 없는 정보라고도 함)를 생성할까 우려되는 상황입니다.|
  • 읽는 방법: 모델의 답변이 확실한 근거를 토대로 제공된 경우 AI 시스템의 응답에 포함된 사실은 입력 원본 또는 내부 데이터베이스에서 확인할 수 있는 것입니다. 반대로, 낮은 근거 점수는 AI 시스템의 응답에 언급된 사실이 입력 원본 또는 내부 데이터베이스에서 적절하게 지원되거나 확인되지 않을 수 있음을 시사합니다. 이러한 경우 모델의 생성된 답변은 미리 학습된 지식만을 기준으로 할 수 있으며, 지정된 입력의 특정 컨텍스트 또는 도메인과 일치하지 않을 수 있습니다.
  • 스케일링:
    • 1 = "근거 없음": 입력 원본 또는 내부 데이터베이스에서 응답을 확인할 수 없음을 시사합니다.
    • 5 = "완벽한 근거성"은 AI 시스템의 응답에서 다루는 사실을 입력 원본 또는 내부 데이터베이스에서 확인할 수 있음을 시사합니다.

정확도

관련성은 모델의 생성된 응답이 관련되어 있고 지정된 질문과 직접 연결된 정도를 평가합니다. 사용자가 생성 AI 모델과 상호 작용할 때 질문 또는 입력 프롬프트를 제시하고, 의미 있고 상황에 맞는 적절한 답변을 예상합니다.

  • 사용하는 경우: 관련성이 높은 애플리케이션 답변을 제공하여 생성 AI 시스템의 사용자 환경 및 유틸리티를 향상시키려고 합니다.
  • 읽는 방법: 답변은 참값 원본의 컨텍스트에서 질문의 핵심 요소를 캡처하는 능력에 따라 점수를 매깁니다. 모델 답변의 관련성이 높은 경우 AI 시스템이 입력을 이해하고, 일관되고 맥락에 맞는 출력을 생성할 수 있다는 듯입니다. 반대로 관련성 점수가 낮다는 것은 생성된 응답이 주제를 벗어나거나, 맥락이 부족하거나, 사용자의 의도된 쿼리를 적절하게 처리하지 못한다는 뜻일 수 있습니다.  
  • 스케일링:
    • 1 = "관련이 없음"은 생성된 응답이 주제를 벗어나거나, 맥락이 부족하거나, 사용자의 의도된 쿼리를 적절하게 처리하지 못한다는 뜻일 수 있습니다.  
    • 5 = "완벽한 관련성"은 맥락에 맞는 적절한 출력임을 시사합니다.

일관성

일관성은 언어 모델이 출력 흐름을 얼마나 원활하게 생성하고, 자연스럽게 읽고, 인간과 유사하게 언어를 모방할 수 있는지 평가합니다. 봇이 적절한 언어를 사용하여 불필요하거나 혼란스러운 정보를 방지하면서 간단하고 짧고 명확한 방식으로 메시지를 얼마나 잘 전달하나요? 사용자가 봇 응답을 이해하고 따라가는 것이 얼마나 쉬운가요? 또한 봇이 사용자의 요구 사항 및 기대에 얼마나 잘 부합하나요?

  • 사용하는 경우: 실제 응용 분야에서 모델이 생성한 응답의 가독성 및 사용자 친화성을 테스트하려고 합니다.
  • 읽는 방법: 모델의 답변이 매우 일관되면 AI 시스템이 매끄럽게 바꿔가면서 잘 구성된 텍스트를 자연스럽게 제공하는 것입니다. 텍스트 전체의 일관된 맥락은 가독성과 이해를 향상시킵니다. 일관성이 낮다는 것은 모델의 예측 답변에 포함된 문장의 품질이 좋지 않으며 자연스럽지 않다는 것을 의미합니다. 생성된 텍스트에는 논리적 흐름이 부족할 수 있으며 문장이 연결되지 않은 것처럼 표시되어 독자가 전체 컨텍스트 또는 의도된 메시지를 이해하기 어려울 수 있습니다. 답변은 명확성, 간결성, 적절한 언어 및 정의된 사용자 요구 사항 및 기대에 부합하는 능력에 따라 채점됩니다.
  • 스케일링:
    • 1 = "일관되지 않음": 모델의 예측 답변에 포함된 문장의 품질이 좋지 않으며 자연스럽지 않다는 것을 의미합니다. 생성된 텍스트에는 논리적 흐름이 부족할 수 있으며 문장이 연결되지 않은 것처럼 표시되어 독자가 전체 컨텍스트 또는 의도된 메시지를 이해하기 어려울 수 있습니다.
    • 5 = "완벽하게 일관됨": AI 시스템이 가독성과 이해를 향상시키는 텍스트 전반에서 매끄럽게 바꿔가면서 잘 구성된 텍스트를 자연스럽게 제공한다는 것을 의미합니다.

유창성

유창성은 생성된 AI의 예측 답변에 대한 언어 숙련도를 평가합니다. 생성된 텍스트가 문법 규칙, 구문 구조 및 어휘의 적절한 사용을 얼마나 잘 준수하는지 평가하여 언어적으로 정확하고 자연스러운 응답을 생성합니다. 답변은 개별 문장의 품질 및 잘 작성되고 문법적으로 올바른지 여부에 따라 측정됩니다. 이 메트릭은 적절한 문법, 구문 및 어휘 사용을 준수하는 텍스트를 생성하는 언어 모델의 기능을 평가할 때 유용합니다.

  • 사용하는 경우: 생성 AI의 예측 답변의 문법 및 언어 정확도를 평가하려고 합니다.
  • 읽는 방법: 모델의 답변이 매우 일관된 경우 AI 시스템이 문법 규칙을 따르고 적절한 어휘를 사용함을 나타냅니다. 텍스트 전체의 일관된 맥락은 가독성과 이해를 향상시킵니다. 반대로, 낮은 유창성 점수는 문법 오류와 어색한 관용구로 인해 이해하기 어렵기 때문에 텍스트가 실질적인 애플리케이션에 덜 적합하다는 것을 나타냅니다.  
  • 스케일링:
    • 1 = "더듬거림"은 문법 오류와 어색한 관용구로 인해 이해하기 어렵기 때문에 텍스트가 실용적인 애플리케이션에 덜 적합하다는 것을 나타냅니다.  
    • 5 = "완벽한 유창성"은 AI 시스템이 문법 규칙을 따르고 적절한 어휘를 사용함을 나타냅니다. 텍스트 전체의 일관된 맥락은 가독성과 이해를 향상시킵니다.

유사성

유사성은 참값(ground truth) 문장(또는 문서)과 AI 모델에서 생성된 예측 문장 간의 유사성을 평가합니다. 먼저 참값과 모델 예측 모두에 대한 문장 수준 포함을 계산하여 산출합니다. 이러한 포함은 문장의 고차원 벡터 표현을 나타내며 의미 체계적 의미와 맥락을 캡처합니다.

  • 사용하는 경우: AI 모델의 성능을 객관적으로 평가하려고 합니다(참값의 원하는 응답에 액세스할 수 있는 텍스트 생성 작업의 경우). Ada 유사성을 사용하면 생성된 텍스트를 원하는 콘텐츠와 비교할 수 있습니다.
  • 읽는 방법: 답변은 주어진 질문에 대한 참값 답변과 동일한 정보와 의미를 캡처하여 참값 답변과의 동등성에 대해 점수를 매깁니다. 높은 Ada 유사성 점수는 모델의 예측이 참값과 컨텍스트적으로 비슷하며 정확하고 관련 있는 결과를 나타낸다는 것을 시사합니다. 반대로, 낮은 Ada 유사성 점수는 예측과 실제 참값 간의 불일치 또는 차이를 의미하며, 잠재적으로 부정확성 또는 모델 성능 결함을 알립니다.
  • 스케일링:
    • 1 = "부등성"은 예측과 실제 참값 간의 불일치 또는 차이를 의미하며, 잠재적으로 부정확성 또는 모델 성능 결함을 시사합니다.
    • 5 = "완벽한 동등성"은 모델의 예측이 참값과 컨텍스트적으로 비슷하며 정확하고 관련 있는 결과를 나타낸다는 것을 시사합니다.

다음 단계