중요하다
이 기능은 베타단계에 있습니다.
중요하다
이 페이지에서는 MLflow 2에서 에이전트 평가 버전을 0.22
사용하는 것을 설명합니다. Databricks는 에이전트 평가 >1.0
와 통합된 MLflow 3을 사용하는 것이 좋습니다. MLflow 3에서 에이전트 평가 API는 이제 패키지의 mlflow
일부입니다.
이 항목에 대한 자세한 내용은 프로덕션 모니터링을 참조하세요.
이 페이지에서는 GenAI용 Lakehouse 모니터링을 사용하여 생성 AI 앱을 모니터링하는 방법을 설명합니다. Lakehouse 모니터링은 에이전트 평가와 긴밀하게 통합되므로 오프라인 평가 및 온라인 모니터링에서 동일한 평가 구성(LLM 심사위원 및 사용자 지정 메트릭)을 사용할 수 있습니다.
Gen AI 앱은 Mosaic AI 에이전트 프레임워크를 사용하여 배포된 경우나 Databricks 외부에 배포된 경우 모니터링할 수 있습니다.
Gen AI에 대한 Lakehouse 모니터링을 사용하면 Mosaic AI 에이전트 평가 AI 심사위원을 사용하여 볼륨, 대기 시간, 오류 및 비용과 같은 운영 메트릭뿐만 아니라 정확성 및 지침 준수와 같은 품질 메트릭을 추적할 수 있습니다.
제품 개요
GenAI용 Lakehouse 모니터링은 Open Telemetry를 기반으로 하는 GenAI 관찰 가능성을 위한 개방형 표준인 MLflow 추적을 사용하여 GenAI 앱에서 프로덕션 로그를 계측하고 캡처합니다. 모니터링을 사용하려면 먼저 MLflow 추적을 사용하여 GenAI 앱을 계측합니다.
모니터링은 다음을 위해 설계되었습니다.
- 프로덕션 에이전트에서 품질 및 성능(비용, 대기 시간) 문제를 식별하는 데 도움이 됩니다.
- LLM 심사위원을 자동으로 실행하여 프로덕션 에이전트의 품질을 평가합니다.
- 프로덕션 에이전트의 품질에 대한 메트릭이 있는 대시보드 보기
- 개별 추적 검토(예: 사용자 요청)
- 성능이 저조한 추적을 개발 루프로 전송하여 식별된 문제에 대한 수정 사항을 반복적으로 테스트합니다.
아래 다이어그램에서는 모니터링을 통해 사용하도록 설정된 워크플로를 보여 줍니다.
비고
이 워크플로는 베타 테스터가 사용하는 사전 프로덕션 앱에도 적용됩니다.
요구 사항
Mosiac AI 에이전트 프레임워크를 사용하여 배포된 앱을 모니터링하려면 다음을 수행합니다.
- 서버리스 작업을 사용하도록 설정해야 합니다.
- LLM 판사 메트릭을 사용하려면 파트너 기반 AI 보조 기능을 사용하도록 설정해야 합니다. 대기 시간과 같은 다른 메트릭은 이 설정에 관계없이 지원됩니다.
- 이 기능은 서버리스 송신 컨트롤이 활성화된 작업 공간에서는 지원되지 않습니다.
제한점
중요하다
- 온라인 모니터링은 현재 베타 상태입니다. 특정 작업 영역만 베타 제품을 사용할 수 있습니다.
- 다음 기능은 현재 공개 베타 릴리스에서 사용할 수 없습니다.
- 사용자 피드백 로깅
- 사용자 지정 메트릭
이러한 기능을 사용해야 하거나 작업 영역이 모니터링 베타에 대해 현재 활성화되지 않은 경우 Databricks 계정 담당자에게 액세스 권한을 요청하세요.
모니터링 설정
에이전트 모니터링은 Databricks 외부에 배포된 Mosaic AI 에이전트 프레임워크 및 Gen AI 앱을 사용하여 배포된 에이전트를 지원합니다. 수행하는 단계는 모니터링해야 하는 앱 유형에 따라 달라집니다. 자세한 내용은 다음을 참조하세요.
- Mosaic AI 에이전트 프레임워크를 사용하여 배포된 앱에 대한 모니터링을 설정하려면 에이전트 프레임워크(MLflow 2)를 사용하여 배포된 앱 모니터링을 참조하세요.
- Databricks 외부에서 배포된 앱에 대한 모니터링을 설정하려면 Azure Databricks(MLflow 2) 외부에서 배포된 앱 모니터링을 참조하세요.