다음을 통해 공유


AI 관리

이 문서에서는 수명 주기 내내 AI 워크로드를 관리하는 지침을 제공합니다. 조직은 구조화된 운영 프로세스를 수립하고, 적절한 배포 거버넌스를 구현하고, 포괄적인 모니터링 사례를 유지할 때 일관된 AI 성능을 달성합니다.

AI 작업 관리

운영 프레임워크는 복잡한 AI 프로젝트를 관리하기 위한 구조를 제공합니다. 이러한 프레임워크는 개발 팀 간에 일관성을 보장하고 배달 주기를 느리게 하는 오류를 줄입니다. 안정적인 AI 워크로드 관리를 달성하려면 명확한 운영 프로세스를 설정해야 합니다. 방법은 다음과 같습니다.

  1. 전략적 지침을 위한 탁월한 AI 센터를 구축합니다. 탁월한 AI 센터는 조직 전체의 AI 배포에 대한 전략적 감독 및 기술 지침을 제공합니다. 이 그룹은 AI 접근 방식이 비즈니스 목표 및 기술 요구 사항에 부합하도록 합니다. 탁월한 AI 센터를 사용하여 조직의 요구에 맞는 관리 접근 방식을 평가하고 거버넌스 및 혁신을 지원하는 배포 표준을 만듭니다.

  2. 워크로드 유형에 적합한 운영 프레임워크를 선택합니다. 다양한 AI 워크로드에는 팀 프로세스 및 도구 결정에 영향을 주는 다양한 운영 접근 방식이 필요합니다. 이 선택은 개발 방법론 및 기술 스택 통합을 결정합니다. 기존 기계 학습 워크플로에 MLOps 프레임워크를 사용하고 생성 AI 워크로드에 GenAIOps 를 사용합니다.

  3. 모든 팀에서 개발 도구를 표준화합니다. 일관된 도구는 팀 환경 간의 호환성 문제를 제거하고 개발자를 위한 학습 곡선을 줄입니다. 이 방법은 통합 문제를 방지하고 개발 주기를 가속화합니다. 개발 팀 전체에서 일관성을 위해 SDK 및 API 사용을 정의하고 표준화합니다. 자세한 내용은 사용 사례를 지원할 올바른 SDK 선택을 참조하세요.

  4. 실험을 위한 전용 샌드박스 환경을 만듭니다. 샌드박스 환경을 사용하면 프로덕션 시스템에 영향을 주지 않고도 안전한 테스트를 수행할 수 있으며 팀이 새로운 접근 방식을 자유롭게 테스트할 수 있습니다. 이러한 환경은 실험적 코드가 안정적인 워크로드에 영향을 주지 않도록 방지합니다. AI 개발 수명 주기에서 개발, 테스트 및 프로덕션 환경과 구별되는 샌드박스 환경을 사용합니다. 환경 간에 승격하는 동안 호환성이 손상되는 변경을 방지하기 위해 개발, 테스트 및 프로덕션 환경에서 일관성을 유지합니다.

  5. 가능한 경우 작업을 간소화합니다. 새로운 기능을 사용하면 전문 지식 없이 에이전트 및 미세 조정된 모델을 보다 쉽게 사용자 지정하고 배포할 수 있습니다. 기존의 미세 조정을 수행하려면 전문 데이터 과학자가 데이터 세트를 큐레이팅하고 작업별 파이프라인을 빌드해야 하므로 운영 복잡성이 발생합니다. Microsoft 365의 코필로트 튜닝(미리 보기) 을 사용하여 전문 지식 없이도 내부 작업에 대한 모델을 미세 조정할 수 있습니다.

AI 배포 관리

AI 배포 관리는 AI 리소스를 배포할 수 있는 사용자를 정의하고 이러한 엔드포인트를 제어합니다. 구조화된 접근 방식을 통해 조직은 거버넌스 요구 사항과 개발 속도의 균형을 유지할 수 있습니다. 일관된 AI 리소스 관리를 달성하려면 명확한 배포 기관을 설정해야 합니다. 방법은 다음과 같습니다.

  1. 정의된 거버넌스 경계 내에서 워크로드 팀 배포 권한을 부여합니다. 워크로드 팀은 중앙 승인 프로세스를 기다리지 않고 AI 리소스 배포를 제어할 때 개발을 가속화합니다. 이러한 자율성은 병목 상태를 줄이고 조직 표준을 유지하면서 비즈니스 요구 사항에 신속하게 응답할 수 있도록 합니다. Azure Policy를 사용하여 워크로드 환경에서 일관되게 거버넌스를 적용하고 거버넌스 격차를 해결하는 AI 정책을 만듭니다. Azure AI Foundry의 경우 사업부 간에 중앙 집중식 공유 리소스를 만드는 대신 사업부당 인스턴스를 배포하고 사업부 내의 각 사용 사례에 대해 Azure AI Foundry 프로젝트를 사용합니다.

  2. 두 관리 방법 모두에 대한 명확한 AI 배포 정책을 정의합니다. AI 정책은 조직 표준을 준수하면서 구성 드리프트 및 보안 격차를 방지하는 가드레일을 제공합니다. 이러한 정책은 무단 AI 리소스 사용 위험을 줄입니다. 콘텐츠 필터 설정을 적용하고 허용되지 않는 모델의 사용을 방지하는 AI 정책을 만든 다음 이러한 정책을 모든 팀에 명확하게 전달합니다. 규정 준수를 보장하기 위해 정기적인 감사를 수행합니다.

  3. 배포를 위한 연속 통합 및 배달 파이프라인을 만듭니다. 자동화된 파이프라인은 수동 오류를 줄이고 환경 전반에 걸쳐 일관된 배포를 보장하면서 문제를 조기에 catch하는 반복 가능한 프로세스를 제공합니다. 이러한 파이프라인은 개발 전반에 걸쳐 품질 표준을 유지합니다. 코드 품질 검사, 단위 및 통합 테스트 및 실험 흐름을 다루는 데이터 파이프라인을 만듭니다. 릴리스를 배포하기 위한 수동 승인 프로세스와 함께 프로덕션 배포 단계를 포함합니다. 독립적인 구성 요소 업데이트를 보장하기 위해 모델과 클라이언트 인터페이스 간에 분리를 유지합니다.

AI 모델 관리

AI 모델 관리에는 거버넌스 구조, 지속적인 모니터링 및 시간 경과에 따른 성능 유지 관리가 포함됩니다. 이 프로세스를 통해 조직은 윤리적 표준에 따라 모델을 정렬하고, 모델 성능을 추적하고, AI 시스템이 효과적이고 비즈니스 목표에 부합하도록 할 수 있습니다. 신뢰할 수 있는 AI 성능을 달성하려면 포괄적인 모델 관리 프로세스를 설정해야 합니다. 방법은 다음과 같습니다.

  1. 성능 추적을 위한 AI 측정 기준을 정의합니다. 측정 기준은 AI 모델이 비즈니스 목표 및 윤리적 표준에 부합하도록 보장합니다. 이러한 기준은 조직 전체에서 모델 성능 및 책임 있는 AI 규정 준수를 평가하기 위한 목표 기준을 제공합니다. 공정성, 투명성 및 정확도와 같은 책임 있는 AI 원칙과 관련된 KPI를 설정한 다음, 이러한 KPI를 특정 AI 워크로드에 매핑합니다.

  2. 성능 문제의 근본 원인을 신속하게 식별합니다. AI 상호 작용의 각 단계에 대한 가시성은 문제를 격리하고 정정 작업을 효율적으로 구현하여 시스템 간 연속 오류를 방지하는 데 도움이 됩니다. 예를 들어 챗봇 오류가 프롬프트 작성 또는 모델 컨텍스트 이해에서 발생하는지 여부를 확인합니다. Azure Monitor 및 Application Insights와 같은 기본 제공 도구를 사용하여 성능 병목 상태 및 변칙을 사전에 식별합니다.

  3. 성능 기준에 따라 AI 모델을 재학습합니다. 모델은 데이터 변경으로 인해 시간이 지남에 따라 저하되며 관련성을 유지하기 위해 재학습이 필요합니다. 정기적인 재학습을 통해 AI 시스템은 비즈니스 요구 사항 및 데이터 패턴을 최신 상태로 유지할 수 있습니다. 모델 성능 메트릭 또는 비즈니스 요구 사항에 따라 재학습을 예약하여 AI 시스템을 관련성 있게 유지합니다. 재학습 비용이 많이 들 수 있으므로 초기 학습 비용을 평가하여 최적의 재학습 빈도를 평가합니다. 모델에 대한 버전 제어를 유지하고 성능이 저조한 버전에 대한 롤백 메커니즘을 보장합니다.

  4. 품질 게이트를 사용하여 모델 승격 프로세스를 설정합니다. 품질 게이트는 유효성이 검사된 모델만 프로덕션 환경에 도달하도록 보장합니다. 이러한 프로세스는 성능이 저조한 모델이 비즈니스 운영에 영향을 주지 않도록 방지하고 일관된 품질 표준을 유지합니다. 성능 조건을 사용하여 학습되고, 미세 조정되고, 재학습된 모델을 더 높은 환경으로 승격합니다. 각 애플리케이션에 고유한 성능 조건을 정의하고 테스트 및 유효성 검사 단계를 포함하는 명확한 승격 워크플로를 설정합니다.

  5. 모델 사용 중지 일정을 추적하여 서비스 중단을 방지합니다. 모델 사용 중지 추적은 공급업체 지원이 종료되는 경우 성능 문제를 방지합니다. 사용 중지 날짜를 놓친 조직은 예기치 않은 서비스 저하 또는 호환성 문제에 직면합니다. 공급업체가 서비스를 더 이상 사용하지 않는 경우 기능을 유지하기 위해 미리 학습된 모델의 사용 중지 날짜를 모니터링합니다. 예를 들어 시스템 기능을 유지하기 위해 사용 중단 전에 생성 AI 모델을 업데이트합니다. Azure AI Foundry 포털을 사용하여 모든 배포에 대한 모델 사용 중지 날짜를 볼 수 있습니다.

AI 비용 관리

AI 비용 관리를 통해 조직은 컴퓨팅, 스토리지 및 토큰 사용량 전반에서 성능을 유지하면서 비용을 제어할 수 있습니다. 조직은 예산 초과를 방지하고 리소스 효율성을 최대화하기 위해 구조화된 비용 감독 및 최적화 전략이 필요합니다. 예측 가능한 AI 지출을 달성하려면 포괄적인 비용 관리 프로세스를 설정해야 합니다. 방법은 다음과 같습니다.

  1. 각 Azure AI 서비스에 대한 비용 관리 모범 사례를 구현합니다. 다양한 Azure AI 서비스에는 총 소유 비용에 영향을 주는 고유한 가격 책정 모델 및 최적화 기능이 있습니다. 서비스별 비용 구조를 이해하면 조직에서 워크로드에 가장 비용 효율적인 옵션을 선택할 수 있습니다. 예를 들어 Azure AI Foundry 에 대한 비용 관리 지침을 따라 각 서비스 유형에 대한 비용을 최적화합니다.

  2. 사용 패턴을 모니터링하여 청구 효율성을 극대화합니다. 비용 중단점을 이해하면 불필요한 요금이 발생하지 않으며 조직에서 리소스 할당을 최적화할 수 있습니다. 사용 패턴을 추적하여 더 나은 비용 성능을 위해 모델 및 아키텍처를 조정할 수 있는 기회를 제공합니다. TPM(분당 토큰) 및 분당 요청(RPM)을 모니터링하여 사용 패턴을 파악한 다음, 이러한 패턴에 따라 모델 및 아키텍처를 조정합니다. 예기치 않은 요금을 방지하려면 이미지 생성 또는 시간별 미세 조정과 같은 서비스에 고정 가격 임계값을 사용합니다. 전체 비용을 줄이기 위해 일관된 사용 패턴에 대한 약정 기반 청구 모델을 고려합니다.

  3. 자동화된 비용 모니터링 및 경고를 설정합니다. 자동화된 경고는 프로젝트 예산에 영향을 미치기 전에 팀에 예기치 않은 요금을 알려 예산 초과를 방지합니다. 이러한 경고는 사전 비용 관리를 가능하게 하고 조직이 AI 이니셔티브에 대한 재무 제어를 유지하는 데 도움이 됩니다. 미리 정의된 임계값에 대한 지출을 추적하고 비즈니스 목표에 맞는 예산 전략을 수립하도록 Azure Cost Management에서 예산 경고를 설정합니다. 여러 임계값에 경고를 만들어 비용 증가에 대한 조기 경고를 제공합니다.

AI 데이터 관리

AI 데이터 관리는 AI 수명 주기 내내 정확도, 무결성 및 규정 준수를 보장합니다. 조직은 안정적인 AI 성능을 유지하기 위해 구조적 데이터 거버넌스 및 품질 제어 프로세스가 필요합니다. 일관된 AI 결과를 달성하려면 포괄적인 데이터 관리 사례를 설정해야 합니다. 방법은 다음과 같습니다.

  1. 일관된 유효성 검사를 위해 골든 데이터 세트를 만들고 유지 관리합니다. 골든 데이터 세트는 다양한 환경 및 버전에서 AI 모델을 테스트하기 위한 표준화된 벤치마크를 제공합니다. 이러한 신뢰할 수 있는 데이터 세트는 일관된 평가 기준을 보장하고 시간이 지남에 따라 성능 저하를 감지하는 데 도움이 됩니다. 프로덕션 데이터 패턴을 나타내는 골든 데이터 세트를 개발하고 이러한 데이터 세트를 사용하여 모든 AI 워크로드에서 정기적인 테스트 및 유효성 검사를 수행합니다. 현재 비즈니스 요구 사항 및 데이터 패턴을 반영하도록 골든 데이터 세트를 정기적으로 업데이트합니다.

  2. 무결성 제어를 사용하여 보안 데이터 파이프라인을 구현합니다. 데이터 파이프라인 무결성은 손상을 방지하고 안정적인 AI 모델 성능을 보장합니다. 보안 파이프라인은 중요한 정보를 보호하고 전처리 및 스토리지를 통해 수집으로부터 데이터 품질을 유지합니다. 각 단계에서 유효성 검사를 포함하는 사용자 지정 데이터 파이프라인을 빌드하고 파이프라인 프로세스 전체에서 데이터를 보호하기 위한 보안 제어를 구현합니다. 자동화된 테스트를 사용하여 AI 모델에 데이터를 공급하기 전에 데이터 품질 및 일관성을 확인합니다.

  3. 데이터 민감도 분류를 모니터링하고 변경 내용에 응답합니다. 비즈니스 요구 사항 및 규정 업데이트로 인해 데이터 민감도 분류가 변경됩니다. 조직은 규정 준수 및 보안을 유지하기 위해 이러한 변경 내용을 추적하고 그에 따라 AI 시스템을 업데이트해야 합니다. 데이터 민감도가 변경되는 시기를 식별하고 다운스트림 AI 시스템에서 중요한 데이터를 제거하거나 대체하는 절차를 구현하는 프로세스를 개발합니다. 클라우드용 Microsoft DefenderMicrosoft Purview를 사용하여 조직 전체에서 중요한 데이터에 레이블을 지정하고 관리합니다. 민감도 변경이 발생하면 영향을 받는 데이터를 사용하는 모든 AI 모델을 식별하고 재분류된 중요한 정보를 제외하는 데이터 세트를 사용하여 모델을 다시 학습시킵니다.

AI 비즈니스 연속성 관리

비즈니스 연속성 관리는 중단으로부터 AI 시스템을 보호하고 인시던트가 발생할 때 신속한 복구를 보장합니다. 조직은 AI 서비스 가용성을 유지하기 위해 다중 지역 전략 및 테스트된 복구 절차가 필요합니다. 효과적인 연속성 계획은 비즈니스 운영에 영향을 주는 확장된 중단을 방지합니다. 신뢰할 수 있는 AI 시스템 복원력을 달성하려면 포괄적인 비즈니스 연속성 프로세스를 설정해야 합니다. 방법은 다음과 같습니다.

  1. 모든 AI 구성 요소에서 연속 모니터링을 구현합니다. AI 워크로드는 데이터 진화, 모델 업데이트 또는 사용자 동작의 변화로 인해 시간이 지남에 따라 변경됩니다. 지속적인 모니터링은 이러한 변경 내용을 조기에 감지하고 비즈니스 결과에 영향을 주는 성능 저하를 방지합니다. AI 배포, AI 모델AI 데이터를 모니터링하여 워크로드가 설정된 KPI에 맞게 유지되도록 합니다. 정기적인 감사를 수행하여 정의된 책임 있는 AI 원칙 및 메트릭에 대해 AI 시스템을 평가합니다.

  2. 고가용성을 위해 여러 지역에 AI 시스템을 배포합니다. 다중 지역 배포는 단일 실패 지점을 방지하고 지역 가동 중단 시 AI 서비스에 계속 액세스할 수 있도록 합니다. 이 방법은 인프라 오류 및 자연 재해로부터 보호하는 지리적 중복성을 제공합니다. 여러 Azure 지역에 생성된 AI 시스템과 기존 AI 시스템을 모두 배포하고, 중단 시 재학습을 방지하기 위해 학습된 모델과 미세 조정된 모델에 필요한 중복성을 구현합니다. Azure Front Door 또는 Azure Traffic Manager를 사용하여 지역 간에 트래픽을 자동으로 라우팅합니다.

  3. 재해 복구 계획을 정기적으로 테스트하여 유효성을 검사합니다. 정기적인 테스트는 복구 절차의 차이를 식별하고 팀이 실제 인시던트 중에 AI 시스템을 효과적으로 복원할 수 있도록 합니다. 이러한 테스트는 복구 후 모든 구성 요소가 제대로 작동하는지 확인하고 조직이 응답 절차를 구체화하는 데 도움이 됩니다. 모든 AI 구성 요소에 대한 데이터 복원 프로세스 및 유효성 검사 절차를 포함하는 재해 복구 계획의 분기별 테스트를 수행합니다. 각 테스트 주기에서 학습한 단원을 기반으로 테스트 결과를 문서화하고 복구 절차를 업데이트합니다.

  4. 모든 AI 시스템 구성 요소에 대한 버전 제어를 구현합니다. 버전 제어 시스템은 변경 내용을 추적하고 복구 시나리오 중에 이전 구성을 빠르게 복원할 수 있도록 합니다. 이 방법은 수정에 대한 감사 내역을 제공하고 팀이 문제가 있는 변경 내용을 효율적으로 식별하고 되돌릴 수 있도록 합니다. Git을 사용하여 모든 AI 워크로드에서 모델, 데이터 파이프라인 및 시스템 구성에 대한 변경 내용을 관리합니다. 팀이 성능에 영향을 주는 계획되지 않은 변경을 신속하게 식별하고 되돌릴 수 있도록 모델 및 시스템 변경 내용을 추적하는 자동화된 감사를 구현합니다.

  5. AI 자산에 대한 자동화된 백업 전략을 만듭니다. 자동화된 백업은 중요한 AI 구성 요소가 수동 개입 없이 보호되도록 합니다. 이러한 전략은 인시던트 후 시스템이 복원해야 하는 경우 데이터 손실을 방지하고 복구 시간을 줄입니다. 지역 중복 옵션과 함께 Azure Backup 또는 Azure Storage 를 사용하여 학습된 모델, 데이터 세트 및 구성 파일에 대한 자동화된 백업 일정을 설정합니다. 주 배포와 별도의 지역에 백업을 저장하여 지역 가동 중단 시 가용성을 보장합니다.

  6. 명확한 책임으로 복구 절차를 문서화합니다. 명확한 설명서를 통해 팀은 스트레스가 많은 상황에서 복구 절차를 일관되게 실행할 수 있습니다. 문서화된 절차는 복구 시간을 줄이고 팀이 설정된 지침 없이 운영할 때 발생하는 오류를 방지합니다. 다양한 오류 시나리오에 대한 단계별 복구 절차를 정의하는 Runbook을 만들고 각 복구 작업에 대해 팀 구성원에게 특정 역할 및 책임을 할당합니다. AI 아키텍처 및 복구 프로세스의 변경 내용을 반영하도록 문서를 정기적으로 업데이트합니다.

다음 단계