Azure Monitor의 Log Analytics 작업 영역은 Azure 환경 전반의 다양한 원본에서 로그 및 성능 데이터를 수집, 저장 및 분석하기 위한 중앙 집중식 리포지토리입니다. 이러한 작업 영역은 정보를 모니터링하기 위한 기본 데이터 싱크 역할을 하며, 워크로드의 상태 및 성능에 대한 인사이트를 얻는 데 도움이 되는 고급 쿼리, 시각화 및 경고 기능을 지원합니다.
이 문서에서는 설계자로서 워크로드에 대한 포괄적인 모니터링 및 관찰성의 중요성을 이해하고 모니터링 전략의 일환으로 Log Analytics 작업 영역을 선택한다고 가정합니다. 이 문서의 지침에서는 Azure Well-Architected Framework 핵심 요소원칙에 매핑되는 아키텍처 권장 사항을 제공합니다.
기술 범위
이 검토는 다음 Azure 리소스에 대한 상호 연결된 결정에 중점을 둡니다.
- Log Analytics 작업 영역
신뢰도
안정성 핵심 요소의 목적은 충분한 복원력을 구축하고 오류로부터 빠르게 복구할 수 있는 능력을 개발하여 지속적인 운영을 제공하는 것입니다.
안정성 디자인 원칙은 개별 구성 요소, 시스템 흐름 및 시스템 전체에 적용되는 고급 디자인 전략을 제공합니다.
워크로드 디자인 검사 목록
안정성에 대한 디자인 검토 검사 목록을 기반으로 디자인 전략을 시작합니다. 애플리케이션의 특성과 구성 요소의 중요도를 염두에 두고 비즈니스 요구 사항과 관련성을 결정합니다. 필요에 따라 더 많은 접근 방식을 포함하도록 전략을 확장합니다.
Log Analytics 작업 영역에 대한 서비스 제한을 검토합니다. 서비스 제한 섹션에서는 데이터 수집, 데이터 보존 및 서비스의 다른 측면에 대한 제한을 설명합니다. 이러한 제한은 효과적인 워크로드 관찰성 전략을 설계하는 데 도움이 됩니다. 쿼리와 같은 많은 함수가 Log Analytics 작업 영역과 함께 작동하므로 Azure Monitor 서비스 제한을 검토해야 합니다.
작업 영역 복원력 및 복구 계획: Log Analytics 작업 영역은 지역별 작업 영역이며 지역 간 중복 또는 복제에 대한 기본 제공 지원이 없습니다. 가용성 영역 중복 옵션은 제한됩니다. 이러한 제한 사항으로 인해 작업 영역의 안정성 요구 사항을 결정하고 이러한 목표를 충족하도록 전략을 설 수 있어야 합니다.
요구 사항에 따라 작업 영역이 데이터 센터 오류 또는 지역 오류에 복원력이 있어야 한다고 규정할 수 있습니다. 또는 장애 조치(failover) 지역의 새 작업 영역으로 데이터를 복구할 수 있어야 한다고 규정할 수 있습니다.
이러한 각 시나리오에서는 추가 리소스와 프로세스가 성공해야 하므로 안정성 목표와 비용 및 복잡성의 균형을 맞추는 방법을 신중하게 고려해야 합니다.
안정성 요구 사항을 충족하는 올바른 배포 지역을 선택합니다. 작동 데이터를 내보내는 워크로드 구성 요소와 공동 배치된 Log Analytics 작업 영역 및 DCE(데이터 수집 엔드포인트)를 배포합니다. 워크로드를 배포하는 위치는 작업 영역 및 DCE를 배포할 적절한 지역을 선택하도록 알려야 합니다.
전용 클러스터와 같은 특정 Log Analytics 기능의 지역 가용성을 워크로드의 안정성, 비용 및 성능 요구 사항의 중심인 다른 요인에 대해 평가해야 할 수 있습니다.
중요한 경로 종속성에서 작업 영역을 제외합니다. Log Analytics 작업 영역은 관찰성 시스템의 중요한 구성 요소 역할을 하지만 워크로드의 중요한 경로에 포함해서는 안 됩니다. 이러한 작업 영역은 모니터링 및 문제 해결에 필수적인 운영 데이터를 수집하고 저장합니다. 그러나 워크로드의 핵심 기능은 작업 영역 가용성과 독립적으로 유지되어야 합니다. 이러한 아키텍처 분리는 관찰성 시스템 중단이 워크로드 런타임 오류로 연결되지 않도록 합니다.
관찰성 시스템이 정상인지 확인합니다. 워크로드의 다른 구성 요소와 마찬가지로 모니터링 및 로깅 시스템이 제대로 작동하는지 확인합니다. 신뢰할 수 있는 관찰 가능성을 달성하려면 운영 팀에 상태 데이터 신호를 보내는 기능을 사용하도록 설정합니다. Log Analytics 작업 영역 및 관련 리소스와 관련된 상태 데이터 신호를 설정합니다.
구성 권장 사항
추천 | 이익 |
---|---|
작업 영역 데이터의 높은 내구성을 지원하려면 데이터 복원력을 지원하는 지역에 Log Analytics 작업 영역을 배포합니다. | 데이터 복원력은 가용성 영역에 로그 데이터의 복제본을 분산하여 데이터 센터 중단에 대한 보호를 제공합니다. |
작업 영역을 동일한 지역의 전용 클러스터 에 연결하는 것이 좋습니다. | 전용 클러스터를 정당화하기에 충분한 데이터를 지금 수집하지 않더라도 이 선점형 지역 선택은 향후 성장을 지원하는 데 도움이 됩니다. |
워크로드 인스턴스와 동일한 지역에 작업 영역을 배포합니다. Log Analytics 작업 영역과 동일한 지역에서 DCE 를 사용합니다. 워크로드가 활성-활성 디자인에 배포된 경우 워크로드가 배포된 지역에 분산된 여러 작업 영역 및 DCE를 사용하는 것이 좋습니다. |
작업 영역 및 DCE를 워크로드와 동일한 지역에 두면 다른 지역의 중단으로 인한 영향의 위험이 완화됩니다. 여러 지역에 작업 영역을 배포하면 환경이 복잡해지지만 지리적으로 분산된 워크로드에 더 나은 가용성을 제공합니다. |
지역별 실패 시 작업 영역 가용성이 필요한 경우 여러 지역의 여러 작업 영역에 중요한 데이터를 보내 도록 로그 멀티캐스팅을 구성합니다.
DCR(데이터 수집 규칙) 및 진단 설정을 설정하여 중요한 로그 스트림을 백업 작업 영역에 복제합니다. 빠른 장애 조치(failover)를 사용하도록 대체 작업 영역 구성을 사용하여 리소스에 경고하기 위한 ARM 템플릿(Azure Resource Manager 템플릿)을 저장합니다. |
로그 멀티캐스팅은 지역 가동 중단 시 문제 해결 및 인시던트 대응을 위해 중요한 운영 데이터에 지속적으로 액세스할 수 있도록 합니다. 이 액세스는 기본 모니터링 인프라를 사용할 수 없는 경우 워크로드 상태에 대한 가시성을 유지합니다. 장차: 이 구성은 중복 수집 및 보존 요금이 발생하므로 중요한 데이터에만 사용합니다. |
데이터 센터 또는 지역 오류에서 데이터를 보호해야 하는 경우 작업 영역에서 데이터 내보내 기를 구성하여 대체 위치에 데이터를 저장합니다. GRS(지역 중복 스토리지) 및 GZRS(지역 영역 중복 스토리지)를 비롯한 Azure Storage 중복 옵션을 사용하여 이 데이터를 다른 지역에 추가로 복제합니다. 데이터 내보내기에서는 지역 수집 파이프라인에 영향을 주는 인시던트에 대한 복원력을 제공하지 않습니다. 데이터 내보내기에서 지원되지 않는 테이블 내보내기가 필요한 경우 Azure Logic Apps를 비롯한 다른 데이터 내보내기 방법을 사용하여 데이터를 보호할 수 있습니다. |
내보낸 상태에서 기록 작업 로그 데이터를 쉽게 쿼리할 수 없습니다. 그러나 데이터가 장기간 지역 가동 중단에서 살아남고 장기간 액세스하고 보존할 수 있습니다. |
중요 업무용 워크로드의 경우 지역 오류가 있는 경우 여러 작업 영역을 사용하여 고가용성을 제공하는 페더레이션된 작업 영역 모델을 구현하는 것이 좋습니다. 이 방법을 구현하려면 Azure에서 매우 신뢰할 수 있는 애플리케이션을 디자인하는 방법에 대한 Azure의 중요 업무용 워크로드의 상태 모델링 및 관찰 가능성에 설명된 지침을 따르세요. |
디자인 방법론에는 Azure 지역의 실패를 포함하여 여러 오류가 있는 경우 고가용성을 제공하기 위해 여러 Log Analytics 작업 영역이 있는 페더레이션된 작업 영역 모델이 포함됩니다. 이 전략은 지역 간 송신 비용을 없애고, 워크로드는 지역 실패 시에도 계속 작동합니다. |
데이터 수집 규칙 만들기 및 관리에 대한 모범 사례에 설명된 대로 DCR 규칙을 단순하게 유지하고 DCR에서 변환을 최소화하도록 단일 책임 원칙으로 DCR을 디자인합니다. 규칙 할당의 컴퍼지션을 사용하여 논리 대상에 대해 원하는 관찰 범위 달성 |
좁게 초점을 맞춘 DCR을 사용하는 경우 규칙 구성이 더 광범위한 영향을 미칠 위험을 최소화합니다. 또한 효과를 DCR이 빌드된 범위로만 제한합니다. 변환은 일부 시나리오에서 강력하고 필요할 수 있지만 KQL(키워드 쿼리 언어) 작업을 테스트하고 문제를 해결하는 것은 어려울 수 있습니다. |
중요한 운영 데이터 수집이 계속되도록 하면서 가출 수집을 방지하도록 일일 상한 설정을 구성합니다. 일반적인 일일 수집 볼륨 위에 한도를 설정하고 중요한 데이터 수집이 중지되기 전에 조사할 용량에 접근할 때 경고를 만듭니다. 문제 해결 및 인시던트 대응 요구 사항에 맞는 데이터 보존 정책을 설정합니다. 이 방법은 근본 원인 분석을 지원하기에 충분한 기간 동안 중요한 로그 형식을 유지합니다. |
일별 상한은 신속한 인시던트 대응에 필요한 중요한 로그 수집을 방해하지 않도록 하여 중단 및 인시던트 시 필수 문제 해결 데이터의 지속적인 가용성을 보장하는 데 도움이 됩니다. 적절한 보존 정책은 신뢰할 수 있는 워크로드 작업 및 빠른 평균 복구 시간을 지원하는 효과적인 근본 원인 분석, 추세 식별 및 패턴 인식에 필요한 기록 운영 데이터에 대한 액세스를 유지합니다. |
Log Analytics Workspace Insights를 사용하여 수집 볼륨, 수집된 데이터 대 데이터 상한, 응답하지 않는 로그 원본 및 실패한 쿼리를 추적합니다. 데이터 센터 또는 지역별 오류로 인해 작업 영역을 사용할 수 없게 되면 사전에 알리기 위해 상태 경고를 만듭니다. |
작업 영역 인사이트는 작업 영역의 상태를 성공적으로 모니터링하고 워크로드 상태가 저하될 위험이 있는 경우 사전에 조치를 취하는 데 도움이 됩니다. 워크로드의 다른 모든 구성 요소와 마찬가지로 상태 메트릭을 인식하고 추세를 식별하여 시간이 지남에 따라 안정성을 향상시킬 수 있는 것이 중요합니다. |
안전
보안 핵심 요소의 목적은 워크로드에 기밀성, 무결성 및 가용성 보장을 제공하는 것입니다.
보안 디자인 원칙은 모니터링 및 로깅 솔루션에 대한 기술 디자인에 접근 방식을 적용하여 이러한 목표를 달성하기 위한 높은 수준의 디자인 전략을 제공합니다.
워크로드 디자인 검사 목록
보안에 대한 디자인 검토 검사 목록을 기반으로 디자인 전략을 시작하고 취약성 및 컨트롤을 식별하여 보안 상태를 개선합니다.
보안 모범 사례를 검토합니다.Azure Monitor 보안 기준의 보안 모범 사례를 검토하고 Log Analytics 작업 영역에 대한 액세스 관리 문서를 참조하세요 .
세분화를 사용하여 작업 영역을 초석 원칙으로 배포합니다. 네트워킹, 데이터 및 액세스 수준에서 분할을 구현합니다. 분할은 작업 영역이 적절한 수준까지 격리되도록 하는 데 도움이 됩니다. 또한 안정성, 비용 최적화, 운영 우수성 및 성능 효율성에 대한 비즈니스 요구 사항을 충족하는 동시에 가능한 한 높은 수준의 무단 액세스로부터 작업 영역을 보호하는 데 도움이 됩니다.
작업 영역 읽기 및 쓰기 작업 및 관련 ID를 감사할 수 있는지 확인합니다. 공격자는 운영 로그를 볼 때 이점을 얻을 수 있습니다. ID가 손상되어 로그 삽입 공격이 발생할 수 있습니다. Azure Portal 또는 API 상호 작용 및 관련 사용자를 통해 실행되는 작업에 대한 감사를 사용하도록 설정합니다.
작업 영역을 감사하도록 설정되지 않은 경우 조직이 규정 준수 요구 사항을 위반할 위험에 처할 수 있습니다.
강력한 네트워크 컨트롤 구현: 네트워크 격리 및 방화벽 기능을 통해 작업 영역 및 로그에 대한 네트워크 액세스를 보호합니다. 네트워크 컨트롤이 부족하게 구성되지 않은 경우 무단 또는 악의적인 액세스의 위험이 증가합니다.
불변성 또는 장기 보존이 필요한 데이터 형식을 결정 합니다. 로그 데이터는 프로덕션 시스템 내의 워크로드 데이터와 동일한 엄격성으로 처리해야 합니다. 규정 준수 요구 사항에 따라 중요한 로그 데이터를 성공적으로 저장할 수 있도록 데이터 분류 사례에 로그 데이터를 포함합니다.
암호화를 통해 미사용 로그 데이터 보호: 분할만으로는 로그 데이터의 기밀성을 완전히 보호할 수 없습니다. 무단 원시 액세스가 발생하는 경우 미사용 로그 데이터를 암호화하면 잘못된 행위자가 작업 영역 외부에서 해당 데이터를 사용하지 못하도록 방지할 수 있습니다.
난독화를 통해 중요한 로그 데이터를 보호합니다. 프로덕션 시스템에 상주하는 워크로드 데이터와 마찬가지로, 운영 로그에 의도적으로 또는 의도치 않게 존재할 수 있는 중요한 정보에 대해 기밀성이 유지되도록 추가 조치를 취해야 합니다. 난독 처리 방법을 사용하면 무단 액세스에서 중요한 로그 데이터를 숨길 수 있습니다.
구성 권장 사항
추천 | 이익 |
---|---|
고객 관리형 키를 사용하여 암호화 키를 제어해야 하는 경우 작업 영역에서 데이터 및 저장된 쿼리를 보호합니다. 고객 관리형 키에는 비용 효율적일 수 있는 충분한 데이터 볼륨이 있는 전용 클러스터 가 필요합니다. Azure Key Vault에 암호화 키를 저장하고 해당 서비스를 사용하는 경우 특정 Microsoft Sentinel 요구 사항을 고려합니다. |
고객 관리형 키는 규정 또는 조직의 요구 사항이 고객 제어 암호화를 요구하는 경우 키 수명 주기 및 데이터 액세스를 취소하는 기능을 제어합니다. |
쿼리를 실행하는 사용자를 추적하도록 로그 쿼리 감사를 구성합니다.
Log Analytics 작업 영역 인사이트를 사용하여 이 데이터를 주기적으로 검토합니다. 권한이 없는 사용자가 쿼리를 실행하려고 할 때 사전에 알리도록 로그 쿼리 경고 규칙을 만드는 것이 좋습니다. |
쿼리 감사는 작업 영역에서 실행되는 각 쿼리에 대한 세부 정보를 기록하고 권한이 없는 액세스가 발생하는 경우 즉시 catch되도록 하여 보안 태세를 강화합니다. |
프라이빗 링크 기능을 사용하여 로그 원본과 작업 영역 간의 통신을 프라이빗 네트워킹으로 제한합니다. | 프라이빗 링크는 네트워크 격리를 제공하고 지정된 작업 영역에 액세스할 수 있는 가상 네트워크를 제어할 수 있습니다. 이 방법은 세분화를 통해 보안을 더욱 향상시킵니다. |
사용 가능한 경우 작업 영역 API 액세스를 위해 API 키 대신 Microsoft Entra ID를 사용합니다. 프로그래밍 방식 액세스를 위해 충분히 범위가 지정된 Microsoft Entra ID 기반 액세스를 사용합니다. | Microsoft Entra ID 인증은 쿼리 API에 대한 API 키 기반 액세스와 달리 프로그래밍 방식 액세스를 위한 클라이언트별 감사 내역을 제공합니다. |
작업 영역에 대한 액세스 제어 모드 를 설정하여 리소스 또는 작업 영역 권한을 사용합니다. 이 액세스 제어를 사용하면 리소스 소유자가 리소스 컨텍스트 를 사용하여 작업 영역에 대한 명시적 액세스 권한을 부여하지 않고 데이터에 액세스할 수 있습니다. 여러 리소스에서 테이블 집합에 액세스해야 하는 사용자에게 는 테이블 수준 RBAC(역할 기반 액세스 제어) 를 사용합니다. 적절한 기본 제공 역할을 할당하여 해당 책임의 범위에 따라 구독, 리소스 그룹 또는 작업 영역 수준에서 관리자에게 작업 영역 권한을 부여합니다. 작업 영역의 데이터에 대한 액세스 권한을 부여하는 다양한 옵션에 대한 자세한 내용은 Log Analytics 작업 영역에 대한 액세스 관리를 참조하세요. |
적절한 액세스 제어 모드 구성은 작업 영역 구성을 간소화하고 사용자가 해서는 안 되는 운영 데이터에 액세스할 수 없도록 합니다. 테이블 권한이 있는 사용자는 리소스 사용 권한에 관계없이 테이블의 모든 데이터에 액세스할 수 있습니다. |
데이터 내보내기를 사용하여 변경 불변성 정책을 사용하여 Azure Storage 계정으로 데이터를 보내 데이터 변조로부터 보호합니다. 규정 준수, 감사 또는 보안 요구 사항에 따라 내보내야 하는 특정 데이터 형식을 결정하고 필요에 따라 데이터를 제거 합니다. |
불변성 정책을 사용하여 데이터를 내보내는 것은 감사 데이터의 장기 보존을 위한 규정 준수 요구 사항을 충족합니다. Log Analytics 작업 영역의 데이터는 변경할 수 없지만 제거할 수 있습니다. |
특정 데이터 원본에 대한 구성을 사용하여 수집해서는 안 되는 레코드를 필터링합니다. 데이터의 특정 열만 제거하거나 난독 제거해야 하는 경우 변환 을 사용합니다. 원래 데이터를 수정하지 않아도 되는 표준이 있는 경우 KQL 쿼리에서 'h' 리터럴 을 사용하여 통합 문서에 표시된 쿼리 결과를 난독 처리할 수 있습니다. |
데이터 필터링 및 변환은 중요한 정보에 대한 기밀성을 유지하고 요구 사항을 사전에 준수하는 데 도움이 됩니다. |
비용 최적화
비용 최적화는 비즈니스 요구 사항을 충족 하면서 지출 패턴을 감지하고, 중요한 영역에 대한 투자의 우선 순위를 지정하고, 조직의 예산을 충족하도록 다른 영역에서 최적화하는 데 중점을 둡니다.
비용 최적화 디자인 원칙은 이러한 비즈니스 목표를 달성하기 위한 높은 수준의 디자인 전략을 제공합니다. 또한 모니터링 및 로깅 솔루션과 관련된 기술 설계에서 필요에 따라 장만할 수 있습니다.
워크로드 디자인 검사 목록
투자 비용 최적화 을 위한 디자인 검토 체크리스트를 기반으로 디자인 전략을 시작하세요. 워크로드가 워크로드에 할당된 예산과 일치할 수 있도록 디자인을 미세 조정합니다. 디자인은 적절한 Azure 기능을 사용하고, 투자를 모니터링하고, 시간이 지남에 따라 최적화할 기회를 찾아야 합니다.
비용 모델링 연습을 수행합니다. 이러한 연습을 통해 현재 작업 영역 비용을 이해하고 작업 영역 증가에 따른 비용을 예측할 수 있습니다. 워크로드의 성장 추세를 분석하고 워크로드 확장 계획을 이해하여 향후 운영 로깅 비용을 적절하게 예측해야 합니다.
올바른 청구 모델을 선택합니다. 비용 모델을 사용하여 시나리오에 가장 적합한 청구 모델을 결정합니다. 현재 작업 영역을 사용하는 방법과 워크로드가 발전함에 따라 작업 영역을 사용하려는 방법은 종량제 또는 약정 계층 모델이 시나리오에 가장 적합한지 여부를 결정합니다.
각 작업 영역에 대해 다른 청구 모델을 선택할 수 있습니다. 특정 경우에 작업 영역 비용을 결합할 수도 있으므로 분석 및 의사 결정에서 세분화할 수 있습니다.
적절한 양의 로그 데이터만 수집 합니다. 리소스, 데이터 수집 규칙 구성 및 사용자 지정 애플리케이션 코드 로깅에 대한 진단 설정에 대해 정기적으로 예약된 분석을 수행하여 불필요한 로그 데이터를 수집하지 않도록 합니다.
프로덕션 환경과 다르게 비프로덕션 환경을 처리합니다. 비프로덕션 환경을 검토하여 진단 설정 및 보존 정책이 적절하게 구성되었는지 확인합니다. 이러한 설정 및 정책은 특히 개발/테스트 또는 샌드박스 환경의 경우 프로덕션 환경보다 훨씬 덜 강력할 수 있습니다.
구성 권장 사항
추천 | 이익 |
---|---|
각 Log Analytics 작업 영역에서 일반적으로 수집하는 데이터의 양에 대한 가격 책정 계층을 구성합니다. 충분한 데이터를 수집하는 경우 약정 계층 을 사용하여 더 낮은 속도의 대가로 수집된 일일 최소 데이터로 커밋합니다. 약정 계층 및 적절한 사용 수준을 결정하는 방법에 대한 지침에 대한 자세한 내용은 Azure Monitor 로그 비용 계산 및 옵션을 참조하세요. 다양한 가격 책정 계층에서 사용량의 예상 비용을 보려면 사용량 및 예상 비용을 참조하세요. |
약정 계층은 최소 약정 임계값을 충족하기에 충분한 일일 데이터 볼륨을 수집할 때 종량제 가격 책정에 비해 비용을 크게 절감합니다. |
단일 지역의 작업 영역에서 충분한 데이터를 수집하는 경우 전용 클러스터 에 연결하고 클러스터 가격 책정을 사용하여 수집된 볼륨을 결합합니다. 비용 효율적인 가격 책정 계층을 달성하기 위해 여러 작업 영역에서 수집 볼륨을 집계하도록 클러스터를 구성합니다. |
클러스터 가격이 책정된 전용 클러스터는 동일한 지역에 여러 작업 영역이 있는 경우 상당한 비용을 절감할 수 있습니다. 이 설정을 사용하면 데이터 볼륨을 결합하여 더 높은 약정 계층에 도달하고 기가바이트당 수집 비용을 줄일 수 있습니다. |
데이터 보존 및 보관을 구성합니다. 로그 쿼리에 데이터를 쉽게 사용할 수 있도록 하려면 특정 요구 사항을 고려합니다. 보관된 로그를 구성하여 최대 7년 동안 데이터를 보존하고 검색 작업을 통해 또는 작업 영역에 데이터 집합을 복원하여 가끔씩 액세스합니다. |
데이터 보존 및 보관 구성은 필요한 경우 기록 데이터에 대한 액세스를 유지하면서 기본 기간을 초과하는 장기 데이터 보존 비용을 크게 줄입니다. |
대용량 데이터 스트림에 대한 요약 규칙을 사용하여 스토리지 비용을 최적화합니다. 요약 규칙을 사용하면 분석, 기본 또는 보조 계획에서 높은 수집 속도 스트림을 요약하여 요약된 데이터에 대한 강력한 분석, 대시보드 및 장기 보고 환경을 제공할 수 있습니다. 요약 규칙을 사용하면 집계된 데이터 세트를 통해 분석 인사이트를 유지하면서 대용량 로그 데이터에 대한 스토리지 비용을 크게 줄이는 자동화된 데이터 요약 기능을 사용할 수 있습니다. |
요약 규칙은 스토리지 최적화를 위해 고주파 원시 데이터가 요약되는 계층화된 데이터 아키텍처를 만들어 비용 효율적인 장기 데이터 보존을 제공합니다. 조직은 장기적인 데이터 보존 비용을 최적화하면서 집계된 데이터 세트를 통해 자세한 인사이트를 유지 관리하여 분석 요구 사항과 비용 효율성의 균형을 맞출 수 있습니다. |
Microsoft Sentinel을 사용하여 보안 로그를 분석하는 경우 별도의 작업 영역을 사용하여 해당 로그를 저장하는 것이 좋습니다. 비용 영향을 이해하려면 Microsoft Sentinel 가격 책정 을 검토하세요. | 별도의 작업 영역을 사용하면 Microsoft Sentinel 가격 책정에 적용되는 보안 로그를 표준 Log Analytics 가격 책정에 부과된 운영 로그와 구분하여 비용을 제어할 수 있습니다. |
기본 로그로 디버깅, 문제 해결 및 감사에 사용되는 테이블을 구성합니다. | 기본 로그 구성은 자주 쿼리되지 않는 테이블에 대한 더 낮은 수집 비용을 제공합니다. 여기서 쿼리 요금은 수집 비용 절감으로 상쇄될 수 있습니다. |
필수 운영 데이터만 수집하도록 진단 설정 및 DCR 을 구성하여 적절한 양의 데이터를 캡처합니다. 각 리소스의 데이터 원본을 검토하여 불필요한 데이터를 방지하면서 모니터링 값을 제공하는 데이터를 수집하도록 합니다. 구성 지침 은 Azure Monitor의 비용 최적화 를 참조하세요. |
적절한 양의 데이터를 캡처하면 운영에서 중요한 데이터에 집중하면서 노이즈를 제거하여 비용을 절감할 수 있습니다. 이 방법을 사용하면 모니터링 목표에 기여하지 않는 데이터에 대한 비용을 지불하지 않고 필수 메트릭을 캡처할 수 있습니다. |
정기적으로 작업 영역 사용량 현황 데이터를 분석하여 추세 및 변칙을 식별합니다.
Log Analytics 작업 영역 인사이트를 사용하여 작업 영역에서 수집된 데이터의 양을 주기적으로 검토합니다. Log Analytics 작업 영역에서 사용량 분석의 메서드를 사용하여 데이터 수집을 추가로 분석하여 다른 구성에서 사용량을 더 줄일 수 있는지 여부를 확인합니다. |
정기적인 사용 현황 분석을 통해 다양한 원본에서 데이터 수집을 이해하고, 초과 비용으로 이어질 수 있는 이상 및 상향 추세를 식별하고, 새 데이터 원본을 도입할 때 비용을 사전에 관리할 수 있습니다. |
데이터 수집량이 많을 때는 경고를 만듭니다. 과도한 사용에 대한 사전 알림을 설정합니다. | 높은 데이터 수집 경고를 사용하면 청구 기간이 끝나기 전에 잠재적인 변칙을 해결할 수 있으므로 예기치 않은 청구서를 방지할 수 있습니다. |
일별 한도 를 사용하는 경우에 설명된 대로 잘못된 구성 또는 남용으로 인한 가출 수집 을 방지하도록 일일 한도를 구성합니다. 용량 90%와 같이 한도에 도달 하고 백분율에 도달하면 알리는 경고를 만듭니다. |
일일 상한 구성은 예기치 않은 예산 초과를 방지하면서 중요한 데이터 수집이 차단되기 전에 증가된 데이터의 원인을 조사하고 해결할 수 있는 기회를 제공합니다. |
운영 효율성
운영 우수성은 주로 개발 관행, 관찰성 및 릴리스 관리를 위한 절차에 중점을 둡니다.
운영 우수성 디자인 원칙은 워크로드의 운영 요구 사항에 대한 목표 달성을 위해 고수준 디자인 전략을 제공합니다.
워크로드 디자인 검사 목록
Log Analytics 작업 영역과 관련된 관찰성, 테스트 및 배포에 대한 프로세스를 정의하기 위한 운영 우수성에 대한 디자인 검토 검사 목록을 기반으로 디자인 전략을 시작합니다.
워크로드의 Log Analytics 작업 영역과 관련된 모든 함수에 대해 IaC(Infrastructure as Code)를 사용합니다. 코드를 통해 가능한 한 많은 함수를 자동화하여 저장된 쿼리 및 쿼리 팩을 포함하여 로그 수집, 수집, 스토리지 및 쿼리 함수를 수동으로 관리하고 운영함으로써 발생할 수 있는 사용자 오류의 위험을 최소화합니다.
또한 상태 변경을 보고하는 경고와 IaC 코드에서 작업 영역으로 로그를 보내는 리소스에 대한 진단 설정 구성을 포함합니다. 작업 영역 관리를 위해 안전한 배포 사례를 유지 관리할 수 있도록 코드를 다른 워크로드 관련 코드와 함께 포함합니다.
작업 영역이 정상이고 문제가 발생할 때 알림을 받 도록 합니다. 워크로드의 다른 구성 요소와 마찬가지로 작업 영역에 문제가 발생할 수 있습니다. 이러한 문제는 진단 및 수정에 중요한 시간과 리소스를 소비할 수 있으며, 프로덕션 워크로드의 상태를 인식하지 못할 수 있습니다. 작업 영역의 사전 모니터링 및 초기 문제 완화를 통해 운영 팀은 문제 해결 및 복구에 소요되는 시간을 줄일 수 있습니다.
프로덕션을 비프로덕션 워크로드와 분리합니다. 프로덕션 환경에 대해 비프로덕션 환경에서 사용하는 작업 영역과 다른 작업 영역을 사용하여 운영 팀에 추가 작업을 발생시킬 수 있는 불필요한 복잡성을 방지합니다. 또한 다가오는 데이터는 테스트 활동이 프로덕션의 이벤트로 보일 수 있으므로 혼동을 야기할 수 있습니다.
비 Microsoft 솔루션보다 기본 제공 도구 및 함수를 선호합니다. 기본 제공 도구를 사용하여 모니터링 및 로깅 시스템의 기능을 확장합니다. Log Analytics 작업 영역에서 기본으로 사용할 수 없는 복구 가능성 또는 데이터 주권과 같은 요구 사항을 지원하기 위해 추가 구성을 적용해야 할 수 있습니다. 이러한 경우 실용적일 때 네이티브 Azure 또는 Microsoft 도구를 사용하여 조직에서 지원해야 하는 도구 수를 최소화합니다.
작업 영역을 임시 구성 요소가 아닌 정적 구성 요소로 처리합니다. 다른 유형의 데이터 저장소와 마찬가지로 작업 영역은 워크로드의 임시 구성 요소 중에서 고려해서는 안 됩니다. Well-Architected Framework는 일반적으로 변경할 수 없는 인프라와 배포의 일부로 워크로드 내의 리소스를 빠르고 쉽게 대체할 수 있는 기능을 선호합니다. 그러나 작업 영역 데이터의 손실은 치명적이고 되돌릴 수 없습니다.
이러한 이유로 업데이트 중에 인프라를 대체하는 배포 패키지에서 작업 영역을 나가고 작업 영역에서만 현재 위치 업그레이드를 수행합니다.
작업 직원이 Kusto 쿼리 언어로 학습되었는지 확인합니다 . 필요할 때 쿼리를 만들거나 수정하도록 직원을 교육합니다. 운영자가 쿼리를 작성하거나 수정할 수 없는 경우 운영자가 다른 팀에 의존하여 해당 작업을 수행해야 하기 때문에 중요한 문제 해결 또는 기타 기능이 느려질 수 있습니다.
구성 권장 사항
추천 | 이익 |
---|---|
만들 작업 영역 수 및 배치 위치를 포함하여 비즈니스 요구 사항을 충족하도록 Log Analytics 작업 영역 아키텍처를 디자인합니다. 워크로드가 중앙 집중식 플랫폼 팀 제품을 사용하는 경우 필요한 모든 운영 액세스를 설정해야 합니다. |
잘 설계된 작업 영역 전략은 운영 및 보안 데이터의 배포를 제한하고, 잠재적인 문제에 대한 가시성을 높이고, 패턴을 보다 쉽게 식별하고, 유지 관리 요구 사항을 최소화하여 워크로드의 운영 효율성을 극대화합니다. |
ARM 템플릿, Bicep 또는 Terraform과 같은 IaC 템플릿을 사용하여 Log Analytics 작업 영역을 배포합니다. 버전 제어 템플릿에서 작업 영역 구성 및 저장된 쿼리를 정의합니다. 표준화된 기준 구성을 유지하면서 환경별 설정에 대한 템플릿을 매개 변수화합니다. |
IaC 템플릿은 일관되고 반복 가능한 프로세스를 통해 환경 간의 구성 드리프트를 제거하고 배포 오류를 줄입니다. 버전 제어는 변경 내용 추적을 가능하게 하고 규정 준수 요구 사항에 대한 감사 내역을 용이하게 합니다. |
Azure Pipelines 또는 GitHub Actions를 통해 Log Analytics 작업 영역 배포를 자동화하는 CI/CD(지속적인 통합 및 지속적인 업데이트) 파이프라인을 구현합니다. 자동화된 테스트를 통합하여 프로덕션 배포 전에 작업 영역 구성의 유효성을 검사합니다. 일관된 안전한 배포 사례를 적용하기 위해 애플리케이션 코드 리포지토리를 사용하여 작업 영역 인프라 코드를 공동 배치합니다. |
자동화된 CI/CD 파이프라인은 유효성 검사를 통해 일관된 품질을 유지하면서 배포 시간을 줄입니다. 안전한 배포 방법은 사용자 오류의 위험을 최소화하고 업데이트 중에 문제가 발생할 때 롤백 기능을 제공합니다. |
Log Analytics 작업 영역에 대한 기본 제공 정책과 함께 Azure Policy 를 사용하여 작업 영역 구성 표준을 적용합니다. 필수 진단 설정 및 명명 규칙과 같은 조직별 요구 사항에 대한 사용자 지정 정책을 만듭니다. 적절한 범위에서 정책 할당을 구현하여 새 작업 영역에 거버넌스 규칙을 자동으로 적용하고 구성 드리프트를 검색합니다. |
정책 적용은 수동 감독 없이 모든 작업 영역에서 일관된 거버넌스를 보장하여 운영 오버헤드를 줄입니다. 자동화된 규정 준수 검사는 구성 드리프트를 검색하여 보안 및 운영 문제를 방지합니다. 정책을 통한 표준화된 구성은 확장 가능한 작업 영역 관리를 지원하고 일관된 감사 상태를 사용하도록 설정합니다. |
Log Analytics 작업 영역 인사이트를 사용하여 Log Analytics 작업 영역의 상태 및 성능을 추적합니다. Log Analytics Workspace Insights에서 정기적으로 제공하는 정보를 검토하여 각 작업 영역의 상태 및 작업을 추적합니다. 운영 문제가 발생할 때 사전에 알림을 받을 작업 테이블을 기반으로 경고 규칙을 만듭니다. 작업 영역에 권장되는 경고를 사용하여 가장 중요한 경고 규칙을 만드는 방법을 간소화합니다. |
Log Analytics 작업 영역 인사이트는 모든 작업 영역에 대한 사용량, 성능, 상태, 에이전트, 쿼리 및 변경 로그에 대한 통합 보기를 제공합니다. Log Analytics Workspace Insights를 사용하면 작업 팀과 관련자가 작업 영역 상태를 추적하는 데 사용할 수 있는 대시보드 또는 보고서와 같이 쉽게 이해할 수 있는 시각화를 만들 수 있습니다. |
리소스, DCR 및 애플리케이션 로그 세부 정보 표시에 대한 Azure 진단 설정을 자주 다시 검토하여 지속적인 개선을 연습합니다. 리소스 설정을 자주 검토하여 로그 수집 전략을 최적화해야 합니다. 운영 관점에서 리소스의 상태에 대한 유용한 정보를 제공하는 로그에 집중하여 로그의 노이즈를 줄이려고 합니다. |
지속적인 개선 사례를 통해 운영자는 문제를 조사하고 해결하며 일상적인, 즉석 또는 응급 작업이 발생할 때 이를 처리할 수 있습니다. 또한 이러한 사례는 운영 팀이 추적하는 데 가장 중요한 활동에 집중하여 로그 볼륨을 줄입니다. |
성능 효율성
성능 효율성은 용량 을 관리하여 부하가 증가하는 경우에도 사용자 환경을 유지하는 것입니다. 이 전략에는 리소스 크기 조정, 잠재적 병목 현상 식별 및 최적화, 최고 성능 최적화가 포함됩니다.
성능 효율성 디자인 원칙은 예상된 사용량에 대해 이러한 용량 목표를 달성하기 위한 높은 수준의 디자인 전략을 제공합니다.
워크로드 디자인 검사 목록
성능 효율성 대한디자인 검토 검사 목록을 기반으로 디자인 전략을 시작합니다. Log Analytics 작업 영역에 대한 주요 성능 지표를 기반으로 하는 기준을 정의합니다.
Azure Monitor에서 로그 데이터 수집 대기 시간의 기본 사항을 숙지합니다. 작업 영역에 로그를 수집할 때 대기 시간에 영향을 주는 몇 가지 요인이 있습니다. 이러한 요인의 대부분은 Azure Monitor 플랫폼에 내재되어 있습니다.
요인과 일반적인 대기 시간 동작을 이해하면 워크로드 운영 팀 내에서 적절한 기대치를 설정하는 데 도움이 될 수 있습니다.
비프로덕션 및 프로덕션 워크로드를 구분합니다. 프로덕션 관련 작업 영역은 비프로덕션 시스템이 도입할 수 있는 오버헤드를 완화합니다. 분리는 로그 데이터 처리를 처리하는 데 필요한 리소스를 줄여 작업 영역의 전체 공간을 줄입니다.
성능 요구 사항을 충족하는 올바른 배포 지역을 선택합니다. 워크로드에 가까운 Log Analytics 작업 영역 및 DCE를 배포합니다. 워크로드를 배포하는 위치는 작업 영역 및 DCE를 배포할 적절한 지역을 선택하도록 알려야 합니다.
로그 데이터에 대한 이러한 요구 사항을 지원할 수 없는 지역에 워크로드를 이미 배포한 경우 워크로드와 동일한 지역에 작업 영역 및 DCE를 배포하면 성능상의 이점을 고려해야 할 수 있습니다.
구성 권장 사항
추천 | 이익 |
---|---|
로그 쿼리 감사를 구성하고 Log Analytics Workspace Insights를 사용하여 느리고 비효율적인 쿼리를 식별합니다. 느린 로그 쿼리의 성능을 향상시키는 방법에 대한 지침은 Azure Monitor의 로그 쿼리 최적화를 참조하세요. |
최적화된 쿼리는 결과를 더 빠르게 반환하고 백 엔드에서 더 적은 리소스를 사용하므로 이러한 쿼리를 사용하는 프로세스가 더 효율적입니다. |
검색 작업을 사용하여 대규모 데이터 세트 및 장기 보존 데이터에 대한 복잡한 분석 쿼리를 수행합니다. 검색 작업은 장기 보존 기간의 데이터를 포함하여 Log Analytics 작업 영역의 모든 데이터에서 실행되는 비동기 쿼리입니다. 검색 작업은 추가 쿼리에 대한 결과를 사용할 수 있도록 작업 영역 내에 새 분석 테이블을 만듭니다. 이 기능을 사용하면 분석 워크로드를 운영 모니터링과 분리하여 시스템 성능을 향상하는 동시에 포괄적인 데이터 액세스를 유지할 수 있습니다. |
검색 작업은 실시간 모니터링 성능에 영향을 주지 않고 복잡한 기록 데이터 분석을 지원합니다. 리소스 충돌을 최소화하면서 전용 분석 처리를 사용하도록 설정하여 보안 팀과 분석가가 운영 모니터링 응답성을 유지하면서 보관된 데이터에 대해 집중적인 쿼리를 실행할 수 있습니다. |
Azure Monitor 서비스 제한 및Log Analytics 작업 영역 제한을 검토하여 성능 및 작업 영역 디자인에 영향을 줄 수 있는 제한을 파악합니다. 단일 작업 영역과 관련된 제한에 도달하는 것을 방지하기 위해 여러 작업 영역을 사용해야 할 수 있는 서비스 제한을 완화하기 위해 적절하게 디자인합니다. |
작업 영역의 성능에 영향을 줄 수 있는 제한을 이해하면 이를 완화하고 디자인 결정을 다른 핵심 요소의 요구 사항 및 대상과 균형을 맞추기 위해 적절하게 디자인할 수 있습니다. |
하나 이상의 정의된 관찰 가능성 범위 내에서 데이터 원본 형식과 관련된 DCR 을 만듭니다. 성능 및 이벤트를 위한 별도의 DCR을 만들어 백 엔드 처리 컴퓨팅 사용을 최적화합니다. |
성능 및 이벤트에 대한 별도의 DCR은 백 엔드 리소스 고갈을 완화하고 Azure Monitor 에이전트가 응답하지 않을 수 있는 과도한 컴퓨팅 리소스 소비를 방지하는 데 도움이 됩니다. |
Azure 정책
Azure는 Log Analytics 및 해당 종속성과 관련된 광범위한 기본 제공 정책 집합을 제공합니다. 이전 권장 사항 중 일부는 Azure Policy를 통해 감사할 수 있습니다. 예를 들어 다음 컨트롤이 제자리에 있는지 확인할 수 있습니다.
Log Analytics 클러스터는 고객 관리형 키로 암호화됩니다.
저장된 쿼리는 암호화를 위해 고객 스토리지 계정에 저장됩니다.
Log Analytics 작업 영역은 타사 Entra ID 기반 수집을 차단합니다.
Log Analytics 작업 영역은 공용 네트워크에서 로그 수집 및 쿼리를 차단합니다.
프라이빗 링크 구성은 보안 액세스를 위해 올바르게 구현됩니다.
포괄적인 거버넌스를 위해 Log Analytics에 대한 Azure Policy 기본 제공 정의 및 모니터링 및 로깅 인프라의 보안에 영향을 줄 수 있는 기타 정책을 검토합니다.
Azure Advisor 권장 사항
Azure Advisor는 모범 사례를 따라 Azure 배포를 최적화하는 데 도움이 되는 개인 설정된 클라우드 컨설턴트입니다.
자세한 내용은 Advisor를 참조 하세요.