다음을 통해 공유


Azure Synapse Data Explorer란? (미리 보기)

중요합니다

Azure Synapse Analytics 데이터 탐색기(미리 보기)는 2025년 10월 7일에 사용 중지됩니다. 이 날짜 이후에는 Synapse 데이터 탐색기에서 실행되는 워크로드가 삭제되고 연결된 애플리케이션 데이터가 손실됩니다. Microsoft Fabric의 Eventhouse로 마이그레이션하는 것이 좋습니다.

Microsoft CMF(Cloud Migration Factory) 프로그램은 고객이 패브릭으로 마이그레이션할 수 있도록 지원하도록 설계되었습니다. 이 프로그램은 고객에게 비용 없이 실습 키보드 리소스를 제공합니다. 이러한 리소스는 미리 정의되고 합의된 범위로 6~8주 동안 할당됩니다. 고객 추천은 Microsoft 계정 팀에서 또는 CMF 팀에 도움말 요청을 제출하여 직접 수락됩니다.

Azure Synapse Data Explorer는 로그 및 원격 분석 데이터를 통해 인사이트를 확보할 수 있는 대화형 쿼리 환경을 고객에게 제공합니다. 기존 SQL 및 Apache Spark 분석 런타임 엔진을 보완하기 위해 Data Explorer 분석 런타임은 강력한 인덱싱 기술을 사용하여 원격 분석 데이터에 일반적으로 있는 자유 텍스트 및 반구조화된 데이터를 자동으로 인덱싱하는 효율적인 로그 분석에 최적화되어 있습니다.

Azure Synapse 아키텍처를 보여 주는 다이어그램

자세한 내용은 다음 비디오를 참조하세요.

Azure Synapse Data Explorer의 고유한 이유는 무엇인가요?

  • 간편한 수집 - Data Explorer는 코드 없음/낮은 코드, 처리량이 높은 데이터 수집 및 실시간 원본의 데이터 캐싱을 위한 기본 제공 통합을 제공합니다. Azure Event Hubs, Kafka, Azure Data Lake, Fluentd/Fluent Bit와 같은 오픈 소스 에이전트 및 다양한 클라우드 및 온-프레미스 데이터 원본과 같은 원본에서 데이터를 수집할 수 있습니다.

  • 복잡한 데이터 모델링 없음 - 데이터 탐색기를 사용하면 복잡한 데이터 모델을 빌드할 필요가 없으며, 데이터를 소비하기 전에 복잡한 스크립팅을 사용하여 데이터를 변환할 필요가 없습니다.

  • 인덱스 유지 관리 없음 - 쿼리 성능을 위해 데이터를 최적화하기 위해 유지 관리 작업이 필요하지 않으며 인덱스 유지 관리가 필요하지 않습니다. 데이터 탐색기를 사용하면 모든 원시 데이터를 즉시 사용할 수 있으므로 스트리밍 및 영구 데이터에 대해 고성능 및 동시성 쿼리를 실행할 수 있습니다. 이러한 쿼리를 사용하여 거의 실시간 대시보드 및 경고를 빌드하고 운영 분석 데이터를 나머지 데이터 분석 플랫폼과 연결할 수 있습니다.

  • 데이터 분석 민주화 - Data Explorer는 Excel의 단순성으로 SQL의 표현력과 기능을 제공하는 직관적인 KQL(Kusto Query Language)을 사용하여 셀프 서비스 빅 데이터 분석을 민주화합니다. KQL은 효율적인 자유 텍스트 및 정규식 검색을 위해 데이터 탐색기의 동급 최고의 텍스트 인덱싱 기술을 활용하여 원시 원격 분석 및 시계열 데이터를 탐색하는 데 매우 최적화되어 있으며, 추적\텍스트 데이터 및 배열 및 중첩 구조를 포함한 JSON 반구조화된 데이터를 쿼리하기 위한 포괄적인 구문 분석 기능을 제공합니다. KQL은 모델 점수 매기기용 엔진 내 Python 실행 지원을 사용하여 여러 시계열을 만들고, 조작하고, 분석하기 위한 고급 시계열 지원을 제공합니다.

  • 페타바이트 규모의 입증된 기술 - Data Explorer는 독립적으로 확장할 수 있는 컴퓨팅 리소스 및 스토리지가 있는 분산 시스템으로, 기가바이트 또는 페타바이트 데이터에서 분석을 가능하게 합니다.

  • 통합 - Azure Synapse Analytics는 데이터 탐색기, Apache Spark 및 SQL 엔진 간의 데이터 간 상호 운용성을 제공하여 데이터 엔지니어, 데이터 과학자 및 데이터 분석가가 데이터 레이크에서 동일한 데이터에 쉽고 안전하게 액세스하고 공동 작업할 수 있도록 합니다.

Azure Synapse Data Explorer를 사용해야 하는 경우

거의 실시간으로 로그 분석 및 IoT 분석 솔루션을 빌드하기 위한 데이터 플랫폼으로 Data Explorer를 사용하여 다음을 수행합니다.

  • 온-프레미스, 클라우드, 타사 데이터 원본에서 로그 및 이벤트 데이터를 통합하고 상관 관계를 설정합니다.

  • AI Ops 경험(패턴 인식, 변칙 검색, 예측 등)을 가속화합니다.

  • 인프라 기반 로그 검색 솔루션을 대체하여 비용을 절감하고 생산성을 높입니다.

  • IoT 데이터에 대한 IoT 분석 솔루션을 빌드합니다.

  • 내부 및 외부 고객에게 서비스를 제공하는 분석 SaaS 솔루션을 빌드합니다.

데이터 탐색기 풀 아키텍처

데이터 탐색기 풀은 컴퓨팅 및 스토리지 리소스를 분리하여 스케일 아웃 아키텍처를 구현합니다. 이렇게 하면 각 리소스의 크기를 독립적으로 조정할 수 있으며, 예를 들어 동일한 데이터에서 여러 읽기 전용 컴퓨팅을 실행할 수 있습니다. 데이터 탐색기 풀은 자동 인덱싱, 압축, 캐싱 및 분산 쿼리 제공을 담당하는 엔진을 실행하는 컴퓨팅 리소스 집합으로 구성됩니다. 또한 백그라운드 시스템 작업 및 관리 및 대기 중인 데이터 수집을 담당하는 데이터 관리 서비스를 실행하는 두 번째 컴퓨팅 리소스 집합이 있습니다. 모든 데이터는 압축된 열 형식을 사용하여 관리되는 Blob Storage 계정에 유지됩니다.

데이터 탐색기 풀은 커넥터, SDK, REST API 및 기타 관리되는 기능을 사용하여 데이터를 수집하기 위한 풍부한 에코시스템을 지원합니다. 임시 쿼리, 보고서, 대시보드, 경고, REST API 및 SDK에 데이터를 사용하는 다양한 방법을 제공합니다.

데이터 탐색기 풀 아키텍처

Data Explore를 Azure에서 로그 및 시계열 분석에 가장 적합한 분석 엔진으로 만드는 고유한 기능이 많이 있습니다.

다음 섹션에서는 주요 차별화 요소를 강조 표시합니다.

자유 텍스트 및 반구조화된 데이터 인덱싱을 사용하면 거의 실시간으로 고성능 및 높은 동시 쿼리를 사용할 수 있습니다.

데이터 탐색기는 JSON(반구조화된 데이터) 및 구조화되지 않은 데이터(자유 텍스트)를 인덱싱하여 실행 중인 쿼리가 이러한 유형의 데이터에서 잘 작동합니다. 기본적으로 모든 필드는 데이터 수집 중에 하위 수준 인코딩 정책을 사용하여 특정 필드에 대한 인덱스 미세 조정 또는 비활성화 옵션을 사용하여 인덱싱됩니다. 인덱스의 범위는 단일 데이터 샤드입니다.

인덱스의 구현은 다음과 같이 필드의 형식에 따라 달라집니다.

필드 유형 인덱싱 구현
문자열 엔진은 문자열 열 값에 대해 반전된 용어 인덱스를 작성합니다. 각 문자열 값은 분석되고 정규화된 용어로 분할되며 레코드 서수가 포함된 정렬된 논리 위치 목록이 각 용어에 대해 기록됩니다. 결과 정렬된 용어 목록과 관련 위치는 변경할 수 없는 B-트리로 저장됩니다.
숫자
날짜/시간
TimeSpan
엔진은 간단한 범위 기반 정방향 인덱스를 작성합니다. 인덱스가 각 블록, 블록 그룹 및 데이터 분할된 데이터베이스 내의 전체 열에 대한 최소/최대값을 기록합니다.
동적 수집 프로세스는 속성 이름, 값 및 배열 요소와 같은 동적 값 내의 모든 "atomic" 요소를 열거하고 인덱스 작성기로 전달합니다. 동적 필드에는 문자열 필드와 동일한 반전된 용어 인덱스가 있습니다.

이러한 효율적인 인덱싱 기능을 통해 Data Explore는 고성능 및 높은 동시성 쿼리에 거의 실시간으로 데이터를 사용할 수 있습니다. 시스템은 데이터 분할된 데이터베이스를 자동으로 최적화하여 성능을 더욱 향상시킵니다.

Kusto 쿼리 언어

KQL은 Azure Monitor Log Analytics 및 Application Insights, Microsoft Sentinel, Azure Data Explorer 및 기타 Microsoft 제품을 빠르게 채택하여 성장하고 있는 대규모 커뮤니티를 보유하고 있습니다. 이 언어는 읽기 쉬운 구문으로 잘 설계되었으며 간단한 한 줄에서 복잡한 데이터 처리 쿼리로 원활하게 전환할 수 있습니다. 이를 통해 Data Explorer는 SQL에서 원격 분석 데이터를 신속하게 탐색할 수 없는 집계, 시계열 및 사용자 분석을 위한 풍부한 Intellisense 지원 및 풍부한 언어 구문 및 기본 제공 기능을 제공할 수 있습니다.

다음 단계