다음을 통해 공유


Azure에서 분석 데이터 저장소 선택

빅 데이터 아키텍처에서는 분석 도구를 사용하여 쿼리할 수 있는 구조화된 형식으로 처리된 데이터를 제공하는 분석 데이터 저장소가 필요한 경우가 많습니다. 핫 경로 및 콜드 경로 데이터의 쿼리를 지원하는 분석 데이터 저장소를 서비스 계층 또는 스토리지를 제공하는 데이터라고 합니다.

서비스 계층은 핫 경로와 콜드 경로 모두에서 처리된 데이터를 처리합니다. 람다 아키텍처에서 서비스 계층은 두 계층으로 세분화됩니다. 속도 서비스 계층에는 증분 처리된 데이터가 포함됩니다. 일괄 처리 처리 계층에는 일괄 처리된 출력이 포함됩니다. 서비스 계층은 대기 시간이 짧은 임의 읽기를 강력하게 지원해야 합니다. 이 저장소에 데이터를 일괄 로드하면 원치 않는 지연이 발생하므로 속도 계층에 대한 데이터 스토리지는 임의 쓰기도 지원해야 합니다. 또는 일괄 처리 계층에 대한 데이터 스토리지는 임의 쓰기가 아닌 일괄 처리 쓰기를 지원해야 합니다.

모든 데이터 스토리지 작업에 가장 적합한 단일 데이터 관리 선택은 없습니다. 태스크마다 최적화된 데이터 관리 솔루션이 다릅니다. 대부분의 실제 클라우드 앱 및 빅 데이터 프로세스에는 다양한 데이터 스토리지 요구 사항이 있으며 종종 데이터 스토리지 솔루션의 조합을 사용합니다.

Microsoft Fabric과 같은 최신 분석 솔루션은 다양한 분석 요구 사항을 충족하기 위해 다양한 데이터 서비스 및 도구를 통합하는 포괄적인 플랫폼을 제공합니다. 패브릭에는 전체 조직에 대한 단일 통합 논리 데이터 레이크인 OneLake가 포함되어 있습니다. OneLake는 모든 조직 데이터를 한 위치에 저장, 관리 및 보호하도록 설계되었습니다. 이러한 유연성을 통해 조직은 광범위한 데이터 스토리지 및 처리 요구 사항을 해결할 수 있습니다.

분석 데이터 저장소 선택

Azure에서는 사용자의 요구에 따라 다음과 같은 몇 가지 데이터 서비스 스토리지 옵션을 사용할 수 있습니다.

다음 데이터베이스 모델은 다양한 유형의 작업에 최적화되어 있습니다.

  • 키-값 데이터베이스는 각 키 값에 대해 직렬화된 단일 개체를 저장합니다. 검색이 특정 키를 기반으로 하는 경우 다른 항목 속성을 쿼리할 필요 없이 대량의 데이터를 관리하는 데 적합합니다.

  • 문서 데이터베이스는 값이 문서인 키-값 데이터베이스입니다. 이 컨텍스트에서 문서는 명명된 필드와 값의 컬렉션입니다. 데이터베이스는 일반적으로 XML, YAML, JSON 또는 이진 JSON과 같은 형식으로 데이터를 저장하지만 일반 텍스트를 사용할 수 있습니다. 문서 데이터베이스는 키가 아닌 필드를 쿼리하고 보조 인덱스를 정의하여 쿼리 효율성을 향상시킬 수 있습니다. 이 기능을 사용하면 문서 데이터베이스가 문서 키 값보다 더 복잡한 기준에 따라 데이터를 검색해야 하는 애플리케이션에 더 적합합니다. 예를 들어, 제품 ID, 고객 ID 또는 고객 이름과 같은 필드에서 쿼리를 수행할 수 있습니다.

  • 열 저장소 데이터베이스는 각 열을 디스크에 별도로 저장하는 키-값 데이터 저장소입니다. 넓은 열 저장소 데이터베이스는 단일 열뿐만 아니라 열 패밀리를 저장하는 열 저장소 데이터베이스의 유형입니다. 예를 들어 인구 조사 데이터베이스에는 다음 항목 각각에 대해 별도의 열 패밀리가 있을 수 있습니다.

    • 사람의 이름, 중간 이름, 성

    • 해당 사용자의 주소

    • 생년월일 또는 성별과 같은 해당 사용자의 프로필 정보

    데이터베이스는 동일한 키와 관련된 한 사람의 모든 데이터를 유지하면서 각 열 패밀리를 별도의 파티션에 저장할 수 있습니다. 애플리케이션은 엔터티에 대한 모든 데이터를 검사하지 않고 단일 열 패밀리를 읽을 수 있습니다.

  • 그래프 데이터베이스는 정보를 개체 및 관계의 컬렉션으로 저장합니다. 그래프 데이터베이스는 객체 네트워크 및 객체 간 관계를 탐색하여 쿼리를 효율적으로 수행할 수 있습니다. 예를 들어, 개체가 인사 데이터베이스의 직원일 수 있으며, “find all employees who directly or indirectly work for Scott”와 같은 쿼리를 용이하게 진행할 수 있습니다.

  • 원격 분석 및 시계열 데이터베이스는 개체의 추가 전용 컬렉션입니다. 원격 분석 데이터베이스는 다양한 열 저장소 및 메모리 내 구조의 데이터를 효율적으로 인덱싱합니다. 이 기능을 사용하면 방대한 양의 원격 분석 및 시계열 데이터를 저장하고 분석하기 위한 최적의 선택이 됩니다.

Fabric 은 키-값, 문서, 열 저장소, 그래프 및 원격 분석 데이터베이스를 비롯한 다양한 데이터베이스 모델을 지원합니다. 이러한 유연성은 광범위한 분석 작업에 대한 확장성을 보장합니다. 분석 워크로드에 적합한 패브릭 데이터 저장소를 선택하려면 패브릭 의사 결정 가이드: 데이터 저장소를 선택합니다.

주요 선택 조건

선택 프로세스를 구체화하려면 다음 조건을 고려합니다.

  • 데이터에 대해 핫 경로로 사용할 수 있는 저장소가 필요하신가요? 그렇다면 빠른 서비스 계층에 최적화된 옵션으로 선택 범위를 좁혀보세요.

  • 쿼리가 여러 프로세스 또는 노드에 자동으로 분산되는 대규모 병렬 처리 지원이 필요한가요? 그렇다면 쿼리 스케일 아웃을 지원하는 옵션을 선택합니다.

  • 관계형 데이터 저장소를 사용하고 싶나요? 이 경우 관계형 데이터베이스 모델이 있는 옵션으로 범위를 좁힐 수 있습니다. 그러나 일부 비관계형 저장소는 쿼리를 위한 SQL 구문을 지원하며, SQL 엔드포인트와 같은 도구를 사용하여 OneLake와 같은 비관계형 데이터 저장소를 쿼리할 수 있습니다.

  • 시계열 데이터를 수집합니까? 추가 전용 데이터를 사용하나요? Fabric OneLake는 Analysis Services, T-SQL 및 Apache Spark를 비롯한 여러 분석 엔진을 지원합니다. 패브릭 Eventhouse를 사용하면 시계열 데이터의 다양한 데이터 처리 및 쿼리 요구에 적합합니다.

기능 매트릭스

다음 표에는 이러한 관리되는 서비스의 기능의 주요 차이점이 요약되어 있습니다.

일반 기능

능력 패브릭 레이크하우스 직물 창고 패브릭 이벤트하우스 Fabric SQL Database Azure SQL 데이터베이스 Azure Cosmos DB (애저 코스모스 DB) 분석 서비스
주 데이터베이스 모델 Apache parquet을 사용하는 통합 데이터 레이크, 관계형 사용자 관리 델타 레이크 형식 Apache Parquet을 사용하는 관계형 및 시스템으로 관리되는 델타 레이크 형식의 통합 데이터 레이크 시계열 추가 지향 데이터 저장소, 그래프, 벡터 관계형(열 저장소 인덱스를 사용하는 경우 열 저장소 형식) 관계형(열 저장소 인덱스를 사용하는 경우 열 저장소 형식) 문서 저장소, 그래프, 키-값 저장소, 넓은 열 저장소 테이블러 시맨틱 모델
SQL 언어 지원 1 2 아니요
빠른 서비스 계층에 최적화됨 3 4 5 아니요

[1] SQL Analytics 엔드포인트를 통한 T-SQL.

[2] KQL에는 부분 T-SQL 언어 지원이 있습니다.

[3] 대기 중인 수집 및 스트리밍 수집을 지원합니다.

[4] 짧은 대기 시간 액세스 및 실시간 업데이트를 사용하여 트랜잭션 정밀도를 지원합니다.

[5] 메모리 최적화 테이블 및 해시 또는 비클러스터형 인덱스 사용

확장성 기능

능력 패브릭 레이크하우스 직물 창고 패브릭 이벤트하우스 Fabric SQL Database Azure SQL 데이터베이스 Azure Cosmos DB (애저 코스모스 DB) 분석 서비스
고가용성을 위한 중복 지역 서버 1,2 1,2
쿼리 스케일 아웃 지원 3 4 5 아니요
동적 확장성(강화) 3 4 5
데이터의 메모리 내 캐싱 지원 여부 6 6 7 아니요

[1] SQL 엔드포인트는 전역 트래픽 관리자를 통해 라우팅되지만 데이터는 항상 할당된 패브릭 용량 지역에서 처리됩니다.

[2] Lakehouse 및 Warehouse는 엔진 간 쿼리 및 복제를 지원하는 Delta Parquet 형식을 사용하여 OneLake에 데이터를 저장합니다.

[3] Lakehouse는 구조화되지 않은 구조화된 데이터에 대한 Spark 기반 스케일 아웃을 지원합니다.

[4] Warehouse는 T-SQL을 사용하며 다중 테이블 트랜잭션, 자율 워크로드 관리 및 DQP(분산 쿼리 처리)를 지원합니다. DQP는 클러스터 관리자처럼 작동하며 쿼리 복잡성에 따라 컴퓨팅 리소스를 동적으로 할당합니다.

[5] Eventhouse는 KQL 및 SQL 페더레이션을 지원하므로 핫 캐시 사용량이 최대 95개%초과하는 경우 컴퓨팅 리소스를 스케일 업할 뿐만 아니라 여러 원본에서 실시간 분석을 사용할 수 있습니다.

[6] SQL 분석 엔드포인트에 대한 Spark 작업, 메모리 내 캐싱, 결과 집합 캐싱 에 대한 지능형 캐시입니다.

[7] 자주 액세스하는 데이터는 메모리 내 및 SSD 스토리지를 포함하는 핫 캐시에 저장됩니다.

보안 기능

능력 패브릭 레이크하우스 직물 창고 패브릭 이벤트하우스 Fabric SQL Database Azure SQL 데이터베이스 Azure Cosmos DB (애저 코스모스 DB) 분석 서비스
인증 Microsoft Entra ID (마이크로소프트 엔트라 ID) Microsoft Entra ID (마이크로소프트 엔트라 ID) Microsoft Entra ID (마이크로소프트 엔트라 ID) Microsoft Entra ID (마이크로소프트 엔트라 ID) SQL 또는 Microsoft Entra ID Microsoft Entra ID 또는 데이터베이스 사용자에 대한 액세스 제어(아이덴티티 및 액세스 관리) Microsoft Entra ID (마이크로소프트 엔트라 ID)
휴지 상태의 암호화 1
행 수준 보안 아니요
방화벽 지원 여부 2 2 3
동적 데이터 마스킹 4 4 아니요 아니요 아니요

[1] 저장된 데이터를 암호화 및 복호화하기 위해 투명한 데이터 암호화를 사용해야 합니다.

[2] Private Links 및 Entra 조건부 액세스를 사용하여 패브릭 리소스에 대한 액세스를 제한할 수 있습니다.

[3] 패브릭 Eventhouse 및 Real-Time Intelligence 워크로드는 보안 엔드포인트를 통한 라우팅을 통해 Kafka, Azure Event Hubs 및 AMQP와 같은 보안 원본에서 데이터를 수집할 수 있습니다.

[4] 패브릭 SQL 엔드포인트 수준에서 적용할 수 있습니다.

기여자

Microsoft는 이 문서를 유지 관리합니다. 다음 기여자는 이 문서를 작성했습니다.

주요 작성자:

LinkedIn 비공개 프로필을 보려면, LinkedIn에 로그인하세요.

다음 단계