Azure Synapse 사용한 엔드투엔드 분석

Azure Synapse Analytics

Azure Cosmos DB

Azure Data Factory

Azure Databricks

Azure Event Hubs

이 문서에서 설명하는 솔루션은 다양한 원본(정형, 반정형, 비정형 및 스트리밍)의 데이터 및 인사이트를 수집, 저장, 처리, 보강 및 제공하는 다양한 Azure 서비스를 결합합니다.

Architecture

이 아키텍처의 Visio 파일을 다운로드합니다.

Note

이 아키텍처에서 다루는 서비스는 훨씬 더 큰 Azure 서비스 제품군의 하위 집합일 뿐입니다. 이 설계에서 다루지 않는 다른 서비스나 기능을 사용하여 유사한 결과를 얻을 수 있습니다.
분석 사용 사례에 대한 특정 비즈니스 요구 사항의 경우 이 설계에서 고려되지 않은 다른 서비스 또는 기능을 사용해야 할 수 있습니다.

Dataflow

아키텍처에서 다루는 분석 사용 사례는 다이어그램 왼쪽의 다양한 데이터 원본으로 설명됩니다. 데이터는 다음과 같이 아래에서 위로 솔루션을 통해 흐릅니다.

Note

다음 섹션에서는 Azure Data Lake가 데이터 수명 주기의 다양한 단계에서 데이터의 홈으로 사용됩니다. Azure Data Lake는 다음과 같이 다양한 레이어 및 컨테이너로 구성됩니다.

원시 레이어는 원본 시스템에서 들어오는 데이터의 랜딩 영역입니다. 이름에서 알 수 있듯이 이 레이어의 데이터는 원시, 필터링되지 않은, 정화되지 않은 양식입니다.
수명 주기의 다음 단계에서 데이터는 데이터를 정리, 필터링, 변환할 수 있는 보강 레이어로 이동합니다.
그런 다음, 데이터는 소비자가 사용할 수 있는 데이터가 유지 관리되는 큐레이팅된 레이어로 이동합니다.

Azure Data Lake 계층 및 컨테이너 및 해당 용도에 대한 전체 검토는 Data Lake 영역 및 컨테이너 설명서를 참조하세요.

Azure 데이터 서비스, Azure Cosmos DB, Dataverse를 사용한 클라우드 네이티브 HTAP

Process

Azure Cosmos DB용 Azure Synapse Link 및 Dataverse용 Azure Synapse Link를 사용하면 Azure Synapse 작업 영역에서 사용할 수 있는 분석 엔진인 SQL Serverless 및 Spark 풀을 사용하여 운영 및 비즈니스 애플리케이션 데이터에 대해 거의 실시간으로 분석을 실행할 수 있습니다.
Azure Cosmos DB용 Azure Synapse Link를 사용하는 경우 SQL Serverless 쿼리 또는 Spark 풀 Notebook을 사용합니다. Azure Cosmos DB 분석 저장소에 액세스한 다음, 거의 실시간 운영 데이터의 데이터 세트를 데이터 레이크 또는 데이터 웨어하우스의 데이터와 결합할 수 있습니다.
Dataverse용 Azure Synapse Link를 사용하는 경우 SQL Serverless 쿼리 또는 Spark 풀 Notebook을 사용합니다. 선택한 Dataverse 테이블에 액세스한 다음 근 실시간 비즈니스 애플리케이션 데이터의 데이터 세트를 데이터 레이크 또는 데이터 웨어하우스의 데이터와 결합할 수 있습니다.

Store

SQL Serverless 쿼리의 결과 데이터 세트는 데이터 레이크에 유지할 수 있습니다. If you are using Spark notebooks, the resulting datasets can be persisted either in your data lake or data warehouse (SQL pool).

Serve

데이터 시각화 및 탐색을 위해 Azure Synapse SQL 풀 또는 데이터 레이크에서 Power BI 데이터 세트 로 관련 데이터를 로드합니다. Power BI 모델은 비즈니스 데이터 및 관계의 분석을 간소화하기 위해 의미 체계 모델을 구현합니다. Business analysts use Power BI reports and dashboards to analyze data and derive business insights.
Azure Data Share를 사용하여 다른 사업부 또는 외부 신뢰할 수 있는 파트너에게 데이터를 안전하게 공유할 수도 있습니다. 데이터 소비자는 사용하려는 데이터 서식과 공유 데이터 세트를 처리하는 데 가장 적합한 컴퓨팅 엔진을 자유롭게 선택할 수 있습니다.
또한 Synapse 작업 영역에 저장된 구조화 및 비정형 데이터를 사용하여 지식 마이닝 솔루션을 빌드하고 AI를 사용하여 Office 문서, PDF, 이미지, 오디오, 양식 및 웹 페이지를 비롯한 다양한 문서 유형 및 형식에서 중요한 비즈니스 인사이트를 파악할 수 있습니다.

Relational databases

Ingest

Azure Synapse 파이프라인을 사용하여 온-프레미스 및 클라우드의 다양한 데이터베이스에서 데이터를 가져옵니다. 파이프라인은 이벤트에 대한 응답으로 미리 정의된 일정에 따라 트리거하거나 REST API를 통해 명시적으로 호출할 수 있습니다.

Store

원시 데이터 레이크 계층 내에서 만들 계층, 각 계층에서 사용할 폴더 구조 및 각 분석 시나리오에 사용할 파일 형식에 대한 모범 사례에 따라 데이터 레이크를 구성 합니다.
Azure Synapse 파이프라인에서 데이터 복사 작업을 사용하여 관계형 데이터베이스에서 복사한 데이터를 Azure Data Lake Store Gen 2 데이터 레이크의 원시 계층으로 스테이징합니다. 데이터를 구분된 텍스트 형식으로 저장하거나 Parquet 파일로 압축할 수 있습니다.

Process

Use either data flows, SQL serverless queries, or Spark notebooks to validate, transform, and move the datasets from the Raw layer, through the Enriched layer and into your Curated layer in your data lake.
1. 데이터 변환의 일환으로 표준 T-SQL 또는 Spark Notebook을 사용하여 SQL 풀 에서 기계 학습 모델을 호출할 수 있습니다. 이러한 ML 모델을 사용하여 데이터 세트를 보강하고 추가 비즈니스 인사이트를 생성할 수 있습니다. 이러한 기계 학습 모델은 Azure AI 서비스 또는 Azure ML의 사용자 지정 ML 모델에서 사용할 수 있습니다.

Serve

You can serve your final dataset directly from the data lake Curated layer or you can use Copy Data activity to ingest the final dataset into your SQL pool tables using the COPY command for fast ingestion.
데이터 시각화를 위해 Azure Synapse SQL 풀 또는 데이터 레이크에서 Power BI 데이터 세트 로 관련 데이터를 로드합니다. Power BI 모델은 비즈니스 데이터 및 관계의 분석을 간소화하기 위해 의미 체계 모델을 구현합니다. Business analysts use Power BI reports and dashboards to analyze data and derive business insights.
Azure Data Share를 사용하여 다른 사업부 또는 외부 신뢰할 수 있는 파트너에게 데이터를 안전하게 공유할 수도 있습니다. 데이터 소비자는 사용하려는 데이터 서식과 공유 데이터 세트를 처리하는 데 가장 적합한 컴퓨팅 엔진을 자유롭게 선택할 수 있습니다.
또한 Synapse 작업 영역에 저장된 구조화 및 비정형 데이터를 사용하여 지식 마이닝 솔루션을 빌드하고 AI를 사용하여 Office 문서, PDF, 이미지, 오디오, 양식 및 웹 페이지를 비롯한 다양한 문서 유형 및 형식에서 중요한 비즈니스 인사이트를 파악할 수 있습니다.

반정형 데이터 원본

Ingest

Azure Synapse 파이프라인을 사용하여 온-프레미스와 클라우드 모두에서 다양한 반구조화된 데이터 원본에서 데이터를 가져옵니다. For example:
- CSV 또는 JSON 파일이 포함된 파일 기반 원본에서 데이터를 수집합니다.
- Azure Cosmos DB 또는 MongoDB와 같은 SQL이 아닌 데이터베이스에 연결합니다.
- 파이프라인에 대한 데이터 원본으로 작동할 SaaS 애플리케이션에서 제공하는 REST API를 호출합니다.

Store

원시 데이터 레이크 계층 내에서 만들 계층, 각 계층에서 사용할 폴더 구조 및 각 분석 시나리오에 사용할 파일 형식에 대한 모범 사례에 따라 데이터 레이크를 구성 합니다.
Azure Synapse 파이프라인에서 데이터 복사 작업을 사용하여 반구조화된 데이터 원본에서 복사한 데이터를 Azure Data Lake Store Gen 2 데이터 레이크의 원시 계층으로 스테이징합니다. 데이터 원본에서 가져온 대로 원래 형식을 유지하여 데이터를 저장합니다.

Process

For batch/micro-batch pipelines, use either data flows, SQL serverless queries or Spark notebooks to validate, transform, and move your datasets into your Curated layer in your data lake. SQL Serverless queries expose underlying CSV, Parquet, or JSON files as external tables, so that they can be queried using T-SQL.
1. 데이터 변환의 일환으로 표준 T-SQL 또는 Spark Notebook을 사용하여 SQL 풀 에서 기계 학습 모델을 호출할 수 있습니다. 이러한 ML 모델을 사용하여 데이터 세트를 보강하고 추가 비즈니스 인사이트를 생성할 수 있습니다. 이러한 기계 학습 모델은 Azure AI 서비스 또는 Azure ML의 사용자 지정 ML 모델에서 사용할 수 있습니다.
거의 실시간 원격 분석 및 시계열 분석 시나리오의 경우 데이터 탐색기 풀 을 사용하여 여러 데이터 원본에서 로그 및 IoT 이벤트 데이터를 쉽게 수집, 통합 및 상호 연결합니다. 데이터 탐색기 풀을 사용하면 KQL(Kusto 쿼리) 을 사용하여 시계열 분석, 지리 공간적 클러스터링 및 기계 학습 보강을 수행할 수 있습니다.

Serve

You can serve your final dataset directly from the data lake Curated layer or you can use Copy Data activity to ingest the final dataset into your SQL pool tables using the COPY command for fast ingestion.
Load relevant data from the Azure Synapse SQL pools, Data Explorer pools, or a data lake into Power BI datasets for data visualization. Power BI 모델은 비즈니스 데이터 및 관계의 분석을 간소화하기 위해 의미 체계 모델을 구현합니다. Business analysts use Power BI reports and dashboards to analyze data and derive business insights.
Azure Data Share를 사용하여 다른 사업부 또는 외부 신뢰할 수 있는 파트너에게 데이터를 안전하게 공유할 수도 있습니다. 데이터 소비자는 사용하려는 데이터 서식과 공유 데이터 세트를 처리하는 데 가장 적합한 컴퓨팅 엔진을 자유롭게 선택할 수 있습니다.
또한 Synapse 작업 영역에 저장된 구조화 및 비정형 데이터를 사용하여 지식 마이닝 솔루션을 빌드하고 AI를 사용하여 Office 문서, PDF, 이미지, 오디오, 양식 및 웹 페이지를 비롯한 다양한 문서 유형 및 형식에서 중요한 비즈니스 인사이트를 파악할 수 있습니다.

비정형 데이터 원본

Ingest

Azure Synapse 파이프라인을 사용하여 온-프레미스 및 클라우드의 다양한 비구조적 데이터 원본에서 데이터를 가져옵니다. For example:
- 원본 파일이 포함된 파일 기반 원본에서 동영상, 이미지, 오디오 또는 자유 텍스트를 수집합니다.
- 파이프라인에 대한 데이터 원본으로 작동할 SaaS 애플리케이션에서 제공하는 REST API를 호출합니다.

Store

원시 데이터 레이크 계층 내에서 만들 계층, 각 계층에서 사용할 폴더 구조 및 각 분석 시나리오에 사용할 파일 형식에 대한 모범 사례를 따라 데이터 레이크를 구성 합니다.
Azure Synapse 파이프라인에서 데이터 복사 작업을 사용하여 비구조적 데이터 원본에서 복사한 데이터를 Azure Data Lake Store Gen 2 데이터 레이크의 원시 계층으로 스테이징합니다. 데이터 원본에서 가져온 대로 원래 형식을 유지하여 데이터를 저장합니다.

Process

Use Spark notebooks to validate, transform, enrich, and move your datasets from the Raw layer, through the Enriched layer and into your Curated layer in your data lake.
1. 데이터 변환의 일환으로 표준 T-SQL 또는 Spark Notebook을 사용하여 SQL 풀 에서 기계 학습 모델을 호출할 수 있습니다. 이러한 ML 모델을 사용하여 데이터 세트를 보강하고 추가 비즈니스 인사이트를 생성할 수 있습니다. 이러한 기계 학습 모델은 Azure AI 서비스 또는 Azure ML의 사용자 지정 ML 모델에서 사용할 수 있습니다.

Serve

You can serve your final dataset directly from the data lake Curated layer or you can use Copy Data activity to ingest the final dataset into your data warehouse tables using the COPY command for fast ingestion.
데이터 시각화를 위해 Azure Synapse SQL 풀 또는 데이터 레이크에서 Power BI 데이터 세트 로 관련 데이터를 로드합니다. Power BI 모델은 비즈니스 데이터 및 관계의 분석을 간소화하기 위해 의미 체계 모델을 구현합니다.
Business analysts use Power BI reports and dashboards to analyze data and derive business insights.
Azure Data Share를 사용하여 다른 사업부 또는 외부 신뢰할 수 있는 파트너에게 데이터를 안전하게 공유할 수도 있습니다. 데이터 소비자는 사용하려는 데이터 서식과 공유 데이터 세트를 처리하는 데 가장 적합한 컴퓨팅 엔진을 자유롭게 선택할 수 있습니다.
또한 Synapse 작업 영역에 저장된 구조화 및 비정형 데이터를 사용하여 지식 마이닝 솔루션을 빌드하고 AI를 사용하여 Office 문서, PDF, 이미지, 오디오, 양식 및 웹 페이지를 비롯한 다양한 문서 유형 및 형식에서 중요한 비즈니스 인사이트를 파악할 수 있습니다.

Streaming

Ingest

Azure Event Hubs 또는 Azure IoT Hubs를 사용하여 클라이언트 애플리케이션 또는 IoT 디바이스에서 생성된 데이터 스트림을 수집합니다. 그러면 Event Hubs 또는 IoT Hub가 수신된 이벤트 시퀀스를 보존하는 스트리밍 데이터를 수집하고 저장합니다. 그런 다음 소비자는 Event Hubs 또는 IoT Hub 엔드포인트에 연결하고 처리를 위해 메시지를 검색할 수 있습니다.

Store

원시 데이터 레이크 계층 내에서 만들 계층, 각 계층에서 사용할 폴더 구조 및 각 분석 시나리오에 사용할 파일 형식에 대한 모범 사례에 따라 데이터 레이크를 구성 합니다.
이벤트 복사본을 Azure Data Lake Store Gen 2 데이터 레이크의 원시 계층에 저장하도록 Event Hubs 캡처 또는 IoT Hub Storage 엔드포인트를 구성합니다. 이 기능은 람다 아키텍처 패턴 의 "콜드 경로"를 구현하고 위에서 설명한 반구조화된 데이터 원본의 패턴에 따라 SQL Serverless 쿼리 또는 Spark Notebook 을 사용하여 데이터 레이크에 저장된 스트림 데이터에 대한 기록 및 추세 분석을 수행할 수 있습니다.

Process

실시간 인사이트를 얻으려면 Stream Analytics 작업을 사용하여 람다 아키텍처 패턴 의 "핫 경로"를 구현하고 전송 중인 스트림 데이터에서 인사이트를 파생합니다. Define at least one input for the data stream coming from your Event Hubs or IoT Hub, one query to process the input data stream and one Power BI output to where the query results will be sent to.
1. Stream Analytics를 사용한 데이터 처리의 일부로 기계 학습 모델을 호출하여 스트림 데이터 세트를 보강하고 생성된 예측을 기반으로 비즈니스 의사 결정을 내릴 수 있습니다. 이러한 기계 학습 모델은 Azure AI 서비스 또는 Azure Machine Learning사용자 지정 ML 모델에서 사용할 수 있습니다.
Use other Stream Analytics job outputs to send processed events to Azure Synapse SQL pools or Data Explorer pools for further analytics use cases.
거의 실시간 원격 분석 및 시계열 분석 시나리오의 경우 Data Explorer 풀 을 사용하여 Event Hubs 또는 IoT Hubs에서 직접 IoT 이벤트를 쉽게 수집합니다. 데이터 탐색기 풀을 사용하면 KQL(Kusto 쿼리) 을 사용하여 시계열 분석, 지리 공간적 클러스터링 및 기계 학습 보강을 수행할 수 있습니다.

Serve

그런 다음 비즈니스 분석가는 Power BI 실시간 데이터 세트 및 대시보드 기능을 사용하여 Stream Analytics 쿼리에서 생성되는 빠르게 변화하는 인사이트를 시각화합니다.
Azure Data Share를 사용하여 다른 사업부 또는 외부 신뢰할 수 있는 파트너에게 데이터를 안전하게 공유할 수도 있습니다. 데이터 소비자는 사용하려는 데이터 서식과 공유 데이터 세트를 처리하는 데 가장 적합한 컴퓨팅 엔진을 자유롭게 선택할 수 있습니다.
또한 Synapse 작업 영역에 저장된 구조화 및 비정형 데이터를 사용하여 지식 마이닝 솔루션을 빌드하고 AI를 사용하여 Office 문서, PDF, 이미지, 오디오, 양식 및 웹 페이지를 비롯한 다양한 문서 유형 및 형식에서 중요한 비즈니스 인사이트를 파악할 수 있습니다.

Components

아키텍처에서 사용된 Azure 서비스는 다음과 같습니다.

Alternatives

위의 아키텍처에서 Azure Synapse 파이프라인은 데이터 파이프라인 오케스트레이션을 담당합니다. 또한 Azure Data Factory 파이프라인은 이 문서에 설명된 것과 동일한 기능을 제공합니다.
Azure Databricks can also be used as the compute engine used to process structured and unstructured data directly on the data lake.
위의 아키텍처에서 Azure Stream Analytics는 스트리밍 데이터 처리를 담당하는 서비스입니다. Azure Synapse Spark 풀 및 Azure Databricks를 사용하여 Notebook 실행을 통해 동일한 역할을 수행할 수도 있습니다.
Azure HDInsight Kafka 클러스터를 사용하여 스트리밍 데이터를 수집하고 대규모 스트리밍 워크로드에 필요한 적절한 수준의 성능과 확장성을 제공할 수도 있습니다.
You also can make use of Azure Functions to invoke Azure AI services or Azure Machine Learning custom ML models from an Azure Synapse pipeline.
이 아키텍처의 기술은 각각이 조직에서 가장 일반적인 데이터 문제를 처리하는 데 필요한 기능을 제공하기 때문에 선택되었습니다. 이러한 서비스는 확장성과 가용성에 대한 요구 사항을 충족하는 동시에 비용을 관리하는 데 도움이 됩니다. 이 아키텍처에서 다루는 서비스는 훨씬 더 큰 Azure 서비스 제품군의 하위 집합일 뿐입니다. 이 설계에서 다루지 않는 다른 서비스나 기능을 사용하여 유사한 결과를 얻을 수 있습니다.
분석 사용 사례에 대한 특정 비즈니스 요구 사항의 경우 이 설계에서 고려되지 않은 다른 서비스 또는 기능을 사용해야 할 수 있습니다.
다른 대안을 비교하면 다음 항목을 참조하세요.

Scenario details

이 예제 시나리오에서는 Azure Data Services의 광범위한 제품군과 함께 Azure Synapse Analytics를 사용하여 조직에서 가장 일반적인 데이터 문제를 처리할 수 있는 최신 데이터 플랫폼을 구축하는 방법을 보여 줍니다.

잠재적인 사용 사례

다음의 경우 이 방법을 사용할 수도 있습니다.

Establish a data product architecture, which consists of a data warehouse for structured data and a data lake for semi-structured and unstructured data. 중앙 집중식 환경에 대해 단일 데이터 제품을 배포하거나 Data Mesh와 같은 분산 환경에 대해 여러 데이터 제품을 배포하도록 선택할 수 있습니다. 데이터 관리 및 데이터 랜딩 존에 대한 자세한 내용을 참조하세요.
빅 데이터 처리 기술을 사용하여 관계형 데이터 원본을 구조화되지 않은 다른 데이터 세트와 통합합니다.
의미 체계 모델링 및 강력한 시각화 도구를 사용하여 간단하게 데이터를 분석합니다.
조직 내에서 또는 신뢰할 수 있는 외부 파트너와 데이터 세트를 공유합니다.
지식 마이닝 솔루션을 구현하여 이미지, PDF, 문서 등에 숨겨진 중요한 비즈니스 정보를 추출합니다.

Recommendations

검색 및 관리

데이터 거버넌스는 대기업 환경에서 일반적인 과제입니다. 한편, 비즈니스 분석가는 비즈니스 문제를 해결하는 데 도움이 될 수 있는 데이터 자산을 검색하고 이해할 수 있어야 합니다. 반면, 최고 데이터 책임자는 비즈니스 데이터의 개인 정보 및 보안에 대한 인사이트를 원합니다.

Microsoft Purview

Use Microsoft Purview for data discovery and insights on your data assets, data classification, and sensitivity, which covers the entire organizational data landscape.
Microsoft Purview can help you maintain a business glossary with the specific business terminology required for users to understand the semantics of what datasets mean and how they are meant to be used across the organization.
모든 데이터 원본을 등록하고 컬렉션으로 구성할 수 있습니다. 이 컬렉션은 메타데이터에 대한 보안 경계 역할을 합니다.
Setup regular scans to automatically catalog and update relevant metadata about data assets in the organization. Microsoft Purview can also automatically add data lineage information based on information from Azure Data Factory or Azure Synapse pipelines.
Data classification and data sensitivity labels can be added automatically to your data assets based on pre-configured or customs rules applied during the regular scans.
Data governance professionals can use the reports and insights generated by Microsoft Purview to keep control over the entire data landscape and protect the organization against any security and privacy issues.

Platform services

Azure 솔루션의 품질을 향상시키려면 Azure Well-Architected Framework 에 정의된 권장 사항 및 지침에 따라 비용 최적화, 운영 우수성, 성능 효율성, 안정성 및 보안이라는 아키텍처 우수성의 다섯 가지 핵심 요소를 따릅니다.

이러한 권장 사항에 따라 아래 서비스를 설계의 일부로 고려해야 합니다.

Microsoft Entra ID: Azure 워크로드에서 ID 서비스, Single Sign-On 및 다단계 인증.
Microsoft Cost Management: Azure 워크로드에 대한 재무 거버넌스.
Azure Key Vault: 보안 자격 증명 및 인증서 관리. 예를 들어 Azure Synapse Pipelines, Azure Synapse Spark 풀 및 Azure ML 은 데이터 저장소에 안전하게 액세스하는 데 사용되는 Azure Key Vault에서 자격 증명 및 인증서를 검색할 수 있습니다.
Azure Monitor: collect, analyze, and act on telemetry information of your Azure resources to proactively identify problems and maximize performance and reliability.
클라우드용 Microsoft Defender: Azure 워크로드의 보안 태세를 강화하고 모니터링합니다.
Azure DevOps & GitHub: implement DevOps practices to enforce automation and compliance to your workload development and deployment pipelines for Azure Synapse and Azure ML.
Azure Policy: implement organizational standards and governance for resource consistency, regulatory compliance, security, cost, and management.

Considerations

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일련의 기본 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. For more information, see Well-Architected Framework.

Cost Optimization

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 개선하는 방법에 중점을 둡니다. 자세한 내용은 비용 최적화에 대한 디자인 검토 검사 목록을 참조하세요.

일반적으로 Azure 가격 계산기를 사용하여 비용을 예측합니다. 이상적인 개별 가격 책정 계층과 아키텍처에 포함된 각 서비스의 총 전체 비용은 처리 및 저장되는 데이터의 양과 예상되는 수용 가능한 성능 수준에 따라 달라집니다. 아래 가이드를 사용하여 각 서비스의 가격 책정 방식에 대해 자세히 알아봅니다.

Azure Synapse Analytics 서버리스 아키텍처를 사용하면 컴퓨팅 및 스토리지 수준을 독립적으로 확장할 수 있습니다. 컴퓨팅 리소스는 사용량에 따라 요금이 청구되며, 수요에 따라 이러한 리소스를 조정하거나 일시 중지할 수 있습니다. 스토리지 리소스는 테라바이트 단위로 요금이 청구되므로 수집하는 데이터의 양이 많을수록 비용이 증가합니다.
Azure Data Lake Gen 2 는 저장된 데이터의 양과 데이터를 읽고 쓸 트랜잭션 수에 따라 요금이 청구됩니다.
Azure Event Hubs 및 Azure IoT Hubs 는 메시지 스트림을 처리하는 데 필요한 컴퓨팅 리소스의 양에 따라 요금이 청구됩니다.
Azure Machine Learning 요금은 기계 학습 모델을 학습하고 배포하는 데 사용되는 컴퓨팅 리소스의 양에서 비롯됩니다.
AI services is charged based on the number of call you make to the service APIs.
Microsoft Purview is priced based on the number of data assets in the catalog and the amount of compute power required to scan them.
Azure Stream Analytics 는 스트림 쿼리를 처리하는 데 필요한 컴퓨팅 능력의 양에 따라 요금이 청구됩니다.
Power BI has different product options for different requirements. Power BI Embedded 는 애플리케이션 내에 Power BI 기능을 포함하기 위한 Azure 기반 옵션을 제공합니다. Power BI Embedded 인스턴스는 위의 가격 책정 샘플에 포함되어 있습니다.
Azure Cosmos DB 는 데이터베이스에 필요한 스토리지 및 컴퓨팅 리소스의 양에 따라 가격이 책정됩니다.

워크로드를 개발하고 테스트할 수 있는 사전 프로덕션 환경에 대해서도 유사한 아키텍처를 구현할 수 있습니다. 비용 효율적인 사전 프로덕션 환경을 위한 각 서비스의 기능과 워크로드에 대한 특정 요구 사항을 고려합니다.

시나리오 배포

이 문서에는 이 아키텍처에서 다루는 서비스의 배포를 자동화하는 방법을 보여 주는 GitHub에서 사용할 수 있는 도우미 리포지토리가 있습니다. Azure Synapse 배포 가이드에서 Azure 분석 엔드 투 엔드에 따라 이 아키텍처를 구독에 배포합니다. 해당 배포 가이드에는 자세한 지침과 여러 배포 옵션이 있습니다.

Contributors

이 문서는 Microsoft에서 업데이트 및 유지 관리 중입니다. 원래 다음 기여자가 작성했습니다.

Principal author:

Fabio Braga | Principal MTC Technical Architect

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

Next steps

Azure의 확장 가능한 분석 환경에 대한 Azure 데이터 관리 및 분석 시나리오 에 정의된 지침을 검토합니다.
Microsoft의 데이터 엔지니어 학습 경로를 살펴보고 이 참조 아키텍처와 관련된 서비스에 대한 추가 교육 콘텐츠 및 랩을 알아봅니다.
GitHub에서 사용할 수 있는 배포 지침을 사용하여 설명서를 검토하고 참조 아키텍처를 배포합니다.

다음을 통해 공유

Azure Synapse 사용한 엔드투엔드 분석

Architecture

Dataflow

Azure 데이터 서비스, Azure Cosmos DB, Dataverse를 사용한 클라우드 네이티브 HTAP

Process

Store

Serve

Relational databases

Ingest

Store

Process

Serve

반정형 데이터 원본

Ingest

Store

Process

Serve

비정형 데이터 원본

Ingest

Store

Process

Serve

Streaming

Ingest

Store

Process

Serve

Components

Alternatives

Scenario details

잠재적인 사용 사례

Recommendations

검색 및 관리

Microsoft Purview

Platform services

Considerations

Cost Optimization

시나리오 배포

Contributors

Next steps

피드백