データ ウェアハウスと分析
このシナリオ例では、複数のソースからの大量のデータを Azure の統合分析プラットフォームに統合するデータ パイプラインを示します。 この特定のシナリオは販売とマーケティングのソリューションに基づいていますが、この設計パターンは、eコマース、小売り、医療など、大規模なデータセットの高度な分析を必要とする多くの業界に関係があります。
アーキテクチャ
このアーキテクチャの Visio ファイル をダウンロードします。
データフロー
このソリューションのデータ フローは次のとおりです。
- データ ソースごとに、すべての更新が Azure Data Lake Storage 内のステージング領域に定期的にエクスポートされます。
- Azure Data Factory によって、Azure Data Lake Storage から Azure Synapse Analytics 内のステージング テーブルに、少しずつデータが読み込まれます。 このプロセスの間にデータのクレンジングと変換が行われます。 PolyBase では、大規模なデータセットに対して処理を並列化できます。
- 新しいデータのバッチがウェアハウスに読み込まれた後、以前に作成されていた Azure Analysis Services の表形式モデルが更新されます。 このセマンティック モデルにより、ビジネス データと関係の分析が簡略化します。
- ビジネス アナリストは、Microsoft Power BI を使用し、Analysis Services のセマンティック モデルにより、ウェアハウスのデータを分析します。
コンポーネント
会社のデータ ソースは多種多様なプラットフォーム上にあります。
- オンプレミスの SQL Server
- オンプレミスの Oracle
- Azure SQL データベース
- Azure Table Storage
- Azure Cosmos DB (アジュール コスモス データベース)
複数の Azure コンポーネントを使用して、これらの異なるデータ ソースからデータが読み込まれます。
- Azure Data Lake Storage は、ソース データを Azure Synapse に読み込む前にステージングするために使用されます。
- Data Factory は、Azure Synapse の共通構造へのステージング データの変換を調整します。 Data Factory では、Azure Synapse にデータを読み込むときに PolyBase を使用 してスループットを最大化します。
- Azure Synapse は、大規模なデータセットを格納および分析するための分散システムです。 超並列処理 (MPP) が使用されているので、ハイパフォーマンス分析の実行に適しています。 Azure Synapse では 、PolyBase を使用して Azure Data Lake Storage からデータを迅速に読み込むことができます。
- Analysis Services には、データのセマンティック モデルが用意されています。 これはデータの分析時のシステム パフォーマンスの向上にもつながります。
- Power BI は、データを分析して分析情報を共有するための一連のビジネス分析ツールです。 Power BI を使用して、Analysis Services に格納されているセマンティック モデルに対してクエリを実行することも、Azure Synapse に対して直接クエリを実行することもできます。
- Microsoft Entra ID は、Power BI を介して Analysis Services サーバーに接続するユーザーを認証します。 Data Factory では、Microsoft Entra ID を使用して、Azure リソースのサービス プリンシパルまたは マネージド ID を介して Azure Synapse に対する認証を行うこともできます。
代替
パイプラインの例には、複数の異なる種類のデータ ソースが含まれます。 このアーキテクチャでは、さまざまなリレーショナルおよび非リレーショナル データ ソースを処理できます。
Data Factory では、データ パイプラインに対するワークフローが調整されます。 データの読み込みを 1 回だけ、またはオンデマンドで行いたい場合は、SQL Server の一括コピー (bcp) や AzCopy などのツールを使用して、データを Azure Data Lake Storage にコピーできます。 その後、PolyBase を使用して Azure Synapse に直接データをロードできます。
データセットが非常に大きい場合は、分析データに無制限のストレージを提供する Data Lake Storage の使用を検討してください。
Azure Synapse は、OLTP ワークロードや 250 GB 未満のデータ セットには適していません。 このような場合は、Azure SQL Database または SQL Server を使用する必要があります。
他の代替手段の比較については、以下をご覧ください。
シナリオの詳細
この例では、インセンティブ プログラムを作成する販売およびマーケティング会社を示します。 これらのプログラムは、顧客、仕入先、営業担当者、および従業員に報奨を提供します。 データはこれらのプログラムの基礎であり、会社は Azure を使用してデータ解析により得られる分析情報を向上させることを望んでいます。
適切なデータを使用して適切なタイミングで意思決定が行われるように、最新のデータ分析アプローチが必要です。 会社の目標は次のとおりです。
- 異なる種類のデータ ソースをクラウド規模のプラットフォームに組み合わせる。
- データに一貫性を持たせて簡単に比較できるようにするため、ソース データを共通の分類と構造に変換する。
- オンプレミスのインフラストラクチャの展開と保守に高いコストをかけることなく、数千のインセンティブ プログラムをサポートできる高度に並列化されたアプローチを使用してデータを読み込む。
- ユーザーがデータの分析に集中できるように、データの収集と変換に必要な時間を大幅に短縮する。
考えられるユース ケース
このアプローチは、以下の目的に使うこともできます。
- データ ウェアハウスをデータの信頼できる単一のソースとして確立する。
- リレーショナル データ ソースを他の非構造化データセットと統合する。
- セマンティック モデリングと強力な視覚化ツールを使用してデータ分析を簡単にする。
考慮事項
これらの考慮事項では、Azure Well-Architected Framework の柱を実装します。これは、ワークロードの品質を向上させるために使用できる一連の基本原則です。 詳細については、「 Well-Architected Framework」を参照してください。
このアーキテクチャのテクノロジは、スケーラビリティおよび可用性とコスト管理の両立という会社の要件を満たすために選択されました。
- Azure Synapse の 超並列処理アーキテクチャ は、スケーラビリティと高パフォーマンスを提供します。
- Azure Synapse では、高可用性を実現するための サービス レベル アグリーメント (SLA) と 推奨されるプラクティスが保証されています。
- 分析アクティビティが少ない場合、会社は Azure Synapse をオンデマンドでスケーリングし、コンピューティングを削減または一時停止してコストを削減できます。
- Azure Analysis Services を スケールアウト して、高いクエリ ワークロード中の応答時間を短縮できます。 クエリ プールから処理を分離して、処理操作によってクライアントのクエリが遅くならないようにすることもできます。
- Azure Analysis Services では、高可用性を実現するための SLA と推奨されるプラクティスも保証されています。
- Azure Synapse セキュリティ モデルでは、接続セキュリティ、Microsoft Entra ID または SQL Server 認証による認証と承認、暗号化が提供されます。 Azure Analysis Services では、ID 管理とユーザー認証に Microsoft Entra ID が使用されます。
コストの最適化
コストの最適化では、不要な経費を削減し、運用効率を向上させる方法に重点を置いています。 詳細については、「 コストの最適化」のデザイン レビュー チェックリストを参照してください。
Azure 料金計算ツールを使用して 、データ ウェアハウス シナリオの価格サンプル を確認します。 値を調整して、要件によるコストへの影響を確認できます。
- Azure Synapse を使用すると、コンピューティング レベルとストレージ レベルを個別にスケーリングできます。 計算リソースは 1 時間単位で課金されるため、オンデマンドでそのリソースをスケーリングまたは一時停止できます。 ストレージ リソースはテラバイト単位で課金されるため、データを取り込んだ分だけコストが増加します。
- Data Factory のコストは、ワークロードで実行される読み取り/書き込み操作、監視操作、オーケストレーション アクティビティの数に基づきます。 データ ファクトリのコストは、データ ストリームおよび各データ ストリームでのデータ量が追加されると増加します。
- Analysis Services は、Developer レベル、Basic レベル、Standard レベルで利用できます。 インスタンスは、クエリ処理単位 (QPU) と使用可能なメモリに基づいて価格設定されます。 コストを抑えるには、実行するクエリの数、処理するデータの量、実行頻度をできるだけ少なくします。
- Power BI には、要件ごとに異なる製品オプションがあります。 Power BI Embedded には、アプリケーション内に Power BI 機能を埋め込むための Azure ベースのオプションが用意されています。 Power BI Embedded インスタンスは上記の料金サンプルに含まれています。
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は次のとおりです。
プリンシパル作成者:
- Alex Buck |シニア コンテンツ 開発者
パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。