データレイクとは

2025-09-16

データレイクは、大量のデータを未加工のネイティブ形式で保持するストレージリポジトリです。 Data Lake Store は、コスト効率の高いデータをテラバイトとペタバイトのデータにスケーリングするように設計されており、大規模で多様なデータセットの処理に適しています。通常、データは複数の多様なソースから取得され、構造化データ (リレーショナルテーブルなど)、半構造化データ (JSON、XML、ログなど)、非構造化データ (画像、オーディオ、ビデオなど) を含めることができます。

データレイクを使用すると、データが必要になるまで変換を遅延して、元の変換されていない状態にすべてを格納できます。これは、スキーマ・オン・リードと呼ばれる概念です。これは、データが取り込まれる際に構造を適用し、変換を適用するデータウェアハウスとは対照的です(スキーマの書き込みと呼ばれます)。

Data Lake のユースケース

Data Lake の一般的なユースケースは次のとおりです。

データインジェストと移動: クラウドサービス、IoT デバイス、オンプレミスシステム、ストリーミングソースのデータを収集して、1 つのリポジトリに統合します。
ビッグデータ処理: 分散処理フレームワークを使用して、大量の高速データを大規模に処理します。
分析と機械学習: 探索的分析、高度な分析、AI モデルのトレーニングと、大規模で多様なデータセットに対する微調整をサポートします。
ビジネスインテリジェンスとレポート: レイクデータの精選されたサブセットをウェアハウスまたは BI ツールに統合することで、ダッシュボードとレポートを有効にします。
データのアーカイブとコンプライアンス: 長期的な保持、監査可能性、規制のニーズに合わせて履歴データセットまたは生データセットを格納します。

データレイクの利点

将来の使用のために生データを保持します。Data Lake は生形式でデータを保持するように設計されており、将来の使用のために長期的な可用性を確保します。この機能は、データからの潜在的な分析情報が事前にわかっていない可能性があるビッグデータ環境で特に価値があります。また、生の状態を失うことなく、必要に応じてデータをアーカイブすることもできます。
セルフサービス探索: アナリストとデータサイエンティストは、データに直接クエリを実行し、実験と検出を促すことができます。
柔軟なデータサポート: 構造化形式を必要とするウェアハウスとは異なり、湖は構造化データ、半構造化データ、非構造化データをネイティブに処理できます。
スケーラブルでパフォーマンスの高い: 分散アーキテクチャでは、データレイクを使用すると、大規模な並列インジェストと分散実行が可能になり、大量のワークロードで従来の ETL パイプラインを上回る場合が多くなります。パフォーマンスの利点は、次のことから生じます。
- 並列処理: 分散コンピューティングエンジン (Spark など) はデータをパーティション分割し、複数のノード間で変換を同時に実行しますが、従来の ETL フレームワークは、多くの場合、シーケンシャルまたは制限されたマルチスレッド実行に依存します。
- スケーラビリティ: 分散システムは、コンピューティングノードとストレージノードを弾力的に追加することで水平方向にスケーリングしますが、従来の ETL パイプラインは通常、リソースの制限に達する単一ホストの垂直方向のスケーリングに依存します。
ハイブリッドアーキテクチャの基礎: データレイクは、多くの場合、レイクハウスアプローチでウェアハウスと共存し、生のストレージと構造化されたクエリパフォーマンスを組み合わせたものです。

最新の Data Lake ソリューションは、次の 2 つの主要な要素で構成されます。

ストレージ: 持続性、フォールトトレランス、無限のスケーラビリティ、多様なデータ型の高スループットインジェスト用に構築されています。
処理: Azure Databricks、Microsoft Fabric の Apache Spark などのエンジンを利用して、大規模な変換、分析、機械学習を実現します。

さらに、成熟したソリューションには、データの品質、検出可能性、コンプライアンスを確保するためのメタデータ管理、セキュリティ、ガバナンスが組み込まれています。

データレイクを使用する必要がある場合

探索的分析、高度なデータサイエンス、機械学習のワークロードには、データレイクを使用することをお勧めします。 Lake は生の状態でデータを保持し、スキーマの読み取りをサポートするため、チームは多様なデータ型を試し、従来の倉庫ではキャプチャできない可能性がある分析情報を明らかにすることができます。

データウェアハウスのソースとしてのデータレイク

データレイクはデータウェアハウスのアップストリームソースとして機能し、生データはソースシステムからレイクに取り込まれます (抽出と読み込み)、Fabric Warehouse などの最新のウェアハウスでは、組み込みの超並列処理 (MPP) SQL エンジンを使用して変換を処理し、生データを構造化形式の抽出、読み込み、変換 (ELT) に変換します。これは、ウェアハウスに読み込まれる前に ETL エンジン内でデータが抽出および変換される従来の ETL パイプラインとは異なります。どちらの方法でも、ユースケースに応じて柔軟性が提供され、データ品質、パフォーマンス、リソース使用率などの要因のバランスを取りながら、ウェアハウスが分析用に最適化されます。

イベントストリーミングと IoT のシナリオ

データレイクは、イベントストリーミングと IoT のユースケースに有効です。高速データは、事前スキーマ制約なしで大規模に保持する必要があります。リレーショナルイベントストリームと非リレーショナルイベントストリームの両方を取り込んで格納し、低待機時間で大量の小さな書き込みを処理し、大規模な並列スループットをサポートできます。これにより、リアルタイム監視、予測メンテナンス、異常検出などのアプリケーションに適しています。

次の表は、データレイクとデータウェアハウスを比較したものです。

特徴	Data Lake	Data Warehouse
データ型	生、非構造化、半構造化、構造化	構造化され、高度に整理された
クエリパフォーマンス	特に複雑なクエリの場合は遅くなります。データ形式とツールによって異なる	分析クエリ用に高速かつ最適化
遅延	オンザフライ処理による待機時間の増加	事前処理済みの構造化データによる低待機時間
データ変換ステージ	変換はクエリ時に発生し、全体的な処理時間に影響します	ETL または ELT プロセス中に変換が行われる
スケーラビリティ	大量の多様なデータに対して高い拡張性とコスト効率を実現	拡張性はありますが、コストが高くなります。特に大規模な場合
費用	ストレージコストの削減。コンピューティングコストは使用量によって異なります	パフォーマンスの最適化によるストレージとコンピューティングのコストの増加
適したユースケース	ビッグデータ、機械学習、探索的分析に最適です。 medallion アーキテクチャでは、レポートの目的で Gold レイヤーが利用されます	ビジネスインテリジェンス、レポート、構造化データ分析に最適

データレイクの課題

スケーラビリティと複雑さ: ペタバイト単位の生データ、非構造化データ、半構造化データを管理するには、堅牢なインフラストラクチャ、分散処理、慎重なコスト管理が必要です。
処理のボトルネック: データ量と多様性が増加すると、変換ワークロードとクエリワークロードで待機時間が発生する可能性があり、パイプラインの設計とワークロードのオーケストレーションを慎重に行う必要があります。
データ整合性リスク: 強力な検証と監視を行わないと、エラーや不完全な取り込みによって、湖のコンテンツの信頼性が損なわれる可能性があります。
データの品質とガバナンス: さまざまなソースと形式により、一貫した標準を適用することが困難になります。メタデータ管理、カタログ化、ガバナンスフレームワークの実装は非常に重要です。
大規模なパフォーマンス: クエリのパフォーマンスとストレージの効率は、湖の拡大に伴って低下する可能性があり、パーティション分割、インデックス作成、キャッシュなどの最適化戦略が必要になります。
セキュリティとアクセス制御: 機密データの誤用を防ぐために、さまざまなデータセットにわたって適切なアクセス許可と監査を確保するには、計画が必要です。
発見可能性:適切なカタログ化がなければ、湖は貴重な情報が存在するがアクセスできないか誤解されている「データ沼地」に陥る可能性があります。

テクノロジの選択

Azure 上に包括的なデータレイクソリューションを構築する際は、次のテクノロジを考慮してください。

Azure Data Lake Storage は、Azure Blob Storage とデータレイク機能を組み合わせたものであり、Apache Hadoop と互換性のあるアクセス、階層型名前空間の機能、および効率的なビッグデータ分析のためのセキュリティ強化を利用できます。これは、大量の構造化データ、半構造化データ、非構造化データを処理するように設計されています。
Azure Databricks は、Apache Spark の長所と Microsoft Azure エコシステムへの深い統合を組み合わせたクラウドベースのデータ分析と機械学習プラットフォームです。データエンジニア、データサイエンティスト、アナリストが連携して、大量のデータを取り込み、処理、分析、モデル化できるコラボレーション環境を提供します。
Azure Data Factory は、Microsoft Azure のクラウドベースのデータ統合と ETL (抽出、変換、読み込み) サービスです。クラウドでもオンプレミスでも、さまざまなソース間でデータワークフローを移動、変換、調整するために使用します。
Microsoft Fabric は、データ移動、データサイエンス、リアルタイム分析、ビジネスインテリジェンスを単一のサービスとしてのソフトウェア (SaaS) エクスペリエンスに統合する、Microsoft のエンドツーエンドのデータ分析プラットフォームです。

各 Microsoft Fabric テナントは、OneLake と呼ばれる 1 つの論理データレイクで自動的にプロビジョニングされます。 Azure Data Lake Storage (ADLS) Gen2 上に構築された OneLake は、構造化データ形式と非構造化データ形式の両方を処理できる統合ストレージレイヤーを提供します。

貢献者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

主執筆者:

Avijit Prasad | クラウドコンサルタント

貢献：

Raphael Sayegh |クラウドソリューションアーキテクト

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ

フィードバック

このページはお役に立ちましたか?

次の方法で共有

データ レイクとは

データ レイクの利点

データ レイクを使用する必要がある場合

データ ウェアハウスのソースとしてのデータレイク

イベント ストリーミングと IoT のシナリオ

データ レイクの課題