基本原則は、アーキテクチャを定義して影響を与えるレベル 0 のルールです。 現在および将来のビジネスの成功に役立つデータ レイクハウスを構築するには、組織内の利害関係者間のコンセンサスが重要です。
データをキュレーションし、製品としての信頼できるデータを提供する
データのキュレーションは、BI と ML/AI の価値の高いデータ レイクを作成するために不可欠です。 明確な定義、スキーマ、ライフサイクルを使用して、データを製品のように扱います。 ビジネス ユーザーがデータを完全に信頼できるように、セマンティック整合性を確保し、データ品質をレイヤー間で向上させます。

階層構造 (またはマルチホップ) アーキテクチャを確立してデータをキュレーションすることは、データ チームが品質レベルに従ってデータを構造化し、レイヤーごとの役割と責任を定義できるため、Lakehouse にとって重要なベスト プラクティスです。 一般的な階層型アプローチは次のとおりです。
- インジェスト レイヤー: ソース データはレイクハウスの最初のレイヤーに取り込まれ、そこで永続化します。 すべてのダウンストリーム データが取り込みレイヤーから作成されると、必要に応じて、このレイヤーから後続のレイヤーを再構築できます。
- キュレーションされたレイヤー: 2 番目のレイヤーの目的は、クレンジング、洗練、フィルター処理、集計されたデータを保持することです。 このレイヤーの目的は、すべての役割と機能にわたる分析とレポートのための、健全で信頼性の高い基盤を提供することです。
- 最終レイヤー: 3 番目のレイヤーは、ビジネスまたはプロジェクトのニーズを中心に作成されます。データ製品とは異なるビューを他の部署やプロジェクトに提供したり、セキュリティニーズ (匿名化されたデータなど) に関するデータを準備したり、パフォーマンスを最適化したり (事前に集計されたビューを使用して) 提供したりします。 この層のデータ製品は、ビジネスにとって真実と見なされます。
すべてのレイヤーのパイプラインでは、データ品質の制約が満たされていることを確認する必要があります。つまり、同時の読み取りと書き込み中でも、データは常に正確で、完全でアクセス可能で、一貫性があります。 新しいデータの検証は、キュレーションされたレイヤーへのデータ入力時に行われ、次の ETL 手順でこのデータの品質が向上します。 データの品質は、データがレイヤーを介して進行するにつれて向上する必要があります。そのため、その後、ビジネスの観点からデータへの信頼が高まります。
データ サイロを排除し、データ移動を最小限に抑える
これらの異なるコピーに依存するビジネス プロセスを含むデータセットのコピーを作成しないでください。 コピーはデータ サイロになり、同期が取れなくなり、データ レイクの品質が低下し、最終的に古い分析情報や不正な分析情報が得られる可能性があります。 また、外部パートナーとデータを共有するには、セキュリティで保護された方法でデータに直接アクセスできるエンタープライズ共有メカニズムを使用します。

データ コピーとデータ サイロの区別を明確にするには、データのスタンドアロンコピーまたは捨てコピーは単独では害を及ぼすものではありません。 機敏性、実験、イノベーションを促進するために必要な場合があります。 ただし、これらのコピーが依存するダウンストリーム ビジネス データ製品で動作するようになった場合は、データ サイロになります。
データ サイロを防ぐために、データ チームは通常、すべてのコピーを元のコピーと同期させるメカニズムまたはデータ パイプラインを構築しようとします。 これは一貫して発生する可能性は低いため、データ品質は最終的に低下します。 これにより、コストが高く、ユーザーの信頼が大幅に失われる可能性もあります。 一方、一部のビジネス ユース ケースでは、パートナーやサプライヤーとのデータ共有が必要です。
重要な側面は、データセットの最新バージョンを安全かつ確実に共有することです。 多くの場合、データセットのコピーでは十分ではありません。同期がすぐに切れる可能性があるためです。 代わりに、エンタープライズ データ共有ツールを使用してデータを共有する必要があります。
セルフサービスによる価値創造の民主化
ユーザーが BI タスクと ML/AI タスクのプラットフォームまたはデータに簡単にアクセスできない場合、最適な Data Lake は十分な価値を提供できません。 すべてのビジネス ユニットのデータとプラットフォームへのアクセスの障壁を下げる。 リーン データ管理プロセスを検討し、プラットフォームと基になるデータにセルフサービス アクセスを提供します。

データドリブン カルチャに正常に移行した企業は成功します。 つまり、すべてのビジネス ユニットは、分析モデルから、または独自のデータまたは一元的に提供されたデータを分析することによって決定を導き出します。 コンシューマーの場合、データは簡単に検出でき、安全にアクセスできる必要があります。
データ プロデューサーの良い概念は、"製品としてのデータ" です。データは、1 つの部署またはビジネス パートナー (製品など) によって提供および管理され、適切なアクセス許可制御を持つ他の関係者によって使用されます。 これらのデータ製品は、中央のチームや低速な要求プロセスに依存するのではなく、セルフサービス エクスペリエンスで作成、提供、検出、使用する必要があります。
ただし、重要なのはデータだけではありません。 データの民主化には、すべてのユーザーがデータを生成または使用して理解できるようにするための適切なツールが必要です。 このためには、Data Lakehouse が、別のツール スタックを設定する手間を省いてデータ製品を構築するためのインフラストラクチャとツールを提供する最新のデータと AI プラットフォームである必要があります。
組織全体のデータと AI ガバナンス戦略を採用する
データは組織にとって重要な資産ですが、すべてのユーザーにすべてのデータへのアクセス権を付与することはできません。 データ アクセスはアクティブに管理する必要があります。 アクセス制御、監査、および系列追跡は、データを正しく安全に使用するための鍵となります。

データ ガバナンスは広範なトピックです。 レイクハウスは次の側面を対象とします。
データ品質
正しく意味のあるレポート、分析結果、モデルの最も重要な前提条件は、高品質のデータです。 すべてのパイプラインステップの周りに品質保証 (QA) が存在する必要があります。 これを実装する方法の例としては、データ コントラクトの作成、SLA の会議、スキーマの安定性の維持、制御された方法での進化などがあります。
データ カタログ
もう 1 つの重要な側面は、データ検出です。特にセルフサービス モデルでは、すべてのビジネス領域のユーザーが、関連するデータを簡単に検出できる必要があります。 そのため、Lakehouse には、ビジネスに関連するすべてのデータをカバーするデータ カタログが必要です。 データ カタログの主な目標は次のとおりです。
- 同じビジネス概念が一様に呼び出され、ビジネス全体で宣言されていることを確認します。 キュレーションされたレイヤーと最後のレイヤーのセマンティック モデルと考えるかもしれません。
- データ系列を正確に追跡して、ユーザーがこれらのデータが現在の図形とフォームにどのように到着したかを説明できるようにします。
- データを適切に使用するために、データ自体と同じくらい重要な高品質のメタデータを維持します。
アクセス制御
レイクハウス内のデータからの価値創造はすべてのビジネスエリアで行われるため、レイクハウスは一流の市民としてセキュリティを備えて構築する必要があります。 企業は、よりオープンなデータ アクセス ポリシーを持っているか、最小限の特権の原則に厳密に従っている可能性があります。 データ アクセス制御は、それとは無関係に、すべてのレイヤーに配置する必要があります。 最初から細かいレベルのアクセス許可スキーム (列レベルと行レベルのアクセス制御、ロールベースまたは属性ベースのアクセス制御) を実装することが重要です。 企業は、より緩やかなルールから始めることができます。 しかし、レイクハウスプラットフォームが成長するにつれて、より高度なセキュリティ体制のためのすべてのメカニズムとプロセスが既に整備されているはずです。 さらに、レイクハウス内のデータへのすべてのアクセスは、最初から監査ログによって管理されなければなりません。
オープン インターフェイスとオープン形式を推奨する
オープン インターフェイスとデータ形式は、Lakehouse と他のツールの相互運用性のために不可欠です。 既存のシステムとの統合を簡素化し、ツールをプラットフォームと統合したパートナーのエコシステムを開きます。

オープン インターフェイスは、相互運用性を有効にし、単一のベンダーへの依存関係を防ぐために不可欠です。 従来、ベンダーは、データの格納、処理、共有の方法で企業を限定する独自のテクノロジとクローズド インターフェイスを構築してきました。
オープン インターフェイスを基に構築すると、将来のビルドに役立ちます。
- データの寿命と移植性が向上するため、より多くのアプリケーションやより多くのユース ケースで使用できます。
- オープンインターフェイスを迅速に活用してツールを Lakehouse プラットフォームに統合できるパートナーのエコシステムを開きます。
最後に、データのオープン形式を標準化することで、総コストが大幅に削減されます。クラウド ストレージ上のデータに直接アクセスでき、高いエグレスコストと計算コストが発生する可能性のある独自のプラットフォームを介してパイプ処理する必要はありません。
規模に応じて構築し、パフォーマンスとコストを最適化する
データは必然的に増加し続け、複雑になります。 将来のニーズに対応して組織を準備するためには、レイクハウスが拡張可能である必要があります。 たとえば、必要に応じて新しいリソースを簡単に追加できる必要があります。 コストは実際の消費量に制限する必要があります。

標準的な ETL プロセス、ビジネス レポート、ダッシュボードには、多くの場合、メモリと計算の観点から予測可能なリソースが必要です。 ただし、新しいプロジェクト、季節的なタスク、またはモデル トレーニング (チャーン、予測、メンテナンス) などの最新のアプローチにより、リソースニーズのピークが生まれます。 企業がこれらすべてのワークロードを実行できるようにするには、メモリと計算のためのスケーラブルなプラットフォームが必要です。 新しいリソースは必要に応じて簡単に追加する必要があり、実際の消費量のみがコストを生成する必要があります。 ピークが終わるとすぐに、リソースを再び解放し、それに応じてコストを削減できます。 多くの場合、これは水平スケーリング (ノードの数が少ないまたは多い) と垂直スケーリング (大きいノードまたは小さいノード) と呼ばれます。
また、スケーリングを使用すると、より多くのリソースを持つノードまたはより多くのノードを持つクラスターを選択することで、クエリのパフォーマンスを向上させることもできます。 ただし、大規模なマシンとクラスターを永続的に提供する代わりに、全体的なパフォーマンスとコストの比率を最適化するために必要な時間だけオンデマンドでプロビジョニングできます。 最適化のもう 1 つの側面は、ストレージとコンピューティング リソースです。 このデータを使用するデータとワークロードの量には明確な関係がないため (たとえば、データの一部のみを使用したり、小さなデータに対して集中的な計算を行ったりする)、ストレージとコンピューティング リソースを分離するインフラストラクチャ プラットフォームで解決することをお勧めします。