データ品質の監視は、Unity カタログ内のすべてのデータ資産の品質を確保するのに役立ちます。 データ品質の監視には、次の機能が含まれています。
- 異常検出。 異常検出により、ワンクリックでスケーラブルなデータ品質の監視が可能になります。 重要なテーブルに優先順位を付け、影響の少ないテーブルをスキップするインテリジェント スキャンを使用して、スキーマ内のすべてのテーブルを監視します。 Databricks は、履歴データ パターンを分析して各テーブルの鮮度と完全性を評価することで、データ品質を自動的に評価します。
- データ プロファイル。 データ プロファイルは、テーブル内のデータの概要統計を提供します。 また、モデルの入力と予測を含む推論テーブルを監視することで、GenAI アプリ、機械学習モデル、モデルサービス エンドポイントのパフォーマンスを追跡することもできます。
データ品質の監視は、以前は Lakehouse Monitoring と呼れていました。
異常検出を使用する理由
データから有用な分析情報を引き出すには、データの品質が自身を持てるものである必要があります。 異常検出では、テーブルの 鮮度 と 完全性が監視されます。
鮮度 とは、テーブルが最近更新された方法を指します。 異常検出は、テーブルへのコミットの履歴を分析し、テーブルごとのモデルを構築して、次のコミットの時刻を予測します。 コミットが異常に遅れた場合、テーブルは古いとしてマークされます。
完全性 とは、過去 24 時間以内にテーブルに書き込まれる予定の行数を指します。 異常検出では、履歴行数が分析され、このデータに基づいて、予想される行数の範囲が予測されます。 過去 24 時間にコミットされた行数がこの範囲の下限より少ない場合、テーブルは不完全としてマークされます。
データ プロファイルを使用する理由
データプロファイリングは、時間の経過に伴うデータの品質と一貫性を追跡して確認するのに役立つ定量的な指標を提供します。 データ プロファイルは、テーブルのデータ分布または対応するモデルのパフォーマンスの履歴メトリックをキャプチャします。これは、簡単な概要統計に使用できます。 これらのメトリックを使用して、テーブルを監視し、変更に関するアラートを送信できます。
データ プロファイルは、次のような質問に答えるのに役立ちます。
- データの整合性はどのように見え、時間の経過とともにどのように変化しますか? たとえば、現在のデータの null 値またはゼロ値の割合は何であり、増加していますか?
- データの統計的分布はどのように見え、時間の経過とともにどのように変化しますか? たとえば、数値列の 90 パーセンタイルは何ですか? または、カテゴリ列の値の分布はどうなっていて、昨日との違いはどうですか?
- 現在のデータと既知のベースラインの間、またはデータの連続する時間枠の間に誤差がありますか?
- データのサブセットまたはスライスの統計的分布またはドリフトはどのように見えますか?
- ML モデルの入力と予測は、時間の経過と共にどのように変化しますか?
- モデルのパフォーマンスは時間の経過とともにどのような傾向を示していますか? モデル バージョン A のパフォーマンスはバージョン B よりも優れていますか?
さらに、データ プロファイルを使用すると、観測の時間粒度を制御し、カスタム メトリックを設定できます。
データ品質の監視 では 、監視するテーブルは変更されず、これらのテーブルを設定するジョブにオーバーヘッドも追加されません。
データ品質の監視を始める
異常検出の詳細については、「異常検出 」を参照してください。
データ プロファイルの詳細については、「データ プロファイル」を参照してください。