Databricks ではユーザーの分離はどのように適用されますか?

2025-08-30

このページでは、Azure Databricks が Lakeguard を使用して共有コンピューティング環境でユーザー分離を適用し、専用コンピューティングできめ細かなアクセス制御を適用する方法について説明します。

Lakeguard とは

Lakeguard は Databricks 上の一連のテクノロジであり、コードの分離とデータフィルター処理を適用することで、複数のユーザーが同じコンピューティングリソースを安全かつコスト効率よく共有し、特権を持つマシンアクセスを提供するコンピューティング上できめ細かなアクセス制御を行ってデータにアクセスできます。

Lakeguard のしくみ

標準のクラシックコンピューティング、サーバーレスコンピューティング、SQL ウェアハウスなどの共有コンピューティング環境では、Lakeguard は Spark エンジンや他のユーザーからユーザーコードを分離します。この設計により、多くのユーザーが同じコンピューティングリソースを共有しながら、ユーザー、Spark ドライバー、Executor の間で厳密な境界を維持できます。

クラシック Spark アーキテクチャ

次の図は、従来の Spark アーキテクチャで、ユーザーアプリケーションが基になるマシンへの特権アクセスを持つ JVM を共有する方法を示しています。

従来の Spark アーキテクチャ

Lakeguard アーキテクチャ

Lakeguard は、セキュリティで保護されたコンテナーを使用して、すべてのユーザーコードを分離します。これにより、ユーザー間の厳密な分離を維持しながら、複数のワークロードを同じコンピューティングリソースで実行できます。

Lakeguard アーキテクチャ

Spark クライアントの分離

Lakeguard は、次の 2 つの主要コンポーネントを使用して、クライアントアプリケーションを Spark ドライバーから分離し、互いに分離します。

Spark Connect: Lakeguard では、Spark Connect (Apache Spark 3.4 で導入) を使用して、クライアントアプリケーションをドライバーから切り離します。クライアントアプリケーションとドライバーが同じ JVM またはクラスパスを共有しなくなりました。この分離により、未承認のデータアクセスが防止されます。この設計では、クエリに行レベルまたは列レベルのフィルターが含まれている場合に、ユーザーが過剰フェッチの結果として得られるデータにアクセスすることもできなくなります。
コンテナーのサンドボックス化: 各クライアントアプリケーションは、独自の分離されたコンテナー環境で実行されます。これにより、ユーザーコードが他のユーザーのデータや基になるコンピューターにアクセスできなくなります。サンドボックスでは、コンテナーベースの分離手法を使用して、ユーザー間にセキュリティで保護された境界を作成します。

UDF の分離

既定では、Spark Executor は UDF を分離しません。この分離の欠如により、UDF がファイルを書き込んだり、基になるマシンにアクセスしたりできるようになります。

Lakeguard は、ユーザー定義コード (UDF を含む) を Spark Executor 上で次の方法で分離します。

Spark Executor での実行環境のサンドボックス化。
UDF からエグレスネットワークトラフィックを分離して、承認されていない外部アクセスを防ぎます。
ユーザーが必要なライブラリにアクセスできるように、UDF サンドボックスにクライアント環境をレプリケートする。

この分離は、標準コンピューティング上の UDF と、サーバーレスコンピューティングおよび SQL ウェアハウス上の Python UDF に適用されます。

フィードバック

このページはお役に立ちましたか?

次の方法で共有

Databricks ではユーザーの分離はどのように適用されますか?

Lakeguard とは

Lakeguard のしくみ

クラシック Spark アーキテクチャ

Lakeguard アーキテクチャ

Spark クライアントの分離

UDF の分離

フィードバック

その他のリソース