Azure Databricks アクティビティを実行してデータを変換する

Data Factory for Microsoft Fabric の Azure Databricks アクティビティでは、次のような Azure Databricks ジョブを調整できます。

Notebook
Jar
Python
Job

この記事では、Data Factory インターフェイスを使用して Azure Databricks アクティビティを作成するステップバイステップのチュートリアルを提供します。

前提条件

開始するには、次の前提条件を満たしている必要があります。

アクティブなサブスクリプションが含まれるテナントアカウント。無料でアカウントを作成できます。
ワークスペースが作成されている。

Azure Databricks アクティビティの構成

パイプライン内で Azure Databricks アクティビティを使用するには、次の手順を実行します。

接続の構成

ワークスペースに新しいパイプラインを作成します。
[ パイプラインアクティビティの追加] を選択し、Azure Databricks を検索します。
または、パイプラインの [アクティビティ] ペイン内で Azure Databricks を検索し、それを選択してパイプラインキャンバスに追加することもできます。
まだ選ばれていない場合は、キャンバスで新しい Azure Databricks アクティビティを選びます。

[全般設定] タブを構成するには、全般設定のガイダンスを参照してください。

クラスターの構成

[クラスター] タブを選択します。次に、既存の Azure Databricks 接続を選択するか新規作成し、新しいジョブクラスター、既存の対話型クラスター、または既存のインスタンスプールを選択します。
選択したクラスターに応じて、対応するフィールドに入力します。
- 新しいジョブクラスターと既存のインスタンスプールの下に、worker の数を構成し、スポットインスタンスを有効にする機能もあります。
接続するクラスターに必要に応じて、 クラスターポリシー、 Spark 構成、 Spark 環境変数、 カスタムタグなどの他のクラスター設定を指定することもできます。 Databricks の init スクリプトとクラスターログの宛先パスもクラスターの追加設定で追加できます。

注

Azure Data Factory Azure Databricks のリンクされたサービスでサポートされているすべての高度なクラスタープロパティと動的式が、UI の [追加クラスター構成] セクションの下の Microsoft Fabric の Azure Databricks アクティビティでもサポートされるようになりました。これらのプロパティはアクティビティ UI に含まれるようになったため、高度な JSON 仕様を必要とせずに式 (動的コンテンツ) と共に使用できます。
Azure Databricks アクティビティでは、クラスターポリシーと Unity カタログのサポートもサポートされるようになりました。
- [詳細設定] で、 クラスターポリシー を選択して、許可するクラスター構成を指定できます。
- また、詳細設定では、セキュリティを強化するために Unity カタログアクセスモード を構成できます。使用可能なアクセスモードの種類は次のとおりです:
  - シングルユーザーアクセスモード このモードは、各クラスターが単独のユーザーによって使用されるシナリオ向けに設計されています。これにより、クラスター内のデータアクセスがそのユーザーのみに制限されます。このモードは、分離と個々のデータ処理を必要とするタスクに役立ちます。
  - 共有アクセスモード このモードでは、複数のユーザーが同じクラスターにアクセスできます。 Unity Catalog のデータガバナンスと、レガシテーブルのアクセス制御リスト (ACL) を組み合わせたものになります。このモードでは、ガバナンスとセキュリティプロトコルを維持しながら、共同作業によるデータアクセスが可能になります。ただし、Databricks Runtime ML のサポート、Spark 送信ジョブ、特定の Spark API と UDF のサポートなど、特定の制限があります。
  - アクセスモードなし このモードでは、Unity カタログとの対話が無効になります。つまり、クラスターは Unity カタログによって管理されるデータにアクセスできません。このモードは、Unity カタログのガバナンス機能を必要としないワークロードに役立ちます。

設定の構成

[ 設定] タブを選択すると、調整する Azure Databricks の種類 を 4 つのオプションから選択できます。

Azure Databricks アクティビティの [設定] タブを示すスクリーンショット。

次の Azure Databricks アクティビティで Notebook の種類を調整します。

[設定] タブで [Notebook] ラジオボタンを選択して Notebook を実行できます。 Azure Databricks で実行するノートブックパス、ノートブックに渡す省略可能な基本パラメーター、およびジョブを実行するためにクラスターにインストールする追加のライブラリを指定する必要があります。

Azure Databricks アクティビティの Notebooks の種類を示すスクリーンショット。

次の Azure Databricks アクティビティで Jar の種類を調整します。

[設定] タブで [Jar] ラジオボタンを選択して Jar を実行できます。 Azure Databricks で実行するクラス名、Jar に渡す省略可能な基本パラメーター、およびジョブを実行するためにクラスターにインストールする追加のライブラリを指定する必要があります。

Azure Databricks アクティビティの Jar の種類を示すスクリーンショット。

次の Azure Databricks アクティビティで Python の種類を調整します。

[設定] タブで [Python] ラジオボタンを選択して Python ファイルを実行できます。実行する Python ファイルへの Azure Databricks 内のパス、渡す省略可能な基本パラメーター、およびジョブを実行するためにクラスターにインストールする追加のライブラリを指定する必要があります。

Azure Databricks アクティビティの Python の種類を示すスクリーンショット。

Azure Databricks アクティビティにおけるジョブタイプのオーケストレーション:

[ 設定] タブで、[ ジョブ ] ラジオボタンを選択して Databricks ジョブを実行できます。 Azure Databricks で実行するジョブをドロップダウンから指定し、渡す任意のジョブパラメーターを入力する必要があります。このオプションを使用して、サーバーレスジョブを実行できます。

Azure Databricks アクティビティのジョブの種類を示すスクリーンショット。

Azure Databricks アクティビティでサポートされるライブラリ

前述の Databricks アクティビティ定義では、jar、egg、whl、maven、pypi、cran というライブラリの種類を指定できます。

ライブラリの種類の詳細については、Databricks のドキュメントを参照してください。

Azure Databricks アクティビティとパイプラインの間のパラメーターの受け渡し

Databricks アクティビティの baseParameters プロパティを使用して、ノートブックにパラメーターを渡すことができます。

Azure Databricks アクティビティで基本パラメーターを渡す方法を示すスクリーンショット。

場合によっては、制御フローのためにノートブックからサービスに値を返したり、ダウンストリームアクティビティで使用したりする必要があります (サイズ制限は 2 MB)。

たとえば、ノートブックで dbutils.notebook.exit("returnValue") を呼び出すと、対応する "returnValue" がサービスに返されます。
@{activity('databricks activity name').output.runOutput} などの式を使用して、サービスで出力を使用できます。

パイプラインを保存して実行またはスケジュールする

パイプラインに必要なその他のアクティビティを構成したら、パイプラインエディターの上部にある [ホーム] タブに切り替え、[保存] ボタンを選択してパイプラインを保存します。 [実行] を選択して直接実行するか、[スケジュール] を選択してスケジュールを設定します。ここで実行履歴を表示したり、他の設定を構成したりすることもできます。

パイプラインの保存して実行の仕方を示すスクリーンショット。

パイプラインの実行を監視する方法

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-09-16