Microsoft SharePoint インジェストパイプラインを作成する

2025-08-27

Von Bedeutung

Microsoft SharePoint コネクタはベータ版です。

このページでは、Databricks Lakeflow Connect を使用して Microsoft SharePoint インジェストパイプラインを作成する方法について説明します。次のインターフェイスがサポートされています。

Databricks アセットバンドル
Databricks API
Databricks SDK
Databricks コマンドラインインターフェース (CLI)

開始する前に

インジェストパイプラインを作成するには、次の要件を満たす必要があります。

ワークスペースは、Unity Catalog に対して有効にする必要があります。
ワークスペースに対してサーバーレスコンピューティングを有効にする必要があります。サーバーレスコンピューティング要件を参照してください。
新しい接続を作成する場合: メタストアに対する CREATE CONNECTION 特権が必要です。

コネクタで UI ベースのパイプライン作成がサポートされている場合は、このページの手順を完了することで、接続とパイプラインを同時に作成できます。ただし、API ベースのパイプライン作成を使用する場合は、このページの手順を完了する前に、カタログエクスプローラーで接続を作成する必要があります。「マネージドインジェストソースへの接続」を参照してください。
既存の接続を使用する場合: 接続オブジェクトに対する USE CONNECTION 特権または ALL PRIVILEGES が必要です。
ターゲットカタログに対する USE CATALOG 特権が必要です。
既存のスキーマに対する USE SCHEMA 権限と CREATE TABLE 権限、またはターゲットカタログに対する CREATE SCHEMA 権限が必要です。

SharePoint から取り込むには、サポートされている認証方法のいずれかを構成する必要があります。

オプション 1: Azure Databricks ノートブック

次のノートブックをワークスペースにインポートします。

SharePoint インジェストパイプラインノートブックを作成する

ノートブックを入手
セル 1 は既定値のままにします。このセルは変更しないでください。
SharePoint サイト内のすべてのドライブを取り込む場合は、セル 2 のスキーマ仕様を変更します。 SharePoint サイトに一部のドライブのみを取り込む場合は、セル 2 を削除し、代わりにセル 3 のテーブルスペックを変更します。

channel を変更しないでください。これがPREVIEWでなければなりません。

変更するセル 2 の値:
- name: パイプラインの一意の名前。
- connection_name: SharePoint の認証の詳細を格納する Unity カタログ接続。
- source_schema: SharePoint サイト ID。
- destination_catalog: 取り込まれたデータを格納する宛先カタログの名前。
- destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
- scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。既定値は SCD タイプ 1 です。詳細については、「履歴追跡の有効化 (SCD タイプ 2)」を参照してください。
変更するセル 3 の値:
- name: パイプラインの一意の名前。
- connection_name: SharePoint の認証の詳細を格納する Unity カタログ接続。
- source_schema: SharePoint サイト ID。
- source_table: SharePoint ドライブ名。
- destination_catalog: 取り込まれたデータを格納する宛先カタログの名前。
- destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
- destination_table: ドライブ名にスペースまたは特殊文字が含まれる場合は、有効な名前で変換先テーブルを指定する必要があります。たとえば、ドライブ名が my driveされている場合は、 my_driveなどの宛先テーブル名を指定する必要があります。
- scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。既定値は SCD タイプ 1 です。詳細については、「履歴追跡の有効化 (SCD タイプ 2)」を参照してください。
[ すべて実行] をクリックします。

オプション 2: Databricks CLI

次のコマンドを実行します。

databricks pipelines create --json "<pipeline definition or json file path>"

パイプライン定義テンプレート

SharePoint サイト内のすべてのドライブを取り込む場合は、パイプライン定義のスキーマスペック形式を使用します。 SharePoint サイトに一部のドライブのみを取り込む場合は、代わりにテーブルスペック定義形式を使用します。 channel を変更しないでください。これがPREVIEWでなければなりません。

変更するスキーマスペック値:

name: パイプラインの一意の名前。
connection_name: SharePoint の認証の詳細を格納する Unity カタログ接続。
source_schema: SharePoint サイト ID。
destination_catalog: 取り込まれたデータを格納する宛先カタログの名前。
destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。既定値は SCD タイプ 1 です。詳細については、「履歴追跡の有効化 (SCD タイプ 2)」を参照してください。

スキーマスペックテンプレート:

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "schema": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

変更するテーブルスペック値:

name: パイプラインの一意の名前。
connection_name: SharePoint の認証の詳細を格納する Unity カタログ接続。
source_schema: SharePoint サイト ID。
source_table: SharePoint ドライブ名。
destination_catalog: データを格納する場所
destination_catalog: 取り込まれたデータを格納する宛先カタログの名前。
destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。既定値は SCD タイプ 1 です。詳細については、「履歴追跡の有効化 (SCD タイプ 2)」を参照してください。

テーブルスペックテンプレート:

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "table": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "destination_table": "<NAME"> # e.g., "my_drive",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

次のステップ

パイプラインでアラートを開始し、スケジュールを立て、設定します。
生のドキュメントをテキストに解析したり、解析されたデータをチャンクしたり、チャンクから埋め込みを作成したりできます。その後、出力テーブルの readStream をダウンストリームパイプラインで直接使用できます。ダウンストリーム RAG のユースケースを参照してください。

次の方法で共有

Microsoft SharePoint インジェスト パイプラインを作成する

開始する前に

オプション 1: Azure Databricks ノートブック

SharePoint インジェスト パイプライン ノートブックを作成する

オプション 2: Databricks CLI

パイプライン定義テンプレート

次のステップ

その他のリソース

フィードバック

その他のリソース

Microsoft SharePoint インジェストパイプラインを作成する

SharePoint インジェストパイプラインノートブックを作成する