次の方法で共有


Microsoft SharePoint インジェスト パイプラインを作成する

Von Bedeutung

Microsoft SharePoint コネクタは ベータ版です

このページでは、Databricks Lakeflow Connect を使用して Microsoft SharePoint インジェスト パイプラインを作成する方法について説明します。 次のインターフェイスがサポートされています。

  • Databricks アセット バンドル
  • Databricks API
  • Databricks SDK
  • Databricks コマンドラインインターフェース (CLI)

開始する前に

インジェスト パイプラインを作成するには、次の要件を満たす必要があります。

  • ワークスペースは、Unity Catalog に対して有効にする必要があります。

  • ワークスペースに対してサーバーレス コンピューティングを有効にする必要があります。 サーバーレス コンピューティング要件を参照してください。

  • 新しい接続を作成する場合: メタストアに対する CREATE CONNECTION 特権が必要です。

    コネクタで UI ベースのパイプライン作成がサポートされている場合は、このページの手順を完了することで、接続とパイプラインを同時に作成できます。 ただし、API ベースのパイプライン作成を使用する場合は、このページの手順を完了する前に、カタログ エクスプローラーで接続を作成する必要があります。 「マネージド インジェスト ソースへの接続」を参照してください。

  • 既存の接続を使用する場合: 接続オブジェクトに対する USE CONNECTION 特権または ALL PRIVILEGES が必要です。

  • ターゲット カタログに対する USE CATALOG 特権が必要です。

  • 既存のスキーマに対する USE SCHEMA 権限と CREATE TABLE 権限、またはターゲット カタログに対する CREATE SCHEMA 権限が必要です。

SharePoint から取り込むには、サポートされている認証方法のいずれかを構成する必要があります。

オプション 1: Azure Databricks ノートブック

  1. 次のノートブックをワークスペースにインポートします。

    SharePoint インジェスト パイプライン ノートブックを作成する

    ノートブックを入手

  2. セル 1 は既定値のままにします。 このセルは変更しないでください。

  3. SharePoint サイト内のすべてのドライブを取り込む場合は、セル 2 のスキーマ 仕様を変更します。 SharePoint サイトに一部のドライブのみを取り込む場合は、セル 2 を削除し、代わりにセル 3 のテーブル スペックを変更します。

    channel を変更しないでください。 これがPREVIEWでなければなりません。

    変更するセル 2 の値:

    • name: パイプラインの一意の名前。
    • connection_name: SharePoint の認証の詳細を格納する Unity カタログ接続。
    • source_schema: SharePoint サイト ID。
    • destination_catalog: 取り込まれたデータを格納する宛先カタログの名前。
    • destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
    • scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。 既定値は SCD タイプ 1 です。 詳細については、「 履歴追跡の有効化 (SCD タイプ 2)」を参照してください。

    変更するセル 3 の値:

    • name: パイプラインの一意の名前。
    • connection_name: SharePoint の認証の詳細を格納する Unity カタログ接続。
    • source_schema: SharePoint サイト ID。
    • source_table: SharePoint ドライブ名。
    • destination_catalog: 取り込まれたデータを格納する宛先カタログの名前。
    • destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
    • destination_table: ドライブ名にスペースまたは特殊文字が含まれる場合は、有効な名前で変換先テーブルを指定する必要があります。 たとえば、ドライブ名が my driveされている場合は、 my_driveなどの宛先テーブル名を指定する必要があります。
    • scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。 既定値は SCD タイプ 1 です。 詳細については、「 履歴追跡の有効化 (SCD タイプ 2)」を参照してください。
  4. [ すべて実行] をクリックします。

オプション 2: Databricks CLI

次のコマンドを実行します。

databricks pipelines create --json "<pipeline definition or json file path>"

パイプライン定義テンプレート

SharePoint サイト内のすべてのドライブを取り込む場合は、パイプライン定義のスキーマ スペック形式を使用します。 SharePoint サイトに一部のドライブのみを取り込む場合は、代わりにテーブル スペック定義形式を使用します。 channel を変更しないでください。 これがPREVIEWでなければなりません。

変更するスキーマ スペック値:

  • name: パイプラインの一意の名前。
  • connection_name: SharePoint の認証の詳細を格納する Unity カタログ接続。
  • source_schema: SharePoint サイト ID。
  • destination_catalog: 取り込まれたデータを格納する宛先カタログの名前。
  • destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
  • scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。 既定値は SCD タイプ 1 です。 詳細については、「 履歴追跡の有効化 (SCD タイプ 2)」を参照してください。

スキーマ スペック テンプレート:

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "schema": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

変更するテーブルスペック値:

  • name: パイプラインの一意の名前。
  • connection_name: SharePoint の認証の詳細を格納する Unity カタログ接続。
  • source_schema: SharePoint サイト ID。
  • source_table: SharePoint ドライブ名。
  • destination_catalog: データを格納する場所
  • destination_catalog: 取り込まれたデータを格納する宛先カタログの名前。
  • destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
  • scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。 既定値は SCD タイプ 1 です。 詳細については、「 履歴追跡の有効化 (SCD タイプ 2)」を参照してください。

テーブル スペック テンプレート:

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "table": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "destination_table": "<NAME"> # e.g., "my_drive",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

次のステップ

  • パイプラインでアラートを開始し、スケジュールを立て、設定します。
  • 生のドキュメントをテキストに解析したり、解析されたデータをチャンクしたり、チャンクから埋め込みを作成したりできます。 その後、出力テーブルの readStream をダウンストリーム パイプラインで直接使用できます。 ダウンストリーム RAG のユース ケースを参照してください。

その他のリソース