Von Bedeutung
Microsoft SharePoint コネクタは ベータ版です。
このページでは、Databricks Lakeflow Connect を使用して Microsoft SharePoint インジェスト パイプラインを作成する方法について説明します。 次のインターフェイスがサポートされています。
- Databricks アセット バンドル
- Databricks API
- Databricks SDK
- Databricks コマンドラインインターフェース (CLI)
開始する前に
インジェスト パイプラインを作成するには、次の要件を満たす必要があります。
ワークスペースは、Unity Catalog に対して有効にする必要があります。
ワークスペースに対してサーバーレス コンピューティングを有効にする必要があります。 サーバーレス コンピューティング要件を参照してください。
新しい接続を作成する場合: メタストアに対する
CREATE CONNECTION
特権が必要です。コネクタで UI ベースのパイプライン作成がサポートされている場合は、このページの手順を完了することで、接続とパイプラインを同時に作成できます。 ただし、API ベースのパイプライン作成を使用する場合は、このページの手順を完了する前に、カタログ エクスプローラーで接続を作成する必要があります。 「マネージド インジェスト ソースへの接続」を参照してください。
既存の接続を使用する場合: 接続オブジェクトに対する
USE CONNECTION
特権またはALL PRIVILEGES
が必要です。ターゲット カタログに対する
USE CATALOG
特権が必要です。既存のスキーマに対する
USE SCHEMA
権限とCREATE TABLE
権限、またはターゲット カタログに対するCREATE SCHEMA
権限が必要です。
SharePoint から取り込むには、サポートされている認証方法のいずれかを構成する必要があります。
オプション 1: Azure Databricks ノートブック
次のノートブックをワークスペースにインポートします。
SharePoint インジェスト パイプライン ノートブックを作成する
セル 1 は既定値のままにします。 このセルは変更しないでください。
SharePoint サイト内のすべてのドライブを取り込む場合は、セル 2 のスキーマ 仕様を変更します。 SharePoint サイトに一部のドライブのみを取り込む場合は、セル 2 を削除し、代わりにセル 3 のテーブル スペックを変更します。
channel
を変更しないでください。 これがPREVIEW
でなければなりません。変更するセル 2 の値:
-
name
: パイプラインの一意の名前。 -
connection_name
: SharePoint の認証の詳細を格納する Unity カタログ接続。 -
source_schema
: SharePoint サイト ID。 -
destination_catalog
: 取り込まれたデータを格納する宛先カタログの名前。 -
destination_schema
: 取り込まれたデータを含む宛先スキーマの名前。 -
scd_type
: 使用する SCD メソッド:SCD_TYPE_1
またはSCD_TYPE_2
。 既定値は SCD タイプ 1 です。 詳細については、「 履歴追跡の有効化 (SCD タイプ 2)」を参照してください。
変更するセル 3 の値:
-
name
: パイプラインの一意の名前。 -
connection_name
: SharePoint の認証の詳細を格納する Unity カタログ接続。 -
source_schema
: SharePoint サイト ID。 -
source_table
: SharePoint ドライブ名。 -
destination_catalog
: 取り込まれたデータを格納する宛先カタログの名前。 -
destination_schema
: 取り込まれたデータを含む宛先スキーマの名前。 -
destination_table
: ドライブ名にスペースまたは特殊文字が含まれる場合は、有効な名前で変換先テーブルを指定する必要があります。 たとえば、ドライブ名がmy drive
されている場合は、my_drive
などの宛先テーブル名を指定する必要があります。 -
scd_type
: 使用する SCD メソッド:SCD_TYPE_1
またはSCD_TYPE_2
。 既定値は SCD タイプ 1 です。 詳細については、「 履歴追跡の有効化 (SCD タイプ 2)」を参照してください。
-
[ すべて実行] をクリックします。
オプション 2: Databricks CLI
次のコマンドを実行します。
databricks pipelines create --json "<pipeline definition or json file path>"
パイプライン定義テンプレート
SharePoint サイト内のすべてのドライブを取り込む場合は、パイプライン定義のスキーマ スペック形式を使用します。 SharePoint サイトに一部のドライブのみを取り込む場合は、代わりにテーブル スペック定義形式を使用します。
channel
を変更しないでください。 これがPREVIEW
でなければなりません。
変更するスキーマ スペック値:
-
name
: パイプラインの一意の名前。 -
connection_name
: SharePoint の認証の詳細を格納する Unity カタログ接続。 -
source_schema
: SharePoint サイト ID。 -
destination_catalog
: 取り込まれたデータを格納する宛先カタログの名前。 -
destination_schema
: 取り込まれたデータを含む宛先スキーマの名前。 -
scd_type
: 使用する SCD メソッド:SCD_TYPE_1
またはSCD_TYPE_2
。 既定値は SCD タイプ 1 です。 詳細については、「 履歴追跡の有効化 (SCD タイプ 2)」を参照してください。
スキーマ スペック テンプレート:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"schema": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""
変更するテーブルスペック値:
-
name
: パイプラインの一意の名前。 -
connection_name
: SharePoint の認証の詳細を格納する Unity カタログ接続。 -
source_schema
: SharePoint サイト ID。 -
source_table
: SharePoint ドライブ名。 -
destination_catalog
: データを格納する場所 -
destination_catalog
: 取り込まれたデータを格納する宛先カタログの名前。 -
destination_schema
: 取り込まれたデータを含む宛先スキーマの名前。 -
scd_type
: 使用する SCD メソッド:SCD_TYPE_1
またはSCD_TYPE_2
。 既定値は SCD タイプ 1 です。 詳細については、「 履歴追跡の有効化 (SCD タイプ 2)」を参照してください。
テーブル スペック テンプレート:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"table": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"destination_table": "<NAME"> # e.g., "my_drive",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""
次のステップ
- パイプラインでアラートを開始し、スケジュールを立て、設定します。
- 生のドキュメントをテキストに解析したり、解析されたデータをチャンクしたり、チャンクから埋め込みを作成したりできます。 その後、出力テーブルの
readStream
をダウンストリーム パイプラインで直接使用できます。 ダウンストリーム RAG のユース ケースを参照してください。