Azure Machine Learning で Synapse Spark プールをアタッチして管理する

2024-09-03

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

この記事では、Azure Machine Learning で Synapse Spark プールをアタッチする方法について説明します。 Azure Machine Learning では、次のいずれかの方法で Synapse Spark プールをアタッチできます。

Azure Machine Learning スタジオ UI を使用する
Azure Machine Learning CLI を使用する
Azure Machine Learning Python SDK を使用する

前提条件

Azure サブスクリプション。Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。
Azure Machine Learning ワークスペース。「ワークスペースリソースの作成」を参照してください。
Azure portal で Azure Synapse Analytics ワークスペースを作成する。
Azure portal を使用して Apache Spark プールを作成する。

Azure Machine Learning で Synapse Spark プールをアタッチする

Azure Machine Learning には、Synapse Spark プールをアタッチして管理するためのさまざまな方法があります。

[Studio コンピューティング] タブを使用して Synapse Spark プールをアタッチするには:

左側のペインの [管理] セクションで、[コンピューティング] を選びます。
[アタッチされたコンピューティング] を選びます。
[アタッチされたコンピューティング] 画面で、[新規] を選び、さまざまな種類のコンピューティングをアタッチするためのオプションを表示します。
[Synapse Spark プール] を選びます。

[Synapse Spark プールのアタッチ] パネルが画面の右側に開きます。このパネルで:

[名前] を入力します。この名前は、Azure Machine Learning リソース内のアタッチされた Synapse Spark プールを指します。
ドロップダウンメニューから Azure サブスクリプションを選びます。
ドロップダウンメニューから [Synapse ワークスペース] を選びます。
ドロップダウンメニューから [Spark プール] を選びます。
[マネージド ID の割り当て] オプションを切り替えて有効にします。
このアタッチされた Synapse Spark プールで使用するマネージド ID の種類を選びます。
[更新] を選んで、Synapse Spark プールのアタッチプロセスを完了します。

適用対象:Azure CLI ml 拡張機能 v2 (現行)

Azure Machine Learning CLI を使用すると、コマンドラインインターフェイスから直感的な YAML 構文とコマンドを使用して、Synapse Spark プールをアタッチして管理できます。

YAML 構文を使用してアタッチされた Synapse Spark プールを定義するには、YAML ファイルで次のプロパティをカバーする必要があります。

name - アタッチされた Synapse Spark プールの名前。
type - このプロパティを synapsespark に設定します。
resource_id - このプロパティでは、Azure Synapse Analytics ワークスペースで作成された Synapse Spark プールのリソース ID 値を指定する必要があります。 Azure リソース ID には、次のものが含まれます
- Azure サブスクリプション ID、
- リソースグループ名、
- Azure Synapse Analytics ワークスペース名、
- Synapse Spark プールの名前。
```
name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>
```

identity – このプロパティは、アタッチされた Synapse Spark プールに割り当てる ID の種類を定義します。次のいずれかの値にすることができます。

system_assigned

user_assigned

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
type: system_assigned

identity の種類が user_assigned の場合、user_assigned_identities 値のリストも提供する必要があります。各ユーザー割り当て ID は、ユーザー割り当て ID の resource_id 値を使用して、リストの要素として宣言する必要があります。リスト内の最初のユーザー割り当て ID は、既定でジョブを送信するために使用されます。

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
  type: user_assigned
  user_assigned_identities:
    - resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>

上記の YAML ファイルは、az ml compute attach パラメーターとして --file コマンドで使用できます。 Synapse Spark プールは、次に示すように az ml compute attach コマンドを使用して、サブスクリプションの指定されたリソースグループ内の Azure Machine Learning ワークスペースにアタッチできます。

az ml compute attach --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

このサンプルは、上記のコマンドの予想される出力を示しています。

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please visit https://aka.ms/azuremlexperimental for more information.

{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "___location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

YAML 仕様ファイルで指定された名前を持つアタッチされた Synapse Spark プールがワークスペースに既に存在する場合、az ml compute attach コマンドを実行すると、YAML 仕様ファイルで提供された情報で既存のプールが更新されます。次のものを更新できます。

ID の種類
ユーザー割り当て ID
タグ

YAML 仕様ファイルを使用した値

アタッチされた Synapse Spark プールの詳細を表示するには、az ml compute show コマンドを実行します。次に示すように、--name パラメーターを使用して、アタッチされた Synapse Spark プールの名前を渡します。

az ml compute show --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

このサンプルは、上記のコマンドの予想される出力を示しています。

<ATTACHED_SPARK_POOL_NAME>
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "___location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

ワークスペース内のアタッチされた Synapse Spark プールを含むすべてのコンピューティングのリストを表示するには、az ml compute list コマンドを使用します。次に示すように、name パラメーターを使用してワークスペースの名前を渡します。

az ml compute list --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

このサンプルは、上記のコマンドの予想される出力を示しています。

[
    {
    "auto_pause_settings": {
        "auto_pause_enabled": true,
        "delay_in_minutes": 15
    },
    "created_on": "2022-09-09 21:28:54.871251+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
        "principal_id": "<PRINCIPAL_ID>",
        "tenant_id": "<TENANT_ID>",
        "type": "system_assigned"
    },
    "___location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
        "auto_scale_enabled": false,
        "max_node_count": 0,
        "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
    },
    ...
]

適用対象: Python SDK azure-ai-ml v2 (現行)

Azure Machine Learning Python SDK には、Azure Machine Learning Notebooks の Python コードを使用して Synapse Spark プールをアタッチおよび管理するための便利な機能が用意されています。

Python SDK を使用して Synapse Compute をアタッチするには、まず azure.ai.ml.MLClient クラスのインスタンスを作成します。これにより、Azure Machine Learning サービスと対話するための便利な機能が提供されます。次のコードサンプルでは、azure.identity.DefaultAzureCredential を使用して、指定した Azure サブスクリプションのリソースグループ内のワークスペースに接続します。次のコードサンプルでは、次のパラメーターを使用して SynapseSparkCompute を定義します。

name - 新しくアタッチされた Synapse Spark プールのユーザー定義名。
resource_id- Azure Synapse Analytics ワークスペースで前に作成した Synapse Spark プールのリソース ID

azure.ai.ml.MLClient.begin_create_or_update() 関数呼び出しにより、定義済みの Synapse Spark プールが Azure Machine Learning ワークスペースにアタッチされます。

from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource)
ml_client.begin_create_or_update(synapse_comp)

システム割り当て ID を使用する Synapse Spark プールをアタッチするには、IdentityConfiguration を、型を SystemAssigned に設定して、identity クラスの SynapseSparkCompute パラメーターとして渡します。このコードスニペットは、システム割り当て ID を使用する Synapse Spark プールをアタッチします。

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(type="SystemAssigned")

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Synapse Spark プールでは、ユーザー割り当て ID を使用することもできます。ユーザー割り当て ID の場合、IdentityConfiguration クラスを使用して、マネージド ID 定義を identity クラスの SynapseSparkCompute パラメーターとして渡すことができます。この方法で使用されるマネージド ID 定義の場合は、type を UserAssigned に設定します。さらに、user_assigned_identities パラメーターを渡します。パラメーター user_assigned_identities は、UserAssignedIdentity クラスのオブジェクトのリストです。ユーザー割り当て ID の resource_id が、各 UserAssignedIdentity クラスオブジェクトに入力されます。このコードスニペットは、ユーザー割り当て ID を使用する Synapse Spark プールをアタッチします。

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

注

指定した名前のプールがまだワークスペースに存在しない場合、azure.ai.ml.MLClient.begin_create_or_update() 関数は新しい Synapse Spark プールをアタッチします。ただし、指定した名前の Synapse Spark プールが既にワークスペースにアタッチされている場合、azure.ai.ml.MLClient.begin_create_or_update() 関数を呼び出すと、既存のアタッチされたプールが新しい ID で更新されます。

Azure Synapse Analytics でロールの割り当てを追加する

アタッチされた Synapse Spark プールが正しく機能することを確認するには、Azure Synapse Analytics Studio UI から管理者ロールを割り当てます。次のステップで、これを実行する方法を説明します。

Azure portal で Synapse ワークスペースを開きます。
左側のペインで、[概要] を選択します。
[Synapse Studio を開く] を選びます。
Azure Synapse Analytics スタジオで、左側のペインで [管理] を選びます。
左側のペインの [セキュリティ] セクションで、左から 2 番目の [アクセスの制御] を選びます。
[追加] を選択します。
画面の右側に [ロールの割り当ての追加] パネルが開きます。このパネルで:
1. [スコープ] の [ワークスペース項目] を選びます。
2. [項目の種類] ドロップダウンメニューで、[Apache Spark プール] を選びます。
3. [項目] ドロップダウンメニューで、Apache Spark プールを選びます。
4. [ロール] ドロップダウンメニューで、[Synapse 管理者] を選びます。
5. [ユーザーの選択] 検索ボックスに、Azure Machine Learning ワークスペースの名前の入力を開始します。アタッチされた Synapse Spark プールのリストが表示されます。リストから目的の Synapse Spark プールを選びます。
6. [適用] を選択します。

Synapse Spark プールを更新する

アタッチされた Synapse Spark プールは、Azure Machine Learning スタジオ UI から管理できます。 Spark プール管理機能には、アタッチされた Synapse Spark プールに関連付けられたマネージド ID の更新が含まれます。 Synapse Spark プールの更新中に、システム割り当て ID またはユーザー割り当て ID を割り当てることができます。 Synapse Spark プールに割り当てる前に、Azure portal でユーザー割り当てマネージド ID を作成する必要があります。

アタッチされた Synapse Spark プールのマネージド ID を更新するには:

Azure Machine Learning スタジオで Synapse Spark プールの [詳細] ページを開きます。
[マネージド ID] セクションの右側にある編集アイコンを見つけます。
マネージド ID を初めて割り当てるには、[マネージド ID の割り当て] を切り替えて有効にします。
システム割り当てマネージド ID を割り当てるには:
1. [ID の種類] として [システム割り当て] を選びます。
2. [Update](更新) を選択します。
ユーザー割り当てマネージド ID を割り当てるには:
1. [ID の種類] として [ユーザー割り当て] を選びます。
2. ドロップダウンメニューから Azure サブスクリプションを選びます。
3. [名前で検索] というテキストが表示されているボックスに、ユーザー割り当てマネージド ID の名前の最初の数文字を入力します。一致するユーザー割り当てマネージド ID 名のリストが表示されます。リストから目的のユーザー割り当てマネージド ID を選びます。複数のユーザー割り当てマネージド ID を選び、それらをアタッチされた Synapse Spark プールに割り当てることができます。
4. [Update](更新) を選択します。

適用対象:Azure CLI ml 拡張機能 v2 (現行)

アタッチされた Synapse Spark プールに関連付けられている ID を更新するには、適切なパラメーターを指定して az ml compute update コマンドを実行します。システム割り当て ID を割り当てるには、次に示すように、コマンドの --identity パラメーターを SystemAssigned に設定します。

az ml compute update --identity SystemAssigned --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

このサンプルは、上記のコマンドの予想される出力を示しています。

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 20:02:15.746490+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
    "principal_id": "<PRINCIPAL_ID>",
    "tenant_id": "<TENANT_ID>",
    "type": "system_assigned"
    },
    "___location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<AML_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

ユーザー割り当て ID を割り当てるには、コマンドのパラメーター --identity を UserAssigned に設定します。さらに、次に示すようにユーザー割り当て ID のリソース ID を渡すためには、--user-assigned-identities パラメーターを使用する必要があります。

az ml compute update --identity UserAssigned --user-assigned-identities /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

このサンプルは、上記のコマンドの予想される出力を示しています。

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
  "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
  },
  "created_on": "2022-09-13 20:02:15.746490+00:00",
  "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
  "identity": {
    "type": "user_assigned",
    "user_assigned_identities": [
      {
        "client_id": "<CLIENT_ID>",
        "principal_id": "<PRINCIPAL_ID>",
        "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourcegroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
      }
    ]
  },
  "___location": "eastus2",
  "name": "<ATTACHED_SPARK_POOL_NAME>",
  "node_count": 5,
  "node_family": "MemoryOptimized",
  "node_size": "Small",
  "provisioning_state": "Succeeded",
  "resourceGroup": "<RESOURCE_GROUP>",
  "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
  "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
  },
  "spark_version": "3.2",
  "type": "synapsespark"
}

注

パラメーター --user-assigned-identities は、リソース ID のリストを取得し、アタッチされた Synapse Spark プールに複数のユーザー定義 ID を割り当てることができます。リスト内の最初のユーザー割り当て ID は、既定でジョブの送信に使用されます。

適用対象: Python SDK azure-ai-ml v2 (現行)

システム割り当て ID を使用するには、型を IdentityConfiguration に設定して、SystemAssigned を identity クラスのSynapseSparkCompute パラメーターとして渡します。このコードスニペットは、システム割り当て ID を使用するように Synapse Spark プールを更新します。

# import required libraries 
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration 
from azure.identity import DefaultAzureCredential
    
subscription_id = "<SUBSCRIPTION_ID>" 
resource_group_name = "<RESOURCE_GROUP>" 
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace 
) 

synapse_name = "<ATTACHED_SPARK_POOL_NAME>" 
synapse_resource ="/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>" 
synapse_identity = IdentityConfiguration(type="SystemAssigned") 

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource,identity=synapse_identity) ml_client.begin_create_or_update(synapse_comp)

Synapse Spark プールでは、ユーザー割り当て ID を使用することもできます。ユーザー割り当て ID の場合、IdentityConfiguration クラスを使用して、マネージド ID 定義を identity クラスの SynapseSparkCompute パラメーターとして渡すことができます。この方法で使用されるマネージド ID 定義の場合は、type を UserAssigned に設定します。さらに、user_assigned_identities パラメーターを渡します。パラメーター user_assigned_identities は、UserAssignedIdentity クラスのオブジェクトのリストです。ユーザー割り当て ID の resource_id が、各 UserAssignedIdentity クラスオブジェクトに入力されます。このコードスニペットは、ユーザー割り当て ID を使用するように Synapse Spark プールを更新します。

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

注

指定した名前のプールがまだワークスペースに存在しない場合、azure.ai.ml.MLClient.begin_create_or_update() 関数は新しい Synapse Spark プールをアタッチします。ただし、指定した名前の Synapse Spark プールが既にワークスペースにアタッチされている場合、azure.ai.ml.MLClient.begin_create_or_update() 関数呼び出しによって、既存のアタッチされたプールが新しい ID で更新されます。

Synapse Spark プールをデタッチする

アタッチされた Synapse Spark プールをデタッチして、ワークスペースをクリーンアップしたい場合があります。

Azure Machine Learning スタジオ UI には、アタッチされた Synapse Spark プールをデタッチする方法も用意されています。これを行うには、次の手順を実行します。

Azure Machine Learning スタジオで Synapse Spark プールの [詳細] ページを開きます。
[デタッチ] を選び、アタッチされた Synapse Spark プールをデタッチします。

適用対象:Azure CLI ml 拡張機能 v2 (現行)

次に示すように、az ml compute detach パラメーターを使用して渡されたプールの名前を使用して --name コマンドを実行すると、アタッチされた Synapse Spark プールをデタッチできます。

az ml compute detach --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

このサンプルは、上記のコマンドの予想される出力を示しています。

Are you sure you want to perform this operation? (y/n): y

適用対象: Python SDK azure-ai-ml v2 (現行)

MLClient.compute.begin_delete() 関数呼び出しを使用します。アタッチされた Synapse Spark プールの name をアクション Detach と共に関数に渡します。このコードスニペットは、Azure Machine Learning ワークスペースから Synapse Spark プールをデタッチします。

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
ml_client.compute.begin_delete(name=synapse_name, action="Detach")

Azure Machine Learning でのサーバーレス Spark コンピューティング

一部のユーザーシナリオでは、Azure Machine Learning ジョブの送信中に、Spark プールをアタッチすることなくサーバーレス Spark コンピューティングリソースへのアクセスが必要になる場合があります。 Azure Synapse Analytics と Azure Machine Learning の統合により、サーバーレス Spark コンピューティングエクスペリエンスも提供されます。これにより、コンピューティングをワークスペースにアタッチせずに、ジョブ内の Spark コンピューティングにアクセスできます。サーバーレス Spark コンピューティングエクスペリエンスについては、こちらを参照してください。

次のステップ

フィードバック

このページはお役に立ちましたか?

次の方法で共有

Azure Machine Learning で Synapse Spark プールをアタッチして管理する

前提条件

Azure Machine Learning で Synapse Spark プールをアタッチする

Azure Synapse Analytics でロールの割り当てを追加する

Synapse Spark プールを更新する

Synapse Spark プールをデタッチする

Azure Machine Learning でのサーバーレス Spark コンピューティング

次のステップ

フィードバック

その他のリソース