Spark ライブラリの管理

2021-12-01

適用対象: SQL Server 2019 (15.x)

Important

Microsoft SQL Server 2019 ビッグデータクラスターは廃止されました。 SQL Server 2019 ビッグデータクラスターのサポートは、2025 年 2 月 28 日の時点で終了しました。詳細については、Microsoft SQL Server プラットフォームの発表ブログ投稿とビッグデータオプションを参照してください。

この記事では、セッションとノートブックの構成を使用して Spark セッションのパッケージをインポートおよびインストールする方法に関するガイダンスを提供します。

Built-in tools

Scala Spark (Scala 2.12) および Hadoop ベースパッケージ。

PySpark (Python 3.8)。 Pandas、Sklearn、Numpy、およびその他のデータ処理と機械学習パッケージ。

MRO 3.5.2 パッケージ。 R Spark ワークロード用の Sparklyr と SparkR。

実行時に Maven リポジトリから Spark クラスターにパッケージをインストールする

Maven パッケージは、Spark セッションの開始時にノートブックセル構成を使用して Spark クラスターにインストールできます。 Azure Data Studio で Spark セッションを開始する前に、次のコードを実行します。

%%configure -f \
{"conf": {"spark.jars.packages": "com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1"}}

複数のパッケージと追加の Spark 構成

次のサンプルノートブックセルでは、複数のパッケージが定義されています。

%%configure -f \
{
    "conf": {
        "spark.jars.packages": "com.microsoft.azure:synapseml_2.12:0.9.4,com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1",
        "spark.jars.repositories":"https://mmlspark.azureedge.net/maven"
    }
}

実行時に PySpark に Python パッケージをインストールする

セッションレベルとジョブレベルのパッケージ管理では、ライブラリの一貫性と分離が保証されます。この構成は、Livy セッションに適用できる Spark 標準ライブラリ構成です。 azdata spark はこれらの 構成をサポートしています。次の例は、 Azure Data Studio Notebooks が PySpark カーネルを使用してクラスターにアタッチした後に実行する必要があるセルを構成する場合に示しています。

"spark.pyspark.virtualenv.enabled" : "true" 構成が設定されていない場合、セッションではクラスターの既定の Python とインストールされているライブラリが使用されます。

requirements.txt を使用したセッション/ジョブの構成

インストールするパッケージの参照として使用する HDFS の requirements.txt ファイルへのパスを指定します。

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.8",
        "spark.pyspark.virtualenv.requirements" : "hdfs://user/project-A/requirements.txt"
    }
}

異なる Python バージョンのセッション/ジョブ構成

要件ファイルなしで conda virtualenv を作成し、Spark セッション中にパッケージを動的に追加します。

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.7"
    }
}

Library installation

sc.install_packagesを実行して、セッションにライブラリを動的にインストールします。ライブラリは、ドライバーとすべての Executor ノードにインストールされます。

sc.install_packages("numpy==1.11.0")
import numpy as np

配列を使用して、同じコマンドに複数のライブラリをインストールすることもできます。

sc.install_packages(["numpy==1.11.0", "xgboost"])
import numpy as np
import xgboost as xgb

実行時に使用するために HDFS から.jarをインポートする

Azure Data Studio ノートブックのセル構成を使用して、実行時に jar をインポートします。

%%configure -f
{"conf": {"spark.jars": "/jar/mycodeJar.jar"}}

Next steps

SQL Server ビッグデータクラスターと関連するシナリオの詳細については、「 SQL Server ビッグデータクラスター」を参照してください。