適用対象: SQL Server 2019 (15.x)
Important
Microsoft SQL Server 2019 ビッグ データ クラスターは廃止されました。 SQL Server 2019 ビッグ データ クラスターのサポートは、2025 年 2 月 28 日の時点で終了しました。 詳細については、Microsoft SQL Server プラットフォーム の発表ブログ投稿 と ビッグ データ オプションを参照してください。
この記事では、セッションとノートブックの構成を使用して Spark セッションのパッケージをインポートおよびインストールする方法に関するガイダンスを提供します。
Built-in tools
Scala Spark (Scala 2.12) および Hadoop ベース パッケージ。
PySpark (Python 3.8)。 Pandas、Sklearn、Numpy、およびその他のデータ処理と機械学習パッケージ。
MRO 3.5.2 パッケージ。 R Spark ワークロード用の Sparklyr と SparkR。
実行時に Maven リポジトリから Spark クラスターにパッケージをインストールする
Maven パッケージは、Spark セッションの開始時にノートブック セル構成を使用して Spark クラスターにインストールできます。 Azure Data Studio で Spark セッションを開始する前に、次のコードを実行します。
%%configure -f \
{"conf": {"spark.jars.packages": "com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1"}}
複数のパッケージと追加の Spark 構成
次のサンプル ノートブック セルでは、複数のパッケージが定義されています。
%%configure -f \
{
"conf": {
"spark.jars.packages": "com.microsoft.azure:synapseml_2.12:0.9.4,com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1",
"spark.jars.repositories":"https://mmlspark.azureedge.net/maven"
}
}
実行時に PySpark に Python パッケージをインストールする
セッション レベルとジョブ レベルのパッケージ管理では、ライブラリの一貫性と分離が保証されます。 この構成は、Livy セッションに適用できる Spark 標準ライブラリ構成です。 azdata spark はこれらの 構成をサポートしています。 次の例は、 Azure Data Studio Notebooks が PySpark カーネルを使用してクラスターにアタッチした後に実行する必要があるセルを構成する場合に示しています。
"spark.pyspark.virtualenv.enabled" : "true" 構成が設定されていない場合、セッションではクラスターの既定の Python とインストールされているライブラリが使用されます。
requirements.txt を使用したセッション/ジョブの構成
インストールするパッケージの参照として使用する HDFS の requirements.txt ファイルへのパスを指定します。
%%configure -f \
{
"conf": {
"spark.pyspark.virtualenv.enabled" : "true",
"spark.pyspark.virtualenv.python_version": "3.8",
"spark.pyspark.virtualenv.requirements" : "hdfs://user/project-A/requirements.txt"
}
}
異なる Python バージョンのセッション/ジョブ構成
要件ファイルなしで conda virtualenv を作成し、Spark セッション中にパッケージを動的に追加します。
%%configure -f \
{
"conf": {
"spark.pyspark.virtualenv.enabled" : "true",
"spark.pyspark.virtualenv.python_version": "3.7"
}
}
Library installation
sc.install_packagesを実行して、セッションにライブラリを動的にインストールします。 ライブラリは、ドライバーとすべての Executor ノードにインストールされます。
sc.install_packages("numpy==1.11.0")
import numpy as np
配列を使用して、同じコマンドに複数のライブラリをインストールすることもできます。
sc.install_packages(["numpy==1.11.0", "xgboost"])
import numpy as np
import xgboost as xgb
実行時に使用するために HDFS から.jarをインポートする
Azure Data Studio ノートブック のセル構成を使用して、実行時に jar をインポートします。
%%configure -f
{"conf": {"spark.jars": "/jar/mycodeJar.jar"}}
Next steps
SQL Server ビッグ データ クラスターと関連するシナリオの詳細については、「 SQL Server ビッグ データ クラスター」を参照してください。