次の方法で共有


機械学習モデルをトレーニングする

Apache Spark (Microsoft Fabric の一部) により、大規模な機械学習が可能になります。 これを使用して、大量の構造化データ、非構造化データ、ストリーミング データから分析情報を得ることができます。 Apache Spark MLlib、SynapseML などのオープンソース ライブラリを使用して、Microsoft Fabric のモデルをトレーニングします。

Apache SparkML と MLlib

Apache Spark (Microsoft Fabric の一部) は、統合されたオープン ソースの並列データ処理フレームワークです。 インメモリ処理を使用してビッグ データ分析を高速化します。 Spark は、速度、使いやすさ、高度な分析のために構築されています。 Spark のメモリ内の分散計算は、反復的な機械学習とグラフ アルゴリズムに適しています。

この分散環境にアルゴリズム モデリング機能を提供するスケーラブルな機械学習ライブラリには、MLlibSparkML の 2 つがあります。 MLlib は、元の RDD ベースの API を提供します。 SparkML は、ML パイプラインを構築するための上位レベルの DataFrame ベースの API を提供する新しいパッケージです。 SparkML は、ML パイプラインを構成するために DataFrames 上に構築されたより高レベルの API を提供します。 SparkML はまだすべての MLlib 機能をサポートしているわけではありませんが、MLlib を標準の Spark 機械学習ライブラリに置き換えています。

Note

詳細については、「 Apache Spark MLlib を使用してモデルをトレーニングする」を参照してください。

Apache Spark 用 Microsoft Fabric ランタイムには、機械学習モデルをトレーニングするための一般的なオープン ソース パッケージがいくつか含まれています。 これらのライブラリは、プロジェクトに再利用可能なコードを提供します。 ランタイムには、次の機械学習ライブラリが含まれています。

  • Scikit-learn - 従来の機械学習アルゴリズム用の一般的な単一ノード ライブラリです。 監視対象および教師なしアルゴリズムの大部分をサポートし、データ マイニングとデータ分析を処理します。

  • XGBoost - デシジョン ツリーとランダム フォレストのトレーニング用に最適化されたアルゴリズムを備えた一般的なライブラリです。

  • PyTorchTensorflow は、強力な Python ディープ ラーニング ライブラリです。 これらのライブラリを使用して、プール上の Executor の数をゼロに設定すると、単一マシンのモデルを構築できます。 この構成では Apache Spark は利用できませんが、単一マシン モデルを作成するための簡単でコスト効率の高い方法です。

SynapseML

SynapseML オープンソース ライブラリ (旧称 MMLSpark) は、スケーラブルな機械学習 (ML) パイプラインの構築に役立ちます。 実験を高速化し、ディープ ラーニングを含む高度な手法を大規模なデータセットに適用できます。

SynapseML は、スケーラブルな ML モデルを構築するときに、SparkML の低レベル API の上にレイヤーを提供します。 これらの API には、文字列のインデックス作成、特徴ベクトルのアセンブリ、機械学習アルゴリズムに適したレイアウトへのデータの強制変換などが含まれています。 SynapseML ライブラリはこれらのタスクや、PySpark でモデルを構築するためのその他の一般的なタスクを簡略化します。

Microsoft Fabric の Apache Spark で機械学習モデルをトレーニングするためのオプションについて説明します。 詳細については、以下を参照してください。