次の方法で共有


Microsoft Fabric の Data Science とは

データ エンリッチメントとビジネス分析情報のために、Microsoft Fabric は、ユーザーがエンド ツー エンドのデータ サイエンス ワークフローを構築できるようにするデータ サイエンス エクスペリエンスを提供します。 データ サイエンス プロセス全体にわたって、さまざまなアクティビティを完了できます。

  • データ探索
  • データ準備
  • データクリーニング
  • 実験
  • modeling
  • モデルスコアリング
  • 予測分析情報を BI レポートに提供する

Microsoft Fabric ユーザーは、データ サイエンスのホーム ページにアクセスできます。 その後、次のスクリーンショットに示すように、関連するさまざまなリソースを検出してアクセスできます。

Data Science のホーム ページのスクリーンショット。

ほとんどの機械学習プロジェクトは、データ サイエンス プロセスに従います。 大まかに言えば、そのプロセスには次の手順が含まれます。

  • 問題の策定とイデーション
  • データの検出と前処理
  • 実験とモデリング
  • 充実と運用化
  • build insights

データ サイエンス プロセスの図。

この記事では、データ サイエンス プロセスの観点から Microsoft Fabric Data Science の機能について説明します。 この記事では、Microsoft Fabric の役立つ機能を、データ サイエンス プロセスの各ステップごとにまとめています。

問題の定式化と構想

Microsoft Fabric の Data Science ユーザーは、ビジネス ユーザーやアナリストと同じプラットフォームで作業します。 そのため、異なるロール間でのデータ共有やコラボレーションがシームレスになります。 アナリストは、Power BI レポートやデータセットをデータ サイエンスの専門家と簡単に共有できます。 Microsoft Fabric のロール間のコラボレーションが容易になり、問題の策定フェーズ中のハンドオフが容易になります。

データの検出と前処理

Microsoft Fabric ユーザーは、Lakehouse リソースを使用して OneLake のデータを操作できます。 データを参照して操作するために、Lakehouse はノートブックに簡単にアタッチできます。 ユーザーは、レイクハウスから Pandas データフレームへのデータの直接読み込みを簡単に行えます。 探索では、OneLake からのシームレスなデータ読み取りが可能になります。

Microsoft Fabric にネイティブに統合されているデータ統合パイプラインでは、データ インジェストとデータ オーケストレーションのパイプラインに強力なツール セットを利用できます。 簡単に構築できるパイプラインでは、データにアクセスして、機械学習で使用できる形式に変換できます。

データ探索

機械学習プロセスの重要な部分は、探索と視覚化を通じてデータを理解することです。

Microsoft Fabric には、データストレージの場所に応じて、分析と機械学習のためにデータを探索および準備するためのツールが用意されています。 ノートブック自体は、効率的で効果的なデータ探索ツールになります。

データ準備のための Apache Spark と Python

Microsoft Fabric では、大規模なデータの変換、準備、探索を行うことができます。 Spark を使用すると、ユーザーは PySpark/Python、Scala、SparkR/SparklyR ツールを使用して大規模にデータを前処理できます。 強力なオープン ソース視覚化ライブラリを使用すると、データの理解を深めるためにデータ探索エクスペリエンスを強化できます。

シームレスなデータクレンジングのためのデータ処理ツール

Data Wrangler を使用するために、Microsoft Fabric Notebook エクスペリエンスでは、データを準備して Python コードを生成するコード ツール機能が追加されました。 このエクスペリエンスにより、データのクリーニングなど、面倒で日常的なタスクを簡単に高速化できます。 これを使用すると、生成されたコードを使用して自動化と再現性を構築することもできます。 Data Wrangler の詳細については、このドキュメントの「Data Wrangler」セクションを参照してください。

実験と ML モデリング

PySpark/Python や SparklyR/R などのツールを使用すると、ノートブックで機械学習モデルのトレーニングを処理できます。 機械学習アルゴリズムとライブラリは、機械学習モデルのトレーニングに役立ちます。 ライブラリ管理ツールで、これらのライブラリとアルゴリズムをインストールできます。 その後、ユーザーは人気のある機械学習ライブラリを使用して、Microsoft Fabric で ML モデルのトレーニングを完了できます。 また、Scikit Learn などの一般的なライブラリでもモデルを開発できます。

MLflow の実験と実行では、ML モデルのトレーニングを追跡できます。 実験とモデルをログに記録するために、Microsoft Fabric には、相互作用をサポートする組み込みの MLflow エクスペリエンスが用意されています。 MLflow を使用して実験を追跡し、Microsoft Fabric でモデルを管理する方法について説明します。

SynapseML

Microsoft は SynapseML (旧称 MMLSpark) オープンソース ライブラリを所有し、運用しています。 これにより、非常にスケーラブルな機械学習パイプラインの作成が簡略化されます。 これはツールのエコシステムであり、Apache Spark フレームワークをいくつかの新しい方向へ拡張します。 SynapseML は、複数の既存の機械学習フレームワークと新しい Microsoft アルゴリズムを 1 つのスケーラブルな API に統合します。 オープン ソースの SynapseML ライブラリには、予測モデル開発用の ML ツールの豊富なエコシステムが含まれており、Azure AI サービスから事前トレーニング済みの AI モデルを使用します。 詳細については、 SynapseML リソースを参照してください。

機能強化および運用に移行

ノートブックでは、予測用のオープンソース ライブラリを使用して機械学習モデルのバッチ スコアリングを処理できます。 また、Microsoft Fabric のスケーラブルなユニバーサル Spark Predict 関数を処理することもできます。 この関数は、Microsoft Fabric モデル レジストリの MLflow パッケージ モデルをサポートします。

インサイトを得る

Microsoft Fabric では、予測値を OneLake に簡単に書き込むことができます。 そこから、Power BI レポートは Power BI Direct Lake モードでそれらをシームレスに使用できます。 データ サイエンスの実践者は、作業の結果を関係者と簡単に共有でき、運用化が簡素化されます。

ノートブックのスケジュール機能を使用して、バッチ スコアリングを含むノートブックの実行をスケジュールできます。 また、パイプライン アクティビティまたは Spark ジョブの一部としてバッチ スコアリングをスケジュールすることもできます。 Microsoft Fabric の Direct Lake モードでは、Power BI はデータの読み込みまたは更新を必要とせずに、最新の予測を自動的に取得します。

データ サイエンティストやビジネス アナリストは、意味のある分析を開始する前に、データの理解、クリーンアップ、変換に多くの時間を費やしています。 ビジネス アナリストは通常、セマンティック モデルを操作し、ドメインの知識とビジネス ロジックを Power BI メジャーにエンコードします。 一方、データ サイエンティストは同じデータを扱えますが、通常は別のコード環境または言語で作業できます。 セマンティック リンクを使用すると、データ サイエンティストは 、SemPy Python ライブラリを使用して、Microsoft Fabric エクスペリエンスの Power BI セマンティック モデルと Synapse データ サイエンス間の接続を確立できます。 データ分析を簡略化するために、SemPy は、ユーザーがセマンティック モデルに対してさまざまな変換を実行する場合に、データ セマンティクスをキャプチャして使用します。 データ サイエンティストがセマンティック リンクを使用すると、

  • コード内のビジネス ロジックとドメイン知識の再実装を回避する
  • コード内で Power BI の計算項目に簡単にアクセスして使用する
  • セマンティクスを使用して新しいエクスペリエンスを実現する (セマンティック関数など)
  • データ間の機能依存関係とリレーションシップを調査して検証する

組織が SemPy を使用する場合は、次のことが期待できます。

  • 同じデータセットを操作するチーム間の生産性の向上とコラボレーションの高速化
  • ビジネス インテリジェンス チームと AI チームの間のクロスコラボレーションの増加
  • 新しいモデルまたはデータセットへのオンボード時のあいまいさが軽減され、学習曲線が容易になります

セマンティック リンクの詳細については、「 セマンティック リンクとは」 リソースを参照してください。

  • エンド ツー エンドのデータ サイエンス サンプルの使用を開始するには、 Data Science チュートリアル を参照してください
  • Data Wrangler を使用したデータの準備とクリーニングの詳細については、Data Wrangler を参照してください
  • 実験の追跡の詳細については、 機械学習 の実験にアクセスしてください
  • モデル管理の詳細については 、機械学習モデル を参照してください
  • Predict を使用したバッチ スコアリングの詳細については、PREDICT を使用したモデルのスコア付けに関するページを参照してください
  • Direct Lake を使用して Lakehouse 予測を Power BI に 提供する