MLflow を使用して実験とモデルを追跡する

追跡は、実験に関する関連情報を保存するプロセスです。この記事では、MLflow を使用して Azure Machine Learning ワークスペースで実験と実行を追跡する方法について説明します。

Azure Machine Learning を使用している場合、MLflow API で使用できる一部のメソッドは使用できない場合があります。サポートされている操作とサポートされていない操作の詳細については、「実行と実験のクエリを実行するためのサポートマトリックス」をご覧ください。また、Azure Machine Learning でサポートされている MLflow 機能については、 MLflow と Azure Machine Learning に関する記事を参照してください。

注記

Azure Databricks で実行されている実験を追跡するには、「 MLflow と Azure Machine Learning を使用して Azure Databricks 機械学習実験を追跡する」を参照してください。
Azure Synapse Analytics で実行されている実験の追跡する方法については、「MLflow と Azure Machine Learning を使用して Azure Synapse Analytics ML の実験を追跡する」をご覧ください。

前提条件

Azure サブスクリプションと Azure Machine Learning の無料または有料バージョンを用意します。
Azure CLI と Python のコマンドを実行するには、Azure CLI v2 と Azure Machine Learning SDK v2 for Python をインストールします。 Azure CLI の ml 拡張機能は、Azure Machine Learning CLI コマンドを初めて実行したときに自動的にインストールされます。

MLflow SDK mlflow パッケージと、MLflow 用の Azure Machine Learning azureml-mlflow プラグインをインストールします。
```
pip install mlflow azureml-mlflow
```
ヒント

SQL ストレージ、サーバー、UI、またはデータサイエンスの依存関係のない軽量 MLflow パッケージであるパッケージ mlflow-skinny を使用できます。このパッケージは、MLflowの追跡とログ記録機能のみを主に必要とし、デプロイを含む機能の完全なスイートを必要としないユーザーにお勧めします。
Azure Machine Learning ワークスペースを作成します。ワークスペースを作成するには、「開始する必要があるリソースを作成する」を参照してください。ワークスペースで MLflow 操作を実行するために必要なアクセス許可を確認します。
リモート追跡を行う (つまり、Azure Machine Learning の外部で実行されている実験を追跡する) 場合は、Azure Machine Learning ワークスペースの追跡 URI を指すように MLflow を構成します。 MLflow をワークスペースに接続する方法の詳細については、「Azure Machine Learning 用に MLflow を構成する」を参照してください。

実験を構成する

MLflow により実験と実行の情報が整理されます。実行は Azure Machine Learning ではジョブと呼ばれています。既定では、実行は「既定」という名前の自動的に作成される実験にログされますが、追跡する実験を構成できます。

ノートブック
ジョブ

Jupyter Notebook などで対話形式でトレーニングする場合は、MLflow コマンド mlflow.set_experiment() を使用します。たとえば、次のコードスニペットで実験を構成します。

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

Azure Machine Learning CLI または SDK を使用してジョブを送信するには、ジョブの experiment_name プロパティを使用して実験名を設定します。トレーニングスクリプトで実験名を構成する必要はありません。

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

実行を設定する

Azure Machine Learning は、MLflow 呼び出しが実行される内容でトレーニングジョブを追跡 します。実行を使用して、ジョブが実行するすべての処理をキャプチャします。

ノートブック
ジョブ

対話形式で作業するとき、アクティブな実行を必要とする情報をログすると、すぐに MLflow によってトレーニングルーチンの追跡が開始されます。たとえば、MLflow の自動ログ機能が有効になっている場合、メトリックまたはパラメーターをログに記録したり、トレーニングサイクルを開始したりすると、MLflow 追跡が開始されます。

ただし、実験の合計時間を [期間] フィールドにキャプチャする場合は特に、通常は、実行を明示的に開始すると便利です。実行を明示的に開始するには、mlflow.start_run() を使用します。

実行を手動で開始するかどうかに関係なく、最終的には実行を停止する必要があります。MLflow は実験の実行が完了したことを認識し、実行の状態を完了としてマークできるようにします。実行を停止するには、mlflow.end_run() を使用します。

次のコードでは、手動で実行を開始し、ノートブックの末尾でそれを終了します。

mlflow.start_run()

# Your code

mlflow.end_run()

実行の終了を忘れないよう、手動で実行を開始することをお勧めします。実行の終了を忘れないようにするため、コンテキストマネージャーパラダイムを使用できます。

with mlflow.start_run() as run:
    # Your code

mlflow.start_run()を使用して新しい実行を開始する場合は、run_name パラメーターを指定すると便利です。これは後で Azure Machine Learning ユーザーインターフェイスの実行の名前に変換されます。この習慣は、実行をもっと簡単に識別するうえで役立ちます。

with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code

Azure Machine Learning ジョブを使用すると、分離された再現可能な実行として、長期のトレーニングまたは推論ルーチンを送信できます。

追跡のあるトレーニングルーチンを作成する

ジョブを操作するときは、通常、すべてのトレーニングロジックを src などのフォルダー内のファイルとして含めます。ファイルの 1 つは、トレーニングコードのエントリポイントを含む Python ファイルになります。

トレーニングルーチンでは、MLflow SDK を使用して、メトリック、パラメーター、成果物、またはモデルを追跡できます。例が必要であれば、「MLflow を使ったメトリック、パラメーター、ファイルのログ」を参照してください。

次の例は、ログを追加する hello_world.py トレーニングルーチンを示しています。

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

前のコード例では、 mlflow.start_run()は使用しません。この行を使用すると、MLflow は現在アクティブな実行を再利用します。そのため、Azure Machine Learning にコードを移行する場合、 mlflow.start_run() を削除する必要はありません。

ジョブの環境に MLflow がインストールされていることを確認する

Azure Machine Learning キュレーションされた環境にはすべて、既に MLflow がインストールされています。ただし、カスタム環境を使用する場合は、必要な依存関係を含む conda.yml ファイルを作成し、ジョブ内の環境を参照します。

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

ジョブ名を構成する

Azure Machine Learning ジョブのパラメーター display_name を使用して、実行の名前を構成します。

display_name プロパティを使用してジョブを構成します。

Azure CLI
Python SDK

ジョブを構成するには、src ディレクトリの外で job.yml ファイルのジョブ定義を使用して YAML ファイルを作成します。

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

トレーニングルーチンで mlflow.start_run(run_name="") を使用していないことを確認します。

ジョブを送信する

ワークスペースは Azure Machine Learning のトップレベルのリソースであり、作成するすべての Azure Machine Learning アーティファクトを管理するための集中管理場所を提供します。 Azure Machine Learning ワークスペースに接続します。
- Azure CLI
- Python SDK
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> ___location=<___location>
```
1. 必要なライブラリをインポートします。
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
```
2. ワークスペースの詳細を構成し、ワークスペースへのハンドルを取得します。
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```
ターミナルを開き、次のコードを使用してジョブを送信します。 MLflow を使用して Azure Machine Learning で実行されているジョブは、追跡情報をワークスペースに自動的にログします。
- Azure CLI
- Python SDK
Azure Machine Learning CLI を使用してジョブを送信します。
```
az ml job create -f job.yml --web
```
Python SDK を使用してジョブを送信します。
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
Azure Machine Learning Studio でジョブの進行状況を監視します。

MLflow Autologging を有効化

手動で MLflow を使用してメトリックス、パラメーター、ファイルをログできます。MLflow の自動ログ機能に依存することもできます。 MLflow でサポートされている各機械学習フレームワークによって、自動的に追跡する内容が決まります。

自動ログ記録を有効にするには、トレーニングコードの前に次のコードを挿入します。

mlflow.autolog()

ワークスペースでのメトリックと成果物の表示

MLflow ログ記録のメトリックと成果物は、お使いのワークスペースで追跡されます。 Azure Machine Learning Studio で表示およびアクセスしたり、MLflow SDK を使用してプログラムでアクセスしたりできます。

スタジオでメトリックと成果物を表示する方法。

ワークスペースの [ジョブ] ページで、実験名を選択します。
実験の詳細ページで、[メトリック] タブを選択します。
ログに記録されたメトリックを選択して、ページの右側にグラフを表示します。スムージングを適用する、色を変更する、複数のメトリックを 1 つのグラフにプロットするという方法でグラフをカスタマイズすることができます。レイアウトのサイズを変更したり、配置を変えたりすることもできます。
目的のビューを作成したら、後で使用できるように保存し、直接リンクを使用してチームメイトと共有します。

MLflow SDK を使用してプログラムでメトリック、パラメーター、成果物にアクセスまたはクエリを実行するには、 mlflow.get_run()を使用します。

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

ヒント

前の例では、特定のメトリックの最後の値のみが返されます。特定のメトリックのすべての値を取得するには、mlflow.get_metric_history メソッドを使用します。メトリックの値の取得の詳細については、「実行からパラメーターとメトリックを取得する」をご覧ください。

ファイルやモデルなど、ログした成果物をダウンロードするには、mlflow.artifacts.download_artifacts() を使用します。

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

MLflow を使用して Azure Machine Learning で実験と実行の情報を取得または比較する方法の詳細については、「実験と実行を MLflow で照会および比較する」を参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-10-17