テキスト類似性エバリュエーター

注

このドキュメントでは、 Microsoft Foundry (クラシック) ポータルを参照します。

注

このドキュメントでは、 Microsoft Foundry (新しい) ポータルを参照します。

AI システムによって生成されたテキスト応答が予想される応答とどの程度一致するかを比較することが重要です。予想される応答は 、地上の真理と呼ばれます。

生成された応答と地上の真理の間のセマンティック類似性に焦点を当てて、類似性のような LLM ジャッジメトリックを使用します。または、 F1 スコア、 BLEU、 GLEU、 ROUGE、 METEOR など、自然言語処理 (NLP) の分野のメトリックを使用し、2 つの間のトークンまたは n グラムの重複に焦点を当てます。

AI 支援エバリュエーターのモデル構成

次のコードスニペットで参照するために、AI 支援エバリュエーターは LLM ジャッジのモデル構成を使用します。

import os
from azure.ai.evaluation import AzureOpenAIModelConfiguration
from dotenv import load_dotenv
load_dotenv()

model_config = AzureOpenAIModelConfiguration(
    azure_endpoint=os.environ["AZURE_ENDPOINT"],
    api_key=os.environ.get("AZURE_API_KEY"),
    azure_deployment=os.environ.get("AZURE_DEPLOYMENT_NAME"),
    api_version=os.environ.get("AZURE_API_VERSION"),
)

endpoint = os.environ["AZURE_AI_PROJECT_ENDPOINT"]  # Sample : https://<account_name>.services.ai.azure.com/api/projects/<project_name>
model_deployment_name = os.environ.get("AZURE_AI_MODEL_DEPLOYMENT_NAME", "")  # Sample : gpt-4o-mini
dataset_name = os.environ.get("DATASET_NAME", "")
dataset_version = os.environ.get("DATASET_VERSION", "1")

エバリュエーターモデルのサポート

評価者に応じて、LLM ジャッジの AzureOpenAI または OpenAI 推論モデルと非推論モデルがサポートされます。

Evaluators	ジャッジとしての推論モデル (例: Azure OpenAI/OpenAI からの o シリーズモデル)	ジャッジとしての非推論モデル (例: gpt-4.1、gpt-4o など)	有効にするには
`IntentResolution`、`TaskAdherence`、`ToolCallAccuracy`、`ResponseCompleteness`、`Coherence`、`Fluency`、`Similarity`、`Groundedness`、`Retrieval`、`Relevance`	サポートされています	サポートされています	エバリュエーターの初期化に追加のパラメーター `is_reasoning_model=True` を設定する
その他のエバリュエーター	サポートされていません	サポートされています	--

詳細な推論を必要とする複雑な評価では、推論のパフォーマンスとコスト効率のバランスを取った 4.1-mini のような強力な推論モデルをお勧めします。

相似

類似性は、生成されたテキストと、クエリに関するグラウンドトゥルースとの間のセマンティック類似性の度合いを測定します。地上の真理を必要とする他のテキスト類似度メトリックと比較して、このメトリックは、トークンまたは n グラムの単純な重複ではなく、応答のセマンティクスに焦点を当てています。また、クエリのより広範なコンテキストも考慮します。

類似性の例

from azure.ai.evaluation import SimilarityEvaluator

similarity = SimilarityEvaluator(model_config=model_config, threshold=3)
similarity(
    query="Is Marie Curie born in Paris?", 
    response="According to wikipedia, Marie Curie was not born in Paris but in Warsaw.",
    ground_truth="Marie Curie was born in Warsaw."
)

類似性の出力

出力は、likert スケールの数値スコア (整数 1 から 5) です。スコアが高いほど、類似性が高いことを意味します。数値のしきい値 (既定値は 3) を指定すると、この例ではスコアがしきい値= しきい値の場合は>も出力されます。それ以外の場合は失敗します。理由フィールドを使用して、スコアが高いか低いかを理解します。

{
    "similarity": 4.0,
    "gpt_similarity": 4.0,
    "similarity_result": "pass",
    "similarity_threshold": 3
}

F1 スコア

F1 スコアは、生成されたテキストとグラウンド真実の間の共有トークンによる類似性を測定します。精度と再現率の両方に重点を置いています。 F-1 スコアはモデルの生成とグラウンドトゥルースの間で共有されている単語の数の割合を計算します。この比率は、生成された応答の個々の単語に対して、地上の真理の答えの中のそれらの単語に対して計算されます。生成と真実の間の共有単語の数は、F1 スコアの基礎です。

有効桁数 は、世代内の単語の合計数に対する共有単語の数の比率です。
再現率 は、地上の真理の単語の合計数に対する共有語の数の比率です。

F1 スコアの例

from azure.ai.evaluation import F1ScoreEvaluator

f1_score = F1ScoreEvaluator(threshold=0.5)
f1_score(
    response="According to wikipedia, Marie Curie was not born in Paris but in Warsaw.",
    ground_truth="Marie Curie was born in Warsaw."
)

F1 スコアの出力

数値スコアは 0 から 1 の浮動小数点数です。スコアが高いほど良くなります。数値のしきい値 (既定値は 0.5) を指定すると、スコアがしきい値場合は>、それ以外の場合は失敗も出力されます。

{
    "f1_score": 0.631578947368421,
    "f1_result": "pass",
    "f1_threshold": 0.5
}

BLEU スコア

Bleu スコアは、自然言語処理と機械翻訳で一般的に使用される 2 か国語評価アンダーストゥディ (BLEU) スコアを計算します。生成されたテキストが参照テキストとどの程度一致するかを測定します。

BLEU の例

from azure.ai.evaluation import BleuScoreEvaluator

bleu_score = BleuScoreEvaluator(threshold=0.3)
bleu_score(
    response="According to wikipedia, Marie Curie was not born in Paris but in Warsaw.",
    ground_truth="Marie Curie was born in Warsaw."
)

BLEU の出力

{
    "bleu_score": 0.1550967560878879,
    "bleu_result": "fail",
    "bleu_threshold": 0.3
}

GLEU スコア

Gleu スコアは、Google-BLEU (GLEU) スコアを計算します。生成されたテキストと地上の真理の間の共有 n グラムによる類似性を測定します。 BLEU スコアと同様に、精度と再現率の両方に重点を置いています。これは、文単位の報酬目標を使用して BLEU スコアの欠点に対処します。

GLEU スコアの例

from azure.ai.evaluation import GleuScoreEvaluator

gleu_score = GleuScoreEvaluator(threshold=0.2)
gleu_score(
    response="According to wikipedia, Marie Curie was not born in Paris but in Warsaw.",
    ground_truth="Marie Curie was born in Warsaw."
)

GLEU スコアの出力

{
    "gleu_score": 0.25925925925925924,
    "gleu_result": "pass",
    "gleu_threshold": 0.2
}

ROUGE スコア

ルージュスコアは、自動要約と機械翻訳の評価に使用される一連のメトリックである、gisting Evaluation (ROUGE) スコアの Recall-Oriented Understudy を計算します。生成されたテキストと参照の要約の間の重複を測定します。 ROUGE は、生成されたテキストが参照テキストをどの程度カバーしているかを評価する、リコール指向の測定に重点を置いています。 ROUGE スコアは、精度、再現率、F1 スコアで構成されます。

ルージュスコアの例

from azure.ai.evaluation import RougeScoreEvaluator, RougeType

rouge = RougeScoreEvaluator(rouge_type=RougeType.ROUGE_L, precision_threshold=0.6, recall_threshold=0.5, f1_score_threshold=0.55) 
rouge(
    response="According to wikipedia, Marie Curie was not born in Paris but in Warsaw.",
    ground_truth="Marie Curie was born in Warsaw."
)

ROUGE スコアの出力

{
    "rouge_precision": 0.46153846153846156,
    "rouge_recall": 1.0,
    "rouge_f1_score": 0.631578947368421,
    "rouge_precision_result": "fail",
    "rouge_recall_result": "pass",
    "rouge_f1_score_result": "pass",
    "rouge_precision_threshold": 0.6,
    "rouge_recall_threshold": 0.5,
    "rouge_f1_score_threshold": 0.55
}

METEOR スコア

流星スコアは、生成されたテキストと地上の真理値の間の共有 n グラムによって類似性を測定します。 BLEU スコアと同様に、精度と再現率に重点を置いています。これは、コンテンツの配置のシノニム、ステミング、言い換えを考慮することで、BLEU スコアなどの他のメトリックの制限に対処します。

METEOR スコアの例

from azure.ai.evaluation import MeteorScoreEvaluator

meteor_score = MeteorScoreEvaluator(threshold=0.9)
meteor_score(
    response="According to wikipedia, Marie Curie was not born in Paris but in Warsaw.",
    ground_truth="Marie Curie was born in Warsaw."
)

流星スコアの出力

{
    "meteor_score": 0.8621140763997908,
    "meteor_result": "fail",
    "meteor_threshold": 0.9
}