ラベル付けプロセス は、データセットを準備する上で重要な部分です。 このプロセスには多くの時間と労力が必要であるため、自動ラベル付け機能を使用してエンティティに自動的にラベルを付けることができます。 ジョブの自動ラベル付けは、以前にトレーニングしたモデルに基づいて開始するか、 GPT モデルを使用して開始できます。 前にトレーニングしたモデルに基づく自動ラベル付けを使用すると、いくつかのドキュメントのラベル付けを開始し、モデルをトレーニングしてから、そのモデルに基づいて他のドキュメントのエンティティ ラベルを生成する自動ラベル付けジョブを作成できます。
GPTを使用した自動ラベル付けでは、事前のモデル トレーニングを行わずに、すぐに自動ラベル付けジョブをトリガーできます。 この機能を使用すると、エンティティに手動でラベル付けする時間と労力を節約できます。
前提条件
トレーニングしたモデルに基づいて自動ラベル付けを使用する前に、次のものが必要です。
- 構成済みの Azure Blob Storage アカウントで正常に作成されたプロジェクト
- ストレージ アカウントに アップロードされた テキスト データ。
- ラベルの付いたデータ
- 正常にトレーニングされたモデル
自動ラベル付けジョブをトリガーする
トレーニングしたモデルに基づいて自動ラベル付けジョブをトリガーする場合、リソースごとに 1 か月あたり 5,000 個のテキスト レコードの月単位の制限があります。 同じリソース内のすべてのプロジェクトに同じ制限が適用されます。
ヒント
テキスト レコードは、(ドキュメント内の文字数/1,000) を上限として計算されます。 たとえば、ドキュメントの文字数が 8,921 文字の場合、テキスト レコードの数は次のようになります。
ceil(8921/1000) = ceil(8.921)は、9 つのテキスト レコードです。
左側のウィンドウで、[ データのラベル付け] を選択します。
ページの右側にある [アクティビティ ウィンドウ] の下にある [自動ラベル] ボタンを選択します。
トレーニングしたモデルに基づいて自動ラベルを選択し、[次へ] を選択します。
トレーニング済みのモデルを選択します。 自動ラベル付けに使用する前に、モデルのパフォーマンスを確認することをお勧めします。
自動ラベル付けジョブに含めるエンティティを選択します。 既定では、すべてのエンティティが選択されます。 各エンティティのラベル、有効桁数、再現率の合計を確認できます。 自動的にラベル付けされたエンティティの品質を確保するために、パフォーマンスの高いエンティティを含めうことをお勧めします。
自動的にラベル付けするドキュメントを選択します。 各ドキュメントのテキスト レコードの数が表示されます。 1 つ以上のドキュメントを選択すると、選択されたテキスト レコードの数が表示されます。 フィルターからラベル付けされていないドキュメントを選択することをお勧めします。
注意
- エンティティに自動的にラベルが付けられたものの、ユーザー定義ラベルが存在する場合は、ユーザー定義ラベルのみが使用され、表示されます。
- ドキュメント名を選択すると、ドキュメントを表示できます。
[自動ラベル] を選択して、自動ラベル付けジョブをトリガーします。 使用されるモデル、自動ラベル付けジョブに含まれるドキュメントの数、自動的にラベル付けされるテキスト レコードとエンティティの数が表示されます。 自動ラベル付けジョブは、含まれているドキュメントの数に応じて、数秒から数分間かかることがあります。
自動ラベル付けされたドキュメントを確認する
自動ラベル付けジョブが完了すると、Language Studio の [データのラベル付け] ページに出力ドキュメントが表示されます。 [Review documents with autolabels](自動ラベル付きのドキュメントを確認) を選択すると、[Auto labeled](自動ラベル付き) フィルターが適用されたドキュメントが表示されます。
自動的にラベル付けされたエンティティは、点線で表示されます。 これらのエンティティには、自動ラベルを受け入れるか拒否するかを選択できる 2 つのセレクター (チェックマークと "X") があります。
エンティティを受け入れると、点線が実線に変わり、そのラベルはそれ以降のモデル トレーニングに含められ、ユーザー定義ラベルになります。
または、画面の右上隅にある [すべて受け入れる] または [すべて拒否] を使用して、ドキュメント内で自動的にラベル付けされたすべてのエンティティを受け入れるか、または拒否することもできます。
ラベル付けされたエンティティを承諾または拒否したら、[ラベルの保存] を選択して変更を適用します。
注意
- 自動的にラベル付けされたエンティティを受け入れる前に検証することをお勧めします。
- モデルをトレーニングすると、受け入れられないすべてのラベルが削除されます。
次の手順
- データのラベル付けの詳細を確認する。