次の方法で共有


Foundry Tools での Azure 言語の透明性に関するメモ

Von Bedeutung

英語以外の翻訳は便宜上のみ提供されています。 詳細なバージョンについては、このドキュメントの EN-US バージョンを参照してください。

透過性のためのメモとは

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それが展開される環境も含まれています。 目的に合ったシステムを作成するには、テクノロジのしくみ、その機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。 Microsoft の透明性のためのメモは、AI テクノロジの機能のしくみ、システムのパフォーマンスと動作に影響を与えるシステム所有者の選択肢、およびテクノロジ、人、環境などのシステム全体について検討することの重要性を理解するためのものです。 透過性のためのメモは、独自のシステムを開発または展開するときに使用することも、システムを使用するユーザーやシステムの影響を受けるユーザーと共有することもできます。

Microsoft の透明性に関するメモは、AI の原則を実践するための Microsoft の広範な取り組みの一環です。 詳細については、Microsoft の AI の原則を参照してください。

Foundry Tools での Azure 言語の基本

イントロダクション

Language は、次の機能を含む、テキスト マイニングとテキスト分析のための自然言語処理 (NLP) 機能を提供するクラウドベースのサービスです。

概要を読んで各機能の概要を確認し、ユース ケースの例を確認します。 各機能の動作とシステムから返される内容の詳細については、ハウツー ガイドと API リファレンスを参照してください。

この記事には、責任を持って言語機能を使用する方法に関する基本的なガイドラインが含まれています。 以下のいずれかの機能を使用している場合は、最初に一般的な情報を読んでから、特定の記事に進んでください。

能力

活用事例

言語サービスは、さまざまな業界で複数のシナリオで使用できます。 機能ごとに一覧表示される例を次に示します。

  • セマンティック検索を強化するには、ナレッジ マイニングにカスタムの名前付きエンティティ認識を使用します。 検索は、ユーザーにテキスト コンテンツを表示するすべてのアプリの基本となるものです。 一般的なシナリオとしては、カタログやドキュメントの検索、小売製品の検索、データ サイエンスのナレッジ マイニングなどがあります。 さまざまな業界にわたる多くの企業が、構造化および非構造化ドキュメントの両方を含む、プライベートで異種なコンテンツに対して高度な検索エクスペリエンスを構築しようと検討しています。 パイプラインの一部として、開発者は、業界に関連するテキストからエンティティを抽出するために、カスタム NER を使用できます。 これらのエンティティを使用してファイルのインデックス作成をエンリッチすることで、よりカスタマイズされた検索エクスペリエンスを実現できます。

  • 名前付きエンティティ認識を使用して、ビジネス プロセスを強化または自動化します。 たとえば、保険金請求を確認するときに、名前や場所などの認識されたエンティティを強調表示して、レビューを容易にすることができます。 または、メールから顧客の名前と会社を使用してサポート チケットを自動的に生成することもできます。

  • 個人を特定できる情報を使用して、一部のカテゴリの個人情報をドキュメントから編集してプライバシーを保護します。 たとえば、顧客の連絡先レコードに最初の行のサポート担当者がアクセスできる場合、会社は顧客のプライバシーを維持するために、顧客履歴から不要な顧客の個人情報を編集することができます。

  • 言語検出を使用して、ビジネス ワークフローの言語を検出します。 たとえば、ある会社が顧客からさまざまな言語のメールを受信した場合、言語検出を使用して、言語別のメールをネイティブ スピーカーにルーティングして、顧客とのコミュニケーションを容易にできます。

  • 感情分析を使用して、肯定的および否定的なフィードバックの傾向を集計で監視します。 新しい製品の導入後、小売業者はセンチメントサービスを使用して、複数のソーシャルメディアプラットフォームで製品についての言及とその感情を監視できます。 毎週の製品会議でトレンドのセンチメントを確認できます。

  • 概要を使用して、公開ニュース記事から重要な情報を抽出します。 傾向やニュースの注目点などの分析情報を作成します。

  • キー フレーズ抽出を使用して、テキスト データの集計傾向を表示します。 たとえば、テキスト コメントやフィードバックの主要な概念を視覚化するのに役立つキー フレーズを使用してワード クラウドを生成できます。 たとえば、ホテルでは、コメントで識別されたキー フレーズに基づいて単語クラウドを生成し、ユーザーが場所、清潔さ、便利なスタッフについて最も頻繁にコメントしていることがわかります。

  • Text Analytics for Health を使用して、分析情報と統計の抽出を行います。 症状、薬、診断などの医療エンティティを臨床ノートや多様な臨床ドキュメントで特定します。 この情報は、患者集団に関する分析情報と統計の作成、臨床ドキュメントの検索、研究ドキュメント、出版物の検索に使用します。

  • 電子メールまたはチケットの自動トリアージには、カスタム テキスト分類を使用します。 あらゆる種類のサポート センターでは、構造化されていない自由形式のテキストと添付ファイルを含む大量の電子メールまたはチケットが受信されます。 タイムリーなレビュー、受信確認、社内チーム内における主題領域専門家へのルーティングが非常に重要です。 人間がレビューし、適切な部門にルーティングする必要があるこの規模での電子メールのトリアージには、時間とリソースが必要になります。 カスタム テキスト分類を使用すると、受信したテキストのトリアージを分析し、コンテンツを分類して、追加のアクションのために自動的に関連部門にルーティングできます。

  • Conversational Language Understanding を使用して、エンドツーエンドの会話ボットを構築します。 CLU を使用して、特定の領域と予想されるユーザーの発話に基づくカスタムの自然言語理解モデルを構築し、トレーニングを行います。 テキストの意図を特定し、そこから重要な情報を抽出するため、これをあらゆるエンド ツー エンドの会話型ボットと統合し、受信したテキストをリアルタイムで処理して分析できるようにします。 意図と抽出された情報に基づいて、必要とされるアクションをボットに実行させます。 たとえば、オンライン ショッピングや食品の注文のためにカスタマイズした小売ボットが挙げられます。

  • カスタマー サポートには質問の回答を使用します。 ほとんどのカスタマー サポート シナリオでは、よく寄せられる質問が頻繁に寄せられる場合があります。 質問の回答を使用すると、既存のサポート コンテンツからチャット ボットを即座に作成できます。このボットは、顧客のクエリを処理するためのフロント ライン システムとして機能できます。 質問にボットが回答できない場合は、追加のコンポーネントを使用して、人間の介入に関する質問を特定してフラグを付けることができます。

制限事項

システムへの受信テキストの品質は、結果に影響します。

言語機能はテキストのみを処理します。 受信テキストの忠実性と書式設定は、システムのパフォーマンスに影響します。 次の点を考慮してください。

  • 音声文字起こしの品質は、結果の品質に影響する可能性があります。 ソース データが音声の場合は、最適なパフォーマンスを確保するために、自動文字起こしと人間文字起こしの最高品質の組み合わせを使用してください。 高品質の結果を得るには、カスタム音声モデルの使用を検討してください。

  • 標準的な句読点や大文字小文字の区別がないと、結果の品質に影響する可能性があります。 Foundry Tools to Text で Azure Speech などの音声システムを使用している場合は、句読点を含めるオプションを必ず選択してください。

  • 光学式文字認識 (OCR) の品質は、システムの品質に影響する可能性があります。 ソース データがイメージであり、OCR テクノロジを使用してテキストを生成する場合、誤って生成されたテキストがシステムのパフォーマンスに影響する可能性があります。 結果の品質を向上させるために、カスタム OCR モデルを使用することを検討してください。

  • データのスペルミスが頻繁に発生する場合は、スペル チェックBing使用してスペルミスを修正することを検討してください。

  • テーブル テキストをシステムに送信する方法によっては、表形式データが正しく識別されない場合があります。 ソース ドキュメント内のテーブルからサービスにテキストを送信する方法を評価します。 ドキュメント内のテーブルの場合は、Foundry Tools または同様のサービスで Azure ドキュメント インテリジェンスを使用することを検討してください。 これにより、システムがエンティティを適切に認識するのに十分な値に近いコンテキスト キーを使用して言語に送信する適切なキーと値を取得できます。

  • Microsoft は、主に完全な形式の文と段落で構成される自然言語テキスト データを使用して、言語機能モデル (言語検出を除く) をトレーニングしました。 そのため、この種類のテキストに最も近いデータに対してこのサービスを使用すると、最適なパフォーマンスが得られます。 パフォーマンスが低下する可能性があるため、このサービスを使用して不完全な文や語句を可能な限り評価しないことをお勧めします。

  • このサービスでは、単一言語のテキストのみがサポートされます。 テキストに複数の言語 (例: "the sandwich was bueno") が含まれている場合、出力が正確でない可能性があります。

  • 正確な結果を得るには、言語コードが入力テキスト言語と一致している必要があります。 入力言語がわからない場合は、言語検出機能を使用できます。

システムパフォーマンスを向上させるためのベスト プラクティス

言語の一部の機能は信頼度スコアを返し、次のセクションで説明する方法を使用して評価できます。 信頼度スコアを返さないその他の機能 (キーワード抽出や要約など) は、さまざまな方法を使用して評価する必要があります。

センチメント分析、固有表現抽出、言語検出、医療機能の信頼度スコアを理解する

センチメント、名前付きエンティティ認識、言語検出、正常性関数はすべて、システム応答の一部として信頼度スコアを返します。 これは、サービスがシステムの応答にどの程度自信を持っているかを示すインジケーターです。 値が大きいほど、サービスは結果が正確であることがより確実であることを示します。 たとえば、システムは、「私のNYの運転免許証番号は555 555 555です」というテキストを入力された場合、スコア0.75でU.S. Driver's License Numberというカテゴリのエンティティとしてテキスト555 555 555を認識します。また、「私のNY DL番号は555 555 555です」というテキストを入力された場合は、スコア0.65で555 555 555をU.S. Driver's License Numberというカテゴリのエンティティとして認識することがあります。 最初の例のより具体的なコンテキストを考えると、システムは応答に自信を持っています。 多くの場合、信頼度スコアを調べずにシステム応答を使用できます。 それ以外の場合は、信頼度スコアが指定された信頼度スコアのしきい値を超えている場合にのみ、応答を使用するように選択できます。

パフォーマンスを理解して測定する

言語機能のパフォーマンスは、システムがサポートされている NLP の概念をどの程度認識しているかを調べることで測定されます (人間の判事と比較して、特定のしきい値で)。たとえば、名前付きエンティティ抽出 (NER) では、人間の判断に基づいてテキスト内の電話番号エンティティの真数をカウントし、同じテキストを処理したシステムの出力と比較できます。 人間の判断とシステム認識エンティティを比較すると、イベントを 2 種類の正しい (または "true") イベントと 2 種類の不適切な (または "false") イベントに分類できます。

結果 正しい/正しくない 定義
真陽性 正解です システムは、人間の判事から期待されるのと同じ結果を返します。 システムは、テキスト「You can reach me at my office number 1-234-567-9810」が与えられた場合、テキスト1-234-567-8910電話番号カテゴリのPIIエンティティを正しく認識します。
真陰性 正解です システムは結果を返しません。これは、人間の判事から期待される内容と一致します。 入力されたテキストが「私のオフィスの電話番号で連絡が取れます」の場合、システムは個人を特定できる情報(PII)を認識しません。
偽陽性 不正解です システムは、人間の判事が返さない結果を返します。 "You can reach me at my office number" というテキストが表示された場合、システムは、テキストオフィス番号のカテゴリ 電話番号 の PII エンティティを誤って認識します。
偽陰性 不正解です 人間の判事が行う場合、システムは結果を返しません。 テキスト「You can reach me at my office number 1-234-567-9810」が表示されたときに、システムがテキスト 1-234-567-8910電話番号 PIIエンティティを誤って見逃します。

言語機能が常に正しいとは限りません。 偽陰性と偽陽性の両方のエラーが発生する可能性があります。 各種類のエラーがシステムに与える影響を考慮することが重要です。 真のイベントが認識されないシナリオと、正しくないイベントが認識される場所、および実装におけるダウンストリームの影響を慎重に検討してください。 各種類のエラーを特定し、報告し、対応する方法で構築してください。 デプロイされたシステムのパフォーマンスを定期的に確認して、エラーが適切に処理されていることを確認することを計画します。

信頼度スコアのしきい値を設定する方法

システムから返される信頼度スコアに基づいて、システムで決定を行うことができます。 システムで使用される信頼度スコアのしきい値を調整して、ニーズを満たすことができます。 必要な NLP 概念のすべての潜在的なインスタンスを特定することがより重要な場合は、より低いしきい値を使用できます。 つまり、偽陽性が多くなる可能性がありますが、偽陰性は少なくなります。 呼び出している機能の真のインスタンスのみをシステムが認識することが重要な場合は、より高いしきい値を使用できます。 より高いしきい値を使用すると、誤検知の数が減り、偽陰性が多くなる可能性があります。 異なるシナリオでは、さまざまなアプローチが必要です。 さらに、しきい値は、言語とエンティティのカテゴリの個々の機能間で一貫した動作を持たない場合があります。 たとえば、NER カテゴリの電話番号に特定のしきい値を使用すれば、別の NER カテゴリで十分であると仮定したり、NER で使用するしきい値が感情分析で同様に機能することを想定しないでください。 したがって、実際のデータで使用することを検討しているしきい値を使用してシステムをテストし、使用されるコンテキストにおけるシステムのさまざまなしきい値の影響を判断することが重要です。

公平性

Microsoft では、地球上のすべての人がより多くのことを達成できるように力を与える努力をしています。 この目標の重要な部分は、公平で包括的なテクノロジと製品の作成に取り組んでいます。 公平性は多次元の社会技術のトピックであり、製品開発のさまざまな側面に影響を与えます。 公平性に対する Microsoft のアプローチの詳細については、 こちらをご覧ください

考慮する必要がある 1 つのディメンションは、さまざまなグループのユーザーに対するシステムのパフォーマンスです。 これには、モデルの精度の確認や、完全なシステムのパフォーマンスの測定が含まれる場合があります。 調査によると、すべてのグループのパフォーマンス向上に重点を置いた意識的な取り組みがなければ、AI システムのパフォーマンスは、人種、民族性、言語、性別、年齢などの要因に基づいてグループ間で異なる場合が多いことが示されています。

サービスや機能はそれぞれ異なるため、テストがあなたの状況に完全に一致しない場合や、使用事例に必要なすべてのシナリオを網羅していないかもしれません。 開発者は、さまざまな人口統計グループのユーザーによるテストなど、ユース ケースを反映した実際のデータを使用して、サービスのエラー率を十分に評価することをお勧めします。

言語の場合、サポートされている言語と一部の人口統計グループのテキスト内の特定の方言や言語の種類は、現在のトレーニング データセットでまだ十分に表現されていない可能性があります。 責任ある使用ガイドラインを確認することをお勧めします。パフォーマンスの違いに遭遇した場合は、お知らせください。

パフォーマンスは機能と言語によって異なります

言語機能ごとにさまざまな言語がサポートされています。 特定の機能のパフォーマンスが別の機能と一致しない場合があります。 また、特定の機能では、さまざまな言語でパフォーマンスが一貫していない場合があります。

次のステップ

以下のいずれかの機能を使用している場合は、その機能の特定の情報を確認してください。

こちらも参照ください

また、以下を確認してください。