Von Bedeutung
英語以外の翻訳は便宜上のみ提供されています。 詳細なバージョンについては、このドキュメントの EN-US バージョンを参照してください。
透過性のためのメモとは
AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それが展開される環境も含まれています。 目的に合ったシステムを作成するには、テクノロジのしくみ、その機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。
Microsoft では、AI テクノロジのしくみを理解するのに役立つ "透過性のためのメモ" を提供しています。 これには、システムのパフォーマンスと動作に影響を与えるシステム所有者の選択肢、およびテクノロジ、人、環境などのシステム全体について検討することの重要性が含まれています。 独自のシステムを開発または展開するときに透過性のためのメモを使用することも、システムを使用するユーザーやシステムの影響を受けるユーザーと共有することもできます。
透過性のためのメモは、AI の原則を実践するための Microsoft の広範な取り組みの一環です。 詳細については、Microsoft の AI の原則を参照してください。
カスタムの名前付きエンティティ認識の概要
カスタム名前付きエンティティ認識 (カスタム NER) は、情報抽出のためのクラウドベースの API サービスです。 このサービスでは機械学習インテリジェンスが適用されるため、情報抽出タスク用のカスタム モデルを構築できます。
カスタム NER を使用して、.txt ファイルから情報を抽出できます。 たとえば、金融機関は、顧客に支払い期限を通知する自動通知システムを構築したい場合があります。 組織は、カスタム NER を使用して、顧客名、ローン金額、利率、支払日など、ローン契約から関連情報を抽出します。 抽出されたエンティティをさらに処理して、次の支払日と支払額を含むアラームをクライアントに送信することができます。
カスタムの名前付きエンティティ認識の基本
カスタムの名前付きエンティティ認識を使用すると、ユーザーはカスタム機械学習モデルを構築して、コントラクトや財務ドキュメントなどの非構造化テキストからドメイン固有のエンティティを抽出できます。
カスタム NER プロジェクトを作成することで、開発者はデータ内のエンティティに繰り返しタグを付け、モデルのパフォーマンスをトレーニング、評価、改善してから、使用できるようになります。 タグ付けされたデータの品質は、モデルのパフォーマンスに大きく影響します。 モデルの構築とカスタマイズを簡素化するために、このサービスには 、Language Studio からアクセスできるカスタム Web ポータルが用意されています。
カスタム NER の用語
この機能では、次の用語が一般的に使用されます。
| 任期 | 定義 |
|---|---|
| プロジェクト | プロジェクトは、データに基づいてカスタム ML モデルを構築するための作業領域です。 プロジェクトにアクセスできるのは、自分と、使用されている Azure リソースへのアクセス権を持つユーザーのみです。 プロジェクト内では、データ内のエンティティにタグを付け、モデルを構築し、必要に応じてモデルを評価および改善し、最終的にモデルをデプロイできます。 プロジェクト内に複数のモデルを含め、すべて同じデータセット上に構築できます。 |
| モデル | モデルは、特定のタスク (この場合はカスタム エンティティ認識) を実行するようにトレーニングされたオブジェクトです。 モデルは、後で認識タスクに使用できるように、学習するタグ付きデータを提供することによってトレーニングされます。 |
| エンティティ | エンティティは、特定の種類の情報を示すテキストのスパンです。 テキストスパンは、1 つ以上の単語で構成できます。 カスタム NER のスコープでは、エンティティは、ユーザーがテキストから抽出する情報を表します。 開発者は、トレーニングのためにモデルに渡す前に、データ内のエンティティに必要なエンティティにタグを付けます。 たとえば、「請求書番号」、「開始日」、「発送番号」、「出生地」、「出発都市」、「仕入先名」または「顧客住所」などです。 |
利用事例の例
カスタム NER を使用する場合の例を次に示します。
セマンティック検索を強化するためのナレッジ マイニング: 検索は、テキスト コンテンツをユーザーに表示するアプリの基礎となります。 一般的なシナリオとしては、カタログやドキュメントの検索、小売製品の検索、データ サイエンスのナレッジ マイニングなどがあります。 さまざまな業界にわたる多くの企業が、構造化および非構造化ドキュメントの両方を含む、プライベートで異種なコンテンツに対して高度な検索エクスペリエンスを構築しようと検討しています。 パイプラインの一部として、開発者は、業界に関連するテキストからエンティティを抽出するために、カスタム NER を使用できます。 これらのエンティティを使用してファイルのインデックス作成をエンリッチすることで、よりカスタマイズされた検索エクスペリエンスを実現できます。
非構造化テキストからの情報の抽出: 多くの金融および法務組織は、毎日何千もの複雑な非構造化テキスト ソースからデータを抽出し、正規化します。 このようなソースには、銀行明細書、法的契約書、銀行のフォームが含まれます。 たとえば、住宅ローンの申し込みデータの抽出を人間のレビュー担当者が手作業で行うと、抽出に数日かかる場合があります。 これらの手順を自動化すると、プロセスが簡略化され、コスト、時間、労力が節約されます。
監査とコンプライアンス: ポリシーを監査して適用するために非常に長いテキスト ファイルを手動で確認する代わりに、財務または法務企業の IT 部門はカスタム NER を使用して自動化されたソリューションを構築できます。 これらのソリューションは、コンプライアンス ポリシーを適用し、構造化および非構造化コンテンツを処理するナレッジ マイニング パイプラインに基づいて必要なビジネス ルールを設定するのに役立ちます。
ユース ケース選択時の考慮事項
カスタム NER を使用する場合は、次のガイダンスに注意してください。
重大な悪影響を及ぼす可能性のある意思決定には、カスタム NER を使用しないでください。 たとえば、個人の病歴フォームから抽出された情報に基づいて医療や健康の診断を含めたり、抽出された値に基づいてユーザーの銀行口座に請求したりするシナリオは避けてください。 さらに、個人に深刻な影響を与える可能性のある決定については、人によるレビューを含めることをおすすめします。
不要な情報や機密情報を抽出するカスタム エンティティは作成しないでください。 ユース ケースに必要ない場合は、機密性の高いユーザー情報を抽出しないでください。 たとえば、シナリオでユーザーの市区町村と国を抽出する必要がある場合は、住所全体を抽出するのではなく、ユーザーの住所から市区町村と国のみを抽出するエンティティを作成します
-
法的および規制上の考慮事項: 組織は、AI サービスとソリューションを使用する際に、潜在的な特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用に適していない可能性があります。 さらに、AI サービスまたはソリューションは、該当するサービス利用規約と関連する行動規範で禁止されている方法のために設計されておらず、そのような方法で使うこともできません。