電子情報開示ケースごとに設定を構成して、次の機能を制御できます。
- 準重複と電子メールスレッド
- テーマ
- 自動生成されたレビューセットクエリ
- テキストの無視
- 光学式文字認識
ヒント
Microsoft Security Copilot の使用を開始して、AI の力を使用して、よりスマートかつ迅速に作業するための新しい方法を発見しましょう。 Microsoft Purview の Microsoft Security Copilot に関する詳細情報をご覧ください。
ケースの分析設定を構成する
ケースの検索と分析の設定を構成するには:
- Microsoft Purview ポータルに移動し、電子情報開示アクセス許可が割り当てられたユーザー アカウントの資格情報でサインインします。
- 電子情報開示ソリューション カードを選択し、左側のナビゲーションで [ケース] を選択します。
- ケースを選択し、[ ケースの設定] を選択します。
- [ ケースの設定] で、[ 検索 & 分析] を選択します。
- [ 検索 & 分析 ] ページが表示されます。 これらの設定は、ケース内のすべてのレビュー セットに適用されます。
- 該当する検索と分析のオプションを選択したら、[保存] を選択 します。
以降のセクションでは、ケースに対して構成できる分析設定について説明します。
準重複と電子メールスレッド
このセクションでは、重複検出、ほぼ重複検出、および電子メール スレッドのパラメーターを設定します。
- ほぼ重複/電子メールスレッド: この設定を有効にすると、ワークフローには、レビュー セット内のデータに対して分析を実行するときに、重複検出、ほぼ重複検出、電子メール スレッドが含まれます。
- ドキュメントと電子メールの類似性のしきい値: 2 つのドキュメントの類似性レベルがしきい値を超えている場合、両方のドキュメントが同じほぼ重複したセット内にあります。
- 単語の最小/最大数: これらの設定では、ほぼ重複と電子メールスレッド分析が、少なくとも最小単語数と最大単語数を持つドキュメントでのみ実行されるように指定します。
準重複の検出
ドキュメントのサブセットが同じテンプレートとほとんど同じ定型言語を使用する場所を確認するために、いくつかの違いがあるドキュメントのセットを検討します。 校閲者がこのサブセットを特定し、そのうちの 1 つを徹底的に確認し、残りの部分の違いを確認できる場合、カバーするすべてのドキュメントの読み取りにかかる時間のほんの一部しかかかりません。 準重複の検出グループは、テキスト的に類似したドキュメントをまとめてグループ化し、レビュープロセスをより効率的にします。
ほぼ重複検出を実行すると、システムはすべてのドキュメントをテキストで解析します。 次に、すべてのドキュメントを互いに比較して、それらの類似度を設定したしきい値よりも大きいかどうかを判断します。 ある場合は、伝票がグループ化されます。 すべてのドキュメントを比較してグループ化すると、各グループのドキュメントが "ピボット" としてマークされます。ドキュメントのレビューでは、最初にピボットを確認し、同じほぼ重複したセット内の他のドキュメントを確認できます。ピボットとレビュー中のドキュメントの違いに焦点を当てます。
電子メールスレッド
しばらく続くメールの会話について考えてみましょう。 ほとんどの場合、電子メール スレッドの最後のメッセージには、上記のすべてのメッセージの内容が含まれます。 したがって、最後のメッセージを確認すると、スレッドで発生した会話の完全なコンテキストが得られます。 電子メール スレッドはそのようなメッセージを識別できるため、レビュアーは収集されたドキュメントの一部をコンテキストを失うことなく確認できます。
電子情報開示でのスレッド処理Emailは、同じ会話の一部である一連の関連メールを整理するプロセスです。 このシーケンスには、最初のメールと、元の電子メールにリンクされているすべての後続の返信と転送が含まれます。 これらのメールをスレッドにグループ化することで、レビュー担当者は会話のコンテキスト全体を確認し、コミュニケーションの流れを理解しやすくなります。 このアプローチは、レビュー担当者が関連情報をより効率的に特定するのに役立ち、各メールを個別に確認する必要がなくなります。 分析プロセスに含まれるEmailメッセージには、次のメタデータが設定されています。
- 包括性: このフィールドは、以前のすべての返信を含む、スレッドのすべての一意のコンテンツが電子メールに含まれているかどうかを識別します。 これにより、スレッド内の最も包括的なメールのみがレビューされます。これは、個々の返信を確認することなく、会話の完全なコンテキストを理解するために不可欠です。
- 一意の添付ファイルがある: このフィールドは、同じスレッド内の他のメールに見つからない添付ファイルを含むメールをマークします。 メールコンテンツが重複している場合でも、関連するすべてのドキュメントが確実にレビューされるように、一意の添付ファイルにフラグが設定されます。 この側面は、電子メール本文自体が一意でなくても、一意の証拠が見落とされないようにするための法的レビュー プロセスで重要です。
Outlook での会話との違いは何ですか?
このプロセスは、Outlook の会話グループに似ています。 ただし、いくつかの重要な違いがあります。 2 つの会話にフォークするメールの会話について考えてみましょう。 たとえば、会話の最新ではないメールに誰かが返信するため、会話内の最後の 2 つのメールはどちらも一意のコンテンツを持っています。
Outlook では、引き続きメールが 1 つの会話にグループ化されます。 最後のメールのみを読み取る場合は、一意のコンテンツも含まれる 2 番目から最後のメールのコンテキストを見逃す可能性があります。 電子メールスレッドは各メールを個々のコンポーネントに解析して比較するため、電子メールスレッドは、最後の2つの電子メールの両方を包括的としてマークし、包括的としてマークされたすべての電子メールを読む限り、コンテキストを見逃さないようにします。
また、複数の返信を含むメール スレッドについても考えてみましょう。一部の返信には、引用符で囲まれたコンテンツを変更するインライン応答が含まれます。 インライン返信が前のメールの一部を変更した場合、最新の返信は以前のメールの内容を完全に包含しません。 最新の返信と、一意のコンテンツを含む以前のメールの両方が包括的としてマークされます。 この方法では、インライン応答の一意の情報が保持され、見落とされないようにします。
テーマ
このセクションでは、テーマに次のパラメーターを設定できます。
- テーマ: オンにすると、レビュー セット内のデータに対して分析を実行するときに、ワークフローによってテーマ クラスタリングが実行されます。
- テーマの最大数: レビュー セット内のデータに対して分析を実行するときにワークフローが生成できるテーマの最大数を指定します。
- テーマに数値を含める: オンにすると、ワークフローには、テーマを生成するときにテーマを識別する数値が含まれます。
- テーマの最大数を動的に調整します。 特定の状況では、目的の数のテーマを生成するための十分なドキュメントがレビュー セットに存在しない可能性があります。 この設定を有効にすると、電子情報開示はテーマの最大数を強制するのではなく、テーマの最大数を動的に調整します。
新しいドキュメントを作成するときは、通常、ドキュメントで伝えたい 1 つ以上のアイデアから始めて、これらのアイデアに合った単語を使用してドキュメントを作成します。 アイデアが普及すればするほど、そのアイデアに関連する単語がより頻繁に使用される傾向があります。 このメソッドは、閲覧者がドキュメントを使用する方法にも合わせて調整されます。 ドキュメントの読み取りから理解すべき重要な点は、ドキュメントが伝えようとしている主なアイデアです。 この理解には、どのアイデアがどこに表示され、アイデア間の関係が何であるかも含まれます。
このプロセスは、電子情報開示レビュー担当者がケースで一連のドキュメントを使用する方法に拡張できます。 レビュー セットに存在するアイデアと、それらのアイデアについて説明するドキュメントを確認したいと考えています。 特定の関心のあるドキュメントを見つけた場合は、同様のアイデアについて説明するドキュメントを表示できるようにしたいと考えています。
電子情報開示の テーマ 機能は、レビュー セットで説明されている テーマ を分析し、レビュー セット内のドキュメントにテーマを割り当てることで、人間がドキュメントに対する理由を模倣しようとします。 電子情報開示では、テーマは 1 ステップ進み、各レビュー セットとドキュメントの 主要なテーマ を識別します。 主要なテーマは、ドキュメント内で最も頻繁に表示されるテーマです。
テーマのしくみ
テーマ機能は、レビュー セット内のテキストを含むドキュメントを分析して、レビュー セット内のすべてのドキュメントに表示される一般的なテーマを解析します。 電子情報開示は、テーマを、それらが表示されるドキュメントに割り当てます。 また、テーマには、テーマを表すドキュメントで使用されている単語を各テーマにラベル付けします。 ドキュメントにはさまざまな種類の主題が含まれる場合があるため、電子情報開示では、多くの場合、複数のテーマを割り当ててセットとドキュメントを確認します。 この割り当ては 、[テーマ] リストと呼ばれます。 レビュー セットまたはドキュメントで最も目立つように表示されるテーマは、 その主要なテーマとして指定されます。
テーマの構成
テーマはケースでサポートされ、その中のすべてのレビュー セットに適用されます。 新しいケースを作成するときにテーマの設定を構成することも、既存のケースのテーマ設定を更新することもできます。
ケースでテーマを構成するには、次の手順を実行します。
- Microsoft Purview ポータルに移動し、電子情報開示アクセス許可が割り当てられたユーザー アカウントの資格情報でサインインします。
- 電子情報開示ソリューション カードを選択し、左側のナビゲーションで [ケース (プレビュー)] を選択します。
- ケースを選択し、[ ケースの設定] を選択します。
- [ ケースの設定] で、[ 検索 & 分析] を選択します。
- 必要に応じて、次のテーマ オプションを選択します。
- テーマの最大数: ケースに含まれるレビュー セット内のデータに対して分析を実行するときにワークフローが生成できるテーマの最大数を指定します。 制限の詳細については、「 電子情報開示の制限」を参照してください。
- テーマに数値を含める: テーマを生成するときに、テーマを識別する数値が含まれます。
- テーマの最大数を動的に調整します。 特定の状況では、レビュー セットに必要な数のテーマを生成するのに十分なドキュメントがない場合があります。 この設定を有効にすると、テーマの最大数を適用するのではなく、テーマの最大数が動的に調整されます。
- テーマに関連付けられているキーワードを除外する必要がある場合は、[テキストを無視] フィールドに必要な テキスト または正規表現を入力します。 [ 適用先 ] フィールドで、[ テーマ ] を選択して、テキストまたは正規表現をすべてのテーマに適用します。
- [保存] を選択します。
新しいケースを作成すると、レビュー セットをケースに追加すると、ワークフローによってデータに対する分析が自動的に実行されます。 ワークフローでは、分析処理の一部としてレビュー セットのテーマが生成されます。
セット クエリの確認
[分析後に保存された For Review 検索を自動的に作成する] チェック ボックスをオンにすると、電子情報開示によって、For Review という名前のレビュー セット クエリが自動生成されます。
このクエリでは、レビュー セットから重複するアイテムが除外されるため、レビュー セット内の一意のアイテムをすばやく確認できます。 このクエリは、ケースのレビューセットの分析を実行したときにのみ作成されます。 レビュー セット クエリの詳細については、「レビュー セット 内のデータのクエリ」を参照してください。
テキストの無視
特定のテキストは、メールの内容に関係なく、電子メール メッセージに追加される長い免責事項など、分析の品質を低下させる可能性があります。 無視する必要があるテキストがわかっている場合は、テキストを除外する必要があるテキスト文字列と分析機能 (ほぼ重複、電子メールスレッド、テーマ、関連性) を指定することで、分析から除外できます。 無視されたテキストに正規表現 (RegEx) を使用することもサポートされています。
光学式文字認識(OCR)
この設定を有効にすると、OCR 処理はイメージ ファイルで実行されます。 OCR を画像ファイルに適用すると、これらのファイル内のテキストが検索結果で使用できるようになります。 OCR は、高度なインデックス作成中に処理されたアイテムに対してのみ実行されます (検索クエリでこのオプションを選択した場合)。
たとえば、部分的にインデックスが作成された、または他のインデックス作成エラーが発生した大きな PDF ファイルが高度なインデックス作成中に処理された場合、OCR が適用されます。 OCR 処理は、高度なインデックス作成プロセス中にインデックスが再作成されたファイルでのみ実行されます。 つまり、レビュー セットにコンテンツが追加される場合がありますが、高度なインデックス作成中にこれらのファイルが処理されないため、一部の電子メールの添付ファイルが OCR 用に処理されない場合があります。
レビュー セットにデータを追加した後は、画像テキストのレビュー、検索、タグ付け、分析を行うことができます。 抽出したテキストは、レビュー セットで選択した画像ファイルのテキスト ビューアーで表示できます。 詳細については、以下を参照してください: