次の方法で共有


Document Intelligence コントラクト モデル

このコンテンツの適用対象:checkmarkv4.0 (GA) | 以前のバージョン:青のチェックマークv3.1 (GA) :::moniker-end

このコンテンツの適用対象:checkmarkv3.1 (GA) | 最新バージョン:紫のチェックマークv4.0 (GA)

Document Intelligence コントラクト モデルでは、高性能の光学式文字認識 (OCR) 機能を使用して、重要なコントラクト エンティティの選択したグループから主要なフィールドと明細を分析および抽出します。 電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質のコントラクトを使用できます。 API は、関係者、管轄区域、コントラクト ID、役職などの重要な情報を抽出し、構造化された JSON データ表現を返して、ドキュメント テキストを分析します。 このモデルでは現在、英語のドキュメント形式がサポートされています。

契約の自動処理

契約の自動処理は、ドキュメントから重要な契約フィールドを抽出するプロセスです。 これまで、契約分析プロセスは手動で行われてきたため、非常に時間がかかっていました。 契約書からキー データを正確に抽出することは、通常、契約書の自動化プロセスの最も重要な手順の 1 つです。

開発オプション

Document Intelligence v4.0: 2024-11-30 (GA) は、次のツール、アプリケーション、ライブラリをサポートします:

特徴量 リソース モデル ID
コントラクト モデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-contract

ドキュメント インテリジェンス v3.1 では、次のツール、アプリケーション、およびライブラリがサポートされています:

特徴量 リソース モデル ID
コントラクト モデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-contract

ドキュメント インテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています:

特徴量 リソース モデル ID
コントラクト モデル ドキュメントインテリジェンススタジオ
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-contract

入力の要件

次のファイル形式がサポートされています。

モデル PDF 画像:
JPEG/JPG、PNG、BMP、TIFF、HEIF
Office:
Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
Read
レイアウト
一般ドキュメント
事前構築済み
カスタム抽出
カスタム分類
  • 写真とスキャン: 最良の結果を得るには、ドキュメントごとに 1 つの明確な写真または高品質のスキャンを提供します。
  • PDF とTIFF: PDF とTIFF の場合、最大 2,000 ページを処理できます。 (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
  • ファイル サイズ: ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、Free (F0) レベルでは 4 MB です。
  • 画像の寸法: 寸法は、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。
  • パスワード ロック: PDF がパスワードロックされている場合は、提出前にロックを解除する必要があります。
  • テキストの高さ: 抽出するテキストの最小高さは、1024 x 768 ピクセルの画像で 12 ピクセルです。 このディメンションは、1 インチあたり 150 ドットの約 8 ポイントのテキストに対応します。
  • カスタム モデル トレーニング: トレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500 ページ、カスタム ニューラル モデルの場合は 50,000 ページです。
  • カスタム抽出モデルトレーニング: トレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1 GB です。
  • カスタム分類モデル トレーニング: トレーニング データの合計サイズは 1 GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニング データの合計サイズは 2 GB で、最大 10,000 ページです。
  • Office ファイルの種類 (DOCX、XLSX、PPTX): 文字列の最大長の制限は 800 万文字です。

コントラクト ドキュメントのデータ抽出を試す

顧客情報、ベンダーの詳細、品目などのデータが契約書からどのように抽出されるかをご覧ください。 次のリソースが必要です。

  • Azure サブスクリプション - 無料で作成できます

  • Azure portal の Document Intelligence インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。 リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

ドキュメント インテリジェンス スタジオ

  1. Document Intelligence Studio ホーム ページで、[税務書類] を選択します。

  2. サンプルの税務書類を分析したり、独自のファイルをアップロードしたりできます。

  3. [Run analysis] (解析の実行) ボタンを選択し、必要に応じて [Analyze options] (解析オプション) を構成します。

    Document Intelligence Studio の [Run analysis] (解析の実行) と [Analyze options] (解析オプション) のボタンのスクリーンショット。

サポートされている言語とロケール

サポートされているすべての言語のリストについては、言語サポート - 事前構築済みモデルに関するページを "参照してください"。

フィールドの抽出

  • サポートされているドキュメント抽出フィールドについては、GitHub サンプル リポジトリの コントラクト モデル スキーマに関するページを "参照してください"。

  • 抽出された契約書のキーと値のペアと品目は、JSON 出力の documentResults セクションにあります。

次のステップ