Document Intelligence コントラクトモデル

2025-08-15

このコンテンツの適用対象:v4.0 (GA) | 以前のバージョン:v3.1 (GA) :::moniker-end

このコンテンツの適用対象:v3.1 (GA) | 最新バージョン:v4.0 (GA)

Document Intelligence コントラクトモデルでは、高性能の光学式文字認識 (OCR) 機能を使用して、重要なコントラクトエンティティの選択したグループから主要なフィールドと明細を分析および抽出します。電話でキャプチャされた画像、スキャンされたドキュメント、デジタル PDF など、さまざまな形式や品質のコントラクトを使用できます。 API は、関係者、管轄区域、コントラクト ID、役職などの重要な情報を抽出し、構造化された JSON データ表現を返して、ドキュメントテキストを分析します。このモデルでは現在、英語のドキュメント形式がサポートされています。

契約の自動処理

契約の自動処理は、ドキュメントから重要な契約フィールドを抽出するプロセスです。これまで、契約分析プロセスは手動で行われてきたため、非常に時間がかかっていました。契約書からキーデータを正確に抽出することは、通常、契約書の自動化プロセスの最も重要な手順の 1 つです。

開発オプション

Document Intelligence v4.0: 2024-11-30 (GA) は、次のツール、アプリケーション、ライブラリをサポートします:

特徴量	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-contract

ドキュメントインテリジェンス v3.1 では、次のツール、アプリケーション、およびライブラリがサポートされています：

特徴量	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-contract

ドキュメントインテリジェンス v3.0 では、次のツール、アプリケーション、およびライブラリがサポートされています：

特徴量	リソース	モデル ID
コントラクトモデル	• ドキュメントインテリジェンススタジオ • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-contract

入力の要件

次のファイル形式がサポートされています。

モデル	PDF	画像: JPEG/JPG、PNG、BMP、TIFF、HEIF	Office: Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
Read	✔	✔	✔
レイアウト	✔	✔	✔
一般ドキュメント	✔	✔
事前構築済み	✔	✔
カスタム抽出	✔	✔
カスタム分類	✔	✔	✔

写真とスキャン: 最良の結果を得るには、ドキュメントごとに 1 つの明確な写真または高品質のスキャンを提供します。
PDF とTIFF: PDF とTIFF の場合、最大 2,000 ページを処理できます。 (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
ファイルサイズ: ドキュメントを分析するためのファイルサイズは、有料 (S0) レベルでは 500 MB、Free (F0) レベルでは 4 MB です。
画像の寸法: 寸法は、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。
パスワードロック: PDF がパスワードロックされている場合は、提出前にロックを解除する必要があります。
テキストの高さ: 抽出するテキストの最小高さは、1024 x 768 ピクセルの画像で 12 ピクセルです。このディメンションは、1 インチあたり 150 ドットの約 8 ポイントのテキストに対応します。
カスタムモデルトレーニング: トレーニングデータの最大ページ数は、カスタムテンプレートモデルの場合は 500 ページ、カスタムニューラルモデルの場合は 50,000 ページです。
カスタム抽出モデルトレーニング: トレーニングデータの合計サイズは、テンプレートモデルの場合は 50 MB、ニューラルモデルの場合は 1 GB です。
カスタム分類モデルトレーニング: トレーニングデータの合計サイズは 1 GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニングデータの合計サイズは 2 GB で、最大 10,000 ページです。
Office ファイルの種類 (DOCX、XLSX、PPTX): 文字列の最大長の制限は 800 万文字です。

コントラクトドキュメントのデータ抽出を試す

顧客情報、ベンダーの詳細、品目などのデータが契約書からどのように抽出されるかをご覧ください。次のリソースが必要です。

Azure サブスクリプション - 無料で作成できます。
Azure portal の Document Intelligence インスタンス。 Free 価格レベル (F0) を利用して、サービスを試用できます。リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。

Azure portal のキーとエンドポイントの場所のスクリーンショット。

ドキュメントインテリジェンススタジオ

Document Intelligence Studio ホームページで、[税務書類] を選択します。
サンプルの税務書類を分析したり、独自のファイルをアップロードしたりできます。
[Run analysis] (解析の実行) ボタンを選択し、必要に応じて [Analyze options] (解析オプション) を構成します。

Document Intelligence Studio を試す

サポートされている言語とロケール

サポートされているすべての言語のリストについては、言語サポート - 事前構築済みモデルに関するページを "参照してください"。

フィールドの抽出

サポートされているドキュメント抽出フィールドについては、GitHub サンプルリポジトリのコントラクトモデルスキーマに関するページを "参照してください"。
抽出された契約書のキーと値のペアと品目は、JSON 出力の documentResults セクションにあります。

次のステップ

Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す。
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始する。

次の方法で共有

Document Intelligence コントラクト モデル

契約の自動処理

開発オプション

入力の要件

コントラクト ドキュメントのデータ抽出を試す

ドキュメント インテリジェンス スタジオ