Document Intelligence の payStub では、強力な光学式文字認識 (OCR) 機能とディープ ラーニング モデルの組み合わせにより、給与明細書が分析されて、報酬や収益に関するデータが抽出されます。 API により、給与に関する情報が含まれる文書やファイルを分析し、重要な情報を抽出して、構造化された JSON データ表現を返します。
| 機能 | バージョン | モデル ID |
|---|---|---|
| payStub モデル | v4.0: 2024-11-30 (GA) | prebuilt-payStub.us |
payStub のデータ抽出を試す
給与明細は、従業員に対して雇用主が発行する重要な文書であり、特定の支払い期間における収益、控除、および純支払い額に関する情報が記載されています。
prebuilt-payStub.us モデルを使用してデータを抽出する方法について説明します。 以下のリソースが必要です。
Azure サブスクリプション — 無料で作成することができます
Azure portal の Document Intelligence Studio インスタンス。 Free 価格レベル (
F0) を利用して、サービスを試用できます。 リソースがデプロイされたら、[リソースに移動] を選択してキーとエンドポイントを取得します。
ドキュメント インテリジェンス スタジオ
Document Intelligence Studio ホーム ページで、[payStub] を選択します。
サンプルの給与明細を分析したり、ご自身のファイルをアップロードしたりできます。
分析実行 ボタンを選択し、必要に応じて 分析オプション を構成します:
入力の要件
次のファイル形式がサポートされています。
| モデル | 画像: JPEG/JPG、PNG、BMP、TIFF、HEIF |
Office: Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML |
|
|---|---|---|---|
| 読み込み | ✔ | ✔ | ✔ |
| レイアウト | ✔ | ✔ | ✔ |
| 一般的なドキュメント | ✔ | ✔ | |
| 事前構築済み | ✔ | ✔ | |
| カスタム抽出 | ✔ | ✔ | |
| カスタム分類 | ✔ | ✔ | ✔ |
- 写真とスキャン: 最良の結果を得るには、ドキュメントごとに 1 つの明確な写真または高品質のスキャンを提供します。
- PDF とTIFF: PDF とTIFF の場合、最大 2,000 ページを処理できます。 (Free レベルのサブスクリプションでは、最初の 2 ページのみが処理されます)。
- ファイル サイズ: ドキュメントを分析するためのファイル サイズは、有料 (S0) レベルでは 500 MB、Free (F0) レベルでは 4 MB です。
- 画像の寸法: 寸法は、50 ピクセル x 50 ピクセルから 10,000 ピクセル x 10,000 ピクセルの間である必要があります。
- パスワード ロック: PDF がパスワードロックされている場合は、提出前にロックを解除する必要があります。
- テキストの高さ: 抽出するテキストの最小高さは、1024 x 768 ピクセルの画像で 12 ピクセルです。 このディメンションは、1 インチあたり 150 ドットの約 8 ポイントのテキストに対応します。
- カスタム モデル トレーニング: トレーニング データの最大ページ数は、カスタム テンプレート モデルの場合は 500 ページ、カスタム ニューラル モデルの場合は 50,000 ページです。
- カスタム抽出モデルトレーニング: トレーニング データの合計サイズは、テンプレート モデルの場合は 50 MB、ニューラル モデルの場合は 1 GB です。
- カスタム分類モデル トレーニング: トレーニング データの合計サイズは 1 GB で、最大 10,000 ページです。 2024-11-30 (GA) の場合、トレーニング データの合計サイズは 2 GB で、最大 10,000 ページです。
- Office ファイルの種類 (DOCX、XLSX、PPTX): 文字列の最大長の制限は 800 万文字です。
サポートされている言語とロケール
サポートされている言語の完全な一覧については、事前構築済みモデルの言語サポートに関するページを "参照" してください。
フィールドの抽出
サポートされているドキュメント抽出フィールドについては、GitHub サンプル リポジトリの payStub モデル スキーマに関するページを "参照してください"。
サポート対象のロケール
prebuilt-payStub.us バージョンでは、en-us ロケールがサポートされています。
次のステップ
Document Intelligence Studio を使用して独自のフォームとドキュメントの処理を試す
Document Intelligence クイックスタートを完了し、選択した開発言語でドキュメント処理アプリの作成を開始します。