警告
v3.2 の Azure AI Vision レガシ OCR API や v2.1 のRecognizeText API など、このサービスを使用することはお勧めしません。
OCR (Read) エディション
重要
要件に最も適した Read エディションを選択します。
入力 | 例 | Read のエディション | 特長 |
---|---|---|---|
画像: 一般に出回っている画像 | ラベル、道路標識、ポスター | 画像の OCR (バージョン 4.0) | OCR をユーザー エクスペリエンス シナリオに簡単に埋め込むことができる、パフォーマンスが向上した同期 API を使用して、ドキュメント以外の一般的な画像用に最適化されています。 |
ドキュメント: デジタルとスキャン (画像を含む) | 書籍、記事、レポート | Document Intelligence 読み取りモデル | インテリジェントなドキュメント処理を大規模に自動化するために、非同期 API を使用してテキストの量が多いスキャンおよびデジタル ドキュメント用に最適化されています。 |
Azure AI Vision v3.2 GA Read について
最新の Azure AI Vision v3.2 GA Read をお探しですか? 今後のすべての OCR の読み取り拡張機能は、前述の 2 つのサービスの一部です。 Azure AI Vision v3.2 に対する更新はこれ以上ありません。 詳細については、「Azure AI Vision 3.2 GA Read API の呼び出し」と「クイック スタート: Azure AI Vision v3.2 GA Read」を参照してください。
OCR または光学式文字認識は、テキスト認識またはテキスト抽出とも呼ばれます。 機械学習ベースの OCR 手法を使用すると、ポスター、道路標識、製品ラベルなどの画像や、記事、レポート、フォーム、請求書などのドキュメントから、印刷または手書きのテキストを抽出できます。 通常、テキストは単語、テキスト行、段落またはテキスト ブロックとして抽出され、スキャンされたテキストのデジタル バージョンにアクセスできます。 この機能により、手動でのデータ入力の必要性が排除または大幅に削減されます。
OCR エンジン
Microsoft の Read OCR エンジンでは、 グローバル言語をサポートする複数の高度な機械学習モデルが使用されています。 混合言語や書き込みスタイルなど、印刷されたテキストと手書きのテキストが抽出されます。 クラウド サービスまたはオンプレミス コンテナーとして 読み取り を使用して、柔軟なデプロイを行うことができます。 また、OCR 支援ユーザー エクスペリエンスの実装を簡略化するパフォーマンスが強化された、単一のドキュメント以外のイメージのみのシナリオ向けの同期 API としても使用できます。
OCR とインテリジェント ドキュメント処理 (IDP) の関連
インテリジェント ドキュメント処理 (IDP) は、OCR を基盤技術として使用して、 ドキュメント インテリジェンスなどの高度な機械学習ベースの AI サービスを使用して、構造、リレーションシップ、キー値、エンティティ、およびその他のドキュメント中心の分析情報を抽出します。 Document Intelligence には、ドキュメント最適化バージョンの Read が OCR エンジンとして含まれる一方で、より高度な分析情報は他のモデルに委任されます。 スキャンしたドキュメントとデジタル ドキュメントからテキストを抽出する場合は、 ドキュメント インテリジェンス読み取り OCR を使用します。
OCR の使用方法
Vision Studio を使って OCR を試してください。 次に、要件に最も適した Read エディションへのリンクのいずれかに従います。
OCR でサポートされている言語
Azure AI Vision で現在利用できる両方の Read バージョンでは、印刷テキストと手書きテキストについて複数の言語がサポートされています。 印刷されたテキストの OCR は、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、中国語、日本語、韓国語、ロシア語、アラビア語、ヒンディー語、ラテン語、キリル文字、アラビア語、および Devanagari スクリプトを使用するその他の国際言語をサポートします。 手書きテキストの OCR では、英語、簡体字中国語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、スペイン語がサポートされます。
OCR の共通機能
Read OCR モデルは、Azure AI Vision と Document Intelligence で利用でき、一般的なベースライン機能を備えながら、それぞれのシナリオに合わせて最適化されています。 一般的な機能を次に示します。
- サポートされる言語での印刷テキストと手書きテキストの抽出
- 場所と信頼度スコアを持つページ、テキスト行、単語
- 混合言語、混合モード (印刷と手書き) のサポート
- オンプレミス デプロイには Distroless Docker コンテナーとして利用可能
OCR クラウド API の使用またはオンプレミスへのデプロイ
ほとんどのお客様は、統合が簡単で、すぐに生産性を提供できるため、クラウド API を好みます。 Azure と Azure AI Vision サービスがスケール、パフォーマンス、データ セキュリティ、コンプライアンスのニーズに対応する一方で、お客様は顧客のニーズを満たすことに集中できます。
オンプレミスへのデプロイの場合は、Read Docker コンテナーを使用し、Azure AI Vision v3.2 の一般提供の OCR 機能を専用のローカル環境にデプロイできます。 コンテナーは、特定のセキュリティ要件とデータ ガバナンス要件に適しています。
入力の要件
Read API は、画像やドキュメントを入力として受理します。 画像とドキュメントは、次の要件を満たしている必要があります。
- サポートされているファイル形式は JPEG、PNG、BMP、PDF、TIFF です。
- PDF ファイルと TIFF ファイルの場合、最大 2,000 ページが処理されます (Free レベルの最初の 2 ページのみ)。
- イメージのファイル サイズは、50 x 50 ピクセル以上、最大 10,000 x 10,000 ピクセルのサイズで、500 MB (Free レベルでは 4 MB) 未満である必要があります。 PDF ファイルにはサイズ制限がありません。
- 抽出するテキストの最小高は、1024 x 768 イメージに対して 12 ピクセルです。これは、150 DPI で約 8 ポイントのフォント テキストに相当します。
注
テキスト行の画像をトリミングする必要はありません。 画像全体を Read API に送信すると、すべてのテキストが認識されます。
OCR のデータ プライバシーとセキュリティ
Azure AI サービス全般に言えることですが、Azure AI Vision サービスを使用する開発者は、顧客データに関する Microsoft のポリシーに留意する必要があります。 詳細については、Microsoft Trust Center の Azure AI サービス ページを参照してください。
次の手順
- 一般的な (ドキュメント以外の) イメージを含む OCR については、 Azure AI Vision 4.0 プレビューの Image Analysis REST API クイック スタートをお試しください。
- PDF、Office、HTML ドキュメント、ドキュメント イメージを使用した OCR の場合は、 ドキュメント インテリジェンス読み取りから始めます。
- 以前の GA バージョンについては、 Azure AI Vision 3.2 GA SDK または REST API のクイックスタートを参照してください。