OCR - 光学式文字認識

2025-07-21

警告

v3.2 の Azure AI Vision レガシ OCR API や v2.1 の RecognizeText API など、このサービスを使用することはお勧めしません。

OCR (Read) エディション

重要

要件に最も適した Read エディションを選択します。

入力	例	Read のエディション	特長
画像: 一般に出回っている画像	ラベル、道路標識、ポスター	画像の OCR (バージョン 4.0)	OCR をユーザーエクスペリエンスシナリオに簡単に埋め込むことができる、パフォーマンスが向上した同期 API を使用して、ドキュメント以外の一般的な画像用に最適化されています。
ドキュメント: デジタルとスキャン (画像を含む)	書籍、記事、レポート	Document Intelligence 読み取りモデル	インテリジェントなドキュメント処理を大規模に自動化するために、非同期 API を使用してテキストの量が多いスキャンおよびデジタルドキュメント用に最適化されています。

Azure AI Vision v3.2 GA Read について

最新の Azure AI Vision v3.2 GA Read をお探しですか? 今後のすべての OCR の読み取り拡張機能は、前述の 2 つのサービスの一部です。 Azure AI Vision v3.2 に対する更新はこれ以上ありません。詳細については、「Azure AI Vision 3.2 GA Read API の呼び出し」と「クイックスタート: Azure AI Vision v3.2 GA Read」を参照してください。

OCR または光学式文字認識は、テキスト認識またはテキスト抽出とも呼ばれます。機械学習ベースの OCR 手法を使用すると、ポスター、道路標識、製品ラベルなどの画像や、記事、レポート、フォーム、請求書などのドキュメントから、印刷または手書きのテキストを抽出できます。通常、テキストは単語、テキスト行、段落またはテキストブロックとして抽出され、スキャンされたテキストのデジタルバージョンにアクセスできます。この機能により、手動でのデータ入力の必要性が排除または大幅に削減されます。

OCR エンジン

Microsoft の Read OCR エンジンでは、グローバル言語をサポートする複数の高度な機械学習モデルが使用されています。混合言語や書き込みスタイルなど、印刷されたテキストと手書きのテキストが抽出されます。クラウドサービスまたはオンプレミスコンテナーとして 読み取り を使用して、柔軟なデプロイを行うことができます。また、OCR 支援ユーザーエクスペリエンスの実装を簡略化するパフォーマンスが強化された、単一のドキュメント以外のイメージのみのシナリオ向けの同期 API としても使用できます。

インテリジェントドキュメント処理 (IDP) は、OCR を基盤技術として使用して、ドキュメントインテリジェンスなどの高度な機械学習ベースの AI サービスを使用して、構造、リレーションシップ、キー値、エンティティ、およびその他のドキュメント中心の分析情報を抽出します。 Document Intelligence には、ドキュメント最適化バージョンの Read が OCR エンジンとして含まれる一方で、より高度な分析情報は他のモデルに委任されます。スキャンしたドキュメントとデジタルドキュメントからテキストを抽出する場合は、ドキュメントインテリジェンス読み取り OCR を使用します。

OCR の使用方法

Vision Studio を使って OCR を試してください。次に、要件に最も適した Read エディションへのリンクのいずれかに従います。

Vision Studio を試す

スクリーンショット: Vision Studio での Read OCR のデモ。

OCR でサポートされている言語

Azure AI Vision で現在利用できる両方の Read バージョンでは、印刷テキストと手書きテキストについて複数の言語がサポートされています。印刷されたテキストの OCR は、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、中国語、日本語、韓国語、ロシア語、アラビア語、ヒンディー語、ラテン語、キリル文字、アラビア語、および Devanagari スクリプトを使用するその他の国際言語をサポートします。手書きテキストの OCR では、英語、簡体字中国語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、スペイン語がサポートされます。

[OCR でサポートされている言語](./language-support.md#optical-character-recognition-ocr)の完全な一覧を参照してください。

OCR の共通機能

Read OCR モデルは、Azure AI Vision と Document Intelligence で利用でき、一般的なベースライン機能を備えながら、それぞれのシナリオに合わせて最適化されています。一般的な機能を次に示します。

サポートされる言語での印刷テキストと手書きテキストの抽出
場所と信頼度スコアを持つページ、テキスト行、単語
混合言語、混合モード (印刷と手書き) のサポート
オンプレミスデプロイには Distroless Docker コンテナーとして利用可能

OCR クラウド API の使用またはオンプレミスへのデプロイ

ほとんどのお客様は、統合が簡単で、すぐに生産性を提供できるため、クラウド API を好みます。 Azure と Azure AI Vision サービスがスケール、パフォーマンス、データセキュリティ、コンプライアンスのニーズに対応する一方で、お客様は顧客のニーズを満たすことに集中できます。

オンプレミスへのデプロイの場合は、Read Docker コンテナーを使用し、Azure AI Vision v3.2 の一般提供の OCR 機能を専用のローカル環境にデプロイできます。コンテナーは、特定のセキュリティ要件とデータガバナンス要件に適しています。

入力の要件

Read API は、画像やドキュメントを入力として受理します。画像とドキュメントは、次の要件を満たしている必要があります。

サポートされているファイル形式は JPEG、PNG、BMP、PDF、TIFF です。
PDF ファイルと TIFF ファイルの場合、最大 2,000 ページが処理されます (Free レベルの最初の 2 ページのみ)。
イメージのファイルサイズは、50 x 50 ピクセル以上、最大 10,000 x 10,000 ピクセルのサイズで、500 MB (Free レベルでは 4 MB) 未満である必要があります。 PDF ファイルにはサイズ制限がありません。
抽出するテキストの最小高は、1024 x 768 イメージに対して 12 ピクセルです。これは、150 DPI で約 8 ポイントのフォントテキストに相当します。

注

テキスト行の画像をトリミングする必要はありません。画像全体を Read API に送信すると、すべてのテキストが認識されます。

OCR のデータプライバシーとセキュリティ

Azure AI サービス全般に言えることですが、Azure AI Vision サービスを使用する開発者は、顧客データに関する Microsoft のポリシーに留意する必要があります。詳細については、Microsoft Trust Center の Azure AI サービスページを参照してください。

次の手順

一般的な (ドキュメント以外の) イメージを含む OCR については、 Azure AI Vision 4.0 プレビューの Image Analysis REST API クイックスタートをお試しください。
PDF、Office、HTML ドキュメント、ドキュメントイメージを使用した OCR の場合は、ドキュメントインテリジェンス読み取りから始めます。
以前の GA バージョンについては、 Azure AI Vision 3.2 GA SDK または REST API のクイックスタートを参照してください。

フィードバック

このページはお役に立ちましたか?