画像からのデータの抽出を理解する

完了

AI を利用した情報抽出は、各コンテンツの分析情報を手動で検査する必要性に代わるものになっています。 コンピューター ビジョンでは、画像から分析情報を抽出して、ユーザー、場所、モノ、および表現を説明できます。

コンピューター ビジョンは、大量の既存の画像に基づいて特徴を認識するようにトレーニングされた機械学習モデルによって実現されます。 機械学習モデルでは、画像を数値情報に変換して画像を処理します。 その中核となるビジョン モデルでは、数値情報に対して計算が実行され、画像内の内容が予測されます。

住所が手書きの封筒のスクリーンショット。画像の横にアドレスがデジタル化され、OCR の例が示されます。

光学式文字認識 (OCR) は、画像内の要素にテキストが含まれていることをコンピューターが認識するのに役立ちます。 OCR は画像内のテキスト処理の基礎であり、個々の図形を文字、数字、句読点、またはその他のテキスト要素として認識するようにトレーニングされた機械学習モデルを使用します。 この種の機能の実装に関する初期の作業の多くは、郵便番号に基づくメールの自動並べ替えをサポートするために、郵便サービスによって実行されました。 それ以来、テキストを読むための最先端が進み、画像内の印刷されたテキストや手書きのテキストを検出し、1 行ずつデジタル化し、単語単位でデジタル化するモデルがあります。

ビジョンに関連する機械学習の概念については、「 コンピューター ビジョンの概念の概要」で詳しく説明されています。

次に、OCR に基づいて構築された手法を使用してフォームからデータを抽出する方法を見てみましょう。