概要
コンピューター ビジョン機能は、いくつかの主要な種類に分類できます。
タイプ | 説明 |
---|---|
画像分析 | 検出、分類、説明を作成し、洞察を生成する能力。 |
空間分析 | 物理的な領域内の人々の存在と動きをリアルタイムで理解する能力。 |
顔認識 | 人間の身元を認識して検証する機能。 |
光学式文字認識 (OCR) | さまざまな言語と書き方を持つ画像から印刷および手書きのテキストを抽出する機能。 |
これらのコンピューター ビジョン機能を理解するには、コンピューター プログラムのデータのコンテキストで画像 が 実際に何であるかを考慮すると便利です。
ピクセル配列としての画像
コンピューターでは、画像は数値 ピクセル 値の配列です。 たとえば、次の配列を考えてみましょう。
0 0 0 0 0 0 0
0 0 0 0 0 0 0
0 0 255 255 255 0 0
0 0 255 255 255 0 0
0 0 255 255 255 0 0
0 0 0 0 0 0 0
0 0 0 0 0 0 0
配列は 7 行と 7 列で構成され、7 x 7 ピクセルの画像のピクセル値 (イメージの 解像度と呼ばれます) を表します。 各ピクセルの値は0(黒)から255(白)までの範囲で、これらの範囲内の値は灰色の濃淡を表します。 この配列で表される画像は、次の (拡大) 画像のようになります。
この画像のピクセル値の配列は 2 次元 (行と列を表すか、x と y 座標を) であり、ピクセル値の単一の四角形を定義します。 このようなピクセル値の単一レイヤーは、グレースケール画像を表します。 実際には、ほとんどのデジタル画像は多次元であり、赤、緑、青 (RGB) の色の色合いを表す 3 つのレイヤー (チャネルと呼ばれます) で構成されています。 たとえば、前のグレースケールの例と同じ正方形の図形を作成する 3 つのピクセル値チャネルを定義することで、カラー イメージを表現できます。
Red:
150 150 150 150 150 150 150
150 150 150 150 150 150 150
150 150 255 255 255 150 150
150 150 255 255 255 150 150
150 150 255 255 255 150 150
150 150 150 150 150 150 150
150 150 150 150 150 150 150
Green:
0 0 0 0 0 0 0
0 0 0 0 0 0 0
0 0 255 255 255 0 0
0 0 255 255 255 0 0
0 0 255 255 255 0 0
0 0 0 0 0 0 0
0 0 0 0 0 0 0
Blue:
255 255 255 255 255 255 255
255 255 255 255 255 255 255
255 255 0 0 0 255 255
255 255 0 0 0 255 255
255 255 0 0 0 255 255
255 255 255 255 255 255 255
255 255 255 255 255 255 255
結果の画像を次に示します。
紫色の四角形は、次の組み合わせで表されます。
Red: 150
Green: 0
Blue: 255
中央の黄色い四角形は、次の組み合わせで表されます。
Red: 255
Green: 255
Blue: 0
次に、画像がどのように処理されるかを調べてみましょう。