この記事では、AI Foundry モデル カタログで 画像からテキストへの モデルを使用する方法について説明します。
画像からテキストへのモデルは、画像を分析し、表示内容に基づいて説明テキストを生成するように設計されています。 カメラとライターの組み合わせと考えてください。 画像をモデルへの入力として提供すると、モデルは画像を見て、オブジェクト、人物、シーン、テキストなど、その中のさまざまな要素を識別します。 その分析に基づいて、モデルは画像の記述された説明を生成し、表示内容を要約します。
画像からテキストへのモデルは、アクセシビリティ機能、コンテンツ編成 (タグ付け)、製品と教育用の視覚的な説明の作成、光学式文字認識 (OCR) によるコンテンツのデジタル化など、さまざまなユース ケースで優れています。 画像からテキストへのモデルは、視覚的なコンテンツと記述された言語の間のギャップを埋め、さまざまなコンテキストで情報をよりアクセスしやすく、処理しやすくしていると言えます。
[前提条件]
アプリケーションでイメージ モデルを使用するには、次のものが必要です。
有効な支払い方法を持つ Azure サブスクリプション。 無料または試用版の Azure サブスクリプションは機能しません。 Azure サブスクリプションを持っていない場合は、始めるために有料の Azure アカウントを作成してください。
Azure AI Foundry でのイメージ モデルのデプロイ。
- この記事では、 Mistral OCR モデルのデプロイを使用します。
エンドポイント URL とキー。
画像からテキストへのモデルを使用する
API キーを使用して認証します。 まず、サービスに対して認証するエンドポイント URL と API キーを生成するモデルをデプロイします。 この例では、エンドポイントとキーは、エンドポイント URL と API キーを保持する文字列です。 API エンドポイントの URL と API キーは、モデルのデプロイ後に [デプロイとエンドポイント] ページにあります。
Bash を使用している場合:
export AZURE_API_KEY = "<your-api-key>"
PowerShell を使用している場合:
$Env:AZURE_API_KEY = "<your-api-key>"
Windows コマンド プロンプトを使用している場合:
export AZURE_API_KEY = "<your-api-key>"
基本的なコード サンプルを実行します。 異なるイメージ モデルでは、異なるデータ形式を受け入れます。 この例では、 Mistral OCR 25.03 では base64 でエンコードされたデータのみがサポートされています。ドキュメント URL またはイメージ URL はサポートされていません。 次のコードをシェルに貼り付けます。
curl --request POST \ --url https://<your_serverless_endpoint>/v1/ocr \ --header 'Authorization: <api_key>' \ --header 'Content-Type: Application/json' \ --data '{ "model": "mistral-ocr-2503", "document": { "type": "document_url", "document_name": "test", "document_url": "data:application/pdf;base64,JVBER... <replace with your base64 encoded image data>" } }'
Mistral OCR 25.03 のその他のコード サンプル
PDF ファイルを処理するには:
# Read the pdf file
input_file_path="assets/2201.04234v3.pdf"
base64_value=$(base64 "$input_file_path")
input_base64_value="data:application/pdf;base64,${base64_value}"
# echo $input_base64_value
# Prepare JSON data
payload_body=$(cat <<EOF
{
"model": "mistral-ocr-2503",
"document": {
"type": "document_url",
"document_url": "$input_base64_value"
},
"include_image_base64": true
}
EOF
)
echo "$payload_body" | curl ${AZURE_AI_CHAT_ENDPOINT}/v1/ocr \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${AZURE_AI_CHAT_KEY}" \
-d @- -o ocr_pdf_output.json
イメージ ファイルを処理するには:
# Read the image file
input_file_path="assets/receipt.png"
base64_value=$(base64 "$input_file_path")
input_base64_value="data:application/png;base64,${base64_value}"
# echo $input_base64_value
# Prepare JSON data
payload_body=$(cat <<EOF
{
"model": "mistral-ocr-2503",
"document": {
"type": "image_url",
"image_url": "$input_base64_value"
},
"include_image_base64": true
}
EOF
)
# Process the base64 data with ocr endpoint
echo "$payload_body" | curl ${AZURE_AI_CHAT_ENDPOINT}/v1/ocr \
-H "Content-Type: application/json" \
-H "Authorization: Bearer ${AZURE_AI_CHAT_KEY}" \
-d @- -o ocr_png_output.json
モデル固有のパラメーター
一部の画像からテキストへのモデルでは、特定のデータ形式のみがサポートされます。 たとえば、Mistral OCR 25.03 では、document_url
パラメーターにbase64 encoded image data
が必要です。 次の表に、モデル カタログ内のイメージ モデルでサポートされているデータ形式とサポートされていないデータ形式を示します。
モデル | サポートされています | サポートされていません |
---|---|---|
Mistral OCR 25.03 | base64 でエンコードされた画像データ | ドキュメント URL、イメージ URL |