Vision 対応チャットモデルの概念

2025-09-16

ビジョン対応チャットモデルは、OpenAI によって開発された大規模なマルチモーダルモデル (LMM) であり、画像を分析し、それらに関する質問に対してテキストでの応答を提供できます。これには、自然言語処理と視覚的理解の両方が組み込まれています。このガイドでは、その機能と制限事項について詳しく説明します。画像入力をサポートするモデルを確認するには、「モデル」ページを参照してください。

Vision 対応チャットモデルを試すには、クイックスタートを参照してください。

ビジョン対応チャット

ビジョン対応チャットモデルは、アップロードする画像に何が存在するかに関する一般的な質問に回答します。

入力制限

このセクションでは、Vision 対応チャットモデルの制限事項について説明します。

イメージのサポート

最大入力画像サイズ: 入力画像の最大サイズは 20 MB に制限されます。
低解像度の正確性: "低解像度" 設定を使用して画像を分析すると、応答を高速にして、特定のユースケースに使用する入力トークンを減らすことができます。ただし、これは、画像内のオブジェクトとテキスト認識の正確性に影響する可能性があります。
イメージチャットの制限: Azure AI Foundry ポータルまたは API で画像をアップロードする場合、チャット呼び出しごとに 10 個の画像に制限があります。

特別価格情報

Von Bedeutung

価格の詳細は、今後変更される可能性があります。

Vision 対応モデルでは、他の Azure OpenAI チャットモデルと同様に料金が発生します。価格ページ上で詳しく説明されているように、プロンプトと入力候補に対してトークンごとに料金を支払います。基本料金と追加機能の概要を次に示します。

GPT-4 Turbo with Vision の基本価格は次のとおりです。

入力: 1000 トークンあたり $0.01
出力: 1000 トークンあたり $0.03

テキストと画像をトークンに変換する方法については、概要の「トークン」セクションをご参照ください。

イメージ価格計算例

Von Bedeutung

以下の内容は一例であり、価格は将来変更される可能性があります。

一般的なユースケースとして、表示されるオブジェクトとテキストの両方と 100 トークンのプロンプト入力を含むイメージを取り上げます。サービスでプロンプトが処理されると、100 個の出力トークンが生成されます。イメージでは、テキストとオブジェクトの両方を検出できます。このトランザクションの価格は次のようになります。

Item	ディテール	費用
テキストプロンプトの入力	100 個のテキストトークン	$0.001
画像入力の例 (「画像トークン」を参照)	170 + 85 個の画像トークン	$0.00255
OCR 用の拡張アドオン機能	1.50 ドル/1,000 トランザクション	0.0015 ドル
オブジェクトグラウンディング用の拡張アドオン機能	1.50 ドル/1,000 トランザクション	0.0015 ドル
出力トークン	100 個のトークン (想定)	$0.003
合計		$0.00955

クイックスタートに従って、Vision 対応モデルの使用を開始します。
API の詳細を確認するには、攻略ガイドに従ってください。
入力候補および埋め込み API リファレンスをご参照ください

フィードバック

このページはお役に立ちましたか?

次の方法で共有

Vision 対応チャット モデルの概念