次の方法で共有


Vision 対応チャット モデルの概念

ビジョン対応チャット モデルは、OpenAI によって開発された大規模なマルチモーダル モデル (LMM) であり、画像を分析し、それらに関する質問に対してテキストでの応答を提供できます。 これには、自然言語処理と視覚的理解の両方が組み込まれています。 このガイドでは、その機能と制限事項について詳しく説明します。 画像入力をサポートするモデルを確認するには、「 モデル」ページを参照してください。

Vision 対応チャット モデルを試すには、クイックスタートを参照してください。

ビジョン対応チャット

ビジョン対応チャット モデルは、アップロードする画像に何が存在するかに関する一般的な質問に回答します。

入力制限

このセクションでは、Vision 対応チャット モデルの制限事項について説明します。

イメージのサポート

  • 最大入力画像サイズ: 入力画像の最大サイズは 20 MB に制限されます。
  • 低解像度の正確性: "低解像度" 設定を使用して画像を分析すると、応答を高速にして、特定のユース ケースに使用する入力トークンを減らすことができます。 ただし、これは、画像内のオブジェクトとテキスト認識の正確性に影響する可能性があります。
  • イメージ チャットの制限: Azure AI Foundry ポータル または API で画像をアップロードする場合、チャット呼び出しごとに 10 個の画像に制限があります。

特別価格情報

Von Bedeutung

価格の詳細は、今後変更される可能性があります。

Vision 対応モデルでは、他の Azure OpenAI チャット モデルと同様に料金が発生します。 価格ページ上で詳しく説明されているように、プロンプトと入力候補に対してトークンごとに料金を支払います。 基本料金と追加機能の概要を次に示します。

GPT-4 Turbo with Vision の基本価格は次のとおりです。

  • 入力: 1000 トークンあたり $0.01
  • 出力: 1000 トークンあたり $0.03

テキストと画像をトークンに変換する方法については、概要の「トークン」セクションをご参照ください。

イメージ価格計算例

Von Bedeutung

以下の内容は一例であり、価格は将来変更される可能性があります。

一般的なユース ケースとして、表示されるオブジェクトとテキストの両方と 100 トークンのプロンプト入力を含むイメージを取り上げます。 サービスでプロンプトが処理されると、100 個の出力トークンが生成されます。 イメージでは、テキストとオブジェクトの両方を検出できます。 このトランザクションの価格は次のようになります。

Item ディテール 費用
テキスト プロンプトの入力 100 個のテキスト トークン $0.001
画像入力の例 (「画像トークン」を参照) 170 + 85 個の画像トークン $0.00255
OCR 用の拡張アドオン機能 1.50 ドル/1,000 トランザクション 0.0015 ドル
オブジェクト グラウンディング用の拡張アドオン機能 1.50 ドル/1,000 トランザクション 0.0015 ドル
出力トークン 100 個のトークン (想定) $0.003
合計 $0.00955