プロンプトキャッシュ

2025-08-07

プロンプトキャッシュを使用すると、プロンプトの先頭に同じ内容が含まれている長いプロンプトについて、要求の全体的な待機時間とコストを削減できます。このコンテキストにおける "プロンプト" とは、チャット完了要求の一部として、モデルに送信する入力を指します。同じ入力トークンを何度も再処理する代わりに、このサービスは、処理される入力トークン計算の一時キャッシュを保持して全体的なパフォーマンスを向上させることができます。プロンプトキャッシュは、モデルの応答で返される出力コンテンツに対して、待機時間とコストの削減以外に影響を与えません。サポートされているモデルの場合、キャッシュされたトークンは、標準デプロイの種類の場合は入力トークンの価格に対する割引で、プロビジョニングされたデプロイの種類の場合は入力トークンに対される最大 100% の割引で課金されます。

キャッシュは通常、非アクティブ状態から 5-10 分以内にクリアされ、キャッシュの最後の使用時から 1 時間以内に常に削除されます。プロンプトキャッシュは、Azure サブスクリプション間で共有されません。

サポートされているモデル

プロンプトキャッシュは、すべての Azure OpenAI モデル GPT-4o 以降でサポートされています。
プロンプトキャッシュは、チャットの完了、完了、応答、またはリアルタイム操作を持つモデルに適用されます。これらの操作がないモデルの場合、この機能は使用できません。

API のサポート

プロンプトキャッシュの公式サポートは、最初に API バージョン 2024-10-01-preview で追加されました。現時点では、 cached_tokens API 応答パラメーターをサポートするのは o シリーズモデルファミリだけです。

作業の開始

要求でプロンプトキャッシュを利用するには、次の両方が必要です。

長さが 1,024 トークン以上。
プロンプトの先頭の 1,024 トークンが同一であること。

要求は、プロンプトの初期プレフィックスのハッシュに基づいてルーティングされます。

プロンプト内のトークン計算とプロンプトキャッシュの現在のコンテンツの間で一致が見つかった場合、それはキャッシュヒットと呼ばれます。キャッシュヒットは、チャット完了応答の cached_tokens の下に prompt_tokens_details として表示されます。

{
  "created": 1729227448,
  "model": "o1-2024-12-17",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

先頭の 1,024 トークンの後は、同一の 128 トークンが追加されるごとにキャッシュヒットが発生します。

先頭の 1,024 トークン内で 1 文字でも違うとキャッシュミスになり、cached_tokens 値が 0 に設定されます。プロンプトキャッシュは既定で有効になっており、サポートされているモデルでは追加の構成は必要ありません。

user パラメーターを指定すると、プレフィックスハッシュと組み合わされるため、ルーティングに影響を与え、キャッシュヒット率を向上させることができます。これは、多くの要求が長い一般的なプレフィックスを共有する場合に特に便利です。

キャッシュされるもの

o1 シリーズモデル機能のサポートは、モデルによって異なります。詳細については、専用の推論モデルガイドを参照してください。

プロンプトキャッシュは以下に対してサポートされます:

サポートされるキャッシュ	説明	サポートされているモデル
メッセージ	完全なメッセージ配列: システム、開発者、ユーザー、アシスタントのコンテンツ	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (バージョン 2024-12-17) `gpt-4o-mini-realtime-preview` (バージョン 2024-12-17) `o1` (バージョン 2024-12-17) `o3-mini` (バージョン 2025-01-31)
イメージ	ユーザーメッセージに含まれる画像 (リンクまたは base64 でエンコードされたデータの両方)。詳細パラメーターは、要求間で同じに設定する必要があります。	`gpt-4o` `gpt-4o-mini` `o1` (バージョン 2024-12-17)
ツールの使用	メッセージ配列とツール定義の両方。	`gpt-4o` `gpt-4o-mini` `gpt-4o-realtime-preview` (バージョン 2024-12-17) `gpt-4o-mini-realtime-preview` (バージョン 2024-12-17) `o1` (バージョン 2024-12-17) `o3-mini` (バージョン 2025-01-31)
構造化出力	構造化出力スキーマは、プレフィックスとしてシステムメッセージに追加されます。	`gpt-4o` `gpt-4o-mini` `o1` (バージョン 2024-12-17) `o3-mini` (バージョン 2025-01-31)

キャッシュヒットが発生する可能性を高めるには、メッセージ配列の先頭で繰り返しコンテンツが発生するように要求を構造化する必要があります。