プロンプト キャッシュを使用すると、プロンプトの先頭に同じ内容が含まれている長いプロンプトについて、要求の全体的な待機時間とコストを削減できます。 このコンテキストにおける "プロンプト" とは、チャット完了要求の一部として、モデルに送信する入力を指します。 同じ入力トークンを何度も再処理する代わりに、このサービスは、処理される入力トークン計算の一時キャッシュを保持して全体的なパフォーマンスを向上させることができます。 プロンプト キャッシュは、モデルの応答で返される出力コンテンツに対して、待機時間とコストの削減以外に影響を与えません。 サポートされているモデルの場合、キャッシュされたトークンは、標準デプロイの種類の場合は入力トークンの価格に対する割引で、プロビジョニングされたデプロイの種類の場合は入力トークンに対される最大 100% の割引で課金されます。
キャッシュは通常、非アクティブ状態から 5-10 分以内にクリアされ、キャッシュの最後の使用時から 1 時間以内に常に削除されます。 プロンプト キャッシュは、Azure サブスクリプション間で共有されません。
サポートされているモデル
- プロンプト キャッシュは、すべての Azure OpenAI モデル GPT-4o 以降でサポートされています。
- プロンプト キャッシュは、チャットの完了、完了、応答、またはリアルタイム操作を持つモデルに適用されます。 これらの操作がないモデルの場合、この機能は使用できません。
API のサポート
プロンプト キャッシュの公式サポートは、最初に API バージョン 2024-10-01-preview
で追加されました。 現時点では、 cached_tokens
API 応答パラメーターをサポートするのは o シリーズ モデル ファミリだけです。
作業の開始
要求でプロンプト キャッシュを利用するには、次の両方が必要です。
- 長さが 1,024 トークン以上。
- プロンプトの先頭の 1,024 トークンが同一であること。
要求は、プロンプトの初期プレフィックスのハッシュに基づいてルーティングされます。
プロンプト内のトークン計算とプロンプト キャッシュの現在のコンテンツの間で一致が見つかった場合、それはキャッシュ ヒットと呼ばれます。 キャッシュ ヒットは、チャット完了応答の cached_tokens
の下に prompt_tokens_details
として表示されます。
{
"created": 1729227448,
"model": "o1-2024-12-17",
"object": "chat.completion",
"service_tier": null,
"system_fingerprint": "fp_50cdd5dc04",
"usage": {
"completion_tokens": 1518,
"prompt_tokens": 1566,
"total_tokens": 3084,
"completion_tokens_details": {
"audio_tokens": null,
"reasoning_tokens": 576
},
"prompt_tokens_details": {
"audio_tokens": null,
"cached_tokens": 1408
}
}
}
先頭の 1,024 トークンの後は、同一の 128 トークンが追加されるごとにキャッシュ ヒットが発生します。
先頭の 1,024 トークン内で 1 文字でも違うとキャッシュ ミスになり、cached_tokens
値が 0 に設定されます。 プロンプト キャッシュは既定で有効になっており、サポートされているモデルでは追加の構成は必要ありません。
user
パラメーターを指定すると、プレフィックス ハッシュと組み合わされるため、ルーティングに影響を与え、キャッシュ ヒット 率を向上させることができます。 これは、多くの要求が長い一般的なプレフィックスを共有する場合に特に便利です。
キャッシュされるもの
o1 シリーズ モデル機能のサポートは、モデルによって異なります。 詳細については、専用 の推論モデル ガイドを参照してください。
プロンプト キャッシュは以下に対してサポートされます:
サポートされるキャッシュ | 説明 | サポートされているモデル |
---|---|---|
メッセージ | 完全なメッセージ配列: システム、開発者、ユーザー、アシスタントのコンテンツ | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (バージョン 2024-12-17)gpt-4o-mini-realtime-preview (バージョン 2024-12-17)o1 (バージョン 2024-12-17) o3-mini (バージョン 2025-01-31) |
イメージ | ユーザー メッセージに含まれる画像 (リンクまたは base64 でエンコードされたデータの両方)。 詳細パラメーターは、要求間で同じに設定する必要があります。 | gpt-4o gpt-4o-mini o1 (バージョン 2024-12-17) |
ツールの使用 | メッセージ配列とツール定義の両方。 | gpt-4o gpt-4o-mini gpt-4o-realtime-preview (バージョン 2024-12-17)gpt-4o-mini-realtime-preview (バージョン 2024-12-17)o1 (バージョン 2024-12-17) o3-mini (バージョン 2025-01-31) |
構造化出力 | 構造化出力スキーマは、プレフィックスとしてシステム メッセージに追加されます。 | gpt-4o gpt-4o-mini o1 (バージョン 2024-12-17) o3-mini (バージョン 2025-01-31) |
キャッシュ ヒットが発生する可能性を高めるには、メッセージ配列の先頭で繰り返しコンテンツが発生するように要求を構造化する必要があります。
プロンプト キャッシュを無効にすることはできますか?
プロンプト キャッシュは、サポートされているすべてのモデルに対して既定で有効になっています。 プロンプト キャッシュのオプトアウト サポートはありません。