Azure OpenAI API 要求のキャッシュされた応答を取得する

適用対象: すべての API Management レベル

azure-openai-semantic-cache-lookup ポリシーを使用して、構成された外部キャッシュからの Azure OpenAI チャット完了 API 要求に対する応答のキャッシュ検索を実行します。これは、以前の要求に対するプロンプトのベクトル近接性と、指定された類似性スコアのしきい値に基づいています。応答のキャッシュを使用すると、バックエンド Azure OpenAI API の帯域幅および処理の要件が低減され、API コンシューマーによって認識される遅延が小さくなります。

注

このポリシーには、対応する "Azure OpenAI API 要求に対する応答をキャッシュする" ポリシーが必要です。
セマンティックキャッシュを有効にする前提条件と手順については、「 Azure API Management で LLM API のセマンティックキャッシュを有効にする」を参照してください。

注

ポリシーの要素と子要素を、ポリシーステートメントで指定された順序で設定します。 API Management ポリシーを設定または編集する方法について説明します。

Azure AI Foundry モデルでサポートされている Azure OpenAI

このポリシーは、次の種類の AI Foundry モデルで Azure OpenAI から API Management に追加された API と共に使用されます。

[API の種類]	サポートされているモデル
チャット入力候補	`gpt-3.5` `gpt-4` `gpt-4o` `gpt-4o-mini` `o1` `o3`
埋め込み	`text-embedding-3-large` `text-embedding-3-small` `text-embedding-ada-002`
応答 (プレビュー)	`gpt-4o` (バージョン: `2024-11-20`、 `2024-08-06`、 `2024-05-13`) `gpt-4o-mini` (バージョン: `2024-07-18`) `gpt-4.1` (バージョン: `2025-04-14`) `gpt-4.1-nano` (バージョン: `2025-04-14`) `gpt-4.1-mini` (バージョン: `2025-04-14`) `gpt-image-1` (バージョン: `2025-04-15`) `o3` (バージョン: `2025-04-16`) `o4-mini` (バージョン: '2025-04-16)

注

従来の完了 API は、従来のモデルバージョンでのみ使用でき、サポートは制限されています。

モデルとその機能の最新の情報については、「 Foundry モデルの Azure OpenAI」を参照してください。

ポリシーステートメント

<azure-openai-semantic-cache-lookup
    score-threshold="score threshold to return cached response"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

属性

属性	説明	必要	既定値
score-threshold	スコアのしきい値は、格納されている応答を返すために、受信プロンプトがキャッシュされたプロンプトとどの程度一致する必要があるかを定義します。値の範囲は 0.0 から 1.0 です。値を小さくすると、一致するセマンティックの類似性が高くなります。詳細情報。	はい	該当なし
embeddings-backend-id	バックエンド埋め込み API 呼び出しの ID。	はい	該当なし
embeddings-backend-auth	API バックエンドの埋め込みに使用される認証。	はい。 `system-assigned` に設定する必要があります。	該当なし
ignore-system-messages	ブール値。 `true` (推奨) に設定すると、キャッシュの類似性を評価する前に、チャット完了プロンプトからシステムメッセージを削除します。	いいえ	偽り
max-message-count	指定した場合、キャッシュがスキップされた後の残りのダイアログメッセージ数。	いいえ	該当なし

要素

名前	説明	必要
vary-by	実行時に決定されるカスタム式。その値によってキャッシュはパーティション分割されます。複数の `vary-by` 要素を追加すると、値が連結され、一意の組み合わせが作成されます。	いいえ

使用法

ポリシーセクション: inbound
ポリシースコープ: グローバル、製品、API、操作
ゲートウェイ: クラシック、v2、従量課金、セルフホステッド

使用上の注意

このポリシーは、ポリシーセクションで 1 回だけ使用できます。
アプリケーションに基づいて score-threshold の値を微調整し、クエリに対してキャッシュされた応答を返すタイミングを決定するために適切な秘密度が使用されるようにします。 0.05 などの低い値から始めて、キャッシュヒットとミスの比率を最適化するように調整します。
スコアのしきい値が 0.2 を超える場合、キャッシュの不一致が発生する可能性があります。機密性の高いユースケースには、より小さい値を使用することを検討してください。
特定のユーザーまたはユーザーグループの識別子を使用して vary-by を指定して、キャッシュエントリへのクロスユーザーアクセスを制御します。
埋め込みモデルには、プロンプトのボリュームとプロンプトに対応できる十分な容量と十分なコンテキストサイズが必要です。
プロンプト攻撃から保護するために、プロンプトシールド付きの llm-content-safety ポリシーを追加することを検討してください。
キャッシュ検索の直後にレート制限ポリシー (またはキーごとのレート制限ポリシー) を構成することをお勧めします。これにより、キャッシュが使用できない場合にバックエンドサービスが過負荷にならないようにすることができます。

例

対応する azure-openai-semantic-cache-store ポリシーの例

次の例では、 azure-openai-semantic-cache-lookup ポリシーと azure-openai-semantic-cache-store ポリシーを使用して、類似性スコアのしきい値が 0.05 のセマンティックに類似したキャッシュされた応答を取得する方法を示します。キャッシュされた値は、呼び出し元のサブスクリプション ID によってパーティション分割されます。

注

キャッシュ参照の後に追加されるレート制限ポリシーは、キャッシュが使用できない場合にバックエンドサービスでのオーバーロードを防ぐために呼び出しの数を制限するのに役立ちます。

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

ポリシーに対する処理の詳細については、次のトピックを参照してください。

チュートリアル:API を変換および保護する
ポリシーステートメントとその設定の一覧に関するポリシーリファレンス
ポリシー式
ポリシーの設定または編集
ポリシー構成を再利用する
ポリシースニペットのリポジトリ
ポリシープレイグラウンドリポジトリ
Azure API Management ポリシーツールキット
ポリシーの作成、説明、トラブルシューティングを行う Copilot のサポートを受ける

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-10-31

次の方法で共有

Azure OpenAI API 要求のキャッシュされた応答を取得する

Azure AI Foundry モデルでサポートされている Azure OpenAI

ポリシー ステートメント

属性

要素

使用法

使用上の注意

例

対応する azure-openai-semantic-cache-store ポリシーの例

関連ポリシー

関連するコンテンツ

フィードバック

その他のリソース

ポリシーステートメント