Armazenamento de prompts em cache

O armazenamento de prompts em cache permite que você reduza, de modo geral, a latência da solicitação e os custos dos prompts mais longos que têm um conteúdo idêntico no início do prompt. "Prompt" nesse contexto se refere à entrada de dados que você envia para o modelo como parte da sua solicitação de preenchimento de chat. Em vez de reprocessar os mesmos tokens de entrada repetidamente, o serviço pode manter um cache temporário dos dados de entrada processados para aprimorar o desempenho de modo geral. O armazenamento de prompts em cache não afeta o conteúdo do resultado retornado na resposta do modelo, descontando a redução da latência e do custo. Para modelos com suporte, os tokens armazenados em cache são cobrados com desconto no preço do token de entrada para tipos de implantação Standard e até 100% de desconto em tokens de entrada para tipos de implantação provisionados.

Os caches normalmente são limpos dentro de 5 a 10 minutos de inatividade e sempre são removidos dentro de uma hora do último uso do cache. Os caches de prompt não são compartilhados entre assinaturas do Azure.

Modelos com suporte

Há suporte para o cache de prompts com todos os modelos do Azure OpenAI GPT-4o ou mais recentes.
O cache de prompts se aplica a modelos que têm operações de preenchimento de chat, preenchimento em geral, resposta ou em tempo real. Para modelos que não têm essas operações, esse recurso não está disponível.

Como começar

Para tirar o melhor proveito do armazenamento de prompts em cache, a solicitação deve ter as seguintes características:

Um mínimo de 1.024 tokens de comprimento.
Os primeiros 1.024 tokens no prompt precisam ser idênticos.

As solicitações são roteadas com base em um hash do prefixo inicial de um prompt. O hash normalmente usa os primeiros 256 tokens, embora o comprimento exato varie dependendo do modelo.

Quando uma correspondência é encontrada entre os cálculos de token em um prompt e o conteúdo atual do cache de prompt, isso é considerado um acerto de cache. Os acertos de cache serão exibidos como cached_tokens em prompt_tokens_details na resposta de preenchimentos do chat.

{
  "created": 1729227448,
  "model": "o1-2024-12-17",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Após os primeiros 1.024 tokens, os acertos de cache ocorrerão para cada 128 tokens idênticos adicionais.

Uma única diferença de caractere nos primeiros 1.024 tokens resultará em uma perda de cache, que é caracterizada por um valor de cached_tokens igual a 0. O armazenamento de prompts em cache é habilitado por padrão e nenhuma configuração adicional é necessária para os modelos compatíveis.

Se você fornecer o parâmetro prompt_cache_key, ele será combinado com o hash do prefixo, permitindo que você influencie o roteamento e melhore as taxas de acerto do cache. Isso é especialmente benéfico quando muitas solicitações compartilham prefixos longos e comuns.

Se as solicitações para a combinação do mesmo prefixo e prompt_cache_key excederem uma determinada taxa (aproximadamente 15 solicitações por minuto), algumas poderão exceder o limite e serem roteadas para máquinas adicionais, reduzindo a eficácia do cache.

O que é armazenado em cache?

O suporte a recursos de modelos da série o1 varia de acordo com o modelo. Para obter mais informações, consulte nosso guia de modelos de raciocínio dedicados.

Há suporte para o cache de prompt para:

Compatibilidade com cache	Description
Messages	A matriz de mensagens completa: conteúdo de sistema, desenvolvedor, usuário e assistente
Images	Imagens incluídas nas mensagens de usuário, tanto como links quanto como dados codificados em base64. O parâmetro de detalhes deve ser configurado da mesma forma nas diversas solicitações.
Uso de ferramentas	Tanto a matriz de mensagens quanto as definições de ferramenta.
Saídas estruturadas	O esquema de saída estruturado é acrescentado como um prefixo à mensagem do sistema.

Para aumentar a probabilidade de acertos de cache, você deve estruturar suas solicitações de modo que o conteúdo repetitivo ocorra no início da matriz de mensagens.

Posso desabilitar o armazenamento de prompts em cache?

O cache de prompt é habilitado por padrão para todos os modelos com suporte. Não há suporte para a desativação do cache de prompts.

Comentários

Esta página foi útil?

Last updated on 2025-11-18