Compartilhar via


Métricas com suporte para Microsoft.CognitiveServices/accounts/projects

A tabela a seguir lista as métricas disponíveis para o tipo de recurso Microsoft.CognitiveServices/accounts/projects.

Títulos de tabela

Métrica: o nome de exibição da métrica como aparece no portal do Azure.
Nome na API REST - Nome da métrica mencionado na API REST.
Unidade: unidade de medida
Agregação – o tipo de agregação padrão. Valores válidos: Médio, Mínimo, Máximo, Total, Contagem.
Dimensões - Dimensões disponíveis para a métrica.
Grânulos de Tempo - Intervalos nos quais a métrica é amostrada. Por exemplo, PT1M indica que a métrica é amostrada a cada minuto, PT30M a cada 30 minutos, PT1H a cada hora e assim por diante.
DS Export – Se a métrica é exportável para os logs do Azure Monitor por meio das Configurações de Diagnóstico.

Para obter informações sobre como exportar métricas, consulte - Exportação de métricas usando regras de coleta de dados e Criar configurações de diagnóstico no Azure Monitor.

Para obter informações sobre retenção de métricas, consulte Visão geral das métricas do Azure Monitor.

Categoria: Agentes de IA

Métrica Nome na API REST Unidade Aggregation Dimensões Intervalos de Tempo Exportação de DS
Eventos do agente (versão prévia)

Número de eventos para agentes de IA neste projeto.
AgentEvents Contagem Contagem, Total (Soma), Média, Máximo, Mínimo EventType PT1M Não
Tokens de entrada do agente (versão prévia)

Número de tokens de entrada para agentes de IA neste projeto.
AgentInputTokens Contagem Total (Soma), Média, Máximo, Mínimo AgentId, , ModelNameTokenType PT1M Não
Mensagens de usuário do agente (versão prévia)

Número de eventos para mensagens de usuário do Agente de IA neste projeto.
AgentMessages Contagem Contagem, Total (Soma), Média, Máximo, Mínimo EventType, ThreadId PT1M Não
Tokens de saída do agente (versão prévia)

Número de tokens de saída para agentes de IA neste projeto.
AgentOutputTokens Contagem Total (Soma), Média, Máximo, Mínimo AgentId, , ModelNameTokenType PT1M Não
Respostas do agente (versão prévia)

Número de respostas por agentes de IA neste projeto.
AgentResponses Contagem Contagem, Total (Soma), Média, Máximo, Mínimo AgentId, , ModelNameResponseStatus PT1M Não
Execuções do agente (versão prévia)

Número de execuções por Agentes de IA neste projeto.
AgentRuns Contagem Contagem, Total (Soma), Média, Máximo, Mínimo AgentId, ModelName, RunStatus, StatusCode, ThreadId, , StreamType PT1M Não
Threads do agente (versão prévia)

Número de eventos para threads do Agente de IA neste projeto.
AgentThreads Contagem Contagem, Total (Soma), Média, Máximo, Mínimo EventType PT1M Não
Chamadas de ferramenta do agente (versão prévia)

Número de chamadas de ferramentas feitas por Agentes de IA neste projeto.
AgentToolCalls Contagem Contagem, Total (Soma), Média, Máximo, Mínimo AgentId, , ModelNameToolName PT1M Não
Arquivos indexados de uso do agente (versão prévia)

Número de arquivos indexados para uso do Agente de IA, como recuperação neste projeto.
AgentUsageIndexedFiles Contagem Contagem, Total (Soma), Média, Máximo, Mínimo ErrorCode, , StatusVectorStoreId PT1M Não

Categoria: Modelos – Solicitações HTTP

Métrica Nome na API REST Unidade Aggregation Dimensões Intervalos de Tempo Exportação de DS
Taxa de Disponibilidade do Modelo

Percentual de disponibilidade com o seguinte cálculo: (Total de Chamadas – Erros do Servidor)/Total de Chamadas. Os erros do servidor incluem quaisquer respostas HTTP >=500.
ModelAvailabilityRate Percent Mínimo, Máximo, Média Region, ModelDeploymentName, , ModelNameModelVersion PT1M Não
Solicitações de modelo

Número de chamadas feitas à API de modelo durante um período de tempo. Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso.
ModelRequests Contagem Soma (Total) ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, , ModelVersion, , StatusCode PT1M Yes

Categoria: Modelos – Latência

Métrica Nome na API REST Unidade Aggregation Dimensões Intervalos de Tempo Exportação de DS
Tempo entre tokens

Para solicitações de streaming; Taxa de geração de token de modelo, medida em milissegundos. Aplica-se a implantações PTU e gerenciadas por PTU.
NormalizedTimeBetweenTokens MilliSeconds Máximo, Mínimo, Médio ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion PT1M Yes
Tempo normalizado para o primeiro byte

Para solicitações de streaming e sem streaming; tempo necessário para que o primeiro byte de dados de resposta seja recebido após a solicitação ser feita pelo modelo, normalizado por token. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso.
NormalizedTimeToFirstToken MilliSeconds Máximo, Mínimo, Médio ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion PT1M Yes
Hora do Último Byte

Para solicitações de streaming e sem streaming; tempo necessário para que o último byte de dados de resposta seja recebido após a solicitação ser feita pelo modelo. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso.
TimeToLastByte MilliSeconds Máximo, Mínimo, Médio ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion PT1M Yes
Tempo de resposta

Medida de latência recomendada (capacidade de resposta) para solicitações de streaming. Aplica-se a implantações PTU e gerenciadas por PTU. Calculado conforme o tempo necessário para que a primeira resposta apareça depois que um usuário envia um prompt, conforme medido pelo gateway de API. Esse número aumenta à medida que o tamanho da solicitação aumenta e/ou o tamanho da ocorrência no cache é reduzido. Para detalhar o tempo de resposta métrica, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName e ModelVersion.

Observação: essa métrica é uma aproximação, pois a latência medida depende muito de vários fatores, incluindo chamadas simultâneas e padrão de carga de trabalho geral. Além disso, ele não leva em conta nenhuma latência do lado do cliente que possa existir entre o cliente e o endpoint da API. Consulte seu próprio registro para otimizar o acompanhamento da latência.
TimeToResponse MilliSeconds Mínimo, Máximo, Média ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, , ModelVersion, , StatusCode PT1M Yes
Tokens por segundo

Enumera a velocidade de geração para uma determinada resposta de modelo. O total de tokens gerados é dividido pelo tempo para gerar os tokens, em segundos. Aplica-se a implantações PTU e gerenciadas por PTU.
TokensPerSecond Contagem Máximo, Mínimo, Médio ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion PT1M Yes

Categoria: Modelos – Uso

Métrica Nome na API REST Unidade Aggregation Dimensões Intervalos de Tempo Exportação de DS
Tokens de entrada de áudio

Número de tokens de prompt de áudio processados (entrada) em um modelo de OpenAI. Aplica-se a implantações de modelo gerenciadas por PTU.
AudioInputTokens Contagem Soma (Total) ModelDeploymentName, ModelName, , ModelVersionRegion PT1M Yes
Tokens de saída de áudio

Número de tokens de prompt de áudio gerados (saída) em um modelo de OpenAI. Aplica-se a implantações de modelo gerenciadas por PTU.
AudioOutputTokens Contagem Soma (Total) ModelDeploymentName, ModelName, , ModelVersionRegion PT1M Yes
Tokens de entrada

Número de tokens de prompt processados (entrada) em um modelo. Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso.
InputTokens Contagem Soma (Total) ApiName, Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Tokens de saída

Número de tokens gerados (saída) de um modelo OpenAI. Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso.
OutputTokens Contagem Soma (Total) ApiName, Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Utilização provisionada

% de utilização para uma implantação gerenciada por provisionamento, calculada como (PTUs consumidos/PTUs implantados) x 100. Quando a utilização é maior ou igual a 100%, as chamadas são limitadas e o código de erro 429 retornado.
ProvisionedUtilization Percent Mínimo, Máximo, Média Region, ModelDeploymentName, , ModelNameModelVersion PT1M Não
Total Tokens

Número de tokens de inferência processados em um modelo. Calculados como tokens de prompt (entrada) mais tokens gerados (saída). Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso.
TotalTokens Contagem Soma (Total) ApiName, Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes

Próximas etapas