Métricas com suporte para Microsoft.CognitiveServices/accounts/projects

A tabela a seguir lista as métricas disponíveis para o tipo de recurso Microsoft.CognitiveServices/accounts/projects.

Títulos de tabela

Métrica: o nome de exibição da métrica como aparece no portal do Azure.
Nome na API REST - Nome da métrica mencionado na API REST.
Unidade: unidade de medida
Agregação – o tipo de agregação padrão. Valores válidos: Médio, Mínimo, Máximo, Total, Contagem.
Dimensões - Dimensões disponíveis para a métrica.
Grânulos de Tempo - Intervalos nos quais a métrica é amostrada. Por exemplo, PT1M indica que a métrica é amostrada a cada minuto, PT30M a cada 30 minutos, PT1H a cada hora e assim por diante.
DS Export – Se a métrica é exportável para os logs do Azure Monitor por meio das Configurações de Diagnóstico.

Para obter informações sobre como exportar métricas, consulte - Exportação de métricas usando regras de coleta de dados e Criar configurações de diagnóstico no Azure Monitor.

Para obter informações sobre retenção de métricas, consulte Visão geral das métricas do Azure Monitor.

Categoria: Agentes de IA

Métrica	Nome na API REST	Unidade	Aggregation	Dimensões	Intervalos de Tempo	Exportação de DS
Eventos do agente (versão prévia) Número de eventos para agentes de IA neste projeto.	`AgentEvents`	Contagem	Contagem, Total (Soma), Média, Máximo, Mínimo	`EventType`	PT1M	Não
Tokens de entrada do agente (versão prévia) Número de tokens de entrada para agentes de IA neste projeto.	`AgentInputTokens`	Contagem	Total (Soma), Média, Máximo, Mínimo	`AgentId`, , `ModelNameTokenType`	PT1M	Não
Mensagens de usuário do agente (versão prévia) Número de eventos para mensagens de usuário do Agente de IA neste projeto.	`AgentMessages`	Contagem	Contagem, Total (Soma), Média, Máximo, Mínimo	`EventType`, `ThreadId`	PT1M	Não
Tokens de saída do agente (versão prévia) Número de tokens de saída para agentes de IA neste projeto.	`AgentOutputTokens`	Contagem	Total (Soma), Média, Máximo, Mínimo	`AgentId`, , `ModelNameTokenType`	PT1M	Não
Respostas do agente (versão prévia) Número de respostas por agentes de IA neste projeto.	`AgentResponses`	Contagem	Contagem, Total (Soma), Média, Máximo, Mínimo	`AgentId`, , `ModelNameResponseStatus`	PT1M	Não
Execuções do agente (versão prévia) Número de execuções por Agentes de IA neste projeto.	`AgentRuns`	Contagem	Contagem, Total (Soma), Média, Máximo, Mínimo	`AgentId`, `ModelName`, `RunStatus`, `StatusCode`, `ThreadId`, , `StreamType`	PT1M	Não
Threads do agente (versão prévia) Número de eventos para threads do Agente de IA neste projeto.	`AgentThreads`	Contagem	Contagem, Total (Soma), Média, Máximo, Mínimo	`EventType`	PT1M	Não
Chamadas de ferramenta do agente (versão prévia) Número de chamadas de ferramentas feitas por Agentes de IA neste projeto.	`AgentToolCalls`	Contagem	Contagem, Total (Soma), Média, Máximo, Mínimo	`AgentId`, , `ModelNameToolName`	PT1M	Não
Arquivos indexados de uso do agente (versão prévia) Número de arquivos indexados para uso do Agente de IA, como recuperação neste projeto.	`AgentUsageIndexedFiles`	Contagem	Contagem, Total (Soma), Média, Máximo, Mínimo	`ErrorCode`, , `StatusVectorStoreId`	PT1M	Não

Categoria: Modelos – Solicitações HTTP

Métrica	Nome na API REST	Unidade	Aggregation	Dimensões	Intervalos de Tempo	Exportação de DS
Taxa de Disponibilidade do Modelo Percentual de disponibilidade com o seguinte cálculo: (Total de Chamadas – Erros do Servidor)/Total de Chamadas. Os erros do servidor incluem quaisquer respostas HTTP >=500.	`ModelAvailabilityRate`	Percent	Mínimo, Máximo, Média	`Region`, `ModelDeploymentName`, , `ModelNameModelVersion`	PT1M	Não
Solicitações de modelo Número de chamadas feitas à API de modelo durante um período de tempo. Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso.	`ModelRequests`	Contagem	Soma (Total)	`ApiName`, `OperationName`, `Region`, `StreamType`, `ModelDeploymentName`, `ModelName`, , `ModelVersion`, , `StatusCode`	PT1M	Yes

Categoria: Modelos – Latência

Métrica	Nome na API REST	Unidade	Aggregation	Dimensões	Intervalos de Tempo	Exportação de DS
Tempo entre tokens Para solicitações de streaming; Taxa de geração de token de modelo, medida em milissegundos. Aplica-se a implantações PTU e gerenciadas por PTU.	`NormalizedTimeBetweenTokens`	MilliSeconds	Máximo, Mínimo, Médio	`ApiName`, `OperationName`, `Region`, `StreamType`, , `ModelDeploymentName`, `ModelName`, `ModelVersion`	PT1M	Yes
Tempo normalizado para o primeiro byte Para solicitações de streaming e sem streaming; tempo necessário para que o primeiro byte de dados de resposta seja recebido após a solicitação ser feita pelo modelo, normalizado por token. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso.	`NormalizedTimeToFirstToken`	MilliSeconds	Máximo, Mínimo, Médio	`ApiName`, `OperationName`, `Region`, `StreamType`, , `ModelDeploymentName`, `ModelName`, `ModelVersion`	PT1M	Yes
Hora do Último Byte Para solicitações de streaming e sem streaming; tempo necessário para que o último byte de dados de resposta seja recebido após a solicitação ser feita pelo modelo. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso.	`TimeToLastByte`	MilliSeconds	Máximo, Mínimo, Médio	`ApiName`, `OperationName`, `Region`, `StreamType`, , `ModelDeploymentName`, `ModelName`, `ModelVersion`	PT1M	Yes
Tempo de resposta Medida de latência recomendada (capacidade de resposta) para solicitações de streaming. Aplica-se a implantações PTU e gerenciadas por PTU. Calculado conforme o tempo necessário para que a primeira resposta apareça depois que um usuário envia um prompt, conforme medido pelo gateway de API. Esse número aumenta à medida que o tamanho da solicitação aumenta e/ou o tamanho da ocorrência no cache é reduzido. Para detalhar o tempo de resposta métrica, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName e ModelVersion. Observação: essa métrica é uma aproximação, pois a latência medida depende muito de vários fatores, incluindo chamadas simultâneas e padrão de carga de trabalho geral. Além disso, ele não leva em conta nenhuma latência do lado do cliente que possa existir entre o cliente e o endpoint da API. Consulte seu próprio registro para otimizar o acompanhamento da latência.	`TimeToResponse`	MilliSeconds	Mínimo, Máximo, Média	`ApiName`, `OperationName`, `Region`, `StreamType`, `ModelDeploymentName`, `ModelName`, , `ModelVersion`, , `StatusCode`	PT1M	Yes
Tokens por segundo Enumera a velocidade de geração para uma determinada resposta de modelo. O total de tokens gerados é dividido pelo tempo para gerar os tokens, em segundos. Aplica-se a implantações PTU e gerenciadas por PTU.	`TokensPerSecond`	Contagem	Máximo, Mínimo, Médio	`ApiName`, `OperationName`, `Region`, `StreamType`, , `ModelDeploymentName`, `ModelName`, `ModelVersion`	PT1M	Yes

Categoria: Modelos – Uso

Métrica	Nome na API REST	Unidade	Aggregation	Dimensões	Intervalos de Tempo	Exportação de DS
Tokens de entrada de áudio Número de tokens de prompt de áudio processados (entrada) em um modelo de OpenAI. Aplica-se a implantações de modelo gerenciadas por PTU.	`AudioInputTokens`	Contagem	Soma (Total)	`ModelDeploymentName`, `ModelName`, , `ModelVersionRegion`	PT1M	Yes
Tokens de saída de áudio Número de tokens de prompt de áudio gerados (saída) em um modelo de OpenAI. Aplica-se a implantações de modelo gerenciadas por PTU.	`AudioOutputTokens`	Contagem	Soma (Total)	`ModelDeploymentName`, `ModelName`, , `ModelVersionRegion`	PT1M	Yes
Tokens de entrada Número de tokens de prompt processados (entrada) em um modelo. Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso.	`InputTokens`	Contagem	Soma (Total)	`ApiName`, `Region`, `ModelDeploymentName`, , `ModelNameModelVersion`	PT1M	Yes
Tokens de saída Número de tokens gerados (saída) de um modelo OpenAI. Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso.	`OutputTokens`	Contagem	Soma (Total)	`ApiName`, `Region`, `ModelDeploymentName`, , `ModelNameModelVersion`	PT1M	Yes
Utilização provisionada % de utilização para uma implantação gerenciada por provisionamento, calculada como (PTUs consumidos/PTUs implantados) x 100. Quando a utilização é maior ou igual a 100%, as chamadas são limitadas e o código de erro 429 retornado.	`ProvisionedUtilization`	Percent	Mínimo, Máximo, Média	`Region`, `ModelDeploymentName`, , `ModelNameModelVersion`	PT1M	Não
Total Tokens Número de tokens de inferência processados em um modelo. Calculados como tokens de prompt (entrada) mais tokens gerados (saída). Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso.	`TotalTokens`	Contagem	Soma (Total)	`ApiName`, `Region`, `ModelDeploymentName`, , `ModelNameModelVersion`	PT1M	Yes

Próximas etapas

Comentários

Esta página foi útil?

Last updated on 2025-10-31