Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
A tabela a seguir lista as métricas disponíveis para o tipo de recurso Microsoft.CognitiveServices/accounts/projects.
Títulos de tabela
Métrica: o nome de exibição da métrica como aparece no portal do Azure.
Nome na API REST - Nome da métrica mencionado na API REST.
Unidade: unidade de medida
Agregação – o tipo de agregação padrão. Valores válidos: Médio, Mínimo, Máximo, Total, Contagem.
Dimensões - Dimensões disponíveis para a métrica.
Grânulos de Tempo - Intervalos nos quais a métrica é amostrada. Por exemplo, PT1M indica que a métrica é amostrada a cada minuto, PT30M a cada 30 minutos, PT1H a cada hora e assim por diante.
DS Export – Se a métrica é exportável para os logs do Azure Monitor por meio das Configurações de Diagnóstico.
Para obter informações sobre como exportar métricas, consulte - Exportação de métricas usando regras de coleta de dados e Criar configurações de diagnóstico no Azure Monitor.
Para obter informações sobre retenção de métricas, consulte Visão geral das métricas do Azure Monitor.
Categoria: Agentes de IA
| Métrica | Nome na API REST | Unidade | Aggregation | Dimensões | Intervalos de Tempo | Exportação de DS |
|---|---|---|---|---|---|---|
|
Eventos do agente (versão prévia) Número de eventos para agentes de IA neste projeto. |
AgentEvents |
Contagem | Contagem, Total (Soma), Média, Máximo, Mínimo | EventType |
PT1M | Não |
|
Tokens de entrada do agente (versão prévia) Número de tokens de entrada para agentes de IA neste projeto. |
AgentInputTokens |
Contagem | Total (Soma), Média, Máximo, Mínimo |
AgentId, , ModelNameTokenType |
PT1M | Não |
|
Mensagens de usuário do agente (versão prévia) Número de eventos para mensagens de usuário do Agente de IA neste projeto. |
AgentMessages |
Contagem | Contagem, Total (Soma), Média, Máximo, Mínimo |
EventType, ThreadId |
PT1M | Não |
|
Tokens de saída do agente (versão prévia) Número de tokens de saída para agentes de IA neste projeto. |
AgentOutputTokens |
Contagem | Total (Soma), Média, Máximo, Mínimo |
AgentId, , ModelNameTokenType |
PT1M | Não |
|
Respostas do agente (versão prévia) Número de respostas por agentes de IA neste projeto. |
AgentResponses |
Contagem | Contagem, Total (Soma), Média, Máximo, Mínimo |
AgentId, , ModelNameResponseStatus |
PT1M | Não |
|
Execuções do agente (versão prévia) Número de execuções por Agentes de IA neste projeto. |
AgentRuns |
Contagem | Contagem, Total (Soma), Média, Máximo, Mínimo |
AgentId, ModelName, RunStatus, StatusCode, ThreadId, , StreamType |
PT1M | Não |
|
Threads do agente (versão prévia) Número de eventos para threads do Agente de IA neste projeto. |
AgentThreads |
Contagem | Contagem, Total (Soma), Média, Máximo, Mínimo | EventType |
PT1M | Não |
|
Chamadas de ferramenta do agente (versão prévia) Número de chamadas de ferramentas feitas por Agentes de IA neste projeto. |
AgentToolCalls |
Contagem | Contagem, Total (Soma), Média, Máximo, Mínimo |
AgentId, , ModelNameToolName |
PT1M | Não |
|
Arquivos indexados de uso do agente (versão prévia) Número de arquivos indexados para uso do Agente de IA, como recuperação neste projeto. |
AgentUsageIndexedFiles |
Contagem | Contagem, Total (Soma), Média, Máximo, Mínimo |
ErrorCode, , StatusVectorStoreId |
PT1M | Não |
Categoria: Modelos – Solicitações HTTP
| Métrica | Nome na API REST | Unidade | Aggregation | Dimensões | Intervalos de Tempo | Exportação de DS |
|---|---|---|---|---|---|---|
|
Taxa de Disponibilidade do Modelo Percentual de disponibilidade com o seguinte cálculo: (Total de Chamadas – Erros do Servidor)/Total de Chamadas. Os erros do servidor incluem quaisquer respostas HTTP >=500. |
ModelAvailabilityRate |
Percent | Mínimo, Máximo, Média |
Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | Não |
|
Solicitações de modelo Número de chamadas feitas à API de modelo durante um período de tempo. Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso. |
ModelRequests |
Contagem | Soma (Total) |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, , ModelVersion, , StatusCode |
PT1M | Yes |
Categoria: Modelos – Latência
| Métrica | Nome na API REST | Unidade | Aggregation | Dimensões | Intervalos de Tempo | Exportação de DS |
|---|---|---|---|---|---|---|
|
Tempo entre tokens Para solicitações de streaming; Taxa de geração de token de modelo, medida em milissegundos. Aplica-se a implantações PTU e gerenciadas por PTU. |
NormalizedTimeBetweenTokens |
MilliSeconds | Máximo, Mínimo, Médio |
ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion |
PT1M | Yes |
|
Tempo normalizado para o primeiro byte Para solicitações de streaming e sem streaming; tempo necessário para que o primeiro byte de dados de resposta seja recebido após a solicitação ser feita pelo modelo, normalizado por token. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso. |
NormalizedTimeToFirstToken |
MilliSeconds | Máximo, Mínimo, Médio |
ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion |
PT1M | Yes |
|
Hora do Último Byte Para solicitações de streaming e sem streaming; tempo necessário para que o último byte de dados de resposta seja recebido após a solicitação ser feita pelo modelo. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso. |
TimeToLastByte |
MilliSeconds | Máximo, Mínimo, Médio |
ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion |
PT1M | Yes |
|
Tempo de resposta Medida de latência recomendada (capacidade de resposta) para solicitações de streaming. Aplica-se a implantações PTU e gerenciadas por PTU. Calculado conforme o tempo necessário para que a primeira resposta apareça depois que um usuário envia um prompt, conforme medido pelo gateway de API. Esse número aumenta à medida que o tamanho da solicitação aumenta e/ou o tamanho da ocorrência no cache é reduzido. Para detalhar o tempo de resposta métrica, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName e ModelVersion. Observação: essa métrica é uma aproximação, pois a latência medida depende muito de vários fatores, incluindo chamadas simultâneas e padrão de carga de trabalho geral. Além disso, ele não leva em conta nenhuma latência do lado do cliente que possa existir entre o cliente e o endpoint da API. Consulte seu próprio registro para otimizar o acompanhamento da latência. |
TimeToResponse |
MilliSeconds | Mínimo, Máximo, Média |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, , ModelVersion, , StatusCode |
PT1M | Yes |
|
Tokens por segundo Enumera a velocidade de geração para uma determinada resposta de modelo. O total de tokens gerados é dividido pelo tempo para gerar os tokens, em segundos. Aplica-se a implantações PTU e gerenciadas por PTU. |
TokensPerSecond |
Contagem | Máximo, Mínimo, Médio |
ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion |
PT1M | Yes |
Categoria: Modelos – Uso
| Métrica | Nome na API REST | Unidade | Aggregation | Dimensões | Intervalos de Tempo | Exportação de DS |
|---|---|---|---|---|---|---|
|
Tokens de entrada de áudio Número de tokens de prompt de áudio processados (entrada) em um modelo de OpenAI. Aplica-se a implantações de modelo gerenciadas por PTU. |
AudioInputTokens |
Contagem | Soma (Total) |
ModelDeploymentName, ModelName, , ModelVersionRegion |
PT1M | Yes |
|
Tokens de saída de áudio Número de tokens de prompt de áudio gerados (saída) em um modelo de OpenAI. Aplica-se a implantações de modelo gerenciadas por PTU. |
AudioOutputTokens |
Contagem | Soma (Total) |
ModelDeploymentName, ModelName, , ModelVersionRegion |
PT1M | Yes |
|
Tokens de entrada Número de tokens de prompt processados (entrada) em um modelo. Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso. |
InputTokens |
Contagem | Soma (Total) |
ApiName, Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | Yes |
|
Tokens de saída Número de tokens gerados (saída) de um modelo OpenAI. Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso. |
OutputTokens |
Contagem | Soma (Total) |
ApiName, Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | Yes |
|
Utilização provisionada % de utilização para uma implantação gerenciada por provisionamento, calculada como (PTUs consumidos/PTUs implantados) x 100. Quando a utilização é maior ou igual a 100%, as chamadas são limitadas e o código de erro 429 retornado. |
ProvisionedUtilization |
Percent | Mínimo, Máximo, Média |
Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | Não |
|
Total Tokens Número de tokens de inferência processados em um modelo. Calculados como tokens de prompt (entrada) mais tokens gerados (saída). Aplica-se às implantações PTU, Gerenciadas por PTU e com Pagamento conforme o uso. |
TotalTokens |
Contagem | Soma (Total) |
ApiName, Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | Yes |