Monitoramento de Abuso

2025-07-22

O Azure OpenAI no Azure AI Foundry Models detecta e atenua instâncias de conteúdo recorrente e/ou comportamentos que sugerem o uso do serviço de maneira que possa violar o Código de Conduta. Detalhes sobre como os dados são tratados podem ser encontrados na página Dados, Privacidade e Segurança.

Componentes do monitoramento de abuso

Há vários componentes no monitoramento de abuso:

Classificação de conteúdo: modelos de classificador detectam texto e/ou imagens prejudiciais em prompts de usuário (entradas) e conclusões (saídas). O sistema procura categorias de danos conforme definido nos Requisitos de conteúdo, e atribui níveis de severidade conforme descrito em mais detalhes na página Filtragem de conteúdo. Os sinais de classificação de conteúdo contribuem para a detecção de padrões, conforme descrito abaixo.
Captura de padrões de abuso: o sistema de monitoramento de abuso do Azure OpenAI analisa os padrões de uso do cliente e emprega algoritmos e heurísticas para detectar e pontuar indicadores de possíveis abusos. Os padrões detectados consideram, por exemplo, a frequência e a severidade em que o conteúdo nocivo é detectado (conforme indicado nos sinais do classificador de conteúdo) em prompts e conclusões de um cliente, bem como a intencionalidade do comportamento. As tendências e a urgência do padrão detectado também afetarão a pontuação da severidade potencial do abuso. Por exemplo, um volume maior de conteúdo nocivo classificado como maior severidade ou conduta recorrente indicando intencionalidade (como tentativas recorrentes de jailbreak) são mais propensos a receber uma pontuação alta indicando possíveis abusos.
Revisão e Decisão: prompts e conclusões sinalizados por classificação de conteúdo e/ou identificados como parte de um padrão de uso potencialmente abusivo estão sujeitos a outro processo de revisão para ajudar a confirmar a análise do sistema e informar decisões de ação para monitoramento de abusos. Essa revisão é realizada por meio de dois métodos: revisão automatizada e revisão humana.
- Por padrão, se os prompts e as conclusões forem sinalizados por meio da classificação de conteúdo como prejudicial e/ou identificados como parte de um padrão de uso potencialmente abusivo, eles poderão ser amostrados para revisão usando meios automatizados, incluindo modelos de IA, como LLMs, em vez de um revisor humano. O modelo usado para essa finalidade realiza o processamento de prompts e completamentos apenas para confirmar a análise do sistema e informar as decisões de implementação. Prompts e completamentos que passam por essa revisão não são armazenados pelo sistema de monitoramento de abuso, nem usados para treinar o modelo de IA ou outros sistemas.
- Em alguns casos, quando a revisão automatizada não atende aos limites de confiança aplicáveis em contextos complexos ou se os sistemas de revisão automatizados não estão disponíveis, a revisão de visão humana pode ser introduzida para fazer um julgamento extra. Funcionários autorizados da Microsoft podem avaliar o conteúdo sinalizado por meio da classificação de conteúdo e/ou identificado como parte de um padrão de uso potencialmente abusivo e confirmar ou corrigir a classificação ou determinação com base em diretrizes e políticas predefinidas. Esse tipo de prompts e conclusões só pode ser acessado para revisão humana por funcionários autorizados da Microsoft por meio de Estações de Trabalho de Acesso Seguro (SAWs) com aprovação de solicitação Just-In-Time (JIT) concedida por gerentes de equipe. Para os recursos do Azure OpenAI implantados na Área Econômica Europeia, os funcionários autorizados da Microsoft estão localizados na Área Econômica Europeia. Esse processo de monitoramento de abuso por revisão humana não ocorrerá se o cliente tiver sido aprovado para monitoramento de abuso modificado.
Notificação e Ação: quando um limite de comportamento abusivo é confirmado com base nas etapas anteriores, o cliente é informado da determinação por email. Exceto em casos de abuso grave ou recorrente, os clientes normalmente têm a oportunidade de explicar ou corrigir e implementar mecanismos para evitar a recorrência do comportamento abusivo. A falha em resolver o comportamento, ou abuso severo ou recorrente, pode resultar em suspensão ou encerramento do acesso do cliente aos recursos e/ou funcionalidades do OpenAI do Azure.

Monitoramento de abuso modificado

Alguns clientes podem querer usar o Azure OpenAI para um caso de uso que envolva o processamento de dados altamente sensíveis ou altamente confidenciais, ou podem concluir que não querem ou não têm o direito de permitir que a Microsoft armazene e realize uma revisão humana em suas solicitações e resultados para detecção de abuso. Para resolver essas preocupações, a Microsoft permite que os clientes que atendem a critérios adicionais de elegibilidade de Acesso Limitado se apliquem para modificar o monitoramento de abuso concluindo esseformulário. Saiba mais sobre como solicitar o monitoramento de abuso modificado no acesso limitado ao Azure OpenAI.

Observação

Quando o monitoramento de abuso é modificado e a revisão humana não é executada, a detecção de possíveis abusos pode ser menos precisa. Os clientes são notificados sobre a possível detecção de abuso, conforme descrito acima, e deverão estar preparados para responder a essa notificação para evitar a interrupção do serviço, se possível.

Próximas etapas

Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.
Saiba mais sobre como entender e mitigar riscos associados ao seu aplicativo: Visão geral das práticas de IA responsável para modelos do OpenAI do Azure.
Saiba mais sobre como os dados são processados no monitoramento de filtragem de conteúdo e abuso: dados, privacidade e segurança para o Azure OpenAI.

Compartilhar via

Monitoramento de Abuso

Componentes do monitoramento de abuso

Monitoramento de abuso modificado

Próximas etapas

Comentários

Recursos adicionais