Mitigar danos potenciais

Concluído

Depois de determinar uma linha de base e uma maneira de medir a saída prejudicial gerada por uma solução, você pode tomar medidas para mitigar os danos potenciais e, quando apropriado, testar novamente o sistema modificado e comparar os níveis de dano com a linha de base.

A mitigação de danos potenciais em uma solução de IA generativa envolve uma abordagem em camadas, na qual as técnicas de mitigação podem ser aplicadas em cada uma das quatro camadas, como mostrado aqui:

Diagrama mostrando o modelo, sistema de segurança, aplicação e camadas de posicionamento de uma solução de IA generativa.

  1. Modelo
  2. Sistema de Segurança
  3. Mensagem do sistema e aterramento
  4. Experiência do utilizador

1: A camada modelo

A camada de modelo consiste em um ou mais modelos de IA generativa no centro da sua solução. Por exemplo, sua solução pode ser construída em torno de um modelo como GPT-4.

As atenuações que você pode aplicar na camada do modelo incluem:

  • Selecionar um modelo apropriado para o uso da solução pretendida. Por exemplo, enquanto o GPT-4 pode ser um modelo poderoso e versátil, em uma solução que é necessária apenas para classificar pequenas entradas de texto específicas, um modelo mais simples pode fornecer a funcionalidade necessária com menor risco de geração de conteúdo prejudicial.
  • O ajuste fino de um modelo basal com os seus próprios dados de treino para que as respostas geradas tenham maior probabilidade de serem relevantes e estejam alinhadas com o cenário da solução.

2: A camada de do sistema de segurança

A camada do sistema de segurança inclui configurações e recursos no nível da plataforma que ajudam a mitigar danos. Por exemplo, o Azure AI Foundry inclui suporte para filtros de conteúdo que aplicam critérios para suprimir prompts e respostas com base na classificação do conteúdo em quatro níveis de gravidade (seguro, baixo, médio e alto) para quatro categorias de dano potencial (ódio, sexual , violência, e automutilação).

Outras mitigações da camada do sistema de segurança podem incluir algoritmos de deteção de abuso para determinar se a solução está sendo sistematicamente abusada (por exemplo, por meio de grandes volumes de solicitações automatizadas de um bot) e notificações de alerta que permitem uma resposta rápida a possíveis abusos do sistema ou comportamento prejudicial.

3: A mensagem do sistema e a camada de aterramento

Essa camada se concentra na construção de prompts que são enviados ao modelo. As técnicas de mitigação de danos que você pode aplicar nesta camada incluem:

  • Especificação de entradas do sistema que definem parâmetros comportamentais para o modelo.
  • Aplicação de engenharia de prompt para adicionar dados de suporte aos prompts de entrada, maximizando a probabilidade de uma saída relevante e não prejudicial.
  • Usar uma abordagem de geração aumentada por recuperação (RAG) para recuperar dados contextuais de fontes confiáveis e incluí-los em prompts.

4: A camada de experiência de utilizador

A camada de experiência do usuário inclui o aplicativo de software através do qual os usuários interagem com o modelo de IA generativa e documentação ou outro material de apoio do usuário que descreve o uso da solução para seus usuários e partes interessadas.

Projetar a interface do usuário do aplicativo para restringir as entradas a assuntos ou tipos específicos, ou aplicar a validação de entrada e saída pode reduzir o risco de respostas potencialmente prejudiciais.

A documentação e outras descrições de uma solução de IA generativa devem ser adequadamente transparentes sobre as capacidades e limitações do sistema, os modelos nos quais ele se baseia e quaisquer danos potenciais que nem sempre podem ser abordados pelas medidas de mitigação que você implementou.