Partilhar via


Solução de problemas do serviço HSM Dedicado do Azure

O serviço HSM Dedicado do Azure tem duas facetas distintas. Em primeiro lugar, o registro e a implantação no Azure dos dispositivos HSM com seus componentes de rede subjacentes. Em segundo lugar, a configuração dos dispositivos HSM em preparação para uso/integração com uma determinada carga de trabalho ou aplicação. Embora os dispositivos HSM do Thales Luna 7 sejam os mesmos no Azure que você compraria diretamente da Thales, o fato de serem um recurso no Azure cria algumas considerações exclusivas. Essas considerações e quaisquer informações de solução de problemas ou práticas recomendadas resultantes são documentadas aqui para garantir alta visibilidade e acesso a informações críticas. Uma vez que o serviço esteja em uso, as informações definitivas estarão disponíveis por meio de solicitações de suporte para a Microsoft ou diretamente para a Thales.

Nota

Deve-se notar que, antes de executar qualquer configuração em um dispositivo HSM recém-implantado, ele deve ser atualizado com quaisquer patches relevantes. Um patch específico necessário é KB0019789 no portal de suporte da Thales, que resolve um problema em que o sistema deixa de responder durante a reinicialização.

Registro HSM

O HSM dedicado é um recurso valioso que fornece recursos de HSM baremetal no Azure e não está disponível gratuitamente para uso. Para garantir a utilização adequada, empregamos um processo de listagem de permissões para aprovar assinaturas do Azure para integração e implantação. Se pretender prosseguir com a integração para o HSM Dedicado, contacte o seu Gestor de Conta Microsoft para obter mais orientações.

Obter acesso ao HSM dedicado

Primeiro, verifique se seus casos de uso não podem ser abordados pelo Azure Key Vault ou pelo Azure Managed HSM. Se você acredita que apenas o HSM dedicado atende aos seus principais requisitos de armazenamento, entre em contato com seu Gerente de Conta da Microsoft ou com o Suporte ao Cliente da Microsoft para obter mais orientações para solicitar acesso. Descreva seu aplicativo e casos de uso, as regiões que você gostaria de HSMs e o volume de HSMs desejado.

Provisionamento HSM

O provisionamento de um dispositivo HSM no Azure pode ser feito por meio da CLI ou do PowerShell. Quando você se registra para o serviço, um modelo ARM de exemplo é fornecido e assistência é dada para a personalização inicial.

Informações sobre falhas de implantação do HSM

O HSM dedicado suporta CLI e PowerShell para implantação, portanto, as informações de erro baseadas no portal são limitadas e não detalhadas. É possível encontrar melhores informações usando o Explorador de Recursos. A página inicial do portal tem um ícone para isso e informações de erro mais detalhadas estão disponíveis. Essas informações ajudam muito se coladas ao criar uma solicitação de suporte relacionada a problemas de implantação.

Informações sobre falhas

Delegação de sub-rede HSM

O motivo número um para falhas de implantação é esquecer de definir a delegação apropriada para a sub-rede definida pelo cliente na qual os HSMs são provisionados. A configuração dessa delegação faz parte dos pré-requisitos de rede virtual e sub-rede para implantação, e mais detalhes podem ser encontrados nos tutoriais.

Delegação de Sub-rede

Condição da corrida de implantação do HSM

O modelo ARM padrão fornecido para implantação tem recursos relacionados ao HSM e ao gateway da Rota Expressa. Os recursos de rede são uma dependência para uma implantação bem-sucedida do HSM e o tempo pode ser crucial. Ocasionalmente, vemos falhas de implantação relacionadas a problemas de dependência e a execução repetida da implantação geralmente resolve o problema. Caso contrário, a exclusão de recursos e, em seguida, a reimplantação geralmente são bem-sucedidas. Depois de tentar isso e ainda encontrar o problema, levante uma solicitação de suporte no portal do Azure selecionando o tipo de problema de "Problemas ao configurar a configuração do Azure".

Implantação de HSM usando Terraform

Alguns clientes usaram o Terraform como um ambiente de automação em vez dos modelos ARM fornecidos ao se registrar para este serviço. Os HSMs não podem ser implantados dessa forma, mas os recursos de rede dependentes podem. A Terraform tem um módulo para chamar um modelo ARM mínimo que tem apenas a implantação do HSM. Nessa situação, deve-se tomar cuidado para garantir que os recursos de rede, como o gateway de Rota Expressa necessário, sejam totalmente implantados antes de implantar HSMs. O comando CLI a seguir pode ser usado para testar a implantação concluída e integrada conforme necessário. Substitua os espaços reservados entre colchetes angulares para sua nomenclatura específica. Você deve procurar um resultado de "provisioningState is Succeeded"

az resource show --ids /subscriptions/<subid>/resourceGroups/<myresourcegroup>/providers/Microsoft.Network/virtualNetworkGateways/<myergateway>

Falha de implantação com base na cota

O HSM dedicado tem um limite de cota inicial de 2 HSMs por selo e 4 HSMs por região. Como as implantações podem falhar se esses limites forem excedidos, você deve excluir recursos de implantações anteriores com falha antes de tentar novas. Você pode verificar os recursos existentes consultando Como vejo os HSMs quando provisionados. Se você precisar de mais de 4 HSMs em uma única região, envie um tíquete de suporte ao cliente para solicitar um aumento no limite de cota.

Falha de implantação com base na capacidade

Quando um carimbo ou região está se aproximando da capacidade, com a maioria dos HSMs disponíveis provisionados, podem ocorrer falhas de implantação. Cada selo fornece 12 HSMs para uso do cliente, totalizando 24 por região, com duas peças de reposição e um dispositivo de teste por carimbo. Se você suspeitar que atingiu esse limite, envie um tíquete de suporte ao cliente para saber sobre a capacidade disponível na região ou o nível de preenchimento de selos específicos.

Como vejo os HSMs quando provisionados?

Devido ao HSM dedicado ser um serviço permitidolistado, ele é considerado um "Tipo oculto" no portal do Azure. Para ver os recursos do HSM, marque a caixa de seleção "Mostrar tipos ocultos". O recurso NIC sempre segue o HSM e é um bom lugar para descobrir o endereço IP do HSM antes de usar o SSH para se conectar.

Captura de ecrã que realça a verificação Mostrar tipos ocultos

Recursos de rede

A implantação do HSM dedicado depende de recursos de rede e algumas limitações consequentes a serem observadas.

Provisionamento da Rota Expressa

O HSM dedicado usa o gateway ExpressRoute como um "túnel" para comunicação entre o espaço de endereço IP privado do cliente e o HSM físico em um datacenter do Azure. Considerando que há uma restrição de um gateway por rede virtual, os clientes que precisam de conexão com seus recursos locais via Rota Expressa devem usar outra rede virtual para essa conexão.

Endereço IP privado do HSM

Os modelos de exemplo fornecidos para HSM dedicado pressupõem que o IP do HSM é automaticamente retirado de um determinado intervalo de sub-redes. Você pode especificar um endereço IP explícito para o HSM por meio de um atributo "NetworkInterfaces" no modelo ARM.

Captura de tela que mostra o modelo de exemplo para HSM dedicado.

Inicialização do HSM

A inicialização prepara um novo HSM para uso ou um HSM existente para reutilização. A inicialização do HSM deve ser concluída antes que você possa gerar ou armazenar objetos, permitir que os clientes se conectem ou executar operações criptográficas.

Credenciais perdidas

A perda da senha de administrador do Shell resultará na perda do material da chave HSM. Uma solicitação de suporte deve ser feita para redefinir o HSM. Ao inicializar o HSM, armazene as credenciais com segurança. As credenciais Shell e HSM devem ser mantidas de acordo com as políticas da sua empresa.

Logins com falha

Fornecer credenciais incorretas aos HSMs pode ter consequências destrutivas. A seguir estão os comportamentos padrão para funções do HSM.

Role Limiar (# de tentativas) Resultado de muitos sinais ruins nas tentativas Recuperação
HSM SO 3 O HSM está zerado (todas as identidades de objetos HSM e todas as partições desapareceram) O HSM deve ser reinicializado. O conteúdo pode ser restaurado a partir de backups.
Partição SO 10 A partição está zerada. A partição deve ser reinicializada. O conteúdo pode ser restaurado a partir do backup.
Audit 10 Bloqueio Desbloqueado automaticamente após 10 minutos.
Oficial de Criptografia 10 (pode ser diminuído) Se a política HSM 15: Habilitar redefinição de SO do PIN da partição estiver definida como 1 (habilitada), as funções CO e serão bloqueadas.
Se a política de HSM 15: Ativar redefinição de SO do PIN da partição estiver definida como 0 (desabilitada), as funções CO e serão permanentemente bloqueadas e o conteúdo da partição não estará mais acessível. Configuração padrão.
A função CO deve ser desbloqueada e a credencial redefinida pela SO de partição, usando role resetpw -name co.
A partição deve ser reinicializada e o material da chave restaurado a partir de um dispositivo de backup.

Configuração do HSM

Os itens a seguir são situações em que os erros de configuração são comuns ou têm um impacto que vale a pena destacar:

Documentação e software HSM

O software e a documentação para os dispositivos HSM Thales Luna 7 não estão disponíveis na Microsoft e devem ser baixados diretamente da Thales. O registo é necessário utilizando o ID de Cliente Thales recebido durante o processo de registo. Os dispositivos, conforme fornecido pela Microsoft, têm versão de software 7.2 e firmware versão 7.0.3. No início de 2020, a Thales tornou pública a documentação, que pode ser encontrada aqui.

Configuração de rede HSM

Tenha cuidado ao configurar a rede dentro do HSM. O HSM tem uma conexão através do gateway ExpressRoute de um espaço de endereço IP privado do cliente diretamente para o HSM. Este canal de comunicação é apenas para comunicação com o cliente e a Microsoft não tem acesso. Se o HSM estiver configurado de tal forma que esse caminho de rede seja afetado, isso significa que toda a comunicação com o HSM será removida. Nessa situação, a única opção é gerar uma solicitação de suporte da Microsoft por meio do portal do Azure para que o dispositivo seja redefinido. Este procedimento de redefinição define o HSM de volta ao seu estado inicial e toda a configuração e material de chave é perdido. A configuração deve ser recriada e, quando o dispositivo se junta ao grupo HA, o material da chave é replicado.

Reinicialização do dispositivo HSM

Algumas alterações de configuração exigem que o HSM seja ligado ou reinicializado. O teste da Microsoft do HSM no Azure determinou que, em algumas ocasiões, a reinicialização poderia parar de responder. A implicação é que uma solicitação de suporte deve ser criada no portal do Azure solicitando reinicialização forçada e isso pode levar até 48 horas para ser concluído, considerando que é um processo manual em um datacenter do Azure. Para evitar essa situação, certifique-se de implantar o patch de reinicialização disponível diretamente da Thales. Consulte KB0019789 nos downloads do Thales Luna 7 HSM 7.2 para obter um patch recomendado para um problema em que o sistema deixa de responder durante a reinicialização (Nota: você deve se registrar no portal de suporte ao cliente da Thales para fazer o download.)

Certificados NTLS fora de sincronia

Um cliente pode perder a conectividade com um HSM quando um certificado expira ou foi substituído por meio de atualizações de configuração. A configuração do cliente de troca de certificados deve ser reaplicada com cada HSM. Exemplo de registo NTLS com certificado inválido:

NTLS[8508]: info : 0 : Solicitação de conexão de entrada... : 192.168.50.2/59415 NTLS[8508]: Mensagem de erro de SSLAccept é: error:14094418:SSL routines:ssl3_read_bytes:tlsv1 alert unknown ca NTLS[8508]: Error during SSL accept ( RC_SSL_ERROR ) NTLS[8508]: info : 0xc0000711 : Falha ao estabelecer um canal seguro com o cliente : 192.168.50.2/59415 : RC_SSL_FAILED_HANDSHAKE NTLS[8508]: info : 0 : Cliente NTLS "Nome de host desconhecido" Instância de conexão removida : 192.168.50.2/59415

Falha na comunicação TCP

A comunicação da instalação do Luna Client para o HSM requer no mínimo a porta TCP 1792. Considere isso como quaisquer configurações de rede são alteradas no ambiente.

Membro do grupo HA com falha não se recupera

Se um membro do Grupo HA com falha não se recuperar, ele deverá ser recuperado manualmente do cliente Luna usando o comando hagroup recover. É necessário configurar uma contagem de tentativas para um grupo de HA para habilitar a recuperação automática. Por padrão, um grupo de HA não tentará recuperar um membro de HA no grupo quando ele se recuperar.

O grupo HA não sincroniza

No caso em que as partições membro não têm o mesmo domínio de clonagem, o comando ha synchronize exibirá o seguinte: Aviso: A sincronização pode falhar. Os membros no slot 0 e no slot 1 têm configurações conflitantes para clonagem de chave privada. Uma nova partição com o domínio de clonagem correto deve ser adicionada ao grupo HA, seguida pela remoção da partição configurada incorretamente.

Desprovisionamento de HSM

Somente quando estiver totalmente concluído com um HSM ele poderá ser desprovisionado e, em seguida, a Microsoft irá redefini-lo e devolvê-lo a um pool gratuito.

Como excluir um recurso HSM

NÃO EXCLUA diretamente o Grupo de Recursos do HSM Dedicado. Ele não excluirá o recurso HSM, você continuará a ser cobrado, pois coloca o HSM em um estado órfão. Se não seguiu os procedimentos corretos e acabar nessa situação, entre em contato com o Suporte da Microsoft.

Passo 1: Zerar o HSM. O recurso do Azure para um HSM não pode ser excluído, a menos que o HSM esteja em um estado "zerado". Portanto, todo o material chave deve ter sido excluído antes de tentar excluí-lo como um recurso. A maneira mais rápida de zerar é obter a senha de administrador do HSM errada 3 vezes (observação: isso se refere ao administrador do HSM e não ao administrador do nível do aparelho). Use o comando 'hsm login' e digite a senha errada três vezes. O shell Luna tem um comando hsm -factoryreset que zera o HSM, mas só pode ser executado via console na porta serial e os clientes não têm acesso a isso.

Etapa 2: Depois que o HSM estiver zerado, você poderá usar um dos seguintes comandos para iniciar o recurso Excluir HSM Dedicado

Azure CLI: az dedicated-hsm delete --resource-group <RG name> –-name <HSM name>
Azure PowerShell: Remove-AzDedicatedHsm -Name <HSM name> -ResourceGroupName <RG name>

Etapa 3: Quando a Etapa 2 for bem-sucedida, você poderá excluir o grupo de recursos para excluir os outros recursos associados ao HSM dedicado usando a CLI do Azure ou o Azure PowerShell.

Azure CLI: az group delete --name <RG name>
Azure PowerShell: Remove-AzResourceGroup -Name <RG name>

Próximos passos

Este artigo forneceu informações sobre áreas em todo o ciclo de vida de implantação do HSM que podem ter problemas ou exigir solução de problemas ou consideração cuidadosa. Espero que este artigo o ajude a evitar atrasos e frustrações desnecessários e, se tiver adições ou alterações relevantes, levante um pedido de suporte junto da Microsoft e informe-nos.