Configurar o Banco de Dados do Azure para PostgreSQL em uma atividade Copy

Este artigo descreve como usar a atividade de cópia em um pipeline para copiar dados de e para o Banco de Dados do Azure para PostgreSQL.

Configuração com suporte

Para a configuração de cada guia em atividade Copy, vá para as seções a seguir, respectivamente.

Geral
Origem
Destino
Mapeamento
Configurações

Geral

Veja as diretrizes de Configurações Geraispara definir a guia Configurações Gerais.

Fonte

Acesse a guia Origem para configurar a origem da atividade Copy. Consulte o conteúdo a seguir para obter a configuração detalhada.

Captura de tela mostrando a guia origem e a lista de propriedades.

As seguintes propriedades são obrigatórias:

Conexão: selecione uma conexão do Banco de Dados do Azure para PostgreSQL na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão do Banco de Dados do Azure para PostgreSQL.
Usar consulta: selecioneTabela para ler dados da tabela especificada ou selecione Consulta para ler dados usando consultas.
- Se você selecionar Tabela:
  - Tabela: selecione a tabela na lista suspensa ou selecione Inserir manualmente para inseri-la manualmente para ler dados.
- Se você selecionar Consulta:
  - Consulta: Especifique a consulta SQL personalizada para ler os dados. Por exemplo: SELECT * FROM mytable ou SELECT * FROM "MyTable".
    
    Nota
    
    No PostgreSQL o nome da entidade não diferencia maiúsculas de minúsculas se não estiver entre aspas.
Versão: a versão especificada. É recomendável atualizar para a versão mais recente para aproveitar os aprimoramentos mais recentes. Quando você seleciona a versão 2.0, o conector usa o modo SSL requerido ao criptografar a conexão. Para obter mais detalhes sobre o modo SSL, acesse este artigo.

Em Avançado, você pode especificar os seguintes campos:

tempo limite de consulta (minutos): especifique o tempo de espera antes de encerrar a tentativa de executar um comando e gerar um erro, o padrão é 120 minutos. Se o parâmetro for definido para essa propriedade, os valores permitidos serão intervalos de tempo, como "02:00:00" (120 minutos). Para obter mais informações, consulte CommandTimeout.
Opção de Partição: Especifica as opções de particionamento de dados usadas para carregar dados do Azure Database for PostgreSQL. Quando uma opção de partição está habilitada (ou seja, não é Nenhum), o grau de paralelismo para carregar dados simultaneamente de um Banco de Dados do Azure para PostgreSQL é controlado pelo Grau de paralelismo de cópia na guia de configurações da atividade Copy.

Se você selecionar Nenhum, você optará por não usar a partição.

Caso selecione Partições físicas da tabela:
- nomes de partição: especifique a lista de partições físicas que precisam ser copiadas.
  
  Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfTabularPartitionName na cláusula WHERE. Para ver um exemplo, confira a seção Cópia paralela do Banco de Dados do Azure para PostgreSQL.
Caso selecione intervalo dinâmico:
- Nome da coluna de partição: especifique o nome da coluna de origem no tipo inteiro ou data/data e hora (int, smallint, bigint, date, timestamp without time zone, timestamp with time zone ou time without time zone) que será usado pelo particionamento de intervalos da cópia paralela. Se não for especificado, a chave primária da tabela será detectada automaticamente e usada como a coluna de partição.
  
  Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfRangePartitionColumnName na cláusula WHERE. Para ver um exemplo, confira a seção Cópia paralela do Banco de Dados do Azure para PostgreSQL.
- Limite superior da partição: especifique o valor máximo da coluna de partição para copiar dados para fora.
  
  Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfRangePartitionUpbound na cláusula WHERE. Para ver um exemplo, confira a seção Cópia paralela do Banco de Dados do Azure para PostgreSQL. .
- Limite inferior de partição: especifique o valor mínimo da coluna de partição para copiar os dados para fora.
  
  Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfRangePartitionLowbound na cláusula WHERE. Para ver um exemplo, confira a seção Cópia paralela do Banco de Dados do Azure para PostgreSQL.
Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último.

Destino

Vá para a aba Destino para configurar o destino da atividade de cópia. Consulte o conteúdo a seguir para obter a configuração detalhada.

Captura de tela mostrando a guia destino e a lista de propriedades.

As seguintes propriedades são obrigatórias:

Conexão: selecione uma conexão do Banco de Dados do Azure para PostgreSQL na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão do Banco de Dados do Azure para PostgreSQL.
Tabela: selecione a tabela na lista suspensa ou selecione Inserir manualmente para inseri-la para gravar dados.
Versão: a versão especificada. É recomendável atualizar para a versão mais recente para aproveitar os aprimoramentos mais recentes. Quando você seleciona a versão 2.0, o conector usa o modo SSL requerido ao criptografar a conexão. Para obter mais detalhes sobre o modo SSL, acesse este artigo.

Em Avançado, você pode especificar os seguintes campos:

método write: selecione o método usado para gravar dados no Banco de Dados do Azure para PostgreSQL. Selecione no comando Copiar (padrão, que é mais performante), inserção em massa e Upsert (para a versão 2.0).
- Upsert: escolha essa opção se os dados de origem tiverem inserções e atualizações.
  - Colunas de chave: escolha qual coluna é usada para determinar se uma linha da origem corresponde a uma linha do destino.
script de pré-cópia: especifique uma consulta SQL para a atividade de cópia a ser executada antes de gravar dados no Banco de Dados do Azure para PostgreSQL em cada execução. Você pode usar essa propriedade para limpar os dados pré-carregados.
Tempo limite do lote de gravação: Especifique o tempo de espera para que a operação de inserção em lote termine antes de atingir o tempo limite. O valor permitido é timespan. O valor padrão é 00:30:00 (30 minutos).
Tamanho do lote de gravação: especifique o número de linhas carregadas no Banco de Dados do Azure para PostgreSQL por lote. O valor permitido é um inteiro que representa o número de linhas. O valor padrão é 1.000.000.

Mapeamento

Para a configuração da guia Mapeamento, acesse Configurar seus mapeamentos na guia mapeamento.

Configurações

Para configuração da guia Configurações, acesse Definir suas outras configurações na guia configurações.

Cópia paralela do Banco de Dados do Azure para PostgreSQL

O conector do Banco de Dados PostgreSQL do Azure na atividade Copy fornece particionamento de dados interno para copiar dados em paralelo. Você pode encontrar opções de particionamento de dados na guia Origem da atividade de cópia.

Quando você habilita a cópia particionada, a atividade Copy executa consultas paralelas com relação à origem do Banco de Dados PostgreSQL do Azure para carregar dados por partições. O grau paralelo é controlado pelo Grau de paralelismo de cópia na guia configurações de atividade de cópia. Por exemplo, se você definir Grau de paralelismo de cópia para quatro, o serviço gerará e executará simultaneamente quatro consultas com base na opção de partição e nas configurações especificadas e cada consulta recuperará uma parte dos dados do Banco de Dados do Azure para PostgreSQL.

Recomenda-se que você ative a cópia paralela com particionamento de dados, especialmente quando carregar um grande volume de dados do seu Banco de Dados do Azure para PostgreSQL. Veja a seguir as configurações sugeridas para cenários diferentes. Ao copiar dados para o armazenamento de dados baseado em arquivo, é recomendável gravar em uma pasta como vários arquivos (especificar apenas o nome da pasta), nesse caso, o desempenho é melhor do que gravar em um único arquivo.

Cenário	Configurações sugeridas
Carregamento completo de uma tabela grande com partições físicas.	Opção de partição: partições físicas da tabela. Durante a execução, o serviço detecta automaticamente as partições físicas e copia dados por partições.
Carga completa de uma tabela grande, sem partições físicas, porém com uma coluna de tipo inteiro para o particionamento de dados.	opções de partição: intervalo dinâmico. coluna de partição: especifique a coluna usada para particionar dados. Se não for especificada, a coluna de chave primária será usada.
Carregue uma grande quantidade de dados usando uma consulta personalizada, com partições físicas.	Opção de partição: partições físicas da tabela. Consulta: `SELECT * FROM ?AdfTabularPartitionName WHERE <your_additional_where_clause>`. nome da partição: especifique os nomes de partição dos quais copiar dados. Se não for especificado, o serviço detectará automaticamente as partições físicas na tabela especificada no conjunto de dados PostgreSQL. Durante a execução, o serviço substitui `?AdfTabularPartitionName` pelo nome da partição real e envia ao Banco de Dados do Azure para PostgreSQL.
Carregue uma grande quantidade de dados usando uma consulta personalizada, sem partições físicas, com uma coluna de inteiro para o particionamento de dados.	opções de partição: intervalo dinâmico. Consulta: `SELECT * FROM ?AdfTabularPartitionName WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>`. coluna de partição: especifique a coluna usada para particionar dados. Você pode particionar em relação à coluna com tipo de dados inteiro ou data/datetime. Limite superior da partição e Limite inferior da partição: especifique se quiser filtrar a coluna de partição para recuperar dados somente entre os intervalos inferior e superior. Durante a execução, o serviço substitui `?AdfRangePartitionColumnName`, `?AdfRangePartitionUpbound`e `?AdfRangePartitionLowbound` pelos intervalos reais de nome e valor de coluna para cada partição e envia ao Banco de Dados do Azure para PostgreSQL. Por exemplo, se a coluna de partição "ID" for definida com o limite inferior como 1 e o limite superior como 80, com a cópia paralela definida como 4, o serviço recuperará dados por 4 partições. Suas IDs estão entre [1,20], [21, 40], [41, 60] e [61, 80], respectivamente.

Práticas recomendadas para carregar dados com a opção de partição:

Escolha coluna distinta como coluna de partição (como chave primária ou chave exclusiva) para evitar distorção de dados.
Se a tabela tiver partição interna, use a opção de partição "Partições físicas da tabela" para obter um melhor desempenho.

Resumo da tabela

A tabela a seguir contém mais informações sobre a atividade de cópia no Banco de Dados do Azure para PostgreSQL.

Informações de origem

Nome	Descrição	Valor	Necessário	Propriedade de script JSON
Conexão	Sua conexão com o repositório de dados de origem.	< sua conexão do Banco de Dados PostgreSQL do Azure >	Sim	conexão
Usar consulta	A maneira de ler dados. Aplique Tabela para fazer a leitura dos dados da tabela especificada ou aplicar Consulta para fazer a leitura dos dados usando consultas.	• Tabela • Consulta	Sim	• typeProperties (em `typeProperties` ->`source`) -esquema - mesa • consulta
Versão	A versão que você especifica. É recomendável atualizar para a versão mais recente para aproveitar os aprimoramentos mais recentes. Quando você seleciona a versão 2.0, o conector usa o modo SSL requerido ao criptografar a conexão. Para obter mais detalhes sobre o modo SSL, acesse este artigo.	• 2.0 • 1.0	Sim	Versão: • 2.0 • 1.0
tempo limite de consulta (minutos)	O tempo de espera antes de encerrar a tentativa de executar um comando e gerar um erro, o padrão é de 120 minutos. Se o parâmetro for definido para essa propriedade, os valores permitidos serão intervalos de tempo, como "02:00:00" (120 minutos). Para obter mais informações, consulte CommandTimeout.	intervalo de tempo	Não	tempo limite de consulta
Nomes de partição	A lista de partições físicas que precisam ser copiadas. Se você usar uma consulta para recuperar os dados de origem, conecte `?AdfTabularPartitionName` na cláusula WHERE.	< seus nomes de partição >	Não	partitionNames
Nome da coluna de partição	O nome da coluna de origem no tipo inteiro ou data/datetime (`int`, `smallint`, `bigint`, `date`, `timestamp without time zone`, `timestamp with time zone` ou `time without time zone`) que será usado pelo particionamento de intervalo para cópia paralela. Se não for especificado, a chave primária da tabela será detectada automaticamente e usada como a coluna de partição.	< seus nomes de colunas de partição >	Não	NomeDaColunaDePartição
Limite superior da partição	O valor máximo da coluna de partição para exportar dados. Se utilizar uma consulta para recuperar os dados de origem, insira `?AdfRangePartitionUpbound` na cláusula WHERE.	< limite superior da sua partição >	Não	limite superior da partição
Limite inferior de partição	O valor mínimo da coluna de partição para copiar dados para fora. Se você usar uma consulta para recuperar os dados de origem, insira `?AdfRangePartitionLowbound` na cláusula WHERE.	< limite inferior da sua partição >	Não	partitionLowerBound
Colunas Adicionais	Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último.	•Nome • Valor	Não	colunas adicionais •nome •valor

Informações de destino

Nome	Descrição	Valor	Necessário	Propriedade de script JSON
Conexão	Sua conexão com o armazenamento de dados de destino.	< sua conexão do Banco de Dados PostgreSQL do Azure >	Sim	conexão
Tabela	Sua tabela de dados de destino para gravar dados.	< nome da tabela de destino >	Sim	typeProperties (em `typeProperties` ->`sink`): -esquema - mesa
Versão	A versão que você especifica. É recomendável atualizar para a versão mais recente para aproveitar os aprimoramentos mais recentes. Quando você seleciona a versão 2.0, o conector usa o modo SSL requerido ao criptografar a conexão. Para obter mais detalhes sobre o modo SSL, acesse este artigo.	• 2.0 • 1.0	Sim	Versão: • 2.0 • 1.0
Método de gravação	O método usado para gravar dados no Banco de Dados do Azure para PostgreSQL.	• Comando copiar (padrão) • Inserção em massa • Upsert (para a versão 2.0)	Não	writeMethod: • CopyCommand • BulkInsert • Inserir ou atualizar
colunas chave	Escolha qual coluna é usada para determinar se uma linha da origem corresponde a uma linha do destino.	< sua coluna chave>	Não	chaves
Script pré-cópia	Uma consulta SQL para a atividade de cópia a ser executada antes de gravar dados no Banco de Dados do Azure para PostgreSQL em cada execução. Você pode usar essa propriedade para limpar os dados pré-carregados.	< seu script de pré-cópia >	Não	preCopyScript
Tempo limite do lote de gravação	O tempo de espera para o lote inserir operação seja concluída antes de expirar.	intervalo de tempo (o padrão é 00:30:00 - 30 minutos)	Não	writeBatchTimeout
Tamanho do lote de gravação	O número de linhas carregadas no Banco de Dados do Azure para PostgreSQL por lote.	inteiro (o padrão é 1.000.000)	Não	writeBatchSize

Visão geral do conector do Banco de Dados do Azure para PostgreSQL

Comentários

Esta página foi útil?

Last updated on 2025-05-20