Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo descreve como usar a atividade de cópia em um pipeline para copiar dados de e para o Banco de Dados do Azure para PostgreSQL.
Configuração com suporte
Para a configuração de cada guia em atividade Copy, vá para as seções a seguir, respectivamente.
Geral
Veja as diretrizes de Configurações Geraispara definir a guia Configurações Gerais.
Fonte
Acesse a guia Origem para configurar a origem da atividade Copy. Consulte o conteúdo a seguir para obter a configuração detalhada.
As seguintes propriedades são obrigatórias:
Conexão: selecione uma conexão do Banco de Dados do Azure para PostgreSQL na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão do Banco de Dados do Azure para PostgreSQL.
Usar consulta: selecioneTabela para ler dados da tabela especificada ou selecione Consulta para ler dados usando consultas.
Se você selecionar Tabela:
Tabela: selecione a tabela na lista suspensa ou selecione Inserir manualmente para inseri-la manualmente para ler dados.
Se você selecionar Consulta:
Consulta: Especifique a consulta SQL personalizada para ler os dados. Por exemplo:
SELECT * FROM mytableouSELECT * FROM "MyTable".Nota
No PostgreSQL o nome da entidade não diferencia maiúsculas de minúsculas se não estiver entre aspas.
Versão: a versão especificada. É recomendável atualizar para a versão mais recente para aproveitar os aprimoramentos mais recentes. Quando você seleciona a versão 2.0, o conector usa o modo SSL requerido ao criptografar a conexão. Para obter mais detalhes sobre o modo SSL, acesse este artigo.
Em Avançado, você pode especificar os seguintes campos:
tempo limite de consulta (minutos): especifique o tempo de espera antes de encerrar a tentativa de executar um comando e gerar um erro, o padrão é 120 minutos. Se o parâmetro for definido para essa propriedade, os valores permitidos serão intervalos de tempo, como "02:00:00" (120 minutos). Para obter mais informações, consulte CommandTimeout.
Opção de Partição: Especifica as opções de particionamento de dados usadas para carregar dados do Azure Database for PostgreSQL. Quando uma opção de partição está habilitada (ou seja, não é Nenhum), o grau de paralelismo para carregar dados simultaneamente de um Banco de Dados do Azure para PostgreSQL é controlado pelo Grau de paralelismo de cópia na guia de configurações da atividade Copy.
Se você selecionar Nenhum, você optará por não usar a partição.
Caso selecione Partições físicas da tabela:
nomes de partição: especifique a lista de partições físicas que precisam ser copiadas.
Se você usar uma consulta para recuperar os dados de origem, conecte
?AdfTabularPartitionNamena cláusula WHERE. Para ver um exemplo, confira a seção Cópia paralela do Banco de Dados do Azure para PostgreSQL.
Caso selecione intervalo dinâmico:
Nome da coluna de partição: especifique o nome da coluna de origem no tipo inteiro ou data/data e hora (
int,smallint,bigint,date,timestamp without time zone,timestamp with time zoneoutime without time zone) que será usado pelo particionamento de intervalos da cópia paralela. Se não for especificado, a chave primária da tabela será detectada automaticamente e usada como a coluna de partição.Se você usar uma consulta para recuperar os dados de origem, conecte
?AdfRangePartitionColumnNamena cláusula WHERE. Para ver um exemplo, confira a seção Cópia paralela do Banco de Dados do Azure para PostgreSQL.Limite superior da partição: especifique o valor máximo da coluna de partição para copiar dados para fora.
Se você usar uma consulta para recuperar os dados de origem, conecte
?AdfRangePartitionUpboundna cláusula WHERE. Para ver um exemplo, confira a seção Cópia paralela do Banco de Dados do Azure para PostgreSQL. .Limite inferior de partição: especifique o valor mínimo da coluna de partição para copiar os dados para fora.
Se você usar uma consulta para recuperar os dados de origem, conecte
?AdfRangePartitionLowboundna cláusula WHERE. Para ver um exemplo, confira a seção Cópia paralela do Banco de Dados do Azure para PostgreSQL.
Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último.
Destino
Vá para a aba Destino para configurar o destino da atividade de cópia. Consulte o conteúdo a seguir para obter a configuração detalhada.
As seguintes propriedades são obrigatórias:
Conexão: selecione uma conexão do Banco de Dados do Azure para PostgreSQL na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão do Banco de Dados do Azure para PostgreSQL.
Tabela: selecione a tabela na lista suspensa ou selecione Inserir manualmente para inseri-la para gravar dados.
Versão: a versão especificada. É recomendável atualizar para a versão mais recente para aproveitar os aprimoramentos mais recentes. Quando você seleciona a versão 2.0, o conector usa o modo SSL requerido ao criptografar a conexão. Para obter mais detalhes sobre o modo SSL, acesse este artigo.
Em Avançado, você pode especificar os seguintes campos:
método write: selecione o método usado para gravar dados no Banco de Dados do Azure para PostgreSQL. Selecione no comando Copiar (padrão, que é mais performante), inserção em massa e Upsert (para a versão 2.0).
-
Upsert: escolha essa opção se os dados de origem tiverem inserções e atualizações.
-
Colunas de chave: escolha qual coluna é usada para determinar se uma linha da origem corresponde a uma linha do destino.
-
Colunas de chave: escolha qual coluna é usada para determinar se uma linha da origem corresponde a uma linha do destino.
-
Upsert: escolha essa opção se os dados de origem tiverem inserções e atualizações.
script de pré-cópia: especifique uma consulta SQL para a atividade de cópia a ser executada antes de gravar dados no Banco de Dados do Azure para PostgreSQL em cada execução. Você pode usar essa propriedade para limpar os dados pré-carregados.
Tempo limite do lote de gravação: Especifique o tempo de espera para que a operação de inserção em lote termine antes de atingir o tempo limite. O valor permitido é timespan. O valor padrão é 00:30:00 (30 minutos).
Tamanho do lote de gravação: especifique o número de linhas carregadas no Banco de Dados do Azure para PostgreSQL por lote. O valor permitido é um inteiro que representa o número de linhas. O valor padrão é 1.000.000.
Mapeamento
Para a configuração da guia Mapeamento, acesse Configurar seus mapeamentos na guia mapeamento.
Configurações
Para configuração da guia Configurações, acesse Definir suas outras configurações na guia configurações.
Cópia paralela do Banco de Dados do Azure para PostgreSQL
O conector do Banco de Dados PostgreSQL do Azure na atividade Copy fornece particionamento de dados interno para copiar dados em paralelo. Você pode encontrar opções de particionamento de dados na guia Origem da atividade de cópia.
Quando você habilita a cópia particionada, a atividade Copy executa consultas paralelas com relação à origem do Banco de Dados PostgreSQL do Azure para carregar dados por partições. O grau paralelo é controlado pelo Grau de paralelismo de cópia na guia configurações de atividade de cópia. Por exemplo, se você definir Grau de paralelismo de cópia para quatro, o serviço gerará e executará simultaneamente quatro consultas com base na opção de partição e nas configurações especificadas e cada consulta recuperará uma parte dos dados do Banco de Dados do Azure para PostgreSQL.
Recomenda-se que você ative a cópia paralela com particionamento de dados, especialmente quando carregar um grande volume de dados do seu Banco de Dados do Azure para PostgreSQL. Veja a seguir as configurações sugeridas para cenários diferentes. Ao copiar dados para o armazenamento de dados baseado em arquivo, é recomendável gravar em uma pasta como vários arquivos (especificar apenas o nome da pasta), nesse caso, o desempenho é melhor do que gravar em um único arquivo.
| Cenário | Configurações sugeridas |
|---|---|
| Carregamento completo de uma tabela grande com partições físicas. |
Opção de partição: partições físicas da tabela. Durante a execução, o serviço detecta automaticamente as partições físicas e copia dados por partições. |
| Carga completa de uma tabela grande, sem partições físicas, porém com uma coluna de tipo inteiro para o particionamento de dados. |
opções de partição: intervalo dinâmico. coluna de partição: especifique a coluna usada para particionar dados. Se não for especificada, a coluna de chave primária será usada. |
| Carregue uma grande quantidade de dados usando uma consulta personalizada, com partições físicas. |
Opção de partição: partições físicas da tabela. Consulta: SELECT * FROM ?AdfTabularPartitionName WHERE <your_additional_where_clause>.nome da partição: especifique os nomes de partição dos quais copiar dados. Se não for especificado, o serviço detectará automaticamente as partições físicas na tabela especificada no conjunto de dados PostgreSQL. Durante a execução, o serviço substitui ?AdfTabularPartitionName pelo nome da partição real e envia ao Banco de Dados do Azure para PostgreSQL. |
| Carregue uma grande quantidade de dados usando uma consulta personalizada, sem partições físicas, com uma coluna de inteiro para o particionamento de dados. |
opções de partição: intervalo dinâmico. Consulta: SELECT * FROM ?AdfTabularPartitionName WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>.coluna de partição: especifique a coluna usada para particionar dados. Você pode particionar em relação à coluna com tipo de dados inteiro ou data/datetime. Limite superior da partição e Limite inferior da partição: especifique se quiser filtrar a coluna de partição para recuperar dados somente entre os intervalos inferior e superior. Durante a execução, o serviço substitui ?AdfRangePartitionColumnName, ?AdfRangePartitionUpbounde ?AdfRangePartitionLowbound pelos intervalos reais de nome e valor de coluna para cada partição e envia ao Banco de Dados do Azure para PostgreSQL. Por exemplo, se a coluna de partição "ID" for definida com o limite inferior como 1 e o limite superior como 80, com a cópia paralela definida como 4, o serviço recuperará dados por 4 partições. Suas IDs estão entre [1,20], [21, 40], [41, 60] e [61, 80], respectivamente. |
Práticas recomendadas para carregar dados com a opção de partição:
- Escolha coluna distinta como coluna de partição (como chave primária ou chave exclusiva) para evitar distorção de dados.
- Se a tabela tiver partição interna, use a opção de partição "Partições físicas da tabela" para obter um melhor desempenho.
Resumo da tabela
A tabela a seguir contém mais informações sobre a atividade de cópia no Banco de Dados do Azure para PostgreSQL.
Informações de origem
| Nome | Descrição | Valor | Necessário | Propriedade de script JSON |
|---|---|---|---|---|
| Conexão | Sua conexão com o repositório de dados de origem. | < sua conexão do Banco de Dados PostgreSQL do Azure > | Sim | conexão |
| Usar consulta | A maneira de ler dados. Aplique Tabela para fazer a leitura dos dados da tabela especificada ou aplicar Consulta para fazer a leitura dos dados usando consultas. | • Tabela • Consulta |
Sim | • typeProperties (em typeProperties ->source)-esquema - mesa • consulta |
| Versão | A versão que você especifica. É recomendável atualizar para a versão mais recente para aproveitar os aprimoramentos mais recentes. Quando você seleciona a versão 2.0, o conector usa o modo SSL requerido ao criptografar a conexão. Para obter mais detalhes sobre o modo SSL, acesse este artigo. | • 2.0 • 1.0 |
Sim | Versão: • 2.0 • 1.0 |
| tempo limite de consulta (minutos) | O tempo de espera antes de encerrar a tentativa de executar um comando e gerar um erro, o padrão é de 120 minutos. Se o parâmetro for definido para essa propriedade, os valores permitidos serão intervalos de tempo, como "02:00:00" (120 minutos). Para obter mais informações, consulte CommandTimeout. | intervalo de tempo | Não | tempo limite de consulta |
| Nomes de partição | A lista de partições físicas que precisam ser copiadas. Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfTabularPartitionName na cláusula WHERE. |
< seus nomes de partição > | Não | partitionNames |
| Nome da coluna de partição | O nome da coluna de origem no tipo inteiro ou data/datetime (int, smallint, bigint, date, timestamp without time zone, timestamp with time zone ou time without time zone) que será usado pelo particionamento de intervalo para cópia paralela. Se não for especificado, a chave primária da tabela será detectada automaticamente e usada como a coluna de partição. |
< seus nomes de colunas de partição > | Não | NomeDaColunaDePartição |
| Limite superior da partição | O valor máximo da coluna de partição para exportar dados. Se utilizar uma consulta para recuperar os dados de origem, insira ?AdfRangePartitionUpbound na cláusula WHERE. |
< limite superior da sua partição > | Não | limite superior da partição |
| Limite inferior de partição | O valor mínimo da coluna de partição para copiar dados para fora. Se você usar uma consulta para recuperar os dados de origem, insira ?AdfRangePartitionLowbound na cláusula WHERE. |
< limite inferior da sua partição > | Não | partitionLowerBound |
| Colunas Adicionais | Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último. | •Nome • Valor |
Não | colunas adicionais •nome •valor |
Informações de destino
| Nome | Descrição | Valor | Necessário | Propriedade de script JSON |
|---|---|---|---|---|
| Conexão | Sua conexão com o armazenamento de dados de destino. | < sua conexão do Banco de Dados PostgreSQL do Azure > | Sim | conexão |
| Tabela | Sua tabela de dados de destino para gravar dados. | < nome da tabela de destino > | Sim | typeProperties (em typeProperties ->sink):-esquema - mesa |
| Versão | A versão que você especifica. É recomendável atualizar para a versão mais recente para aproveitar os aprimoramentos mais recentes. Quando você seleciona a versão 2.0, o conector usa o modo SSL requerido ao criptografar a conexão. Para obter mais detalhes sobre o modo SSL, acesse este artigo. | • 2.0 • 1.0 |
Sim | Versão: • 2.0 • 1.0 |
| Método de gravação | O método usado para gravar dados no Banco de Dados do Azure para PostgreSQL. | • Comando copiar (padrão) • Inserção em massa • Upsert (para a versão 2.0) |
Não | writeMethod: • CopyCommand • BulkInsert • Inserir ou atualizar |
| colunas chave | Escolha qual coluna é usada para determinar se uma linha da origem corresponde a uma linha do destino. | < sua coluna chave> | Não | chaves |
| Script pré-cópia | Uma consulta SQL para a atividade de cópia a ser executada antes de gravar dados no Banco de Dados do Azure para PostgreSQL em cada execução. Você pode usar essa propriedade para limpar os dados pré-carregados. | < seu script de pré-cópia > | Não | preCopyScript |
| Tempo limite do lote de gravação | O tempo de espera para o lote inserir operação seja concluída antes de expirar. | intervalo de tempo (o padrão é 00:30:00 - 30 minutos) |
Não | writeBatchTimeout |
| Tamanho do lote de gravação | O número de linhas carregadas no Banco de Dados do Azure para PostgreSQL por lote. | inteiro (o padrão é 1.000.000) |
Não | writeBatchSize |