Compartilhar via


Nutriente – Extrair de PDF (versão prévia)

Desbloqueie o texto avançado em PDF e a extração de dados com ações de Extração do Conversor de Documentos de Nutrientes. Recupere perfeitamente texto, dados, extraia pares chave-valor e aproveite a tecnologia OCR para processar documentos verificados. Ideal para indexação, pesquisa, análise de conteúdo e fluxos de trabalho de dados estruturados.

Esse conector está disponível nos seguintes produtos e regiões:

Service Class Regions
Copilot Studio Premium Todas as regiões do Power Automate , exceto as seguintes:
     – Governo dos EUA (GCC)
     – Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Aplicativos Lógicos Standard Todas as regiões dos Aplicativos Lógicos , exceto as seguintes:
     – Regiões do Azure Governamental
     - Regiões do Azure China
     - Departamento de Defesa dos EUA (DoD)
Power Apps Premium Todas as regiões do Power Apps , exceto as seguintes:
     – Governo dos EUA (GCC)
     – Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Power Automate Premium Todas as regiões do Power Automate , exceto as seguintes:
     – Governo dos EUA (GCC)
     – Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Contato
Nome Suporte a nutrientes (anteriormente muhimbi)
URL https://support.nutrient.io/hc/en-us/requests/new
Email support+low-code@nutrient.io
Metadados do conector
Publicador Negociação de Muhimbi como Nutriente
Site https://www.nutrient.io/low-code/
Política de privacidade https://www.nutrient.io/legal/privacy/
Categorias Colaboração; Conteúdo e arquivos

Extrair texto e dados de PDFs

O Conversor de Documentos de Nutrientes permite extrair texto, dados ou páginas específicas de arquivos PDF como parte de fluxos de trabalho automatizados no Power Automate. Você também pode extrair texto de imagens usando o OCR.

Ações disponíveis

Consulte os guias vinculados para obter instruções passo a passo sobre como implementar essas ações em seus fluxos de trabalho.

Pré-requisitos

Para usar o Conversor de Documentos de Nutrientes, você precisa de uma conta gratuita ou de avaliação . Consulte o guia de comparação para entender as diferenças entre esses tipos de conta.

Como começar

Siga as etapas abaixo para começar a usar o conector do Conversor de Documentos de Nutrientes:

Problemas e limitações conhecidos

Documentos protegidos com soluções IRM, DRM, RMS ou AIP não podem ser processados devido a restrições de segurança.

Para obter perguntas ou assistência, entre em contato com nossa equipe de Suporte.

Limitações

Nome Chamadas Período de renovação
Chamadas à API por conexão 100 60 segundos

Ações

Extrair pares de valores de chave de um documento PDF

Identifique e extraia pares chave-valor de documentos para processar formulários ou fluxos de trabalho de dados estruturados.

Extrair texto de um arquivo PDF usando o OCR

Extraia texto de documentos ou imagens digitalizados usando a tecnologia OCR, tornando-os pesquisáveis e editáveis.

Extrair texto de um documento PDF

Recupere o conteúdo de texto de documentos PDF para facilitar a indexação, a pesquisa ou a análise de conteúdo.

Extrair pares de valores de chave de um documento PDF

Identifique e extraia pares chave-valor de documentos para processar formulários ou fluxos de trabalho de dados estruturados.

Parâmetros

Nome Chave Obrigatório Tipo Description
Nome do arquivo de origem
source_file_name True string

Nome do arquivo de origem, incluindo extensão

Conteúdo do arquivo de origem
source_file_content True byte

Conteúdo do arquivo a ser convertido

Idioma OCR
ocr_language string

Os códigos de idioma para extração de OCR e KVP, separados por '+'. Por exemplo, 'eng+deu+fra' adicionaria inglês, alemão e francês.

DPI
dpi enum

Remover as páginas em branco no PDF

Formato de saída do KVP
kvp_format enum

Os formatos de saída separados por vírgulas. Os dados de KVP podem ser gerados em JSON, CSV e XML. e.g. json,csv,xml

Intervalo de Páginas
page_range string

As páginas a serem processadas pelo KVP. Use a cadeia de caracteres '1 - 5' para as páginas 1 a 5 ou use a cadeia de caracteres '1, 5, 6' para especificar as páginas 1 e 5 e 6.

Autorotate
autorotate enum

Definir isso como "Sim" girará automaticamente as páginas se o texto não tiver a orientação correta.

Cortar símbolos
trim_symbols enum

Defini-lo como 'Sim' removerá todos os símbolos do início/fim dos valores, com exceção dos símbolos de hash '#' ou ponto '.'

Incluir caixa delimitadora de chave
include_key_bounding_box enum

Incluir os valores da caixa delimitadora para a chave na saída

Incluir caixa delimitadora de valor
include_value_bounding_box enum

Incluir os valores da caixa delimitadora para o valor na saída

Incluir Número de Página
include_page_number enum

Incluir o número da página para o par de valores de chave na saída

Incluir Confiança
include_confidence enum

Inclua a pontuação de confiança para o par de valor de chave na saída. A confiança é medida entre 0 (sem confiança) e 100 (confiança total).

Limite de confiança
confidence_threshold integer

O limite de confiança que um par de valores de chave deve alcançar para ser incluído na saída. Os resultados abaixo do limite são descartados.

Incluir Tipo
include_type enum

Incluir o tipo de dados para o par de valores de chave na saída

Chaves esperadas
expected_keys string

A cadeia de caracteres JSON que contém as chaves e sinônimos esperados

Falha por erro
fail_on_error boolean

Falha por erro

Retornos

Dados de resposta para todas as operações

Extrair texto de um arquivo PDF usando o OCR

Extraia texto de documentos ou imagens digitalizados usando a tecnologia OCR, tornando-os pesquisáveis e editáveis.

Parâmetros

Nome Chave Obrigatório Tipo Description
Nome do arquivo de origem
source_file_name True string

Nome do arquivo de origem, incluindo extensão

Conteúdo do arquivo de origem
source_file_content True byte

Conteúdo do arquivo para OCR

Linguagem
language enum

Linguagem

Coordenada X
x string

Coordenada X (em Pts, 1/72 de polegada)

Coordenada Y
y string

Coordenada Y (em Pts, 1/72 de polegada)

Largura
width string

Largura da área do OCR (em Pts, 1/72 de polegada)

Altura
height string

Altura da área do OCR (em Pts, 1/72 de polegada)

Número da página
page_number string

Número da página (deixe em branco para o OCR todas as páginas)

Performance
performance enum

Desempenho ()

Lista negra/lista de permissões
characters_option enum

Opção caracteres

Caracteres
characters string

Caracteres para lista negra ou lista de permissões

Usar paginação
paginate boolean

Paginar

Falha por erro
fail_on_error boolean

Falha por erro

Retornos

Dados de resposta para a operação OCRText

Extrair texto de um documento PDF

Recupere o conteúdo de texto de documentos PDF para facilitar a indexação, a pesquisa ou a análise de conteúdo.

Parâmetros

Nome Chave Obrigatório Tipo Description
Nome do arquivo de origem
source_file_name True string

Nome do arquivo de origem, incluindo extensão

Conteúdo do arquivo de origem
source_file_content True byte

Conteúdo do arquivo a ser convertido

Intervalo de Páginas
page_range string

O intervalo de páginas do qual extrair texto, por exemplo, 1,5,8-12

Falha por erro
fail_on_error boolean

Falha por erro

Retornos

Dados de resposta para todas as operações

Definições

ocr_operation_response

Dados de resposta para a operação OCRText

Nome Caminho Tipo Description
Texto de saída
out_text string

Texto OCRed extraído em texto sem formatação.

Nome do arquivo base
base_file_name string

Nome do arquivo de entrada sem a extensão.

Código de resultado
result_code enum

Código de resultado da operação.

Detalhes do resultado
result_details string

Detalhes do resultado da operação.

operation_response

Dados de resposta para todas as operações

Nome Caminho Tipo Description
Conteúdo do arquivo processado
processed_file_content byte

Arquivo gerado pelo conversor Muhimbi.

Nome do arquivo base
base_file_name string

Nome do arquivo de entrada sem a extensão.

Código de resultado
result_code enum

Código de resultado da operação.

Detalhes do resultado
result_details string

Detalhes do resultado da operação.