Nutriente – Extrair de PDF (versão prévia)
Desbloqueie o texto avançado em PDF e a extração de dados com ações de Extração do Conversor de Documentos de Nutrientes. Recupere perfeitamente texto, dados, extraia pares chave-valor e aproveite a tecnologia OCR para processar documentos verificados. Ideal para indexação, pesquisa, análise de conteúdo e fluxos de trabalho de dados estruturados.
Esse conector está disponível nos seguintes produtos e regiões:
| Service | Class | Regions |
|---|---|---|
| Copilot Studio | Premium | Todas as regiões do Power Automate , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Aplicativos Lógicos | Standard | Todas as regiões dos Aplicativos Lógicos , exceto as seguintes: – Regiões do Azure Governamental - Regiões do Azure China - Departamento de Defesa dos EUA (DoD) |
| Power Apps | Premium | Todas as regiões do Power Apps , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Power Automate | Premium | Todas as regiões do Power Automate , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Contato | |
|---|---|
| Nome | Suporte a nutrientes (anteriormente muhimbi) |
| URL | https://support.nutrient.io/hc/en-us/requests/new |
| support+low-code@nutrient.io |
| Metadados do conector | |
|---|---|
| Publicador | Negociação de Muhimbi como Nutriente |
| Site | https://www.nutrient.io/low-code/ |
| Política de privacidade | https://www.nutrient.io/legal/privacy/ |
| Categorias | Colaboração; Conteúdo e arquivos |
Extrair texto e dados de PDFs
O Conversor de Documentos de Nutrientes permite extrair texto, dados ou páginas específicas de arquivos PDF como parte de fluxos de trabalho automatizados no Power Automate. Você também pode extrair texto de imagens usando o OCR.
Ações disponíveis
- Extrair pares chave-valor
- Extrair texto usando o OCR
- Extrair dados de PDFs
- Extrair páginas PDF
- Extrair texto de imagens
- Extrair texto de PDFs usando o Power Automate
Consulte os guias vinculados para obter instruções passo a passo sobre como implementar essas ações em seus fluxos de trabalho.
Pré-requisitos
Para usar o Conversor de Documentos de Nutrientes, você precisa de uma conta gratuita ou de avaliação . Consulte o guia de comparação para entender as diferenças entre esses tipos de conta.
Como começar
Siga as etapas abaixo para começar a usar o conector do Conversor de Documentos de Nutrientes:
- Inscreva-se para uma avaliação de 30 dias preenchendo este formulário.
- Depois de enviar o formulário, você receberá um email com os detalhes da ativação de avaliação.
- Consulte o vídeo de introdução para obter um passo a passo do processo.
- Leia o guia do Conversor de Documentos para Power Automate para obter instruções detalhadas.
- Explore os tutoriais do Power Automate e dos Aplicativos Lógicos para obter exemplos práticos.
Problemas e limitações conhecidos
Documentos protegidos com soluções IRM, DRM, RMS ou AIP não podem ser processados devido a restrições de segurança.
Para obter perguntas ou assistência, entre em contato com nossa equipe de Suporte.
Limitações
| Nome | Chamadas | Período de renovação |
|---|---|---|
| Chamadas à API por conexão | 100 | 60 segundos |
Ações
| Extrair pares de valores de chave de um documento PDF |
Identifique e extraia pares chave-valor de documentos para processar formulários ou fluxos de trabalho de dados estruturados. |
| Extrair texto de um arquivo PDF usando o OCR |
Extraia texto de documentos ou imagens digitalizados usando a tecnologia OCR, tornando-os pesquisáveis e editáveis. |
| Extrair texto de um documento PDF |
Recupere o conteúdo de texto de documentos PDF para facilitar a indexação, a pesquisa ou a análise de conteúdo. |
Extrair pares de valores de chave de um documento PDF
Identifique e extraia pares chave-valor de documentos para processar formulários ou fluxos de trabalho de dados estruturados.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
Nome do arquivo de origem
|
source_file_name | True | string |
Nome do arquivo de origem, incluindo extensão |
|
Conteúdo do arquivo de origem
|
source_file_content | True | byte |
Conteúdo do arquivo a ser convertido |
|
Idioma OCR
|
ocr_language | string |
Os códigos de idioma para extração de OCR e KVP, separados por '+'. Por exemplo, 'eng+deu+fra' adicionaria inglês, alemão e francês. |
|
|
DPI
|
dpi | enum |
Remover as páginas em branco no PDF |
|
|
Formato de saída do KVP
|
kvp_format | enum |
Os formatos de saída separados por vírgulas. Os dados de KVP podem ser gerados em JSON, CSV e XML. e.g. json,csv,xml |
|
|
Intervalo de Páginas
|
page_range | string |
As páginas a serem processadas pelo KVP. Use a cadeia de caracteres '1 - 5' para as páginas 1 a 5 ou use a cadeia de caracteres '1, 5, 6' para especificar as páginas 1 e 5 e 6. |
|
|
Autorotate
|
autorotate | enum |
Definir isso como "Sim" girará automaticamente as páginas se o texto não tiver a orientação correta. |
|
|
Cortar símbolos
|
trim_symbols | enum |
Defini-lo como 'Sim' removerá todos os símbolos do início/fim dos valores, com exceção dos símbolos de hash '#' ou ponto '.' |
|
|
Incluir caixa delimitadora de chave
|
include_key_bounding_box | enum |
Incluir os valores da caixa delimitadora para a chave na saída |
|
|
Incluir caixa delimitadora de valor
|
include_value_bounding_box | enum |
Incluir os valores da caixa delimitadora para o valor na saída |
|
|
Incluir Número de Página
|
include_page_number | enum |
Incluir o número da página para o par de valores de chave na saída |
|
|
Incluir Confiança
|
include_confidence | enum |
Inclua a pontuação de confiança para o par de valor de chave na saída. A confiança é medida entre 0 (sem confiança) e 100 (confiança total). |
|
|
Limite de confiança
|
confidence_threshold | integer |
O limite de confiança que um par de valores de chave deve alcançar para ser incluído na saída. Os resultados abaixo do limite são descartados. |
|
|
Incluir Tipo
|
include_type | enum |
Incluir o tipo de dados para o par de valores de chave na saída |
|
|
Chaves esperadas
|
expected_keys | string |
A cadeia de caracteres JSON que contém as chaves e sinônimos esperados |
|
|
Falha por erro
|
fail_on_error | boolean |
Falha por erro |
Retornos
Dados de resposta para todas as operações
- Corpo
- operation_response
Extrair texto de um arquivo PDF usando o OCR
Extraia texto de documentos ou imagens digitalizados usando a tecnologia OCR, tornando-os pesquisáveis e editáveis.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
Nome do arquivo de origem
|
source_file_name | True | string |
Nome do arquivo de origem, incluindo extensão |
|
Conteúdo do arquivo de origem
|
source_file_content | True | byte |
Conteúdo do arquivo para OCR |
|
Linguagem
|
language | enum |
Linguagem |
|
|
Coordenada X
|
x | string |
Coordenada X (em Pts, 1/72 de polegada) |
|
|
Coordenada Y
|
y | string |
Coordenada Y (em Pts, 1/72 de polegada) |
|
|
Largura
|
width | string |
Largura da área do OCR (em Pts, 1/72 de polegada) |
|
|
Altura
|
height | string |
Altura da área do OCR (em Pts, 1/72 de polegada) |
|
|
Número da página
|
page_number | string |
Número da página (deixe em branco para o OCR todas as páginas) |
|
|
Performance
|
performance | enum |
Desempenho () |
|
|
Lista negra/lista de permissões
|
characters_option | enum |
Opção caracteres |
|
|
Caracteres
|
characters | string |
Caracteres para lista negra ou lista de permissões |
|
|
Usar paginação
|
paginate | boolean |
Paginar |
|
|
Falha por erro
|
fail_on_error | boolean |
Falha por erro |
Retornos
Dados de resposta para a operação OCRText
- Corpo
- ocr_operation_response
Extrair texto de um documento PDF
Recupere o conteúdo de texto de documentos PDF para facilitar a indexação, a pesquisa ou a análise de conteúdo.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
Nome do arquivo de origem
|
source_file_name | True | string |
Nome do arquivo de origem, incluindo extensão |
|
Conteúdo do arquivo de origem
|
source_file_content | True | byte |
Conteúdo do arquivo a ser convertido |
|
Intervalo de Páginas
|
page_range | string |
O intervalo de páginas do qual extrair texto, por exemplo, 1,5,8-12 |
|
|
Falha por erro
|
fail_on_error | boolean |
Falha por erro |
Retornos
Dados de resposta para todas as operações
- Corpo
- operation_response
Definições
ocr_operation_response
Dados de resposta para a operação OCRText
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
Texto de saída
|
out_text | string |
Texto OCRed extraído em texto sem formatação. |
|
Nome do arquivo base
|
base_file_name | string |
Nome do arquivo de entrada sem a extensão. |
|
Código de resultado
|
result_code | enum |
Código de resultado da operação. |
|
Detalhes do resultado
|
result_details | string |
Detalhes do resultado da operação. |
operation_response
Dados de resposta para todas as operações
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
Conteúdo do arquivo processado
|
processed_file_content | byte |
Arquivo gerado pelo conversor Muhimbi. |
|
Nome do arquivo base
|
base_file_name | string |
Nome do arquivo de entrada sem a extensão. |
|
Código de resultado
|
result_code | enum |
Código de resultado da operação. |
|
Detalhes do resultado
|
result_details | string |
Detalhes do resultado da operação. |