Modelo de recibo da Informação de Documentos

Esse conteúdo se aplica a:v4.0 (GA) | Versões anteriores:v3.1 (GA)v3.0 (GA)v2.1 (GA)

Esse conteúdo se aplica a:v3.1 (GA) | Última versão:v4.0 (GA) | Versões anteriores:v3.0v2.1

Esse conteúdo se aplica a:v3.0 (GA) | Últimas versões:v4.0 (GA)v3.1 | Versão anterior:v2.1

Esse conteúdo se aplica a:v2.1 | Última versão:v4.0 (GA)

O modelo de recibo da Informação de Documentos combina recursos avançados de OCR (Reconhecimento Óptico de Caracteres) com modelos de aprendizado profundo para analisar e extrair informações importantes dos recibos de vendas. Os recibos podem ser de vários formatos e qualidade, incluindo recibos impressos e manuscritos. A API extrai informações importantes, como o nome do comerciante, o número de telefone do comerciante, a data da transação, o imposto e o total da transação e retorna os dados JSON estruturados. O modelo de recibo v4.0 (GA) dá suporte a outros campos, incluindo ReceiptType, TaxDetails.NetAmount, TaxDetails.Description, TaxDetails.Rate e CountryRegion, juntamente com a extração de tabela de IVA em recibos gerais de hotéis.

Extração de dados de recibo

A digitalização de recibos abrange a transformação de vários tipos de recibos, incluindo cópias digitalizadas, fotografadas e impressas, em um formato digital para processamento downstream simplificado. Os exemplos incluem gerenciamento de despesas, análise de comportamento do consumidor, automação de impostos etc. O uso da Informação de Documentos com a tecnologia OCR (Reconhecimento Óptico de Caracteres) pode extrair e interpretar dados desses diversos formatos de recibo. O processamento da Informação de Documentos simplifica o processo de conversão, mas também reduz significativamente o tempo e o esforço necessários, facilitando assim o gerenciamento e a recuperação de dados eficientes.

Exemplo de recibo processado com o Estúdio da Informação de Documentos:

Exemplo de recibo processado com a ferramenta de Rotulagem de Amostra da Informação de Documentos:

Captura de tela de um exemplo de recibo processado com a ferramenta Rotulagem de Exemplo de Formulários.

Opções de desenvolvimento

Document Intelligence v4.0: 2024-11-30 (GA) oferece suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso	Recursos	ID do modelo
Modelo de recibo	• Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript	prebuilt-receipt

A Informação de Documentos v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso	Recursos	ID do modelo
Modelo de recibo	• Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript	prebuilt-receipt

A Informação de Documentos v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso	Recursos	ID do modelo
Modelo de recibo	• Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript	prebuilt-receipt

O Document Intelligence v2.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso	Recursos
Modelo de recibo	● Ferramenta de rotulagem da Informação de Documentos • API REST • SDK da biblioteca de clientes • Contêiner do Docker da Informação de Documentos

Requisitos de entrada

Os seguintes formatos de arquivo são compatíveis.

Modelo	PDF	Imagem: JPEG/JPG, PNG, BMP, TIFF, HEIF	Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Ler	✔	✔	✔
Layout	✔	✔	✔
Documentação Geral	✔	✔
Predefinido	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔

Fotos e digitalizações: para obter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
PDFs e TIFFs: para PDFs e TIFFs, até 2.000 páginas podem ser processadas. (Com uma assinatura gratuita, somente as duas primeiras páginas são processadas.)
Tamanho do arquivo: o tamanho do arquivo para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
Dimensões da imagem: as dimensões devem estar entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.
Bloqueios de senha: se seus PDFs estiverem bloqueados por senha, remova o bloqueio antes do envio.
Altura do texto: a altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Essa dimensão corresponde a cerca de 8 pontos de texto a 150 dpi.
Treinamento de modelo personalizado: o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Treinamento de modelo de extração personalizada: o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
Treinamento de modelo de classificação personalizada: o tamanho total dos dados de treinamento é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é de 2 GB com um máximo de 10.000 páginas.
Tipos de arquivo do Office (DOCX, XLSX, PPTX): o limite máximo de comprimento de cadeia é de 8 milhões de caracteres.

Formatos de arquivo com suporte: JPEG, PNG, PDF e TIFF.
Permissão de página com suporte para PDF e TIFF, a Informação de Documentos s pode processar até 2.000 mil páginas para assinantes da camada Standard ou apenas as duas primeiras páginas para assinantes da camada gratuita.
Tamanho do arquivo com suporte: inferior a 50 MB; mínimo de pixels 50 x 50 px; máximo de pixels: 10.000 x 10.000 px.

Extração de dados do modelo de recibo

Veja como a Informação de Documentos extrai dados dos recibos, incluindo a hora e a data das transações, as informações do comerciante e os valores totais. Você precisa dos seguintes recursos:

Uma assinatura do Azure: você pode criar uma gratuitamente.
Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.

Captura de tela das chaves e local do ponto de extremidade no portal do Azure.

Observação

O Estúdio da Informação de Documentos está disponível com APIs v3.1 e v3.0 e versões posteriores.

Na home page do Estúdio da Informação de Documentos, selecione Recibos.
Você pode analisar o documento de amostra ou carregar seus próprios arquivos.
Selecione o botão Executar análise e, se necessário, configure as Opções de análise:

Experimente o Estúdio da Informação de Documentos.

Ferramenta de Rotulagem de Amostra da Informação de Documentos

Navegue até a Ferramenta de Exemplo da Informação de Documentos.
Na página inicial da ferramenta de exemplos, selecione o bloco Usar modelo predefinido para obter dados.
Selecione o Tipo de Formulário que deseja analisar no menu suspenso.
Escolha um URL para o arquivo que você gostaria de analisar, usando as opções abaixo:
No campo Origem , selecione URL no menu suspenso, cole a URL selecionada e selecione o botão Buscar.
No campo Ponto de extremidade de serviço da Informação de Documentos, cole o ponto de extremidade obtido com a assinatura da Informação de Documentos.
No campo chave, cole a chave obtida do recurso da Informação de Documentos.
Selecione Executar análise. A ferramenta de rotulagem de exemplo da Informação de Documentos chamará a API predefinida Analisar e analisará o documento.
Veja os resultados: confira os pares chave-valor extraídos, os itens de linha, o texto realçado extraído e as tabelas detectadas.

Observação

A ferramenta de rotulagem de exemplo não dá suporte ao formato de arquivo BMP. Essa é uma limitação da ferramenta, não do Serviço de Inteligência de Documentos.

Idiomas e localidades com suporte

Para obter uma lista completa de idiomas com suporte, consulte nossa página de suporte à linguagem de modelos predefinidos.

Extração de campo

Para campos de extração de documentos suportados, consulte a página esquema do modelo de recibo em nosso repositório de amostra do GitHub

Nome	Tipo	Descrição	Saída padronizada
ReceiptType	String	Tipo de recibo de vendas	Itemizado
MerchantName	String	Nome do comerciante que está emitindo o recibo
MerchantPhoneNumber	phoneNumber	Número de telefone listado do comerciante	+1 xxx xxx xxxx
MerchantAddress	String	Endereço listado do comerciante
Data da transação	Data	Data em que o recibo foi emitido	aaaa-mm-dd
TransactionTime	Hora	Hora em que o recibo foi emitido	hh-mm-ss (24 horas)
Total	Número (USD)	Total de transações completas do recibo	Float com duas casas decimais
Subtotal	Número (USD)	Subtotal do recibo, geralmente antes da aplicação de impostos	Float com duas casas decimais
Imposto	Número (USD)	Imposto total no recibo (geralmente imposto sobre vendas ou equivalente). Renomeado para "TotalTax" na versão 2022-06-30-preview.	Float com duas casas decimais
Dica	Número (USD)	Gorjeta incluída pelo comprador	Float com duas casas decimais
Itens	Matriz de objetos	Itens de linha extraídos, com nome, quantidade, preço unitário e preço total extraído
Nome	String	Descrição do item. Renomeado para "Description" na versão 2022-06-30.
Quantidade	Número	Quantidade de cada item	Float com duas casas decimais
Price	Número	Preço individual de cada unidade de item	Float com duas casas decimais
TotalPrice	Número	Preço total do item de linha	Float com duas casas decimais

Guia de migração e API REST v3.1

Siga nosso Guia de migração da Informação de Documentos v3.1 para saber como usar a versão v3.1 nos seus aplicativos e fluxos de trabalho.

Próximas etapas

Experimente processar seus próprios formulários e documentos com o Estúdio de Informação de Documentos.
Conclua um início rápido da Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.

Confira mais exemplos no GitHub.

Confira mais exemplos no GitHub.

Tente processar seus próprios formulários e documentos com a ferramenta de rotulagem de exemplo da Informação de Documentos.
Conclua um início rápido da Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.

Comentários

Esta página foi útil?

Last updated on 2025-11-18