Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Esse conteúdo se aplica a:
v2.1 | Última versão:
v4.0 (GA)
O modelo de recibo da Informação de Documentos combina recursos avançados de OCR (Reconhecimento Óptico de Caracteres) com modelos de aprendizado profundo para analisar e extrair informações importantes dos recibos de vendas. Os recibos podem ser de vários formatos e qualidade, incluindo recibos impressos e manuscritos. A API extrai informações importantes, como o nome do comerciante, o número de telefone do comerciante, a data da transação, o imposto e o total da transação e retorna os dados JSON estruturados. O modelo de recibo v4.0 (GA) dá suporte a outros campos, incluindo ReceiptType, TaxDetails.NetAmount, TaxDetails.Description, TaxDetails.Rate e CountryRegion, juntamente com a extração de tabela de IVA em recibos gerais de hotéis.
Extração de dados de recibo
A digitalização de recibos abrange a transformação de vários tipos de recibos, incluindo cópias digitalizadas, fotografadas e impressas, em um formato digital para processamento downstream simplificado. Os exemplos incluem gerenciamento de despesas, análise de comportamento do consumidor, automação de impostos etc. O uso da Informação de Documentos com a tecnologia OCR (Reconhecimento Óptico de Caracteres) pode extrair e interpretar dados desses diversos formatos de recibo. O processamento da Informação de Documentos simplifica o processo de conversão, mas também reduz significativamente o tempo e o esforço necessários, facilitando assim o gerenciamento e a recuperação de dados eficientes.
Exemplo de recibo processado com o Estúdio da Informação de Documentos:
Exemplo de recibo processado com a ferramenta de Rotulagem de Amostra da Informação de Documentos:
Opções de desenvolvimento
Document Intelligence v4.0: 2024-11-30 (GA) oferece suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos | ID do modelo |
|---|---|---|
| Modelo de recibo | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-receipt |
A Informação de Documentos v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos | ID do modelo |
|---|---|---|
| Modelo de recibo | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-receipt |
A Informação de Documentos v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos | ID do modelo |
|---|---|---|
| Modelo de recibo | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-receipt |
O Document Intelligence v2.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos |
|---|---|
| Modelo de recibo | ● Ferramenta de rotulagem da Informação de Documentos • API REST • SDK da biblioteca de clientes • Contêiner do Docker da Informação de Documentos |
Requisitos de entrada
Os seguintes formatos de arquivo são compatíveis.
| Modelo | Imagem: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Ler | ✔ | ✔ | ✔ |
| Layout | ✔ | ✔ | ✔ |
| Documentação Geral | ✔ | ✔ | |
| Predefinido | ✔ | ✔ | |
| Extração personalizada | ✔ | ✔ | |
| Classificação personalizada | ✔ | ✔ | ✔ |
- Fotos e digitalizações: para obter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
- PDFs e TIFFs: para PDFs e TIFFs, até 2.000 páginas podem ser processadas. (Com uma assinatura gratuita, somente as duas primeiras páginas são processadas.)
- Tamanho do arquivo: o tamanho do arquivo para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
- Dimensões da imagem: as dimensões devem estar entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.
- Bloqueios de senha: se seus PDFs estiverem bloqueados por senha, remova o bloqueio antes do envio.
- Altura do texto: a altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Essa dimensão corresponde a cerca de 8 pontos de texto a 150 dpi.
- Treinamento de modelo personalizado: o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
- Treinamento de modelo de extração personalizada: o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
- Treinamento de modelo de classificação personalizada: o tamanho total dos dados de treinamento é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é de 2 GB com um máximo de 10.000 páginas.
- Tipos de arquivo do Office (DOCX, XLSX, PPTX): o limite máximo de comprimento de cadeia é de 8 milhões de caracteres.
- Formatos de arquivo com suporte: JPEG, PNG, PDF e TIFF.
- Permissão de página com suporte para PDF e TIFF, a Informação de Documentos s pode processar até 2.000 mil páginas para assinantes da camada Standard ou apenas as duas primeiras páginas para assinantes da camada gratuita.
- Tamanho do arquivo com suporte: inferior a 50 MB; mínimo de pixels 50 x 50 px; máximo de pixels: 10.000 x 10.000 px.
Extração de dados do modelo de recibo
Veja como a Informação de Documentos extrai dados dos recibos, incluindo a hora e a data das transações, as informações do comerciante e os valores totais. Você precisa dos seguintes recursos:
Uma assinatura do Azure: você pode criar uma gratuitamente.
Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (
F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.
Observação
O Estúdio da Informação de Documentos está disponível com APIs v3.1 e v3.0 e versões posteriores.
Na home page do Estúdio da Informação de Documentos, selecione Recibos.
Você pode analisar o documento de amostra ou carregar seus próprios arquivos.
Selecione o botão Executar análise e, se necessário, configure as Opções de análise:
Ferramenta de Rotulagem de Amostra da Informação de Documentos
Navegue até a Ferramenta de Exemplo da Informação de Documentos.
Na página inicial da ferramenta de exemplos, selecione o bloco Usar modelo predefinido para obter dados.
Selecione o Tipo de Formulário que deseja analisar no menu suspenso.
Escolha um URL para o arquivo que você gostaria de analisar, usando as opções abaixo:
No campo Origem , selecione URL no menu suspenso, cole a URL selecionada e selecione o botão Buscar.
No campo Ponto de extremidade de serviço da Informação de Documentos, cole o ponto de extremidade obtido com a assinatura da Informação de Documentos.
No campo chave, cole a chave obtida do recurso da Informação de Documentos.
Selecione Executar análise. A ferramenta de rotulagem de exemplo da Informação de Documentos chamará a API predefinida Analisar e analisará o documento.
Veja os resultados: confira os pares chave-valor extraídos, os itens de linha, o texto realçado extraído e as tabelas detectadas.
Observação
A ferramenta de rotulagem de exemplo não dá suporte ao formato de arquivo BMP. Essa é uma limitação da ferramenta, não do Serviço de Inteligência de Documentos.
Idiomas e localidades com suporte
Para obter uma lista completa de idiomas com suporte, consulte nossa página de suporte à linguagem de modelos predefinidos.
Extração de campo
Para campos de extração de documentos suportados, consulte a página esquema do modelo de recibo em nosso repositório de amostra do GitHub
| Nome | Tipo | Descrição | Saída padronizada |
|---|---|---|---|
| ReceiptType | String | Tipo de recibo de vendas | Itemizado |
| MerchantName | String | Nome do comerciante que está emitindo o recibo | |
| MerchantPhoneNumber | phoneNumber | Número de telefone listado do comerciante | +1 xxx xxx xxxx |
| MerchantAddress | String | Endereço listado do comerciante | |
| Data da transação | Data | Data em que o recibo foi emitido | aaaa-mm-dd |
| TransactionTime | Hora | Hora em que o recibo foi emitido | hh-mm-ss (24 horas) |
| Total | Número (USD) | Total de transações completas do recibo | Float com duas casas decimais |
| Subtotal | Número (USD) | Subtotal do recibo, geralmente antes da aplicação de impostos | Float com duas casas decimais |
| Imposto | Número (USD) | Imposto total no recibo (geralmente imposto sobre vendas ou equivalente). Renomeado para "TotalTax" na versão 2022-06-30-preview. | Float com duas casas decimais |
| Dica | Número (USD) | Gorjeta incluída pelo comprador | Float com duas casas decimais |
| Itens | Matriz de objetos | Itens de linha extraídos, com nome, quantidade, preço unitário e preço total extraído | |
| Nome | String | Descrição do item. Renomeado para "Description" na versão 2022-06-30. | |
| Quantidade | Número | Quantidade de cada item | Float com duas casas decimais |
| Price | Número | Preço individual de cada unidade de item | Float com duas casas decimais |
| TotalPrice | Número | Preço total do item de linha | Float com duas casas decimais |
Guia de migração e API REST v3.1
- Siga nosso Guia de migração da Informação de Documentos v3.1 para saber como usar a versão v3.1 nos seus aplicativos e fluxos de trabalho.
Próximas etapas
Experimente processar seus próprios formulários e documentos com o Estúdio de Informação de Documentos.
Conclua um início rápido da Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.
Tente processar seus próprios formulários e documentos com a ferramenta de rotulagem de exemplo da Informação de Documentos.
Conclua um início rápido da Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.