invoice-and-receipts_donut_v1

Property	Value
Parameter Count	202M
License	Apache-2.0
Author	mychen76
Model Type	Vision-Encoder-Decoder
Framework	PyTorch

What is invoice-and-receipts_donut_v1?

invoice-and-receipts_donut_v1 is a specialized vision-encoder-decoder model designed to transform invoice and receipt images directly into structured data formats (JSON or XML) without requiring a separate OCR engine. Built upon the Donut architecture, this model represents a significant advancement in document processing automation.

Implementation Details

The model leverages a transformer-based architecture optimized for image-to-text conversion, utilizing 202M parameters to achieve high accuracy in document parsing. It employs safetensors for efficient model weight storage and supports inference endpoints for practical deployment.

Direct image-to-structured-data conversion without OCR dependency
Support for both JSON and XML output formats
Comprehensive extraction of invoice details including header information, line items, and summaries
Efficient processing with reduced resource utilization

Core Capabilities

Extraction of invoice metadata (invoice numbers, dates, tax IDs)
Detailed line item parsing including quantities, prices, and VAT calculations
Automatic generation of structured summaries with totals
Support for complex document layouts and varying formats

Frequently Asked Questions

Q: What makes this model unique?

This model's key differentiator is its ability to process invoices and receipts without requiring a separate OCR engine, leading to improved performance and reduced deployment complexity.

Q: What are the recommended use cases?

The model is ideal for automated invoice processing systems, accounting software integration, expense management systems, and any application requiring structured data extraction from invoice images.