The post has been translated automatically. Original language: Russian
Companies with a large volume of document flow in logistics, trade and industry regularly face the need for manual inspection of invoices. Despite the proliferation of electronic systems, a significant part of the documents still come in the form of scans and PDF files or photographs, often as part of heterogeneous sets.
Manual processing of such documents requires significant labor, and is also a chore that can and should be automated. The tasks of checking with registers, checking mandatory items, and monitoring the presence and absence of signatures remain particularly critical.
Initially, we tended towards classic OCR solutions focused on text extraction, but in real business scenarios this leads to a number of limitations.:
- One bill of lading can consist of several pages.;
- The package often contains irrelevant documents.;
- The presence of a signature is determined visually, not by text, and trained Yolo produce poor results on heterogeneous documents. ;
- The correctness of a document depends on the relationship between fields and pages.
As a result, companies are forced to maintain a significant proportion of manual verification even with OCR.
We have made a solution that uses a multimodal AI model capable of analyzing images and text simultaneously. This allows the system not only to recognize the data, but also to understand the logic and structure of the consignment note as a single document.
The service automatically processes sets of files, allocates invoices, and performs intelligent validation according to specified business rules.
It takes an average of 2 to 5 minutes to manually check one bill of lading with a set of documents. The AI service automates up to 70-85% of primary verification operations, reducing employee participation to exception control.
For companies processing 10,000-20,000 invoices per month, this is equivalent to releasing 2-5 FTEs without increasing staff.
The solution is aimed at companies with a high volume of document flow and can be used in the following industries:
- logistics and transport;
- Distribution and wholesale trade;
- industrial production;
- companies with centralized accounting and a distributed branch network.
As part of a single pipeline, the service performs the following tasks:
- recognizes the invoice number;
- determines the document type and correctly groups the pages of a single invoice.;
- checks the invoice numbers with internal or external registries;
- automatically filters out the extra documents in the package;
- verifies that the item is filled in correctly (type of ownership);
- determines the presence or absence of signatures in paragraph 8;
- determines the presence or absence of signatures in paragraph 10.
The result of the service is a structured report indicating the status of the document and the identified inconsistencies.
During the pilot use of the service, the following averages were achieved:
- 96% average accuracy of bill of lading recognition and validation;
- correct processing of multi-page documents and sets;
- ≈1,730 tokens per second for the inference model.
These values are average and may vary depending on the quality of the source documents and the structure of the sets.
The solution is implemented using a modern AI stack and is focused on corporate applications.:
- vLLM is a high-performance inference engine;
- Qwen 3 VL Instruct 8B — multimodal model for document analysis;
- On-premise deployment — to work in the customer's closed loop.
A GPU with at least 48 GB of video memory is required for stable operation and streaming of documents.
Компании с большим объёмом документооборота в логистике, торговле и промышленности регулярно сталкиваются с необходимостью ручной проверки товарных накладных. Несмотря на распространение электронных систем, значительная часть документов по-прежнему поступает в виде сканов и PDF-файлов или фотографий, часто в составе разнородных комплектов.
Ручная обработка таких документов требует значительных трудозатрат, а также является рутиной, которую можно и нужно автоматизировать. Особенно критичными остаются задачи сверки с реестрами, проверки обязательных пунктов и контроля наличия и отсутствие подписей.
Вначале мы склонялись к классическим OCR-решениям ориентированным на извлечение текста, но в реальных бизнес-сценариях это приводит к ряду ограничений:
- одна товарная накладная может состоять из нескольких страниц;
- в комплекте часто присутствуют нерелевантные документы;
- наличие подписи определяется визуально, а не текстом, а натренированные Yolo выдают низкий результат на разнородных документах ;
- корректность документа зависит от взаимосвязи полей и страниц.
В результате компании вынуждены сохранять значительную долю ручной проверки даже при наличии OCR.
Мы сделали решение, которое использует мультимодальную AI-модель, способную анализировать изображения и текст одновременно. Это позволяет системе не просто распознавать данные, а понимать логику и структуру товарной накладной как единого документа.
Сервис автоматически обрабатывает комплекты файлов, выделяет товарные накладные и выполняет интеллектуальную валидацию по заданным бизнес-правилам.
Ручная проверка одной товарной накладной с комплектом документов в среднем занимает от 2 до 5 минут. AI-сервис автоматизирует до 70–85% операций первичной проверки, сокращая участие сотрудников до контроля исключений.
Для компаний, обрабатывающих 10 000–20 000 накладных в месяц, это эквивалентно высвобождению 2–5 FTE без увеличения штата.
Решение ориентировано на компании с высоким объёмом документооборота и может применяться в следующих отраслях:
- логистика и транспорт;
- дистрибуция и оптовая торговля;
- промышленное производство;
- компании с централизованной бухгалтерией и распределённой филиальной сетью.
В рамках единого пайплайна сервис выполняет следующие задачи:
- распознаёт номер товарной накладной;
- определяет тип документа и корректно группирует страницы одной накладной;
- сверяет номера накладных с внутренними или внешними реестрами;
- автоматически отсеивает лишние документы в комплекте;
- проверяет корректность заполнения пункта (тип владения);
- определяет наличие или отсутствие подписей в пункте 8;
- определяет наличие или отсутствие подписей в пункте 10.
Результатом работы сервиса является структурированный отчёт с указанием статуса документа и выявленных несоответствий.
В ходе пилотного использования сервиса были достигнуты следующие средние показатели:
- 96% средняя точность распознавания и валидации товарных накладных;
- корректная обработка многостраничных документов и комплектов;
- ≈1 730 токенов в секунду при inference модели.
Указанные значения являются средними и могут варьироваться в зависимости от качества исходных документов и структуры комплектов.
Решение реализовано с использованием современного AI-стека и ориентировано на корпоративное применение:
- vLLM — высокопроизводительный inference-движок;
- Qwen 3 VL Instruct 8B — мультимодальная модель для анализа документов;
- On-premise развёртывание — для работы в закрытом контуре заказчика.
Для стабильной работы и потоковой обработки документов требуется GPU с видеопамятью не менее 48 GB.