Разработка алгоритма ускоренного чтения и потоковой индексации текстовых данных для высоконагруженных систем анализа документов

Only RK

Price: 2500

Number of applications: 1

Разработка алгоритма ускоренного чтения и потоковой индексации текстовых данных для высоконагруженных систем анализа документов

Customer

ТОО DLS-GLOBAL KZ

Making decisions before ...

05.01.26

Form of award

Обсуждается индивидуально

Product status

MVP

Task type

Задачи ИКТ

Сфера применения

Robotics

Область задачи

Intelligent control systems

Type of product

Software/ IS

Problem description

В существующих системах анализа текстовых документов основным узким местом является этап чтения и предварительной обработки данных: • документы полностью загружаются в память до начала индексации; • чтение и индексация выполняются последовательно; • скорость обработки напрямую зависит от размера файла; • при массовых проверках возрастает нагрузка на файловую систему и БД; • традиционные подходы не учитывают особенности I/O-подсистем и многопоточности. В результате даже при наличии вычислительных ресурсов система теряет производительность, а время ожидания пользователем результата увеличивается.

Expected effect

Реализация проекта позволит: • сократить время чтения и предварительной обработки документов на 40–60%; • обеспечить начало индексации до завершения полной загрузки файла; • повысить общую пропускную способность системы при массовых проверках; • снизить нагрузку на дисковую подсистему и оперативную память; • обеспечить линейную масштабируемость индексации при росте объёма данных; • создать универсальный алгоритм, применимый в образовательных, научных и государственных системах.

Full name of responsible person

Асылбеков Улан

Purpose and description of task (project)

Целью проекта является разработка и внедрение алгоритма ускоренного чтения текстовых данных и параллельной потоковой индексации, позволяющего существенно сократить время обработки документов при массовых проверках и росте объёма хранимых данных. Проект направлен на оптимизацию следующих этапов: • чтение файлов различных форматов (DOCX, PDF, TXT, RTF); • преобразование документов в унифицированное текстовое представление; • параллельную индексацию текстовых блоков без ожидания полной загрузки документа; • минимизацию операций дискового ввода-вывода (I/O) при работе с большими корпусами данных. Алгоритм предполагает использование chunk-based обработки, асинхронных потоков чтения и адаптивного распределения индексационных задач.

Note

Send the solution