Making decisions before ...

05.01.26

Form of award

Обсуждается индивидуально

Product status

MVP

Task type

Задачи ИКТ

Сфера применения

Robotics

Область задачи

Intelligent control systems

Type of product

Software/ IS

Problem description

В существующих системах анализа текстовых документов основным узким местом является этап чтения и предварительной обработки данных: • документы полностью загружаются в память до начала индексации; • чтение и индексация выполняются последовательно; • скорость обработки напрямую зависит от размера файла; • при массовых проверках возрастает нагрузка на файловую систему и БД; • традиционные подходы не учитывают особенности I/O-подсистем и многопоточности. В результате даже при наличии вычислительных ресурсов система теряет производительность, а время ожидания пользователем результата увеличивается.

Expected effect

Реализация проекта позволит: • сократить время чтения и предварительной обработки документов на 40–60%; • обеспечить начало индексации до завершения полной загрузки файла; • повысить общую пропускную способность системы при массовых проверках; • снизить нагрузку на дисковую подсистему и оперативную память; • обеспечить линейную масштабируемость индексации при росте объёма данных; • создать универсальный алгоритм, применимый в образовательных, научных и государственных системах.

Full name of responsible person

Асылбеков Улан

Purpose and description of task (project)

Целью проекта является разработка и внедрение алгоритма ускоренного чтения текстовых данных и параллельной потоковой индексации, позволяющего существенно сократить время обработки документов при массовых проверках и росте объёма хранимых данных. Проект направлен на оптимизацию следующих этапов: • чтение файлов различных форматов (DOCX, PDF, TXT, RTF); • преобразование документов в унифицированное текстовое представление; • параллельную индексацию текстовых блоков без ожидания полной загрузки документа; • минимизацию операций дискового ввода-вывода (I/O) при работе с большими корпусами данных. Алгоритм предполагает использование chunk-based обработки, асинхронных потоков чтения и адаптивного распределения индексационных задач.