Price: 2500
Number of applications: 1
05.01.26
Обсуждается индивидуально
MVP
Задачи ИКТ
Robotics
Intelligent control systems
Software/ IS
В существующих системах анализа текстовых документов основным узким местом является этап чтения и предварительной обработки данных: • документы полностью загружаются в память до начала индексации; • чтение и индексация выполняются последовательно; • скорость обработки напрямую зависит от размера файла; • при массовых проверках возрастает нагрузка на файловую систему и БД; • традиционные подходы не учитывают особенности I/O-подсистем и многопоточности. В результате даже при наличии вычислительных ресурсов система теряет производительность, а время ожидания пользователем результата увеличивается.
Реализация проекта позволит: • сократить время чтения и предварительной обработки документов на 40–60%; • обеспечить начало индексации до завершения полной загрузки файла; • повысить общую пропускную способность системы при массовых проверках; • снизить нагрузку на дисковую подсистему и оперативную память; • обеспечить линейную масштабируемость индексации при росте объёма данных; • создать универсальный алгоритм, применимый в образовательных, научных и государственных системах.
Асылбеков Улан
Purpose and description of task (project)
Целью проекта является разработка и внедрение алгоритма ускоренного чтения текстовых данных и параллельной потоковой индексации, позволяющего существенно сократить время обработки документов при массовых проверках и росте объёма хранимых данных. Проект направлен на оптимизацию следующих этапов: • чтение файлов различных форматов (DOCX, PDF, TXT, RTF); • преобразование документов в унифицированное текстовое представление; • параллельную индексацию текстовых блоков без ожидания полной загрузки документа; • минимизацию операций дискового ввода-вывода (I/O) при работе с большими корпусами данных. Алгоритм предполагает использование chunk-based обработки, асинхронных потоков чтения и адаптивного распределения индексационных задач.