Разработка высокопроизводительной распределённой архитектуры базы индексации текстовых данных для систем анализа и обнаружения заимствований

Only RK

Price: 0

Number of applications: 0

Разработка высокопроизводительной распределённой архитектуры базы индексации текстовых данных для систем анализа и обнаружения заимствований

Customer

ТОО DLS-GLOBAL KZ

Making decisions before ...

29.12.25

Form of award

рассматривается индивидуально

Product status

MVP

Task type

Задачи НИОКР

Сфера применения

Robotics

Область задачи

Intelligent control systems

Type of product

Software/ IS

Problem description

При росте объёмов информации, загружаемой образовательными, научными и государственными учреждениями, традиционные монолитные базы данных утрачивают способность обеспечивать стабильную скорость поиска и анализа. Проблемы, требующие решения: • отсутствие унифицированной архитектуры хранения текстов на национальном уровне; • падение скорости обработки запросов при увеличении корпуса данных; • низкая эффективность традиционных алгоритмов индексации в условиях больших данных; • необходимость обеспечения изоляции данных каждой организации при сохранении возможности централизованного анализа; • потребность в устойчивом и масштабируемом механизме вычислений для алгоритмов анализа семантической близости и выявления заимствований.

Expected effect

• создание технологической архитектуры, позволяющей обрабатывать запросы поиска за миллисекунды при объёмах данных в десятки миллионов документов; • повышение точности анализа текстовых заимствований за счёт более глубоких алгоритмов индексации и семантической обработки; • снижение нагрузки на центральную инфраструктуру за счёт распределённой модели хранения; • возможность масштабирования системы для покрытия всех образовательных учреждений РК и последующего выхода на страны СНГ; • формирование технологического задела для внедрения собственных алгоритмов ИИ-аналитики и локальных моделей без зависимости от внешних сервисов.

Full name of responsible person

Асылбеков Улан

Purpose and description of task (project)

Целью проекта является создание технологической архитектуры распределённой базы индексации, обеспечивающей долговременное хранение, быструю обработку и масштабируемый доступ к крупным массивам текстовых данных (научные статьи, диссертации, книги, публикации, интернет-ресурсы). В рамках задачи предусматривается: • разработка модели хранения данных с учётом распределённости по организациям и регионам; • внедрение алгоритмов морфологической нормализации и семантической обработки текстов; • оптимизация индексации для обеспечения высокой скорости поиска даже при росте объёма данных до уровня национальных архивов; • исследование алгоритмов анализа текстовой близости, включая шинглы, векторные представления, и нейронные модели; • проектирование механизмов горизонтального масштабирования и отказоустойчивости.

Note

Send the solution