Тапсырыс беруші
... дейн шешім қабылдау

29.12.25

Марапаттау нысаны

рассматривается индивидуально

Өнім күйі

MVP

Тапсырма түрі

Задачи НИОКР

Сфера применения

Робототехника

Область задачи

Интеллектуалды басқару жүйелері

Өнім түрі

БҚ/АЖ

Мәселенің сипаттамасы

При росте объёмов информации, загружаемой образовательными, научными и государственными учреждениями, традиционные монолитные базы данных утрачивают способность обеспечивать стабильную скорость поиска и анализа. Проблемы, требующие решения: • отсутствие унифицированной архитектуры хранения текстов на национальном уровне; • падение скорости обработки запросов при увеличении корпуса данных; • низкая эффективность традиционных алгоритмов индексации в условиях больших данных; • необходимость обеспечения изоляции данных каждой организации при сохранении возможности централизованного анализа; • потребность в устойчивом и масштабируемом механизме вычислений для алгоритмов анализа семантической близости и выявления заимствований.

Күтілетін әсер

• создание технологической архитектуры, позволяющей обрабатывать запросы поиска за миллисекунды при объёмах данных в десятки миллионов документов; • повышение точности анализа текстовых заимствований за счёт более глубоких алгоритмов индексации и семантической обработки; • снижение нагрузки на центральную инфраструктуру за счёт распределённой модели хранения; • возможность масштабирования системы для покрытия всех образовательных учреждений РК и последующего выхода на страны СНГ; • формирование технологического задела для внедрения собственных алгоритмов ИИ-аналитики и локальных моделей без зависимости от внешних сервисов.

Жауапты тұлғаның ТАӘ

Асылбеков Улан

Тапсырманың (жобаның) мақсаты мен сипаттамасы

Целью проекта является создание технологической архитектуры распределённой базы индексации, обеспечивающей долговременное хранение, быструю обработку и масштабируемый доступ к крупным массивам текстовых данных (научные статьи, диссертации, книги, публикации, интернет-ресурсы). В рамках задачи предусматривается: • разработка модели хранения данных с учётом распределённости по организациям и регионам; • внедрение алгоритмов морфологической нормализации и семантической обработки текстов; • оптимизация индексации для обеспечения высокой скорости поиска даже при росте объёма данных до уровня национальных архивов; • исследование алгоритмов анализа текстовой близости, включая шинглы, векторные представления, и нейронные модели; • проектирование механизмов горизонтального масштабирования и отказоустойчивости.