Только РК

Сумма: 0

Количество заявок: 1

Прием решений до

31.12.25

Форма награждения

тенге

Статус продукта

Идея

Тип задачи

Задачи ИКТ

Сфера применения

Медиасфера

Область задачи

Другие технологические решения

Тех задание
Тип продукта

ПО/ИС

Описание проблемы

В настоящее время сбор данных с веб-источников осуществляется разрозненными инструментами и скриптами, которые: - плохо масштабируются при росте числа источников и объёма данных; - нестабильны при работе с динамическими сайтами (JavaScript, авторизация, интерактивные элементы); - не обеспечивают единый контроль выполнения задач, повторов, приоритизации и обработки ошибок; - смешивают технические данные (логи, статусы, ошибки) и содержательные данные, что усложняет анализ качества и воспроизводимость; - не имеют централизованного управления схемами парсинга и очистки данных; - приводят к потере промежуточных или «отбракованных» данных, которые могли бы быть полезны для повторного анализа или отладки; - создают высокую нагрузку на итоговые БД при прямой записи данных без промежуточных слоёв. В результате повышаются операционные риски, снижается надёжность данных, усложняется сопровождение системы и замедляется внедрение новых источников.

Ожидаемый эффект

В результате реализации системы, ожидается: - Стабильный и воспроизводимый сбор данных с широкого спектра источников, включая динамические и защищённые сайты. - Чёткое разделение ответственности и данных; - Централизованное управление заданиями и схемами через ControlPanel с поддержкой версионирования и повторного выполнения. - Повышение надёжности и отказоустойчивости за счёт использования RabbitMQ, retry-механизмов и DLQ. - Сохранение всех промежуточных и отброшенных данных в trash_swamp для последующего анализа, аудита и отладки. - Ускорение подключения новых источников за счёт генерации и версионирования схем парсинга, в том числе с использованием нейросетевого модуля. - Повышение прозрачности эксплуатации: метрики, логи, статистика ошибок и качества данных доступны для мониторинга и анализа.

ФИО ответственного лица

Другаков Александр Анатольевич

Цель и описание задачи (проекта)

Cистема сбора данных с веб-источников с имитацией действий пользователя в браузере, управлением задачами через RabbitMQ, накоплением технических и содержательных данных в Data Lake (Apache Hudi и Delta Lake), а также последующей очисткой и записью данных в PostgreSQL Цели: • Стабильный сбор данных с динамических сайтов (JS, авторизация, клики, прокрутка). • Разделение технических и содержательных данных для контроля качества и последующей аналитики. • Единая система задач с приоритизацией, повторами, DLQ и мониторингом исполнения. • Управление схемами парсинга централизованно через ControlPanel модуль. • Поток: сбор -> сырые данные -> очистка -> нормализованная запись в PostgreSQL. • Архивирование всего лишнего/отброшенного в S3/MinIO (trash_swamp) для редких глубоких анализов.