Only RK

Price: 0

Number of applications: 1

Making decisions before ...

31.12.25

Form of award

тенге

Product status

Idea

Task type

Задачи ИКТ

Сфера применения

Media sphere

Область задачи

Other technological solutions

Type of product

Software/ IS

Problem description

В настоящее время сбор данных с веб-источников осуществляется разрозненными инструментами и скриптами, которые: - плохо масштабируются при росте числа источников и объёма данных; - нестабильны при работе с динамическими сайтами (JavaScript, авторизация, интерактивные элементы); - не обеспечивают единый контроль выполнения задач, повторов, приоритизации и обработки ошибок; - смешивают технические данные (логи, статусы, ошибки) и содержательные данные, что усложняет анализ качества и воспроизводимость; - не имеют централизованного управления схемами парсинга и очистки данных; - приводят к потере промежуточных или «отбракованных» данных, которые могли бы быть полезны для повторного анализа или отладки; - создают высокую нагрузку на итоговые БД при прямой записи данных без промежуточных слоёв. В результате повышаются операционные риски, снижается надёжность данных, усложняется сопровождение системы и замедляется внедрение новых источников.

Expected effect

В результате реализации системы, ожидается: - Стабильный и воспроизводимый сбор данных с широкого спектра источников, включая динамические и защищённые сайты. - Чёткое разделение ответственности и данных; - Централизованное управление заданиями и схемами через ControlPanel с поддержкой версионирования и повторного выполнения. - Повышение надёжности и отказоустойчивости за счёт использования RabbitMQ, retry-механизмов и DLQ. - Сохранение всех промежуточных и отброшенных данных в trash_swamp для последующего анализа, аудита и отладки. - Ускорение подключения новых источников за счёт генерации и версионирования схем парсинга, в том числе с использованием нейросетевого модуля. - Повышение прозрачности эксплуатации: метрики, логи, статистика ошибок и качества данных доступны для мониторинга и анализа.

Full name of responsible person

Другаков Александр Анатольевич

Purpose and description of task (project)

Cистема сбора данных с веб-источников с имитацией действий пользователя в браузере, управлением задачами через RabbitMQ, накоплением технических и содержательных данных в Data Lake (Apache Hudi и Delta Lake), а также последующей очисткой и записью данных в PostgreSQL Цели: • Стабильный сбор данных с динамических сайтов (JS, авторизация, клики, прокрутка). • Разделение технических и содержательных данных для контроля качества и последующей аналитики. • Единая система задач с приоритизацией, повторами, DLQ и мониторингом исполнения. • Управление схемами парсинга централизованно через ControlPanel модуль. • Поток: сбор -> сырые данные -> очистка -> нормализованная запись в PostgreSQL. • Архивирование всего лишнего/отброшенного в S3/MinIO (trash_swamp) для редких глубоких анализов.