Тек ҚР

Ақша сомасы: 0

Өтінімдер саны: 1

Тапсырыс беруші
... дейн шешім қабылдау

31.12.25

Марапаттау нысаны

тенге

Өнім күйі

Идея

Тапсырма түрі

Задачи ИКТ

Сфера применения

Медиасфера

Область задачи

Басқа технологиялық шешімдер

Tech-тапсырма
Өнім түрі

БҚ/АЖ

Мәселенің сипаттамасы

В настоящее время сбор данных с веб-источников осуществляется разрозненными инструментами и скриптами, которые: - плохо масштабируются при росте числа источников и объёма данных; - нестабильны при работе с динамическими сайтами (JavaScript, авторизация, интерактивные элементы); - не обеспечивают единый контроль выполнения задач, повторов, приоритизации и обработки ошибок; - смешивают технические данные (логи, статусы, ошибки) и содержательные данные, что усложняет анализ качества и воспроизводимость; - не имеют централизованного управления схемами парсинга и очистки данных; - приводят к потере промежуточных или «отбракованных» данных, которые могли бы быть полезны для повторного анализа или отладки; - создают высокую нагрузку на итоговые БД при прямой записи данных без промежуточных слоёв. В результате повышаются операционные риски, снижается надёжность данных, усложняется сопровождение системы и замедляется внедрение новых источников.

Күтілетін әсер

В результате реализации системы, ожидается: - Стабильный и воспроизводимый сбор данных с широкого спектра источников, включая динамические и защищённые сайты. - Чёткое разделение ответственности и данных; - Централизованное управление заданиями и схемами через ControlPanel с поддержкой версионирования и повторного выполнения. - Повышение надёжности и отказоустойчивости за счёт использования RabbitMQ, retry-механизмов и DLQ. - Сохранение всех промежуточных и отброшенных данных в trash_swamp для последующего анализа, аудита и отладки. - Ускорение подключения новых источников за счёт генерации и версионирования схем парсинга, в том числе с использованием нейросетевого модуля. - Повышение прозрачности эксплуатации: метрики, логи, статистика ошибок и качества данных доступны для мониторинга и анализа.

Жауапты тұлғаның ТАӘ

Другаков Александр Анатольевич

Тапсырманың (жобаның) мақсаты мен сипаттамасы

Cистема сбора данных с веб-источников с имитацией действий пользователя в браузере, управлением задачами через RabbitMQ, накоплением технических и содержательных данных в Data Lake (Apache Hudi и Delta Lake), а также последующей очисткой и записью данных в PostgreSQL Цели: • Стабильный сбор данных с динамических сайтов (JS, авторизация, клики, прокрутка). • Разделение технических и содержательных данных для контроля качества и последующей аналитики. • Единая система задач с приоритизацией, повторами, DLQ и мониторингом исполнения. • Управление схемами парсинга централизованно через ControlPanel модуль. • Поток: сбор -> сырые данные -> очистка -> нормализованная запись в PostgreSQL. • Архивирование всего лишнего/отброшенного в S3/MinIO (trash_swamp) для редких глубоких анализов.