Универсальный парсер

Только РК

Сумма: 0

Количество заявок: 2

Универсальный парсер

Заказчик

ТОО SERVICES ONLINE

Прием решений до

31.12.25

Форма вознаграждения

тенге

Статус продукта

Идея

Тип задачи

Задачи ИКТ

Сфера применения

Медиасфера

Область задачи

Другие технологические решения

Тех задание

Скачать файл

Тип продукта

ПО/ИС

Описание проблемы

В настоящее время сбор данных с веб-источников осуществляется разрозненными инструментами и скриптами, которые: - плохо масштабируются при росте числа источников и объёма данных; - нестабильны при работе с динамическими сайтами (JavaScript, авторизация, интерактивные элементы); - не обеспечивают единый контроль выполнения задач, повторов, приоритизации и обработки ошибок; - смешивают технические данные (логи, статусы, ошибки) и содержательные данные, что усложняет анализ качества и воспроизводимость; - не имеют централизованного управления схемами парсинга и очистки данных; - приводят к потере промежуточных или «отбракованных» данных, которые могли бы быть полезны для повторного анализа или отладки; - создают высокую нагрузку на итоговые БД при прямой записи данных без промежуточных слоёв. В результате повышаются операционные риски, снижается надёжность данных, усложняется сопровождение системы и замедляется внедрение новых источников.

Ожидаемый эффект

В результате реализации системы, ожидается: - Стабильный и воспроизводимый сбор данных с широкого спектра источников, включая динамические и защищённые сайты. - Чёткое разделение ответственности и данных; - Централизованное управление заданиями и схемами через ControlPanel с поддержкой версионирования и повторного выполнения. - Повышение надёжности и отказоустойчивости за счёт использования RabbitMQ, retry-механизмов и DLQ. - Сохранение всех промежуточных и отброшенных данных в trash_swamp для последующего анализа, аудита и отладки. - Ускорение подключения новых источников за счёт генерации и версионирования схем парсинга, в том числе с использованием нейросетевого модуля. - Повышение прозрачности эксплуатации: метрики, логи, статистика ошибок и качества данных доступны для мониторинга и анализа.

ФИО ответственного лица

Другаков Александр Анатольевич

Цель и описание задачи (проекта)

Cистема сбора данных с веб-источников с имитацией действий пользователя в браузере, управлением задачами через RabbitMQ, накоплением технических и содержательных данных в Data Lake (Apache Hudi и Delta Lake), а также последующей очисткой и записью данных в PostgreSQL Цели: • Стабильный сбор данных с динамических сайтов (JS, авторизация, клики, прокрутка). • Разделение технических и содержательных данных для контроля качества и последующей аналитики. • Единая система задач с приоритизацией, повторами, DLQ и мониторингом исполнения. • Управление схемами парсинга централизованно через ControlPanel модуль. • Поток: сбор -> сырые данные -> очистка -> нормализованная запись в PostgreSQL. • Архивирование всего лишнего/отброшенного в S3/MinIO (trash_swamp) для редких глубоких анализов.

Примечание

Отправить решение