Универсальный парсер

Only RK

Price: 0

Number of applications: 2

Универсальный парсер

Customer

ТОО SERVICES ONLINE

Making decisions before ...

31.12.25

Form of award

тенге

Product status

Idea

Task type

Задачи ИКТ

Сфера применения

Media sphere

Область задачи

Other technological solutions

Tech-task

Скачать файл

Type of product

Software/ IS

Problem description

В настоящее время сбор данных с веб-источников осуществляется разрозненными инструментами и скриптами, которые: - плохо масштабируются при росте числа источников и объёма данных; - нестабильны при работе с динамическими сайтами (JavaScript, авторизация, интерактивные элементы); - не обеспечивают единый контроль выполнения задач, повторов, приоритизации и обработки ошибок; - смешивают технические данные (логи, статусы, ошибки) и содержательные данные, что усложняет анализ качества и воспроизводимость; - не имеют централизованного управления схемами парсинга и очистки данных; - приводят к потере промежуточных или «отбракованных» данных, которые могли бы быть полезны для повторного анализа или отладки; - создают высокую нагрузку на итоговые БД при прямой записи данных без промежуточных слоёв. В результате повышаются операционные риски, снижается надёжность данных, усложняется сопровождение системы и замедляется внедрение новых источников.

Expected effect

В результате реализации системы, ожидается: - Стабильный и воспроизводимый сбор данных с широкого спектра источников, включая динамические и защищённые сайты. - Чёткое разделение ответственности и данных; - Централизованное управление заданиями и схемами через ControlPanel с поддержкой версионирования и повторного выполнения. - Повышение надёжности и отказоустойчивости за счёт использования RabbitMQ, retry-механизмов и DLQ. - Сохранение всех промежуточных и отброшенных данных в trash_swamp для последующего анализа, аудита и отладки. - Ускорение подключения новых источников за счёт генерации и версионирования схем парсинга, в том числе с использованием нейросетевого модуля. - Повышение прозрачности эксплуатации: метрики, логи, статистика ошибок и качества данных доступны для мониторинга и анализа.

Full name of responsible person

Другаков Александр Анатольевич

Purpose and description of task (project)

Cистема сбора данных с веб-источников с имитацией действий пользователя в браузере, управлением задачами через RabbitMQ, накоплением технических и содержательных данных в Data Lake (Apache Hudi и Delta Lake), а также последующей очисткой и записью данных в PostgreSQL Цели: • Стабильный сбор данных с динамических сайтов (JS, авторизация, клики, прокрутка). • Разделение технических и содержательных данных для контроля качества и последующей аналитики. • Единая система задач с приоритизацией, повторами, DLQ и мониторингом исполнения. • Управление схемами парсинга централизованно через ControlPanel модуль. • Поток: сбор -> сырые данные -> очистка -> нормализованная запись в PostgreSQL. • Архивирование всего лишнего/отброшенного в S3/MinIO (trash_swamp) для редких глубоких анализов.

Note

Send the solution