Только РК

Сумма: 8000000

Количество заявок: 1

Прием решений до

12.01.26

Форма вознаграждения

Разовая оплата

Статус продукта

MVP

Тип задачи

Задачи ИКТ

Сфера применения

Медиасфера

Область задачи

Виртуальный ведущий

Тех задание
Тип продукта

ПО/ИС

Описание проблемы

Современные ИИ-ассистенты в основном используют текст или аудио, однако визуальная коммуникация остаётся ограниченной. Проблема состоит в том, что: отсутствует сервис, который может в реальном времени генерировать естественные движения лица, соответствующие речи; большинство решений не поддерживают HLS-стриминг, интеграцию в веб-клиенты и работу с GPU-инференсом; нет готовых библиотек, соединяющих TTS → аудиопризнаки → lipsync → HLS; существующие модели lipsync не предоставляют промышленного API-сервиса со статусами, сессиями и прогрессом. Таким образом, возникает потребность в едином технологическом решении, обеспечивающем стабильную генерацию видеоаватара с полной автоматизацией пайплайна TTS → Infer → Stream.

Ожидаемый эффект

Функциональные эффекты Возможность автоматической генерации видеоаватаров по любому тексту. Естественный lip-sync, точно соответствующий аудиосинтезу. HLS-видео, которое можно встроить в любой веб-интерфейс. Масштабируемость под большие нагрузки за счёт GPU-инференса. Экономические эффекты Снижение затрат на производство видеоконтента (нет операторов, студии, актёров). Ускорение разработки и вывода новых ИИ-ассистентов. Экономия на обучении персонала и видео-разъяснениях. Технологические эффекты Повышение технологичности продуктов компании. Создание уникальной компетенции в lipsync-генерации. Формирование базы для будущих 3D-аватаров, real-time digital humans. Социальные эффекты Улучшение доступа населения к цифровым услугам. Удобство взаимодействия пользователей с ИИ-ботами.

ФИО ответственного лица

Ахметов Бекназар Жалгасбекович

Цель и описание задачи (проекта)

Целью проекта является создание технологического сервиса, который автоматически генерирует видеоаватар-ответы с синхронизацией губ и мимики (lip-sync) на основе текстового запроса пользователя. Система должна: принимать текст; синтезировать речь через TTS; выполнять lipsync-инференс (MuseTalk 1.5); формировать видеопоток HLS (init.mp4 + сегменты *.m4s); отдавать клиенту готовый поток по API. Проект представляет собой полноценный инференс-сервис с использованием GPU, PyTorch, FFmpeg, моделей UNet/VAE, Whisper-аудиопроцессинга и кастомного препроцессинга аватара. Работа направлена на создание технологической платформы для интерактивных ИИ-ассистентов с видеогенерацией в реальном времени.

Примечание

Сроки и детали реализации определяются по согласованию сторон без изменения сути задачи. Функционал может быть расширен после завершения базового этапа разработки. Дополнительные доработки оформляются отдельным техническим заданием.