Аватар для AI ассистента

Только РК

Сумма: 8000000

Количество заявок: 3

Аватар для AI ассистента

Заказчик

ТОО "Казах Софт Девлопмент" (QSD)

Прием решений до

12.01.26 (включительно)

Форма вознаграждения

Разовая оплата

Статус продукта

MVP

Тип задачи

Задачи ИКТ

Сфера применения

Медиасфера

Область задачи

Виртуальный ведущий

Тех задание

Скачать файл

Тип продукта

ПО/ИС

Описание проблемы

Современные ИИ-ассистенты в основном используют текст или аудио, однако визуальная коммуникация остаётся ограниченной. Проблема состоит в том, что: отсутствует сервис, который может в реальном времени генерировать естественные движения лица, соответствующие речи; большинство решений не поддерживают HLS-стриминг, интеграцию в веб-клиенты и работу с GPU-инференсом; нет готовых библиотек, соединяющих TTS → аудиопризнаки → lipsync → HLS; существующие модели lipsync не предоставляют промышленного API-сервиса со статусами, сессиями и прогрессом. Таким образом, возникает потребность в едином технологическом решении, обеспечивающем стабильную генерацию видеоаватара с полной автоматизацией пайплайна TTS → Infer → Stream.

Ожидаемый эффект

Функциональные эффекты Возможность автоматической генерации видеоаватаров по любому тексту. Естественный lip-sync, точно соответствующий аудиосинтезу. HLS-видео, которое можно встроить в любой веб-интерфейс. Масштабируемость под большие нагрузки за счёт GPU-инференса. Экономические эффекты Снижение затрат на производство видеоконтента (нет операторов, студии, актёров). Ускорение разработки и вывода новых ИИ-ассистентов. Экономия на обучении персонала и видео-разъяснениях. Технологические эффекты Повышение технологичности продуктов компании. Создание уникальной компетенции в lipsync-генерации. Формирование базы для будущих 3D-аватаров, real-time digital humans. Социальные эффекты Улучшение доступа населения к цифровым услугам. Удобство взаимодействия пользователей с ИИ-ботами.

ФИО ответственного лица

Ахметов Бекназар Жалгасбекович

Цель и описание задачи (проекта)

Целью проекта является создание технологического сервиса, который автоматически генерирует видеоаватар-ответы с синхронизацией губ и мимики (lip-sync) на основе текстового запроса пользователя. Система должна: принимать текст; синтезировать речь через TTS; выполнять lipsync-инференс (MuseTalk 1.5); формировать видеопоток HLS (init.mp4 + сегменты *.m4s); отдавать клиенту готовый поток по API. Проект представляет собой полноценный инференс-сервис с использованием GPU, PyTorch, FFmpeg, моделей UNet/VAE, Whisper-аудиопроцессинга и кастомного препроцессинга аватара. Работа направлена на создание технологической платформы для интерактивных ИИ-ассистентов с видеогенерацией в реальном времени.

Примечание

Сроки и детали реализации определяются по согласованию сторон без изменения сути задачи. Функционал может быть расширен после завершения базового этапа разработки. Дополнительные доработки оформляются отдельным техническим заданием.

Отправить решение