Тек ҚР

Ақша сомасы: 8000000

Өтінімдер саны: 3

Шешімдерді қабылдау мерзімі

12.01.26 (қоса алғанда)

Марапаттау нысаны

Бір реттік төлем

Өнім күйі

MVP

Тапсырма түрі

Акт міндеттері

Сфера применения

Медиасфера

Область задачи

Виртуалды жүргізуші

Tech-тапсырма
Өнім түрі

БҚ/АЖ

Мәселенің сипаттамасы

Қазіргі AI көмекшілері негізінен мәтінді немесе аудионы пайдаланады, бірақ визуалды байланыс шектеулі болып қалады. Мәселе мынада: нақты уақыт режимінде сөйлеуге сәйкес келетін табиғи бет қимылдарын жасай алатын қызмет жоқ; көптеген шешімдер HLS ағынын, веб-клиенттерді біріктіруді және GPU инференсімен жұмыс істеуді қолдамайды; TTS → аудио белгілері → lipsync → HLS байланыстыратын дайын кітапханалар жоқ; қолданыстағы lipsync модельдері күйлері, сессиялары және ілгерілеуі бар өнеркәсіптік API қызметін ұсынбайды. Осылайша, TTS → Infer → Stream құбыр желісін толық автоматтандырумен бейне аватардың тұрақты генерациясын қамтамасыз ететін бірыңғай технологиялық шешім қажет.

Күтілетін әсер

Функционалды әсерлер Кез-келген мәтін бойынша бейнеаватарларды автоматты түрде құру мүмкіндігі. Табиғи lip-Sync, аудио синтезге дәл сәйкес келеді. Кез-келген веб-интерфейске ендіруге болатын HLS бейнесі. GPU-инференс есебінен ауыр жүктемелерге масштабталу. Экономикалық әсерлер Бейне мазмұнын өндіруге кететін шығындарды азайту (операторлар, студиялар, актерлер жоқ). Жаңа ai көмекшілерін әзірлеу мен шығаруды жеделдету. Қызметкерлерді оқыту мен бейне түсіндірулерді үнемдеу. Технологиялық әсерлер Компания өнімдерінің технологиялылығын арттыру. Lipsync генерациясында бірегей құзыреттілікті құру. Болашақ 3D аватарлары үшін базаны қалыптастыру, нақты уақыт сандық гуманитарлық. Әлеуметтік әсерлер Халықтың цифрлық қызметтерге қолжетімділігін жақсарту. Пайдаланушылардың AI-боттармен өзара әрекеттесуінің ыңғайлылығы.

Жауапты тұлғаның ТАӘ

Ахметов Бекназар Жалғасбекұлы

Тапсырманың (жобаның) мақсаты мен сипаттамасы

Жобаның мақсаты-пайдаланушының мәтіндік сұранысы негізінде ерін және мимика синхрондауымен (lip-sync) бейне жауаптарын автоматты түрде жасайтын технологиялық қызметті құру. Жүйе керек: мәтінді қабылдау; TTS арқылы сөйлеуді синтездеу; орындау lipsync-inference (MuseTalk 1.5); HLS бейне ағынын қалыптастыру (init.mp4 + сегменттер*.m4s); клиентке API арқылы дайын ағынды беріңіз. Жоба GPU, PyTorch, FFmpeg, UNet/VAE модельдерін, Whisper аудио өңдеу және аватардың реттелетін алдын ала өңдеуін қолданатын толыққанды қызмет болып табылады. Жұмыс Нақты уақыттағы бейне генерациясы бар интерактивті ai көмекшілері үшін технологиялық платформа құруға бағытталған.

Ескерту

Іске асырудың мерзімдері мен егжей-тегжейлері міндеттің мәнін өзгертпестен тараптардың келісімі бойынша айқындалады. Функционалдылықты дамудың негізгі кезеңі аяқталғаннан кейін кеңейтуге болады. Қосымша пысықтаулар жеке техникалық тапсырмамен ресімделеді.