Модуль автоматического распознавания речи (ASR) с поддержкой диоризации для спикеров

Все страны

Сумма: 0

Количество заявок: 9

Модуль автоматического распознавания речи (ASR) с поддержкой диоризации для спикеров

Заказчик

ТОО "Эвотек Центральная Азия"

Прием решений до

25.06.26 (включительно)

Форма вознаграждения

договорная

Статус продукта

MVP

Тип задачи

Задачи ИКТ

Сфера применения

Робототехника

Область задачи

Нейротехнологии и искусственный интеллект

Тип продукта

ПО/ИС

Описание проблемы

В практическом применении технологий распознавания и офлайн-анализа речи значительным препятствием является несоответствие аудиоматериалов требованиям к корректной обработке информации. Часто диалоги между двумя спикерами записываются в одном аудиоканале, что затрудняет их автоматическое разделение для последующего анализа и стенографирования. Существующие решения ASR для русского и казахского языков не обеспечивают устойчивую диоризацию, особенно при смешанной речи (code-switching), что приводит к снижению точности и читаемости расшифровок.

Ожидаемый эффект

Результатом разработки станет программный модуль, обеспечивающий: 1. Автоматическое разделение аудиозаписи на реплики двух спикеров (диоризация) с точностью не ниже 90%; 2. Корректное распознавание речи на русском и казахском языках, включая смешанные высказывания; 3. Формирование структурированной стенограммы с указанием временных меток и идентификаторов спикеров (Speaker 1, Speaker 2); 4. Совместимость с существующими системами анализа и хранения данных через API; 5. возможность использования любого внешнего или локального STT-сервиса, обеспечивающего требуемое качество распознавания.

ФИО ответственного лица

Данченко Максим

Цель и описание задачи (проекта)

Создание модуля автоматического распознавания речи (ASR) с поддержкой диоризации для двух спикеров, обеспечивающего точное разделение реплик и корректную стенографию аудиозаписей на русском и казахском языках. Описание задачи: Разработать программный механизм, принимающий на вход аудиофайл и выполняющий следующие функции: 1. определение участков речи и автоматическое разделение на двух спикеров; 2. распознавание речи на русском и казахском языках; 3. формирование текстового файла с разметкой по говорящим и временными метками; 4. обеспечение точности диоризации не ниже 90% и точности распознавания не ниже 85%; 5. предоставление готового результата в формате, пригодном для последующего анализа и интеграции.

Примечание

Отправить решение