Модуль автоматического распознавания речи (ASR) с поддержкой диоризации для спикеров

All countries

Price: 0

Number of applications: 3

Модуль автоматического распознавания речи (ASR) с поддержкой диоризации для спикеров

Customer

ТОО "Эвотек Центральная Азия"

Decision acceptance deadline

25.06.26 (inclusive)

Form of award

договорная

Product status

MVP

Task type

ICT tasks

Сфера применения

Robotics

Область задачи

Neurotechnology and artificial Intelligence

Type of product

Software/ IS

Problem description

В практическом применении технологий распознавания и офлайн-анализа речи значительным препятствием является несоответствие аудиоматериалов требованиям к корректной обработке информации. Часто диалоги между двумя спикерами записываются в одном аудиоканале, что затрудняет их автоматическое разделение для последующего анализа и стенографирования. Существующие решения ASR для русского и казахского языков не обеспечивают устойчивую диоризацию, особенно при смешанной речи (code-switching), что приводит к снижению точности и читаемости расшифровок.

Expected effect

Результатом разработки станет программный модуль, обеспечивающий: 1. Автоматическое разделение аудиозаписи на реплики двух спикеров (диоризация) с точностью не ниже 90%; 2. Корректное распознавание речи на русском и казахском языках, включая смешанные высказывания; 3. Формирование структурированной стенограммы с указанием временных меток и идентификаторов спикеров (Speaker 1, Speaker 2); 4. Совместимость с существующими системами анализа и хранения данных через API; 5. возможность использования любого внешнего или локального STT-сервиса, обеспечивающего требуемое качество распознавания.

Full name of responsible person

Данченко Максим

Purpose and description of task (project)

Создание модуля автоматического распознавания речи (ASR) с поддержкой диоризации для двух спикеров, обеспечивающего точное разделение реплик и корректную стенографию аудиозаписей на русском и казахском языках. Описание задачи: Разработать программный механизм, принимающий на вход аудиофайл и выполняющий следующие функции: 1. определение участков речи и автоматическое разделение на двух спикеров; 2. распознавание речи на русском и казахском языках; 3. формирование текстового файла с разметкой по говорящим и временными метками; 4. обеспечение точности диоризации не ниже 90% и точности распознавания не ниже 85%; 5. предоставление готового результата в формате, пригодном для последующего анализа и интеграции.

Note

Send the solution