Decision acceptance deadline

25.06.26 (inclusive)

Form of award

договорная

Product status

MVP

Task type

ICT tasks

Сфера применения

Robotics

Область задачи

Neurotechnology and artificial Intelligence

Type of product

Software/ IS

Problem description

В практическом применении технологий распознавания и офлайн-анализа речи значительным препятствием является несоответствие аудиоматериалов требованиям к корректной обработке информации. Часто диалоги между двумя спикерами записываются в одном аудиоканале, что затрудняет их автоматическое разделение для последующего анализа и стенографирования. Существующие решения ASR для русского и казахского языков не обеспечивают устойчивую диоризацию, особенно при смешанной речи (code-switching), что приводит к снижению точности и читаемости расшифровок.

Expected effect

Результатом разработки станет программный модуль, обеспечивающий: 1. Автоматическое разделение аудиозаписи на реплики двух спикеров (диоризация) с точностью не ниже 90%; 2. Корректное распознавание речи на русском и казахском языках, включая смешанные высказывания; 3. Формирование структурированной стенограммы с указанием временных меток и идентификаторов спикеров (Speaker 1, Speaker 2); 4. Совместимость с существующими системами анализа и хранения данных через API; 5. возможность использования любого внешнего или локального STT-сервиса, обеспечивающего требуемое качество распознавания.

Full name of responsible person

Данченко Максим

Purpose and description of task (project)

Создание модуля автоматического распознавания речи (ASR) с поддержкой диоризации для двух спикеров, обеспечивающего точное разделение реплик и корректную стенографию аудиозаписей на русском и казахском языках. Описание задачи: Разработать программный механизм, принимающий на вход аудиофайл и выполняющий следующие функции: 1. определение участков речи и автоматическое разделение на двух спикеров; 2. распознавание речи на русском и казахском языках; 3. формирование текстового файла с разметкой по говорящим и временными метками; 4. обеспечение точности диоризации не ниже 90% и точности распознавания не ниже 85%; 5. предоставление готового результата в формате, пригодном для последующего анализа и интеграции.

Note