Making decisions before ...

13.11.25

Form of award

договорная

Product status

Idea

Task type

Задачи ИКТ

Сфера применения

Robotics

Область задачи

Intelligent control systems

Type of product

Software/ IS

Problem description

В ряде контактных центров для приёма и обработки звонков операторы используют исключительно программные телефоны (SoftPhone), работающие через сторонние VoIP-приложения. Такой подход затрудняет доступ к медиапотокам (аудио входящего и исходящего звука) при необходимости выполнения онлайн-распознавания речи (STT) или анализа разговоров в реальном времени. Традиционные методы получения звука через сетевое зеркалирование (port mirroring) или специализированное оборудование неприемлемы из-за сложности внедрения и ограничений инфраструктуры.

Expected effect

Результатом разработки станет программная утилита для ОС Windows, обеспечивающая: 1. Захват аудиопотоков (входящего и исходящего звука) непосредственно со звуковой карты ПК, независимо от используемого VoIP-приложения (например, Zoiper, MicroSIP, Linphone, Teams, Zoom и т.п.). 2. Формирование двух отдельных потоков - входящего и исходящего - для последующей передачи в сервисы распознавания речи (STT) с потоковой обработкой; 3. Работу в реальном времени, без значительных задержек и деградации качества звука; 4. Совместимость с внешними STT API (Google, Whisper, Yandex SpeechKit, Azure Speech и др.); 5. Отсутствие необходимости в настройке сетевого оборудования или изменении конфигурации VoIP-приложений; 6. Простое внедрение - установка и настройка на уровне операционной системы.

Full name of responsible person

Данченко Максим

Purpose and description of task (project)

Цель: Разработать программную утилиту для Windows, обеспечивающую захват аудиопотоков (входящего и исходящего звука) с уровня звуковой карты персонального компьютера для дальнейшего использования в системах потокового распознавания речи (STT). Описание задачи: Создать решение, которое: 1. Перехватывает аудиосигнал локального микрофона и звука, поступающего в наушники/динамики, без вмешательства в сетевые настройки; 2. Формирует два медиапотока (входящий и исходящий) с минимальной задержкой; 3. Предоставляет доступ к потокам через API или локальный интерфейс для интеграции с сервисами онлайн-распознавания речи; 4. Работает с популярными VoIP-приложениями, не требуя их модификации; 5. Обеспечивает стабильную работу и низкое потребление ресурсов; 6. Не использует технологии зеркалирования портов или вмешательства в сетевое оборудование.