Как технологии распознавания речи захватывают бизнес

Технология распознавания речи вот-вот совершит революцию на рынке коллтрекинга. В США она уже доказала свою успешность. До России технология пока не дошла, хотя скоро может стать трендом. Рассмотрим основные выгоды такого решения для владельцев бизнеса.

С чего всё начиналось

Научное определение технологии распознавания речи звучит так: преобразование речевого сигнала в цифровую информацию. Его результатом могут стать текстовые данные. У технологии есть и противоположность. Преобразование в обратном порядке выполняют говорящие роботы. Они получают цифровую информацию, а после преобразуют её в речевой сигнал.

Технология развивается уже семь десятилетий. В 1952 году устройство распознавания сумело «понять» цифры, которые произносил человек. Важным вектором развития стал выпуск программ для людей с ограниченными возможностями, которые позволяли им работать с текстом. Но широкого распространения они не получили.

Точность распознавания речи снижали:

  •  особенности речевого поведения произвольного пользователя;

  •  «речевой мусор», спонтанная речь, грамматически неверные структуры;

  •  искажения и помехи при произношении и приеме информации.

Звучание слова меняет акцент человека, неверное ударение, темп и громкость речи. В этих  деталях иногда кроется источник непонимания между людьми. Не обошла стороной проблема и компьютеры.

Когда программы научили распознавать человеческий голос, они освоили английский язык. Выбор определяется не только его широким распространением, но и простотой. Английский проще, чем китайский или русский. Для его оцифровки требуется создавать меньше алгоритмов. Неудивительно, что именно на западном рынке IT-технологий распознавание речи быстро нашло применение в бизнесе.

А что в СНГ?

Успехи в данной сфере среди российских разработчиков заметны у Яндекса. Компания запустила облачную технологию SpeechKit Cloud еще в 2013 году. Задачами сервиса являются распознавание и синтезирование речи.

Для синтеза он применяет статистический подход, который использует в рамках акустического моделирования. Базой служат интонации человеческой речи. Искусственно синтезированная речь может иметь эмоциональную окраску – от доброй до злой с нейтральным вариантом посередине. Получившийся голос может быть мужским или женским. Протестировать технологию в течение месяца желающие могут бесплатно. Далее за обработку 1000 запросов необходимо заплатить 5$. Данные расценки актуальны на момент написания статьи.

Повсеместного распространения в СНГ технология пока что не получила. Её используют не глобальные игроки рынка, а преимущественно энтузиасты. С помощью SpeechKit Cloud разработчик Oktell, создающий системы автоматизации колл-центров, формирует приветствия и голосовые меню для пользователей. Сервис помогает записать ответы на часто задаваемые вопросы. В работе колл-центра технологию используют параллельно с работой обычных операторов, снижая нагрузку на них.

Объединить синтезатор речи с системой учета товаров интернет-магазина сумели в компании Repka.UA. Получившаяся в итоге робот Кристина умеет проверять наличие товара и его цену, а также может рассчитывать дату отправки. После этого Кристина сама звонит клиенту, чтобы подтвердить заказ.

Результаты распознавания речи Кристиной сначала были невысоки. В случае возникновения каких-либо затруднений заменить человека ей не удавалось. Если Кристина не могла ответить на вопросы пользователя, его переводили на обычного «человеческого» оператора. А робот помогал работать сотрудникам в те моменты, когда количество обращений достигало пика.

Чтобы повысить точность распознавания, компания создала собственную речевую модель. Работа робота теперь обходится в пять раз дешевле, чем обычного оператора. Если речь идет о внешнем колл-центре, экономия будет уже восьмикратной.

Оформить заказ по телефону в автоматическом режиме клиенту поможет SpeechKit Cloud, благодаря технологии распознавания речи. Звонящему необязательно общаться с роботом с помощью команд «оформить», «доставка» или «подтверждаю». На сегодняшний день возможно распознавание и более сложных «давайте оформим», «не знаю», «сам заберу», «окей». На процент распознавания речи влияют несколько факторов. 

Это качество звука и кодирования, темп и артикуляция в речи, длина фраз и то, насколько сложными их делает пользователь. В среднем для понимания сервиса доступно от 82 до 95% русской речи. Технология помогает снизить нагрузку на колл-центр. По мере роста процента распознавания речи, она сможет заменить таких сотрудников полностью.

Заглянем в будущее

Основной сферой применения технологии распознавания речи служит прием и распределение звонков. Но мы в Calltouch считаем, что это далеко не предел. Мы уже объединили технологию и сервис коллтрекинга, и в итоге получился продукт Calltouch Предикт. Компании получили эффективный инструмент для оптимизации рекламных кампаний, а также достижения нового уровня ведения бизнес-процессов.

В настоящее время у бизнеса сильна потребность в эффективном распределении звонков. Компаниям было бы удобно разделять входящие обращения на желающих совершить покупку или просто получить консультацию.

Если магазин игрушек использует в качестве рекламных каналов Яндекс.Директ, рекламную сеть Яндекса и соцсеть «ВКонтакте», он заинтересован в определении источника звонков, которые заканчиваются покупками. Знание, например, что из «ВКонтакте» приходят в основном для бесплатной консультации, из РСЯ звонят в сервис, а Яндекс.Директ реально приносит продажи, позволит соответствующим образом распределить рекламные бюджеты. 

Однако узнать, что затраты на социальную сеть нужно сократить, невозможно без информации о распределении звонков. Разделять звонки на категории возможно двумя способами:

 

  1. Автоматизированный вариант. Голосовая система предлагает пользователю выбрать нужный повод обращения нажатием кнопки. Ему необходимо нажать «1», если человек звонит по поводу покупки, или «2», если темой звонка являются услуги сервиса.

  2. В механическом варианте распределения кнопку нажимает секретарь, который отвечает на звонок. В зависимости от выбранной цифры сервис отмечает категорию звонка как «продажи» или «Услуги».

Человеческий фактор важен в обоих случаях. В автоматизированном варианте пользователь может прервать звонок, чтобы не нажимать кнопку, или ошибочно выбрать другую категорию. Секретарь же может не пометить звонок, если его отвлечет другая задача, или намеренно исказить результат, если число звонков в категории «продажи» влияет на его KPI.

Если использовать для решения подобных задач технологии, человеческий фактор перестанет оказывать влияние на результат. Система сумеет самостоятельно разделять звонки на «продажные» и «сервисные». Для этого она должна «научиться» распознавать слова, которые чаще всего используются в рекламных объявлениях.

Использовать технологию распознавания речи можно и для контроля над сотрудниками. Если собственник компании считает, что его сотрудники работают недостаточно хорошо и даже грубят клиентам в телефонных разговорах, убедиться или опровергнуть подозрения поможет прослушивание звонков. Если делать это самостоятельно, потребуется время, а нанятому для этого сотруднику нужно заплатить деньги.

Автоматически выявить проблемы поможет сервис коллтрекинга с распознаванием речи. Чтобы он мог выполнить задачу, потребуется загрузить скрипты общения с клиентом, соответствующего норме. Если сотрудник использует в речи такие слова, система определяет его поведение как корректное.

Комментарии 0

Авторизуйтесь чтобы оставить комментарий