Речевые технологии: на пороге важных событий
Июнь 2013Автор: Ольга Мельник Опубликовано №3 (77) 14 июня 2013 года
Когда заходит разговор о распознавании речи, то большинство людей прежде всего желает реализовать две «простые» возможности: автоматически превращать живую разговорную речь в текст и общаться при помощи автоматического переводчика. Увы, и то и другое еще далеко от реализации, но — хорошая новость — и то и другое возможно. Пока промышленные технологии распознавания речи позволяют делать более скромные, но все же весьма полезные вещи. И они стоят денег, хотя как сегмент рынка автоматизация распознавания речи пока на стадии зарождения.
В этой области есть несколько интересных направлений: распознавание команд и синтез голосовых сообщений (применяется в бытовой технике), распознавание команд в зашумленной среде (в основном управление светом, связью, замками автомобиля), обучение языкам, обработка переговоров и голосовая навигация в электронной коммерции и колл-центрах. Самый обширный сегмент, по общему мнению аналитиков, — автомобильная телематика. По прогнозам Datamonitor, мировой рынок систем распознавания речи (ASR) для мобильных телефонов в следующие пять лет вырастет в три раза. Европейский рынок распознавания речи в мобильных устройствах в 2012 г. оценивался примерно в 25,09 млн. долл. и к 2018 г. может достигнуть 63,39 млн. долл. (данные предоставлены Центром речевых технологий).
Кроме контакт-центров существуют и другие сферы, где применяется или может применяться автоматизация при помощи речевых технологий: медицина, образование, ЖКХ, энергетика, безопасность и другие. Во всех этих областях, уверены в ЦРТ, речевые технологии позволяют существенно оптимизировать рабочий процесс, снизить трудозатраты и операционные издержки. По данным ЦРТ, практически половину рабочего времени медперсонал тратит на заполнение бланков и документов. Заменить ручку и бумагу на голосовое заполнение карт и форм заманчиво.
Максим Ромашин, руководитель департамента продаж «ИнтелТелеком Софт», отмечает, что в распознавание речи входят системы контроля анализа эмоций и системы распознавания ключевых слов. В первом случае вообще не анализируется содержание разговора, только громкость и общий эмоциональный фон. Это позволяет оперативно реагировать на конфликтные ситуации. Распознавание ключевых слов позволяет в режиме реального времени анализировать голосовую информацию и при обнаружении в речи ключевых слов, например «бомба», «откат», «коммерческая тайна», тут же передавать информацию заданному адресату, обычно это служба безопасности организации, поясняет Ромашин.
Почему же применение систем распознавания речи еще не стало стандартом де-факто? Роман Франтов считает, что одно из основных препятствий для массового внедрения — неготовность части компаний к речевой аналитике. Ведь она, полагает Франтов, нужна в первую очередь игрокам рынка с крупными колл-центрами, которым уже не хватает традиционного функционала. В России же пока далеко не все компании используют технологии записи речи.
Может быть, дело не только в открытости. Для того чтобы компания проявила интерес к использованию речевых технологий, она должна своего рода «дорасти», поскольку далеко не сразу можно увидеть выгоды от использования сервисов автоматического распознавания и синтеза в краткосрочной и среднесрочной перспективе, уверен Максим Ромашин. Это связано, подчеркивает он, в первую очередь с экономической составляющей — текущая стоимость коммерческих систем такого класса, а также цена их внедрения достаточно высока: «Зачастую дешевле нанять персонал для обслуживания вызовов. Экономическая выгода появляется только при значительном количестве одновременно обслуживаемых вызовов (как исходящих, с целью автоиформирования, так и входящих, для первичного распределения звонков)».
Скорее всего, технологии распознавания еще не достигли промышленного уровня зрелости. Или же достигли, но только в английском языке. Во всяком случае в России ситуация пока напоминает времена, когда появились первые пакеты распознавания текста. Производители активно провели агитацию, много было споров о технологиях, клиенты часто сомневались и спрашивали «а может, лучше посадить сто девушек и они...». Однако как только качество распознавания печатного текста превысило некий критический, устраивавший бизнес уровень (очень осторожно можно говорить о точности распознавания большей, чем 75–80%), пошел вал проектов, и продажи коробочных продуктов резко возросли. Можно предположить, что примерно так же получится и с речью: «как только, так сразу». Но пока технологическую грань еще не перешли.
Все попытки улучшить распознавание напоминают поиски под «фонарем», где все уже осмотрено и найти новое невозможно. Не лучше ли поискать новые подходы в других местах, задается вопросом Эммануил Кнеллер, генеральный директор ЗАО «ИстраСофт». Об этом же, по его мнению, говорит поддержка американским ведомством DARPA компаний, разрабатывающих подходы по полному выделению транскрипционной составляющей речевого сигнала, которая, по мнению экспертов, должна привести к 95%-ному распознаванию и позволит создать коммерческие речевые продукты. Одним из таких новых подходов и занимается «ИстраСофт». Разработанные алгоритмы «Истрасофт» применяет в своих коммерческих программах обучения языку серии «Профессор Хиггинс» (английский, русский, немецкий и др.), для выделения, визуализации и оценки правильности произнесения отдельного звука, звуков в словах, интонации в предложениях, относительно эталонного произнесения, что позволяет пользователю не только слышать, но, главное, увидеть свои ошибки в произношении и научиться слышать и правильно произносить звуки речи другого языка. По мнению Кнеллера, это пример одного из возможных успешных коммерческих применений технологии полной транскрипции.
Максим Ромашин не согласен с тем, что инструменты анализа речи еще не настолько совершенны, чтобы употребляться для массового применения. «Скорее стоит говорить о том, что компании пока просто не готовы тратить необходимые средства на качественную и дорогую настройку. Именно поэтому это продукт пока элитарный», — говорит он.
А пока создатели технологий совершенствуют свои подходы, интеграторы внедряют то, что есть. «Системы записи речи и управления речевой информацией мы внедряем давно, и технология речевой аналитики — логичное развитие наших компетенций, — говорит Роман Франтов. — На рынке систем аналитики речи мы начали активно работать примерно год назад, сделали первые проекты». Аналитика речи — естественный шаг в развитии технологий общения с клиентами, поэтому, по мере развития спроса на такие системы, ИТ-компаний, предлагающих соответствующие услуги, будет все больше, уверен он.
Максим Ромашин приводит примеры экономически оправданного применения пакетов распознавания: «Автоинформирование с использованием синтеза речи часто используется в службах такси, в том числе и в продукте Infinity TAXI. Система самостоятельно дозванивается до клиента и сообщает необходимую индивидуальную информацию о статусе заказа. Ведь для таких узких задач можно использовать гораздо более простые и дешевые решения, чем для комплексных. В результате для служб такси это действительно выгодное вложение средств».
Так что уже сейчас имеются возможности применения распознавания и синтеза речи во многих видах бизнеса. Интерес к этим подходам со стороны клиентов, по общему мнению, высок и продолжает увеличиваться. Похоже, распознавание речи — область, за которой стоит следить, ведь уже сейчас ее осваивают крупнейшие интеграторы, а как только появятся массовые продукты, спрос резко пойдет вверх.