YaC 2014: Новые разработки Яндекса в области речевых технологий

27

Сегодня, 30 октября в конгресс-парке гостиницы «Рэдиссон-Ройял Москва» открылась пятая технологическая конференция Яндекса – Yet another Conference 2014.

По традиции, мероприятие началось с секретного доклада, посвященного новейшей технологии, над которой в данный момент работает компания, и которую хочет презентовать широкой публике. Напомним, что в последние несколько лет все значительные запуски Яндекса анонсируются на технологических мероприятиях. Так, на прошлой конференции YaC 2013 компанией была анонсирована новая технологическая платформа «Атом», на YaC 2012 – был представлен Яндекс.Браузер, а в мае прошлого года на Yet another Conference on Marketing было объявлено о запуске новой поисковой платформы – Острова.

В этом году в секретном докладе Яндекса были представлены новые разработки в области речевых технологий: голосовая активация, выделение смысловых объектов из текста и синтез речи. Все три функции были объединены разработчиками под капотом нового мобильного приложения Яндекс.Диктовка.

Новое демонстрационное приложение представил Денис Филиппов, руководитель отдела речевых технологий в Яндексе.

Денис сказал, что сегодня для всех очевидно, что мобильные устройства являются неотъемлемой частью нашей жизни. Мобильные устройства по сути – это наши технологические друзья. Раньше только в фантастических романах персонажи разговаривали с роботами. А сегодня люди посредством голосовых запросов обращаются к поиску и ищут необходимую информацию при помощи мобильных телефонов. Если сейчас спросить: «кто пользуется речевыми запросами в мобильных?», – наверняка поднимется лес рук. Это говорит о том, что уровень развития речевых технологий таков, что уже пора создавать речевые интерфейсы.

Пользу от использования речевого интерфейса трудно переоценить. В качестве простого примера можно взять хотя бы процесс самофотографирования, так называемое «сэлфи». Можно будет просто сказать телефону – «эй, сделай мне сэлфи!» А телефон в ответ: «Ага, голову наклони чуток вправо, посмотри влево и – раз-два-три…». Это звучит почти невероятно, но это та реальность, над приближением которой сегодня работают специалисты Яндекса.

Далее Денис рассказал, какими должны быть голосовые интерфейсы:

  1. Активироваться с помощью голоса.
  2. Распознавать речь на нужном языке.
  3. Понимать смысл сказанного и давать обратную связь.

Все эти функции совмещает в себе новое демонстрационное мобильное приложение – Яндекс.Диктовка. Оно умеет:

  • активировать голосовой ввод по команде;
  • записывает под диктовку текст на русском языке;
  • им можно управлять при помощи голоса и редактировать текст;
  • озвучивать набранный текст.

Любое набранное сообщение можно отправить по почте или сохранить как заметку.

Приложение уже доступно в магазине приложений Яндекса.

Но самое интересное, безусловно, находится под «капотом». На чем построено это приложение? Как известно, ядром любого голосового интерфейса является технология распознавания речи. Она состоит из двух основных частей — акустической и языковой моделей.

В первую очередь звуковой поток попадает в акустическую модель, где разрезается на фреймы, для каждого из которых определяется спектр сигнала. Затем вычисляется MFCC, которые подаются в языковую модель, где происходит процесс декодирования. Там синоны переводятся в фонемы, фонемы в слова, а слова поступают в языковую модель, где на выходе выдается наиболее вероятная последовательность слов.

Секрет успешной работы акустической модели заключается в ее регулярном обучении. Суммарный объем текстового корпуса, на котором Яндекс обучает свои языковые модели, составляет примерно 40 млрд слов.

Можно представить себе, как было бы хорошо, если бы сразу после проведения какого-то научного заседания, деловой встречи или какого-нибудь важного симпозиума, можно было сразу получить их текстовый вариант. Задача автоматического протоколирования не решена еще никем в мире. Яндекс продвигается к ее решению. Сначала он научился распознавать короткие запросы, затем длинные тексты. Качество распознавания сегодня составляет 82 % – это хороший показатель.

Кроме качества важна и скорость распознавания речи. Технология Яндекса поддерживает потоковое распознавание, то есть, осуществляется практически в реальном времени. Но для построения голосовых интерфейсов нужна еще и технология голосовой активации. И вот сегодня ее Яндекс и представляет.

Достаточно дать команду «Яндекс, записывай!» – и приложение Яндекс.Диктовка начинает работать. Голосовая активация – это, фактически, уменьшенная система распознавания речи. Она умеет распознавать всего лишь несколько активационных команд, но зато почти мгновенно. Работая в фоновом режиме, она анализирует звуки на предмет наличия активационных команд. Это позволяет экономить заряд батареи. Как только получена активационная команда, приложение начинает работать. 

Технология воспроизведения речи построена на технологии Unit Selection – на скрытых марковских моделях, благодаря которым происходит не только генерация звука, но и воспроизводимой речи придаются естественно плавные интонации. Это благодаря тому, что обучение акустической модели проводится на многочасовых озвучиваниях текста. Кроме того, этот подход решает вопрос создания новых голосов.

Технология выделения смысловых объектов позволяет значительно сократить время разработки голосовых интерфейсов. Она построена на таком инструменте, как Томита-парсер. Для работы с более сложными конструкциями подключается Матрикснет.

Все три функции доступны в виде библиотеки SpeechKit Mobile SDK и облачной платформы SpeechKit Cloud. Это позволит разработчикам существенно расширить возможности своих продуктов.

Представленные разработки дополняют технологию распознавания речи, созданную Яндексом в 2013 году. Она понимает запросы на русском и турецком языках. Сейчас ее используют 500 мобильных приложений, а также сервисы и устройства 600 различных компаний. Качество распознавания зависит от тематики запроса: для географических названий оно составляет 95 %, для коротких фраз — 88 %, для текстов вроде заметок и смс — 82 %. С расширением набора технологий устройства и программы научатся не только распознавать речь, но и понимать, когда обращаются именно к ним, выполнять голосовые команды, а также озвучивать ответы.

«Берите речевые технологии Яндекса и создавайте на их основе приложения, упрощающие людям жизнь! Создавайте голосовые интерфейсы будущего», – призвал в заключение Денис Филиппов.

После выступления с Денисом побеседовал Андрей Себрант, директор по маркетингу сервисов Яндекса, задав несколько уточняющих вопросов, касательно новой технологии:

Андей Себрант: Может ли эта технология распознавать конкретного хозяина? Ведь ты можешь набрать что-то, а сзади подойдет коварный Бобук, например, и скажет «Яндекс, удали это!».

Денис Филиппов: Для этого нужна другая технология – голосовая биометрия. Мы над этим работаем, и когда-то, даже возможно в ближайшем будущем, мы сможем решить эту проблему.

Андрей Себрант: Не секрет, что никто из нас не говорит правильным русским языком. Мы разговариваем на жаргоне, где смешаны разные слова из разных языков. Как с этим быть при языковом вводе?

Денис Филиппов: Это задача языковой модели, мы вводим туда слова из разных языков, и по фонетике они звучат похоже на русский, и если человек скажет: «Я хочу послушать “Металлику”», – система распознает запрос и включит нужную музыку. Все, что часто ищется в поиске, будет добавляться в языковую модель. И это будет работать.

Андрей Себрант: Возможно ли распознавание эмоционального состояния человека устройством по голосу? Ибо когда у меня дурное настроение, я не хочу чтобы оно мне в ответ хихикало…

Денис Филиппов: Это также часть голосовой биометрии. Алгоритм можно обучить на эмоционально окрашенных текстах и научить, как на это реагировать – буквально «вот озвучь такой-то текст с такой-то эмоцией», а потом найди совпадающие интонации в запросе и воспроизведи ответ.

Андрей Себрант: Что ты еще можешь сказать о приложении, из того, что не вошло в доклад из-за тайминга?

Денис Филиппов: В приложении очень богатый интерфейс по редактированию текста. Там проделана большая работа. Пока это демонстрация, но в планах есть сделать из него полноценный текстовый редактор. Возможно, он будет использоваться даже для набора кода. С одной стороны это развлечение – вводить код голосом, но для многих это жизненно необходимо. Для некоторых групп людей это решение. Особенно для людей после травмы, после операции, с ограниченными физическими возможностями.

Следующий шаг развития технологии – голосовая активация должна будет помогать взаимодействовать с устройством. Едешь в машине, услышал по радио рекламу и хочешь найти этот товар. Можно будет сказать: «Эй, Яндекс, поищи то-то».

Для людей с ограниченными возможностями – это одно из больших применений речевых интерфейсов.

По сути, тачскрин изжил себя. Революция этого устройства остановилась. А теперь можно управлять голосом, это большой прогресс. Скоро все уменьшится до маленького устройства, которое будет помещаться у нас в ухе, и через него мы будем слушать музыку, узнавать новости, общаться с друзьями и получать нужную информацию из поиска.

Андрей Себрант: Что насчёт применения технологии в большом компьютере? Или это чисто мобильная история?

Денис Филиппов: Нет, будет так – ты проходишь мимо большого компьютера и говоришь: «Включи такой-то фильм! – Его нет. – Найди и скачай». И для этого человеку не нужна будет ни клавиатура, ни мышка.Он будет общаться со своим компьютером напрямую — управлять браузером, открывать нужные документы, программы, пользоваться поиском.