Новая система транскрипции позволила снизить количество ошибок Google Voice на 50%

18

Специалисты Google улучшили системы распознавания речи, лежащие в основе транскрипции голосовых сообщений в Google Voice. В прошлом месяце стало известно, что уровень ошибок распознавания в Google Voice снизился на 50%, и теперь разработчики рассказали, как они достигли этого успеха.

google-voice-search-1413374736.gif

Специалисты перестроили систему транскрипции. Старая система опиралась на технику общего обучения машин, известную как модель гауссовой смеси. Новая версия использует другой тип искусственного интеллекта — длинные рекуррентные нейронные сети кратковременной памяти. Искусственные нейронные сети можно обучать на больших объемах данных вроде сообщений голосовой почты, а затем сделать выводы о новых полученных данных.

Google использовал голосовые сообщения пользователей для исследований, при этом их прослушивали только компьютеры, работающие под управлением алгоритмов машинного обучения. Таким образом удалось создать усовершенствованные акустические модели распознавания данных.

Благодаря машинному обучению Google достиг показателя частоты ошибок распознавания речи в размере всего 8%. Компания использовала глубокое обучение для улучшения многих своих услуг, в том числе Google Переводчика.

С учетом того, что транскрипции Google Voice тали более точными в результате глубокого обучения, это создает новые проблемы для других компаний, занимающихся распознаванием речи, среди которых Apple с Siri и Microsoft с Cortana.

Напомним, что в конце минувшего года Stone Temple Consulting опубликовал исследование, в котором сравнил мобильные ответы на 3086 различных запросов в Siri, Google Now и Cortana, чтобы определить, как каждый из них представлен по отношению к другим. Google Now стал победителем с большим количеством прямых ответов и более полной информацией.