Обновлено: На Яндекс.Толоке можно скачать голосовые запросы к Яндексу

25 мая 2017 на платформе Толока появилось задание по транскрибированию коротких аудиофайлов, из содержания которых становится ясно, что это записи голосовых запросов пользователей Яндекса. Интерфейс позволяет не только прослушивать записи, но и загружать их на компьютеры исполнителей, что фактически, является «сливом» пользовательской информации.

Как сообщает издание RobotReview, в распоряжении которого оказался целый архив запросов к Яндексу, последний сформирован из навигационных и информационных запросов. Имена владельцев отсутствуют, однако встречаются повторяющиеся голоса, из чего можно предположить, что выборка составлена не по принципу 1 человек — 1 запрос, а по принципу 1 человек — несколько запросов.

Неизвестно количество пользователей, чьи голосовые запросы стали доступны на платформе. Учитывая тот факт, что получить доступ к заданиям на сервисе Толока может любой человек буквально в несколько кликов, возникает вопрос о правомерности предоставления возможности загрузки запросов на сторонние компьютеры.

Обновлено: Пресс-служба Яндекса на запрос редакции Searchengines.ru ответила следующее:

«Прежде всего — пользователям не о чем волноваться, их личные данные защищены. Распределение заданий в Толоке гарантирует полную анонимность запросов. В этом смысле нет особенной разницы, работает ли толокер с текстовым запросом или голосовым — у него все равно нет возможности идентифицировать пользователя, который этот запрос задал. Кажется, как будто голосовые запросы содержат больше информации, и как будто бы по ним можно как-то опознать пользователя, — но по факту из десятков миллионов запросов, случайным образом распределяемым по толокерам, нет никакого способа извлечь информацию о конкретном пользователе. То, что называют «сливом», не угрожает безопасности, потому что использовать эту информацию против пользователей все равно нет никакой технической возможности.

Мы, как и все поисковые сервисы, постоянно работаем над улучшением качества поиска, в том числе для нас важно, чтобы наши сервисы умели хорошо понимать человеческую речь. На современном этапе развития технологий все еще требуется участие человека для контроля и улучшения качества голосовых интерфейсов, поэтому и мы, и любая другая компания, развивающая такие интерфейсы, привлекает людей для развития технологий распознавания речи. И мы гарантируем анонимность пользовательских данных в процессе такой работы.

Тем не менее, мы благодарны за обнаружение этой ситуации и сейчас проводим дополнительный аудит всех наших процессов в Толоке на предмет общей безопасности персональных данных — в частности на предмет соблюдения толокерами пользовательского соглашения, в котором запрещено распространение данных, полученных ими в процессе работы в Толоке, и предусмотрена ответственность за такое распространение».

Напомним, платформа Яндекс.Толока была открыта в ноябре 2014 года, и используется Яндексом для совершенствования поисковых алгоритмов и технологий машинного обучения на основе пользовательских оценок. Задания предоставляются командами различных сервисов Яндекса и партнерами компании.

22 мая 2017 года Яндекс в своем приложении для Android начал тестирование голосового помощника «Алиса», возможно появление задания по расшифровке голосовых запросов связанно именно с доработкой этого алгоритма.

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.