IBC Russia 2014: «Яндекс и вебмастера: точки контакта»

27 ноября — 28 ноября 2014 года, в Москве прошла крупнейшая отраслевая конференция для рынков интернет-маркетинга и веб-разработки «Интернет и Бизнес. Россия». Объединяя в себе такие многолетние и известные проекты, как «Сайт» и Optimization, Конференция «IBC Russia» стала ответом на заинтересованность бизнеса в единой экспертной площадке. Мероприятие организовано компанией «Ашманов и партнеры» совместно с Российской ассоциацией электронных коммуникаций

В рамках секции «Поисковые машины» выступили представители компании Яндекс, которые рассказали о новых и хорошо забытых старых точках взаимодействия Яндекса и вебмастеров.

Приветствовал участников Александр Садовский, руководитель поисковых сервисов Яндекса, который традционно участвует каждый год в конференции, и каждый год неизменно поражает слушателей какими-то инновациями и запусками Яндекса. Однако, ничего подобного в этом году не случилось, Александр просто представлял докладчиков.

Екатерина Гладких, аналитик Яндекса, которая отвечает за Капчу на Яндексе, сообщила о том, что 25% запросов, поступающих на Янекс задаются роботами. Примерно такое же количество запросов задается в XML. Из них 13% — это умные роботы, а 12% — неумные роботы. В этом году Яндекс научился детектировать роботов. Алгоритм обрабатывает десятки тысяч запросов в секунду, анализируя более 3 000 факторов для каждого запроса и выдает вердикт в реальном времени.

Янекс.Маркет первым перешел на машинную технологию определения роботов, и доля детектированных роботов в потоке Маркета возросла с 4% до 40% по сравнению с эвристическим антироботом.

Также в Яндекс стало приходить гораздо меньше жалоб на капчу от «живых» пользователей Маркета, которые бывали ошибочно приняты за роботов – с сотен в неделю сократилось до десятка в месяц.

Екатерина также напомнила, что год назад Яндекс перешел на кириллическую капчу. Была проведена большая работа, словари редактировались аналитиками, убирались бранные и обидные для пользователей слова и т.д. Работа оправдала себя – кириллическая капча доказала свою эффективность. В этом году Яндекс запускает новую страницу капчи – с аудиовоспроизведением, островным дизайном и виртуальной клавиатурой.

Такие изменения страницы капчи позволят сделать парсинг выдачи более дорогим, а также будут являться достаточно сложным препятствием для роботов.

Далее выступил Майк Томшинский (Mike Tomshinsky), менеджер по продуктам Яндекса, с рассказом о Менеджере Яндекс-Картинок и Алгоритме Сибирь.

По словам докладчика, Яндексу ежедневно задаются 13 млн запросов, ответы на которые должны содержать изображения. Ежедневная аудитория Яндекс.Картинок – 7 млн. Размер базы – 20 млрд. урлов.

Майк напомнил о запущенном в прошлом году алгоритме «Сибирь», поиске по картинке, при помощи которого можно найти конкретную картинку, можно загрузить фотографию и узнать о ней; поиск товаров; светские события и т.п. По сути, алгоритм поиска по картинкам похож на алгоритм поиска текстов по каждой картинке выделяются «визуальные слова», они распределяются по словарям, а затем сопоставляются с визуальными словами по другим картинкам.

В перспективе алгоритм будет искать не только дубликаты картинок, но и фейковые аккаунты, фейковые объявления. Ведется работа над поиском товара по картинке – поиск скажет пользователю, как называется этот товар, и в каком магазине можно его приобрести.

В поиске похожих изображений, к сожалению, до сих пор случаются фейлы:

В перспективе Яндекс хочет использовать этот сервис для рекомендаций. Яндекс ищет партнёров, которые бы хотели использовать алгоритм Сибирь в своем бизнесе.

О том, как поиск ищет качественное видео, рассказала Нина Сапунова, менеджер сервиса Яндекс-Видео. По ее словам, поиском производится тщательный анализ текстового окружения – оценивается текстовая релевантность. Производится анализ пользовательского поведения – количество успешных просмотров. Производится постоянный анализ видео-потока.

Как это происходит? Робот парсит более 1 млн. видео в сутки: скачивает небольшой фрагмент видео-файла, анализирует свойства видео, кладет полученные признаки в индекс, но сам файл при этом не сохраняет.

Поиск начал парсить видео-контейнер. Основная цель – сделать полностью релевантную выдачу, вплоть до соответствия качества видео. В планах — полная автоматизация подключения новых сайтов к богатому индексированию видео-контента.

Следующий представитель Яндекса — Алексей Сикорский, представил новый сервис — Яндекс.Толока.

Яндекс.Толока — это бета-версия краудсорсинговой платформы для сбора пользовательских оценок. Большинство сервисов Яндекса построено на машинном обучении алгоритмов. Но чтобы алгоритмы обучались, им периодически нужны массивы человеческих оценок. Иногда оценки реальных пользователей важны и для принятия тех или иных решений по развитию продуктов Яндекса. Чтобы получать такие данные, у Яндекса есть асессоры — специальные люди, которые помогают делать выборку для поисковых алгоритмов.

В последнее время количество запросов от сервисов Яндекса к асессорам растет, и поэтому Яндекс решил опробовать краудсорсинговую модель — когда за денежное вознаграждение задания разного формата и содержания выполняют все желающие. Так был создан и запущен сервис Толока, где пользователи занимаются оценкой ресурсов и контента.

Минусы краудсорсинга – люди, которые умеют программировать, могут написать скрипты, но Яндекс будет бороться с этим.

За две недели существования сервиса, без маркетинга пришло 500 человек, которые уже оценили три тысячи урлов.

Вопрос из зала: Люди, которые работают в Толоке, часто пользуются небольшими мониторами, а сайт может быт неадаптирован. Что будете делать?

Алексей Сикорский: Мы просим оценить релевантность контента, а не отображение сайта. Если он не помещается на экран, попросим открыть в отдельной вкладке.

Вопрос из зала: Как будут эти оценки влиять на ранжирование?

Алексей Сикорский: Оценки напрямую не будут использоваться при ранжировании, также как и ранее не использовались асессорские оценки в результатах выдачи.

Станислав Ставский: Будет ли в ближайшее время очередной виток борьбы с поведенческими?

Александр Садовский: Баны будут – расслабляться нельзя.

Игорь Бакалов: Недавно было исследование, по которому Яндекс.Метрика вышла на первое место по популярности. Используете ли вы в ранжировании данные, которые получаете из Я.Метрики?

Александр Садовский: Мы используем все. Но сырые данные никогда не работают. Метрики в чистом виде мы не используем, но мы опираемся на них. Чтобы прогнозировать посещаемость – мы смотрим не только на показатели Яндекс.Метрики.

Вопрос из зала: Делаем редизайн, и архитектура сайта принципиально меняется, достаточно ли 301-го редиректа или еще что-то надо?

Александр Садовский: Если много зеркал, то лучше обратиться в службу поддержки и получить от них более подробные инструкции.

Вопрос из зала: Если нужно посмотреть видео про котов – забиваешь в поиске, выходит 20 видео. Нажимаешь на просмотр видео, там видео про Камаз, а словами размечено, что видео про котов. Текстовое описание может быть разное — прикольное видео и т.д. Возможно, словесное описание не всегда поможет?

Нина Сапунова: Мы анализируем много типов факторов. У разных факторов разный вес. Все проекты в Яндексе связаны между собой, мы учимся отличать — скоро будет тегирование изображений, это тоже позволит различать.

Сергей Людкевич: Когда порадуете сообщением, что отключили поведенческие факторы?

Александр Садовский: Чем больше факторов становится, тем меньшее влияние имеет этот фактор. Не надо ориентироваться на конкретную группу факторов.

Дмитрий Севальнев: Стал ли после отмены ссылочного сигнал менее зашумлённым?

Александр Садовский: Безусловно, мы следим за этим процессом – это вопрос изменения сознания. Раньше самым популярным вопросом на конференциях было, как вы учитываете мета-теги keywords. Это будет ясно через несколько лет.

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.