Федор Романенко (Яндекс) о математических моделях в поиске

Федор Романенко, ведущий менеджер-эксперт поиска «Яндекса», в рамках лекции в Школе анализа данных рассказал о математических моделях, которые используются в поисковых системах, в том числе в метриках качества поиска, при создании факторов ранжирования, при построении новых интернет-сервисов и т.д.

Как Федор отметил в начале своего выступления, человек мыслит моделями. Научный метод заключается в том, что теории и модели создаются на основе эмпирического знания. При этом модель нужно воспринимать с точки зрения ее полезности.

Разработка поиска и анализ данных — тоже своего рода научная работа из области выявления высокоуровневых закономерностей. У поисковой системы есть огромные массивы данных, логи действий пользователей, на основе которых можно составлять модели, предсказывать действия, и, опираясь на это, делать различные полезные сервисы. Причем, в поиске новые модели можно придумывать достаточно часто, и каждая из них будет в чем-то полезна.

В частности, был приведен пример модели PageRank, алгоритм которой придуман в компании Google. Принцип работы этого алгоритма заключается в следующем: чем больше ссылаются на ту или иную работу, тем более авторитетной она считается в научном мире.

Задача поисковой системы — посчитать некую авторитетность страницы, определить, какова вероятность того, что она хоть сколько-нибудь интереса и полезна. На основе этого показателя отбираются страницы для поисковой выдачи и в дальнейшем сортируются на странице результатов поиска.

Однако, несмотря на всю практическую пользу данной модели, у нее есть и недостатки. Если раньше страниц в интернете было не так много, а все ссылки проставлялись вручную, то сейчас не составляет труда сгенерировать спам-сайт с множеством страниц, ссылающихся на необходимые документы. К примеру, в настоящий момент в базе Яндекса по Рунету насчитывается около 20 млрд. страниц, среди которых полезных – не так много.

http://video.yandex.ru/iframe/ya-events/9cqbc4bkp7.7142/

Подробнее о лекции

Яндекс покажет пробки Одессы в баллах

Яндекс начал оценивать ситуацию на дорогах Одессы по 10-балльной шкале

Halifax - очередная жертва санкций Google?

Западные блогеры обсуждают вопрос, стал ли сайт Halifax очередным крупным брендом, пострадавшим от штрафных санкций Google

В Я.Поиске для сайта появился инструмент «Синонимы»

В Яндекс.Поиске для сайта появился новый инструмент – «Синонимы». Он позволяет вебмастерам самостоятельно добавлять в базу синонимов слова, характерные для конкретного сайта

Госдума освободила поисковые системы от ответственности за нарушение авторских прав в выдаче

Согласно последним правкам в Гражданский кодекс РФ, поисковые системы не несут ответственности за нарушение интеллектуальных прав и не могут быть признаны нарушителями таких...

День всех влюбленных в поиске

Сегодняшний День всех влюбленных красочно отметил Google, украсив главную страницу поиска великолепным интерактивным дудлем, который позволяет влюбленным (и не только) подарить...

Google предлагает оценить быстрые ответы

Несколько недель назад Google начал тестирование готовых ответов на некоторые из запросов в выдаче