Федор Романенко (Яндекс) о математических моделях в поиске

8

Федор Романенко, ведущий менеджер-эксперт поиска «Яндекса», в рамках лекции в Школе анализа данных рассказал о математических моделях, которые используются в поисковых системах, в том числе в метриках качества поиска, при создании факторов ранжирования, при построении новых интернет-сервисов и т.д.

Как Федор отметил в начале своего выступления, человек мыслит моделями. Научный метод заключается в том, что теории и модели создаются на основе эмпирического знания. При этом модель нужно воспринимать с точки зрения ее полезности.

Разработка поиска и анализ данных — тоже своего рода научная работа из области выявления высокоуровневых закономерностей. У поисковой системы есть огромные массивы данных, логи действий пользователей, на основе которых можно составлять модели, предсказывать действия, и, опираясь на это, делать различные полезные сервисы. Причем, в поиске новые модели можно придумывать достаточно часто, и каждая из них будет в чем-то полезна.

В частности, был приведен пример модели PageRank, алгоритм которой придуман в компании Google. Принцип работы этого алгоритма заключается в следующем: чем больше ссылаются на ту или иную работу, тем более авторитетной она считается в научном мире.

Задача поисковой системы — посчитать некую авторитетность страницы, определить, какова вероятность того, что она хоть сколько-нибудь интереса и полезна. На основе этого показателя отбираются страницы для поисковой выдачи и в дальнейшем сортируются на странице результатов поиска.

Однако, несмотря на всю практическую пользу данной модели, у нее есть и недостатки. Если раньше страниц в интернете было не так много, а все ссылки проставлялись вручную, то сейчас не составляет труда сгенерировать спам-сайт с множеством страниц, ссылающихся на необходимые документы. К примеру, в настоящий момент в базе Яндекса по Рунету насчитывается около 20 млрд. страниц, среди которых полезных – не так много.

Подробнее о лекции