Илья Сегалович. Интервью с главным программистом Яндекса

Как я и обещал полгода назад, публикую сегодня интервью с Ильей Сегаловичем, главным программистом Яндекса. По сути, это лог разговора в аське, из которого выдраны даты сообщений и переформатирован текст.

Gray: Как получилось так, что Вы начали заниматься вопросами поиска — возникла очередная задача или сознательно решили работать именно в этом направлении?
Сегалович: в лингвистику и поисковые системы я сначала пришел ради приработка
и относился к этой деятельности поверхностно и снисходительно (до этого я занимался
интегральными уравнениями второго рода в геофизике :)) позвал меня сначала на
мелкие а потом на более крупные вещи мой школьный друг Аркаша, постепенно я
втянулся и понял, что это всерьез и надолго.

Gray: Аркаша — это Волож?

Сегалович: 🙂 воложок

Gray: Надо запомнить :). А, приходя в лингвистику, Вы какое-то представление о сфере деятельности имели или учились в бою — есть задание, надо его выполнять?

Сегалович: когда мне волож рассказал про их с Борковским идею искать со словоформами я решил — это заезжено и тривиально потом стал писать, влез в коды, увидел что можно все ускорить в 5 раз, ускорил, стало интересней и т.д. Потом мы решили переделать морфологию Борковского (a.k.a. Lexicon-Ortodok) и я познакомился с Апресяном и Ко. Стало еще интересней :).

Gray: И когда в итоге интерес достиг высшей точки?

Сегалович: надеюсь что это еще впереди. Хотя периодически меня посещают мысли типа: “ну что, наконец, ты сделал то, что тебя просил волож лет 7 назад, можно уже спокойно вернуться в геофизику” :).
Может я так и сделаю, когда-нибудь, пока мне здесь интересно.

Gray: А в чем вопрос? Геофизика тянет?

Сегалович: если бы не было веба, то поисковые системы — сильно вычерпанная тема. Слава богу, появился веб и задача сразу стала бесконечной. Заодно и востребованность (социальная значимость :)) выросла на порядки — это случилось как-то вдруг в 1995-1996 годах.

Gray: т.е. развитие Интернета поставило задачу поиска по бесконечной
(теоретически) базе, чем оживило разработку алгоритмов поиска? Я правильно понял?

Сегалович: ага.
Началась война с размерами, спаммерами, зеркалами и т.д. и т.п. Появилась жуткая
конкуренция — стало очень интересно жить.

Gray: и именно это держит Вас в Яндексе?

Сегалович: Ну, зачем же так упрощать 🙂
Зарплата еще хорошая :).

Gray: понятно.
Т.е. понятно, что начало поиску, скажем, положил Волож. А все дальнейшее развитие?
Неужели это только борьба со спаммерами?

Сегалович: ну почему же — это масса интересных задач как технического, так и социального смысла:

— mirrors mirrors on the web

— каталог и его связь с поиском

— размеры большие

— да много чего еще

короче, не только и не столько спаммеры, сколько просто обеспечение свежести, полноты, точности в масштабах веба — очень интересная задача.

Gray: В развитии Яндекса Вы как-то оглядываетесь на опыт других поисковиков? Скажем, технология PageRank, применяемая Google, учитывается в Я.?

Сегалович: pagerank это не технология а классический алгоритм расчета “взвешенной цитируемости” — простая задача из теории графов — прямо в интернете можно найти учебники по теории графов с оцень похожими задачами (определение победителя в шахматном турнире по швейцарке и т.п.)

Да, мы считаем взвешенный индекс цитирования — но “бес кроется в деталях”.
🙂

Gray: Google прямо говорит, что наличие ссылок необходимо для индексации документа, т.е. PageRank — это основной фактор в поиске.

Сегалович: Он хитрит. Это ПиАр их собственного алгоритма, не более того. В запросах из 2 и более слов PageRank играет подчиненную роль, а таких запросов большинство.

Gray: Илья, а вообще что-то глобальное в развитии поиска на Яндексе планируется или пока только шлифовка, устранение глюков и т.д?

C: глобального мало. В основном глюки ошибки и т.д. Поиск по картинкам вот делаем новый.

Gray: А какие вообще теоретически есть возможности модернизации поиска? Т.е. что можно сделать, но оно пока не имеет смысла или нерентабельно?

Сегалович: я пытался на это отвечать в вопроснике украинцам

— более широкое и глубже осмысленное использование “внетекстовых” критериев (то есть, инфомации “вне” текста индексируемого документа) 

— это надо раскрывать подробнее

— более широкое применение P2P

— умная кластеризация выдачи

— развитие контекстно-зависимого аннотирования.

Gray: т.е. в целом это можно назвать созданием искусственного интеллекта на сервере, который бы анализировал запрос и искал по доступной базе по тем же критериям, что и человек?

Сегалович: ни за что на свете — я ненавижу сочетание «искусственный интеллект». У нас оно используется, в основном, в издевательском смысле 🙂 Посмотрите, как напыщенно переводится information retrieval на русский — никто не пишет “поиск”, самое скромное — “интеллектуальные системы” :).

оставим “интеллект” конторам типа гербалайф-эскалибур:), мы же просто ищем.

Продолжение следует…

Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.