Илья Сегалович. Интервью с главным программистом Яндекса

Как я и обещал полгода назад, публикую сегодня интервью с Ильей Сегаловичем, главным программистом Яндекса. По сути, это лог разговора в аське, из которого выдраны даты сообщений и переформатирован текст.

Gray: Как получилось так, что Вы начали заниматься вопросами поиска - возникла очередная задача или сознательно решили работать именно в этом направлении?
Сегалович: в лингвистику и поисковые системы я сначала пришел ради приработка
и относился к этой деятельности поверхностно и снисходительно (до этого я занимался
интегральными уравнениями второго рода в геофизике :)) позвал меня сначала на
мелкие а потом на более крупные вещи мой школьный друг Аркаша, постепенно я
втянулся и понял, что это всерьез и надолго.

Gray: Аркаша - это Волож?

Сегалович: :) воложок

Gray: Надо запомнить :). А, приходя в лингвистику, Вы какое-то представление о сфере деятельности имели или учились в бою - есть задание, надо его выполнять?

Сегалович: когда мне волож рассказал про их с Борковским идею искать со словоформами я решил - это заезжено и тривиально потом стал писать, влез в коды, увидел что можно все ускорить в 5 раз, ускорил, стало интересней и т.д. Потом мы решили переделать морфологию Борковского (a.k.a. Lexicon-Ortodok) и я познакомился с Апресяном и Ко. Стало еще интересней :).

Gray: И когда в итоге интерес достиг высшей точки?

Сегалович: надеюсь что это еще впереди. Хотя периодически меня посещают мысли типа: “ну что, наконец, ты сделал то, что тебя просил волож лет 7 назад, можно уже спокойно вернуться в геофизику” :).
Может я так и сделаю, когда-нибудь, пока мне здесь интересно.

Gray: А в чем вопрос? Геофизика тянет?

Сегалович: если бы не было веба, то поисковые системы - сильно вычерпанная тема. Слава богу, появился веб и задача сразу стала бесконечной. Заодно и востребованность (социальная значимость :)) выросла на порядки - это случилось как-то вдруг в 1995-1996 годах.

Gray: т.е. развитие Интернета поставило задачу поиска по бесконечной
(теоретически) базе, чем оживило разработку алгоритмов поиска? Я правильно понял?

Сегалович: ага.
Началась война с размерами, спаммерами, зеркалами и т.д. и т.п. Появилась жуткая
конкуренция - стало очень интересно жить.

Gray: и именно это держит Вас в Яндексе?

Сегалович: Ну, зачем же так упрощать :)
Зарплата еще хорошая :).

Gray: понятно.
Т.е. понятно, что начало поиску, скажем, положил Волож. А все дальнейшее развитие?
Неужели это только борьба со спаммерами?

Сегалович: ну почему же - это масса интересных задач как технического, так и социального смысла:

- mirrors mirrors on the web

- каталог и его связь с поиском

- размеры большие

- да много чего еще

короче, не только и не столько спаммеры, сколько просто обеспечение свежести, полноты, точности в масштабах веба - очень интересная задача.

Gray: В развитии Яндекса Вы как-то оглядываетесь на опыт других поисковиков? Скажем, технология PageRank, применяемая Google, учитывается в Я.?

Сегалович: pagerank это не технология а классический алгоритм расчета “взвешенной цитируемости” - простая задача из теории графов - прямо в интернете можно найти учебники по теории графов с оцень похожими задачами (определение победителя в шахматном турнире по швейцарке и т.п.)

Да, мы считаем взвешенный индекс цитирования - но “бес кроется в деталях”.
:)

Gray: Google прямо говорит, что наличие ссылок необходимо для индексации документа, т.е. PageRank - это основной фактор в поиске.

Сегалович: Он хитрит. Это ПиАр их собственного алгоритма, не более того. В запросах из 2 и более слов PageRank играет подчиненную роль, а таких запросов большинство.

Gray: Илья, а вообще что-то глобальное в развитии поиска на Яндексе планируется или пока только шлифовка, устранение глюков и т.д?

C: глобального мало. В основном глюки ошибки и т.д. Поиск по картинкам вот делаем новый.

Gray: А какие вообще теоретически есть возможности модернизации поиска? Т.е. что можно сделать, но оно пока не имеет смысла или нерентабельно?

Сегалович: я пытался на это отвечать в вопроснике украинцам

- более широкое и глубже осмысленное использование “внетекстовых” критериев (то есть, инфомации “вне” текста индексируемого документа) 

- это надо раскрывать подробнее

- более широкое применение P2P

- умная кластеризация выдачи

- развитие контекстно-зависимого аннотирования.

Gray: т.е. в целом это можно назвать созданием искусственного интеллекта на сервере, который бы анализировал запрос и искал по доступной базе по тем же критериям, что и человек?

Сегалович: ни за что на свете - я ненавижу сочетание "искусственный интеллект". У нас оно используется, в основном, в издевательском смысле :) Посмотрите, как напыщенно переводится information retrieval на русский - никто не пишет “поиск”, самое скромное - “интеллектуальные системы” :).

оставим “интеллект” конторам типа гербалайф-эскалибур:), мы же просто ищем.

Продолжение следует…

Интервью со Стивом Баллмером на CES - часть II

На крупнейшем ИТ-мероприятии начала года, Consumer Electronics Show, руководитель компании Майкрософт дал интервью корреспонденту CNet

Сергей Баиров: «Кризис затронет поисковое продвижение в наименьшей мере»

Исполнительный директор компании NetPromoter Сергей Баиров дал интервью для Searchengines.ru

Интервью с Google

Перепечатано с сайта searchnewz...

Илья Сегалович. Интервью с главным программистом Яндекса, часть 2 - О Яндексе и о себе

Часть 1 >>> Gray: ну, это вопрос личных симпатий :). Скажем так, реализация этих планов - дело далекого будущего или что-то будет реализовываться в скором будущем

Три минуты с Google

Tom Spring, PCWorld.com Для миллионов людей доктор Эрик Шмидт является человеком, в руках которого все ключи от Интернета

Руководство Sape обещает, что все нормализуется

Ситуация вокруг изменений в работе Sape продолжает оставаться самой волнующей темой