Евгений Трофименко на NetPromoter '09: Использование особенностей языка запросов поиска Яндекса для исследований

30 марта 2011

MetaQuotes Software Corp.

524

Евгений Трофименко, начальник отдела исследований и аналитики корпорации РБС,

тема доклада: Использование особенностей языка запросов поиска Яндекса для исследований

Доклад Евгения состоял из трех частей:

- особенности работы операторов исключения, особенности отработки контекстных ограничений

- результаты мониторинга “прямого эфира” Яндекса

- возможности использования поисковых операторов для мониторинга изменений алгоритма Яндекса

Оператор минут не применяется к текстам ссылок.

оператор ~~ вычищает нпс-результаты из выдачи

можно узнать, как Яндекс расширяет запрос пользователя,

особенности контекстных ограничений

Оператор присутствие + (плюс) - слово обязано находиться

Операторы исключения:

~~ (тильда) исключение в пределах документа; ( ~ предложения)

- недокументированный: был исключением в контексте

Возможный контекст поиска?

документ (текст), предложение (текст)

ссылки (анкор-файл)

расстояние в несколько слов или предложений, явно указанных операторами /(-N +N) или &&/(-N +N)

Поиск точно знает, что есть и чего нет в тексте страницы

поиск не уверен, что знает абсолютно все тексты ссылок

поиск работает и по текстам, и по ссылкам

поэтому при исключении слов у поиска два варианта:

исключать то, что есть в тексте страницы

и искать по тексту ссылок

“не знать” о его существовании - оператор “минус”- оставляем нпс

делать вид, что ссылок не существует “~~” - исключаем нпс

Запрос : что найдем?

слово - документы, содержащие слово в текстах или во входящих ссылках

-слово - исключаются документы, которые содержат слово в тексте

В итоге остаются - найденные по ссылкам документы (сниппет может быть из Я.Каталога)

Для чего это полезно: как эксперимент, для поиска ссылок с конкретными словами

Добавляя в любой запрос исключение ~абракадабры, удаляем нпс

Полезно, для оценки доли найденных по ссылке в выдаче.

[слово-слово]: удаляет найденные по ссылкам результаты, все - по данному запросу

Расширение пользовательских запросов

Яндекс всегда мог переформулировать запросы (колдунщик), но редко это делал. Сейчас это происходит в потоке.

гостиницы в Москве - Московские гостиницы

mazda - мазда

МГУ - московский государственный университет

при исключении слова из запроса - в выдаче остаются и подсвечиваются переформулировки (+ найденное в урл)

слова запроса - слово - оставляет смесь переформулировок и нпс

слово запроса ~~!! (слово) - РАБОТАЕТ

Правда, работает индивидуально: разный результат гостиницы в москве —> гостиницы москвы (переколдовывает)

гостицы Москвы —> гостиницы в Москве (НЕ РАБОТАЕТ)

Кондунщик - расстановка неявных для пользователя ограничений на расстояние между словами, известен с 2004 года

При поиске новый год - (от 1 +3 расстояние год новый до “новый [*][*] год”

По статистике запросов РБС - перебираем и смотрим как узнать реальные ограничения на расстояние между словами.

Вывод: перебор вариантов не дает результатов. Выдача по непереколдованному запросу - отличается.

Контекстные ограничения в Яндексе.

В релизе Магадан сказано, что смягчили фильтрацию отбора документов, которая дает возможность найти слова запроса, находящиеся далеко друг от друга.

Берем +новый +год, оба должны находиться.

~~ (+новый&+год), исключаем результаты поиска, в которых слова находятся “слишком близко”.

Смотрим, как меняется число найденных документов и надеемся, что постепенно при увеличении расстояния оно станет нулевым тогда, когда расстояние совпадает с расстоянием в заколдованном запросе…

Число результатов “далее, чем” - находятся документы даже с расстоянием до 1000 предложений!

Точное количество найденных документов смотрим через Яндекс.XML

Из документации Яндекса

phrase - число документов с буквальным соответствием запросу

strict - число документов с вхождением всех слов запроса в ИСКОМЫЙ КОНТЕКСТ

all - общее число

при strict - есть ноль

Вывод: Яндекс внутри своих алгоритмов знает, что контекстное ограничение существует и он может их показать.

Сейчас в пределах 7 предложений, но не везде.

Вопрос в том, что это за релевантность strict, зачем она нужна?

пример:

нпс - результат в котором очень большое расстояние между словами

отдельная ссылка с одним из двух слов

если смотреть xml, то видно только 1 ссылка с приоритетом all

Вывод : есть контекст all - в который запихивают всякую чепуху, и его выдают в выдачу. Такой результат можно найти в разных запросах.

Статистика использования операторов в поиске Яндекса:

Пробуем регулярно пробивать прямой эфир и искать неправильные символы - смотрим, примерно 300 результатов.

50% - это ошибки, далее - поиск дублей, операторы других поисковых сиситем и исследования (великих людей).

В будущем может быть по-другому.

ошибки - * перед доменом

\ перед кавычкой

+ фраза в кавычках

- 15%

site:

url:

Не всегда понятно, что хотели люди, но посмотреть очень интересно

Например, часть запросов говорит о:

поиск главного домена + ты последний

сбор форумов

сбор баз переформулировок

мониторинг

мониторинг телефонов - ограничение по расстоянию

Самое интересное:

отсутствие в прямом эфире результатов пробивки проиндексированности

url=”domain/path”

при этом операторы domain rhost присутствуют

Вопрос: почему результаты проверки из сапы не видны?

Ответ: возможно, из-за того, чтобы задавить и не искажать статистику Директа. Но это в лучшем случае, а в худшем…

Анализ и мониторинг алгоритма

Существуют вечные основные запросы современности?

Влияет ли тиц на выдачу?

Почему Википедия рулит всех?

мало пассажей в результате - к чему

релевантность - страницы или сайта

и так далее

Пробуем анализировать:

Составим группы запросов, разбитые по числу слов в запросе и посмотрим, как именно изменяются средние по больнице параметры во времени.

То есть, мы понимаем, что тиц на выдачу не влияют - но вдруг, он как то влияет на самом деле - а мы не замечаем?

Как отличить апдейт от релиза, если мы анализируем по базе документов?

Как взвешивать параметры?

- по принципу видимости

- больше место - ниже вес

- сумма видимости по топ 50 равна 1

- сумма весов 1-10 вдвое выше 11-20

WT (pos) =0.074*2^(-pos/10)

03 марта Яндекс почистил выдачу и удалил большое число дублей

Результат - сократилось число индексации страниц старых сайтов

Смотрим дальше: взвешенный тиц в районе 3 числа - сначала резко подскочил, а потом упал, причем значительно.

А по операторам domain и rhost - взвешенный тиц не менялся.

Вывод: взвешенные параметры - очень хороший инструмент для анализа, ну и тиц на выдачу не влияет, но как-то связан.

Вопрос - какая польза РБС от таких исследований?

Ответ - исключения в принципе полезны, но пока все это не нужно; если что, мы можем понимать, как и что изменилось в выдаче, находить новые операторы, понимать, как изменился алгоритм.

Обзор подготовила Катерина Баукина

Евгений Трофименко на NetPromoter '09: Использование особенностей языка запросов поиска Яндекса для исследований

Анар Бабаев на конференции NetPromoter: «Автоматизация составления текстов ссылок, отбор доноров и закупка ссылок»

Анар Бабаев на NetPromoter 09: Автоматизация поискового аудита сайта, отчетности и обоснование затрат

Сергей Людкевич на конференции NetPromoter: «Внутренние факторы, влияющие на индексацию и ранжирование»

Как правильно составить robots.txt

Что ищут люди сегодня: Поисковики и трагедия

Трюки в работе с поисковиками. Часть 1.