Методика Н. Харина-И.Ашманова для оценки релевантности

Упрощённая методика сравнительной оценки технической эффективности поисковых машин Интернет
Н.Харин, И.Ашманов
Москва, 28.11.2000
1. Что такое техническая эффективность

Общая эффективность работы поисковой машины характеризуется рядом параметров, среди которых можно выделить скорость поиска по запросу, объём базы, удобство представления результатов, скорость индексирования информации и т.д. Особое место среди этих параметров занимают показатели качества поиска. Будем говорить, что эти показатели являются характеристиками технической эффективности поисковой машины. Техническая эффективность поисковой машины выражается в ее способности находить нужные документы и только их. Предметом настоящего документа является оценка технической эффективности поисковых машин Интернет. Общая эффективность рассматривается в ограниченном объеме, необходимом для анализа технической эффективности.

2. Параметры технической эффективности

В общем случае найденные по запросу документы относятся к одному из двух категорий: одни соответствуют запросу (релевантны), другие запросу не соответствуют, то есть нерелевантны. Количество релевантных документов в выдаче и характеризует качество поиска, то есть техническую эффективность поисковой машины. Техническую эффективность поиска оценивают двумя параметрами – полнотой и точностью. Полнота есть отношение количества найденных релевантных документов к полному количеству релевантных документов в базе данных. Точность поиска есть отношение количества найденных релевантных документов на полное количество найденных документов.
Пример. Пусть по запросу найдено 50 документов. После просмотра всех этих документов пользователь принимает решение, что 30 документов релевантны запросу, а 20 нерелевантны. Сплошной просмотр всей базы данных показал, что в ней содержится 100 документов, релевантных запросу. Отсюда получаем:

  • полнота 30/100 = 0.3;
  • точность 30/50 = 0.6.

Нужно заметить, что релевантность относится к смыслу документа и к смыслу запроса (не всегда очевидному), поэтому релевантность – вещь субъективная и зависит от мнения пользователя о соответствии документа запросу. Тестирование должно сводить субъективность к минимуму за счёт достаточно большой группы тестирующих, точной формальной методики и так далее.

3. Особенности оценки технической эффективности

1. Приоритетно тестирование точности. В типовом случае по запросу находится очень много документов, среди которых немало и релевантных. Поэтому большее значение имеет не полнота, а точность поиска. Действительно, рассмотрим 2 поисковые машины. По некоторому запросу 1-я машина находит 200 документов и все они релевантные. 2-я машина по этому же запросу находит 5000 документов, из которых релевантны 500, причем среди первых 200 документов релевантны только 100. И хотя полнота поиска2-й машины существенно выше, совершенно очевидно, что лучше 1-я машина, поскольку редкий пользователь способен просмотреть несколько сотен найденных документов (чаще же всего пользователь ограничивается первой страницей результатов поиска).
2. Нужно тестировать качество ранжирования. Найденные документы выдаются в ранжированном виде, поэтому при оценка качества поиска нужно учитывать позицию документа в списке найденного, то есть качество поиска по запросу следует характеризовать набором значений точности при разном размере начальной части списка документов, например, задавать значения точности при 10, 30, 50, 70 и 100 документах из начальной части списка. Чем больше количество значений, тем точнее оценка, но и трудоемкость оценки больше.
3. Нужна градация значений точности. Из множества значений точности, характеризующих качество поиска по запросу, более важны те, которые получены для небольшого количества документов. Например, точность при 30 документах важнее точности при 300 документах. Другими словами, основной интерес представляет зависимость между полнотой и точностью в области малых значений полноты.

4. Методика оценки технической эффективности

Исходя из перечисленных выше особенностей поиска в Интернет, предлагается следующая методика оценки технической эффективности поисковых машин.

4.1. Отбор множества запросов

Выполняется среди запросов, поступающих на некоторую поисковую машину. При отборе запросов следует учитывать два фактора:

  • Частота запроса (т.е. сколько раз запрос поступал на поисковую машину за какой-то период времени);
  • Тип запроса. Самая простая классификация – по количеству слов запроса.

Отсюда вытекает простейший способ отбора множества запросов, который поясним на следующем примере.
Необходимо отобрать 100 запросов. Отношение суммарной частоты всех запросов, состоящих из одного слова, к суммарной частоте всех запросов равно примерно 0.5. Поэтому отбираем 50 однословных запросов с максимальной частотой. Отношение суммарной частоты запросов из двух слов к суммарной частоте всех запросов равно 0.3. Поэтому отбираем 30 двухсловных запросов с максимальной частотой. Дальше действуем аналогичным образом.

4.2. Формирование условий релевантности

Данный этап необязательный, однако без него будут получены завышенные (скорее даже, сильно завышенные) оценки технической эффективности.

Поясним смысл настоящего этапа. Большинство запросов к поисковым машинам Интернет состоит из малого числа слов. Автор запроса, скорее всего, имеет в виду гораздо больше того, что им указано в запросе.

Пример. Рассмотрим запрос «Большой театр». Возможны самые разные интерпретации данного запроса (то, что подразумевалось автором запроса) — например:

  • Все документы, в которых упоминается Большой театр;
  • Как найти сайт Большого театра;
  • Основные сведения о Большом театре: ведущие артисты, готовящиеся премьеры, история театра;
  • Как заказать билеты на спектакль в Большом театре.

Таким образом, задачей настоящего этапа является формирование наиболее вероятной интерпретации запроса. Интерпретаций может быть несколько. Так, в случае рассматриваемого примера наиболее вероятными представляются 2-я и 3-я интерпретации. Две эти интерпретации и составят условие релевантности документов запросу Большой театр. Иными словами, для данного запроса получаем следующее описание:

Запрос «Большой театр»:
Условие релевантности: релевантными следует считать следующие документы:

  • документы с сайта Большого театра;
  • документы, содержащие основные сведения о Большом театре: ведущие артисты, готовящиеся премьеры, история.

А теперь предположим, что для рассматриваемого запроса не было составлено условие релевантности. В этом случае при оценке релевантности найденных документов с большой вероятностью будет использована первая интерпретация, то есть нерелевантными будут считаться только те документы, в которых явно не говорится о Большом театре. Например, будет признан релевантным документ, содержащий единственное вхождение: «Я целых пять лет не был в Большом театре».

Таким образом, понятие релевантности при тестировании должно отличаться от простой констатации факта нахождения на странице искомых слов. Тестирующего должен интересовать смысл документа и его соответствие условию релевантности, а не механическое обнаружение слов на странице.

На условия релевантности также влияют соображения о том, что в большинстве своём хотят найти пользователи, дающие этот запрос. Если большинство пользователей имеет в виду только один смысл из всех возможных смыслов данного запроса, то его и нужно признать условием релевантности.

Пример: запросу «руки вверх» релевантны сайты, содержащие сведения о музыкальной группе «Руки вверх», и не релевантны анекдоты про Штирлица, хотя данное словосочетание в них и встречается, поскольку подавляющее большинство пользователей ищет именно группу «Руки вверх».

4.3. Формирование характеристических множеств запросов

По каждому запросу проводим поиск во всех сравниваемых поисковых машинах. Для некоторого количества документов из начала списка эксперт принимает решение относительно их релевантности запросу. При этом обязательно учитываются условия релевантности (п. 4.2).
Решение о релевантности или нерелевантности документа принимается после просмотра его полного текста, а не аннотации, выдаваемой в результатах поиска по запросу. Если полный текст документа недоступен, то его не учитываем. Пусть, например, недоступен полный текст 2-го из найденных документов. Тогда полагаем, что этот документ вовсе не был найден, а 2-м по порядку является 3-й из выданных документов (если, конечно, доступен его полный текст), Таким образом, анализируем, например, не просто первые 100 из найденных документов, а те первые 100 из найденных документов, для которых доступны их полные тексты.
На основе полученных оценок релевантности применительно к каждой машине формируем характеристическое множество запроса.
Под характеристическим множеством запроса понимаем значения точности, полученные при разном количестве документов из начальной части списка найденных документов.

Пример. Характеристическое множество содержит 5 элементов — значения точности при 10, 30, 50, 70, 100 документах из начальной части списка найденных документов. При такой структуре характеристического множества эксперт должен принять решение о релевантности первых 100 из найденных документов (для которых, к тому же, доступен полный текст).

Предположим, что для одной из сравниваемых поисковых машин имеем следующие результаты:

Число документов

Из них релевантных

Точность

10

8

8/10

30

15

15/30

50

23

23/50

70

30

30/70

100

40

40/100

Тогда получаем следующее характеристическое множество запроса:

(0.8, 0.5, 0.46, 0.43, 0.4).

4.4. Некоторые особенности формирования характеристических множеств

Относятся к случаю, когда найдены документы в количестве, недостаточном для вычисления всех элементов характеристического множества. Тогда расчет выполняем в предположении, что имеются дополнительно найденные документы, но все они нерелевантные.

Пример. Характеристическое множество содержит 5 элементов — значений точности при 10, 30, 50, 70, 100 документах из начальной части списка найденных документов. По анализируемому запросу найдено 40 документов, причем имеем следующие результаты:

Число документов

Из них релевантных

Точность

10

8

30

15

40

20

Тогда полагаем, что по запросу найдено 100 документов, из которых последние 60 нерелевантны. В соответствии с предположением имеем следующий результат:

Число документов

Из них релевантных

Точность

10

8

8/10

30

15

15/30

50

20

20/50

70

20

20/70

100

20

20/100

Окончательно получаем следующее характеристическое множество запроса:

(0.8, 0.5, 0.4, 0.29, 0.2).

4.5. Вычисление релевантности поиска по запросу

Каждому элементу характеристического множества назначается вес. Релевантность равна взвешенной сумме элементов характеристического множества запроса. Если веса элементов характеристического множества одинаковы, то в этом частном случае средняя релевантность равна среднему арифметическому от элементов характеристического множества запроса.

Пример. Задан следующий набор весов элементов характеристического множества запроса: (5, 4, 3, 2, 1). Запрос имеет характеристическое множество (0.8, 0.5, 0.46, 0.43, 0.4).

Тогда средняя релевантность равна:

0.8*5/15 + 0.5*4/15 + 0.46*3/15 + 0.43*2/15 + 0.4*1/15 = 0.267 + 0.133 + 0.092 + 0.057 + 0.027 = 0.576.

4.6. Вычисление средней релевантности поиска по всем запросам

Средняя релевантность по всем запросам является единой характеристикой технической эффективности поисковой машина, определяется как среднее арифметическое от значений релевантности поиска по отдельным запросам. Чем больше средняя релевантность, тем выше техническая эффективность поисковой машины.

5. Рекомендуемые размеры и веса элементов

Мы рекомендуем взять пять элементов – значения точности поиска для первых 10, 30, 50, 70, 100 документов, найденных по запросу, и назначить следующие веса элементов: (5,4,3, 2, 1), как в приведённых выше примерах.

6. Множество тестовых запросов

В данном множестве приведено 100 запросов, наиболее часто поступавших на поисковую машину Рамблер по состоянию на май 2000 г. Отбор запросов проводился в соответствии с подходом, изложенным в п. 4.1 настоящего документа. При этом запросы с ненормативной лексикой не учитывались.
Ниже приводятся тестовые запросы, сгруппированные по количеству содержащихся в них слов.

6.1. Запросы из одного слова

1) рефераты
2) гороскоп
3) халява
4) mp3
5) чат
6) открытки
7) игры
8) работа
9) icq
10) сонник
11) Чечня
12) анекдоты
13) поздравления
14) фото
15) футбол
16) кавказ-центр
17) музыка
18) хакер
19) Земфира
20) crack
21) мода
22) библиотека
23) мебель
24) картинки
25) Москва
26) психология
27) сочинения
28) фоменко
29) оружие
30) ваз
31) mtv
32) стульчик
33) тосты
34) новости
35) словари
36) программы
37) приколы
38) драйвер
39) delphi
40) радио
41) журнал
42) аккорды
43) алсу
44) games
45) Путин
46) досуг
47) экология
48) dvd
49) бодибилдинг
50) кино

6.2. Запросы из двух слов

51) карта москвы
52) мумий тролль
53) телефонный справочник
54) русское радио
55) скрытые камеры
56) кавказ центр
57) руки вверх
58) виртуальные открытки
59) britney spears
60) доска объявлений
61) телефонная база
62) секретные материалы
63) желтые страницы
64) горные лыжи
65) прогноз погоды
66) русское лото
67) российская газета
68) курс доллара
69) машина времени
70) курсы валют
71) тексты песен
72) библиотека мошкова
73) backstreet boys
74) расписание поездов
75) сектор газа
76) visual basic
77) tomb raider
78) психологические тесты
79) живые камеры
80) доски объявлений

6.3. Запросы из трех слов

81) день святого валентина
82) гости из будущего
83) московская коллекция рефератов
84) правила дорожного движения
85) телефонный справочник москвы
86) работа за рубежом
87) соло на клавиатуре
88) англо-русский словарь
89) китайский новый год
90) работа для вас
91) горе от ума
92) аргументы и факты
93) центральный дом подарков
94) московская регистрационная палата
95) великая отечественная война
96) российская государственная библиотека
97) комитет солдатских матерей

6.4.Запросы из четырех слов

98) из рук в руки
99) теория государства и права
100) red hot chili peppers

Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.