Как поисковая машина может определять нежелательные веб-страницы путем анализа входящих ссылок

Статья Билла Славски в переводе Дениса Кучумова.

Термин «нежелательные веб-страницы» используется в опубликованном сегодня патенте Yahoo для обозначения страниц, занимающих в результатах поиска высокое место на основании ссылок, ведущих на эти страницы исключительно с целью повышения их места в результатах поиска для отдельных запросов, даже если эти страницы будут не полностью соответствовать поисковым запросам.

Вероятно, термином «нежелательные» выражается тот факт, что Yahoo не хочет выводить такие страницы на высокие места в результатах поиска.

Что же может анализировать Yahoo (и другие поисковые машины), чтобы решить на основании ссылок, ведущих на страницу, является ли эта страница нежелательной?

Анализ входящих ссылок, созданных с целью манипулирования результатами выдачи.

Когда поисковые машины показывают страницы в ответ на запрос, они собираются в порядке, отображающем их соответствие поисковому запросу, их важность, либо качество.

Одним из способов того, как поисковые машины определяют важность страницы, является анализ количества и важности страниц, ссылающихся на эту страницу. Поисковые машины могут также проанализировать текст, использованный в ссылке, который зачастую называется «якорным текстом», одновременно определяя соответствие страницы фразе или определенному термину, состоящему из ключевых слов.

Однако существует проблема в том, чтобы слишком сильно полагаться на ссылки, ведущие на страницу, с целью определения ее релевантности и важности. Придавая ссылкам такую важность, поисковые машины превратили их в нечто полезное, что определяет, насколько высоко страница может находиться в результатах поиска.

Многие ссылки, ведущие на страницу, создаются не для того, чтобы направлять трафик, или чтобы ссылаться на страницу в особом контексте, а лишь для того, чтобы повысить ее место в результатах поиска, что может привести к появлению «искусственно продвигаемых веб-страниц», которые будут занимать высокие места в результатах поиска, при этом не отличаясь особой релевантностью.

В ответ на эту проблему поисковые машины могут оценивать важность различных ссылок другим способом. Патент от Yahoo описывает, как поисковая машина может различать ссылки, ведущие на страницу, также известные как «входящие ссылки», на основании статистического анализа информации об этих ссылках.

Патент: «Определение нежелательных веб-страниц».
Авторы: Gilbert Leung, Lei Duan, Dmitri Pavlovski, Su Han Chan, Kostas Tsioutsiouliklis
Принадлежит Yahoo
Патент США 20100094868
Опубликовано 15 апреля 2010 года
Подано на рассмотрение 9 октября 2008 года

Отрывок.

Система для определения искусственного продвижения ресурса, включая:

механизм поисковой машины для индексирования набора входящих ссылок, которые ссылаются на ресурс;

модуль логов, соединенный с поисковой машиной и настроенный так, чтобы хранить данные из логов, связанные с набором входящих ссылок;

модуль разбиения, соединенный с модулем логов и механизмом для разбиения набора входящих ссылок на множество групп входящих ссылок на основании минимум одной схемы разбиения;

статистический модуль, соединенный с модулем разбиения и механизмом для вычисления статистических данных, связанных с входящими ссылками в рамках каждого множества групп ссылок;

вычислительный модуль, связанный со статистическим модулем и механизмом для обработки вычисленных статистических данных, связанных с входящими ссылками каждой из множества групп входящих ссылок, и для вычисления метрических данных, связанных с набором входящих ссылок, где метрические данные отражают уровень согласованности распределения значений соответствующих вычисленных статистических данных среди множества групп входящих ссылок, и где поисковая машина размещает список результатов поиска, сгенерированный в ответ на поисковой запрос по образцу, основанному на метрических данных.

При анализе ведущих на страницу ссылок, проводимом для того, чтобы определить искусственное манипулирование ссылками, поисковая машина может проанализировать информацию, связанную с этими ссылками, чтобы попробовать увидеть неестественные модели распределения, связанные с ними.

Поисковые машины могут анализировать такую информацию:

• сегмент IP-адресов источников каждой входящей ссылки;
• имя домена источников каждой входящей ссылки;
• имена доменов высшего уровня, связанных с входящими ссылками, такие, как .com или .edu, или домены высшего уровня по коду страны;
• язык, используемый в каждой входящей ссылке (например, английский, французский, немецкий);
• географический регион, связанный с источником каждой входящей ссылки;
• группа сетевой маршрутизации, связанная с источником каждой входящей ссылки;
• якорный текст (т.е. кликабельный текст), содержащийся в каждой входящей ссылке.

В патенте нам рассказывают, что оценка качества или важности страниц может осуществляться на основании таких основанных на ссылках подходов к ранжированию, как PageRank, или системы, которая придает большее значение новой ссылке и меньшее старой, либо на других алгоритмах.

Статистический анализ информации о ссылках, ведущих на страницу, со временем может привести к снижению страницы в списке в случае, если будут обнаружены модели, свидетельствующие о том, что ссылки на страницу были объектами манипулирования для повышения места страницы в списке результатов поиска.

Заключение

Я писал о ряде других патентов и технических документов от крупных поисковых машин, однако в этом патенте подробно написано о некоторых конкретных видах информации, которые может анализировать Yahoo, о чем не написано в других патентах и статьях.

Существует вероятность того, что Google и Bing могут проводить подобный анализ, рассматривая ссылки, ведущие на страницы.

Источник

Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.