Растолкованный PageRank, часть 1

Написано и придумано Крисом Райдингсом (Chris Ridings), владельцем

http://www.searchenginesystems.net/

Отредактировано Джилл Вэйлен (Jill Whalen), владельцем HighRankings.com

и комодератором рассылки Rank Write Roundtable (http://www.rankwrite.com/)

Переведено на русский язык и прокомментировано Александром Садовским,

http://digits.ru/

Введение

Этот документ раскрывает мое понимание и точку зрения на алгоритм PageRank в Google. Для тех, кто не знает меня: я разрабатываю поисковые системы на заказ. Поэтому мне присуще программистское понимание алгоритмов поисковых систем, как они работают, что они могут делать, а что нет. Из-за этого я способен сделать немало выводов о том, как работает PageRank. Я верю, что информация в данном документе настолько точна, насколько возможно. Никто не знает наверняка детали PageRank, исключая саму Google 1. Не стесняйтесь спрашивать о выводах, которые вы не можете понять; с помощью общения мои предположения могут стать более корректными. Пишите, пожалуйста, мне на chris@searchenginesystems.net свои вопросы и комментарии.

Достаточно предисловий, приступим к тому, чему посвящен этот документ — к PageRank!

Что такое PageRank?

PageRank — это метод Google для измерения «важности» страницы. Когда все другие факторы, такие как тэг Title и ключевые слова учтены, Google использует PageRank, чтобы откорректировать результаты так, что более «важные» сайты поднимутся соответственно вверх на странице результатов поиска пользователя.

То есть, порядок ранжирования в Google работает следующим образом:

  1. Найти все страницы, соответствующие ключевым словам поиска.
  2. Отранжировать соответственно «страничным факторам», таким, как ключевые слова.
  3. Учесть текст ссылок на страницы.
  4. Откорректировать результаты данными PageRank.

Как определяется PageRank?

Теория Google гласит, что если Страница A ссылается на страницу B, то Страница А считает, что Страница B — важная страница. Текст ссылки не используется в PageRank. PageRank также влияет на важность ссылок на страницу. Если на страницу указывают много важных ссылок, то ее ссылки на другие страницы также становятся более важными.

Насколько важен PageRank?

Значимость каждого отдельного фактора в алгоритмах поисковой системы зависит от качества информации, которое он обеспечивает. Поэтому имеет смысл вначале взглянуть на это качество.

Когда Гугл был лишь крохотным Гугленком в подгузниках, можно было с уверенностью сказать, что ссылка была точным признаком рекомендации. Однако, в настоящее время это больше не так по двум очень важным причинам:

  1. Интернет существенно изменился. Ссылка сегодня это, скорее, лишь связанный сайт, лицензионное требование или ответная услуга (как перекрестные ссылки), чем истинная рекомендация 2.
  2. Как только вы создадите поисковую машину, которая рассматривает ссылки как рекомендации, люди начнут пытаться воздействовать на ссылки. Как только они станут воздействовать на них, ссылки перестанут быть рекомендациями.

Поэтому надежность информации, обеспечиваемой ссылками, не обязательно хороша, и она постоянно уменьшается. Это является причиной низкой и все время уменьшающейся важности PageRank в алгоритме ранжирования Google.

Тем не менее, у PageRank есть одно реабилитирующие его свойство. На него трудней влиять, чем на любой другой фактор ранжирования. Это означает, что у PageRank есть возможность дать вам преимущество перед конкурентами, когда он использован в комбинации с другими приемами оптимизации для поисковых машин. Однако, я предупреждаю вас: тут нет коротких путей. Для эффективного использования PageRank вам нужно будет понять его полностью, иначе есть шансы, что вы будете тратить ваше время зря.

Основные факты о PageRank

Для понимания оставшейся части этого документа, вам нужно знать несколько фактов о PageRank.

  1. PageRank — это число3, характеризующее исключительно голосующую способность4 всех входящих ссылок на страницу и то, как сильно они рекомендуют эту страницу.
  2. Каждая уникальная страница сайта, проиндексированная Google, имеет вес PageRank. Люди часто ошибаются, думая о весе сайта, который на самом деле является весом главной страницы этого сайта 5.
  3. Внутренние ссылки сайта учитываются при расчете веса PageRank для других страниц сайта.
  4. PageRank независим, он не принимает во внимание текст ссылок и т. д. Конечно, они связаны, но говорить, что это одно и то же, это все равно что говорить, будто тэг Title то же самое, что ключевые слова в тексте.

1 Детали реализации действительно скрыты, но сам алгоритм PageRank не является секретом и прекрасно описан в статьях «The PageRank Citation Ranking: Bringing Order to the Web», а также «The Anatomy of a Large-Scale Hypertextual Web Search Engine», написанных создателями Google — Сергеем Брином и Лоренсом Пэйджем (какая подходящая фамилия!) [Прим. А. С.]

Назад к тексту

2 Крис не упомянул партнерские программы магазинов, а также широко распространенные в русскоязычном интернете баннерные сети и счетчики, сайты которых за счет обратных ссылок могут «незаслуженно» иметь большой вес. [Прим. А. С.]

Назад к тексту

3 Крис употребляет термин «PageRank» в двух разных смыслах. Первый — это алгоритм PageRank. Второй — это собственно вес страницы, вычисленный на основании данного алгоритма. Это связано с тем, что «page rank» означает «ранг страницы», то есть вес, и в английском тексте нет смысла повторять слово дважды. Но в русском переводе это не очевидно, поэтому, чтобы избежать путаницы, в дальнейшем, где это будет необходимо, во втором смысле будет использоваться термин «вес страницы» или «вес PageRank». [Прим. А. С.]

Назад к тексту

4 Автор подразумевает, что каждая страница, ссылаясь на другую страницу, «голосует» за нее. Голосующая способность тем больше, чем больше вес PageRank у ссылающейся страницы. [Прим. А. С.]

Назад к тексту

5 Поисковая система Апорт вычисляет вес PageRank для каждой страницы, но учитывает только одну ссылку с каждого домена второго уровня. То есть даже если на ваш сайт указывают 100 ссылок с разных сайтов на хостинге narod.ru (site1.narod.ru, site2.narod.ru и т. д.), то Апорт все равно зачтет их как одну ссылку. [Прим. А. С.]

Назад к тексту

Top-50 запросов 2001 года от Lycos

Lycos.com опубликовал список самых популярных запросов 2001 года

Google Zeitgeist - климат 2001 года

Google опубликовал Zeitgeist - это немецкое слово переводится как “Общий интеллектуальный, моральный и культурный климат эпохи”

Новогодний сюрприз от Яндекса

Первый наличный евро в России будет выплачен компании Яндекс за изготовление специального сайта для новой валюты, которому выделена половина главной страницы Яндекса

Растолкованный PageRank, часть 2

Как вы можете обнаружить, какой у страницы вес? Вы можете скачать тулбар [toolbar, инструментальная линейка — прим. А

Растолкованный PageRank, часть 3. Пример расчета

Прошлый раз мы вплотную подошли к попытке расчета PageRank, а, точнее, его упрощенной версии - Minirank...

Растолкованный PageRank, часть 4

Воздействие на результаты Зная, как это работает, и что Google в некоторых случаях воздействует на результаты PageRank, мы в состоянии решить, что именно Google может делать