Link Popularity для чайников (и все такое ;-)). Часть 2

Вычисление.
Всего четыре шага. Это достаточно просто, но откуда начинать считать? Чтобы определить PageRank, как говорилось выше, мы должны знать PageRank всех страниц из списка ссылок, что мы и попытаемся сейчас выяснить.
Результат в формуле PageRank достигается путем повторения вычислений, до тех пор пока не получится устойчивый результат. Это означает, что мы можем начинать считать откуда угодно и все равно придем к нужному результату.

Чтобы продемонстрировать, как это работает, я создал небольшую паутину из 10 вэб-страниц, и мы будем вычислять PageRank для того, чтобы упорядочить эти страницы согласно их “важности”.

Нажмите здесь, чтобы помотреть Диаграмму.

Круги на ней обозначают вэб-страницы, линии между ними — гиперссылки, а стрелки показывают направление ссылок ( как все запутано, а? :-)). Но все быстро проясняется как только мы начинаем вычисления. При последовательном продвижении по нашему плану, сначала создаем список ссылок. Итак А:

А содержит 6 in-ссылок, со страниц B, E, G, H, I, и J.

Затем мы находим PageRank для каждой из страниц этого списка. Так как на данный момент мы не знаем PageRank этих страниц, мы произвольно назначим каждой странице PageRank = 1 для первой итерации алгоритма.

Затем мы рассчитываем количество исходящих ссылок для каждой страницы листа и делим PageRank на результат вычислений. При использовании списка списка ссылок для A, мы получаем следующую таблицу:

Страница
PageRank
# out-links
PR/out-links

B
1
6
0.1667

E
1
4
0.2500

G
1
3
0.3333

H
1
2
0.5000

I
1
4
0.2500

J
1
3
0.3333

Итого:
1.8333

На последнем шаге, мы применяем коэффициент затухания:

1.8333 * 0.85+(1-0.85)= 1.7083.

После первой итерации, PR (A) = 1.7083

Повторяя данные действия для каждой из десяти страниц нашей сети, получаем следующие результаты, перечисленные ниже в порядке ранга страниц. (Вы можете проверить мою работу, создавая таблицу для каждой из других 9 страниц точно так же как таблицу, которую я делал для A, если у вас есть основания не доверять мне 🙂 )

PR(A)= 1.7083
PR(J)= 1.4250
PR(G)= 1.2833
PR(H)= 1.0708
PR(C)= 0.8583
PR(D)= 0.8583
PR(F)= 0.7875
PR(I)= 0.7167
PR(E)= 0.5042
PR(B)= 0.3625

Итак, рассмотрим этот список, он уже имеет некий смысл. А содержит наибольшее количество in-links и стоит первой в списке, как страница имеющая наибольшее значение, а B — наименьшее и соответсвенно стоит в списке последней, как наименее важная из всех. Но второе место страницы J кажется не совсем правильным, так как G имеет больше входящих ссылок (4 против 3). Так что, давайте-ка еще раз проведем все вычисления.

Вторая Итерация
Мы используем ту же самую последовательность шагов, но на этот раз, вместо использования произвольной 1 для значения PageRank каждой страницы,будем использовать значения из вышеупомянутой таблицы, то есть результаты первой итерации. Так, после вычислении списка ссылок для А во второй итерации, получаем следующую таблицу: Страница
PageRank
out-links
PR/out-links

B
0.3625
6
0.0604

E
0.5042
4
0.1261

G
1.2833
3
0.4278

H
1.0708
2
0.5354

I
0.7167
4
0.1792

J
1.4250
3
0.4750

Итого
1.8039

После применения коэффициента затухания получаем PR (A) = 1.6833 после второй итерации.

Посмотрите, что получилось в результате наших повторных вычислений. Возьмем в качестве примера B: обратите внимание, что вместо значения PR/out-links = 0.1667, на этот раз B добавляет к итоговому значению PageRank страницы А всего лишь 0.0604. Иными словами, после первого шага вычислений, важность B уменьшилась по сравнению с произвольным начальным значением 1, и теперь страница B добавляет к итоговому результату PageRank для A меньшую величину. Как только мы перестаем каждой странице по умолчанию присваивать PageRank=1, каждая из них начинает способствовать повышению результата исходя из собственной “важности”.

Я не буду приводить подробные вычисления для других страниц (вам придется поверить мне на слово, что я не ошибся :-)); приведу лишь итоговые результаты, полученные после второй итерации алгоритма:

PR(A)= 1.6833
PR(G)= 1.5442
PR(J)= 1.4870
PR(H)= 1.3335
PR(F)= 1.0502
PR(C)= 0.7731
PR(D)= 0.7173
PR(I)= 0.5361
PR(E)= 0.3537
PR(B)= 0.2572

Как вы видите, список немного изменился. G и J поменялись местами, интуитивно кажется что это правильно, по причине упомянутой выше. F поднялась с 7-ой на 5-ую позицию, соответственно опустив в списке C и D. Давайте посмотрим почему.

Посмотрите еще раз на структуру диаграммы. C, D, и F все имеют 3 in-links, но обратите внимание, что одна из входящих ссылок для F идет от A, в то время как A не ссылается ни на C, ни на D. А является наиболее важной ( высоко ранжированной) страницей в этой области и ссылка с нее имеет больший вес, чем ссылка с какой-либо другой страницы, так что F получает большее увеличение PageRank, чем C и D. Давайте теперь посмотрим, изменится ли что-либо в нашем списке при третьей итерации.

Третья Итерация
Я не буду подробно расписывать вычисления и приведу только результаты. PageRank страниц после 3-ей итерации выглядит следующим образом:
PR(A)= 1.8020
PR(G)= 1.6515
PR(H)= 1.4019
PR(F)= 0.9920
PR(J)= 0.9496
PR(C)= 0.7774
PR(D)= 0.7389
PR(I)= 0.6328
PR(E)= 0.3004
PR(B)= 0.2260

Только одно изменение: J опустилась с 3-ей позиции на к 5-ую, подняв H и F. Почему? Обратите внимание, что H и F имеют ссылки с A, в то время как J их не имеет. Еще раз повторю, что наличие ссылки от важной страницы увеличивает важность. Сравните F и H, обе они имеют 3 in-links. Ссылки на F идут с A, B, и C, в то время как на H — от A, C, и F. Это единственное различие — разность между весом ссылки B (внизу списка) и F ( около вершины) и поднимает H в списке выше чем F.

Хотя мы не приводим пример этого, но вы можете увидеть, как единственная ссылка от A повышает PageRank для страницы больше, чем три последние ссылки из списка вместе взятые. При большем количестве рассматриваемых страниц, разрыв в PageRank которых более велик, “качество” ссылки имеет большее значение чем в этом примере, где видно как различаются относительные ранки страниц с одинаковым количеством in-links .

Четвертая Итерация: Мы закончили!
После 4-ой итерации, значения PageRank немного изменились но порядок остался тем же:
PR(A)= 1.7132
PR(G)= 1.5575
PR(H)= 1.4126
PR(F)= 1.0230
PR(J)= 0.9764
PR(C)= 0.8162
PR(D)= 0.7844
PR(I)= 0.6036
PR(E)= 0.3165
PR(B)= 0.2138

Порядок остается таким же и при проведении дальнейших итераций, и кажется стабилизировался, так что на этом можно остановиться. Этот последний список содержит то, что мы назовем — “официальные” значения PageRank нашей небольшой 10-страничной области.

Полученные уроки
Это просто, правда? На самом деле, конечно же все гораздо сложнее, но если вы поняли этот маленький пример, то сможете и понять как работает эта схема применительно ко всему Интернету. Вы конечно же не сможете учесть в расчетах все страницы сети, сложность взаимосвязей между миллиардом или около того страниц неохватываема человеческим разумом, тем не менее, мы можем понять и оценить то, как определяется “важность” каждой конкретной страницы. Более важным, для большинства из нас, так или иначе, является то, что теперь мы можем использовать наше понимание этого алгоритма, чтобы понимать смысл всех тех разговоров о Link Popularity, о которых говорилось в начале статьи.
Давайте начнем с фразы, которая открыла эту статью: “Чтобы поместить ваш сайт на верхние позиции поисковиков, важно, чтобы множество других сайтов имело ссылку на ваш “. Истинное утверждение, если можно так сказать. Вообще, чем больше существует in-links на ваш сайт, тем выше вы будете ранжированы в поисковых результатах. Но, как мы видели, вес ссылок различен, и одна “высококачественная” ссылка может легко перевешивать несколько менее качественных ссылок.

Далее: “Качество ссылки имеет большее значение, чем количество ссылок. Вы добьетесь более высоких результатов в поисковиках, если ваша Link Popularity будет основываться на ссылках с сайтов, имеющих значительный трафик. ” А вот это утверждение не совсем верно. Трафик не имеет никакого отношения к link popularity. “Качество” сайта — это и есть, ни что иное, как PageRank. Все ссылки (любого “качества”) способствуют увеличению ранга вашего сайта, только “качественные” ссылки способствуют больше. Трафик не дает ничего.

Или рассмотрим это высказывание: ” FFA (Free For All) сайты не увеличивают ранг вашего сайта.” В целом, правильно. Хотя все входящие ссылки улучшают вашу “важность”, FFA, чье большое количество out-links нивелирует любую важность, которую они могли бы иметь, будут способствовать очень немного. Также можно рассматривать и спам-сайты (сделанные только для увеличения PageRank других сайтов), поисковики могут просто не включить их в свою базу — ссылка с непроиндексируемого сайта ничего не дает.

И наконец, об этом: ” Ссылки с .gov и .edu сайтов лучше чем ссылки с домашней странички вашей кузины.. ” Возможно. Сайты на доменах .gov или .edu сами по себе не имеют никаких дополнительных преимуществ, но все таки более вероятно, что эти сайты имеют больше ссылок на самих себя, чем сайт вашей кузины, и соответственно, имеют более высокий PageRank. Это единственное, что может сделать эти сайты лучше.

Главный урок здесь, который можно извлечь из этой статьи следующий: Если Вы хотите занимать хорошие позиции в поисковиках, что является результатов высокого значения PageRank (или любого другого алгоритма link popularity, которые используют поисковики), обратите внимание на содержимое вашего сайта. Делая страницы c качественным содержимым и удобной навигацией, вы добъетесь того, что другие вэбмастера будут считать за честь для себя, поставить ссылку на ваш сайт, поднимая тем самым престиж своего сайта. И эти входящие ссылки на ваш сайт, особенно с сайтов, которые важны сами по себе, будут увеличивать важность вашей страницы.

Оригинал статьи
Автор статьи: Стив Класон
Вольный перевод: Topper

Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.