Как подменить страницу в поисковой выдаче Google

Дэн Петрович (Dan Petrovic) продемонстрировал возможность «угона» страниц из поисковой выдачи Google с помощью элементарного копирования оригинального контента. Так, он заставил поисковик считать, что страница с MarketBizz находится под его доменом dejanseo.com.au, а не на marketbizz.nl.

Как же ему это удалось? Очень просто! Он скопировал страницу целиком, вместе с исходным кодом и всем остальным, что на ней было, а потом разместил это на новой странице своего сайта, с только что созданным URL-адресом. Затем поставил ссылку на страницу и дал ей «+1». Результат работы проявился на следующий день. Для доказательства успешности проведенного эксперимента Дэн сделал скриншоты результатов поиска в Google по команде info: и по заголовку страницы:

 

Для доказательства того, что это не случайность, он проделал то же самое со страницами с трех других доменов, с разной степенью успешности.

Дэн Петрович подготовил развернутый отчет о своем эксперименте, где приводит теоретические выкладки и результаты экспериментов, проведенных командой по поисковой оптимизации Dejan. Также он предлагает меры по защите страниц от «угона».

Введение

Дэн считает, что обнаруженное им явление не следует считать багом, уязвимостью или ошибкой – это функция поисковой системы. Google имеет алгоритм, предотвращающий появление ссылок на идентичный контент в результатах поисковой выдачи. Это очень замечательная функция… до тех пор, пока вы сами не попадаете на негативную сторону шкалы дублирования контента. Не редко более крупные и авторитетные сайты берут верх над небольшими ресурсами: позаимствовав у них контент, они ранжируются выше. Читайте дальше, чтобы узнать, как это может произойти.

Теория поиска

Когда в сети появляется два идентичных документа, Google использует лишь один из них – тот который имеет более высокий PageRank. Кроме того, он отдает все весь вес ссылок с «дубликатов» на выбранный «основной» документ. Эта теория возникла в голове у Дэна Петровича, когда он читал статью «Крупномасштабная пополняемая обработка с использованием распределенных транзакций и уведомлений», написанную Дениэлем Пенгом (Daniel Peng) и Фрэнком Дебеком (Frank Dabek) из Google.

Вот перевод ее ключевой части:

«Рассмотрим задачу по созданию индекса веб-пространства, способного давать ответ на поисковые запросы. Система индексирования начинается с поиска роботами всех страниц в сети и их обработки, при этом в индексе должен поддерживаться набор инвариантов. Например, если один и тот же контент обнаруживается под несколькими URL-адресами, только URL с более высоким PageRank попадает в индекс. Ссылки преобразуются таким образом, что бы анкорный текст каждой исходящей ссылки прикреплялся к странице, на которую она указывает. Преобразование ссылок должно осуществляться и для дубликатов: при необходимости, ссылки на страницу с дублирующим контентом должны перенаправляться на страницу с наиболее высоким значением PageRank».

Эксперимент

Дэн Петрович решил проверить эту теорию на реальных страницах и индексе Google. Его «жертвами» стали сайты:

• MarketBizz

• Dumb SEO Questions

• ShopSafe

• Блог Рэнда Фишкина (Rand Fishkin)

Эксперимент № 1: MarketBizz

26.10.2012: Роб Маас (Rob Maas) любезно согласился принять участие в эксперименте и предложил одну из своих англоязычных страниц в качестве объекта «угона». Был создан субдомен rob.dejanseo.com.au, на котором разместилась единственная страница http://rob.dejanseo.com.au/ReferentieEN.htm, куда были скопированы HTML-код и изображения с оригинала. Вновь созданная страница получила «+» и ссылку с блога. На этом этапе не было полной ясности в том, насколько похожими (или идентичными) должны быть два документа, чтобы все сработало.

30.10.2012: Поисковая выдача успешно «взломана». Новый субдомен не только заменил страницу Роба в результатах поиска, но и команда info: стала указывать на новую страницу, а оригинальной странице PageRank был изменен с единицы до нуля. Поиск по фрагментам текста с оригинальной страницы, также давал ссылки на новый документ.

Таким образом, все что потребовалось – это более высокий PageRank у новой страницы и несколько дней, за которые она смогла попасть в индекс.

Еще один интересный факт: поиск по запросу site:www.marketbizz.nl Google показывал ссылку на «угнанную» страницу «www.marketbizz.nl/en/ReferentieEN.htm», то есть она не была исключена из поиска по сайту. Но данный URL не был в кэше, что характерно для копий. Кажется, в данном случае, Google провела практически полное склеивание.

Не исключено, что этот способ подмены результатов поисковой выдачи работает в силу того, что Google считает страницу с URL, появившимся позже, важнее оригинальной, которую она подменяет.

Эксперимент № 2: dumbseoquestions.com

30.10.2012: Доброволец Джим Манро (Jim Munro) предложил в качестве очередного объекта «угона» свой сайт dumbseoquestions.com. Тут можно было проверить, насколько разметка авторства помогает противостоять этому методу. Контент был скопирован и воспроизведен на http://dsq.dejanseo.com.au/, при этом не были перенесены графические и иные мультимедийные файлы.

01.11.2012: На следующий день страница Джима была заменена на вновь созданный субдомен, а оригинал превратился в глазах Google в дубль. Это свидетельствует о том, что разметка авторства не смогла оказать серьезное влияние на данное свойство поискового алгоритма. Оригинальный сайт был заменен как по запросу info:, так и по фрагменту текста.

Интересное открытие

Поиск по точному брендовому запросу «Dumb SEO Questions» дал ссылку на оригинальную страницу, а не на только что созданный домен. Это указывает на возможное существование в алгоритме Google слоя соответствий домен/запрос.

Нельзя сказать, что именно разметка помогла сохранить сайту Джима определенные позиции, но было обнаружено, что по некоторым запросам, содержащим точные фразы из текста, в результатах поиска появлялись ссылки на оригинальную страницу с указанием авторства.

На этой стадии еще не было понятно, может ли rel="canonical" предотвратить «угон» страницы. С этой целью был организован еще один эксперимент.

Эксперимент № 3: Shop Safe

Для попытки замещения страницы, содержащей rel="canonical", был создан субдомен http://shopsafe.dejanseo.com.au/. Естественно, сам тег rel="canonical" был удален с дублирующей страницы.

И дублю удалось победить оригинал в поисковой выдаче. Однако замещения результатов по запросу info: не произошло.

После «угона» были удалены все «+1». Сделано это было в попытке проследить, восстановится ли оригинальная страница в выдаче. Через несколько дней оригинальная страница стала по мнению Google, «основной», однако не ясно, стало ли удаление «плюсов» единственной причиной.

Таким образом, вероятными методами защиты могут быть:

• Присутствие на оригинальной странице тега rel="canonical"

• Разметка авторства / ссылки из профиля в Google+ • «+1»

Эксперимент № 4: Блог Ренда Фишкина

На следующем шаге надо было исследовать влияние траста домена, поэтому был выбран авторитетный ресурс. Рэнд Фишкин (Rand Fishkin) дал добро на попытку «угона» его страницы методом, опробованным в предыдущих экспериментах, с внесением некоторых правок в код (ссылки на связанные / предыдущие материалы, авторство, canonical). С учетом того что значительная часть кода была изменена, Дэн показал не целиком успешный результат.

Но ему удалось «угнать» имя Ренда и одну из его статей в поиске Google, однако это можно было увидеть лишь из Австралии.

На скриншоте видно, что в результатах поиска по запросу «rand fishkin» отображается «липовая» страница, созданная всего за несколько дней перед этим. То же самое касается и публикации в блоге. При поиске из Австралии по заголовку статьи, ссылка на оригинальный сайт была заменена на ссылку, ведущую на новый субдомен.

Можно предположить две возможные причины «географической блокировки»: • домен на .au содержит копию • домен на .au ссылается на скопированную страницу

«Угон» оказался не полным

Чего не удалось достичь в четвертом эксперименте, так это полностью заместить URL оригинальной страницы (так чтобы info: указывал на субдомен), как это было сделано со страницей Роба. Может быть это отчасти связано с тем, что код скопированной страницы немного отличался от оригинального, а, может быть, из-за разметки авторства Рэнда, которая поначалу осталась нетронутой. Кроме того, блог Рэнда имеет гораздо больше социальных сигналов и входящих ссылок, чем объекты других экспериментов.

Интересное наблюдение

Когда создается страница с дублирующим контентом, и она превращается в основной «канонический» документ, то на нее переходит PageRank, кэш, ссылки, info и даже все «+1» Рэнда. Да, она забирает даже «+1». То есть, если вы даете одному из дублей «+1», он передается адресу той страницы, которую Google считает основной версией. Но если вы поставите «+1» основному URL, он может быть виден и на других страницах, которые Google считает копиями. Подтверждение: http://rand.dejanseo.com.au/ демонстрировал все 18 «+1», которые были поставлены в блоге Рэнда Фишкина.

То есть, в случае полного «угона», оригинальная страница теряет все «+1», и они передаются документу-победителю, но в последнем случае «+1» показывались по обоим адресам. Может быть, эта ситуация возникла из-за наличия авторской разметки на самой странице.

Превентивные меры

Необходимы дополнительные исследования для подтверждения того, что повышение траста (авторитета) страниц является наиболее надежным способом их защиты от «угона» посредством вышеописанного метода.

Канонизация

Многие сайты занимаются простым копированием определенной части контента с наших ресурсов. Обычно это делается на уровне кода (особенно, если используются программные средства). А это значит, что присутствие тега rel="canonical" (полный URL-адрес) будет гарантией того, что Google будет знать, какой из документов является каноническим. Следует лишь иметь в виду, что Google использует rel="canonical" в качестве подсказки, а не абсолютного указания, поэтому не исключена замена URL в поисковой выдаче, даже если страница канонизирована.

Существует также способ защиты документа (например, PDF) – посредством канонизации заголовка:

GET /white-paper.pdf HTTP/1.1

Host: www.example.com

(…продолжение HTTP-кода заголовка…)

HTTP/1.1 200 OK

Content-Type: application/pdf

Link: ; rel="canonical"

Content-Length: 785710

(… продолжение HTTP-кода заголовка…)

Разметка авторства

Дэн Петрович не берется утверждать, что разметка авторства поможет предотвратить подмену ссылки в поисковой выдаче, но это может быть дополнительным фактором или сигналом, который, в любом случае, реализовать не сложно.

Внутренние ссылки

Вставляйте в контент полные URL-адреса на главную и другие страницы сайта. Если кто-то скопирует тексты, то они автоматически будут передавать PageRank вашему ресурсу. Естественно, это не поможет, если скопировавший отредактирует контент и перенаправит ссылки на собственный домен.

Мониторинг контента

С помощью таких сервисов, как CopyScape или Google Alerts вебмастера могут следить за появлением фрагментов своего контента на других сайтах. Если это произойдет, следует действовать быстро и направить владельцу ресурса, где появился контент, запрос на его удаление или размещение активной ссылки на сайт-первоисточник. Последнее целесообразно, если материал был скопирован на сайт, обладающий высоким авторитетом.

Google вводит меры противодействия «угону» страниц

Эксперименты Дэна Петровича по копированию контента и подмене страниц в поисковой выдаче привлекли внимание не только специалистов по поисковой оптимизации, но и Google. Похоже, что в связи с этим вносятся изменения в поисковый алгоритм.

17.11.2012: В Инструментах для вебмастеров Google автор получил сообщение о том, что на некоторых из страниц его сайта используются методы не соответствующие Руководству Google для веб-мастеров:

После этого Роб Маас заметил, что Google разобрался в том, кому принадлежит «угнанный» контент, и теперь из поисковой выдачи ссылки ведут на его сайт.

Похоже, что теперь веб-мастера могут быть более спокойными по поводу возможного «угона» страниц с их сайта, так как Google пытается заботиться о них и о контенте, принадлежащем им.

Google пока воздерживается от комментариев, а Дэн Петрович приостановил эксперимент, чтобы скопированный контент не навредил его сайту.

Таким образом, Google еще раз подтвердил, что, рано или поздно, он выводит спамеров на чистую воду.



Автор эксперимента: Дэн Петрович (Dan Petrovic) – Известный эксперт в SEO, работающий в Австралии, управляющий директор Dejan SEO. Им опубликовано множество статей о результатах экспериментов в области поисковой оптимизации и онлайн-маркетинга. Работы Дэна высоко ценятся мировым сообществом SEO-специалистов.

Использованные материалы:

http://dejanseo.com.au/hijacked/

http://searchengineland.com/hijacking-google-search-results-without-hacking-139655

http://dejanseo.com.au/google-against-content-scrapers/

Перевод: Александр Никитин

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.