Интервью Эрика Энджа с Мэттом Каттсом. Часть I

Перевод расшифровки интервью Matt Cutts Interviewed by Eric Enge, Stone Temple Consulting

Часть II

Эрик Эндж: давай немного поговорим о таком понятии как «краулинговый бюджет». Мое понимание состоит в том, что Googlebot приходит на сайт с заданным количеством страниц, которые надо записать за день, и сразу его покидает как только выполняет заданное количество.

Мэтт Каттс: я постараюсь объяснить несколько вещей, которые стоит иметь в виду. Первое – на самом деле нет такого понятия как «потолок индексации». Многие люди думают, что с домена проиндексируется только определенное число страниц, но это работает немного не так.

Также нет жесткого лимита краулинга. Наиболее точное понимание состоит в том, что количество страниц, которое мы краулируем, приблизительно пропорционально вашему PageRank. Таким образом, если у вас есть огромное количество входящих ссылок на корневую страницу, мы определенно доберемся до нее. Когда ваша корневая страница ссылается на другие страницы, те страницы получат PageRank и мы также прокраулируем их. Тем не менее, при проникновении глубже и глубже в сайт, PageRank имеет тенденцию снижаться.

Другой способ представить себе это: низкий PageRank страниц вашего сайта соревнуется с большим пулом страниц такого же или высшего PR. Существует огромное количество страниц веб, которые имеют весьма низкий или близкий к нулю PageRank. Страницы, на которые часто ссылаются, имеют тенденцию открываться и краулироваться достаточно быстро. Страницы с более низким PageRank краулируются не так часто.

С точки зрения краулингового бюджета интересна следующая вещь: несмотря на то, что жестких лимитов на краулинг нет, существует понятие нагрузки на ведущий узел (host load). Нагрузка на ведущий узел это максимальное число одновременных соединений, которое может выдержать конкретный сервер. Представьте, что ваш веб-сервер может принять только одного бота за раз. Это позволит достигать сайты только постранично, и будет очень-очень большая нагрузка на ведущий узел, в тоже время такие сайты как Facebook или Twitter могут иметь высокую нагрузку на ведущий узел, потому что они могут принять множество соединений одновременно.

Ваш сайт может быть на виртуальном узле наряду с множеством других сайтов, имеющих тот же IP-адрес. Теоретически, вы можете попасть в лимит из-за того что ваш сайт очень трудно краулировать. Если мы можем получить только две страницы с сайта за раз, и мы краулируем только определенные промежутки времени, это может создать некоторый верхний предел количества страниц, которые мы можем получить с этого узла.

Эрик Эндж: таким образом, в основном, у вас есть два фактора. Один — чистый PageRank, который заранее устанавливает объем краулинга, который будет выполнен на вашем сайте. Но также на него может повлиять нагрузка на ведущий узел.

Мэтт Каттс: Это правильно. Несомненно, подавляющее большинство сайтов находятся в первой группе, для которой меру того, как глубоко мы пойдем на сайт, определяет PageRank плюс другие факторы. Тем не менее, нагрузка на узел также может повлиять на этот фактор. Это больше относится к теме дубликатного контента. Представьте, что мы краулировали три страницы с сайта, а потом выяснилось, что две страницы были копиями третьей. Мы выбросим две из трех страниц и сохраним только одну, и будет выглядеть так, что у сайта не очень хороший контент. Возможно, впредь мы не будем краулировать так много с этого сайта.

Если вы ограничены нагрузкой узла, и так получилось, что попали в рамки ограниченного количества страниц, которые мы можем достичь на вашем веб-сервере, факт наличия дублированного контента и выбраковки страниц означает, что вы упустили прекрасную возможность показать в индексе другие страницы с хорошим, качественным и уникальным контентом.

Эрик Эндж: это классический совет, который мы даем людям: ценой за дублированный контент является напрасная трата краулингового бюджета.

Мэтт Каттс: Да. Идея состоит в том, что если у вас есть определенный показатель PageRank, мы только за прокраулировать как можно больше с этого сайта. Однако некоторые из этих страниц могут быть выбракованы, что будет, в некоторой степени, напрасной тратой. Также сайт может относиться к группе, ограниченной нагрузкой узла, и мы не сможем достичь такого большого количества страниц.

Эрик Эндж: Другим основополагающим понятием, о котором мы поговорим, является понятие «растраты ссылочного веса». Я собираюсь использовать термин PageRank, но в более широком смысле я подразумеваю ссылочный вес, который, возможно, больше соотносится с такими понятиями как доверие и авторитетность сайта, чем оригинальная концепция PageRank. Когда с одной страницы вы ссылаетесь на страницу-дубликат, вы рассеиваете часть вашего PageRank, правильно?

Мэтт Каттс: Так может быть. Обычно, дублированный контент не является самым крупным фактором, определяющим какое количество страниц будет прокраулировано, но он может быть фактором. Мой общий совет заключается в том, что огромную помощь оказывает предварительное определение четкой структуры сайта, потому что это избавляет от последующих треволнений по поводу проблем дублирования контента и всех вытекающих из этого вещей. Вы можете использовать 301 редиректы для дублированных URL, чтобы склеить их в один общий URL. Если вы не можете использовать 301 редирект, тогда вы можете прибегнуть к rel=canonical.

Некоторые люди не могут получить доступ к веб-серверу, чтобы установить 301, может быть они на школьном аккаунте, бесплатном хостинге или что-то вроде того. Но если они могут предотвратить это в архитектуре сайта, это предпочтительнее последующих «латаний» при помощи 301 или rel=canonical.

Эрик Эндж: Правильно, это определенно «золотой стандарт». Скажем, у вас есть страница, на которую ссылаются другие десять страниц. Если три из них на самом деле являются дубликатами, которые выбракуются, значит ли это, что вы потеряли три рекомендации?

Мэтт Каттс: Ну, не обязательно. Это тот случай, когда люди могут экспериментировать. Мы стараемся склеивать страницы, а не выбрасывать полностью. Если вы ссылаетесь на три страницы, которые являются дубликатами, поисковая система может понять, что эти три страницы – дубликаты и передать входящий ссылочный вес склеенным страницам.

Необязательно это будет тот случай, когда PageRank полностью растрачен. Это зависит как от поисковика, так и от реализации. Принимая во внимание, что каждый поисковик может реализовывать вещи по-разному, определенно предпочтительней, если вы сможете сделать так, чтобы все ваши ссылки шли на единственную страницу.

Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.