Автор: Анна Ярошенко, контент-стратег JetOctopus 

Ваш сайт переживал SEO-апокалипсис? Наш — да. Руководствуясь результатами частичного краулинга, SEO-шник удалил релевантный контент (30% сайта!). Последствия были печальными: просадка трафика и потеря позиций в результатах поиска. 

Частичный технический аудит сайта бесполезен и даже опасен для сайтов. Почему? Читайте в нашей статье. 

Частичный технический аудит сайта опаснее, чем кажется 

Наш первый бизнес — это сайт поиска работы Hotwork с пятью миллионами страниц. Мы искали возможность увеличения органического трафика и решили для ускорения процесса проанализировать  первые 200 тыс. страниц.

Краулинг показал нам наличие большого количества мусорного автосгенерированного контента. Мы сделали вывод о том, что на остальных частях сайта ситуация такая же, и поэтому удалили эти страницы.  А оказалось, что среди контента было много релевантных страниц с высокими позициями в поиске. Это наша критическая ошибка!  

Мы ожидали, что краулинговый бюджет увеличится, а получили значительное падение SEO-трафика. Только после того, как мы вручную проверили каждый URL и вернули хороший контент, наш сайт вернул потерянные позиции в Google. Этот процесс длился 3 месяца. Мы потеряли время и деньги, но получили ценный опыт. Результаты частичного  технического анализа нельзя реплицировать на весь сайт. 

Не повторяйте  печальную судьбу Титаника: огромный корабль затонул после столкновения с айсбергом.  

С частичным аудитом вы видите  только вершину айсберга и недооцениваете опасность. Рассмотрим на 2-х реальных примерах как неполноценный анализ искажает данные.

Мы просканировали 1 тыс. cтраниц e-commerce сайта, хотя краулер нашел более 85 тыс. URL-ов:

Смотрим в раздел Доступность к индексации (Indexation). Частичный анализ показал всего 4 проблемы с блокировкой страниц и  15 с языковыми версиями сайта (0,02 % от всех страниц):

Теперь посмотрим на результаты краулинга всего сайта:

Заблокировано от индексации свыше 33 тысяч страниц,  почти 62 тысячи неоптимизированных для языковых версий URL-ов. 52% сайта по техническим причинам закрыты для индексации и, соответственно, ранжирования. Совсем другая картина, правда?

Посмотрим на время загрузки страниц. Частичный краулинг показывает, что более 60 % сайта грузится дольше 2 секунд, что является довольно критичным.

А если посмотреть на  данные краулинга всего сайта:

Можно увидеть практически противоположную картину: 67 % сайта грузится быстро. И по сути — никакого пожара.

Проанализировав эту ситуацию, видно, что большинство страниц с загрузкой более 2 секунд находится на верхних уровнях сайта (DFI меньше 3 уровня), куда успел добраться бот во время частичного краулинга.

Если бы мы проводили SEO на данных частичного краулинга, то в первую очередь побежали бы оптимизировать скорость загрузки, хотя приоритетными являются проблемы с индексацией.  Согласитесь, что если больше половины сайта заблокировано от поисковых ботов, то 6% медленных страниц — это мелочи. Все еще верите данным частичного анализа?

Так не бывает: частичный краулинг эффективен при  рандомной выборке URL-ов

Когда  социологи хотят получить правдивые результаты исследования, они выбирают для опроса людей разных возрастов, пола и профессий. Профессор социологии Чуриков А. В.  в  статье о формировании выборки  отмечает:

«Выборка называется случайной, если каждый человек (каждый представитель совокупности) имеет известную ненулевую вероятность быть отобранным. Корни этого определения лежат в теории вероятностей, которая обосновала выборочные методы исследования».

Случайная выборка —  это самый надежный способ получить неискаженные данные. Таким же образом работает и технический аудит: вы можете просканировать несколько страниц и получить релевантные результаты, но как вы заставите запрограммированный веб-краулер выбирать  URLы в случайном порядке?

Веб-краулер работает на прописанных алгоритмах и не может рандомно выбирать страницы для анализа.  Технопедия определяет «веб-краулер» так: 

«Веб-краулер — это интернет-бот, который помогает индексировать страницы. […] Краулер анализирует страницы сайта одну за одной, пока все URL-ы не будут проиндексированы».

Давайте разберемся, как частичный анализ может навредить сайту, на примере внутренней перелинковки. Веб-краулер начинает сканировать сайт с главной страницы и по ссылкам переходит на следующие уровни. 

Частичный анализ первых 100 тысяч страниц показывает структуру.  Но картина будет совсем другой на  5-10+ уровнях вложенности страниц.

Вы можете сделать некорректные выводы о перелинковке на основе данных с первых уровней (где, как правило, ссылки проставлены корректно), но бот может находить больше и больше ошибок на отдаленных страницах и понижать из-за этого позиции сайта.

Сведение данных частичного анализа — долгое и рискованное занятие

Даже если ваш сайт маленький,  вы тратите  уйму времени на сведение данных в единую картину. Если же вы краулите коммерческий сайт с миллионами страниц, вы сначала создаете отдельные сегменты страниц, краулите эти части, затем сводите данные в Excel (пытаясь ничего не потерять) и после этого «радостного» процесса начинаете анализировать отчет. Звучит не очень заманчиво, правда?

Человеческий фактор также играет роль в искажении данных.  Один SEO-шник будет ломать голову над сведением данных несколько  дней, так что это задание целесообразно поручить команде специалистов. Чем больше людей вовлечено в процесс, тем больше фрагментов технических данных теряется. 

Вы можете нанять SEO-шника гения, который справится в одиночку со сбором и обработкой данных частичного краулинга, но этот подход невозможно масштабировать. Сведение данных требует максимальной концентрации, но со временем интерес к монотонной работе снижается. 

В результате вы тратите  время и ресурсы, но все равно получите искаженные результаты аудита.

Подводя итоги, можно сказать так: частичный технический анализ показывает неполноценные, искаженные данные. Пожалуйста, не оценивайте техническое  SEO сайта, основываясь на результатах выборочного анализа — не повторяйте наших ошибок. 

Полноценный технический аудит — это навигатор к высоким позициям в поисковой выдаче. Если  вы переезжаете на новую CMS, внедряете новый дизайн или публикуете блок  свежего контента, проведите SEO-аудит. Вы увидите все  технические баги на сайте и сможете взглянуть на сайт «глазами» поисковых роботов.  Вы поймете, как ваши обновления воспринимает поисковая система и сравните результаты до и после изменений.  Вы будете точно понимать эффективность каждого эксперимента, и SEO-маркетинг в целом, из гипотезы перерастет в конкретную понимаемую науку. 

Оксана Мамчуева
Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета.

20
Прокомментировать

avatar
7 Цепочка комментария
13 Ответы по цепочке
9 Последователи
 
Популярнейший комментарий
Цепочка актуального комментария
9 Авторы комментариев
Serge BezborodovеооСтасНадеждаАнна Авторы недавних комментариев
  Подписаться  
новее старее большинство голосов
Уведомление о
Кирилл
Гость
Кирилл

Очень не плохо. Я конечно несколько далеко от SEO, но статья мне показалась толковой.

Анна
Гость

спасибо! Хотим делать сложное техническое SEO простым

Дмитрий
Гость
Дмитрий

Спасибо, очень поучительно! Возможно ли написать веб-краулер, способный собирать случайную выборку отдельно на каждом уровне вложенности? Тогда, возможно, выборка будет более представительной?

Анна
Гость

Спасибо, Дмитрий, за ваш отзыв! К сожалению, сегодны это невозможно, так как нужно изначально получить список всех страниц сайта

Стас
Гость
Стас

Их можно получить:
1) Из XML-карты.
2) Из Яндекс.Вебмастера.
3) Путём поверхностного сканирования, т. е. когда страница анализируется только на предмет наличия на ней других урлов.
4) Загрузить вручную. Например, если у пользователя уже есть список всех урлов.

Serge Bezborodov
Участник

в этом и вся суть, ни в xml карте, ни вебмастерке нет гарантии что будет 100% сайта. 1. В xml карту попадают страницы которые вы условно туда сами поместили, сколько мы из практики сталкивались, реальный объем сайта может превышать в разы xml сайтмап. Не все страницы есть в сайтмапе, сайт «бажит» и генерирует кучи страниц, у вас на сайте поиск не закрытый от индексации и т.п. 2. сугубо у меня нет 100% доверия что к серч консоли, что яндексовой вебмастерке. Даже если предположим что они показывают все четко, но есть еще момент, что мало какие сайты боты краулят на 100%… Подробнее »

Стас
Гость
Стас

Ну так вы сами и написали лучший способ вытянуть все урлы — из логов сервера. Открываете логи, скачиваете урлы, отдаёте их краулеру.

Насчёт поверхностного краулинга — согласитесь, всё-таки есть разница, потому что мета-теги как-раз сканировать не нужно (нужны только теги «a href»). Например, у Screaming Frog пул урлов для индексации набирается раз в 10-20 быстрее, чем происходит сканирование этих урлов.

Serge Bezborodov
Участник

не не, из логов вы точно также не получите все 100% урлов, боты не краулят большие сайты полностью, в плохих случаях может быть только 20% от всех урлов, которые показывает краулер. касамо поверхностного краулинга, сама суть — вам все равно нужно разобрать html, это самая ресурсоемкая операция, выдрать оттуда анкоры, метатеги — это уже вторично возможно в скримин фроге там это както быстрее работает чем полный краул, увы я не опытный пользователь SF касаемо набора новых урлов в очередь — это зависит от стуктуры сайта и его перелинковки, можно скраулить миллион страниц и у вас в очереди будет сразу 50… Подробнее »

Стас
Гость
Стас

Так если бот не пытается получить какие-то урлы (их нет в логах), то он их и не учитывает. Это тоже самое, если бы эти урлы были запрещены через robots.txt — их вообще нет смысла изучать. Задача ведь состоит в том, чтобы убрать всякий мусор из индекса.

Serge Bezborodov
Участник

не всегда так, когда у вас проблемы с индексацией, то вопрос загона страниц в индекс стоит очень остро и там уже анализируется где он не ходит и почему не ходит

Стас
Гость
Стас

Действительно, толковая статья. Коротко и по сути. Вот всегда бы так 🙂
Собственно, создателям краулеров на заметку — сделать возможность сканирования случайной выборки урлов. Делов-то на копейку — получить весь список урлов, перемешать, отсканировать 10% (или заданный процент).

Анна
Гость

Стас, спасибо за ваш комментарий! Надеемся, такой краулер скоро будет создан

Анна
Гость

Стас, спасибо за отзыв! Надеемся, такой краулер скоро будет создан

Влад
Гость
Влад

А с помощью какого ПО вы выполняете технический аудит сайта на несколько миллионов страниц? Спасибо

Анна
Гость

Влад, мы используем облачный краулер JetOctopus

Marina Drozhzhina
Участник
Marina Drozhzhina

Мне кажется, что вы не совсем хорошо понимаете, что такое репрезентативная выборка. Чтобы элемент был репрезентативным, вы должны знать характеристики генеральной совокупности, а вы их как-раз и не знаете, если не просканировали все страницы. Методика применяемая в соц.исследованиях тут не годится. И да, вы цитируете фразу, делаете там ошибки: не «непутевой», а «ненулевой» вероятности. И если уже цитируете статью, то прилагайте ее целиком, а не одну страничку. А то пишите о вреде неполного анализа, но сами грешите неполным пруфами.

Анна
Гость

Марина, спасибо за вашу внимательность! Опечатка возникла во время публикации на сайте и скоро будет исправлена. Как вы можете увидеть, текст исследования прикреплен в 21 странице целиком, а не на одной странице

Надежда
Гость
Надежда

Статья интересная, толковая. Интересно только, есть ли все-таки случаи, в которых лучше всего применять именно частичный технический анализ? Ведь все-таки непросто каждый раз проводить полное тестирование ресурса.

Serge Bezborodov
Участник

самый простой пример — когда у вас есть региональные поддомены, которые не сильно связаны между собой
в других случаях, когда у вас есть полный краул, вы понимаете общую картину и хотите проверить уже правки в каком то отдельном куске сайта.

еоо
Гость
еоо

Знач на будущее. Если создаете бальшой сайт, то знайте — страницы не создаются по волшебству.
Есть алгоритм по которому создавались урлы = есть вся структура сайта.