Можно ли доверять данным Google Search Console: исследование Moz

Доверяй, но проверяй. В Moz решили выяснить, можно ли полагаться на данные Search Console.

Автор: Расс Джонс (Russ Jones) – старший аналитик Moz. Занимается исследованиями в области поиска и SEO.

Каждый оптимизатор использует в своей работе несколько источников данных. Из них Google Search Console является одним из самых распространённых. Кроме того, в GSC есть функции, которые нигде больше не доступны – такие как отклонение ссылок. Поэтому вебмастеров в некоторой степени принуждают обращаться к этому сервису. Тем не менее, каждый источник знания требует проверки, чтобы ему можно было доверять. Давайте посмотрим, можем ли мы полагаться на данные Google Search Console.

Проверка источников данных

В ходе анализа мы будем опираться на два основных понятия: внутренняя валидность и внешняя валидность.

Внутренняя валидность показывает, насколько данные Search Console совпадают с тем, что Google знает о вашем сайте. Внешняя – насколько данные сервиса точно отражают ситуацию в Сети.

Эти два понятия чрезвычайно важны для нашего анализа. В зависимости от решаемой проблемы, нас может больше интересовать или внутренняя, или внешняя валидность. К примеру, если скорость страницы является важным фактором ранжирования, нас будет интересовать внутренняя валидность такой метрики, как время загрузки страницы. Почему? Если Google расценит страницу как медленную, мы потеряем позиции.

С другой стороны, если мы не хотим попасть под санкции за некачественные ссылки, нас будет интересовать внешняя валидность данных раздела «Ссылки на ваш сайт». Если Google предоставляет неполную статистику по внешним ссылкам, мы можем отказаться от этих данных и использовать другие инструменты для получения этой информации (Open Site Explorer, Majestic, или Ahrefs).

Таким образом, мы можем оценивать данные GSC с разных точек зрения. Важно понять, в каких вопросах мы можем полагаться на Search Console как источник данных, а в каких – нет.

Раздел № 1: Оптимизация HTML

В этом разделе GSC перечислены потенциальные проблемы, обнаруженные роботом Googlebot при сканировании и индексировании вашего сайта.

На скриншоте ниже вы можете видеть, что GSC обнаружил повторяющиеся метаописания, поскольку URL-адреса у сайта нечувствительны к регистру, а канонические теги или редиректы, которые помогают решить эту проблему, отсутствуют.

В итоге пользователь может попасть на страницу как через /Page.aspx, так и /page.aspx. Давайте проверим эти данные, чтобы посмотреть, насколько они внутренне и внешне валидны.

Внешняя валидность. В данном случае данные будут валидными, если они отображают то, как страницы появляются в интернете. Как можно догадаться, список HTML-нарушений может быть безнадёжно устаревшим – всё зависит от скорости сканирования сайта. В данном случае проблема с повторяющимися метаописаниями была ранее устранена с помощью 301 редиректов.

Таким образом, мы выяснили, что Google не обновляет этот раздел каждый раз, когда вы вносите корректировки в работу сайта. Описанная выше ситуация – пример распространённой проблемы с GSC: многие из ошибок, о которых оповещает сервис, могут быть уже устранены.

Внутренняя валидность. Итак, мы знаем, что Google не сканирует сайт так часто, чтобы в режиме реального времени «подхватывать» его обновления. При этом логично ожидать, что просканированные Google изменения будут отражены в Search Console. Однако на практике это не так.

С помощью поискового оператора info: мы можем выяснить, что Google уже знает о сайте. Проверив таким способом URL, который содержит заглавные буквы, мы увидели, что Google возвращает версию URL с прописными буквами! Это значит, что он знает об использовании 301 переадресации и скорректировал данные в поисковом индексе, но не в GSC.

Таким образом, рекомендации в разделе «Оптимизация HTML» в Search Console не только не отражают изменений, которые вы внесли в работу сайта, но также и того, что Google знает о них. Учитывая этот момент, имеет смысл использовать сторонние инструменты для выявления такого рода проблем в дополнение к GSC.

Раздел № 2. Статус индексирования

В этом разделе должны быть представлены данные о количестве URL на сайте, которые Google удалось проиндексировать.

Проверить внутреннюю валидность этих данных можно двумя способами:

  • Сравнить данные GSC с данными, которые возвращает команда site:.
  • Сравнить данные GSC с числом внутренних ссылок на главную страницу в разделе «Внутренние ссылки» (здесь мы исходим из предположения, что каждая страница сайта ссылается на главную).

Мы проверили оба. Самая большая проблема с этой метрикой – понять, что именно она измеряет. Поскольку GSC позволяет отдельно зарегистрировать все версии сайта (http, https, www и non-www), не всегда понятно, что показывают данные раздела «Статус индексирования».

Мы выяснили, что при условии отсутствия пересечений между различными версиями сайта, данные в разделе «Статус индексирования» коррелируют с данными, которые возвращает команда site: в Google. Особенно это справедливо в отношении небольших сайтов. Чем крупнее ресурс, тем большие различия наблюдались в этих цифрах.

Мы также обнаружили, что метод подсчёта ссылок сложен в использовании. Посмотрите на таблицу ниже. По данным GSC, у сайта было проиндексировано 1587 страниц. Однако количество внутренних ссылок на главную страницу составляет 7080.

Это кажется нереальным, поскольку мы не смогли найти ни одной страницы с 4 и более ссылками на главную страницу. Тем не менее, учитывая согласованность между данными команды site: и раздела «Статус индексирования», здесь вопрос, скорее, в корректности данных отчёта «Внутренние ссылки».

Как показал наш анализ, данные раздела «Статус индексирования» наиболее надёжны с точки зрения количества страниц, которые уже вошли в индекс Google.

Раздел № 3. Внутренние ссылки

Этот раздел обычно редко используется, но при этом он может быть довольно полезным. Если данные отчёта «Ссылки на сайт» говорят Google о том, что другие считают важным на вашем сайте, то «Внутренние ссылки» указывают поисковой системе на то, что вы сами считаете важным. Этот раздел – наглядная иллюстрация разницы между тем, что Google знает о вашем сайте, и действительностью.

Чтобы проверить надёжность GSC, мы сравнивали данные по внутренним ссылкам в сервисе с результатами, полученными в ходе полного сканирования сайта. Таким образом, мы смогли выяснить, насколько сканирование Google отражает актуальное состояние сайта.

В целом, корреляция между данными низкая, присутствуют значительные отклонения. Мы считаем эту находку чрезвычайно важной. Google не начинает обход сайта с главной страницы и не сканирует сайт так же, как стандартные краулеры (вроде тех, которые включены в Moz Pro). Googlebot достигает сайта через комбинацию внешних и внутренних ссылок, файлов Sitemap, редиректов и прочего. В результате, итоговая картина может заметно отличаться.

В ходе проведённых нами тестов, мы видели несколько примеров, когда полное сканирование сайта выявляло сотни внутренних ссылок, пропущенных Googlebot. Навигационные страницы, такие как страницы категорий в блогах, сканировались реже, поэтому в GSC отображалось намного меньше ссылок, чем было на самом деле.

В этом случае нас должна волновать внутренняя валидность или то, что Google «думает» о сайте. Мы настоятельно рекомендуем вам сравнивать данные по сайту в GSC с данными, полученными с помощью сторонних инструментов. Это поможет вам выявить важный контент, который с точки зрения Google вы проигнорировали во внутренней ссылочной структуре.

Раздел № 4. Ссылки на ваш сайт

Внешние ссылки – одна из самых важных метрик для SEO-специалистов. Входящие ссылки по-прежнему остаются наиболее сильным прогнозным фактором для ранжирования, и Google уже неоднократно это признавал. Итак, давайте посмотрим, насколько корректные данные предлагает нам Search Console.

В ходе анализа мы сравнили данные по внешним ссылкам в Search Console с данными Ahrefs, Majestic и Moz. При этом мы включили в выборку только те сайты, в ссылочном профиле которых было менее 1000 обратных ссылок. Результаты нас поразили. Данные GSC были наименее репрезентативными с точки зрения «живых ссылок» по каждому протестированному нами сайту.

Что касается различий, они были небольшими и составляли лишь пару процентов. Возможно, эта разница обусловлена разным размером индекса у всех этих инструментов. Тем не менее, те несколько процентов, которые отделяют GSC от трёх других ссылочных индексов, нельзя игнорировать. С точки зрения внешней валидности, сторонние сервисы более эффективны, чем GSC, для выявления внешних ссылок.

Что касается внутренней валидности, предоставляет ли GSC актуальную картину индекса обратных ссылок Google? Судя по всему, эти данные по большей части согласованы. В отчётности GSC редко отображаются те ссылки, которые уже отсутствуют в индексе поисковой системы.

Раздел № 5. Анализ поисковых запросов

«Анализ поисковых запросов» - это, наверное, самый важный и часто используемый раздел в Google Search Console. Но насколько точные данные в нём содержатся?

Экспериментальный анализ

Этот раздел даёт нам уникальную возможность использовать метод эксперимента для проверки надёжности данных. В отличие от других метрик, здесь мы могли полностью контролировать процесс получения кликов страницами сайта и видели реальные показатели.

Чтобы проверить валидность данных, мы провели следующий эксперимент:

  • Создали серию текстовых страниц с бессмысленным содержанием;
  • Проставили внутренние ссылки на них, чтобы ускорить индексацию;
  • Использовали волонтёров, которые совершали поиск по запросам с точным соответствием содержимому страниц.
  • Меняли условия поиска, чтобы узнать, отслеживает ли GSC клики и показы только в конкретных ситуациях.
  • Использовали волонтёров для кликов по этим результатам.
  • Регистрировали их действия.
  • Сравнивали собственную статистику по кликам с данными Search Console.

Мы протестировали 5 разных сценариев поиска:

  • Пользователь совершает поиск в Chrome, выполнив вход в аккаунт Google;
  • Пользователь совершает поиск в Chrome в режиме инкогнито, или не выполняя вход в Google;
  • Пользователь совершает поиск с мобильного устройства;
  • Пользователь совершает поиск в Firefox, но не авторизируется в браузере;
  • Пользователь совершает поиск по одному и тому же запросу 5 раз в течение дня.

Мы надеялись, что эти варианты помогут нам узнать, какие методы использует Google для сбора данных. Результаты нас разочаровали. GSC зафиксировал лишь 2 показа из 84 и 0 кликов.

Получив эти результаты, мы сразу задумались об адекватности условий эксперимента. Может, Google не регистрирует данные для этих страниц? Или же мы не обеспечили поисковую систему достаточным количеством данных?

Однако ни одно из этих предположений не подтвердилось. Несколько из тестовых страниц получили сотни показов по заданным ключевым словам. Причём это происходило в случайном порядке, учитывая бессмысленный текст запросов. Таким образом, полагаться на данные GSC нельзя – независимо от условий поиска. Эти данные не являются внешне валидными, то есть показы и клики в GSC неточно отражают показы и клики в Google.

Тем не менее, эти результаты нас не удовлетворили. Поэтому мы решили продолжить проверку.

Сравнительный анализ

На следующем этапе мы сравнили данные GSC с другими источниками, чтобы выяснить, почему первичный эксперимент показал такое низкое качество данных. В первую очередь мы сравнили данные GSC и Google Analytics. Теоретически, отчётность по кликам в Search Console должна совпадать с данными по органическим переходам из Google в GA – если не полностью, то пропорционально. Сначала мы решили проверить эту гипотезу на выборке из более крупных сайтов. Как выяснилось, данные сервисов разительно отличались.

В первом примере, согласно данным GA, сайт получил за день около 6000 органических переходов из Google. Однако в Search Console количество кликов было равно нулю. Десятки страниц с сотнями органических переходов в месяц по данным GA, получали 0 кликов, согласно GSC. В этом случае нам удалось выявить причину столь сильного расхождения. Она связана с тем, как отслеживаются эти клики.

Search Console отслеживает клики на основании URL в результатах поиска. Скажем, вы переходите на страницу /pageA.html. Допустим, она была переадресована на /pagea.html, поскольку вы решили устранить проблему дублирования, которую мы обсуждали вначале. Если Googlebot не просканирует это изменение, тогда в поиске Google по-прежнему будет отображаться старый URL. При этом в Google Analytics будут фиксироваться клики по скорректированному URL.

После анализа нескольких ресурсов, где отсутствовали подобные проблемы, мы выяснили, что корреляция между данными по органическим целевым страницам в Google Analytics и Search Console составляла 0,94%-0,99%.

Наконец, мы также провели сравнительный анализ, чтобы проверить надёжность данных GSC по позициям. В большинстве случаев количество кликов, полученных сайтом, должно быть функцией числа показов, которые он получил, и позиции в SERP. Хотя это, как очевидно, не все факторы, можно предположить, что мы могли бы сравнить качество двух наборов ранжирования, если бы знали число показов и кликов.

В теории метод отслеживания позиций, который прогнозирует клики на основании показов, более эффективный. Однако в действительности это не так. Стандартные методы отслеживания позиций показывали намного лучшие результаты касательно прогнозирования актуального числа кликов, чем данные по позициям в Search Console.

Мы знаем, что в GSC отображается средняя позиция для сайта, что почти всегда формирует ложное представление об актуальной ситуации. К примеру, представьте, что вы добавили на сайт новый контент, и ваше ключевое слово стартовало на позиции 80, затем поднялось на 70-ю, 60-ю и в конечном итоге заняло 1-ю позицию в выдаче.

Теперь представьте, что вы создали ещё одну страницу, и она всё время ранжируется на позиции 40. GSC сообщит, что у обеих страниц средняя позиция – 40. При этом первая будет получать хороший трафик в то время, когда она находится на позиции 1, а вторая вообще его не получит.

Метод усреднения, используемый в GSC, не позволяет получить качественный прогноз. До тех пор, пока Google не поменяет свой подход к сбору данных по позициям в Search Console, этой статистики будет недостаточно для определения текущей позиции сайта.

Основные выводы

  • Данные по показам в Search Console не соответствуют действительности. GSC регистрирует не все показы, которые получил сайт.
  • Данные по кликам пропорционально точные. Таким образом, статистике по кликам можно доверять как пропорциональной метрике, которая коррелирует с реальностью, но не отражает точной картины.
  • Данные по кликам помогают определить рейтинг URL. Но они не позволяют выяснить, на какие страницы попадают пользователи.

Вместо заключения

Google Search Console предоставляет большой объём ценных данных, которые помогают нам принимать взвешенные решения. Однако мы должны критически относиться к этому источнику (как и к любому другому) и продолжать тестировать внутреннюю и внешнюю валидность. Кроме того, мы должны с осторожностью использовать доступные цифры, чтобы наши решения не были основаны на слабых данных. Если у вас есть возможность, применяйте разные инструменты и сервисы для проверки данных GSC. Не полагайтесь на сервис по умолчанию. Проверяйте то, что вам предлагают.

Источник: Блог Moz
preview Все, что нужно знать о пяти крупнейших мессенджерах. Инфографика

Все, что нужно знать о пяти крупнейших мессенджерах. Инфографика

Мобильная революция дала второе дыхание системам отправки сообщений, теперь мессенджеры – это новый тренд современности, составляющий уверенную конкуренцию социальным сетям и...
preview Исследование: насколько ссылки важны для Google?

Исследование: насколько ссылки важны для Google?

Консультант по вопросам аналитики Том Каппер (Tom Capper) поделился результатами исследования, посвящённого роли ссылок в ранжировании Google
preview 3 тренда, которые несут угрозу для SEO

3 тренда, которые несут угрозу для SEO

Какие тренды подрывают роль поисковой оптимизации и могут привести к исчезновению этой дисциплины? Рассмотрим в статье
preview 9 смелых прогнозов для SEO на 2017 год

9 смелых прогнозов для SEO на 2017 год

Стандартные прогнозы, основанные на общеизвестных трендах, уже всем надоели. Пришло время для более смелых предсказаний
preview 10 трендов веб-дизайна на 2017 год

10 трендов веб-дизайна на 2017 год

В компании Econsultancy составили список из 10 основных трендов, которые будут определять развитие веб-дизайна в 2017 году
preview 9 трендов в интернет-рекламе на 2017 год

9 трендов в интернет-рекламе на 2017 год

Автор: Асаф Грейнер (Asaf Greiner) – основатель и гендиректор Protected Media...