4 ловушки анализа данных и как их избежать

25 декабря 2017

Анна Бондарь

2547

Автор: Том Каппер (Tom Capper) – консультант по вопросам аналитики в агентстве интернет-маркетинга Distilled (Великобритания), эксперт Moz.

Digital-маркетинг – это область, управляемая данными. При этом зачастую, особенно в SEO, мы располагаем настолько неполными или спорными данными, что в конечном итоге делаем неправильные выводы в попытке обосновать наши аргументы или количественно определить наши проблемы и возможности.

В этой статье мы рассмотрим четыре ловушки анализа данных, распространённые в SEO-отрасли, и узнаем, как их избежать.

Поспешные выводы

Ранее в этом году я провёл исследование, посвящённое роли ссылок в ранжировании Google и опубликовал следующее предупреждение:

«Тот факт, что Domain Authority (или объём брендового поиска, или что-либо ещё) положительно коррелирует с ранжированием может указывать, что вероятно одно или все утверждения:

Ссылки заставляют сайты хорошо ранжироваться;
Хорошее ранжирование приводит к тому, что сайты получают ссылки;
Некий третий фактор (например, репутация или возраст сайта) является причиной того, что сайты получают и ссылки, и позиции в ранжировании».

Тем не менее, я хотел бы углубиться в это немного больше и дать вам основу для самостоятельного анализа. Возьмём, к примеру, недавнее исследование Stone Temple Consulting или выводы SEMRush касательно влияния прямого трафика на ранжирование сайта. Здесь хотелось бы отметить, что я не критикую ни одно из этих исследований, но хочу привлечь внимание к тому, как мы могли бы интерпретировать их.

Во-первых, мы часто предвзяты в подтверждении: мы приводим клише «корреляция против причинности», когда видим успешные сайты, наполненные ключевыми словами, но при этом склонны одобрять результаты исследований, делающие то же самое с тем, что, по нашему мнению, является или было эффективным – например, ссылками.

Во-вторых, мы не можем критическим анализировать возможные механизмы, а варианты не ограничиваются причинностью и совпадением.

Перед тем, как сделать вывод, основанный на корреляции, вам следует рассмотреть следующие возможные варианты:

Полное совпадение;
Обратная причинность;
Совместная причинность;
Линейность;
Широкая применимость.

Давайте рассмотрим этот подход на примере выявленной корреляции между потреблением сыра на душу населения и количеством людей, которые умерли, запутавшись в своих простынях:

Прежде чем предупредить вас, чтобы вы не ели сыр, поскольку можете умереть в постели, я должен проверить каждый из описанных ниже вариантов:

Совпадение – возможно ли, что было сопоставлено так много наборов данных, что некоторые из них могли быть похожими? Да, так может быть.
Обратная причинность – возможно ли, что мы ошибаемся? Например, возможно ваши родственники, оплакивая вашу смерть, едят сыр в больших количествах, чтобы успокоиться? Это кажется довольно маловероятным.
Совместная причинность – возможно ли, что какой-то третий фактор стоит за этими двумя? Возможно, повышение благосостояния делает вас здоровее, и вы не умираете от таких вещей, как недоедание, а также заставляет вас есть больше сыра. Это кажется очень правдоподобным. Да, это возможно.
Линейность – сравниваем ли мы два линейных тренда? Линейный тренд – это устойчивый темп роста или снижения. Любые два статистических результата, которые являются примерно линейными по времени, будут очень хорошо коррелированы. Если графики составлены с использованием разных шкал, они могут выглядеть совершенно несвязанными. Однако поскольку они оба имеют равномерный характер, они всё равно будут очень хорошо коррелированы. Да, это похоже.
Широкая применимость – возможно ли, что это отношение существует только в нишевых сценариях? Например, сыр приводит к смерти некоторых людей, и этого было достаточно, чтобы создать эту корреляцию, поскольку существует мало смертельных случаев, связанных с удушением в постели? Да, это кажется возможным.

Итак, на 5 вопросов мы получили 4 ответа «Да» и 1 ответ «Нет».

Если вы не получаете 5 «Нет» на 5 вопросов, это неудачный результат, и вы не можете достоверно сказать, что именно установило исследование: фактор ранжирования или фатальный побочный эффект употребления сыра.

Аналогичный процесс должен применяться по отношению к кейсам, которые являются ещё одной формой корреляции – корреляции между изменением и чем-то хорошим (или плохим), что происходило после. Ответьте на следующие вопросы:

Исключил ли я другие факторы (например, внешний спрос, сезонность, делающих ошибки конкурентов)?
Было ли увеличение трафика связано с тем, что я пробовал делать, или же я случайно улучшил один из других факторов ранжирования?
Удалось ли получить результат благодаря уникальным обстоятельствам конкретного клиента/проекта?

Это будет особенно трудным для SEO-специалистов, поскольку они редко располагают данными такого качества, но я предлагаю ещё два вопроса, которые помогут вам сориентироваться на этом минном поле:

Если бы я был Google, я бы сделал это?
Если бы я был Google, мог бы я сделать это?

Прямой трафик как фактор ранжирования проходит тест «мог бы», но с трудом: Google мог бы использовать данные из Chrome, Android или от интернет-провайдеров, но это было бы отрывочным. Тест «я бы» этот вывод не проходит, для Google было бы намного проще использовать брендовый поисковый трафик.

Отсутствие контекста

Если бы я сказал вам, что сегодня мой трафик вырос на 20% за неделю, что бы вы сказали?

А что, если он вырос на 20% по сравнению с аналогичным периодом прошлого года:

А что, если бы я сказал вам, что до недавнего времени рост составлял 20% в годовом сравнении:

Забавно, как добавление контекста может полностью менять восприятие ситуации. Это ещё одна проблема с ситуационными исследованиями и их братом-близнецом – анализом падений трафика.

Если мы действительно хотим понять, нужно ли удивляться чему-либо – как в положительном, так и в отрицательном смысле – нам нужно сравнить это с нашими ожиданиями, и затем выяснить, какое отклонение от наших ожиданий является «нормальным». В этом заключается статистический подход.

Если вы не хотите делать лишних движений, то хорошим правилом является уменьшение масштаба и добавление данных за предыдущие годы. Если кто-то показывает вам данные, которые подозрительно расширены, то их следует принимать с определённой долей сомнения.

Доверие к аналитическим инструментам

Приняли бы вы решение стоимостью в несколько миллионов долларов на основании цифр, которыми ваш конкурент может манипулировать по своему усмотрению? Каким бы ни был ответ, вы уже так делаете, а эти цифры можно найти в Google Analytics. Большинство аналитических платформ имеют проблемы, связанные со следующими вопросами:

Насколько легко ими манипулировать извне;
Насколько произвольно они группируют обращения в сеансы;
Насколько они уязвимы для блокировщиков рекламы;
Насколько эффективно они работают при сэмплировании, и насколько открыто они его проводят.

Например, знаете ли вы, что Google Analytics API v3 может активно сэмплировать данные, если объём трафик превышает определённый уровень (около 500 тысяч посещений), при этом сообщая вам, что данные не являются сэмплированными?

Аналогичные проблемы свойственны и многим другим инструментам, предоставляющими «поисковую аналитику». Знаете ли вы, что большинство платформ для отслеживания позиций предоставляют совершенно разные результаты? Или как насчёт того факта, что ключевые слова, сгруппированные Google (и, соответственно, такими инструментами, как SEMRush и STAT), не являются эквивалентными и необязательно имеют указанные объёмы поиска?

Важно понимать сильные и слабые стороны тех инструментов, которые мы используем, чтобы мы могли знать, какие из предоставляемых ими данных стремятся к точности (и ведут нас в верном направлении), даже если они не идеально точны. Всё, что я могу вам порекомендовать здесь – повышать свою квалификацию. Углубление знаний по поисковой оптимизации (или любому другому digital-каналу) означает понимание механизмов, стоящими за работой измерительных платформ.

Одним из самых распространённых решений этой проблемы является сочетание нескольких источников данных. Но этот подход также имеет свои недостатки.

Комбинирование источников данных

Есть множество платформ, которые объединяют данные двух и более сервисов:

Google Analytics;
Google Search Console;
AdWords;
Отслеживание позиций.

Проблема в том, что перечисленные платформы не имеют эквивалентных определений, а во-вторых, мы получаем такую графу как «not provided».

Что касается определений, давайте посмотрим на целевую страницу с помощью следующих каналов:

В Search Console предоставляются данные о переходах, которые могут сэмплироваться, когда комбинируется несколько измерений (например, ключевое слово и страница) или фильтров.
В Google Analytics сообщается о последнем непрямом клике. При этом подразумевается, что органический трафик включает прямые сессии, тайм-ауты и т.д. Это если не углубляться в «тёмный трафик», блокировщики рекламы и т.д.
В AdWords большинство отчётов основаны на данных о последнем клике, а конверсии могут определяться по-разному. Кроме того, объёмы поиска по ключевым словам могут объединяться, как уже указывалось выше.
Отслеживание позиций является специфичным для местоположения и непоследовательным, как уже указывалось выше.

Что касается «not provided»: большинство целевых страниц получают трафик по более чем одному ключевому слову. Очень вероятно, что некоторые из этих слов конвертируются лучше, чем другие. Это значит, что даже самая продуманная CTR-модель вам не поможет. Итак, как узнать, какие ключевые слова являются ценными?

Самый лучший ответ – провести обобщение, основываясь на данных AdWords. Однако маловероятно, что у вас будут данные по всем комбинациям ключевых слов и целевой страницы. По сути, инструменты, предоставляющие эту отчётность, делают очень смелое предположение, что данная страница конвертируется одинаково по всем ключевым словам. Некоторые из них занимают более открытую позицию по этому вопросу.

Опять же, это не значит, что данные инструменты не являются ценными – важно понимать их ограничения и вдумчиво подходить к анализу данных. Единственный способ заполнить пробелы, создаваемые «not provided» – потратить кучу денег на поисковую рекламу, чтобы получить оценки объёма, коэффициента конверсии и показателя отказов по всем ключевым словам. И даже это не поможет устранить терминологическое несоответствие.

Бонус: метрика «Средняя позиция»

Чтобы определить, кому нужна эта метрика, рассмотрим три вопроса:

О чём вы больше беспокоитесь: о потере ранжирования по десяти НЧ-запросам (10 запросов в месяц и меньше) или же по одному ВЧ-запросу (миллионы запросов)? Если вы переживаете за НЧ-запросы, тогда эта метрика не для вас, и вам нужно использовать метрику видимости, основанную на оценочном CTR.
Когда вы начинаете ранжироваться в топ-100 по ключевому слову, по которому раньше не ранжировались, то расстраиваетесь? Если ответ «Да», значит эта метрика не для вас. Поскольку в данном случае это приведёт к снижению вашей средней позиции. Используйте метрику видимости.
Нравится ли вам сравнивать свои результаты с результатами конкурентов? Если ответ «Нет», то эта метрика не для вас. У ваших конкурентов может быть больше или меньше брендовых ключевых слов или long-tail позиций и это будет искажать сравнение. Опять же, используйте метрику видимости.

Выводы

Подходите к анализу корреляционных и ситуационных исследований критически и смотрите, можете ли вы объяснить их результаты через совпадение, обратную причинность, совместную причинность, линейность или нишевую применимость.
Не анализируйте изменения в трафике без учёта контекста.
Помните, что измерительные инструменты имеют ограничения и исследуйте, как это влияет на данные, которые они предоставляют. «Как эта цифра была получена?» – это важный компонент вопроса «Что эта цифра значит?».
Сочетая данные из нескольких инструментов, не забудьте разобраться в связях между ними и помните, что предоставляемая ими информация скорее направляющая, чем точная.

Источник: Блог Moz

SEO-итоги 2017 года: Яндекс методично закручивает гайки, повернувшись к сеошникам лицом

4 ловушки анализа данных и как их избежать

Поспешные выводы

Отсутствие контекста

Доверие к аналитическим инструментам

Комбинирование источников данных

Бонус: метрика «Средняя позиция»

Выводы

SEO-итоги 2017 года: Яндекс методично закручивает гайки, повернувшись к сеошникам лицом

О способах перевода аудио и видео в текст

Как машинное обучение меняет SEO

Как Google реагирует на изменения страницы с помощью Диспетчера тегов (GTM)

YouTube для бизнеса. Как увеличить продажи с помощью видео

10 советов по использованию Google Трендов для SEO