Нестандартные приемы веб-аналитики: техники представления и обработки данных

Автор: Николай Захаров,

веб-аналитик агентства интернет-рекламы i-Media

Google Analytics по праву является самой популярной среди систем веб-аналитики и предоставляет огромные возможности для специалистов в этой области. Однако, некоторые возможности данной системы вы не найдете ни в справочных материалах, ни в курсе подготовки для сертификации специалистов.

В этом обзоре я расскажу о техниках представления и обработки данных, которые, на мой взгляд, являются полезными, однако не имеют широкого освещения.

Ниже описаны приемы, базирующиеся на следующих подходах к анализу данных:

— сегментирование данных с применением логических выражений;

— выделение неестественных паттернов при помощи сегментирования;

— семплинг и как избежать потери качества при анализе больших объемов данных;

— маркировка произвольных событий при помощи атрибутов документа;

— использование пользовательских фильтров для более наглядного представления данных в отчетах.

I. Длинный хвост семантического ядра

Концепция Long Tail (Длинный Хвост), описывающая явление значительной доли продаж продуктов, которые на сегодняшний день не пользуются большой популярностью, получила широкое распространение в сфере интернет-торговли.

Похожий прием может быть использован в целях расширения семантического ядра сайта как при SEO-продвижении, так и при размещении контекстной рекламы.

Ни для кого не секрет что точное фразовое вхождение запроса в текст документа дает максимальный вес при текстовом ранжировании поисковыми системами. При этом, чем длиннее фраза, тем больший вес получает документ, содержащий ее вхождение. Конкуренция по длинным фразам ниже, а их конверсионность зачастую выше.

Поэтому важно иметь возможность анализировать подобные данные. Однако, стандартные методы Google Analytics не позволяют совершать подобные выгрузки.

Следующий прием позволяет осуществлять выгрузку фраз, состоящих из определенного количества слов при помощи использования регулярного выражения.

Создайте расширенный сегмент, включающий ключевые слова, соответствующие регулярному выражению вида:

^[^ ]+( [^ ]+){a,b}$

Где a и b это число слов на одно меньшее, чем желаемое минимальное и максимальное число слов в ключевой фразе.

Например, регулярное выражение:

^[^ ]+( [^ ]+){3,5}$

позволяет получить список ключевых фраз, состоящих из 4-6 произвольных слов.

Вот как будет выглядеть подобный сегмент:

Рис. 1 Сегмент, включающий фразы из 4-6 слов

Вы легко можете модифицировать его, изменив цифры в регулярном выражении.

Для выявления запросов, состоящих из 4-х слов и более, можно использовать сегмент, соответствующий регулярному выражению:

^[^ ]+( [^ ]+){3,}$

Предлагаем скопировать этот сегмент в ваш профиль Google Analytics (для копирования сегмента – необходимо авторизоваться в Google Analytics и перейти по ссылке):

https://www.google.com/analytics/web/permalink?uid=5dAmW3gCQ7-3gKuwl-yCVQ

Использование этого приема позволит вам работать с ключевыми фразами, составляющими «Длинный хвост» семантического ядра сайта и выявлять наиболее популярные из уточненных фраз пользователей поисковых систем.

II. Роботы Яндекс.Директ в отчетах Google Analytics

Начиная с августа 2012 года в отчетах Google Analytics можно было наблюдать необычное явление — большое количество посещений со странными характеристиками, которые значительно искажали статистику.

Посещения имели общие черты:

  • браузер “Mozilla Compatible Agent”;
  • операционная система “not set”;
  • ключевое слово “not set”;

В качестве примера приведем трафик на одном из сайтов клиентов нашего агентства, включающий описанные параметры:

Рис. 2 Посещения с необычными параметрами

100% трафика поступало из Яндекс.Директа.

При этом данные Google Analytics – значительно отличались от данных Яндекс.Метрики за аналогичные периоды.

Так, по данным Google Analytics:

Рис. 3 Статистика Google Analytics за исследуемый период

А по данным Яндекс.Метрики:

Рис. 4 Статистика Яндекс.Метрика за исследуемый период

После анализа логов сайта и обращения в тех. поддержку Яндекса выяснилось, что этот трафик создавали его роботы.

В результате был создан сегмент, фильтрующий подобный трафик (для копирования сегмента – необходимо авторизоваться в Google Analytics и перейти по ссылке):

https://www.google.com/analytics/web/permalink?uid=g4ID2sjLQoqojdWZOoGxAA

Используйте его для получения более точных данных ваших отчетов, особенно если вы активно используете рекламу в Яндекс.Директ.

Ниже пример того, как может выглядеть статистика посещений с использованием сегмента «Исключить роботов»:

Рис. 5 Сегмент “Исключить роботов”

III. Семплирование данных в Google Analytics и как его избежать

Процесс семплирования – подразумевает анализ определенной выборки данных вместо всего объема для экономии аппаратных ресурсов серверов Google Analytics.

Семплирование в Google Analytics происходит в случаях, когда запрашиваемые отчетысодержат большие объемы данных, не хранимых по умолчанию. Если отчет построен с применением семплинга, в правом верхнем углу интерфейса вы увидите следующее предупреждение:

Рис. 6 Семплинг в Google Analytics

При построении стандартных отчетов, без добавления дополнительных параметров или наложения сегментов, семплирование не произойдет.

Когда Google семплирует данные?

  • Если любой запрашиваемый отчет содержит более 1 000 000 уникальных параметров, например реффералов или ключевых слов;
  • Если запрашиваемый отчет подразумевает обработку более 500 000 сессий пользователей.

В зависимости от размера выборки для семплинга, данные отчетов могут отличаться значительно. Следующие приемы – помогут вам избежать семплирования данных в отчетах Google Analytics.

1. Первый и самый незамысловатый способ избежать процесса семплинга — уменьшение диапазонов дат для отчетов. В этом случае данные для нескольких отрезков времени можно свести в EXCEL и получить отчет для большего диапазона дат.

2. Второй способ – увеличить размер выборки. Порогом по умолчанию, при котором происходит семплирование, являются запросы данных, которые учитывают более чем 250 000 сессий:

Рис. 7 Порог семплинга в Google Analytics

Если количество сессий, которые необходимо обработать для построения отчета, не превышает 500 000, можно просто увеличить размер выборки и в этом случае семплинг пропадет:

Рис. 8 Изменение размера выборки семплинга

3. Еще один прием заключается в создании отдельных профилей для анализа специфичного набора данных. Если для проекта важны определенные непересекающиеся сегменты данных, для каждого из них можно создать отдельный профиль с набором фильтров, которые смогут отсекать лишнюю информацию.

Например, если речь идет об интернет-магазине, который работает с большим количеством регионов, имеет смысл выделять профиль для анализа посещений из каждого региона в отдельности. Либо можно выделить профиль под специфичный набор данных:

Рис. 9 Создание отдельных профилей в Google Analytics

Это поможет вам избежать процесса семплинга, т.к. объемы обрабатываемых данных для каждого профиля значительно сократятся.

4. Также можно воспользоваться сервисом Premium Analytics, в котором у вас будет возможность строить отчеты без семплинга. Однако у этого способа есть один минус. Стоимость аккаунта Premium Analytics – составляет $150 000 в год.

IV. Маркировка событий при помощи объектов документа

Следующий прием заключается в использовании объектов документа в качестве ярлыков.

Предположим, перед вами стоит задача сделать отчет о том, на каких страницах сайта совершалось конкретное событие (Event). Стандартные отчеты Google Analytics не позволяют сделать подобную выгрузку.

При решении этой задачи можно использовать следующий прием. Для произвольного события (например, onClick) установите код Google Analytics, в котором вместо ярлыка (лэйбла) вставьте свойство объекта document, передающее URL документа:

onClick="_gaq.push([‘_trackEvent’, ‘button_SDELAT_ZAKAZ’, ‘click_OTPRAVIT_ZAKAZ’, document.URL ]);"

В результате вы сможете выбрать категорию интересующего вас события:

Рис. 10 Выбор категории события Google Analytics

В качестве ярлыка будут отображаться URL страницы, на которой было достигнуто конкретное событие:

Рис. 11 Ярлыки событий Google Analytics

V. Фиксация 404 ошибки и ее источников

404 ошибка появляется в случаях, когда к веб-серверу сайта поступает запрос страницы, которой в данный момент не существует. Подобная ошибка может происходить, например, в случае размещения неправильной ссылки. В случае, если эти ссылки являются рекламными, вы вдобавок еще и впустую тратите деньги, приводя клиентов на неработающие страницы.

Существуют разные подходы к фиксации данной ошибки, я расскажу про два способа получить в Google Analytics отчет по данным проблемам.

1. Фиксация 404 ошибки с использованием виртуальных страниц.

Для фиксации данной ошибки при помощи виртуальных страниц – установите следующий код в шаблон страниц, которые отдаются пользователю при возникновении ошибки:

В отчетах вы сможете отфильтровать данные страницы и посмотреть:

  • Относительный адрес страницы на сайте — будет указан в отчете после текста virtGA/404/ErrorPage=
  • Источник перехода на данную страницу — будет указан в отчете после текста /referrer=

2. Фиксация 404 ошибки с использованием фильтров.

Второй способ определения страниц с 404 ошибкой основан на настройке пользовательского фильтра для профиля.

Логику следующего фильтра, позволяющего отличать страницы с ошибками, можно описать так:

  • проверить, соответствует ли заголовок (TITLE) страницы фразе «404»;
  • объединить заголовок страницы с ее URL и подставить вместо URL страницы.

Рис. 12 Фильтр для фиксации 404 ошибки.

Теперь в отчете «СОДЕРЖАНИЕ САЙТА – ВСЕ СТРАНИЦЫ», вы сможете отличать страницы, которые содержали ошибку:

Рис. 13 Пример отчета для страниц с 404 ошибкой

Заключение

Конечно, эта статья содержит далеко не весь перечень хитростей и продвинутых техник анализа данных при помощи Google Analytics. В ближайшее время их список будет продолжен.

Однако, описанные приемы это не только набор инструкций по выгрузке тех или иных отчетов. Ознакомившись и вникнув в их суть, вы сможете сами разрабатывать приёмы, которые будут решать именно ваши задачи.

Подходы, описанные выше, вы можете использовать для:

— разработки собственных сегментов данных;

— фильтрации данных при помощи логических выражений;

— дополнения данных в отчетах при помощи документных атрибутов;

— изменения стандартных данных в отчетах для более удобного анализа.

Измеряйте и управляйте своим успехом!

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.