Как Google использует метрику пользовательской активности

Бретт Табке

Меня немного удивляет то, что некоторые сообщества создают такой ажиотаж вокруг преимуществ последнего обновления алгоритма Панда. Мне кажется, что сейчас самое время посмотреть на происходящее с долей скептицизма и разобраться в том, какие данные и какую информацию анализирует Google и как она интерпретируется.

Эрик Энг на своей недавней презентации в Остине на PubCon, высказал мнение, что с запуск алгоритма Панда привел к тому, что пользовательские показатели оказались накручены до 20%. Это утверждение заставило меня сильно задуматься. Google пытается подстроиться под современные реалии, которыми сейчас правят социальные медиа, и максимально персонализировать пользовательские параметры, принимая во внимание демографические, психологические и поведенческие характеристики. Я решил составить небольшой список источников информации, которые, по моему мнению, Google использует как сигналы. У меня получился довольно внушительный список.

Метрика пользовательской активности представляет собой агрегатный индекс поведения пользователей, который легко совместить с данными об успешно выполненном поиске и использовать как мощный инструмент аналитики для любого сайта. Мне кажется, что именно эта метрика будет в будущем определять качество сайта, постепенно заменяя Page Rank. Речь идет об алгоритме Панда, который, как рассчитывает Google, должен улучшить качество поиска.

Панда определяет кучу параметров уже до того, как пользователь набирает свой запрос в Google:

1: Как пользователь зашел на Google?

• Через тулбар (тулбар Google или какой-то другой). • Через партнерский сайт (AOL и т.п.). • Используемый тип браузера: мобильный, десктопный, планшетный или какой-то другой? • Через ссылку с какого-то другого сайта? • Через ссылку с социальной сети (Orkut, Twitter или, например, контрольная панельWordpress?)

2: Местоположение пользователя

• IP адрес. • GPS информация, если таковая есть (зависит от навигационного устройства)? • Информация о местоположении пользователя через тулбар Google. • Сеть WiFi, мобильный телефон или другая информация об интернет-провайдере.

3: Информация о браузере

• Вид браузера, платформа и т.п.

• Какие файлы разрешены протоколом http: gzip, java, flash и т.п.

• Размер экрана.

• Метрика тулбара.

• История установки тулбара и похожая информация, например, какая версия тулбара используется.

4: Отслеживания сайта и рекламы

• С какого сайта пришел данный пользователь и что он на там делал (возможно, на этом сайте установлен код Google Analytics или другой метрики Google)?

• Совмещенная информация статистики Google Analytics и AdSense (каждый раз посещая сайт с установленным на нем кодом Google, вы сообщаете о себе какую-то дополнительную информацию).

• Скоро к этой метрике будут добавлены данные использования кнопок +1 data от нового одноименного сервиса Google.

5: Куки

• My Google или Google Properties, Gmail, Youtube и т.п.

• Сайты, на которых вы были авторизованы, просматривая рекламу Google от DoubleClick или AdSense. Если вы зашли в свою панель WordPress через "foofoo.com", а потом просмотрели рекламу Adsense на этом сайте, то Google получил дополнительный сигнал, по которому вас можно отследить.

На этом этапе Google уже на 70-75% (по моим оценкам) знает о вашем поведении в сети, а оставшиеся 15-25% информации можно вычислить по вышеприведенным данным. Даже если у вас динамический IP и вы не авторизованы ни в одном из вышеуказанных сервисов, Google все равно может определить ваш профиль, сопоставив всю имеющуюся информацию. Получается, что у Google есть данные о 90% пользователей со всего мира. А оставшиеся 10% можно вычислить в ретроспективе, после того, как они создадут учетную запись в одном из сервисов Google (например, Gmail). Я не хочу сказать, что Google интересует кто есть на самом деле конкретный Вася Пупкин, но активность Васи в интернете рисует для Google портрет его виртуальной личности, а именно она и интересна поисковым системам.

И вот наконец пользователь вводит свой запрос в поисковую строку Google (при условии, что поиск осуществляется не с тулбара или с партнерского сайта). И на этом этапе Панда может определить следующие параметры:

Запрос:

• Психографика или то, как пользователь набирает текст в поисковую строку, дает представление об уровне образования, поле и других социально-демографических характеристиках.

• Орфография, язык, синтаксис, форматирование и т.п. – все эти данные рассказывают о о пользователе и его ожиданиях от поиска.

Поведение на SERP:

• Что сделал пользователь после наведения мышкой на превью результатов?

• Наведение мышкой на описание сайта или название интерпретируется как намерение пользователя и учитывается в метрике.

• Мультивариативная метрика при тестировании (как мы уже знаем, Google довольно регулярно проводит тестирование на своем SERP).

Метрика вне Google.com: Теперь в игру вступает фактор клика на результат.

• Реклама AdSense или DoubleClick?

• Есть ли код Google Analytics?

• На что кликает пользователь, находясь на сайте? Скоро будет учитываться информация с сервиса +1.

• Сколько времени пользователь проводит на входящей странице?

• Переходит ли пользователь на другие страницы сайта?

• Кликает ли пользователь на кнопку Назад в браузере и возвращается на SERP Google или переходит по другим ссылкам?

• Данные из тулбара. На какие сайты подписан пользователь, а какие сайты заблокированы.

Малоизвестные параметры

• Известно, что Google использует необычные источники данных, собранные в местах посещения массовых пользователей. Например, Captcha, определяющая поврежденные слова в проекте Google сканирования книг. Скорее всего, у Google есть и другие методы по сбору данных о пользователях. По крайней мере у меня есть повод так предполагать (потому, что я играл в игру Werewolf с Мэтом Каттсом и знаю, какой он стрелянный воробей).

Таким образом, сбор информации с помощью Панды измеряет количественные характеристики пользователей и определяет условное местоположение каждого отдельного запроса относительно общей иерархии.

Применение метрики Панда ставит целый ряд дополнительных вопросов:

• Хочет ли Google, чтобы пользователи уходили с подходящего, найденного по их запросу сайта, и возвращались на Google.com?

• Если пользователь совершил успешный поиск в Google, то будет ли он продолжать использовать Google?

• Что может сделать Google, чтобы перенаправить ответные запросы?

• Действительно ли влияет персонализация на метрику Google?

• Изменяет ли отслеживание метрики Панда сами результаты алгоритма?

• Не влияет ли метод сбора информации на саму информацию?

Мне кажется, что метод сбора и анализа вышеприведенных данных, а также использование этой информации в рамках алгоритма, ведет к тому, что мы получаем результат с завышенным количеством довольных пользователей. Возможно, именно это вынудило Google обновить алгоритм Панда: количественные характеристики качественного контента, дающего низкий уровень отказов и высокую активность пользователей, неожиданно выросли при запуске первой версии Панды. Вопрос теперь в том, решит ли новая Панда эти проблемы?

Перевод Ксении Лим

Источник

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.