Исследование прямого эфира Яндекса : есть ли смысл парсить и что он в себя включает?

Прямой эфир Яндекса (https://export.yandex.ru/last/last20x.xml) - отличная штука, чтобы получить новые запросы. По крайней мере, так считает множество оптимизаторов. Специалисты AmazingSoftware решили проверить, так ли это на самом деле.

В целях эксперимента, был написан многопоточный парсер и оставлен на неделю работать в одиночестве. Через неделю было обнаружено 414 Гб информации и 4 460 619 547 на сервере. Радостно потирая ручки, специалисты приступили к удалению дублей из массива фраз. И каково же было их удивление, когда после удаления дублей в массиве осталось всего лишь 15 068 199 уникальных фраз - поистине несущественное количество, по сравнению с исходным объемом.

Таким образом, можно сделать вывод о том, что на практике парсинг прямого эфира не дает статистически значимых результатов - за неделю было получено 8 млн фраз, за год получится в лучшем случае 300-350 млн, что вовсе не является существенным объемом с точки зрения современного рынка баз ключевых запросов.

Давайте подробнее рассмотрим, что же было получено в результате недельного парсинга.
Статистика по парсингу прямого эфира Яндекса за период с 02.02.2015 по 08.02.2015 включительно (7 дней):

  • количество потоков парсинга – 10
  • скорость получения ключевых слов – около 10 тыс в секунду
  • запись велась в 70 текстовых файлов файлов (7 дней по 10 потоков):


  • размер файлов от 1.6 гб до 8.8 гб
  • количество ключевых фраз, полученных за время парсинга – 4 460 619 547
  • количество ключевых фраз после удаления дублей – 15 068 199

Также при помощи лемматизатора, используемого в программе «МегаЛемма» - был составлен частотный словарь полученной выборки, который опубликован здесь.

Самыми частотными словами выборки, за исключением союзов и предлогов стали (указана частота употребления, раз):

купить    382468
фото       290786
скачать   253934
отзывы    172763
видео      170758
ru            153455
онлайн    147839
смотреть 146245
игры       110075

Таким образом, можно сделать вывод, что имеет место быть явное преобладание коммерческих запросов («купить»), запросов, связанных с онлайн кинотеатрами, фильмами, видеороликами и фото. Это делает базу ценной для оптимизаторов, работающих с коммерческой тематикой, Директом, с download-трафиком из поисковых машин.

Сам по себе прямой эфир также выдает показатель found - судя по всему, это количество найденных результатов в поисковой выдаче по данному запросу. Оптимизаторы, заинтересованные в получении данного параметра, могут воспользоваться прямым эфиром - в отличии от обычной выдачи, здесь нет капчи и парсинг получается фактически бесплатным.

Скачать базу бесплатно можно по ссылке - https://www.dropbox.com/s/isd37ddcjkaeod5/onair.7z?dl=0 . Внутри находится в формате .akdb - это специальный формат, используемый в базах ключевых слов AmazingSoftware.

Google тестирует новый пользовательский интерфейс поисковой выдачи на мобильных устройствах

Пользователи заметили, что Google тестирует новый интерфейс для результатов поисковой выдачи мобильного поиска

Джон Мюллер: Panda не наказывает сайты за дублирование метаописаний и тегов title

Во время очередной видеоконференции специалист отдела качества поиска Google по работе с вебмастерами Джон Мюллер (John Mueller) заявил, что наличие дублированных тегов title и...

Отчеты Google Webmaster Tools не обновляются с 7 февраля

Пользователи заметили, что отчеты Google Webmaster Tools не обновлялись в течение недели – с субботы, 7 февраля

Как отпраздновать День влюбленных? Спросите у Яндекса!

Специально к 14 февраля Яндекс запустил интерактивный колдунщик, который поможет пользователям не только выбрать подарок для любимого человека, но и определиться с программой...

Google выпустил альфа-версию нового отчёта по поисковым запросам Search Impact в WMT

Google запустил альфа-тестирование нового отчёта по поисковым запросам в Инструментах для вебмастеров (Webmaster Tools

В отчетах Google Analytics отсутствуют данные за 9 февраля

В форумах помощи Google Analytics появились десятки жалоб веб-мастеров на отсутствие в отчетах данных за 9 февраля