Исследование прямого эфира Яндекса : есть ли смысл парсить и что он в себя включает?

Прямой эфир Яндекса (https://export.yandex.ru/last/last20x.xml) — отличная штука, чтобы получить новые запросы. По крайней мере, так считает множество оптимизаторов. Специалисты AmazingSoftware решили проверить, так ли это на самом деле.

В целях эксперимента, был написан многопоточный парсер и оставлен на неделю работать в одиночестве. Через неделю было обнаружено 414 Гб информации и 4 460 619 547 на сервере. Радостно потирая ручки, специалисты приступили к удалению дублей из массива фраз. И каково же было их удивление, когда после удаления дублей в массиве осталось всего лишь 15 068 199 уникальных фраз — поистине несущественное количество, по сравнению с исходным объемом.

Таким образом, можно сделать вывод о том, что на практике парсинг прямого эфира не дает статистически значимых результатов — за неделю было получено 8 млн фраз, за год получится в лучшем случае 300-350 млн, что вовсе не является существенным объемом с точки зрения современного рынка баз ключевых запросов.

Давайте подробнее рассмотрим, что же было получено в результате недельного парсинга.

Статистика по парсингу прямого эфира Яндекса за период с 02.02.2015 по 08.02.2015 включительно (7 дней):

  • количество потоков парсинга – 10
  • скорость получения ключевых слов – около 10 тыс в секунду
  • запись велась в 70 текстовых файлов файлов (7 дней по 10 потоков):


  • размер файлов от 1.6 гб до 8.8 гб
  • количество ключевых фраз, полученных за время парсинга – 4 460 619 547
  • количество ключевых фраз после удаления дублей – 15 068 199

Также при помощи лемматизатора, используемого в программе «МегаЛемма» — был составлен частотный словарь полученной выборки, который опубликован здесь.

Самыми частотными словами выборки, за исключением союзов и предлогов стали (указана частота употребления, раз):

купить    382468

фото       290786

скачать   253934

отзывы    172763

видео      170758

ru            153455

онлайн    147839

смотреть 146245

игры       110075

Таким образом, можно сделать вывод, что имеет место быть явное преобладание коммерческих запросов («купить»), запросов, связанных с онлайн кинотеатрами, фильмами, видеороликами и фото. Это делает базу ценной для оптимизаторов, работающих с коммерческой тематикой, Директом, с download-трафиком из поисковых машин.

Сам по себе прямой эфир также выдает показатель found — судя по всему, это количество найденных результатов в поисковой выдаче по данному запросу. Оптимизаторы, заинтересованные в получении данного параметра, могут воспользоваться прямым эфиром — в отличии от обычной выдачи, здесь нет капчи и парсинг получается фактически бесплатным.

Скачать базу бесплатно можно по ссылке — https://www.dropbox.com/s/isd37ddcjkaeod5/onair.7z?dl=0 . Внутри находится в формате .akdb — это специальный формат, используемый в базах ключевых слов AmazingSoftware.

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.