Автор: Татьяна Бикаева, маркетолог CPA-сети Admitad и проекта GetDirect

Если вы занимаетесь интернет-маркетингом, то вам так или иначе приходится сталкиваться с решением технических вопросов. Если речь идет о SEO, то это проверка работоспособности страница сайта, скорости загрузки сайта, проверка наличия ошибок на странице и так далее. Если это контекстная реклама, то приходится иметь дело с формированием xml-фида с товарами, составлением и распределением запросов семантического ядра, генерацией объявлений и тому подобным.

Конечно же, средний специалист может никогда не столкнуться с подобными техническими аспектами, но если вы занимаетесь интернет-маркетингом всерьез и надолго, то этого не избежать. Многие задачи поисковой оптимизации сайта, равно как и составления рекламных кампаний в Директе можно и нужно автоматизировать. Одной из таких задач является сбор данных, автоматизировать который можно при помощи программ-парсеров.

В статье приводятся примеры работы следующих парсеров:

1. A-parser – платный софт, но многофункциональный
2. Datacol – условно бесплатный. В бесплатной версии можно сохранить до 25 строк результатов парсинга.
3. RDS Api – есть платный и бесплатный функционал
4. KeyCollector – платный софт, но существует его бесплатная версия с ограниченным функционалом
5. Xenu – бесплатная программа для парсинга
6. Он-лайн сервис MainSpy. Используется его бесплатный функционал

Коды ответов

Если вы решили заняться проверкой и корректированием технических аспектов вашего сайта, первое, что нужно проверить, это коды ответов сервера для страниц сайта. Код ответа – это трехзначное число, сигнализирующее о состоянии веб-страницы: работает она или нет, есть к ней доступ или нет, существует она вообще или нет и так далее. Не будем долго останавливаться на этом, приведем самые распространенные значения кодов ответа сервера:

• 200 — страница существует и доступна для просмотра. Все важные страницы сайта должны отдавать такой код, иначе они не попадут в индекс поисковых систем.
• 301, 302, 303, 307 – перенаправление (редирект). Код 301 – это постоянное перенаправление, а остальные – временное. Постоянный редирект означает, что страницы по текущему адресу больше нет, она доступна по другому адресу. Так бывает, если на сайте поменялась структура, или домен сайта в принципе используется только с целью перенаправления пользователя на другой ресурс. Последний вариант часто применяется для арбитража трафика в Яндекс Директе.
• 404 – указывает браузеру или поисковой системе, что искомой страницы не существует. В этом случае отображается стандартная станица «по этому адресу ничего не найдено» или страница-заглушка, сверстанная по соответствующему шаблону:

• 504 – превышено время ожидания ответа от сервера. Помимо этого кода есть и ряд других кодов вида 5xx, которые сигнализируют об ошибках в работе со стороны сервера.

Можно настроить парсер на обход определенного сайта и выгрузку результатов о кодах ответов найденных страниц. Возьмем для примера 4 страницы и рассмотрим варианты парсинга при помощи различных программ и сервисов:

A-parser

Результат получился такой:

Онлайн сервис MainSpy

Xenu

Можно легко проверить как сайт целиком, так и его отдельные страницы.

Также данную процедуру в рамках одного URL (а не всего сайта сразу), можно проделать с помощью инструмента проверки кодов ответа в Яндекс.Вебмастере:

Проверка наличия ссылки на странице

Если вы покупаете ссылки на других сайтах, или решили заняться анализом ссылочной массы и выгрузили списки ссылок из Яндекс Вебмастера или других источников, то первое, что нужно сделать с такой выгрузкой, это проверить каждый URL на наличие ссылки на ваш сайт.

Эту процедуру лучше периодически повторять, потому что купленная ссылка может в какой-то момент пропасть со страницы, и тогда это повод написать администратору сайта-донора.

Рассмотрим несколько вариантов парсинга. Как правило, все парсеры работают по одному алгоритму: сначала вы задаете домен или ссылку, которую необходимо найти, потом через пробел – ссылку на страницу, где нужно искать.

A-parser

RDS Api

На выходе мы получим статус наличия или отсутствия ссылки на заданных URL.

Парсинг картинок из поиска

Теперь обратим внимание на рекламу сайта в РСЯ. Для успешной рекламы в сети Яндекса, мы должны загрузить в объявление картинку. Картинки можно подбирать вручную к каждому объявлению, а можно спарсить сотню изображений из Яндекса по соответствующему запросу, после чего, загрузить изображения в объявления для теста CTR и вычисления наилучшей картинки.

Для использования картинок в Директе, лучше выбирать картинки больших размеров, так как Яндекс не пропускает картинки с маленьким разрешением. К примеру, мы рекламируем туры во Францию. В качестве запроса можно указать «туры во Францию» и на выходе получить ссылки на картинки по запросу. Пример сбора с помощью Datacol

В результате мы получили файлы с картинками, сохраненные в папке, которую мы указали.

Парсинг рекламной выдачи

Иногда, для того чтобы грамотно составить объявление в Директе, имеет смысл проанализировать все объявления конкурентов по запросу или группе запросов.
Приведем пример работы двух популярных программ, реализующих данную функцию. Загружаем поисковые запросы, например, из той же тематики по турам во Францию.

Datacol

A-parser

На выходе получаем ссылки, заголовки и тексты объявлений рекламной выдаче по запросу в указанном регионе.

Проверка частотности запросов

Довольно распространенная процедура. Применяется как в SEO, так и в контекстной рекламе. Ничего сложного от парсера не требуется, нам нужно только задать настройки региона и тип соответствия запросов. Если задача состоит в том, чтобы обработать большой объем данных, тогда парсер должен поддерживать функцию обработки капчи и возможность работы через прокси сервер.

Примеры сбора:

Datacol

KeyCollector

И в том и в другом случае, в выходном файле мы получим запросы и их частотность. Как правило, это нужно для фильтрации запросов, имеющих нулевую частотность. Для SEO, мы такие запросы исключаем из семантического ядра, а в Директе можно приписать такого рода запросы к схожим группам объявлений.

Сбор данных – это лишь одна задач в работе SEO специалиста и менеджера по контекстной рекламе, которую можно и даже нужно автоматизировать. Основная же работа связана с анализом полученных данных и разработкой дальнейшей стратегии.

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета.
Языки: румынский, испанский.
Кредо: Арфы нет, возьмите бубен.