Как найти страницы, непроиндексированные Google

В статье автор делится тонкостями настройки специального скрипта на Python, который поможет справиться с этой задачей.

Автор: Пол Шапиро (Paul Shapiro) – руководитель SEO-направления агентства Catalyst Digital, США.

Узнать, сколько страниц было проиндексировано Google, можно с помощью Search Console. Но как отыскать те URL, которые отсутствуют в индексе поисковой системы? Справиться с этой задачей поможет специальный скрипт на Python.

Органический поиск включает три основных компонента: сканирование, индексирование и ранжирование. Когда поисковый робот заходит на сайт, он сканирует все найденные ссылки. Эта информация затем передаётся в индекс поисковой системы, после чего определяется порядок её показа в результатах поиска.

SEO-специалисты основное внимание уделяют компоненту ранжирования. Но если поисковая система не смогла просканировать и проиндексировать страницы на сайте, он не получит трафика из Google. Обеспечение правильного сканирования и индексирования сайта – важная часть поисковой оптимизации.

Как узнать, сколько всего страниц проиндексировано

При наличии доступа к Google Search Console можно посмотреть, сколько страниц содержится в файле XML Sitemap, и сколько из них было проиндексировано. При этом в сервисе не уточняется, какие именно URL не попали в индекс поисковой системы.

webmaster-tools-index-status

Чтобы получить эту информацию, придётся проверить каждый URL вручную. Но эту задачу можно автоматизировать.

Как проверить, был ли URL проиндексирован Google

Чтобы узнать, был ли конкретный URL проиндексирован Google, можно использовать поисковый оператор «info:». Например:

info:http://searchengineland.com/google-downplays-google-algorithm-ranking-update-week-normal-fluctuations-258923

Если URL проиндексирован, результат будет таким:

url-indexed-800x242

В противном случае Google вернёт ошибку:

not-indexed-info-opperator-800x246

Как использовать Python для массовой проверки статуса индексирования страниц

Теперь вы знаете, как проверить отдельный URL. Но как провести массовую проверку? Используйте следующий скрипт на Python:

Чтобы использовать этот скрипт, на компьютере должен быть установлен Python 3. Также потребуется установить библиотеку BeautifulSoup. Для этого откройте командную строку и выполните следующую команду:

pip install beautifulsoup4

После этого вы можете загрузить скрипт на свой компьютер. В той же папке, где находится скрипт, создайте текстовый файл со списком URL. Каждый URL должен идти отдельной строкой.

file-directory

Теперь, когда скрипт готов к работе, нужно установить и настроить Tor для использования его в качестве прокси-сервера. На Windows загрузите Tor Expert Bundle. Извлеките папку из архива в локальный каталог на ПК и запустите tor.exe. Окно можно свернуть.

tor-expert-800x545Затем нужно установить Polipo для преобразования socks-прокси в http-прокси. Загрузите последнюю версию Windows binary (она будет называться «polipo-1.x.x.x-win32.zip») и извлеките папку из архива.

В папке Polipo создайте текстовый файл (например, config.txt) со следующим содержанием:

socksParentProxy = "localhost:9050"

socksProxyType = socks5

diskCacheRoot = ""

disableLocalInterface=true

Откройте командную строку и перейдите в папку Polipo. Выполните следующую команду:

polipo.exe -c config.txt
polipo-screen-800x522

На этом этапе можно запускать Python-скрипт:

python indexchecker.py
python-script-prompts-800x93

Скрипт попросит указать количество секунд для ожидания между проверками каждого URL.

Затем он попросит ввести имя файла (без расширения) для выгрузки результатов в CSV.

Наконец, он запросит имя текстового файла, который содержит список URL для проверки.

Введите эти данные и запустите скрипт.

Конечный результат будет представлен в виде CSV-файла, который можно без труда открыть в Excel.

В итоговой таблице проиндексированным URL будет присвоено значение TRUE, непроиндексированным – FALSE.

output-csv-file-google-index

Если скрипт не работает, то Google, возможно, блокирует Tor. В этом случае используйте свой собственный прокси-сервер, изменив следующие строки скрипта:

proxies = {

'https' : 'https://localhost:8123',

'https' : 'http://localhost:8123'

}

Заключение

Знать, какие страницы были проиндексированы Google, критически важно для SEO. Вы не сможете получить трафик из поиска, если ваших страниц нет в индексе поисковой системы.

К сожалению, Google не предоставляет информацию о том, какие URL не были проиндексированы. Но эта проблема решаема. Используя описанный выше скрипт, вы сможете получить эти данные без особого труда.

Источник: Search Engine Land
preview 15 полезных Chrome-расширений для специалистов по SEM

15 полезных Chrome-расширений для специалистов по SEM

Приведённые в статье расширения помогут специалистам по поисковому маркетингу работать быстрее и эффективнее
preview Механика продвижения в Telegram. Кейс Devaka Talk

Механика продвижения в Telegram. Кейс Devaka Talk

Telegram сейчас у всех на устах и все хотят использовать это как рабочий инструмент, но мало кто знаком с механикой продвижения в этой социальной сети
preview Как понять, чего хотят пользователи сайта, и дать им это

Как понять, чего хотят пользователи сайта, и дать им это

Пользоваться теплокартами - это как быть Джеймсом Бондом, только без Aston Martin, - вы шпионите за вашими пользователями и видите все, что они делают на вашем ресурсе: как...
preview Полное руководство по оптимизации страниц товаров

Полное руководство по оптимизации страниц товаров

Как превратить страницы товаров в лендинги для релевантных поисковых запросов? Об этом пойдёт речь в статье
preview Прикладные техники оптимизации PNG

Прикладные техники оптимизации PNG

Продолжаем тему оптимизации изображений в формате PNG. Примерно четверть изображений на сайтах — это именно PNG
preview Неудобная безопасность

Неудобная безопасность

Веб-мастера и владельцы сайтов, уже имеющие опыт защиты веб-проектов, знают, что комплексная безопасность сайта – это не разовое действие, а непрерывный процесс