FAQ Google о PDF-файлах

75

Google начал индексировать PDF-файлы в 2001 году; в настоящий момент в индексе поисковой машины находятся сотни миллионов таких файлов. Google собрал самые часто задаваемые вопросы по поводу поиска файлов в формате PDF и создал справочный раздел по ним.

Вопрос: Может ли Google индексировать любой тип PDF-файлов?

Ответ: В общем, мы можем индексировать текстовый контент (написанный на любом языке) из файлов PDF, которые используют различные кодировки, если они не защищены паролем и не зашифрованы. Если текст вставлен как изображение, мы можем обработать его при помощи OCR алгоритмов и извлечь. Общее правило таково: если вы можете скопировать и вставить текст из PDF-документа в текстовый документ, мы сможем его проиндексировать.

Вопрос: Что происходит с изображениями PDF файлов?

Ответ: В настоящий момент, картинки не индексируются. Чтобы мы проиндексировали ваши изображения, вам следует создать для них HTML-страницы.

Вопрос: Как рассматриваются ссылки в PDF-документах?

Ответ: Вообще, ссылки в PDF-файлах обрабатываются также как в HTML: они могут передавать PageRank и другие сигналы индексирования, а мы можем переходить по ним после краулинга PDF файла. В настоящий момент задать параметр "nofollow" для ссылок в PDF-документе невозможно.

Вопрос: Как я могу предотвратить появление моих PDF файлов в поисковых результатах, а если они уже там, то как я могу удалить их?

Ответ: Наиболее простым способом предотвратить попадание PDF-документов в поисковые результаты — это добавить X-Robots-Tag: noindex в заголовке HTTP, который используется для файла. Если же они уже проиндексированы, они пропадут со временем, если вы используете X-Robot-Tag с директивой noindex. Для более быстрого удаления можно использовать инструмент URL removal tool в Google Webmaster Tools.

Вопрос: Может ли PDF высоко ранжироваться в результатах?

Ответ: Конечно! Они ранжируются также как другие веб-страницы. Например, во время написания этого поста, запросы [mortgage market review], [irs form 2011] и [paracetamol expert report] показывают результаты, в которых PDF-документы занимают высокие позиции выдачи, благодаря контенту и ссылкам на них с других страниц.

Вопрос: Рассматривается ли существование страниц как в HTML, так и в PDF как дублирование контента?

Ответ: Насколько это возможно, мы рекомендуем предоставление единственной копии контента. Если это невозможно, убедитесь, что вы указали предпочтительную версию, например, указав предпочтительную URL в Sitemap или определив каноническую версию в HTML или HTTP заготовках PDF.

Вопрос: Как я могу повлиять на заголовок, который будет отображен в результатах по моему PDF-документу?

Ответ: Для определения, какой заголовок отобразить, мы используем два основных элемента: метаданные title внутри файла и текст анкоров из ссылок на этот PDF файл. Для того, чтобы дать нашим алгоритмам надежный сигнал для понимания, какой заголовок использовать, мы рекомендуем обновлять оба параметра.

Для получения большей информации, просмотрите видео Мэтта Каттса (Matt Cutts) об оптимизации PDF и справочник Help Center для получения информации о других типах контента, которые мы можем проиндексировать. Обсуждение доступно на Webmaster Help Forum.