Файл Robots.txt: что на сайте стоит спрятать от робота

Robots.txt помогает сократить нагрузку на сайт и оптимизировать процесс его индексации.
Расскажу об особенностях составления командного файла для роботов поисковиков.

Поисковые боты регулярно сканируют страницы сайта.
А потом используют полученную информацию для индексации.

Но в случае, когда поисковые боты (или пауки) сканируют все без исключения страницы, мы получаем не возможность подняться в поисковой выдаче, а проблемы в виде перегрузки сайта и его зависания. Кроме того, далеко не всю информацию стоит раскрывать сторонним пользователям.

Для того, чтобы направить ботов на путь истинный и запретить им посещать не требующие индексации страницы ресурса, существует специальный командный файл Robots.txt.

Его задача — объяснить роботам на их же языке, какие файлы необходимо сканировать, а какие следует обходить стороной.

Терминология Robots.txt

Правила, которые необходимо прописать в файле Robots.txt, включают обязательные и дополнительные поля, а также специальные команды, содержащие ссылки или названия файлов и папок, и специальные символы, помогающие поисковым роботам понять, что делать. Каждая строка файла содержит так называемую директорию.

К основным директориям, которые обязательно должны присутствовать в Robots.txt, относятся:

User-agent

Указывает, к ботам какой поисковой системы обращены следующие ниже правила.

Роботы каждой системы имеют своё общее имя, например, Yandexbot, YandexImage, YandexVideo и др. (так называются «пауки» Яндекса), Googlebot, GoogleImages и др. (Гугла), Mail.ru (одноимённого поисковика), Bingbot (Bing), Slurp (Yahoo!) и т. д.

Если правила относятся ко всем поисковым системам, в этом поле следует писать символ *.
Директория располагается над остальными правилами.

Disallow

Правила этой директории могут закрыть от индексации отдельные документы и папки сайта.

Даже если вы не знаете, зачем нужен запрет и какие страницы необходимо скрывать, уверена, вы знаете, какую информацию требуется защитить от сторонних пользователей. Это могут быть данные о паролях и личном кабинете, данные админки и т. д.

Вот для такой информации и существует директория Disallow.
Обычно идёт следом за User-agent, может занимать несколько строк по количеству запретов.

User-agent и Disallow — обязательные составляющие robots.txt.
Есть и дополнительные директории, которые, хоть и не являются необходимыми, но помогают оптимизировать настройку индексации.

Allow

Антипод Disallow, в задачах которого принудить ботов открыть и проиндексировать отдельные файлы и папки сайта. Такая просьба «Не проходите мимо».
Может находиться под User-agent или Disallow.
Как и в случае с запретами, директория Allow может занимать сразу несколько строк.

Sitemap

Показывает поисковым ботам место расположения карты сайта. Наиболее распространённый вид команды данной директории — http://yoursite/sitemap_index.xml или http://yoursite/sitemap.xml.
Может располагаться на любой строке robots.txt.

Crawl-delay

Устанавливает время, которое должно проходить до следующего сканирования. Смысл — уменьшение частоты индексации с целью снижения нагрузки на сайт.

Команда директории указывается в секундах, целых или десятичных с точкой в качестве разделителя (2.0, 0.7). Директорию использовали роботы Яндекса, Mail.ru, Yahoo! и Bing, в прошлом году Яндекс отказался от неё по причине наиболее частых ошибок при составлении robots.txt.

Другие директории, с помощью которых можно прописать правила для поисковых роботов, используются реже и не сильно влияют на индексацию и разгрузку сайта.

Специальные символы robots.txt

С первым символом мы уже познакомились:
* адресует команды файла Robots.txt всем роботам поисковых систем, также он используется в командах для того, чтобы показать, что вместо него в строке могут быть любые другие знаки, литеры и символы.

Пример:
User-agent: Yandexbot
Allow: *.pdf — переводится, как «Роботы Яндекса, обязательно просканируйте все документы, в названии которых присутствует .pdf»
Символ / без дополнений означает весь сайт. В сочетании с Disallow он блокирует весь сайт, а с Allow требует проиндексировать всё, что на нём есть.
Символ $ используется для указания, что на последующие знаки правило не распространяется. Можно сказать, что $ завершает команду.

Пример:
User-agent: *
Disallow: *.pdf$ - означает, что всем роботам запрещено индексировать любые документы, заканчивающиеся на .pdf.

Символ # ставится перед комментариями автора файла Robots.txt. В настоящее время практически не используются, так как роботы чаще всего не обращают на них внимания.

Учтите, если вы не укажите никакой команды для директивы Allow, это будет означать, что нет ни одного файла, который требуется индексировать, иными словами, запрет на индексацию.

Точно такой же запрет можно установить, если указать в директиве Disallow символ / без каких-либо дополнений.

Совместное использование принудительно разрешающих (Allow) и запрещающих (Disallow) директив, приводит к тему, что роботы будут выполнять правила последовательно в соответствии с указаниями.

Например, чтобы запретить ботам Гугла сканировать все документы, кроме тех, название которых заканчивается на .js, следует указать:

User-agent: GoogleBot
Allow: *.js$
Disallow: /

Способы проверки корректности заполнения файла Robots.txt

В зависимости от того, какую версию вебмастера (новую или старую) вы используете, проверка осуществляется либо в разделе «Сканирование» с помощью сервиса «Посмотреть как Googlebot» (для старой версии), либо простым вводом ссылки на сайт в поисковую строку.

После запуска проверки выводится список закрытых для сканирования файлов и папок.

Для того, чтобы проверить Robots.txt с помощью инструментов Яндекса, достаточно просто ввести адрес сайта в специальное поле на странице
https://webmaster.yandex.ru/
tools/robotstxt/.

Что необходимо скрыть от ботов

Для облегчения нагрузки на сайт, а также чтобы скрыть некоторую «секретную» информацию, которая не предназначена для посторонних глаз, я рекомендую запрещать доступ к:
· файлам админки;
· данным личных кабинетов, формам регистрации и авторизации;
· корзине, формам заказа, данным о доставке;
· файлам .ajax и .json;
· документам папки cgi;
· поисковому функционалу;
· служебным страницам;
· плагинам;
· UTM-меткам;
· дублирующим разделам и страницам.

Не забывайте, что боты поисковых систем не обязаны следовать правилам файла Robots.txt.

Он не является обязательным для них, скорее носит рекомендательный характер. В ряде случаев поисковые «пауки» могут в обход правил сканировать закрытые страницы или игнорировать те, которые вы просите проиндексировать.

Такое происходит далеко не всегда, поэтому всё же не стоит пренебрегать возможностью настроить процесс индексации.

Создание файла Robots.txt требует специфических знаний и опыта.
Для небольших сайтов можно использовать универсальные команды, которые нетрудно найти в рекомендациях некоторых специалистов.

Если же есть необходимость составить более сложный перечень команд и самостоятельно справиться не удаётся, можно обратиться к профессиональным SEO-специалистам, в надёжности которых вы уверены.

Обычно такая услуга стоит небольших денег, зато позволяет сэкономить время и избежать многих ошибок.