Заявка на бесплатный seo аудит конкурентов
*Действительно бесплатна и ни к чему не обязывает
Если вы оставите свой телефон, мы вас проконсультируем по seo оптимизации вашего сайта
На e-mail мы вышлем для вас отчет по аудиту ваших конкурентов
  • »
  • »

Файл robots.txt: что на сайте стоит спрятать от робота

Robots.txt помогает сократить нагрузку на сайт и оптимизировать процесс его индексации.

Расскажу об особенностях составления командного файла для роботов поисковиков

правильный robots txt
файл robots txt
Доступен электронный вариант статьи, нажимай на кнопку.

Поисковые боты регулярно сканируют страницы сайта...

а потом используют полученную информацию для индексации.

Но в случае, когда поисковые боты (или пауки) сканируют все без исключения страницы, мы получаем не возможность подняться в поисковой выдаче, а проблемы в виде перегрузки сайта и его зависания. Кроме того, далеко не всю информацию стоит раскрывать сторонним пользователям.

Для того, чтобы направить ботов на путь истинный и запретить им посещать не требующие индексации страницы ресурса, существует специальный командный файл Robots.txt.

Его задача — объяснить роботам на их же языке, какие файлы необходимо сканировать, а какие следует обходить стороной.
поисковые роботы seo

Терминология Robots.txt

Правила, которые необходимо прописать в файле Robots.txt, включают обязательные и дополнительные поля, а также специальные команды, содержащие ссылки или названия файлов и папок, и специальные символы, помогающие поисковым роботам понять, что делать.

директивы robots txt
терминология robots.txt
Каждая строка файла содержит так называемую директорию. К основным директориям, которые обязательно должны присутствовать в Robots.txt, относятся:
1. User-agent
Указывает, к ботам какой поисковой системы обращены следующие ниже правила. Роботы каждой системы имеют своё общее имя, например, Yandexbot, YandexImage, YandexVideo и др. (так называются «пауки» Яндекса), Googlebot, GoogleImages и др. (Гугла), Mail.ru (одноимённого поисковика), Bingbot (Bing), Slurp (Yahoo!) и т. д. Если правила относятся ко всем поисковым системам, в этом поле следует писать символ *. Директория располагается над остальными правилами.
2. Disallow
Правила этой директории могут закрыть от индексации отдельные документы и папки сайта. Даже если вы не знаете, зачем нужен запрет и какие страницы необходимо скрывать, уверена, вы знаете, какую информацию требуется защитить от сторонних пользователей. Это могут быть данные о паролях и личном кабинете, данные админки и т. д. Вот для такой информации и существует директория Disallow. Обычно идёт следом за User-agent, может занимать несколько строк по количеству запретов.
User-agent и Disallow — обязательные составляющие robots.txt. Есть и дополнительные директории, которые, хоть и не являются необходимыми, но помогают оптимизировать настройку индексации. В их числе:
3. Allow
антипод Disallow, в задачах которого принудить ботов открыть и проиндексировать отдельные файлы и папки сайта. Такая просьба «Не проходите мимо». Может находиться под User-agent или Disallow. Как и в случае с запретами, директория Allow может занимать сразу несколько строк.
4. Sitemap
показывает поисковым ботам место расположения карты сайта. Наиболее распространённый вид команды данной директории — http://yoursite/sitemap_index.xml или http://yoursite/sitemap.xml. Может располагаться на любой строке robots.txt.
5. Crawl-delay
устанавливает время, которое должно проходить до следующего сканирования. Смысл — уменьшение частоты индексации с целью снижения нагрузки на сайт. Команда директории указывается в секундах, целых или десятичных с точкой в качестве разделителя (2.0, 0.7). Директорию использовали роботы Яндекса, Mail.ru, Yahoo! и Bing, в прошлом году Яндекс отказался от неё по причине наиболее частых ошибок при составлении robots.txt.
Другие директории, с помощью которых можно прописать правила для поисковых роботов, используются реже и не сильно влияют на индексацию и разгрузку сайта.
С первым символом мы уже познакомились:
* адресует команды файла Robots.txt всем роботам поисковых систем, также он используется в командах для того, чтобы показать, что вместо него в строке могут быть любые другие знаки, литеры и символы.

Пример:
User-agent: Yandexbot
Allow: *.pdf — переводится, как «Роботы Яндекса, обязательно просканируйте все документы, в названии которых присутствует .pdf»
символы robots txt

Специальные символы robots.txt

символ * robots txt
символ / robots txt
символ $ robots txt
символ # robots txt
Специальные
Символ / без дополнений означает весь сайт. В сочетании с Disallow он блокирует весь сайт, а с Allow требует проиндексировать всё, что на нём есть.
Символ $ используется для указания, что на последующие знаки правило не распространяется. Можно сказать, что $ завершает команду.

Пример:
User-agent: *
Disallow: *.pdf$ - означает, что всем роботам запрещено индексировать любые документы, заканчивающиеся на .pdf.
Символ # ставится перед комментариями автора файла Robots.txt. В настоящее время практически не используются, так как роботы чаще всего не обращают на них внимания.

символы robots.txt

Учтите, если вы не укажите никакой команды для директивы Allow, это будет означать, что нет ни одного файла, который требуется индексировать, иными словами, запрет на индексацию.

Точно такой же запрет можно установить, если указать в директиве Disallow символ / без каких-либо дополнений.

Совместное использование принудительно разрешающих (Allow) и запрещающих (Disallow) директив, приводит к тему, что роботы будут выполнять правила последовательно в соответствии с указаниями. Например, чтобы запретить ботам Гугла сканировать все документы, кроме тех, название которых заканчивается на .js, следует указать:

User-agent: GoogleBot
Allow: *.js$
Disallow: /
специальные символы robots.txt
специальные символы robots txt
В зависимости от того, какую версию вебмастера (новую или старую) вы используете, проверка осуществляется либо в разделе «Сканирование» с помощью сервиса «Посмотреть как Googlebot» (для старой версии), либо простым вводом ссылки на сайт в поисковую строку. После запуска проверки выводится список закрытых для сканирования файлов и папок.
проверить robots txt
google search console seo
яндекс вебмастер seo
Для того, чтобы проверить Robots.txt с помощью инструментов Яндекса, достаточно просто ввести адрес сайта в специальное поле на странице
https://webmaster.yandex.ru/
tools/robotstxt/.

Способы проверки корректности заполнения файла Robots.txt

Что необходимо скрыть от ботов

Для облегчения нагрузки на сайт, а также чтобы скрыть некоторую «секретную» информацию, которая не предназначена для посторонних глаз, я рекомендую запрещать доступ к:
закрыть сайт от индексации robots txt
· файлам админки;
· данным личных кабинетов, формам регистрации и авторизации;
· корзине, формам заказа, данным о доставке;
· файлам .ajax и .json;
· документам папки cgi;
· поисковому функционалу;
· служебным страницам;
· плагинам;
· UTM-меткам;
· дублирующим разделам и страницам.
robots txt запрет индексации
Доступен электронный вариант статьи, нажимай на кнопку.
Не забывайте, что боты поисковых систем не обязаны следовать правилам файла Robots.txt. Он не является обязательным для них, скорее носит рекомендательный характер. В ряде случаев поисковые «пауки» могут в обход правил сканировать закрытые страницы или игнорировать те, которые вы просите проиндексировать. Такое происходит далеко не всегда, поэтому всё же не стоит пренебрегать возможностью настроить процесс индексации.

Создание файла Robots.txt требует специфических знаний и опыта. Для небольших сайтов можно использовать универсальные команды, которые нетрудно найти в рекомендациях некоторых специалистов. Если же есть необходимость составить более сложный перечень команд и самостоятельно справиться не удаётся, можно обратиться к профессиональным SEO-специалистам, в надёжности которых вы уверены. Обычно такая услуги стоит небольших денег, зато позволяет сэкономить время и избежать многих ошибок.
Тест можно пройти несколько раз ;)
Файл Robots.txt
зачем он нужен?
Давайте проверим
ваши знания.
Проверить
Для чего нужен файл Robots.txt?
Далее
Проверить
Узнать результат
Основные директории Robots.txt?
Далее
Проверить
Узнать результат
Что означает директория Disallow?
Далее
Проверить
Узнать результат
Что относится к дополнительным директориям?
Далее
Проверить
Узнать результат
Зачем нужна функция Crawl-delay?
Далее
Проверить
Узнать результат
Что означает символ *?
Далее
Проверить
Узнать результат
Где можно проверить файл Robots.txt?
Далее
Проверить
Узнать результат
Вы точно прочитали статью внимательно. Перечитайте ее еще раз и попробуйте пройти тест еще раз.
Пройти еще раз
Вы точно прочитали статью внимательно. Перечитайте ее еще раз и попробуйте пройти тест еще раз.
Пройти еще раз
Вы точно прочитали статью внимательно. Перечитайте ее еще раз и попробуйте пройти тест еще раз.
Пройти еще раз
Вы точно прочитали статью внимательно. Перечитайте ее еще раз и попробуйте пройти тест еще раз.
Пройти еще раз
Молодец! 90% материала освоено на УРА! Обрати внимание на ошибки и разберись, что не так.
Пройти еще раз
Идеально! Спасибо! Мне очень приятно, что меня услышали и поняли!
Пройти еще раз
Посмотрим, что у нас тут еще есть!
Made on
Tilda