Файл robots.txt

Robots.txt — это файл, который содержит параметры для частичного управления обходом сайта поисковыми роботами, то есть стандарт исключений для роботов.

Robots.txt состоит из набора инструкций для поисковых машин, определяя какие директории сайта и страницы нельзя индексировать. Именно этот файл ищет робот, попадая на ваш сайт. Файл находится на хостинге в корне сайта по адресу: ваш_сайт.ru/robots.txt

Какие категории скрывают в файле robots.txt:

  • Административная часть сайта
  • Пустые страницы
  • Формы регистрации
  • Папки компонентов
  • Другая служебная информация

Настройка файла robots.txt

Наиболее часто в файле используются директивы User-agent, Disallow, Allow, Host, Sitemap.

Директива User-agent — эта директива указывает, для какого поискового робота прописан следующий набор команд. Например, если мы обращаемся к роботу Яндекс, то прописываем: «User-agent: Yandex». Если нас интересует Google, тогда «User-agent: GoogleBot». Если же мы обращаемся сразу ко всем поисковикам, то достаточно написать «User-agent: *».

Директива Disallow — с помощью это директивы поисковому роботу запрещается индексировать каталоги или файлы. Тут используется специальный символ «/» после которого нужно прописать путь к каталогу, файлу или URL. Например, чтобы запретить индексацию папки «wp-includes», где находятся файлы ядра WordPress, нужно прописать после директории User-agent такую команду: «Disallow: /wp-includes/».

Директива Allow — данная директива является логически противоположной директиве Disallow. То есть она разрешает поисковым роботам индексировать папки, файлы или страницы. Часто эти директивы используются в паре. Это нужно для того, чтобы, например, открыть роботу доступ к подкаталогу в запрещённому для индексации каталогу.

Директива Host — данная директива предназначена только для Яндекса. Дело в том, что в Яндексе есть понятие «Зеркала сайта» — он воспринимает сайты www.имя_сайта.ru и просто имя_сайта.ru как разные ресурсы с аналогичным содержимым.

Директива Sitemap — показывает роботам, где находится файл .xml, который служит для ускорения индексации сайта. Эта директива идёт самой последней в robots.txt.

Проверить файл на валидность можно с помощью специальных сервисов Яндекс Вебмастер и Google SearchConsole.

Добавить комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

Отправить