Файл robots.txt
Robots.txt — это файл, который содержит параметры для частичного управления обходом сайта поисковыми роботами, то есть стандарт исключений для роботов.
Robots.txt состоит из набора инструкций для поисковых машин, определяя какие директории сайта и страницы нельзя индексировать. Именно этот файл ищет робот, попадая на ваш сайт. Файл находится на хостинге в корне сайта по адресу: ваш_сайт.ru/robots.txt
Какие категории скрывают в файле robots.txt:
- Административная часть сайта
- Пустые страницы
- Формы регистрации
- Папки компонентов
- Другая служебная информация
Настройка файла robots.txt
Наиболее часто в файле используются директивы User-agent, Disallow, Allow, Host, Sitemap.
Директива User-agent — эта директива указывает, для какого поискового робота прописан следующий набор команд. Например, если мы обращаемся к роботу Яндекс, то прописываем: «User-agent: Yandex». Если нас интересует Google, тогда «User-agent: GoogleBot». Если же мы обращаемся сразу ко всем поисковикам, то достаточно написать «User-agent: *».
Директива Disallow — с помощью это директивы поисковому роботу запрещается индексировать каталоги или файлы. Тут используется специальный символ «/» после которого нужно прописать путь к каталогу, файлу или URL. Например, чтобы запретить индексацию папки «wp-includes», где находятся файлы ядра WordPress, нужно прописать после директории User-agent такую команду: «Disallow: /wp-includes/».
Директива Allow — данная директива является логически противоположной директиве Disallow. То есть она разрешает поисковым роботам индексировать папки, файлы или страницы. Часто эти директивы используются в паре. Это нужно для того, чтобы, например, открыть роботу доступ к подкаталогу в запрещённому для индексации каталогу.
Директива Host — данная директива предназначена только для Яндекса. Дело в том, что в Яндексе есть понятие «Зеркала сайта» — он воспринимает сайты www.имя_сайта.ru и просто имя_сайта.ru как разные ресурсы с аналогичным содержимым.
Директива Sitemap — показывает роботам, где находится файл .xml, который служит для ускорения индексации сайта. Эта директива идёт самой последней в robots.txt.
Проверить файл на валидность можно с помощью специальных сервисов Яндекс Вебмастер и Google SearchConsole.