Robots.txt — текстовый файл в корне сайта, который сообщает поисковым роботам, какие страницы можно сканировать, а какие нет. Расположен по адресу site.ru/robots.txt и читается роботом первым делом при каждом визите.

Как работает

Когда поисковый робот приходит на сайт, он запрашивает /robots.txt и читает директивы Disallow (запретить) и Allow (разрешить) для конкретных User-agent. Через Crawl-delay можно снизить частоту запросов к серверу. Важно: robots.txt не запрещает индексацию — только сканирование. Страница может остаться в индексе, если на неё ведут внешние ссылки.

Где используется

  • Закрытие служебных разделов: /admin/, /cart/, /login/
  • Запрет сканирования дублей с UTM-метками и параметрами фильтрации
  • Указание пути к файлу Sitemap.xml
  • Снижение нагрузки на сервер от агрессивных краулеров

Пример

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /*?utm_
Allow: /

Sitemap: https://example.ru/sitemap.xml

Частые ошибки

  • Disallow: / — закроет весь сайт от сканирования, полная потеря видимости
  • Закрытие CSS и JS файлов — Google не сможет отрендерить страницы
  • Путать robots.txt с noindex: первый запрещает сканирование, второй — индексацию
  • Не указывать Sitemap в файле
Robots.txt запрещает страницу показываться в поиске?

Нет. Robots.txt запрещает сканирование, но не индексацию. Страница может остаться в индексе, если на неё ведут внешние ссылки. Для полного исключения из поиска используйте тег noindex.

Что будет, если файл robots.txt отсутствует?

Поисковые роботы будут сканировать все страницы сайта без ограничений. Для большинства сайтов это не критично, но может привести к индексации нежелательных страниц и лишней нагрузке на сервер.