Онлайн-проверка и анализ robots.txt сайта
Введите адрес сайта — получите содержимое robots.txt, список директив и проверку на распространённые ошибки.
Выводы
Директивы
Содержимое файла
Что такое robots.txt
robots.txt — текстовый файл в корне сайта, который сообщает поисковым роботам, какие страницы можно индексировать, а какие — нет. Яндекс и Google проверяют этот файл перед сканированием сайта. Ошибки в robots.txt могут привести к закрытию важных страниц от индексации или наоборот — к индексации нежелательных страниц.
Типичные ошибки robots.txt
Самые распространённые: «Disallow: /» — полный запрет индексации, блокировка CSS/JS (ухудшает краулинг), отсутствие ссылки на Sitemap, неправильный синтаксис директив. Проверяйте robots.txt после каждого обновления CMS или сайта.
Какие директивы понимают роботы
Основа файла — пары User-agent и Disallow/Allow. User-agent задаёт, к какому поисковому роботу относится блок правил: звёздочка означает «для всех», а можно прописать отдельные блоки для Yandex и Googlebot. Disallow закрывает раздел или шаблон URL от обхода, Allow открывает исключения внутри запрещённой папки. Дополнительно Яндекс поддерживает Clean-param для склейки страниц с параметрами и Crawl-delay для регулирования нагрузки, тогда как Google эти директивы игнорирует и управляет скоростью сканирования через Search Console. Наш онлайн-анализатор robots.txt разбирает все блоки и показывает их в наглядном виде.
robots.txt и индексация сайта
Важно понимать ограничение: robots.txt управляет сканированием (краулингом), а не индексацией напрямую. Если страница закрыта в robots.txt, но на неё ведут внешние ссылки, поисковая система может всё равно добавить URL в индекс без сниппета. Поэтому для гарантированного исключения страницы из поиска используют мета-тег noindex или HTTP-заголовок X-Robots-Tag, а не только запрет в robots.txt. Регулярная проверка файла помогает не потерять трафик из-за случайно закрытых разделов после переноса сайта, смены CMS или выкатки нового шаблона.
Частые вопросы
Что значит Disallow: / в robots.txt?
Disallow: / для user-agent * означает полный запрет на индексацию всего сайта для всех поисковых роботов. Это критическая ошибка — сайт исчезнет из поисковой выдачи. Часто появляется случайно при разработке или миграции сайта.
Нужно ли указывать Sitemap в robots.txt?
Не обязательно, но настоятельно рекомендуется. Строка «Sitemap: https://example.ru/sitemap.xml» помогает поисковым роботам быстрее обнаружить все страницы сайта. Это особенно важно для больших сайтов с тысячами страниц.
Можно ли закрыть отдельные страницы через robots.txt?
Да, через директиву Disallow можно закрыть от индексации конкретные URL, папки или паттерны. Например: Disallow: /admin/ закроет весь раздел /admin/. Однако robots.txt не гарантирует, что страница не попадёт в индекс — если на неё ведут внешние ссылки, Яндекс может всё равно её показать. Для полного запрета используйте тег robots noindex.
Чем отличаются директивы для Яндекса и Google?
Базовый синтаксис одинаков, но есть отличия. Яндекс исторически поддерживал директиву Host для главного зеркала (сейчас не используется) и Clean-param для удаления параметров из URL. Google игнорирует Clean-param и Crawl-delay, зато точнее обрабатывает шаблоны со знаками * и $ в путях.
Что такое директива Crawl-delay?
Crawl-delay задаёт паузу в секундах между запросами робота к серверу, чтобы снизить нагрузку. Яндекс эту директиву учитывает, а Google — нет: для Googlebot скорость обхода настраивается в Search Console. Использовать Crawl-delay есть смысл только на слабом хостинге, где обход создаёт ощутимую нагрузку.
Где должен лежать файл robots.txt?
Строго в корне домена: https://example.ru/robots.txt. Файл в подпапке или с другим именем поисковики не увидят. Для каждого поддомена нужен отдельный robots.txt. Имя файла пишется только строчными буквами — Robots.txt или ROBOTS.TXT работать не будут.
Что значит User-agent в robots.txt?
User-agent указывает, к какому роботу относится блок директив. Звёздочка (User-agent: *) означает правила для всех роботов. Можно задать персональные блоки: User-agent: Yandex или User-agent: Googlebot. Робот выбирает наиболее подходящий именно ему блок, и при наличии личного блока общие правила со звёздочкой он игнорирует.
Как проверить robots.txt после изменений?
Откройте файл по адресу /robots.txt в браузере, прогоните его через этот инструмент и проверьте в Яндекс.Вебмастере (Инструменты — Анализ robots.txt) и Google Search Console. Любая правка может случайно закрыть нужные страницы, поэтому проверка обязательна после каждого изменения файла или переноса сайта.
ИИ проверит 50+ параметров: SEO, скорость, юзабилити, контент. Конкурентный анализ и план действий.