Поисковый робот (бот, краулер, spider) — автоматическая программа поисковой системы, которая регулярно обходит сайты, собирает данные и передаёт их в систему индексации. У каждого поисковика свой робот: у Google — Googlebot, у Яндекса — YandexBot.

Как работает

Робот регулярно посещает сайты по расписанию, скачивает HTML, CSS, JavaScript и изображения. Идентифицируется через заголовок User-agent. Следует правилам из robots.txt. Частота посещений зависит от авторитетности сайта и скорости обновления контента.

Где используется

  • Обход сайтов и построение индекса поисковой системы
  • Проверка изменений контента и обновление индекса
  • Управление доступом через robots.txt: User-agent: Googlebot

Пример

# Запрет для всех роботов
User-agent: *
Disallow: /private/

# Разрешить Googlebot всё
User-agent: Googlebot
Disallow:

Частые ошибки

  • Блокировать полезных ботов — Google, Яндекс теряют доступ к контенту
  • Не отличать легитимных роботов от спам-ботов (проверяйте по IP через обратный DNS)
  • Закрывать ресурсы, нужные для рендеринга: шрифты, CSS, JS