Поисковый робот (бот, краулер, spider) — автоматическая программа поисковой системы, которая регулярно обходит сайты, собирает данные и передаёт их в систему индексации. У каждого поисковика свой робот: у Google — Googlebot, у Яндекса — YandexBot.
Как работает
Робот регулярно посещает сайты по расписанию, скачивает HTML, CSS, JavaScript и изображения. Идентифицируется через заголовок User-agent. Следует правилам из robots.txt. Частота посещений зависит от авторитетности сайта и скорости обновления контента.
Где используется
- Обход сайтов и построение индекса поисковой системы
- Проверка изменений контента и обновление индекса
- Управление доступом через robots.txt:
User-agent: Googlebot
Пример
# Запрет для всех роботов
User-agent: *
Disallow: /private/
# Разрешить Googlebot всё
User-agent: Googlebot
Disallow:
Частые ошибки
- Блокировать полезных ботов — Google, Яндекс теряют доступ к контенту
- Не отличать легитимных роботов от спам-ботов (проверяйте по IP через обратный DNS)
- Закрывать ресурсы, нужные для рендеринга: шрифты, CSS, JS