Краулинг (crawling) — автоматическое сканирование страниц сайта поисковым роботом. Это первый этап перед индексацией: робот находит, загружает и анализирует страницы, переходя по ссылкам.

Как работает

Краулер переходит по ссылкам со страницы на страницу, скачивает HTML, CSS, JavaScript, обрабатывает контент и передаёт его системе индексации. Для каждого сайта Google выделяет crawl budget — квоту на количество страниц в единицу времени. Чем больше авторитет сайта, тем больше квота.

Где используется

  • Обнаружение новых и изменённых страниц
  • Обновление данных в индексе после изменений контента
  • Проверка доступности и корректности страниц

Пример

Краулер приходит на главную → находит 150 ссылок → обходит каждую страницу → на каждой странице находит новые ссылки → процесс повторяется. Приоритет отдаётся страницам с высоким внутренним ссылочным весом.

Частые ошибки

  • Трата crawl budget на служебные страницы: /search/?q=, страницы пагинации, UTM-дубли
  • Бесконечные URL из-за параметров фильтрации — краулер зацикливается
  • Нет ссылок на важные страницы — робот их не найдёт
  • Медленный сервер снижает crawl rate