Краулинг (crawling) — автоматическое сканирование страниц сайта поисковым роботом. Это первый этап перед индексацией: робот находит, загружает и анализирует страницы, переходя по ссылкам.
Как работает
Краулер переходит по ссылкам со страницы на страницу, скачивает HTML, CSS, JavaScript, обрабатывает контент и передаёт его системе индексации. Для каждого сайта Google выделяет crawl budget — квоту на количество страниц в единицу времени. Чем больше авторитет сайта, тем больше квота.
Где используется
- Обнаружение новых и изменённых страниц
- Обновление данных в индексе после изменений контента
- Проверка доступности и корректности страниц
Пример
Краулер приходит на главную → находит 150 ссылок → обходит каждую страницу → на каждой странице находит новые ссылки → процесс повторяется. Приоритет отдаётся страницам с высоким внутренним ссылочным весом.
Частые ошибки
- Трата crawl budget на служебные страницы:
/search/?q=, страницы пагинации, UTM-дубли - Бесконечные URL из-за параметров фильтрации — краулер зацикливается
- Нет ссылок на важные страницы — робот их не найдёт
- Медленный сервер снижает crawl rate