Что такое краулинговый бюджет сайта и как его оптимизировать?
9 августа 2019

Что такое краулинговый бюджет сайта и как его оптимизировать?

Краулинговый бюджет влияет на индексацию сайта.

Индексация влияет на способность сайта приносить экономические выгоды.

Что такое краулинговый бюджет? На основе каких данных формируется значение?

Как улучшить ситуацию с индексацией сайта?

Разберемся с вопросами далее.

Как происходит индексация сайта?


Попадание страницы в индекс поисковой системы происходит после посещения страницы поисковым краулером.

Далее страница обрабатывается системой краулинга. На следующем этапе страница оценивается системой ранжирования.

Весь процесс выглядит так:

вторая волна индексации

Скорость попадания страниц в поисковую выдачу напрямую зависит от наличия на странице кода JavaScript.

Если на странице есть код JavaScript, то обработка происходит в 2 волны.

индексация сайта с javascript

Если на странице требуется использовать ленивую загрузку, то не обязательно использовать JavaScript. Для реализации ленивой загрузки можно использовать атрибут loading=lazy. Рекомендованный материал в блоге MegaIndex по теме атрибута loading по ссылке далее — Появился новый атрибут тега img, который позволяет ускорить загрузку сайта. Пример реализации.

Итак, если на странице есть JavaScript, то поисковая система будет выполнять рендеринг страниц с учетом выполнения кода. После рендеринга страница попадает на анализ в систему ранжирования.

Но в поисковых системах есть метрика, которая используется до инициализации процесса сканирования сайта. От значения данной метрики зависит дальнейший процесс индексации.

Данная метрика называется краулинговым бюджетом сайта.

От значения краулингового бюджета зависит количество страниц, которое краулер обработает в рамках посещения сайта.

Краулинговый бюджет


Итак, в поисковых системах для сайтов рассчитывается специальный параметр, от которого зависит процесс индексации.

Что такое краулинговый бюджет? Краулинговый бюджет — это метрика, которая определяет квоту страниц хоста, подлежащих индексации в рамках одного визита краулера поисковой системы.

Если значение количества страниц вне индекса превышает пороговое значение краулингового бюджета, то ряд страниц сайта добавлен в индекс поисковой системы не будет.

Страницы не будут проиндексированы, и не будут оценены системой ранжирования даже в том случае, если поисковая система имеет сведения о данных страницах.

Значение краулингового бюджета для каждого сайта рассчитывается на индивидуальной основе.

Как рассчитывается краулинговый бюджет?


Итак, в плане индексации поисковая система по-разному оценивает каждый сайт. Объем страниц, которые подлежат индексации зависит от краулингового бюджета сайта.

От чего зависит значение краулингового бюджета? Вопреки расхожим мифам на значение краулингового бюджета влияет только два фактора.

Числовое значение краулингового бюджета зависит от таких факторов:

  1. Авторитетность сайта. Сайты с низким авторитетом не являются ценными для пользователей, так как на такие сайты не ссылаются, а значит сайты не интересны. Информация на таких сайтах является менее ценной, нежели информация, которая публикуется на популярных сайтах.;
  2. Способность сервера обрабатывать запросы, без снижения скорости загрузки. Если краулер поисковой системы сканирует сайт и скорость отдачи снижается, то поисковая система снижает краулинговый бюджет, чтобы не создавать проблем для пользователей при открытии страниц сайта.

Как повысить краулинговый бюджет сайта?


Манипуляции с файлом sitemap.xml не влияют на краулинговый бюджет.

Настройка директив robots не влияет на краулинговый бюджет.

А что работает? На практике повышение числового значения краулингового бюджета может быть достигнуто следующими способами:

  • Оптимизация скорости загрузки сайта при обращении краулеров Google, Yandex, Bing. Речь про скорость для краулеров, а не для пользователей;
  • Повышение авторитетности сайта путем внешней оптимизации сайта.


Какие работы следует провести для оптимизации способности сервера обрабатывать запросы, без снижения скорости загрузки? Сначала следует провести анализ динамики скорости отдачи контента при сканировании сайта краулерами.

Выявить визит краулера можно на основе данных из логов сервера. Если скорость не понижается, никаких дополнительных мер выполнять не следует.

Если скорость понижается, далее список мер следующий:

  • Путем анализа базы данных сайта выявить медленные запросы и потенциальные проблемы со скоростью обработки запросов в базе данных;
  • Если на сайте используется JavaScript, то имплементировать на сайте server side rendering для того, чтобы выдавать краулерам поисковых систем сгенерированные страницы, таким образом уменьшив объем передаваемых данных, а значит снизив нагрузку на сервер;
  • Перевести сайт на платформу с запасом по техническим характеристикам.

Улучшить значение авторитетности сайта можно путем внешней оптимизации. В целом задачи сводятся к комплексу мер по оптимизации внешнего ссылочного профиля.

Для реализации задачи на практике существуют специальные инструменты. Например, инструмент для поиска сайтов, на которых размещены ссылки сразу на несколько конкурентных проектов. Для выгрузки результата достаточно ввести продвигаемый сайт и список конкурентов.

Ссылка на сервис — Подбор доноров по конкурентам.

Пример. Сайт wixfy.com. Тематика сайта — продвижение в поисковых системах сайтов, которые созданы на Wix. Есть как минимум 3 сайта, освещающие тему поисковой оптимизации сайтов на Wix.

Выгрузка по отчету следующая:

Сравнение ссылочных профилей конкурентных сайтов

Рекомендованные материалы в блоге MegaIndex на тему повышение авторитетности сайта путем внешней оптимизации по ссылкам далее:


Выполнение комплекса мер по оптимизации краулингового бюджета и пересчет значения поисковой системой занимает время. Но улучшить ситуацию можно уже сейчас, в рамках текущего значения краулингового бюджета.

Как улучшить индексацию сайта в рамках текущего значения краулингового бюджета?


Зачастую в индекс поисковой системы попадают ненужные и/или неприоритетные страницы сайтов.

Серьезные проблемы с краулинговым бюджетом появляются в таких случаях:

  • Система управления сайтом генерирует технические страницы с кодом ответа 200;
  • Система создания фильтров на сайте генерирует лишние страницы, так называемые страницы копии;
  • Система тегирования создает теги с частотностью приближенной к нулевому значению.

Соответственно решение задачи по улучшению индексации сайта в рамках текущего значения краулингового бюджета лежит в следующих плоскостях:

  • Оптимизации системы управления контентом сайта;
  • Закрытие от индексации страниц с частотностью приближенной к 0.

Например, на практике можно использовать сервис для аудита сайтов.

Ссылка на сервис — MegaIndex Аудит.

Сервис бесплатный.

Сервис позволяет провести сканирование сайта и найти страницы сайта с маленьким значением размера body. Зачастую такие страницы являются техническими и ненужными, но попадают в индекс поисковой системы. Выявление таких страниц является основной для дальнейших действий по оптимизации системы управления.

Например, сайт 2yachts.com.

Аудит краулинговый бюджет

Вопросы и ответы


Влияет ли robots.txt на краулинговый бюджет?


Нет.

Применяя данную директиву можно задать список страниц, которые поисковому краулеру следует игнорировать, то есть не посещать.

Robots txt - Как удалить страницы из индекса поисковых систем

Но указанные в файле robots.txt директивы являются не обязательными к исполнению поисковой системой.

Влияет ли запрет индексации в мета-теге robots на краулинговый бюджет?


Нет.

Директивы в мета-теге являются обязательными к исполнению в поисковых системах Google, Bing и Yandex. Поисковый краулер действительно не будет отправлять такие страницы на обработку в целях индексации.

Рекомендованный материал в блоге MegaIndex по теме применения директив robots на сайте по ссылке далее — Как удалить страницы из индекса поисковых систем? Какие страницы нужно удалить из выдачи? Зачем?

Но краулер поисковой системы все равно может посещать такие страницы, если на такие страницы есть ссылки.

Robots txt - Как удалить страницы из индекса поисковых систем

В результате краулинговый бюджет будет расходоваться также и на ненужные в индексе страницы.

Как узнать краулинговый бюджет на текущий момент?


Краулинговый бюджет зависит от авторитетности сайта и способности сервера обрабатывать запросы, без снижения скорости загрузки сайта.

Значение может меняться, как в большую, так и меньшую сторону.

Узнать точное значение по текущему бюджету на сканирование можно путем анализа логов сервера.

Что будет, если не оптимизировать краулинговый бюджет?


Если не выполнен комплекс мер по поисковой оптимизации краулингового бюджета сайта, то негативные последствия для проекта заключаются в следующем:

  • Индексация технических страниц. Приводит к снижению релевантности сайта в плане соответствия тематике, а также к ухудшению хостовых поведенческих факторов на поисковой выдаче;
  • Индексация неприоритетных страниц, страниц копий и страниц с низким возвратом на инвестиции. Страницы копии являются негативным фактором и для краулингового бюджета, и для ранжирования сайта;
  • Не попадание в индекс страниц с высоким возвратом на инвестиции.

Страницы с высоким возвратом на инвестиции следует индексировать в первую очередь. Такие страницы обычно создаются с учетом выполнения комплекса по формированию содержания title и description.

Для увеличения кликабельности в поисковой выдаче следует создавать привлекательный сниппет. Для решения задачи по созданию кликабельных сниппетов можно использовать анализ сниппетов страниц конкурентных сайтов.

Ссылка на сервис — Анализ сниппетов.

Анализ сниппетов в выдаче

Рекомендованные материалы в блоге MegaIndex по теме сниппетов по ссылкам далее:


Кликабельные сниппеты повышают поведенческие факторы на выдаче, что положительно сказывается на продвижении сайта в органической выдаче поисковой системы.

Выводы


Индексация сайта напрямую влияет на трафик, а следовательно на показатель конверсии и способность сайта приносить экономические выгоды.

Попадание страниц в индекс поисковых систем зависит от краулингового бюджета.

Краулинговый бюджет поискового робота является числовым значением, от которого зависит количество страниц, которое может быть добавлено в индекс поисковой системы.

Важно, чтобы в индекс поисковых систем попали все приоритетные страницы сайта.

Низкое значение краулингового бюджета и/или расход бюджета на ненужные страницы приводит к потере трафика.

Нужные страницы могут не индексироваться.

Краулинговый бюджет сайта

Если нужные страницы не индексируются, то контент сайта может быть украден и опубликован на другом сайте.

Иначе трафик сайта будет уменьшаться. Уменьшение целевого трафика влечет уменьшение охвата и экономической выгоды от сайта.

Значение crawl budget в автоматическом режиме регулируется такими параметрами как авторитетность сайта и способности сервера обрабатывать запросы, без снижения скорости загрузки.

Улучшить авторитетность сайта можно посредством оптимизации внешнего ссылочного профиля.

Улучшить производительность сервера можно посредством смены платформы. Альтернативным вариантом является имплементация технологии server side rendering.

В результате все нужные страницы сайта будут добавляться в индекс поисковой системы.

Улучшение Crawl Budget для сайта

В рамках текущего краулингового бюджета следует выполнить такие задачи:

  • Найти страницы, на которых частотность кластера ключевых запросов стремится к 0. К примеру, такими страницами могут быть страницы фильтров. Следует закрыть найденные страницы от индексации;
  • Найти технические страницы сайта с кодом ответа сервера 200. Оптимизировать систему управления контентом сайта, чтобы такие страницы не создавались или были закрыты от индексации краулером поисковой системы;
  • Закрыть от индексации неактуальные и ненужные страницы. Например, страницы которые не несут смысловой нагрузки и/или по которым нет возврата на инвестиции.

Остались ли у вас вопросы, замечания или комментарии по теме краулингового бюджета?

Обсуждение

Art.Bodnaruk
12:23 9 августа 2019
Помимо аудита есть инструменты, которые могут быстро провести аналогичные проверки, как это делает краулер поисковиков? Было бы не плохо этим пользоваться.
Дмитрий Угниченко
14:59 9 августа 2019
Аудит является хорошей системой для анализа. В принципе, сейчас краулер работает на версии, которая соответствует Chrome - https://ru.megaindex.com/blog/googlebot. По этой причине могу рекомендовать еще Chrome DevTools.
Art.Bodnaruk
12:24 9 августа 2019
И можно детальнее объяснить, как именно можно определить краулинговый бюджет?
stanislav_441
12:42 9 августа 2019
Это только в Google директивы в robots.txt являются рекомендациями. Для Яндекса это строгий запрет (даже если на страницу есть ссылки).
Дмитрий Угниченко
14:55 9 августа 2019
Спасибо за отклик. Не проводил эксперименты по Yandex, а откуда у вас информация?
stanislav_441
16:34 14 августа 2019
От Платона - https://yandex.ru/blog/platon/2668
Другое дело - если главная страница уже есть в поиске, то если её закрыть в роботсе, то она может там отображаться с нулевым сниппетом и подписью: "Владелец сайта предпочёл скрыть описание страницы".
demimurych
14:13 9 августа 2019
Господи что ВЫ несете.
Сайт попадает в Индекс вне зависимости от второй фазы.
Фактически первая фаза основная для львиной доли выдачи.
большинство страниц вообще никогда второй фазы не видят, вне зависимости от наличия JS у них или отсутствия оного.
Дмитрий Угниченко
15:00 9 августа 2019
Спасибо за отклик. А где написано, что сайт не попадет в индекс из-за JavaScript? Извините, но вы невнимательно прочитали. Речь просто скорость попадания страницы в поисковую выдачу.
archosaur2
16:59 9 августа 2019
Главное не путать этот хайповый термин который пихают по делу и нет с элементарными проблемами с сайтом. В большинстве проектов что я видел, страницы не индексировались изза самых простых причин, в т.ч. кривого роботс (который как тут говорится неактуален ага).
Решайте проблемы на самом базовлм уровне, смотрите логи куда ходит гуглобот, смотрите «покрытие» в в вебмастере и карты сайта. И потом уже думайте о «краулинговых бюджетах».
Практика показывает что гугл может откраулить самые большие сайты с сотнями тысяч страниц (если позволяют тех условия), если ваш магазин с 1000 страниц не заходит в индекс это точно не «краулинговый бюджет» а проблемы с сайтом.
Все вышенаписаное мое субьективное мнение ничем не подтвержденное.
Дмитрий Угниченко
08:15 12 августа 2019
Спасибо за расширенный дельный комментарий. Действительно, на сайтах зачастую встречаются различные проблемы, которые ведут к проблемам с индексацией. Но краулинговый бюджет является важным фактором. Например, даже если комплекс мер по внутренней оптимизации выполнен, большой качественный сайт может не индексироваться, и проблема в данном случае в краулинговом бюджете.
klimashewskij.maksim
17:53 9 августа 2019
На повышение бюджета может повлиять регулярное обновление и добавление контента на сайт? Например, статьи для блога.
Дмитрий Угниченко
08:21 12 августа 2019
Добавление контента не повлияет на значение краулингового бюджет никак.
larisagrib1
21:30 9 августа 2019
У меня вопрос не по теме, а по тексту... Вы так часто употребляете сочетание "краулинговый бюджет", что в глазах рябит. Робот не сочтет это переспамом по ключевому слову?
Дмитрий Угниченко
08:21 12 августа 2019
Спасибо за отклик. Термин повторяется для точности формулировки. Сейчас любую информацию следует формулировать с крайне высокой точностью, чтобы пользователь не вникал в контекст, о чем идет речь, а мог быстро прочитать текст и вынести суть, при этом текст должен обладать полнотой для пользователей, которые никак не знакомы с темой. С поисковой оптимизацией решим другими путями. Но спасибо за отклик. Приму к сведению.
vinayskhanna
08:31 11 августа 2019
thx
Для добавления комментария, пожалуйста, авторизуйтесь