Индексация сайта в 2023: Все что важно знать
21 декабря 2022
Автор: User

Индексация сайта в 2023: Все что важно знать

Как поисковые системы индексируют сайты в 2023?

Как изменяются подходы к оптимизации индекса сайта?

Разберем важные нюансы об индексации сайтов поисковой системой, про которые мало кто знает.

Влияние индексации сайта на позиции в поисковой выдаче


Оптимизация индекса является отправной точкой в начале работ по продвижению любого сайта.

Большое количество мусора — проблема, поскольку удалить большое количество страниц из индекса крайне сложно.

Запрет в файле robots.txt решит проблему только для Яндекс. Для Google потребуется дополнительный переобход страниц, которые следует исключить из поисковой системы.

Нет инструментов по массовому удалению страниц из индекса Google. Официальный инструмент лишь скрывают страницы из поисковой выдачи.

Как индекс влияет на ранжирование? Влияние происходит так:

  • Наличие большого количества страниц с thin content или бесполезным контентом воспринимается как попытка манипуляции;
  • Через хостовые факторы сайта.

Практика показывает, что удаление из индекса страниц с бесполезным контентом положительно влияет на позиции сайта в поисковой выдаче.

Как происходит индексация сайтов?


Сначала разберемся с термином. Что такое индексация сайта? Индексация сайта — сканирование, сохранение страниц в базу поисковой системы и дальнейшая обработка алгоритмами.

Процесс индексации сайта в упрощенном виде:

  • Краулер поисковой системы сканирует сайт;
  • Система индексации обрабатывает контент.

Процесс индексации страниц сайта поисковыми системами

На практике схема индексации намного сложнее. Разберем как проходит процесс индексации на примере Google.

В процессе индексации участвует три отдельных системы: планировщик, робот для сканирования сайтов и система обработки.

Google Scheduler создает план на индексацию с учетом краулингового бюджета на сайт.

Googlebot сканирует сайты и сохраняет данные в бинарном виде.

Google Caffeine — система обработки проиндексированных страниц. Задача системы заключается в приеме, обработке и распределении страниц сайтов по индексам.

Каждую секунду Caffeine обрабатывает сотни тысяч страниц параллельно. Процесс индексации происходит постоянно. Индекс обновляется частями.

Что происходит внутри Caffeine?

Как работает Google Caffeine


Весь процесс системы индексирования:

Как работает система индексации сайтов Google Caffeine

Сначала происходит выгрузка данных, которые собрал поисковый краулер Googlebot.

Для скорости обработки данные передаются в бинарном виде, то бишь применяется процесс перевода структуры данных в последовательность байтов.

Для обработки данных применяется Protocol Buffers.

Protocol Buffers — протокол сериализации (передачи) структурированных данных, предложенный Google как эффективная бинарная альтернатива текстовому формату XML

После получение данных система индексации конвертирует данные в специальный формат, который способны анализировать роботы.

Страница передается в лексер. Предназначение лексера в поиске и исправлении ошибок в коде страницы.

Часто на сайтах встречаются ошибки в коде. Провести анализ контента со страниц с ошибками нет возможности технически.

С целью устранения ошибок код анализируются через HTML-лексер и автоматически исправляются.

Ошибки в верстке страницы напрямую никак не влияют на ранжирование.

Пример лексера — W3C HTML Validator.

Далее происходит нормализация данных. Страницы разбиваются на фрагменты. Например:

  • Meta tags
  • Title
  • H1, h2, h3, h4, h5
  • Прочее

На последнем этапе включается система Collapsor.

Google Collapsor в системе индексации сайтов


Collapsor является подсистемой в системе индексации.

Collapsor определяет куда переместить страницу. Варианты:

  • Индекс проиндексированных страниц, но бесполезных;
  • Индекс обслуживания или Serving Index.

Serving Index при индексации страниц в поисковых системах

Именно Коллапсер присваивает страницам статус soft 404.

Коллапсер фильтрует индекс от бесполезных страниц: товар отсутствует, дубли, технические страницы и прочее.

Как обнаруживаются страницы дубли? Через анализ контрольной суммы checksum для каждой страницы, который основан на словах на странице. В результате, если есть две страницы с одинаковой контрольной суммой, то анализатор расценивает как дубли.

Индексация сайта гарантирует только обработку страниц. Попадание страниц в поисковую выдачу зависит от оценки страниц Google Коллапсером.

На основе Serving Index формируются результаты поисковой выдачи.

Google Serving Index — Индекс обслуживания


Индекс обслуживания или Serving Index — основной индекс поисковой системы состоящий из страниц, которые участвуют в ранжировании.

Находится в отдельных дата-центрах, откуда пользователи получают результаты поиска.

Документ попадает в Serving Index если:

  • Код ответа — 200;
  • Нет запрета к индексации;
  • Collapsor пропустил страницу в индекс.

Поисковая система обрабатывает коды ответа так:

  • 200. Роботу надо обойти страницу;
  • 3XX. Роботу надо обойти страницу, которая открывается по редиректу.
  • 4XX и 5XX. Страница с таким кодом не должна участвовать в поиске. Если до момента обращения робота страницы была размещена в поисковой выдаче, то будет удалена из индекса.

Как проверить наличие страниц в индексе? Разберемся на примере сайта indexoid.com.

Проверка индексации сайта в Яндекс с учетом всех поддоменов сайта:

site:indexoid.com

Проверка индексации в Яндекс по разделу:

url:chrome.google.com/*

Проверка индексации сайта в системе Google с учетом всех поддоменов сайта:

site:wixfy.com

Проверка индексации по разделу:

url:chrome.google.com/*

С учетом вхождений в заголовки:

site:ru.megaindex.com intitle:yandex

Проверка индексации по разделу:

inurl:chrome.google.com/*

Если страницы перестали открываться, то такие страницы подлежат удалению из индекса.

Если сайт отдает код ошибки, то страницы удаляются из индекса.

Уязвимость могут эксплуатировать конкуренты по выдаче.

Атака на сайт посредством ботов

Как проверить доступность сайта? К примеру, можно использовать сервис от MegaIndex. Стоимость 1 проверки составляет 0.01 рублей. Если сервер сайта перестанет работать, система уведомит об инциденте удобным способом.

Ссылка на сервис — Проверка доступности сайта.

Пример отчета:

Сервис для мониторинга доступности сайта

Вопросы и ответы


От чего зависит количество страниц подлежащих индексации?


Максимальное количество страниц, подлежащих индексации при очередном обходе сайта роботом определяет метрика под названием краулинговый бюджет.

Значение рассчитывает планировщик сканирования.

Подробности раскрыты в материале — Краулинговый бюджет сайта — что это и как оптимизировать?

Как изменяются в подходы по оптимизации индекса?


Подходы к оптимизации индекса сайта действительно изменяются. К примеру, если раньше наличие большого объема страниц в поисковой выдаче сказывалось положительно на продвижении, то теперь ситуация обстоит иначе.

Большое количество страниц в индексе позволяло создавать на сайте значимый ссылочный статический вес. Сигнал передавался через ссылки на важные внутренние страницы. В результате ранжирование важных страниц улучшалось.

Но алгоритмы поисковых систем были улучшены. Тактика перестала быть эффективной. Большое количество страниц на сайте имеет смысл только в случае, если страницы способны приносить трафик.

Выводы


Задача по улучшению индексация сайта требует внимания, поскольку влияет на позиции сайта в поисковой выдаче.

Через сигналы Web Vitals на ранжирование могут влиять даже страницы, которые закрыты в robots.txt.

Открытыми к индексации должны быть такие страницы:

  • Страницы по которым планируется привлечение трафика из поисковой выдачи;
  • Страницы сайта, важные для E-A-T.

Страницы сайта могут быть проиндексированы, но проигнорированы при включении в индекс обслуживания.

Приведенная информация является достоверной и подтвержденной из официальных источников.

В других поисковых системах процесс индексации схожий.

Если интересно узнать как найти на сайте бесполезные страницы и удалить страницы из индекса поисковой системы, напишите в комментариях.

Если остались вопросы по теме, напишите в комментариях.

Обсуждение

elessys
Здравствуйте! Запрет неэффективных страниц к индексации по идее должен повысить позиции сайта в выдаче? Правильно я понимаю?
User
Верно. Запрещать следует бесполезные страницы. Если страницы просто плохо оптимизированы, то следует улучшить контент и оптимизацию.
mystampready.seo
Хотелось бы узнать как найти бесполезные страницы на сайте
User
Спасибо за отклик! Опубликую материал.
hrddd
В статье вы пишите, что роботс не поможет запретить страницы к индексированию. А каким лучше способом по вашему мнению закрыть страницы от индексации краулером поисковой системы?
toroshchinaoa
man, есть метатеги robots, где ты для каждой пс можешь указывать индексироват ьили нет. если у тебя wordpress - в плагинах смотри типа all seo pack или seo yaost.
User
Хороший вопрос! Способов есть много, опубликую подробный материал с примерами.
at
Добрый день. Насколько мне известно, через метатеги.
Askal321
лол
Askal321
сори не лол не чайно
info
А я один смотрю сначала комментарии а потом понимаю читать статью или нет?)
User
Рад приветствовать в блоге! На MegaIndex нет проходных статей. Практика изначального прочтения комментариев подходит для других блогов в нише, но не к данному. В блоге MegaIndex выверенный и полезный для практики контент. По объему аудитории блог является №1 среди всех текстовых блогов на русском языке в тематике, без рекламы и продвижения. Материалы стали выходить реже. Но все точно полезные и толковые.
sergey.psrf
Ещё бы элементарные ошибки кто-то правил в тексте, цены бы не было.
admin
Спасибо за отклик! Приведите пример?
tarazevich28
Блин, какой вам пример, там ошибок штук 5 минимум. и это при том, что пишите статью про SEO, а на сколько известно в SEO есть параметры которые могут ухудшить ранжирование из-за ошибок. И тем более статью подбиваете постоянно под разные годы меняя дату и корректируя контент. Могли бы уже пройтись по тексту и перечитать.
Святослав seolt.ru
Добрый день, Дмитрий! Рад, что вы улучшили качество публикаций. Просьба обновить в статье (в том месте, где "Проверка индексации сайта в Яндекс с учетом всех поддоменов сайта:") - информация по запросу не совсем точна. Сейчас для Яндекса запрос вида "site:winebooking.ru" покажет только 2 тыс. проиндексированных страниц, что не правда. А вот запрос "winebooking.ru site:winebooking.ru" уже покажет порядка 4 тыс. страниц, что больше соответствует реальности. Таким образом, запрос вида "domain.ru site:domain.ru" для больших сайтов (более 2 тыс. страниц) будет более правильным.
bbu-f
111
artemij.gorodeckij
Два абзаца перед Выводами говорят о том, что большое число внутренних ссылок на 1 страницу больше не увеличивает вес этой страницы? Или я что-то не так понял?
sale
Здравствуйте у меня в Гугл консоли вебмастера у 70 страниц стоит статут " Страница обнаружена но не проиндексирована и у 140 страниц стоит статус страница просканирована но не проиндексирована. Что это значит? Почему то у Яндекса индексация лучше работает, он реагирует на роботс тхт и все страницы в индексе. Когда сайт не отвечает ответу 200 ок сайт через неделю вылетает из индекса. В Гугл же все наоборот очень трудно загнать в индекс страницы даже если есть динамический sitemap и так же выгнать из индекса не так просто. Есть сайты которые пол года назад бросили то есть не продлили домен. Забиваешь сайт весь сайт в индексе.
yathavseo6
Helping everyone with digital marketing using services and courses.
bonbap2021
Your article is very good, I have read a lot of articles but I am really impressed with your article.
yathavseo6
offer
yathavseo6
Personalized
vmerezhkov
Спасибо за статью, похоже на полноценный анализ и разработку развития сайта. Приятно читать грамотные выводы.
starcars.nsk
Вброс)
seo
Не забывайте закрывать лишнее на сайте, классный кейс в тему
ddanilov
Интересно, как найти на сайте бесполезные страницы и удалить страницы из индекса поисковой системы
kymasya
И что же нового в этой статье?
Тезисы актуальны для любого года.
an.genn.mak
О просто сложными словами) главное красиво налить воды, чтобы выглядело профессионально. По факту вся статья в двух словах: удаляйте страницы из индексации.
Beernabeu
Благодарю за статью! Поисковые системы являются жизненно важным компонентом современного Интернета и в своей работе в значительной степени зависят от поисковых индексов. Вот по теме в качестве дополнения советую почитать https://ru.megaindex.com/blog/indexing индексов, включая данные, которые они содержат, и то, как они обрабатываются для обеспечения эффективных и точных результатов поиска. Будет полезно для всех, кто заинтересован в понимании внутренней работы поисковых систем.
Для добавления комментария, пожалуйста, авторизуйтесь