Карта сайта в 2020. Три эффективных практики, которые приносят результат
2 июля 2020
Автор: User

Карта сайта в 2020. Три эффективных практики, которые приносят результат

Какие моменты упускает большинство поисковых оптимизаторов?

Как правильно работать с картой сайта в 2020?

Рассмотрим практики по sitemap.xml, которые стоит применять на практике.

Разберемся с темой далее.

Карта сайта в 2020: практики, которые приносят результат


Практика №1. Трюк с использованием динамической sitemap.xml для индексации большого количества страниц сайта.

Обновление карты сайта для индексации

Смысл подхода заключается в автоматическом обновлении списка страниц в файле карты после посещения поисковым краулером страниц из sitemap.xml.

Схема такая:

  1. Карта sitemap.xml составляется из списка страниц, которые не попали в индекс поисковой системы;
  2. Краулер поисковой системы посещает карту сайта и индексирует объем страниц согласно краулинговому бюджету;
  3. Посещение краулера фиксируется в логах сервера;
  4. Из карты сайта удаляются адреса страниц, на которые зашел краулер поисковой системы;
  5. В карту добавляются следующий набор страниц подлежащих индексации.

Процесс поддается автоматизации.

Рекомендованный материал в блоге MegaIndex на тему краулингового бюджета по ссылке — Краулинговый бюджет сайта — что это и как его оптимизировать?

Такой трюк решает проблему с индексацией для агрегаторов, на которых размещается большое количество страниц. Пример агрегатора — 2yachts. На сайте большой объем страниц, постоянно происходит ротация страниц. Яхты добавляются и удаляются. Есть проблема с индексацией страниц. Решение проблемы описано выше.

Данный способ подходит для всех сайтов. Применяйте данный способ на практике. В результате проблему с индексацией страниц сайта можно решить.

Практика №2. Скрытие карты сайта в целях защиты от парсинга.

Если на сайте появляются новые страницы с уникальным и ценным контентом, карту сайта следует скрыть от третьих лиц.

Зачем? Технологии и инструменты для парсинга контента стали дешевыми. Парсеры сторонних проектов могут скопировать новый контент в автоматическом режиме, затем опубликовать на стороннем ресурсе и проиндексировать. Как результат, авторство закрепляется за сторонним сайтом, а оригинальные страницы теряют потенциал в поисковой выдаче.

Как скрыть карту? Шаги простые:

  1. Следует использовать альтернативный путь к карте сайта. Стандартный путь следующий — [адрес сайта]/sitemap.xml;
  2. Для поисковых систем указать ссылку на карту сайта через инструменты Google Search Console и Yandex Webmaster.

Допускается любой адрес к файлу и любое название файла карты сайта:

Индексация карты сайта

Как направить карту в поисковую систему на индексацию без подтверждения прав на сайт? Есть вариант использовать специальный инструмент ping. Просто подставьте адрес карты в шаблон ссылки и перейдите по ссылке.

https://www.google.com/ping?sitemap=[полный адрес карты сайта]

Пример для indexoid.com.

https://www.google.com/ping?sitemap=https://indexoid.com/sitemaps.xml

Практика №3.Создайте карту сайта для изображений, видео и новостей. Индексация страницы не означает индексацию изображений. Любой файл изображения является отдельным документом от страницы. Специальная карта сайта решит проблему с индексацией изображений на сайте.

Карта сайта для видео, изображений, новостей

Для изображений следует использовать специальный формат карты сайта.

Пример разметки:

<?xml version ="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">
<url>
<loc>http://example.com/primer.html</loc>
<image:image>
<image:loc>http://example.com/kartinka.jpg</image:loc>
</image:image>
<image:image>
<image:loc>http://example.com/photo.jpg</image:loc>
</image:image>
</url> 
</urlset> 

Поисковые оптимизаторы очень редко создают sitemap для изображений. Но направление по раскрутке картинок является перспективным. Начинать следует с автоматизации процесса индексации.

Почему это важно? Доля трафика поисковой системы Google Images в мире превышает отметку 20%. Для вебов поисковая система по картинкам является значимым источником трафика.

Рейтинг популярности поисковых систем в мире:

Рейтинг популярности поисковых систем в мире

Рекомендованные материалы в блоге MegaIndex на тему раскрутки изображений по ссылкам далее:


Если на сайте есть новости, то сайт следует добавить в Google News и создать специальную sitemap для новостей.

Пример разметки:

<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:news="http://www.google.com/schemas/sitemap-news/0.9"> <url> <loc>http://www.example.org/business/article55.html</loc> <news:news> <news:publication> <news:name>The Example Times</news:name> <news:language>en</news:language> </news:publication> <news:publication_date>2008-12-23</news:publication_date> <news:title>Companies A, B in Merger Talks</news:title> </news:news> </url> </urlset>

Выше расписаны практики, которые позволяет наладить индексацию. Какие есть технические требования к карте сайта?

Технические требования


Какие ограничения установлены для файла sitemap? Максимальное количество страниц в карте сайта не должно превышать 50 000 ссылок, а максимальный допустимый размер файла не должен превышать 50 мегабайт.

Если страниц больше — не проблема.

Решения:

  1. Поисковые системы способны обрабатывать карты сайта в формате архива;
  2. Допускается создание 500 sitemap для одного сайта. Решение проблемы заключается в разгруппировке большой карты сайта на более мелкие.

Если файлов sitemap множество, то следует создать файл с индексом карт сайта, так называемый sitemapindex.

Пример разметки:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://site.com/sitemap1.xml.gz</loc>
</sitemap>
<sitemap>
<loc>https://site.com/sitemap2.xml.gz</loc>
</sitemap>
</sitemapindex>

Как проиндексировать карту сайта без добавления сайта в инструменты Yandex, Google? Есть 2 решения:

  • Использовать ping;
  • Прописать полный путь к карте сайта в файле директив для краулера robots.

Как без ошибок прописать путь к sitemap в robots.txt? Путь задается через указатель Sitemap.

Пример:

Sitemap: https://seoheronews.com/sitemap.xml
Sitemap: https://seoheronews.com/blog-sitemap.xml

В robots важны следующие нюансы:

  • Директива Sitemap указывается с заглавной буквы S;
  • Sitemap не зависит от инструкций User-Agent;
  • Нельзя использовать относительный адрес карты сайта, только полный адрес к карте.

Как создать sitemap? Задача по автоматизации sitemap.xml относится к нише разработки сайта.

Есть сервисы для создания карт сайта, но такие сервисы не особо полезны на практике.

  • xml-sitemaps.com
  • web-site-map.com
  • xmlsitemapgenerator.org
  • freesitemapgenerator.com
  • xsitemap.com

Кстати найти мелкие проблемы на сайте способен инструмент по аудиту сайтов от MegaIndex.

Ссылка на сервис — Аудит сайта.

Пример отчета для сайта seoheronews.com.

Аудит структуры сайта

Выводы


Зачастую при продвижении карта сайта используется просто как файл со списком всех страниц сайта. Не более.

В основном на проектах данный файл является статическим. В таком случае sitemap не решает задачу по индексации всех страниц сайта ввиду ограничений краулингового бюджета.

Карта сайта для индексации страниц

Но потенциал применения карты сайта намного больше. Описанный выше трюк позволяет отладить и автоматизировать процесс индексации всех страниц для любых сайтов, включая крупные проекты на десятки тысяч страниц.

Рекомендованный материал в блоге MegaIndex на тему индексации страниц сайта по ссылке — Как быстро проиндексировать страницы чужих сайтов. И зачем?

Специальная карта сайта для изображений решает проблему с индексацией графики.

Данный способ эффективен для магазинов. Для примера, на практике с помощью карты изображений удалось проиндексировать все изображения, которые были размещены на сайте магазина по продаже ламината. На магазин стал приходить трафик из поиска по изображениям. Дополнительных действий по внешнему продвижению не проводилось.

Есть вопросы? Как вы используете карту сайту? Напишите в комментариях.

Обсуждение

pokermenu
Вопросы
1) по первому пункту - как определить "список страниц, которые не попали в индекс поисковой системы;"
Особенно если сайт большой от 100.000 страниц.
2) четвертый пункт "Из карты сайта удаляются адреса страниц, на которые зашел краулер поисковой системы;"
Но ведь посещение страницы потом не гарантирует ее попадание в индекс, как с этим быть.
3) по поводу индексации картинок тоже какая-то недосказанность
support
1 пункт - смотри лог своего сервера. Смотри какие у тебя урлы должны попадать в сайтмеп.
2 пункт - заведи табличку: Дата выгрузки в сайтмеп. и дата посещение ботом гугла
Еще не забудь проверить, что это реальный бот гугла. (ip revers dns)
risenab
1 пункт - лютая жесть мониторить логи, особенно когда у тебя 100к URL. Проще, честно говоря, забить на слежку. Все равно в течение полугода все попадает индекс, если у сайта достаточно хорошо проработана структура, да и страница полезна (контент) + хорошо сделана оптимизация + хоть какой-то ресурс ссылается на страницу (дать ссылочку со странички официальной группы компании / магазина в ВК - проще паренной репы...). Также, на край, можно "пнуть" ПС и в принудительном порядке отправить URL на индексацию после краулинга. Куда проще будет. Да, время. Однако кто сказал, что работать легко?
2 пункт - вот делать человеку нечего, как 100к URL чекать в exel. Да и на вопрос нет ответа с Вашей стороны. А вопрос был задан такой (перефразировал специально, доступным языком): "Зачем из SM удалять URL, если бот зашел, чекнул, но в индекс может и не внести?" Ответ я дал выше.
По факту: смысла удалять проиндексированные URL из SM - нет. Бот по этим страницам совершает переобход время от времени, особенно если дата обновления в его БД указана старая, а в SM указано, что страница была обновлена "N" периодом позже. Да и мощности железа сегодня не такие уж и смехотворные, чтобы бот создавал при перепроверке страницы нагрузку.
Из полезного по статье:
1. Меняем название (или делаем нетипичным) самой SM, чтобы избежать парсинга.
2. Делим SM, если страниц овер "много".
risenab
И то, по сути, изменение названия SM не убережет от парсинга. Можно просто чекер на сайт повешать и получать сведения о новых страницах от бота сразу же. Либо сведения будут лететь к другому боту, который на сателлиты загрузит ворованный контент. Тот кто хочет - тот всегда стырит, как говорится...
risenab
Умников, которые про User Agent будут говорить - прошу воздержаться. Давно уже можно его имитировать, что чекер и умеет. Блокируй его, не блокируй, на следующий день уже иной будет. И снова все URL будут в его БД.
User
1. На каком этапе не попали? До использования способа индексации с применением sitemap или после?
2. Нормальная страница попадет в поисковую выдачу. Если страница размечена поисковой системой как спам, то в поисковую выдачу не попадет;
3. Конкретизируйте.
web-77
1) по моему опыту - проблема с переобходом сайтов у которых более 100 тыс страниц чаще случается у гугла - там в помощь гугл серч консоль, где указаны страницы которые робот не обошел. в яндекс вебмастере также можно посмотреть страницы обойденные роботом и после уточнять карту сайта.
2) такая проблема у гугла бывает - простого решения нет - делаем перелинковку, улучшаем контент страниц
3) картинки - с ними работаем уже по остаточному принципу, когда все остальное сделано, видимо поэтому не стали писать подробно
support
Если меняете протокол на https://www.kvartiranew.ru, то гугл воспринимает сайт как новый и не может сожрать 50K страниц в нарезанных файлах и выдает ошибку в интерфейсе. Просто нарезайте по 1000. В день где-то по 4K выкачивает (4файла).
info
А кто чем вообще генерирует sitemapЫ и с какой периодичностью?
webapteka
Для своего сайт https://www.careprost.ru, я использую простой скриптик https://github.com/knyzorg/Sitemap-Generator-Crawler и потом его кидают в Cron и каждый день генерит ночью новую карту, с новыми страницами.
User
Удобный способ, если не заморачиваться.
abushyk
В основном генерируют встроенными средствами движка на котором реализован сайт.
Периодичность зависит от обновлений на сайте. Если контент добавляется часто, то и частота переобновдения карты выше. И наоборот.
fargus10
скажите, почему, хоть страницы и проиндексированы, и текст уникальный есть, но по запросу нету даже в топ100, а появляются только, если к запросу добавить имя домена?
risenab
ПС не считает страницу достаточно качественной и полезной для человека, чтобы вывести в список ранжирования по нужному запросу. Либо ждать, пока выдаст позицию по принципу "ну, так и быть", либо улучшать качество страницы.
User
Позиции зависят от факторов ранжирования. Почитайте блог, найдете больше информации по продвижению сайта — https://ru.megaindex.com/blog
uskov
Директива sitemap должна быть с большой буквы в robots? Шта? Опять статья отписка чтоб привлечь трафик.
risenab
Хоть как в robots.txt URL до SM напиши - ничего не поменяется. Скорее всего автор просто набивал символы :)
User
Придерживайтесь правил, которые прописаны в протоколе. Разное написание допускается по той причине, что инженеры встроили защиту от дурака.
lobo13713
Скажите, как сделать карту сайта для двух языков. На opencart https://blackchip.com.ua/ три дня мучаюсь.
Михаил Носов
Не понял.
Сайтмап для картинок - это отдельный файл? Или картинки прописываются в тотже сайтмап, где и страницы?
Если отдельный, то в robots.txt надо указывать оба??? Или надо делать sitemapindex?
Куча вопросов после прочтения.
risenab
На деле - SM для картинок, если у них нормальный ALT да TITLE, вообще не нужен. ПС с удовольствием проиндексирует хорошее изображение с нормально заполненными META. Это первичный базис SEO-оптимизации страниц =_=...
User
Создавать sitemapindex не обязательно. Достаточно указать в robots.txt оба файла.
User
Отдельный файл с своей разметкой, пример есть в материале.
vp2215519
Скажите, какой смысл менять имя карты сайта, чтобы скрыться от парсеров, если в robots.txt она указана?
risenab
Вообще никакого. Но есть один момент: есть примитивные чекеры, а есть продвинутые. Примитивные перебирают все возможные URL-адреса SM, которые по дефолту стоят у компонентов различных CMS. Либо в наглую проверяют /sitemap.xml. Не найдя - покидают проект либо передают сигнал на более детальную проверку чекеру лучшего качества (продвинутому). Продвинутые делятся на два типа: умные и ручные. Умные сразу идут в robots.txt и чекают строку с картой сайта. Ручные - делают обход всего сайта вручную, самостоятельно генерируя карту всех URL-адресов, если сайт заинтересовал владельца сателлитов. В целом, изменение названия SM спасает от примитивных. Не более. Да и технологии уже до того дошли, что простыми чекерами уже давно никто не пользуется =_=... Цитата не помню откуда: "Мы все умрем!" (хоть бейся головой об стенку, хоть нет, но если на твой ресурс нацелились, то ничего уже не поможет).
User
От ботов есть различные способы защиты.
risenab
Умные люди делают защиту, а еще более умные люди ее обходят. Самый распространенный способ (18-20гг.): проверка айпи адреса перед запросом - уже устарела. Единственный адекватный способ сегодня: система блокировки IP-адреса при множественных запросах к множеству разных страниц (в которой по UA идет проверка на боты ПС и пропускает только их). И то, уже неактуально, обход сделан (подменой UA). А прятать SM смысла нет. Все равно найдут. Либо вручную чекер по сайту пройдется =_=...
User
При скрытии карта отправляется в поисковую систему напрямую, в robots.txt указывать не надо.
eushuvalov
Дмитрий, в материале от 9 августа 2019 (на который тут в начале дается ссылка) вы пишете: "Манипуляции с файлом sitemap.xml не влияют на краулинговый бюджет". Здесь, приводите противоположные доводы. Прокомментируйте пож-та.
User
Спасибо за тематический комментарий. Все верно. Вопрос в формулировке. Sitemap влияет на расход, и НЕ влияет на фактического значение краулингового бюджета.
Для добавления комментария, пожалуйста, авторизуйтесь