Как использовать регулярные выражения в SEO аналитике? Примеры Regex
23 августа 2021

Как использовать регулярные выражения в SEO аналитике? Примеры Regex

Сервис Google Search Console позволяет бесплатно выгружать актуальные данные об эффективности продвижения сайта.

Но чтобы использовать сервис с максимальной пользой надо знать как работать с регулярными выражениями.

Что такое регулярные выражения? Как использовать? Разбираемся и рассматриваем примеры.

Что такое регулярные выражения и для решения каких задач нужны?


Стандартные системы для фильтрации и сортировок данных плохо справляются при работе с большим объемом данных.

Регулярные выражения применяются как инструмент для максимально точного поиска.

Итак. Что это?

Регулярные выражения — формулы с подстановочными знаками, которые применяются для поиска информации в больших наборах данных.

Простым языком. Регулярное выражение — строка-образец, задающая шаблон для поиска данных.

В строке-образце вместо конкретного запроса используется набор шаблонов.

Как работают регулярные выражения в поисковой оптимизации при аналитике продвижения сайта в поисковой выдаче

Практическое применение крайне широкое. Например, я использовал регулярные выражения для сбора IP прокси-серверов из публичных источников. Еще использовал для проверки правильности ввода электронной почты при регистрации на сайте.

Мы разберем тему использования регулярных выражений только в части практического применения при аналитике продвижения в поисковой системе.

Какие цели решаются с использованием регулярных выражений


Зачем нужны регулярные выражения? Инструмент полезен при анализе данных, так как позволяет сильно упростить выполнение разных работ, которые связаны с выгрузкой данных.

Часто на сайты трафик приходит по большому количеству разных ключевых фраз.

Для бизнеса важны в основном фразы с высокой конверсией. Работать с большими данными из общих отчетов и обычными фильтрами и сортировками крайне сложно.

В системе поисковой аналитики от Google есть поддержка фильтрации данных по регулярным выражениям.

Регулярные выражения значимо удобнее в сравнении с обычными сортировками, фильтрами.

Шаблоны помогают в выгрузке данных по интенту или направлению бизнеса.

Разбираемся для каких целей и как правильно применять регулярные выражения в Search Console.

Регулярные выражения в Search Console


Итак. Регулярные выражения позволяют выгрузить из большого набора данных нужную информацию.

Важно. В Search Console есть поиск строк, которые:

  • Соответствуют;
  • Не соответствуют шаблону регулярного выражения.

Способ поиска не соответствует позволяет исключить все брендовые запросы.

Например, бренд indexoid. Исключаем брендовые ключевые фразы:

(indexoid|индексод|indexoid.com)

Регулярные выражения допускается применять при работе с:

  • Адресами страниц;
  • Ключевыми фразами.

Особенности использования регулярных выражений в Google Search Console:

  • Ошибка в синтаксисе приведет к отсутствию результатов;
  • По умолчанию система настроена так, что результат ищется по всему содержанию строк. Символ ^ указывает на поиск в начале строки. Символ $ указывает на поиск в конце строки;
  • По умолчанию в отчетах учитывается регистр. Директива (?-i) в начале строки регулярного выражения указывает на поиск без учета регистра. Пример: (?-i)https

Как составлять регулярные выражения? Все просто.

Синтаксис регулярных выражений Regular Expressions 2


В Google применяется синтаксис REGEX 2.

Полная документация на официальном аккаунте — RE2.

Проверить регулярное выражение на правильность позволяет бесплатный сервис — Regex101.

Разбираемся с главными элементами синтаксиса.

. — означает любой одиночный символ, который повторяется 1 раз.

* — означает, что предыдущий символ или фрагмент шаблона может присутствовать, отсутствовать или повторяться.

Например, поиск всех ключевых фраз с вхождением слова captcha.

.*captchа.*

Поиск всех фраз с вхождением captcha и solve или bypass.

captcha(solve|bypass)

Результат включает следующие значения:

hcaptcha solver
hcaptcha bypass
2captcha solver

^ — поиск шаблона только в начале строк.

wixfy соответствует вариантам:

wixfy
seo wixfy

^wixfy соответствует:

wixfy
wixfy seo

() — объединение элементов в группу

$ — поиск в конце строки.

| — логическое или.

Например:

^https://ru.megaindex.com/(seo|api)$

Возвращает:

https://ru.megaindex.com/blog
https://ru.megaindex.com/api

\w — означает все буквы, цифры и подчеркивания;

\W — означает все, кроме букв, цифр и подчеркиваний;

\s — означает все whitespace: пробелы, табуляции и переносы строк;

\S — все, кроме whitespace.

{1,10} означает количество повторений шаблона от 1 до 10.

Например, регулярное выражение для поиска фраз меньше 10 символов:

^[\w\W\s\S]{1,10}$

Используйте максимально короткие и простые регулярные выражения.

Лимит на строку поиска составляет 4096 символов, для других типов — 10240 символов.

Поиск по регулярным выражениям нагружает сервера. Хотя в данном случае расходы за счет Google. Но также минус сложных регулярных выражений заключается в скорости обработки.

Если нужно создать фильтр на основе множества фраз, избегайте сложных регулярных выражений типа:

(\W|^)фраза 1(\W|$)|(\W|^)фраза 2(\W|$)|(\W|^)фраза 3(\W|$)

Используйте простые:

(\W|^)(фраза 1|фраза 2|фраза 3)(\W|$)

Примеры полезных регулярных выражений


С поиском не брендовых запросов разобрались.

Разберем еще примеры из реальной практики.

Сценарий поиска информационных запросов. Например, ищем все ключевые фразы, которые начинаются со слов как, зачем, где, что:

^(как|зачем|где|что)

Поиск длинных ключевых фраз. Например, найдем выгружаем хвост длиной в 5 слов или больше:

([^""]*\s){5,}?

Как получить практическую пользу? Например:

  • Выгружаем ключевые фразы длинного хвоста. Например, 5 и больше слов;
  • Определяем какие фразы находятся в топ-10;
  • Улучшаем контент на страницах;
  • Отправляем страницу на переиндексацию;
  • Получаем больше трафика на продвигаемый сайт.

Улучшений по контенту обычно достаточно, поскольку у ключевых фраз из хвоста обычно низкое значение по метрике конкурентности в выдаче.

Поиск коммерческих ключевых фраз. Выгрузка приоритетных для бизнеса ключевых фраз.

(купить|заказать|цена)

Исследование спроса на товар с конкретными характеристиками. Например, адреса страниц следующие:

apple.com/[product]/[model]/[color]

К примеру, поставлена задача оценить популярность iPhone в цвете rose gold. Модель телефона не имеет значения. Используем регулярное выражение

iphone/.*/rose-gold

.* — соответствует любой последовательности символов.

Маркетинговые исследования в части сравнения спроса на разные товары.

Следует выбрать опцию сравнения результатов.

Прописать регулярное выражение для строк поиска. Например:

.*rose-gold.*

И

.*black.*

Поиск трафика из поисковой выдачи на документы docx, pdf, xls.

Регулярное выражение:

\.docx|\.pdf|\.xls

Поиск трафика из поисковой выдачи на документы, статические файлы и таблицы

\ — означает экранирование последующего элемента, позволяет использовать в шаблоне символы относящиеся к синтаксису.

Поиск длинных адресов страниц. Не рекомендуется использовать длинные URL в 75-120 символов.

Регулярное выражение находит страницы с длинными адресами:

^[\w\W\s\S]{100,}$

Поиск URL адресов на сайте, которые заканчиваются на /. Ошибкой является, если страницы сайты доступны с / и без / в конце адреса страницы. В продвижении следует придерживаться общего стиля для всех страниц и избегать копий.

Регулярное выражение для поиска страниц со слешем в конце:

.*\/$

Поиск данных по кликам в определенном разделе сайта.

Регулярное выражение:

category\/sub-category

Поиск поддоменов на сайте в индексе поисковой системы.

Регулярное выражение:

https?\:\/\/.*megaindex\.com\/?$

Поиск адресов страниц со специальными символами. Специальные символы являются признаком технической страницы. В индексе не нужны спамные страницы.

Регулярное выражение:

[^\/\.\-:0-9A-Za-z_]

Регулярным выражениям в Search Console: Как использовать


Доступ к данным из Search Console появляется только после добавления сайта в сервис и подтверждения прав на доменное имя.

Шаг 1. Добавляем сайт. Для подключения сайта требуется подтвердить права на сайт.

Ссылка на сайт — SearchConsole.

Сервис бесплатный.

Шаг 2. Переходим на вкладку Performance.

Добавляем фильтр +NEW.

Регулярные выражения

Из выпадающего списка Custom.

Регулярные выражения - Фразы

Прописываете в строку регулярное выражение и согласно шаблону выгружаете данные.

Найденные группы страниц следует детально анализировать на предмет контента и ошибок. Полностью бесплатный инструмент аудита сайта от MegaIndex позволяет найти разные проблемы на сайте, которые мешают продвижению в поисковой выдаче.

Пример отчета для сайта SEO news

Аудит структуры сайта

Ссылка на сервис — Аудит сайта.

Выводы


Любой лидер поиска собирает трафик по большому количеству ключевых фраз.

Поддержка регулярных выражений в сервиса Search Console предоставляет возможность выгрузки сегментов данных, которые полезны при решении конкретных задач.

Например, на сайте есть трафик по информационным и по коммерческим фразам.

Задача по поисковой оптимизации заключается в поиске резервов для увеличения трафика по коммерческим ключевым фразам.

Как разделить трафик по коммерческим и информационным ключевым фразам

Практическое решение задачи начинается с выгрузки коммерческих фраз, которые находятся ближе к топ-10 поисковой выдачи.

Выполнить выгрузку позволяют только регулярные выражения. Иначе разобраться в большом объема данных очень сложно.

Использование инструмента абсолютно бесплатно.

Остались вопросы? Что-то подсказать? Есть мнения по теме? Напишите в комментариях, разъясню.

Обсуждение

Для добавления комментария, пожалуйста, авторизуйтесь