Но чтобы использовать сервис с максимальной пользой надо знать как работать с регулярными выражениями.
Что такое регулярные выражения? Как использовать? Разбираемся и рассматриваем примеры.
Что такое регулярные выражения и для решения каких задач нужны?
Стандартные системы для фильтрации и сортировок данных плохо справляются при работе с большим объемом данных.
Регулярные выражения применяются как инструмент для максимально точного поиска.
Итак. Что это?
Регулярные выражения — формулы с подстановочными знаками, которые применяются для поиска информации в больших наборах данных.
Простым языком. Регулярное выражение — строка-образец, задающая шаблон для поиска данных.
В строке-образце вместо конкретного запроса используется набор шаблонов.
Практическое применение крайне широкое. Например, я использовал регулярные выражения для сбора IP прокси-серверов из публичных источников. Еще использовал для проверки правильности ввода электронной почты при регистрации на сайте.
Мы разберем тему использования регулярных выражений только в части практического применения при аналитике продвижения в поисковой системе.
Какие цели решаются с использованием регулярных выражений
Зачем нужны регулярные выражения? Инструмент полезен при анализе данных, так как позволяет сильно упростить выполнение разных работ, которые связаны с выгрузкой данных.
Часто на сайты трафик приходит по большому количеству разных ключевых фраз.
Для бизнеса важны в основном фразы с высокой конверсией. Работать с большими данными из общих отчетов и обычными фильтрами и сортировками крайне сложно.
В системе поисковой аналитики от Google есть поддержка фильтрации данных по регулярным выражениям.
Регулярные выражения значимо удобнее в сравнении с обычными сортировками, фильтрами.
Шаблоны помогают в выгрузке данных по интенту или направлению бизнеса.
Разбираемся для каких целей и как правильно применять регулярные выражения в Search Console.
Регулярные выражения в Search Console
Итак. Регулярные выражения позволяют выгрузить из большого набора данных нужную информацию.
Важно. В Search Console есть поиск строк, которые:
- Соответствуют;
- Не соответствуют шаблону регулярного выражения.
Способ поиска не соответствует позволяет исключить все брендовые запросы.
Например, бренд indexoid. Исключаем брендовые ключевые фразы:
(indexoid|индексод|indexoid.com)
Регулярные выражения допускается применять при работе с:
- Адресами страниц;
- Ключевыми фразами.
Особенности использования регулярных выражений в Google Search Console:
- Ошибка в синтаксисе приведет к отсутствию результатов;
- По умолчанию система настроена так, что результат ищется по всему содержанию строк. Символ ^ указывает на поиск в начале строки. Символ $ указывает на поиск в конце строки;
- По умолчанию в отчетах учитывается регистр. Директива (?-i) в начале строки регулярного выражения указывает на поиск без учета регистра. Пример: (?-i)https
Как составлять регулярные выражения? Все просто.
Синтаксис регулярных выражений Regular Expressions 2
В Google применяется синтаксис REGEX 2.
Полная документация на официальном аккаунте — RE2.
Проверить регулярное выражение на правильность позволяет бесплатный сервис — Regex101.
Разбираемся с главными элементами синтаксиса.
. — означает любой одиночный символ, который повторяется 1 раз.
* — означает, что предыдущий символ или фрагмент шаблона может присутствовать, отсутствовать или повторяться.
Например, поиск всех ключевых фраз с вхождением слова captcha.
.*captchа.*
Поиск всех фраз с вхождением captcha и solve или bypass.
captcha(solve|bypass)
Результат включает следующие значения:
hcaptcha solver hcaptcha bypass 2captcha solver
^ — поиск шаблона только в начале строк.
wixfy соответствует вариантам:
wixfy
seo wixfy
^wixfy соответствует:
wixfy wixfy seo
() — объединение элементов в группу
$ — поиск в конце строки.
| — логическое или.
Например:
^https://ru.megaindex.com/(seo|api)$
Возвращает:
https://ru.megaindex.com/blog https://ru.megaindex.com/api
\w — означает все буквы, цифры и подчеркивания;
\W — означает все, кроме букв, цифр и подчеркиваний;
\s — означает все whitespace: пробелы, табуляции и переносы строк;
\S — все, кроме whitespace.
{1,10} означает количество повторений шаблона от 1 до 10.
Например, регулярное выражение для поиска фраз меньше 10 символов:
^[\w\W\s\S]{1,10}$
Используйте максимально короткие и простые регулярные выражения.
Лимит на строку поиска составляет 4096 символов, для других типов — 10240 символов.
Поиск по регулярным выражениям нагружает сервера. Хотя в данном случае расходы за счет Google. Но также минус сложных регулярных выражений заключается в скорости обработки.
Если нужно создать фильтр на основе множества фраз, избегайте сложных регулярных выражений типа:
(\W|^)фраза 1(\W|$)|(\W|^)фраза 2(\W|$)|(\W|^)фраза 3(\W|$)
Используйте простые:
(\W|^)(фраза 1|фраза 2|фраза 3)(\W|$)
Примеры полезных регулярных выражений
С поиском не брендовых запросов разобрались.
Разберем еще примеры из реальной практики.
Сценарий поиска информационных запросов. Например, ищем все ключевые фразы, которые начинаются со слов как, зачем, где, что:
^(как|зачем|где|что)
Поиск длинных ключевых фраз. Например, найдем выгружаем хвост длиной в 5 слов или больше:
([^""]*\s){5,}?
Как получить практическую пользу? Например:
- Выгружаем ключевые фразы длинного хвоста. Например, 5 и больше слов;
- Определяем какие фразы находятся в топ-10;
- Улучшаем контент на страницах;
- Отправляем страницу на переиндексацию;
- Получаем больше трафика на продвигаемый сайт.
Улучшений по контенту обычно достаточно, поскольку у ключевых фраз из хвоста обычно низкое значение по метрике конкурентности в выдаче.
Поиск коммерческих ключевых фраз. Выгрузка приоритетных для бизнеса ключевых фраз.
(купить|заказать|цена)
Исследование спроса на товар с конкретными характеристиками. Например, адреса страниц следующие:
apple.com/[product]/[model]/[color]
К примеру, поставлена задача оценить популярность iPhone в цвете rose gold. Модель телефона не имеет значения. Используем регулярное выражение
iphone/.*/rose-gold
.* — соответствует любой последовательности символов.
Маркетинговые исследования в части сравнения спроса на разные товары.
Следует выбрать опцию сравнения результатов.
Прописать регулярное выражение для строк поиска. Например:
.*rose-gold.*
И
.*black.*
Поиск трафика из поисковой выдачи на документы docx, pdf, xls.
Регулярное выражение:
\.docx|\.pdf|\.xls
\ — означает экранирование последующего элемента, позволяет использовать в шаблоне символы относящиеся к синтаксису.
Поиск длинных адресов страниц. Не рекомендуется использовать длинные URL в 75-120 символов.
Регулярное выражение находит страницы с длинными адресами:
^[\w\W\s\S]{100,}$
Поиск URL адресов на сайте, которые заканчиваются на /. Ошибкой является, если страницы сайты доступны с / и без / в конце адреса страницы. В продвижении следует придерживаться общего стиля для всех страниц и избегать копий.
Регулярное выражение для поиска страниц со слешем в конце:
.*\/$
Поиск данных по кликам в определенном разделе сайта.
Регулярное выражение:
category\/sub-category
Поиск поддоменов на сайте в индексе поисковой системы.
Регулярное выражение:
https?\:\/\/.*megaindex\.com\/?$
Поиск адресов страниц со специальными символами. Специальные символы являются признаком технической страницы. В индексе не нужны спамные страницы.
Регулярное выражение:
[^\/\.\-:0-9A-Za-z_]
Регулярным выражениям в Search Console: Как использовать
Доступ к данным из Search Console появляется только после добавления сайта в сервис и подтверждения прав на доменное имя.
Шаг 1. Добавляем сайт. Для подключения сайта требуется подтвердить права на сайт.
Ссылка на сайт — SearchConsole.
Сервис бесплатный.
Шаг 2. Переходим на вкладку Performance.
Добавляем фильтр +NEW.
Из выпадающего списка Custom.
Прописываете в строку регулярное выражение и согласно шаблону выгружаете данные.
Найденные группы страниц следует детально анализировать на предмет контента и ошибок. Полностью бесплатный инструмент аудита сайта от MegaIndex позволяет найти разные проблемы на сайте, которые мешают продвижению в поисковой выдаче.
Пример отчета для сайта SEO news
Ссылка на сервис — Аудит сайта.
Выводы
Любой лидер поиска собирает трафик по большому количеству ключевых фраз.
Поддержка регулярных выражений в сервиса Search Console предоставляет возможность выгрузки сегментов данных, которые полезны при решении конкретных задач.
Например, на сайте есть трафик по информационным и по коммерческим фразам.
Задача по поисковой оптимизации заключается в поиске резервов для увеличения трафика по коммерческим ключевым фразам.
Практическое решение задачи начинается с выгрузки коммерческих фраз, которые находятся ближе к топ-10 поисковой выдачи.
Выполнить выгрузку позволяют только регулярные выражения. Иначе разобраться в большом объема данных очень сложно.
Использование инструмента абсолютно бесплатно.
Остались вопросы? Что-то подсказать? Есть мнения по теме? Напишите в комментариях, разъясню.
Обсуждение