Рубрикация поисковых запросов
19 апреля 2013
Автор: Nikolay Khivrin

Рубрикация поисковых запросов

В базе запросов MegaIndex на сегодня 23 000 000 фраз. В это количество входят все фразы из подсказок Яндекс и Google, все запросы с wordstat больше 0 и запросы наших пользователей.

1. Если рассматривать это как простой список запросов, то эти данные фактически бесполезны.
Использовать этот массив можно в том случае, если сделать его полную рубрикацию. Под полной рубрикацией я понимаю разделение запросов на категории, в рамках которых конкурируют отдельные продукты или услуги.
Например нам не нужна в базе категория «Банки», а нужны «Ипотечный кредит», «Автокредит», «Потребительский кредит» и т.д…

2. Кроме этого, нужно сделать так, чтобы категории были выстроены в виде иерархической структуры. Что это значит? А то, что на каждом уровне пользователь увидит не более 15 вариантов, при этом он однозначным образом сможет добраться до интересующей его категории. Например, Бизнес -> Финансы -> Forex

Например, в Яндекс Каталоге уже есть достаточно неплохая рубрикация, но есть две проблемы:
— она недостаточно разделена. Следовательно, внутри одной категории могут быть совсем неконкурирующие товары или услуги
— их категоризация не удовлетворяет первому пункту

Создать алгоритм, который мог бы составить такое дерево, по моему убеждению невозможно. Однако можно сделать подготовительные вычисления, которые помогут людям легко найти все возможные категории.

Что можно сделать?
1. Выявить популярные слова в запросах
2. Выявить кластеры запросов автоматически

С первым пунктом все понятно. Подключаем морфологический анализатор и делаем прогон всей базы запросов, а потом делаем группировку по фразам.
А вот вторая задача значительно сложнее. Её решение лежит в плоскости того, что по запросам одной тематики (кластера), поисковыми системами ранжируются одни и те же сайты. Остается собрать позиции, что мы и так делаем регулярно, и сделать анализ базы на поиск кластеров.
Сам алгоритм поиска кластеров не такой простой, как кажется. Есть тематики, где ограниченное количество сайтов ранжируется почти по всем запросам этой категории. А есть тематики, где распределение запросов по сайтам-конкурентам достаточно размазанное. Это как правило большие тематики (с большим количеством запросов). Например, у интернет-магазина плитки может различаться ассортимент по коллекциям и фабрикам. Для этого приходится придумывать алгоритмы автоматического обучения для подбора параметров кластеризации.

На выходе получают почти готовые тематики.

Кроме того, есть и базовый метод поиска запросов по маске. Например, все запросы, которые включаются слова «окна» и «пластиковый» в различных морфологических формах.

По факту, реализация этих методов позволяет разобрать базу запросов на 5000-10000 тематик за вполне разумное время.

Скоро обновление базы по категоризации запросов появится в MegaIndex.

После прочтения материала может возникнуть вопрос, зачем столько усилий для решения обычной прикладной задачи?
Все дело в том, что такая категоризация позволит решить целый пласт аналитических и необходимых для продвижения задач:
— точное определение тематик сайтов (необходимо для использования в закупке ссылок)
— анализ динамики продвижения сайтов в каждой категории
— быстрый поиск основных конкурентов
— эффективных подбор семантического ядра
и т.д.

Безусловно стоит ждать и появление новых сервисов, которые будут использовать эти данные.

Обсуждение

Для добавления комментария, пожалуйста, авторизуйтесь