Анализ релевантности текстов по ТОПам и TF*IDF || Блог Megaindex.com

У нас появилось новое приложение для анализа релевантности текста на продвигаемых страницах.

Видео о работе приложения по анализу релевантности текстов:

Новый инструмент отличается от массы уже существующих анализаторов двумя основными технологическими подходами:

1. Сравнение контента Вашей страницы и страниц, которые уже ранжируются в ТОПе по данному запросу
2. Анализ документа по метрике TF*IDF (подробнее о метрике в Wikipedia)

Метрика TF*IDF уже давно является основой определения текстовой релевантности в поисковых системах. Для её подсчета сначала необходимо определить IDF для каждого слова.

IDF (inverse document frequency) — инверсия частоты, с которой определенное слово встречается в большой коллекции документов. В нашем случае эта коллекция состоит из всех страниц, которые обрабатывает наш индексатор. Например, если в коллекции 500 млрд документов, а слово "перевозки" встречается в 5 млрд документов, то значение IDF = log (500 млрд / 5 млрд) = log (100) = 2 (В нашем случае мы берем основание логорифма равное 10)

Таким образом популярные слова, которые встречаются в каждом 10-ом документе и чаще, будут иметь IDF<1.
А слова, которые встречаются в каждом 100-ом документе и реже, будут иметь IDF>2.

Практически все тематики можно охарактеризовать определенными словами с IDF близким к 2.

Значение TF — это отношение числа вхождений определенного слова к числу слов в документе. Например, если в документе 500 слов, а слово "перевозки" встречается 5 раз, то TF = 5 / 500 = 0.01

Как видно из формулы, TF*IDF будет максимально в том случае, если довольно редкие слова будут иметь множество вхождений в документ. По этой причине мы сортирует все слова по убыванию метрики TF*IDF (сверху сразу можно увидеть наиболее значимые слова в тематике).

Список топовых URL системой изначально берется по результатам органического поиска Яндекс в Москве.

Задав URL, который Вы оптимизируете по заданному запросу, приложение позволит наглядно сравнить число вхождений каждого слова. А задав точность сравнения, наглядно покажет цветом все отклонения, красным — меньше, синим — больше:

Также внизу Вы получите рекомендованные доработки по изменению страницы в соответствие в топовыми URL:

Основная задача данного инструмента — это создание сбалансированного текста, который будет включать не только ключевые слова, но и необходимый набор синонимов. Также этот инструментарий поможет выявить определенные слова, которые характеризуют коммерческую составляющую документов из ТОПа, такие как "руб", "калькулятор" и прочее.

Если Вы не задаете URL для сравнения, то приложение просто сформирует техническое задание на копирайт на основе топовых URL.

Весь текст мы разделаем на 4 типа:
1.TITLE документа
2. Анкоры ссылок
3. Короткие пассажи (обычно это заголовки, ячейки таблицы, списки и т.п.)
4. Связанный текст

Успешной оптимизации текста с новым приложением: https://ru.megaindex.com/a/textanalysis

Анализ релевантности текстов по ТОПам и TF*IDF

Обсуждение