Видео о работе приложения по анализу релевантности текстов:
Новый инструмент отличается от массы уже существующих анализаторов двумя основными технологическими подходами:
1. Сравнение контента Вашей страницы и страниц, которые уже ранжируются в ТОПе по данному запросу
2. Анализ документа по метрике TF*IDF (подробнее о метрике в Wikipedia)
Метрика TF*IDF уже давно является основой определения текстовой релевантности в поисковых системах. Для её подсчета сначала необходимо определить IDF для каждого слова.
IDF (inverse document frequency) — инверсия частоты, с которой определенное слово встречается в большой коллекции документов. В нашем случае эта коллекция состоит из всех страниц, которые обрабатывает наш индексатор. Например, если в коллекции 500 млрд документов, а слово "перевозки" встречается в 5 млрд документов, то значение IDF = log (500 млрд / 5 млрд) = log (100) = 2 (В нашем случае мы берем основание логорифма равное 10)
Таким образом популярные слова, которые встречаются в каждом 10-ом документе и чаще, будут иметь IDF<1.
А слова, которые встречаются в каждом 100-ом документе и реже, будут иметь IDF>2.
Практически все тематики можно охарактеризовать определенными словами с IDF близким к 2.
Значение TF — это отношение числа вхождений определенного слова к числу слов в документе. Например, если в документе 500 слов, а слово "перевозки" встречается 5 раз, то TF = 5 / 500 = 0.01
Как видно из формулы, TF*IDF будет максимально в том случае, если довольно редкие слова будут иметь множество вхождений в документ. По этой причине мы сортирует все слова по убыванию метрики TF*IDF (сверху сразу можно увидеть наиболее значимые слова в тематике).
Список топовых URL системой изначально берется по результатам органического поиска Яндекс в Москве.
Задав URL, который Вы оптимизируете по заданному запросу, приложение позволит наглядно сравнить число вхождений каждого слова. А задав точность сравнения, наглядно покажет цветом все отклонения, красным — меньше, синим — больше:
Также внизу Вы получите рекомендованные доработки по изменению страницы в соответствие в топовыми URL:
Основная задача данного инструмента — это создание сбалансированного текста, который будет включать не только ключевые слова, но и необходимый набор синонимов. Также этот инструментарий поможет выявить определенные слова, которые характеризуют коммерческую составляющую документов из ТОПа, такие как "руб", "калькулятор" и прочее.
Если Вы не задаете URL для сравнения, то приложение просто сформирует техническое задание на копирайт на основе топовых URL.
Весь текст мы разделаем на 4 типа:
1.TITLE документа
2. Анкоры ссылок
3. Короткие пассажи (обычно это заголовки, ячейки таблицы, списки и т.п.)
4. Связанный текст
Успешной оптимизации текста с новым приложением: https://ru.megaindex.com/a/textanalysis
Обсуждение