У нас появилось новое приложение для
анализа релевантности текста на продвигаемых страницах.
Видео о работе приложения по анализу релевантности текстов:
Новый инструмент отличается от массы уже существующих анализаторов двумя основными технологическими подходами:
1. Сравнение контента Вашей страницы и страниц, которые уже ранжируются в ТОПе по данному запросу
2. Анализ документа по метрике TF*IDF (подробнее о метрике в
Wikipedia)
Метрика TF*IDF уже давно является основой определения текстовой релевантности в поисковых системах. Для её подсчета сначала необходимо определить IDF для каждого слова.
IDF (inverse document frequency) — инверсия частоты, с которой определенное слово встречается в большой коллекции документов. В нашем случае эта коллекция состоит из всех страниц, которые обрабатывает наш индексатор. Например, если в коллекции 500 млрд документов, а слово "перевозки" встречается в 5 млрд документов, то значение IDF = log (500 млрд / 5 млрд) = log (100) = 2 (В нашем случае мы берем основание логорифма равное 10)