1 марта 2016
10,616 0

Анализ релевантности текстов по ТОПам и TF*IDF

У нас появилось новое приложение для анализа релевантности текста на продвигаемых страницах.



Видео о работе приложения по анализу релевантности текстов:



Новый инструмент отличается от массы уже существующих анализаторов двумя основными технологическими подходами:

1. Сравнение контента Вашей страницы и страниц, которые уже ранжируются в ТОПе по данному запросу
2. Анализ документа по метрике TF*IDF (подробнее о метрике в Wikipedia)

Метрика TF*IDF уже давно является основой определения текстовой релевантности в поисковых системах. Для её подсчета сначала необходимо определить IDF для каждого слова.

IDF (inverse document frequency) — инверсия частоты, с которой определенное слово встречается в большой коллекции документов. В нашем случае эта коллекция состоит из всех страниц, которые обрабатывает наш индексатор. Например, если в коллекции 500 млрд документов, а слово "перевозки" встречается в 5 млрд документов, то значение IDF = log (500 млрд / 5 млрд) = log (100) = 2 (В нашем случае мы берем основание логорифма равное 10)