Проверка TF-IDF
Алгоритм TF-IDF - это расчет важности слова для какого-либо документа относительно других документов.
Если термин часто используется в определенном тексте, но редко в других, то он имеет большую значимость для данного текста.
TF (Term Frequency — частота слова) - показывает насколько часто термин встречается в документе. Показывает отношение количества упоминаний слова к сумме всех слов на странице, т.е. частотность слова.
числитель - вхождение слова в документ,
знаменатель - общее число слов в данном документе.
IDF (Inverse Document Frequency — обратная частота документа) - отношение всего числа документов к тем, которые имеют заданное слово. Уменьшает вес слова в зависимости от его частоты и показывает релевантность текста ключевому запросу.
N - общее количество документов в коллекции,
n(qi) — количество документов, содержащих qi.
В итоге получим значимость конкретного слова в пределах одного текста.

Пример.
Cтраница состоит из 2000 слов, из них 20 раз встречается слово «закон».
TF соответственно будет равен 20/2000 = 0.01.
Затем имеем количество страниц в интернете, к примеру, 8 000 000 000, и в 4 000 000 из них встречается слово «закон».
DF будет равен 4000000/8000000000 = 0.0005.
Вычисляем Вес слова TF/DF = 0.01/0,0005 = 20
Вы можете бесплатно проверить показатель TF-IDF в нашем приложении "Анализ текста".
Более подробно: https://ru.wikipedia.org/wiki/TF-IDF
Рекомендуем посмотреть видео по теме: