Проверка TF-IDF

Алгоритм TF-IDF - это расчет важности слова для какого-либо документа относительно других документов.

Если термин часто используется в определенном тексте, но редко в других, то он имеет большую значимость для данного текста.

 

TF (Term Frequency — частота слова) - показывает насколько часто термин встречается в документе. Показывает отношение количества упоминаний слова к сумме всех слов на странице, т.е. частотность слова.

TF

числитель - вхождение слова в документ,
знаменатель - общее число слов в данном документе.

 

IDF (Inverse Document Frequency — обратная частота документа) - отношение всего числа документов к тем, которые имеют заданное слово. Уменьшает вес слова в зависимости от его частоты и показывает релевантность текста ключевому запросу.

IDF

N - общее количество документов в коллекции,
n(qi) — количество документов, содержащих qi.

 

В итоге получим значимость конкретного слова в пределах одного текста.

тф идф
 
Малозначимые слова, например, предлоги, имеют низкое значение TF-IDF, т.к. употребляются во всех текстах.
 

 

Пример.

Cтраница состоит из 2000 слов, из них 20 раз встречается слово «закон».

TF соответственно будет равен 20/2000 = 0.01.

Затем имеем количество страниц в интернете, к примеру, 8 000 000 000, и в 4 000 000 из них встречается слово «закон».

DF будет равен 4000000/8000000000 = 0.0005.

Вычисляем Вес слова TF/DF = 0.01/0,0005 = 20

 

Вы можете бесплатно проверить показатель TF-IDF в нашем приложении "Анализ текста".
 
 

Более подробно: https://ru.wikipedia.org/wiki/TF-IDF

 

Рекомендуем посмотреть видео по теме: