TF-IDF

参考: TF-IDF原理及使用_zrc199021 的博客-CSDN博客_tfidf

词频——逆向词频,term frequency-inverse document frequency

特性:

  • 倾向于过滤掉常见词语

作用: 评估给定词对整个语料集(语料库)的给定单条语料的重要性。

  • 给定词在当前单条语料的重要性
  • 考虑到整个语料集的情况(通过 IDF)

大小关系:

  • 当前句子多出现多,TF 大,总体大
  • 整个语料集出现少,IDF 大,总体大

TF 词频 term frequency

作用: 给定词在当前单条语料中的重要性。

词频 = 给定词的在当前句子中频数 count / 当前句子中所有词的频数(总词数)

注:这里的句子可以单条语料

IDF 逆向词频 inverse document frequency

作用: 给定词在所有语料中的 分布普遍重要性 的衡量。

  • 出现的语料越少反而越不简单,越重要

逆向词频 = Log { 句子总数 / (包含 给定词 的句子数量 + 1) }