Vectorizer
文章目录
TF-IDF
参考: TF-IDF原理及使用_zrc199021 的博客-CSDN博客_tfidf
词频——逆向词频,term frequency-inverse document frequency
特性:
- 倾向于过滤掉常见词语
作用: 评估给定词对整个语料集(语料库)的给定单条语料的重要性。
- 给定词在当前单条语料的重要性
- 考虑到整个语料集的情况(通过 IDF)
大小关系:
- 当前句子多出现多,TF 大,总体大
- 整个语料集出现少,IDF 大,总体大
TF 词频 term frequency
作用: 给定词在当前单条语料中的重要性。
词频 = 给定词的在当前句子中频数 count / 当前句子中所有词的频数(总词数)
注:这里的句子可以单条语料
IDF 逆向词频 inverse document frequency
作用: 给定词在所有语料中的 分布普遍重要性 的衡量。
- 出现的语料越少反而越不简单,越重要
逆向词频 = Log { 句子总数 / (包含 给定词 的句子数量 + 1) }
文章作者
上次更新 2022-03-24 (d2bfef1)