概念辨析

相关性

文本之间的相似程度

注:

  1. 它和文本的主题分类不同

    • 以下内容,通过 new bing 生成

      1
      2
      3
      4
      5
      6
      
      相关性和主题分类是文本分类中的两个重要概念。 ~相关性是指文本之间的
      相似程度~ ,而 ~主题分类是指将文本分为不同的类别~ ,每个类别代表一个主
      题。相关性和主题分类的区别在于,前者是基于文本之间的相似程度进行
      分类,而后者是基于文本所属的主题进行分类。例如,如果我们有一组新
      闻文章,我们可以使用相关性来确定哪些文章与其他文章最相似,然后使
      用主题分类来将这些文章分为不同的类别,例如体育、政治、娱乐等。

降维

解释: 将高维数据转换为低维数据的过程,降低特征(feature)的数量,例如: 主成分分析算法(PCA),线性判别分析(LDA)、t-SNE 等。这些方法可以通过 对数据的变换或者映射,将高维数据转换为低维数据,同时尽可能地保留数据的 信息和结构。

出现原因:

  • feature 太多,导致特征维度过高,
  • 但是并不是每一个特征都有数据(导致数据稀疏性)
  • 另外有些 feature 对机器学习任务贡献度不高

分类

  • 监督学习

    • supervised learning
  • 非监督学习

    • unsupervised learning
  • 强化学习

    • reinforement learning
    • 算法自己总结结果,获取学习经验
  • 遗传算法

    • genetic algorithm
    • 算法的继承和变异,繁衍

使用场景

  • 分类
  • 回归
  • 聚类
  • 降维

    • 特征字段数量压缩

混淆矩阵 confusion matrix —- 召回率(recall)等

参考:

召回率 recall

真实正确(true positive + False negative) 被预测成正确(True positive) 的比例,即预测正确和真实正确的商

$$Recall = \dfrac{TP}{TP + FN}$$

准确率 accuracy

所有样本预测正确的比例,即【真实正确被预测成正确(true positive)和真 实错误被预测成错误(true nagetive)】除以【TP,TN,FP,FN】

$$Accuracy = \dfrac{TP + TN}{TP + TN + FP + FN}$$

精确度 precision

所有预测为正确的样本中真实正确的比例,即真实正确(True positive) 除以所有预测为正确(正确被预测成正确 TP + 错误被预测成正确 FP)

$$Precision = \dfrac{TP}{TP + FP}$$

数据集处理

数据集的拆分方法和模型训练、测试、验证 参考:

分层采样

stratify samping 目的:

  • 保证每一类的数据在拆分数据集时都被等比例的采集到,避免拆分的数据有偏见(不具有代表性)

验证集和测试集

参考:

做法:

  • 把数据集分成 (training set, validation set, test set)
  • test set

    • 用来做“无偏见”的“最后评估” final evaluation
    • used to provide an unbiased estimate of the final model.
  • validation set

    • 用来优化模型参数
  • test set 使用特点

    • 对于训练过程完全不可见(完全无关),保证评估的无偏见性

这样做的原因(改进原因):

  • 只有 cross validation 交叉验证(k-fold),容易导致“低估”没有见过的数据的错误率
  • validation set 用于评估模型,再优化模型,这样 validation set 就间接的对于 training 训练过程暴漏了

使用过程:

  1. 整个数据集拆分成 for training set, test set
  2. for training set 再用来做 k-fold 交叉验证,每一次 split 成 training set 和 validation set
  3. for training set 使用 k-fold 交叉验证评估 多个模型(或调参的模型)

    • 选出最优模型,即 fit 最好的模型
  4. 对于最优模型,使用 test set 做最后评估

留出法 hold-out

数据集分成两份,训练集和测试集

缺点:

  • 拆分的随机性,导致每次拆分的结果都不同,导致测试得到的精度等不一致(模型评估结果不稳定)

补救措施:

  • 多次使用留出法拆分评估,对多次的评估结果求平均值

常见拆分比例:

  • 训练集所占比例 2/3 ~ 4/5

交叉验证 cross validation

Logistic Regresion (Logistic 分类)

这是一种分类方法,注意 logistic function 就是 sigmoid function

hypothesis function

$$h_{\theta}(x) = \dfrac{1}{1 + e^{-\theta^{T}x}$$

cost function

$$J(\theta) = -\dfrac{1}{m}[\sum_{i}^{m} y^{(i)}\log h_{\theta}(x^{(i)}) + (1-y^{(i)})\log(1-h_{\theta}(x^{(i)}}) ]$$

over fitting 过拟合

原因:

  • feature 过多, 训练数据过少没 constraint 假设函数(hypothesis function)

解决办法

  1. 减少 feature 数量(降维)

    • 手动减少 feature 数量
    • model selection algorithm
  2. regularization

    • 保留所有的 feature, 改变 θj 的数量级(值)
    • 适合所有的 feature 都对结果预测有用的情况

调参,超参数选择

参考:

调参方法:

  1. 网格搜索
  2. 随机搜索
  3. 自动超参数优化

    • 贝叶斯优化
    • 遗传算法

蒙特卡罗方法 Monte Carlo Method

方法:通过大量随机试验,来模拟真实事件的概率的方法。

依赖的原理:概率的​~大数定理~

用途:

  1. 求π

    • 如何不用数学公式,估算π的值?
    • 方法:在一个正方形中,画一个内切圆,随机生成点,计算落在内切圆中的比例,就可以计算出π
    • 试验采样数量越高,计算结果越准确
  2. 强化学习
  3. MC dropout

集成学习

参考:

方法:

  • Bagging: 有放回抽样,Random Forest

    • 训练多个低偏差,高方差 (树的深度大)决策树模型
  • Boosting: 提升方法, XGboost

    • 训练多个高偏差,低方差(树的深度小,2~3层)决策树模型