Machine Learning
文章目录
教程
概念辨析
相关性
文本之间的相似程度
注:
它和文本的主题分类不同
以下内容,通过 new bing 生成
1 2 3 4 5 6相关性和主题分类是文本分类中的两个重要概念。 ~相关性是指文本之间的 相似程度~ ,而 ~主题分类是指将文本分为不同的类别~ ,每个类别代表一个主 题。相关性和主题分类的区别在于,前者是基于文本之间的相似程度进行 分类,而后者是基于文本所属的主题进行分类。例如,如果我们有一组新 闻文章,我们可以使用相关性来确定哪些文章与其他文章最相似,然后使 用主题分类来将这些文章分为不同的类别,例如体育、政治、娱乐等。
降维
解释: 将高维数据转换为低维数据的过程,降低特征(feature)的数量,例如: 主成分分析算法(PCA),线性判别分析(LDA)、t-SNE 等。这些方法可以通过 对数据的变换或者映射,将高维数据转换为低维数据,同时尽可能地保留数据的 信息和结构。
出现原因:
- feature 太多,导致特征维度过高,
- 但是并不是每一个特征都有数据(导致数据稀疏性)
- 另外有些 feature 对机器学习任务贡献度不高
分类
监督学习
- supervised learning
非监督学习
- unsupervised learning
强化学习
- reinforement learning
- 算法自己总结结果,获取学习经验
遗传算法
- genetic algorithm
- 算法的继承和变异,繁衍
使用场景
- 分类
- 回归
- 聚类
降维
- 特征字段数量压缩
线性回归
混淆矩阵 confusion matrix —- 召回率(recall)等
参考:
召回率 recall
真实正确(true positive + False negative) 被预测成正确(True positive) 的比例,即预测正确和真实正确的商
$$Recall = \dfrac{TP}{TP + FN}$$
准确率 accuracy
所有样本预测正确的比例,即【真实正确被预测成正确(true positive)和真 实错误被预测成错误(true nagetive)】除以【TP,TN,FP,FN】
$$Accuracy = \dfrac{TP + TN}{TP + TN + FP + FN}$$
精确度 precision
所有预测为正确的样本中真实正确的比例,即真实正确(True positive) 除以所有预测为正确(正确被预测成正确 TP + 错误被预测成正确 FP)
$$Precision = \dfrac{TP}{TP + FP}$$
数据集处理
数据集的拆分方法和模型训练、测试、验证 参考:
分层采样
stratify samping 目的:
- 保证每一类的数据在拆分数据集时都被等比例的采集到,避免拆分的数据有偏见(不具有代表性)
验证集和测试集
参考:
做法:
- 把数据集分成 (training set, validation set, test set)
test set
- 用来做“无偏见”的“最后评估” final evaluation
- used to provide an unbiased estimate of the final model.
validation set
- 用来优化模型参数
test set 使用特点
- 对于训练过程完全不可见(完全无关),保证评估的无偏见性
这样做的原因(改进原因):
- 只有 cross validation 交叉验证(k-fold),容易导致“低估”没有见过的数据的错误率
- validation set 用于评估模型,再优化模型,这样 validation set 就间接的对于 training 训练过程暴漏了
使用过程:
- 整个数据集拆分成 for training set, test set
- for training set 再用来做 k-fold 交叉验证,每一次 split 成 training set 和 validation set
for training set 使用 k-fold 交叉验证评估
多个模型(或调参的模型)- 选出最优模型,即 fit 最好的模型
- 对于最优模型,使用 test set 做最后评估
留出法 hold-out
数据集分成两份,训练集和测试集
缺点:
- 拆分的随机性,导致每次拆分的结果都不同,导致测试得到的精度等不一致(模型评估结果不稳定)
补救措施:
- 多次使用留出法拆分评估,对多次的评估结果求平均值
常见拆分比例:
- 训练集所占比例 2/3 ~ 4/5
交叉验证 cross validation
超参数 hyperparameter
Logistic Regresion (Logistic 分类)
这是一种分类方法,注意 logistic function 就是 sigmoid function
hypothesis function
$$h_{\theta}(x) = \dfrac{1}{1 + e^{-\theta^{T}x}$$
cost function
$$J(\theta) = -\dfrac{1}{m}[\sum_{i}^{m} y^{(i)}\log h_{\theta}(x^{(i)}) + (1-y^{(i)})\log(1-h_{\theta}(x^{(i)}}) ]$$
over fitting 过拟合
原因:
- feature 过多, 训练数据过少没 constraint 假设函数(hypothesis function)
解决办法
减少 feature 数量(降维)
- 手动减少 feature 数量
- model selection algorithm
regularization
- 保留所有的 feature, 改变 θj 的数量级(值)
- 适合所有的 feature 都对结果预测有用的情况
模型
异常检测 Anormaly Detection
调参,超参数选择
蒙特卡罗方法 Monte Carlo Method
方法:通过大量随机试验,来模拟真实事件的概率的方法。
依赖的原理:概率的~大数定理~
用途:
求π
- 如何不用数学公式,估算π的值?
- 方法:在一个正方形中,画一个内切圆,随机生成点,计算落在内切圆中的比例,就可以计算出π
- 试验采样数量越高,计算结果越准确
- 强化学习
- MC dropout
集成学习
参考:
方法:
Bagging: 有放回抽样,Random Forest
- 训练多个低偏差,高方差 (树的深度大)决策树模型
Boosting: 提升方法, XGboost
- 训练多个高偏差,低方差(树的深度小,2~3层)决策树模型
文章作者
上次更新 2025-09-24 (360d44c)