Machine Learning

教程

【莫烦Python】Scikit-learn (sklearn) 优雅地学会机器学习_哔哩哔哩_bilibili
Start Here with Machine Learning
- 系列教程，包含代码，英文

书籍

《机器学习》周培德
- 西瓜书
- 机器学习 (豆瓣)
GitHub - datawhalechina/pumpkin-book: 《机器学习》（西瓜书）公式详解
- 南瓜书

贝叶斯优化

Exploring Bayesian Optimization

概念辨析

降维

解释：将高维数据转换为低维数据的过程，降低特征（feature)的数量，例如：主成分分析算法（PCA），线性判别分析（LDA）、t-SNE 等。这些方法可以通过对数据的变换或者映射，将高维数据转换为低维数据，同时尽可能地保留数据的信息和结构。

出现原因：

feature 太多，导致特征维度过高，
但是并不是每一个特征都有数据（导致数据稀疏性）
另外有些 feature 对机器学习任务贡献度不高

模型可解释性

参考：

SHAP：Python的可解释机器学习库
- shap 包：GitHub - shap/shap: A game theoretic approach to explain the output of any ma…

分类

监督学习
- supervised learning
非监督学习
- unsupervised learning
强化学习
- reinforement learning
- 算法自己总结结果，获取学习经验
遗传算法
- genetic algorithm
- 算法的继承和变异，繁衍

使用场景

分类
回归
聚类
降维
- 特征字段数量压缩

线性回归

评测方法

参考：

机器学习-回归中的相关度和R平方值 - 大数据和AI玩出的梗 - 博客园

混淆矩阵 confusion matrix —- 召回率（recall）等

参考：

召回率 recall

真实正确（true positive + False negative) 被预测成正确（True positive）的比例，即预测正确和真实正确的商

$$Recall = \dfrac{TP}{TP + FN}$$

准确率 accuracy

所有样本预测正确的比例，即【真实正确被预测成正确（true positive）和真实错误被预测成错误（true nagetive）】除以【TP,TN,FP,FN】

$$Accuracy = \dfrac{TP + TN}{TP + TN + FP + FN}$$

精确度 precision

所有预测为正确的样本中真实正确的比例，即真实正确（True positive) 除以所有预测为正确（正确被预测成正确 TP + 错误被预测成正确 FP）

$$Precision = \dfrac{TP}{TP + FP}$$

数据集处理

数据集的拆分方法和模型训练、测试、验证参考：

Validation Set vs. Test Set: What's the Difference? - Statology

分层采样

stratify samping 目的：

保证每一类的数据在拆分数据集时都被等比例的采集到，避免拆分的数据有偏见（不具有代表性）

验证集和测试集

参考：

做法：

把数据集分成 (training set, validation set, test set)
test set
- 用来做“无偏见”的“最后评估” final evaluation
- used to provide an unbiased estimate of the final model.
validation set
- 用来优化模型参数
test set 使用特点
- 对于训练过程完全不可见（完全无关），保证评估的无偏见性

这样做的原因（改进原因）：

只有 cross validation 交叉验证（k-fold），容易导致“低估”没有见过的数据的错误率
validation set 用于评估模型，再优化模型，这样 validation set 就间接的对于 training 训练过程暴漏了

使用过程：

整个数据集拆分成 for training set, test set
for training set 再用来做 k-fold 交叉验证，每一次 split 成 training set 和 validation set
for training set 使用 k-fold 交叉验证评估 多个模型（或调参的模型）
- 选出最优模型，即 fit 最好的模型
对于最优模型，使用 test set 做最后评估

留出法 hold-out

数据集分成两份，训练集和测试集

缺点：

拆分的随机性，导致每次拆分的结果都不同，导致测试得到的精度等不一致（模型评估结果不稳定）

补救措施：

多次使用留出法拆分评估，对多次的评估结果求平均值

常见拆分比例：

训练集所占比例 2/3 ~ 4/5

交叉验证 cross validation

超参数 hyperparameter

参考：

https://en.wikipedia.org/wiki/Hyperparameter_(machine_learning)

Logistic Regresion (Logistic 分类)

这是一种分类方法，注意 logistic function 就是 sigmoid function

hypothesis function

$$h_{\theta}(x) = \dfrac{1}{1 + e^{-\theta^{T}x}$$

cost function

$$J(\theta) = -\dfrac{1}{m}[\sum_{i}^{m} y^{(i)}\log h_{\theta}(x^{(i)}) + (1-y^{(i)})\log(1-h_{\theta}(x^{(i)}}) ]$$

over fitting 过拟合

原因：

feature 过多，训练数据过少没 constraint 假设函数（hypothesis function）

解决办法

减少 feature 数量（降维）
- 手动减少 feature 数量
- model selection algorithm
regularization
- 保留所有的 feature, 改变 θ_j 的数量级（值）
- 适合所有的 feature 都对结果预测有用的情况

模型

分类

朴素贝叶斯分类器

参考：

朴素贝叶斯分类器_以 python为工具【Python机器学习系列（十三）】_朴素贝叶斯分类器 python_侯小啾的博客-CSDN博客

异常检测 Anormaly Detection

参考：

Abnormal Detection（异常检测）和 Supervised Learning（有监督训练）在异常检测上的应用初探 - 郑瀚Andrew - 博客园
- 全面系统

主动学习

参考：

主动学习（Active Learning）简介综述汇总以及主流技术方案 - 知乎

调参，超参数选择

参考：

【机器学习】算法模型自动超参数优化方法-CSDN博客

调参方法：

网格搜索
随机搜索
自动超参数优化
- 贝叶斯优化
- 遗传算法

蒙特卡罗方法 Monte Carlo Method

方法：通过大量随机试验，来模拟真实事件的概率的方法。

依赖的原理：概率的~大数定理~

用途：

求π
- 如何不用数学公式，估算π的值？
- 方法：在一个正方形中，画一个内切圆，随机生成点，计算落在内切圆中的比例，就可以计算出π
- 试验采样数量越高，计算结果越准确
强化学习
MC dropout

集成学习

参考：

https://zhuanlan.zhihu.com/p/494333159

方法：

Bagging: 有放回抽样，Random Forest
- 训练多个低偏差，高方差 (树的深度大)决策树模型
Boosting: 提升方法， XGboost
- 训练多个高偏差，低方差（树的深度小，2~3层）决策树模型