Clustering Algorithms
文章目录
教程
英语
10 Clustering Algorithms With Python
生词
- outlier
- anomaly
prior to, 在 … 之前
- 类似 before
聚类效果评估
用途
pattern discovery or knowledge discovery
- 模式发现,知识发现
- 特征工程
算法实现角度
- 相似性
- 距离判断
常见算法初始参数
参数
- cluster 数量
- minimum distance 相近的最小距离
作用
- 用于迭代的终止条件
scikit-learn 聚类算法
Affinity Propagation Agglomerative Clustering BIRCH DBSCAN K-Means Mini-Batch K-Means Mean Shift OPTICS Spectral Clustering Mixture of Gaussians
K-Mean K 近邻算法
Single-Pass 单通道聚类
Affinity Propagation 算法
- 近邻传播算法或亲和力算法
- 一种优化的 K-Means 算法
参考
- Exemplar 聚类中心
Similarity
负的欧式距离 S(i, j)
- j 为聚类中心
- 值越大,越相近(似)
特点
在样本数量大时,计算速度大于 K-Means 算法
- 测评 >=100 时
- 不需要指定聚类数量
收敛参数
- damping
- preference
Agglomerative Clustering
- 一种层次聚类(hierarchical clustering)算法
参考
原理
- 每个元素为一类,多个小类 合成 大类,重复合并,完成聚类
特点
收敛参数
n_samples
- 聚类数量
三种类别(按小类之间距离计算方法分)
Single Link
- 两小类中 最近 元素间距离,为类间距离
- 最近邻聚类 nearest clustering
Complete Link
- 两小类中 最远 元素间距离,为类间距离
- 最远邻聚类
Average Link
- 两小类间组合元素对间距离的平均值,为类间距离
- 平均链接聚类
BIRCH Clustering
Balanced Iterative Reducing and Clustering using Hierarchies
- 平衡迭代规约和聚类
原理
- 使用类似平衡 B+树的聚类特征树(Clustering Feature Tree, CF Tree)实现
参考
特点
收敛参数
- n_clusters
- threshold
优点
- 速度快,链表实现的 CF Tree 树,增删快
- 可以识别噪音点
- 节省内存?
缺点
- 树结构,支持的特征有限,可能导致聚类有偏差
- 高维度特征支持不好
- 只适用于凸样本集
DBSCAN
Density-Based Spatial Clustering of Applicase with Noise
- 具有噪声的基于密度的聚类方法
参考
特点
- 只适用于凸样本集
优点
适合任何边界形状
- 而 K-Mean 和 hierarchy Clustering 就不可以
原理
要求参数
epsilon
- 以当前点为圆心,探测周围数据点数量,以计算密度
- 相当于 半径参数
minPoints
- 这个圆内至少要有多少个点,才能可以认定为是一个核心 Core Point
- 相当于 密度参数
取值
- epsilon >= Dimensions + 1
点的分类
- 核心点
epsilon 探测圆内 点数 >= minPoints (要求密度)
- Core
- 边界点
eplilon 探测圆内 minPoints > 点数 > 0
- Border
- 噪音点
eplilon 探测圆内 没有其他点
- Noise
距离计算
- 欧式距离(空间计算时)
可达性 Vs 连接性
Reachability
- 可以和别的数据点直接相连
Connectivity
- 间接可相连
文章作者
上次更新 2022-03-07 (de34a70)