Clustering Algorithms

2021-09-16 约 1011 字预计阅读 3 分钟

文章目录

教程

英语
- 10 Clustering Algorithms With Python
  - 生词
    - outlier
    - anomaly
    - prior to, 在 … 之前
      - 类似 before
聚类效果评估
- How to measure clustering performances when there are no ground truth? | by H…

用途

pattern discovery or knowledge discovery
- 模式发现，知识发现
特征工程

算法实现角度

相似性
距离判断

常见算法初始参数

参数
- cluster 数量
- minimum distance 相近的最小距离
作用
- 用于迭代的终止条件

scikit-learn 聚类算法

Affinity Propagation
Agglomerative Clustering
BIRCH
DBSCAN
K-Means
Mini-Batch K-Means
Mean Shift
OPTICS
Spectral Clustering
Mixture of Gaussians

参考
- 2.3. Clustering — scikit-learn 0.24.2 documentation
不同聚类算法比较
- Comparing different clustering algorithms on toy datasets — scikit-learn 0.15…

K-Mean K 近邻算法

参考：

NLP基础–single-pass 聚类算法_maqian5 的博客-CSDN博客_singlepass 聚类

Single-Pass 单通道聚类

参考：

一种简单的文本聚类算法：single-pass - 知乎

Affinity Propagation 算法

近邻传播算法或亲和力算法
一种优化的 K-Means 算法
参考
- 聚类算法之Affinity Propagation(AP) – 标点符网
Exemplar 聚类中心
Similarity
- 负的欧式距离 S(i, j)
  - j 为聚类中心
- 值越大，越相近（似）
特点
- 在样本数量大时，计算速度大于 K-Means 算法
  - 测评 >=100 时
- 不需要指定聚类数量
- 收敛参数
  - damping
  - preference

Agglomerative Clustering

一种层次聚类（hierarchical clustering）算法
参考
- 【机器学习】层次聚类-Agglomerative clustering
原理
- 每个元素为一类，多个小类合成大类，重复合并，完成聚类
特点
- 收敛参数
  - n_samples
    - 聚类数量
三种类别（按小类之间距离计算方法分）
- Single Link
  - 两小类中最近元素间距离，为类间距离
  - 最近邻聚类 nearest clustering
- Complete Link
  - 两小类中最远元素间距离，为类间距离
  - 最远邻聚类
- Average Link
  - 两小类间组合元素对间距离的平均值，为类间距离
  - 平均链接聚类

BIRCH Clustering

Balanced Iterative Reducing and Clustering using Hierarchies
- 平衡迭代规约和聚类
原理
- 使用类似平衡 B+树的聚类特征树（Clustering Feature Tree, CF Tree）实现
参考
- BIRCH聚类算法原理 - 刘建平Pinard - 博客园
特点
- 收敛参数
  - n_clusters
  - threshold
- 优点
  - 速度快，链表实现的 CF Tree 树，增删快
  - 可以识别噪音点
  - 节省内存？
- 缺点
  - 树结构，支持的特征有限，可能导致聚类有偏差
  - 高维度特征支持不好
  - 只适用于凸样本集

DBSCAN

Density-Based Spatial Clustering of Applicase with Noise
- 具有噪声的基于密度的聚类方法
参考
特点
- 只适用于凸样本集
- 优点
  - 适合任何边界形状
    - 而 K-Mean 和 hierarchy Clustering 就不可以
原理
- 要求参数
  - epsilon
    - 以当前点为圆心，探测周围数据点数量，以计算密度
    - 相当于 半径参数
  - minPoints
    - 这个圆内至少要有多少个点，才能可以认定为是一个核心 Core Point
    - 相当于 密度参数
    - 取值
      - epsilon >= Dimensions + 1
- 点的分类
  核心点
  epsilon 探测圆内点数 >= minPoints (要求密度）
  - Core
  边界点
  eplilon 探测圆内 minPoints > 点数 > 0
  - Border
  噪音点
  eplilon 探测圆内没有其他点
  - Noise
- 距离计算
  - 欧式距离（空间计算时）
- 可达性 Vs 连接性
  - Reachability
    - 可以和别的数据点直接相连
  - Connectivity
    - 间接可相连

文章作者

上次更新 2022-03-07 (de34a70)