教程

用途

  • pattern discovery or knowledge discovery

    • 模式发现,知识发现
  • 特征工程

算法实现角度

  • 相似性
  • 距离判断

常见算法初始参数

  • 参数

    • cluster 数量
    • minimum distance 相近的最小距离
  • 作用

    • 用于迭代的终止条件

scikit-learn 聚类算法

Affinity Propagation
Agglomerative Clustering
BIRCH
DBSCAN
K-Means
Mini-Batch K-Means
Mean Shift
OPTICS
Spectral Clustering
Mixture of Gaussians

Affinity Propagation 算法

  • 近邻传播算法或亲和力算法
  • 一种优化的 K-Means 算法
  • 参考

  • Exemplar 聚类中心
  • Similarity

    • 负的欧式距离 S(i, j)

      • j 为聚类中心
    • 值越大,越相近(似)
  • 特点

    • 在样本数量大时,计算速度大于 K-Means 算法

      • 测评 >=100 时
    • 不需要指定聚类数量
    • 收敛参数

      • damping
      • preference

Agglomerative Clustering

  • 一种层次聚类(hierarchical clustering)算法
  • 参考

  • 原理

    • 每个元素为一类,多个小类 合成 大类,重复合并,完成聚类
  • 特点

    • 收敛参数

      • n_samples

        • 聚类数量
  • 三种类别(按小类之间距离计算方法分)

    • Single Link

      • 两小类中 最近 元素间距离,为类间距离
      • 最近邻聚类 nearest clustering
    • Complete Link

      • 两小类中 最远 元素间距离,为类间距离
      • 最远邻聚类
    • Average Link

      • 两小类间组合元素对间距离的平均值,为类间距离
      • 平均链接聚类

BIRCH Clustering

  • Balanced Iterative Reducing and Clustering using Hierarchies

    • 平衡迭代规约和聚类
  • 原理

    • 使用类似平衡 B+树的聚类特征树(Clustering Feature Tree, CF Tree)实现
  • 参考

  • 特点

    • 收敛参数

      • n_clusters
      • threshold
    • 优点

      • 速度快,链表实现的 CF Tree 树,增删快
      • 可以识别噪音点
      • 节省内存?
    • 缺点

      • 树结构,支持的特征有限,可能导致聚类有偏差
      • 高维度特征支持不好
      • 只适用于凸样本集

DBSCAN

  • Density-Based Spatial Clustering of Applicase with Noise

    • 具有噪声的基于密度的聚类方法
  • 参考

  • 特点

    • 只适用于凸样本集
    • 优点

      • 适合任何边界形状

        • 而 K-Mean 和 hierarchy Clustering 就不可以
  • 原理

    • 要求参数

      • epsilon

        • 以当前点为圆心,探测周围数据点数量,以计算密度
        • 相当于 半径参数
      • minPoints

        • 这个圆内至少要有多少个点,才能可以认定为是一个核心 Core Point
        • 相当于 密度参数
        • 取值

          • epsilon >= Dimensions + 1
    • 点的分类

      核心点

      epsilon 探测圆内 点数 >= minPoints (要求密度)

      • Core
      边界点

      eplilon 探测圆内 minPoints > 点数 > 0

      • Border
      噪音点

      eplilon 探测圆内 没有其他点

      • Noise
    • 距离计算

      • 欧式距离(空间计算时)
    • 可达性 Vs 连接性

      • Reachability

        • 可以和别的数据点直接相连
      • Connectivity

        • 间接可相连