现有的许多传统聚类方法,比如说k-means算法,在聚类之前,聚类簇数(k)是需要提前给定的。然而,对于一个数据集,我们大概率也不会知道它的自然簇数。本次博客主要目前有什么方法可以获取到聚类簇数(k)?
[参考sklearn]
- 组内平方误差和——拐点图
- Calinski and Harabasz score
- 轮廓系数Average silhouette method
s(i)=b(i)−a(i)max(a(i),b(i))s(i) = \frac{b(i)-a(i)}{\max(a(i),b(i))} s(i)=max(a(i),b(i))b(i)−a(i) - Gap Statistic
-
gap statistic-Tibshirani R, Walther G, Hastie T. Estimating the number of clusters in a data set via the gap statistic[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2001, 63(2): 411-423.