看到很多地方都讲到分层聚类法,这到底是什么东东,今天来研究一下。
分层聚类法是聚类算法的一种,聚类算法是数据挖掘的核心技术,把数据库中的对象分类是数据挖掘的基本操作,其准则是使属于同一类的个体间距离尽可能小,而不同类个体间距离尽可能大。
聚类算法一般分为分割和分层两种。
分割聚类算法通过优化评价函数把数据集分割为K个部分,它需要K作为输人参数。
典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。
分层聚类由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。它不需要输入参数,这是它优于分割聚类算法的一个明显的优点,其缺点是终止条件必须具体指定。
典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。
各聚类算法的比较结果
算法
BIRCH
DBSCAN
CURE
K-poto
CLARANS
CUQUE
参考文献
【1】张红云、刘向东、段晓东、苗夺谦、马垣,数据挖掘中聚类算法比较研究,《计算机应用与软件》2003 Vol.20 No.2 : 5~6