K均值聚类 (K-means 聚类)是无监督学习的一种算法,无监督学习的重要因素有:
K-means 聚类算法:
算法描述:
(?? 值越小,表示 ?? 和 ?? 越相似;反之越不相似 )
第一步:初始化聚类质心:
初始化?个聚类质心 ,每个聚类质心 ?? 所在集合记为
第二步:将每个待聚类数据放入唯一一个聚类集合中
计算待聚类数据 ?? 和质心 ?? 之间的 欧氏距离 , 将每个 ?? 放入与之距离最近聚类质心所在聚类集合中, 即
第三步:根据聚类结果、更新聚类质心
根据每个聚类集合中所包含的数据,更新该聚类集合质心 值,即:
第四步:算法循环迭代,直到满足条件
在新聚类质心基础上,根据欧氏距离大小,将每个待聚类数据放入唯一一个聚类集合中 ,根据新的聚类结果、更新聚类质心 。聚类迭代满足如下任意一个条件,则聚类停止: (1)已经达到了迭代次数上限 (2) 前后两次迭代中,聚类质心基本保持不变.
K均值聚类算法的另一个视角:最小化每个类簇的方差
欧氏距离与方差量纲相同
最小化每个类簇方差将使得最终聚类结果中每个聚类集合中所包含数据呈现出来差异性最小
K均值聚类算法的不足:
具体代码可参考:https://blog.csdn.net/qq_39388410/article/details/78235882