算法在ros中应用_SparkMLlib中KMeans聚类算法的解析和应用

作者：mobiledu2502889415 | 来源：互联网 | 2023-09-08 11:27

聚类算法是机器学习中的一种无监督学习算法，它在数据科学领域应用场景很广泛，比如基于用户购买行为、兴趣等来构建推荐系统。核心思想可以理解为，

聚类算法是机器学习中的一种无监督学习算法&＃xff0c;它在数据科学领域应用场景很广泛&＃xff0c;比如基于用户购买行为、兴趣等来构建推荐系统。

核心思想可以理解为&＃xff0c;在给定的数据集中&＃xff08;数据集中的每个元素有可被观察的n个属性&＃xff09;&＃xff0c;使用聚类算法将数据集划分为k个子集&＃xff0c;并且要求每个子集内部的元素之间的差异度尽可能低&＃xff0c;而不同子集元素的差异度尽可能高。简而言之&＃xff0c;就是通过聚类算法处理给定的数据集&＃xff0c;将具有相同或类似的属性&＃xff08;特征&＃xff09;的数据划分为一组&＃xff0c;并且不同组之间的属性相差会比较大。

K-Means算法是聚类算法中应用比较广泛的一种聚类算法&＃xff0c;比较容易理解且易于实现。

"标准" K-Means算法

KMeans算法的基本思想是随机给定K个初始簇中心&＃xff0c;按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心&＃xff0c;从而确定新的簇心。一直迭代&＃xff0c;直到簇心的移动距离小于某个给定的值或者满足已定条件。主要分为4个步骤&＃xff1a;

为要聚类的点寻找聚类中心&＃xff0c;比如随机选择K个点作为初始聚类中心
计算每个点到聚类中心的距离&＃xff0c;将每个点划分到离该点最近的聚类中去
计算每个聚类中所有点的坐标平均值&＃xff0c;并将这个平均值作为新的聚类中心
反复执行第2步和第3步&＃xff0c;直到聚类中心不再改变或者聚类次数达到设定迭代上限或者达到指定的容错范围

示例图&＃xff1a;

KMeans算法在做聚类分析的过程中主要有两个难题&＃xff1a;初始聚类中心的选择和聚类个数K的选择。

Spark MLlib对KMeans的实现分析

Spark MLlib针对"标准"KMeans的问题&＃xff0c;在实现自己的KMeans上主要做了如下核心优化&＃xff1a;

1. 选择合适的初始中心点

Spark MLlib在初始中心点的选择上&＃xff0c;有两种算法&＃xff1a;

随机选择&＃xff1a;依据给的种子seed&＃xff0c;随机选择K个随机中心点

k-means||&＃xff1a;默认的算法

val RANDOM &＃61; "random" val K_MEANS_PARALLEL &＃61; "k-means||"

2. 计算样本属于哪一个中心点时对距离计算的优化

假设中心点是(a1,b1)&＃xff0c;要计算的点是(a2,b2)&＃xff0c;那么Spark MLlib采取的计算方法是&＃xff08;记为lowerBoundOfSqDist&＃xff09;&＃xff1a;

对比欧几里得距离&＃xff08;记为EuclideanDist&＃xff09;&＃xff1a;

可轻易证明lowerBoundOfSqDist小于或等于EuclideanDist&＃xff0c;并且计算lowerBoundOfSqDist很方便&＃xff0c;只需处理中心点和要计算的点的L2范数。那么在实际处理中就分两种情况&＃xff1a;

当lowerBoundOfSqDist大于"最近距离"&＃xff08;之前计算好的&＃xff0c;记为bestdistance&＃xff09;&＃xff0c;那么可以推导欧式距离也大于bestdistance&＃xff0c;不需要计算欧式距离&＃xff0c;省去了很多计算工作
当lowerBoundOfSqDist小于bestdistance&＃xff0c;则会调用fastSquaredDistance进行距离的快速计算

关于fastSquaredDistance&＃xff1a;

首先计算一个精度&＃xff1a; val precisionBound1 &＃61; 2.0 * EPSILON * sumSquaredNorm / (normDiff * normDiff &＃43; EPSILON) if (precisionBound1 } else if (v1.isInstanceOf[SparseVector] || v2.isInstanceOf[SparseVector]) {val dotValue &＃61; dot(v1, v2)sqDist &＃61; math.max(sumSquaredNorm - 2.0 * dotValue, 0.0)val precisionBound2 &＃61; EPSILON * (sumSquaredNorm &＃43; 2.0 * math.abs(dotValue)) /(sqDist &＃43; EPSILON)if (precisionBound2 > precision) {sqDist &＃61; Vectors.sqdist(v1, v2)} } else {sqDist &＃61; Vectors.sqdist(v1, v2) } //精度不满足要求时&＃xff0c;则进行Vectors.sqdist(v1, v2)的处理&＃xff0c;即原始的距离计算

Spark MLlib中KMeans相关源码分析

基于mllib包下的KMeans相关源码涉及的类和方法&＃xff08;ml包下与下面略有不同&＃xff0c;比如涉及到的fit方法&＃xff09;&＃xff1a;

KMeans类和伴生对象
train方法&＃xff1a;根据设置的KMeans聚类参数&＃xff0c;构建KMeans聚类&＃xff0c;并执行run方法进行训练
run方法&＃xff1a;主要调用runAlgorithm方法进行聚类中心点等的核心计算&＃xff0c;返回KMeansModel
initialModel&＃xff1a;可以直接设置KMeansModel作为初始化聚类中心选择&＃xff0c;也支持随机和k-means || 生成中心点
predict&＃xff1a;预测样本属于哪个"类"
computeCost&＃xff1a;通过计算数据集中所有的点到最近中心点的平方和来衡量聚类效果。一般同样的迭代次数&＃xff0c;cost值越小&＃xff0c;说明聚类效果越好。
注意&＃xff1a;该方法在Spark 2.4.X版本已经过时&＃xff0c;并且会在Spark 3.0.0被移除&＃xff0c;具体取代方法可以查看ClusteringEvaluator

主要看一下train和runAlgorithm的核心源码&＃xff1a;

def train(// 数据样本data: RDD[Vector],// 聚类数量k: Int,// 最大迭代次数maxIterations: Int,// 初始化中心&＃xff0c;支持"random"或者"k-means||"initializationMode: String,// 初始化时的随机种子seed: Long): KMeansModel &＃61; {new KMeans().setK(k).setMaxIterations(maxIterations).setInitializationMode(initializationMode).setSeed(seed).run(data) }

/*** Implementation of K-Means algorithm.*/private def runAlgorithm( data: RDD[VectorWithNorm],instr: Option[Instrumentation]): KMeansModel &＃61; {val sc &＃61; data.sparkContextval initStartTime &＃61; System.nanoTime()val distanceMeasureInstance &＃61; DistanceMeasure.decodeFromString(this.distanceMeasure)val centers &＃61; initialModel match {case Some(kMeansCenters) &＃61;>kMeansCenters.clusterCenters.map(new VectorWithNorm(_))case None &＃61;>if (initializationMode &＃61;&＃61; KMeans.RANDOM) {// randominitRandom(data)} else {// k-means||initKMeansParallel(data, distanceMeasureInstance)}}val initTimeInSeconds &＃61; (System.nanoTime() - initStartTime) / 1e9logInfo(f"Initialization with $initializationMode took $initTimeInSeconds%.3f seconds.")var converged &＃61; falsevar cost &＃61; 0.0var iteration &＃61; 0val iterationStartTime &＃61; System.nanoTime()instr.foreach(_.logNumFeatures(centers.head.vector.size))// Execute iterations of Lloyd&＃39;s algorithm until converged// Kmeans迭代执行&＃xff0c;计算每个样本属于哪个中心点&＃xff0c;中心点累加的样本值以及计数。然后根据中心点的所有样本数据进行中心点的更新&＃xff0c;并且比较更新前的数值&＃xff0c;根据两者距离判断是否完成//迭代次数小于最大迭代次数&＃xff0c;并行计算的中心点还没有收敛while (iteration // 当前聚类中心val thisCenters &＃61; bcCenters.value// 中心点的维度val dims &＃61; thisCenters.head.vector.sizeval sums &＃61; Array.fill(thisCenters.length)(Vectors.zeros(dims))val counts &＃61; Array.fill(thisCenters.length)(0L)points.foreach { point &＃61;>// 通过当前的聚类中心点&＃xff0c;找出最近的聚类中心点// findClosest是为了计算bestDistance&＃xff0c;参考上述Spark对距离计算的优化val (bestCenter, cost) &＃61; distanceMeasureInstance.findClosest(thisCenters, point)costAccum.add(cost)distanceMeasureInstance.updateClusterSum(point, sums(bestCenter))counts(bestCenter) &＃43;&＃61; 1}counts.indices.filter(counts(_) > 0).map(j &＃61;> (j, (sums(j), counts(j)))).iterator}.reduceByKey { case ((sum1, count1), (sum2, count2)) &＃61;>axpy(1.0, sum2, sum1)(sum1, count1 &＃43; count2)}.collectAsMap()if (iteration &＃61;&＃61; 0) {instr.foreach(_.logNumExamples(collected.values.map(_._2).sum))}val newCenters &＃61; collected.mapValues { case (sum, count) &＃61;>distanceMeasureInstance.centroid(sum, count)}bcCenters.destroy(blocking &＃61; false)// Update the cluster centers and costsconverged &＃61; truenewCenters.foreach { case (j, newCenter) &＃61;>if (converged &&!distanceMeasureInstance.isCenterConverged(centers(j), newCenter, epsilon)) {// 距离大于&＃xff0c;则说明中心点位置改变converged &＃61; false}// 更新中心点centers(j) &＃61; newCenter}cost &＃61; costAccum.valueiteration &＃43;&＃61; 1}val iterationTimeInSeconds &＃61; (System.nanoTime() - iterationStartTime) / 1e9logInfo(f"Iterations took $iterationTimeInSeconds%.3f seconds.")if (iteration &＃61;&＃61; maxIterations) {logInfo(s"KMeans reached the max number of iterations: $maxIterations.")} else {logInfo(s"KMeans converged in $iteration iterations.")}logInfo(s"The cost is $cost.")new KMeansModel(centers.map(_.vector), distanceMeasure, cost, iteration)}

Spark MLlib的KMeans应用示例

准备数据

诺丹姆吉本斯主教中学(Notre Dame-Bishop Gibbons School) 71 0 0 283047.0 13289.0 海景基督高中(Ocean View Christian Academy) 45 0 0 276403.0 13289.0 卡弗里学院(Calvary Baptist Academy) 58 0 0 227567.0 13289.0 ...

2. 示例代码

//将加载的rdd数据&＃xff0c;每一条变成一个向量&＃xff0c;整个数据集变成矩阵 val parsedata &＃61; rdd.map { case Row(schoolid, schoolname, locationid, school_type, zs, fee, byj) &＃61;>//"特征因子":学校位置id,学校类型,住宿方式,学费,备用金val features &＃61; Array[Double](locationid.toString.toDouble, school_type.toString.toDouble, zs.toString.toDouble, fee.toString.toDouble, byj.toString.toDouble)//将数组变成机器学习中的向量Vectors.dense(features)}.cache() //默认缓存到内存中&＃xff0c;可以调用persist()指定缓存到哪//用kmeans对样本向量进行训练得到模型//聚类中心val numclusters &＃61; List(3, 6, 9)//指定最大迭代次数val numIters &＃61; List(10, 15, 20)var bestModel: Option[KMeansModel] &＃61; Nonevar bestCluster &＃61; 0var bestIter &＃61; 0val bestRmse &＃61; Double.MaxValuefor (c <- numclusters; i <- numIters) {val model &＃61; KMeans.train(parsedata, c, i)//集内均方差总和(WSSSE)&＃xff0c;一般可以通过增加类簇的个数 k 来减小误差&＃xff0c;一般越小越好&＃xff08;有可能出现过拟合&＃xff09;val d &＃61; model.computeCost(parsedata)println("选择K:" &＃43; (c, i, d))if (d //提取到每一行的特征值val features &＃61; Array[Double](locationid.toString.toDouble, school_type.toString.toDouble, zs.toString.toDouble, fee.toString.toDouble, byj.toString.toDouble)//将特征值转换成特征向量val linevector &＃61; Vectors.dense(features)//将向量输入model中进行预测&＃xff0c;得到预测值val prediction &＃61; bestModel.get.predict(linevector)//返回每一行结果((sid,sname),所属类别)((schoolid.toString, schoolname.toString), prediction)}//中心点/*val centers: Array[linalg.Vector] &＃61; model.clusterCenterscenters.foreach(println)*///按照所属"类别"分组&＃xff0c;并根据"类别"排序&＃xff0c;然后保存到数据库// saveData2Mysql是封装好的保存数据到mysql的方法resrdd.groupBy(_._2).sortBy(_._1).foreachPartition(saveData2Mysql(_))

上述示例只是一个简单的demo&＃xff0c;实际应用中会更复杂&＃xff0c;牵涉到数据的预处理&＃xff0c;比如对数据进行量化、归一化&＃xff0c;以及如何调参以获取最优训练模型。

推荐文章&＃xff1a;

Spark实现推荐系统中的相似度算法

关于一些技术点的随笔记录&＃xff08;二&＃xff09;

Spark存储Parquet数据到Hive&＃xff0c;对map、array、struct字段类型的处理

Kafka中sequence IO、PageCache、SendFile的应用详解

对Spark硬件配置的建议mp.weixin.qq.com

关注微信公众号&＃xff1a;大数据学习与分享&＃xff0c;获取更多技术干货

推荐阅读

process
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
search
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
search
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
search
2019年寒假强化训练：二分算法深度解析与实战演练

在2019年寒假强化训练中，我们深入探讨了二分算法的理论与实践应用。问题A聚焦于使用递归方法实现二分查找。具体而言，给定一个已按升序排列且无重复元素的数组，用户需从键盘输入一个数值X，通过二分查找法判断该数值是否存在于数组中。输入的第一行为一个正整数，表示数组的长度。这一训练不仅强化了对递归算法的理解，还提升了实际编程能力。 ... [详细]

蜡笔小新 2024-11-08 16:59:56
search
深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例

深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例 ... [详细]

蜡笔小新 2024-11-07 20:50:46
search
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
search
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
filter
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
char
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
integer
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
char
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
char
深入解析 Lifecycle 的实现原理

本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理，帮助开发者更好地理解和使用 Lifecycle，避免常见的内存泄漏问题。 ... [详细]

蜡笔小新 2024-11-12 14:05:19
replace
如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解

如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解 ... [详细]

蜡笔小新 2024-11-11 02:42:52
replace
Spring框架中枚举参数的正确使用方法与技巧

本文详细阐述了在Spring Boot框架中正确使用枚举参数的方法与技巧，旨在帮助开发者更高效地掌握和应用枚举类型的数据传递，适合对Spring Boot感兴趣的读者深入学习。 ... [详细]

蜡笔小新 2024-11-09 20:34:17
tree
2018 HDU 多校联合第五场 G题：Glad You Game（线段树优化解法）

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=6356在《Glad You Game》中，Steve 面临一个复杂的区间操作问题。该题可以通过线段树进行高效优化。具体来说，线段树能够快速处理区间更新和查询操作，从而大大提高了算法的效率。本文详细介绍了线段树的构建和维护方法，并给出了具体的代码实现，帮助读者更好地理解和应用这一数据结构。 ... [详细]

蜡笔小新 2024-11-08 19:17:23

mobiledu2502889415

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章