当前位置: 开发笔记 > 大数据 > 正文

《Hadoop与大数据挖掘》一2.5KMeans算法原理及HadoopMapReduce实现

作者：了不起的老狐_226 | 来源：互联网 | 2023-09-07 16:01

hadoop,与,大,数据,挖掘,一,2,5,k,means,算法,原理,及,hadoop,ma

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.5节，张良均樊哲位文超刘名军许国杰周龙焦正升著更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.5 K-Means算法原理及Hadoop MapReduce实现

2.5.1 K-Means算法原理
K-Means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表。它是将数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则（如图2-45所示）。K-Means算法以欧氏距离作为相似度测度，求对应某一初始聚类中心向量V最优分类，使得评价指标最小。算法采用误差平方和准则函数作为聚类准则函数。

具体的算法步骤如下：
1）随机在图中取K（这里K＝2）个种子点。
2）然后对图中的所有点求到这K个种子点的距离，假如点P

推荐阅读

hadoop
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
flink
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
hadoop
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
hadoop
MapReduce 切片机制源码分析

总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]

蜡笔小新 2023-10-16 13:03:18
日志
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
zookeeper
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
hadoop
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17
hadoop
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
hadoop
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
hadoop
大数据就业前景及人才需求

近年来，大数据成为互联网世界的新宠儿，被列入阿里巴巴、谷歌等公司的战略规划中，也在政府报告中频繁提及。据《大数据人才报告》显示，目前全国大数据人才仅46万，未来3-5年将出现高达150万的人才缺口。根据领英报告，数据剖析人才供应指数最低，且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示，未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中，60%以上的招聘职位都是针对大数据人才的。 ... [详细]

蜡笔小新 2023-12-14 16:25:20
hadoop
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
hadoop
分享篇：第十届“泰迪杯”数据挖掘挑战赛农田害虫图像识别（特等奖）一

1.1赛题背景昆虫的种类浩如烟海，农田常见的昆虫是人工生态系统的重要组成部分。分辨益虫和害虫，保留益虫，消灭害虫，对于减轻害 ... [详细]

蜡笔小新 2023-10-15 19:37:42
数据分析
大数据学习入门难，给初学者支招

大数据学习入门难，给初学者支招 ... [详细]

蜡笔小新 2023-10-15 08:30:02
数据分析
数据可视化技术的应用，行业优秀案例分享

数据可视化并不是什么新型技术，二十世纪50年代电子计算机图形学的初期，就可以利用软件建立出了第一批图形图表。伴随着近几年来大数据备受关注， ... [详细]

蜡笔小新 2023-10-14 13:12:48
日志
sqlserver触发器写法_技术书籍荐读不可错过的SQL Server数据库书单来袭！

朱熹读书之法，在循序渐进，熟读而精思。2019年转眼就要过去了，这一年，你读了哪些书，得到了哪些收获ÿ ... [详细]

蜡笔小新 2023-10-14 10:40:34

了不起的老狐_226

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章