本节书摘来自华章计算机《Hadoop与大数据挖掘》一书中的第2章,第2.7节,作者 张良均 樊哲 位文超 刘名军 许国杰 周龙 焦正升,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
本章首先介绍了Hadoop的基本概念、原理以及Hadoop生态系统各个框架。接着,介绍了Hadoop的安装配置以及开发环境IDE配置。在此基础上介绍了Hadoop常用的集群命令、Hadoop MapReduce编程开发原理,针对MapReduce编程开发,详细介绍了Map-Reduce原理、单词计数源码分析,结合源码分析了MapReduce原理。在本章的最后两个小节,分别介绍了数据挖掘中的经典算法:K-Means算法、TF-IDF算法,并针对其Hadoop MapReduce实现进行了详细分析。同时,本章中包含大量动手实践章节,