热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

Hadoop自学笔记(三)MapReduce简介

1.MapReduceArchitectureMapReduce是一套可编程的框架,大部分MapReduce的工作都可以用Pig或者Hive完成,但是还是要了解MapReduce本身是如何工作的,因为这才是Hadoop的核心,并且可以为以后优化和自己写做准备。JobClient,就是用户JobTracker和Task

1. MapReduce Architecture MapReduce是一套可编程的框架,大部分MapReduce的工作都可以用Pig或者Hive完成,但是还是要了解MapReduce本身是如何工作的,因为这才是Hadoop的核心,并且可以为以后优化和自己写做准备。 Job Client, 就是用户 Job Tracker和Task

1. MapReduce Architecture

MapReduce是一套可编程的框架,大部分MapReduce的工作都可以用Pig或者Hive完成,但是还是要了解MapReduce本身是如何工作的,因为这才是Hadoop的核心,并且可以为以后优化和自己写做准备。

Job Client, 就是用户

Job Tracker和Task Tracker也是一种Master - Slave构建

工作流程(MapReduce Pipeline)

Job Client提交了MapReduce的程序(比如jar包中的二进制文件),所需要的数据,结果输出位置,提交给Job Tracker. Job Tracker会首先询问Name Node, 所需要的数据都在哪些block里面,然后就近选择一个Task Tracker(离这些所需数据最近的一个task tracker,可能是在同一个Node上或者同一个Rack上或者不同rack上),把这个任务发送给该Task Tracker, Task Tracker来真正执行该任务。Task Tracker内部有Task Slots来真正执行这些任务。如果执行失败了,Task Tracker就好汇报给Job Tracker, Job Tracker就再分配给别的Task Tracker来执行。Task Tracker在执行过程中要不断的向Job Tracker汇报。最后Task Tracker执行完成后,汇报给Job Tracker,Job Tracker就更新任务状态为成功。

注意,当用户提交一个MapReduce任务的时候,不仅仅同时把任务提交给Job Tracker,同时还会拷贝一份到HDFS的一个公共位置(图中的咖啡位置),因为传递代码和命令相对要容易一些,然后Task Tracker就可以很方便的得到这些代码。

具体步骤就是图中的7步。

\

2. MapReduce Internals

Split阶段:根据Input Format,把输入数据分割成小部分,该阶段与Map任务同时运行,分割后就放到不同的Mapper里面。

Input Format: 决定了数据如何被分割放入Mapper。比如Log, 数据库,二进制码,等。

Map阶段:把分割后传入的splits转化成一些key-value对,如何转化取决于用户代码怎么写的。

Shuffle & Sort阶段:把Map阶段得到的数据归类,然后送给Reducers。

Reduce阶段:把送入的Map数据(Key, Value)按照用户的代码进行整合处理。

Output Format: Reduce阶段处理完后,结果按照此格式放入HDFS的输出目录。

Imperative Programming Paradigm: 把计算当做一系列改变程序状态的过程。也就是程序化编程。更加关注对象和状态。

Functional Programming Paradigm: 大致就是函数化编程,把一系列计算作为一个数学函数。Hadoop使用的是这种编程范式。有输入,有输出;没有对象没有状态。

为了优化起见,Hadoop还添加了更多的一个接口,combine阶段,见下图。主要是在输送到Shuffle/sort阶段前,现在本地进行一次小的Reduce计算。这样可以省很多带宽(还记得job的代码放入一个公共区域了吗)

\

上面的整个过程看上去可能不那么直观,但是这是Hadoop最难理解的部分了。理解了这个流程(Hadoop Pipeline),就更容易理解以后的内容了。

3. MapReduce Example

举例子来说明,在实际的机器操作中Hadoop如何完成上述任务。

在Windows环境下安装了一个hyperV软件,里面有四个Hadoop节点,每个Hadoop节点都是一个Ubuntu环境。

\

可以看到上面有一个Name Node,还有三个Data Node。

首先,连接上Name Node,并且打开一个Data Node节点。进入Name Node的Ubuntu系统中,打开一个终端,输入jps,可以看到jvm里面正在运行的东西。

\

在Data Node机器中运行同样命令,可以看到里面运行着DataNode, Jps, TaskTracker三个内容。

首先进入Data Node的机器里面,到根目录下面创建一个文件,叫words.txt,文件内容就是上图中要分析的一些词。

\

第二步,把这个Words.txt文件放入HDFS中。

首先

hadoop/bin/hadoop fs -ls

查看目前HDFS中的文件

然后新建一个文件夹

Hadoop/bin/hadoop fs -mkdir /data

\

我们可以使用浏览器来看看HDFS中的文件系统

浏览器中输入hnname:50070,打开Web UI

\

可以再Live Nodes里面看到刚刚新建的data文件夹,执行

hadoop/bin/hadoop fs -copyFromLocal words.txt /data

然后words.txt就拷贝到/data文件夹下了,可以使用Web UI来验证。

第三步,执行MapReduce 任务。这个任务是统计单词频率,这个任务已经由现成的jar包写好了,在hadoop/bin/目录下,hadoop-examples-1.2.0.jar. 这个文件里面有很多很多写好的MapReduce任务。

\

执行命令:

Hadoop/bin/hadoop jar hadoop/hadoop*examples.jar wordcount /data/words.txt /data/results

先指定jar包,再指定程序名wordcount, 再指定输入数据/data/words.txt 最后是输出目录/data/results, 没有目录会创建一个。

\

执行完成后,可以通过Web UI来看执行结果。

\

我擦,原来的图片太多了发不了,不得不说删掉几张。。。。


推荐阅读
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • hive和mysql的区别是什么[mysql教程]
    hive和mysql的区别有:1、查询语言不同,hive是hql语言,MySQL是sql语句;2、数据存储位置不同,hive把数据存储在hdfs上,MySQL把数据存储在自己的系统 ... [详细]
  • hadoop3.1.2 first programdefault wordcount (Mac)
    hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]
  • 本文介绍了Hadoop的核心组件,包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量,分析了当输入数据超过128MB时是否会自动拆分,以及Map数量是否越多越好的问题。通过实际案例和实验数据,本文提供了具体的配置建议,帮助用户在不同场景下实现最佳性能。 ... [详细]
  • 本文介绍了如何使用Hive分析用户最长连续登录天数的方法。首先对数据进行排序,然后计算相邻日期之间的差值,接着按用户ID分组并累加连续登录天数,最后求出每个用户的最大连续登录天数。此外,还探讨了该方法在其他领域的应用,如股票市场中最大连续涨停天数的分析。 ... [详细]
  • 如何提升Python处理约1GB数据集时的运行效率?
    如何提升Python处理约1GB数据集时的运行效率?本文探讨了在后端开发中使用Python处理大规模数据集的优化方法。通过分析常见的性能瓶颈,介绍了多种提高数据处理速度的技术,包括使用高效的数据结构、并行计算、内存管理和代码优化策略。此外,文章还提供了在Ubuntu环境下配置和测试这些优化方案的具体步骤,适用于从事推荐系统等领域的开发者。 ... [详细]
  • sh cca175problem03evolveavroschema.sh ... [详细]
  • 本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文,读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录,从而顺利启动 Hadoop 集群。 ... [详细]
author-avatar
手机用户2602882697
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有